当前位置:首页 >  前沿技术

大数据存储技术正在改善基因组研究

发布时间:2021-10-08 14:00:20

我一直认为,在IT规划中,存储和内存并没有得到足够的重视,尤其是在作为大数据特征的超大数据文件领域。

例如,想象一下,您可以虚拟化和扩展内存处理,以消除数据阻塞和I/O问题,并通过这样做成倍地缩短结果生成时间,无论是实时还是批处理?现在想象一下,在不损失速度的同时,您的内存可以连续拍摄数据快照,并在需要时提供近乎即时的故障切换和恢复?

参见:电子数据处理政策(TechRepublic Premium)

对于一个基因组研究机构或大学来说,处理大量基因组数据需要几天的时间,这些能力将是非常宝贵的。

在宾夕法尼亚州立大学,基因组研究中使用的数据比可用的内存大。软件不断出现内存不足的错误,导致研究人员无法对大型正交组进行基因比对,这些正交组是由单个基因衍生的一组基因。在不支持大内存占用的各种操作平台、数据库和编程环境中,收到OOM错误并不罕见,因此工作人员并不感到惊讶。然而,不幸的是,这些基因组工作负载可以运行数小时甚至数天。当作业崩溃时,必须从一开始就重新启动作业,这需要花费时间和金钱。

MemVerge产品管理副总裁田勇表示:“对于实时和长期运行的用例,当数据集的大小达到数百GB或TB时,各种性能问题的根本原因是数据大于内存或DGM。”。本应耗时数秒的日常数据管理操作变得极其缓慢。加载、保存、快照、复制和传输数百GB的数据需要几分钟到几小时

田说,使用大数据的应用程序的主要瓶颈是对存储的I/O。“最快的SSD(固态驱动器)比内存慢1000倍,最快的磁盘比内存慢40000倍。DGM增长越多,对存储的I/O越多,应用程序运行越慢,”他解释道。

该问题的一个解决方案是内存资源虚拟化,它作为内存资源软件抽象层发挥作用,就像VMware vSphere是计算资源的抽象层,VMware NSX抽象网络一样。

MemVerge的数据管理使用虚拟化动态随机存取内存(DRAM)和持久性内存来绕过访问存储介质(如SSD)通常需要的I/O,尽管SSD具有巨大的数据存储容量,但访问速度要慢1000倍。由于内存中已经存在DRAM,因此没有I/O“拖拽”。DRAM还可以存储数据

最终的结果是通过使用DRAM增加了更高的容量和更低的成本。这使您能够经济高效地扩展内存容量,以便所有数据都可以装入内存,从而消除DGM。

参见:雪花数据仓库平台:备忘单(免费PDF)(TechRepublic)

组织看到了什么样的结果?

“在一个案例中,分析生物科学需要在其单细胞测序分析管道的11个阶段中的每个阶段从存储器中加载250GB的数据,”田说。“从存储器加载数据和执行带有I/O的代码到存储器消耗了61%的发现时间(管道的总完成时间)……现在使用虚拟化DRAM,基因组管道每个阶段必须完成的250GB重复数据加载现在只需一秒钟,而不是13分钟。”

同时,在宾夕法尼亚州立大学,所有的系统崩溃都已通过虚拟内存DRAM存储消除。如果出现系统崩溃,内存中的快照发生得非常快,很容易从最后一次快照开始快速重新启动。

虚拟化DRAM是超大文件、大数据处理和数据恢复方面的一项突破,在大学环境之外也很有用

商业部门的实时大内存应用包括金融服务中的欺诈检测、零售中的推荐引擎、实时动画/VFX编辑、社交媒体中的用户配置和高性能计算(HPC)风险分析。

《大数据存储技术正在改善基因组研究》不代表本网站观点,如有侵权请联系我们删除

云计算专题

科技之窗版权所有