高性能计算已从计算密集型走向数据密集型,如何加速海量数据价值挖掘

发表于 讨论求助 2023-08-29 22:34:48

光交换机

hpc是驱动科研创新的重要计算引擎,帮助人们从海量的数据中探索人类社会和宇宙的未来。随着与大数据、ai等新的数据分析工具结合,hpc的诉求也从以数值计算为主,走向与大数据知识挖掘及ai训练推理结合的hpda高性能数据分析时代。

以一次完整的高性能基因组学分析流程为例,包含数据预处理、高性能计算、ai仿真、归档。其中涉及到不同大小文件处理、不同时延响应诉求;也涉及nfs、mpi-io、hdfs和s3等多种协议的混合访问。hpc已从单域silo数值计算到数据为核心的全流程数据分析,每次分析会有2~3次数据搬迁,造成数据膨胀,一台分析设备每年生产10pb数据,需要融合数据存储资源池减少数据膨胀和迁移。

此外,很多新兴业务也对高效数据处理提出了更高要求,如应急救灾,需要对灾情做实时监测,以便展开有效救援。这类海量数据大规模并发、实时分析的业务,对it系统提出了更高要求。为应对上万规模的前端客户端并发访问,需要通过应用与存储协同,实现近数据处理,全面加速数据处理效率。

最后,企业的数据在无处不在,加之在"东数西算”、”东数西存”战略牵引下,跨地域数据流动与查询分析会普遍存在。对企业 来说,将会面临更复杂的数据量大、数据分散、数据多元化的难题。

为应对海量数据大规模并发,支撑多样化应用实时分析和跨域数据融合处理, 华为推出了datarobot hpda存储集群解决方案,是业界首个数据加速引擎加持的hpda全栈方案,旨在以全栈创新加速海量数据价值挖掘。

数据应用加速

华为存储构建面向hpda应用的数据加速引擎dataturbo,联接应用与存储,使能hpda应用极致性能。

dataturbo数据加速引擎由全局数据管理和应用加速引擎组成,其中应用加速引擎内置了自研网卡芯片和hpc、大数据加速套件,通过i/o聚合算法、统一元数据网关、芯片i/o卸载等黑科技,结合与生态应用伙伴的深度调优 ,实现数据处理效率倍数提升。

通过dataturbo数据加速引擎应用加速能力、oceanstor存储的全局共享存储能力,在面向e级超算场景下,实现万级计算客户端并发访问,且单集群达到50tb/s带宽,10亿iops能力,性能领先业界30%。在面向实时分析的大数据场景下,实现百pb数据查询10分钟降至10秒。

数据跨域管理

datarobot hpda集群存储的dataturbo提供的全局数据管理组件,它基于统一元数据,构建全局命名空间,实现跨域数据统一访问,让全局数据可见。再通过智能的调度策略,让数据按照制定的策略进行流动,实现3倍数据调度效率提升。

数据绿色节能

数据中心平均每年能耗300kwhwh/tb ,随着数据量爆发式增长,超算中基于存储的耗电增长超过20%/年。华为datarobot hpda存储集群解决方案通过两方面节能:

1. 在硬件设计上,采用了全新一代的液冷设计,其次通过高密等设计有效提升了功耗密度,将整机柜的pue降低到1.25以下,综合能耗减少30%。

2. 在存储系统设计上,通过热温冷数据智能分级设计,实现三个层级的数据自动流动:本地集群内实现ssd、hdd主存储、蓝光存储间的数据分级;跨集群数据远程自动分级到其他数据中心;本地数据中心到公有云的数据分级流动。通过将数据放置在最合适的位置,实现跨数据中心层面的整体节能。

值得一提的是,基于华为datarobot hpda存储集群的自研多模型数据合并压缩技术,可以将数据在本地压缩后再传输,极大的节省传输带宽和存储空间,最终实现十年整体tco降低70%以上。

全栈敏捷

面对业界超算平台复杂、设备选型困难 和交付周期长的问题,华为datarobot hpda存储集群方案提供了包含基础柜、计算柜和存储柜在内的三类模块化硬件组合,基于最佳实践的典配机柜设计,有不同规模业务场景可按需选择部署、灵活扩展。基于其提供的一站式交付能力,可帮助用户业务上线时间缩短50%,让用户更容易聚焦业务。

此外,方案还提供统一运维平台dme,能够将多个数据中心的存储、计算、网络、容器等资源统一管理,实现管理“一张网”。面向数据中心建设,dme还提供从资源规划、端到端资源发放、设备运维,到资源优化全生命周期管理,相比传统管理模式,能够实现5倍的管理效率提升。同时,其提供的 ai智能运维能够帮助企业实现分钟级的问题定界,帮助企业实现运维管理无忧。

发表
26906人 签到看排名