大模型时代信创AI算力基础设施的挑战与应对之道_安博电竞app怎么下_anggame安博电竞
您好,欢迎光临安博电竞怎么下载!
安博电竞怎么下载
大模型时代信创AI算力基础设施的挑战与应对之道
人气:1 发布时间:2023-12-14 19:37:44   来源:安博电竞怎么下载

  在“百模大战”硝烟弥漫的今天,不仅智能算力需求将加速释放,也将带来信创AI的又一轮迭代和高爆发,国内信创AI算力的建设即将进入崭新的发展阶段,也迎来新的挑战。

  前不久,中国电信AI算力服务器(2023-2024)集采项目启动。备受业界关注的是,这不单单是中国电信第一次将AI算力服务器作为独立品类进行集采,而且其中鲲鹏相关的AI算力份额接近50%。可以说,中国电信这一轮集采其目标就是瞄准了大模型训练。当然,这批AI服务器目测不仅仅是服务于中国电信自研的大模型训练,也将为更多中国电信的用户更好的提供大模型训练所需的算力服务。中国电信的这一轮集采,说明了以运营商为代表的算力供给方,其算力布局的重心慢慢的开始向智算倾斜。但,这只是一个切面。

  近几年,随着“东数西算”和智能计算中心的加速落地,以及国家对于新基建的政策扶持,各地也都纷纷开始大力推进AI计算及研究。国家信息中心与有关部门联合发布的《智能计算中心创新发展指南》显示,截止2023年1月,全国有超过30个城市正在建设或提出建设智算中心。“十四五”期间,对智算中心的投资可带动AI核心产业增长约2.9到3. 4倍。未来5年,中国智能算力规模年复合增长率将超过50%。到2025年,中国AI核心产业规模将超过4000亿元,带动相关产业规模将超过5万亿元。

  在“百模大战”硝烟弥漫的今天,能预见的是,随着大模型训练带来的数据量、参数规模的“指数级”增长,以及东数西算工程建设的逐步落地完成,不仅智能算力需求将加速释放,也将带来信创AI的又一轮迭代和高爆发,国内信创AI算力的建设即将进入崭新的发展阶段,也迎来新的挑战。

  近年来,集算力、存力、运力于一体的综合算力水平,越来越成为基础设施建设高水平发展的新评价指标。据中国信息通信研究院近期发布的《中国综合算力评价白皮书(2023年)》显示,截至2022年年底,我国算力核心产业规模达到1.8万亿,算力总规模达到180EFlops,年增长率近30%;存力总规模超过1000EB;国家枢纽节点间的网络单向时延降低到20毫秒以内。但即便如此,随着大模型时代的到来,算力需求暴涨、运力压力剧增、数据安全隐忧等诸多挑战依然严峻。

  从算力层来看,算力发展应用多元化、供需不平衡、分配不平衡、效能比不平衡的挑战仍在持续,计算技术亟需在理论架构和软硬件实现层面产生质的飞跃。据行业调研分析,预计到2030年全球智能算力将达到105Z Flops,是现在500倍,上涨的速度远超通用算力的10倍。但国外目前尖端的A100、H100 GPU处理模块不对我国市场开放,而专门针对中国市场推出的A800和H800又一卡难求,交期漫长。其次,目前国内大模型的训练还是“高端局”,算力供给也相对集中向几个大厂配给,企业用户想要获得算力的资源很难,算力分配上也存在不均衡。最后,建立一个智算中心成本通常以亿为单位,数据模型训练成本也在千万级徘徊居高不下,大量的场景需求和大型AI算力中心建设的高准入门槛相互对立,进一步加剧了供需矛盾。

  在基础网络层,大模型极其庞大的参数规模,对运力提出了严峻挑战。从2017年到2023年,不到10年的时间里,大模型参数从千万级规模增长到5000亿级,暴增了5万倍。由于参数量巨大,单个GPU卡早已不堪重负,多卡互联形成智算算力集群是目前的主流解决方案,但国内传统使用的无链接网络技术和向上收敛的网络架构,在通信连接、算力调度、稳定性等方面仍有诸多问题,丢包、重传等频繁出现对智算中心模型训练将会带来致命问题。

  同时,大模型时代,数据安全也毫无疑问面临更多挑战。企业使用大模型+AI算力中心赋能数字化转型,往往需要经过预训练,精调,推理等三个环节。但无论是客户使用AI算力资源,上传数据到厂商环境训练,还是模型落地企业客户本地化私有部署环境,或者精调、训练等环节都不免会涉及数据和模型泄露的风险。

  近日,在世界制造业大会上,作为神州数码信创产业布局的核心载体,神州鲲泰针对中国智造的实际场景,提出了应对创新智算基础设施挑战的解决之道。

  所谓创新的智算基础设施,一方面更强调用中国自主创新技术,赋能基础设施层的创新和迭代,另一方面也体现自动生成式AI带来的巨大变革。当前创新的智算基础设施,正在成为包括中国人机一体化智能系统在内的各行各业数字化转型的坚实基础,构筑强大的底座。

  针对算力挑战,神州鲲泰基于昇腾主板的全系列AI服务器,覆盖从训练到推理的全部场景,平台的解决能力很强大,并具备完善的服务体系和本地化交付能力。针对数据安全挑战,神州鲲泰结合自己全系列基于鲲鹏底座的通用算力产品,构建“CPU+GPU+SPI”的异构智算算力平台,更好地满足国内企业数字化转型对算力和安全的需求。针对运力挑战,通过神州鲲泰独有的云管理平台,以及AI服务器和网络的深层次地融合,能自动实现对网络节点的快速配置和调优、验证,以及智算算力中心全局端到端流量负载分担,保证算力数据的高效转发,努力实现“零差错、零丢包”,训练效率相较同类型产品提升20%。与此同时,分布式全闪智算存储平台,基于全闪的存储介质,能很好的满足对于存储性能的要求,采用分布式存储技术,充分满足对于存储容量的需求,成为支撑智算中心高效运转的存力底座。

  与此同时,基于三个产品平台,神州鲲泰正联合生态伙伴,推出了一系列满足企业数字化转型场景使用的方案型产品,包括超融合一体机,分布式全闪存储一体机,数据安全一体机,为企业客户提供更便捷、易用的场景化方案产品。

  深化自主创新,赋能数字产业高质量发展,创新智能基础设施全栈智算解决之道是神州鲲泰给出的回应和解答,深度融入“鲲鹏+昇腾”产业生态,凭借神州数码20年的深厚产业理解和数字时代的前瞻预判,神州鲲泰正走出自己的独特智算路径。