弘业股份 大模型发展暂时放缓,万卡集群是问题的答案吗 | 海斌访谈
发布日期:2024-09-07 10:48 点击次数:92这一轮的人工智能爆发弘业股份,很大程度上是大力出奇迹。
通过堆叠更多算力,大模型呈现令人吃惊的效果。其中的标志性企业是OpenAI。不过,现在它的新一代大模型推出时间比业内预期的要晚,大模型发展似乎暂时放缓了。
“支撑模型能力迈向下一代的算力系统还需要研发和构建。”在近日的世界人工智能大会期间,无问芯穹CEO夏立雪这样说。
大模型慢下来
人工智能的发展经历了数次浪潮起伏。
“从2012年AlexNet论文发布,我们之前从1兆的模型到现在几十亿参数的规模,形成了非常快速的发展,人工智能现在的发展基于算力高效的集成。现在GPT模型背后的基础transformer的结构,都和GPU的算力硬件结构高度匹配。”夏立雪表示,可以说在人工智能整个发展的历程中,算力和算法一直处于互相促进的过程,或者是鸡生蛋,蛋生鸡的模式。
他认为,早期的模型也是被算力限制才没有发挥最大的价值,现在GPT这样的模型,在充裕的算力基础上,才可以产生值得人期待的能力。
ChatGPT是OpenAI开发的大模型,后者是业界瞩目的风向标。它的出现,引领了国内外众多企业的跟进。不过,它的GPT-5比公众预期的晚了。该公司的CEO萨姆·奥尔特曼虽然认为GPT-5相较上一代产品会有重大飞跃,但谈到上市时间则说“我们也不知道”。
在奥尔特曼看来,制约该公司大模型发展的因素就是没有足够的服务器。
“大家认为在GPT-4之后,整个算法能力的发展进入了相对放缓,甚至是停滞的阶段。”夏立雪说,问题在于背后支撑算法所需要的算力遇到了瓶颈,从而使得模型发展进入了放缓的状态,或者说支撑模型能力迈向下一代的算力系统还需要研发和构建。
在整个AI智能发展当中,算力是AI发展的前哨和基石。当下大模型发展放缓。遵循大算力、大参数规律的Scaling Law是不是到了尽头?
“任何的技术都有自己有效性的时间段。早期的Scaling Law非常的简单,它单纯只关注模型的参数量,但是后来大家发现参数量的大小,只是其中一个变量,它还包括了训练用的数据量,再后来又发现跟计算量也有关系。所以Scaling Law本身的内涵也在不断的变化。”智谱AI首席执行官张鹏对第一财经表示,“现在可能计算量更重要,它是融合了算力和数据、参数规模,最终得到的一个综合性变量,这样来代表Scaling Law。从计算量的角度来看,我们认为它还是有效的。”
简单粗暴的算力规模扩张,曾带来显而易见的技术跃迁。国内以及国外的科技巨头们,都在继续遵循上述规则,加大对算力资源的投入。这种大规模的投资往往是以亿美元起步。
OpenAI此前被爆出正与微软合作,准备构建超级计算系统“星际之门”,投资的规模可能达到千亿美元。美国的微软、谷歌、Meta,以及中国的字节跳动、阿里等头部企业在构建万卡,甚至是十万卡的大算力集群。
集群的挑战
“我们认为AI主战场,万卡是最低标配。”摩尔线程CEO张建中说。
智算中心是大语言模型训练的超级加工厂。大模型竞争激烈,缩短训练时间是企业的基本诉求。
“这个行业变化实在太快了,如果两周没有更新模型,用户可能就会流失。所以训练时间非常重要,不管多大的模型,客户都希望两周之内结束战斗,最迟要在一个月内把大模型训练出来。”张建中对第一财经记者表示。
以5000亿参数的模型为例,如果配以15TB的数据,如果只有1000P算力,那可能三年时间都难以完成模型的训练。如果想将同样的模型训练时间压缩到一个月,万卡集群是基本的配置。
“如果一家大模型公司,发现一个智算中心只500P、1000P的算力,要在这样的模型加工厂里训练出一个很有竞争力的大模型,这个难度应该是非常高的。”张建中认为,从需求来看,万卡以上的智算中心更有价值,“从今年开始,所有的智算中心肯定是,万卡是最低标配。”
智算中心的万卡集群,想要实现其算力价值最大化,其实很难。
大模型训练是一个系统工程,需要软件和硬件结合起来。单芯片的算力做不上去,就需要千卡集群、万卡集群以提升算力,这对于网络和基础设施的要求更高。智算中心配备了超大规模集群之后,最终软件能否把算力发挥出来,同样重要。
“你本身的集群调度效率怎么样?调度效率有时候会被大家忽略掉,超大规模的集群不是你的卡每时每刻都在用。大模型大规模的参数,在超大规模集群里面怎么样做模型的拆分,才能真正让算力有效发挥出来,这是非常关键的。”在世界人工智能大会期间,壁仞科技副总裁兼AI软件首席架构师丁云帆表示。
大规模的集群都有稳定性的问题,无论是国产卡还是英伟达。
“这个是大家逃避不过去的,故障率是相对比较高的。比如给你分配了10个小时,有可能实际只用了8个小时。”丁云帆说,万卡集群的故障是不是可以自动化检测出来,能不能快速恢复,都是重大考验。
壁仞用自主创新研发的技术,结合GPU的显存和CPU的内存,甚至是多节点内存的备份系统去达到这样一个平衡大幅降低故障恢复成本。软件有效算力总结起来有三点,第一是软硬结合的计算效率,第二是集群调度效率怎么样,第三是出现故障时的处理效率怎么样。
“现在随着国产GPU的落地,算力孤岛的问题可能会更严峻一点。”丁云帆表示,“像壁仞科技和很多国产卡都落地了,这又会出现新的算力池。对用户来讲有一个现实的问题,你有这么多的小的算力池,是不是能够聚合起来去训练一个大的模型?这就是异构聚合算力,但要解决互连互通和协同效率等关键挑战。”
谷歌从成为世界第一的搜索引擎,到探索出成功的商业落地路径,花了六七年时间;Meta同样花相当长的时间才实现商业回报。ChatGPT已经是历史上最快达到一亿用户的应用。
大模型也许只是需要更多一点时间。“它已经发展得非常快了,所以保持一点耐心。”张鹏表示。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者彭海斌
相关阅读 数字经济核心产业增加值约占一成GDP,投融资增速持续领跑|言叶知新生成式人工智能(AIGC)成为投资新晋热点。通用大模型、元宇宙/数字人、AI芯片三个细分领域的融资最为活跃,通用大模型的融资金额增长较快。
从数字看发展 07-04 22:27 国内首颗量产全功能数据处理器芯片面市 随智算中心铺开有望迎需求放量|行业风口06-21 16:00 “百模大战”打了一年: 应用企业仍在摸着石头过河
大模型应用企业仍在摸着石头过河。
06-05 13:14 中贝通信:新基建新能源双轨发展 持续发力国际业务2023年中贝通信国际业务获取新订单超9亿元人民币,营业收入4.09亿元,总营收占比14.29%,同比增长24.11%。
05-31 09:48 英伟达H20降价传闻影响持续 多只算力概念股触及跌停站在算力租赁企业的角度来看,在可获得性和成本的双重钳制之下弘业股份,“拥有英伟达算力卡”这一光环正在褪色。
05-27 12:16 一财最热 点击关闭