全球最大超算中心Supercluster开始运转,马斯克的AI野心显露

界面新闻 陈振芳
2024-07-24

1354765.PNG


美国田纳西州孟菲斯,全球最大超级计算中心“Supercluster”已于当地时间7月22日凌晨4:20正式开始运转。该项目隶属于马斯克旗下的xAI。


埃隆·马斯克最近在社交平台“X”上宣布了这一消息。他表示,xAI公司已开始在“Supercluster”上进行训练,该集群由10万个液冷英伟达(Nvidia)H100 GPU组成,在单个远程直接数据存取(RDMA)结构上运行,号称是“世界上最强大的AI训练集群”。


对比来看,OpenAI训练GPT4,需要用到25000块A100GPU,约为前者的1/20。


“它是世界上最强大的AI训练集群。”马斯克声称,Supercluster将全方位、深层次地参与并加速“世界上最强大人工智能”的训练过程。


从GPU规模上来看,这一集群已经全面超越了最新Top500榜单上的任何一台超级计算机,包括超过配备37888个AMDGPU的Frontier、60000个IntelGPU的Aurora,以及14400个NvidiaH100GPU的MicrosoftEagle,在规模和训练效率被公认为全球最强大的AI训练平台。


xAI创始成员TobyPhln表示,“一年前创办这家公司时,我们的目标是实现三大优势:数据优势、人才优势和计算优势。从今天开始,我们拥有了这三项优势。”马斯克随后转载了这一消息。


Supercluster原定于2025年秋季启动,xAI提前了一年实现该目标。


据福布斯报道,据大孟菲斯商会主席Ted Townsend透露,马斯克仅花费一周,就决定将他的人工智能初创公司xAI的新超级计算机建造在孟菲斯。


“经过3月份的几天旋风式谈判之后,马斯克和他的团队(其中包括他旗下几家公司的代表)选择了田纳西州的这座城市。”Ted Townsend解释称,这里有充足的电力和快速建设的能力,该项目将价值数十亿美元。在选择孟菲斯之前,xAI还与其他七八个城市进行了洽谈。


今年6月份,Ted Townsend曾告诉彭博社,有关新厂的许多细节尚未披露,包括总成本和将创造的就业数量。他表示,该市还讨论了向xAI提供税收减免或其他商业激励措施,以吸引项目落户孟菲斯,但具体细节尚未敲定。


xAI承包商将该项目称为“巨人项目”(Project Colossus),源自于1970年的科幻电影《巨人:福宾计划》,讲述的是一个失控的人工智能被赋予美国核武库控制权的故事。“巨人,它能看到一切,感知一切,了解一切,控制所有武器和防御。当这个没有感情的造物成为人类的主宰时,结果将是灾难性的。”


然而,这一投资进程并不顺利。福布斯报道称,孟菲斯市议会的几名议员正在敦促该市叫停这项投资,议员们被排除在项目决策过程之外。当地民众对这笔交易偷偷摸摸的性质和数据中心对水电的需求感到担忧。


人工智能的发展正在对欧美国家带来巨大的电力负担。


根据国际能源署的数据,一次ChatGPT查询需要2.9瓦时的电力,与之相比,谷歌搜索仅需要0.3瓦时的电力。高盛研究部估计,2023年至 2030年间,人工智能所驱动的数据中心功耗每年总体增长约200太瓦时;到2028年,预计人工智能将占数据中心电力需求的19%左右。


据估计,xAI孟菲斯工厂每小时可能使用高达150兆瓦的电力,相当于10万户家庭所需电量,而xAI预计每天至少需要100万加仑的散热水。这可能会对当地来说会造成巨大的负担。


xAI为了达成这项协议,已口头承诺将改善孟菲斯的公共基础设施,以支持数据中心的发展,包括兴建一个新的变电站和一个污水处理设施。然而,这一举措并不能让当地人信服,马斯克此前在其他地方承诺的一些公共基础设施项目并未如约推进。


另一方面,马斯克从OpenAI高薪挖来的Kyle Kosic,已于今年4月离职,重返OpenAI。


伴随着非议,马斯克的AI梦想仍在快速前进。


当地时间5月26日,xAI宣布完成60亿美元的B轮融资。


马斯克另外透露,xAI的Grok-2模型在来自甲骨文的2.4万个英伟达H100芯片上进行训练,“可能准备下月发布”。此前,xAI已经从甲骨文租用了大约1.6万颗H100芯片,成为该公司此类芯片最大客户。


6月19日,马斯克在社交平台X上表示,戴尔正在组装xAI在建超级计算机的一半机架,日本SMC组装另一半。7月9日,xAI已结束与甲骨文扩大现有协议、租用英伟达芯片的洽谈。甲骨文在去年9月表示,将向xAI提供云基础设施以训练AI模型,但未透露合同价值和期限。今年5月有报道称,两家公司接近达成扩大合作关系的协议,xAI将斥资约100亿美元向甲骨文租用云服务器、为期数年。


马斯克称,xAI的10万个H100GPU已经投入到Grok3模型的专项训练中,预计将于今年12月前完成训练。


目前,xAI已经发布了Grok-1、Grok-1等多个版本的模型。今年发布的Grok-1.5模型已具备长上下文能力,而Grok-1.5V则有了图像理解能力。


按照计划,xAI将在8月份发布Grok2。马斯克的最终目标是在今年12月之前训练出“按每项指标衡量都是世界上最强大的人工智能”——Grok3。


相较于其他竞争对手,xAI入局较晚,在模型参数表现上也不突出。但财大气粗的马斯克表示,“我们的根本竞争力有赖于比其他任何人工智能公司更快。”

分享
下一篇:这是最后一篇
上一篇:这是第一篇