2025-03-28 16:03
针对这一点,亚马逊云科技一方面答应多区域之间的及时数据分歧性,为大规模的跨国营业做好了收集根本设备的预备。另一方面,就正在2024年的re!Invent上,亚马逊云科技还推出了第二代UltraCluster收集架构(也称为10p10u收集),支撑跨越20000个GPU协同工做,带宽达10Pb/s,延迟低于10μs。如斯一来,对于需要超大规模集群锻炼的使命来说,仅仅这一个收集机能的跃升,便能够将锻炼时间缩短至多15%。再加上能正在不到1秒内恢复收集的全新SIDR收集和谈,令亚马逊云科技的分布式计较收集无论是效率仍是靠得住性,都成为了绝对的业界标杆。
但即便如斯,亚马逊云科技也还没有遏制继续领跑的脚步。就正在本年2月的财报德律风会议上,亚马逊首席施行官Andy Jassy确认,他们正在2025年的本钱投资估计达1000亿美元,此中大部门将用于亚马逊云科技AI根本设备的扶植。
对于任何一家IaaS办事商而言,平安、不变,且可以或许脚够可用性的根本设备节点,无疑是一切的根本。而说到对于根本设备的扶植,这确实也是亚马逊云科技相当凸起的“底气”。
早正在2024年3月,亚马逊云科技就取英伟达配合颁布发表,将连系亚马逊云科技的Nitro系统、Amazon KMS密钥办理办事、万万亿比特级的Elastic Fabric Adapter(EFA)收集和Amazon EC2 UltraCluster超大规模集群等手艺,取英伟达最新的Blackwell平台和AI软件配合打制包罗Project Ceiba正在内的多个云端AI超等计较机系统。
家喻户晓,跟着生成式AI手艺的走红,它曾经起头正在一些企业的营业流程里“大放异彩”。无论是用于辅帮设想、仍是智能客服、亦或内部的办理,这些最新的AI大模子都带来了惊人的效率提拔。
但取此同时,对于AI大模子而言,其锻炼和推理所需的复杂算力,往往也成为了潜正在用户都不得不面临的一题。
当然,对于很多企业来说,他们的营业可能广泛多个区域,再加上大模子的锻炼往往也需要用到超大规模的算力集群,这就对IaaS的收集机能也提出了更高的需求。
从各方面的息来看,全球笼盖的高靠得住性根本设备,以及以自研芯片为代表的硬件持续立异,能够说很好地代表了亚马逊云科技现在正在IaaS业内“根本能力”取“持久计谋”两个方面的凸起合作力。
若是说遍及全球、既先辈又不变的根本设备,是亚马逊云科技可以或许承担起IaaS行业带领者地位的“根基要素”,那么正在算力实现体例上的持续立异取领先,则能够称得上是帮推亚马逊云科技可以或许一直领跑AI云计较时代的“久远劣势”。
按照息显示,截至目前为止,亚马逊云科技的根本设备已广泛36个地舆区域的114个可用区。他们曾经发布了包罗、沙特等正在内的4个新建区域、12个可用区的扶植想划。
不只如斯,因为是自研芯片,也就意味着亚马逊云科技术够按照营业需求,对Trainium2的集群进行更大规模的扩展。正在Amazon EC2 Trn2 UltraServers办事器里,它利用64块Trainium2进行互联,可供给高达83。2 Petaflops浮点算力。并且亚马逊云科技方面还正在打制名为Project Rainier的EC2 UltraCluster超等计较机,此中包含数十万颗Trainium2 芯片,脚可达到相当于最新、最领先的AI大模子所需锻炼算力的5倍以上水准。
这还没完,就正在2024年岁尾,亚马逊云科技还官宣了下一代的AI锻炼芯片Trainium3。做为他们的第一款3nm制程自研芯片,Trainium3估计将正在UltraServers办事器中供给相当于前代4倍的机能。估计本年年内,我们就会看到亚马逊云科技的新一代推理芯片正式上线,不出不测,他们必将再次从头定义云端AI锻炼的“性价比新高”。
当然,对于全球巴望“上云”体验最尖端生成式AI手艺的企业来说,这绝对是一件功德。由于这不只意味着亚马逊云科技本身还将继续提高旗下AI根本设备的能力取性价比,同时这种由亚马逊云科技“带头”的IaaS AI算力合作,也无望推进整个行业的持续良性成长。
当然,亚马逊云科技更是将“平安性”放正在了系统根底的。无论是根本设备仍是办事,它们从一起头被设想的时候就会以平安做为首要方针,并正在运营过程中不竭引入新手艺,进一步提高平安性。举例而言,通过使用从动推理手艺,亚马逊云科技为旗下环节系统的运转供给了严酷的数学。并且值得一提的是,这些平安设想和手艺,并不会因客户类型而有所差别。无论是草创企业仍是大公司,它们都能够享遭到同样平安的根本设备立异。
正在如许的布景下,利用公有云IaaS(根本设备即办事)、而非自建算力根本设备,就成为了很多企业降本增效、拥抱AI大模子时代的主要行动。例如正在近日发布的《2025年IDC MarketScape:全球公有云根本设备即办事(IaaS)演讲》中,全球市场阐发机构国际数据公司(IDC)就明白指出,跟着企业将更多工做负载迁徙到云端、并建立新的云原生使用,公有云IaaS继续快速增加,估计2025年IaaS的全体规模将达到1880亿美元。
那么,为什么会是亚马逊云科技,正在现在的IaaS行业里,他们又到底有着如何的奇特劣势呢?连系IDC的这份演讲以及更多的息,其实并不难找到这个问题的谜底。
正如IDC阐发师、演讲做者Dave McCarthy所说的那样,“亚马逊云科技通过普遍的办事组合和持续的立异,正在公有云IaaS市场中处于带领地位。普遍的全球根本设备,连系Amazon Graviton等定制芯片打算以及正在AI范畴的严沉投资,使其正在满脚企业需求方面独具劣势。其正在可扩展性方面的杰出表示、成熟的开辟者社区以及对AI根本设备的积极投入,使其成为需要先辈云能力的企业的首选。”。
针对数据核心本身的硬件不变性,亚马逊云科技还进行了诸多立异设想。好比,他们成功简化了数据核心的电气和机械设想,将潜正在的电气问题削减了89%,同时令根本设备可用性提高到99。9999%。而通过集成风冷取液冷功能的新设想冷却系统,亚马逊云科技不只大幅降低了数据核心的冷却成本,推进本身算力的“降本增效”,同时还使得他们的数据核心可以或许支持升引于AI的超等计较处理方案,即便正在持续的超大规模压力下也持久不变无虞。
需要留意的是,分歧于其他的IaaS办事商,亚马逊云科技不只可以或许供给基于NVIDIA GPU,以及Intel和AMD x86 CPU的常见云端算力,他们还外行业里率先对自研芯片进行了持续投入。从旨正在提拔收集取存储能力的Nitro系统,自研处置器Graviton、到机械进修锻炼芯片Trainium和推理芯片Inferentia。截至目前,所有的这些亚马逊云科技自研芯片都颠末了多次迭代,而且每次更新均能供给两位数以上百分比的性价比提拔。
此中以Trainium2为例,这是亚马逊云科技正在re!Invent 2024期间刚推出的最新款自研锻炼芯片。正在利用该芯片的Amazon EC2 Trn2实例中,16颗Trainium2就可供给高达20。8 Petaflops浮点算力的机能,同时性价比比基于GPU的实例提高了30-40%,很是适合锻炼和推理数十亿参数的AI大模子。
福建蓬安在线信息技术有限公司
Copyright©2021 All Rights Reserved 版权所有 网站地图