阿里云作为国内最大的云服务提供商,在全球云服务市场中也占据着重要地位,其服务的稳定性和可靠性得到了广泛认可。
如今,GPU服务器的需求日益增长,尤其在AI推理、AI训练、图形视频处理、科学计算、深度学习等领域,几乎供不应求。然而,能够提供稳定可靠GPU服务器的云服务提供商却屈指可数。之前我们推荐过UCloud GPU服务器,而阿里云自然也具备这样的实力。这主要是因为GPU服务器成本较高,加上英伟达GPU显卡的供应紧张,导致价格大幅上涨。

阿里云GPU服务器概览
阿里云提供的GPU云服务器具备强大的计算能力,适用于深度学习、科学计算、图形可视化、视频处理等多种应用场景。首次购买可享受高达5折的优惠,用户可以选择英伟达(NVIDIA)V100、A10、P100、P4、T4等多种显卡。
阿里云在AI领域的发展也相当出色,购买其GPU服务器,用户还可以免费获得AIACC-Training、AIACC-Inference、FastGPU、cGPU、EAIS等软件,这些工具能够显著提升GPU计算效率,帮助用户节省成本。
数据中心
阿里云的GPU服务器在全球设有多个机房,国内包括北京、青岛、杭州、上海、深圳、成都、香港等地,国际上则覆盖了日本、韩国、新加坡、马来西亚(吉隆坡)、菲律宾(马尼拉)、印尼(雅加达)、泰国(曼谷)、美国(弗吉尼亚、硅谷)、英国(伦敦)、德国(法兰克福)、阿联酋(迪拜)等地。这些丰富的节点能够满足全球业务的需求。
价格套餐
阿里云的GPU云服务器提供多种计费方式,包括按小时付费、按月付费和按年付费,用户可以根据自己的需求选择合适的计费方式。
特惠套餐
特惠套餐的最低价格为1694元/月,用户可以选择英伟达A10、V100、T4等多种显卡。具体套餐如下图所示:

需要注意的是,特惠套餐的价格会根据优惠活动的变化而有所不同。
AI推理套餐
AI推理套餐提供V100、A10、P100、P4等多种显卡,最低价格为1903.5元/月。具体套餐如下:

用户可以根据需求选择高达82核、336GB内存的配置,并可搭载最多8块显卡。
AI训练套餐
AI训练套餐提供V100 32G显存的GPU,最低价格为3830元/月。基础套餐如下:

用户可以选配高达82核、336GB内存的配置,并可搭载最多8块显卡。
图形图像处理套餐
图形图像处理套餐主要提供英伟达A10、T4显卡,最低价格为1503.5元/月。具体套餐如下:

此套餐支持最高30核、186GB内存的配置,并可搭载最多4块NVIDIA A10显卡。
科学计算套餐
科学计算套餐提供V100显卡,最低价格为3830元/月。具体套餐如下:

用户可以选择高达82核、336GB内存的配置,并可搭载最多8块NVIDIA V100-16G显卡。
按量付费套餐
除了按月或按年付费的套餐,阿里云还提供按小时付费的套餐,最低仅需1.2元/小时。具体如下:

需要注意的是,按量付费套餐的价格通常比按月或按年付费要高,建议在前期体验时选择。
购买教程
阿里云的产品线丰富多样,接下来我们通过图文教程简单介绍如何购买GPU云服务器。
首先,通过阿里云优惠链接进入官网,选择【产品】>【计算】>【GPU云服务器】:

进入GPU服务器产品页面后,点击【立即购买】按钮,选择适合自己的套餐:

如果之前未登录,需要先登录;如果没有账号,则需先注册。

其他配置可根据自身需求进行选择,下单后即可立即部署使用。
阿里云GPU软件介绍
阿里云为GPU服务器用户提供了多种软件工具,这些工具能够显著提升服务器的计算能力和使用效率。接下来,我们详细介绍这些软件。
AIACC-Training
AIACC-Training是阿里云推出的神龙AI加速训练引擎,专为阿里云生态系统进行了深度优化,能够显著提升分布式训练性能和网络带宽利用率。该引擎在国际舞台上获得了两项世界纪录:
- 在斯坦福大学Dawnbench基准测试中,以最快的速度完成Imagenet数据集的训练,成为全球最快的训练引擎。
- 在Dawnbench Imagenet训练项目中,实现了最低的训练成本。

主要功能特点:
- 支持Tensorflow、Pytorch、MXNet和Caffe四种分布式训练框架。
- 性能提升50%至300%,适用于带宽密集型网络模型。
- 支持单机多卡和多机多卡间的高性能通信。
- 支持MXNet的API扩展,适用于insightface类型的数据和模型并行。
- 对RDMA网络进行了深度优化,支持混合链路通信(RDMA+VPC)。
AIACC-Inference
AIACC-Inference是阿里云推出的AI加速推理引擎,专为神龙架构设计,能够显著提升推理业务的性能。该引擎在国际舞台上获得了两项世界纪录:
- 斯坦福Dawnbench Imagenet推理延迟最低。
- 斯坦福Dawnbench Imagenet推理成本最低。

主要优势如下:
- 支持多种框架:包括Tensorflow、Pytorch、MXNet以及可以导出ONNX模型的其他深度学习框架,进行GPU推理优化。
- 显著提升性能:在计算密集型网络模型中,性能提升可达30%至400%。
- 支持两种精度:提供FP32和FP16两种精度的模型优化。
FastGPU-GPU实例集群快速部署工具
FastGPU是阿里云推出的一款GPU实例集群快速部署工具,旨在帮助用户在阿里云平台上实现GPU计算资源的快速一键部署,确保资源的无缝适配与即时运行。通过FastGPU,用户可以轻松构建高效、经济的GPU实例集群,满足其计算需求。

主要特点如下:
- 快速部署:通过便捷的API,将线下训练/推理脚本快速部署到阿里云GPU实例集群。
- 便捷管理:提供命令行工具,方便用户管理GPU实例集群的运行状态和生命周期。
- 高效省时:用户无需进行繁琐的计算、存储、网络部署操作,获取集群资源时自动获取相应环境。
cGPU
cGPU是一种创新的软件解决方案,专为在GPU上运行多个容器而设计。它能够高效隔离GPU资源,使单个GPU能够支持多个容器同时运行,实现资源的高度共享。cGPU允许单张显卡并行运行多个容器,并在容器之间实施严格的GPU应用隔离策略,优化GPU硬件资源的利用。

主要特点如下:
- GPU切分:通过划分GPU提升利用率。
- 共享GPU:多个AI应用共享GPU,节约成本。
- 灵活匹配:算力和显存灵活切分,满足应用需求。
EAIS
EAIS是为阿里云ECS实例设计的灵活解决方案,通过添加GPU加速资源来提升性能。用户可以根据应用程序的计算和内存需求,选择合适的ECS实例,并配置所需的GPU推理加速。这种方法不仅能高效利用资源,还能显著降低成本。

主要特点如下:
- 推理成本降低50%:用户可以根据需求选择合适的ECS实例类型,并单独配置所需的GPU推理加速量级,相比传统GPU推理实例,成本降低50%。
- 灵活的CPU与GPU配比:根据用户需求灵活配比CPU和GPU资源,精准满足需求。
- 弹性伸缩:轻松扩展或缩减推理加速量级,用户只需为所需资源付费。
总结
以上是阿里云GPU云服务器的详细介绍。其功能强大,类型丰富,能够满足AI推理、深度学习、图形视频处理等多个领域的应用需求。
阿里云的GPU云服务器提供多种计费方式,包括按小时、按月、按年付费,灵活便捷,满足不同用户的需求。
此外,阿里云还提供了多种辅助软件,帮助用户在搭建环境时节省时间,并通过计算效率提升软件,显著降低计算成本。