NEWS 新闻动态 > 新闻详情

蓝冠在线CloudoorSphere私有云平台再出新功能——提供深度学习的服务

admin 发表于:2018-08-24
摘要:蓝冠在线CloudoorSphere私有云平台再出新功能——提供深度学习的服务

蓝冠在线CloudoorSphere私有云平台再出新功能——提供深度学习的服务


CloudoorSphere GPU主机

为了满足用户对高性能计算、视频处理或图形渲染的需求,蓝冠在线特推出GPU主机给有需求的用户使用,用户可以在CloudoorSphere控制台上进行GPU主机的创建和使用。

CloudoorSphere GPU 主机是具备 GPU 加速计算能力的实例,采用直通方式与虚拟主机对接,省去虚拟化带来的损耗,全面释放物理 GPU 的计算加速能力。


CloudoorSphere GPU 主机特性

1.    GPU资源灵活配置

用户可以自定义GPU主机的配置,可灵活指定CPU、内存、GPU类型和数量、系统盘大小等,既可以新创建主机,也可以对已有主机进行GPU资源的绑定

2.    高配置GPU

为满足高性能计算的需求,系统提供NVIDIA Tesla P100型号的GPU,单节点可配置2张GPU卡,单机单浮点峰值计算能力最多可达20Tflops,且无虚拟化性能损耗。


CloudoorSphere GPU优势

 

灵活易用:

部署便捷,与虚拟主机采用一致的管理方式,在 CloudoorSphere控制台上即可完成创建并挂载 GPU,同时可以灵活指定操作系统,以及 CPU 和内存的资源配比。

超高计算加速:

英伟达 NVIDIA Tesla P100 GPU 可提供并行计算核心,单精度浮点运算能力达9.3 TFLOPS,双精度浮点运算能力达 4.7 TFLOPS。采用物理直通方式连接,消除虚拟化损耗,提供接近物理部署的计算性能。


如果您需要针对自己的应用创建GPU主机,请按照下述步骤进行。

1. 将GPU硬件安装在CloudoorSphere物理节点中。

2. 使CloudoorSphere识别该GPU硬件设备。

3. 创建可使用GPU的实例类型。

4. 通过第三步创建的实例类型创建虚拟机。

 

如何配置CloudoorSphere来使用GPU

  • 启用 PCI passthrough

由任意节点中运行以下检测命令从而更新grub文件并添加nouveau驱动到黑名单中:

$ inspector tools compute gpu grub

### Expected output:

[inspector] Start running gpu_grub

[inspector] Copying /etc/default/grub files to nodes

[inspector] Validating copied files

[inspector] grub file was copied to all nodes

[inspector] Generate the GRUB configuration file on all nodes

[inspector] Finished running command : tools

  • 配置特定GPU驱动备用

首先,需要在集群中找到该GPU的厂商名称。

检测GPU厂商是否正确的方法,在安装有GPU的节点中运行以下命令:

$ lspci -nn | grep -i vendor-name

  • 如果在输出行中能看到PCI设备厂商名称与实际相符,请继续下一条命令。

  • 如果你无法找到正确的厂商PCI设备,请列出所有POC设备并从其中找到正确的设备。

  • 当找到正确的厂商名字后,请从任意节点运行以下命令:

$ inspector tools compute gpu vfio --vendor-name-list gpu-vendor-1 gpu-vendor-2

请注意只有GPU的设备才会被配置。

按照其类型ID被分类。以下列表罗列出所有PCI类型以及该PCI设备类型是否被认为是GPU。


Class Name

Class ID

Considered to be a GPU?

VGA compatible controller

0300

YES

XGA compatible controller

0301

YES

3D controller

0302

YES

Display controller

0380

NO

本命令是将NVIDIA Tesla P100 GPU设备识别出来,其中一个设备被识别在stratonode0节点中,其他两个设备被识别在stratonode1节点中。

$ inspector tools compute gpu vfio --vendor-name-list nvidia

### 预期结果:

[inspector] Start running gpu_vfio

[inspector] Current PCI devices claimed by vfio driver are ['10de:15f7']

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

| SUBDEVICE_NAME | SUBDEVICE_ID | HOSTNAME    | CLASS_NAME    | SUBVENDOR_ID | VENDOR_ID | DEVICE_NAME   | VENDOR_NAME        | SUBVENDOR_NAME     | CLASS | DEVICE_ID |

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

| [Device 11da]  | 11da         | stratonode0 | 3D controller | 10de         | 10de      | [Device 15f7] | NVIDIA Corporation | NVIDIA Corporation | 0302  | 15f7      |

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

| [Device 11da]  | 11da         | stratonode1 | 3D controller | 10de         | 10de      | [Device 15f7] | NVIDIA Corporation | NVIDIA Corporation | 0302  | 15f7      |

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

| [Device 11da]  | 11da         | stratonode1 | 3D controller | 10de         | 10de      | [Device 15f7] | NVIDIA Corporation | NVIDIA Corporation | 0302  | 15f7      |

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

[inspector] Copying /etc/modprobe.d/vfio.conf files to nodes

[inspector] Validating copied files

[inspector] Copying /etc/modules-load.d/vfio-pci.conf files to nodes

[inspector] Validating copied files

[inspector] Finished running command : tools

  • 关机并重启所有加载了GPU设备的物理节点

从任意节点中运行以下命令:

$ inspector tools compute gpu validate --vendor-name-list gpu-vendor-1 gpu-vendor-2

### Expected output:

[inspector] Start running gpu_validate

QQ截图20190104153407.png

[inspector] Finished running command : tools

  • 如果状态为PASSED,则可以忽略空白的中括号('{}')

  • 如果nodedapi的确认状态为PASSED,则可以查看到一些PCI设备统计信息,这些统计信息可以在集群中被用到。

  • max_in_node 表示被选的PCI设备种类在单独一个节点中的最大数量

  • total_quantity  表示被选的PCI设备种类在所有节点中的数量之和。


为GPU创建一个实例类型

66.png