Tesla V100 GPU 深度學習解決方案

GPU加速運算已經大量應用在各種領域的軟體上,最新votla架構GPU最大的特色是針對深度學習的運算所設計Tensor Cores,Tensor Cores是一種混合精度運算的概念,在深度學習上相較於常規的CUDA Core單精度運算來的快很多。另外相較於過去的產品volta架構的GPU在其他參數效能上也有顯著的提升,瑋凌能提供給客戶由 Volta GPU 所建立的一個快速且穩定的系統,無論是在程式開發上或是科學運算上皆合適,若想要瞭解進一步的資訊或是尋求解決方案歡迎聯絡我們

一 . Nvidia Tesla V100 基本參數

第二代的NVLinke高速互聯技術實現更高的頻寬,更多的連接與改善多GPU之間與多GPU及CPU之間系統配置更多的延展性。GV100以每條25 GB / s的速度支持最多6條NVLink連接,總共300 GB / s。

V100 with NVLink Connected GPU-to-GPU and GPU-to-CPU
Second Generation NVLink Performance

二 . 關於Volta架構

A . Tensor Cores

在Nvidia GPU最新一代的volta架構上一個重要的特性就是它的Tensor Cores,Tensor Cores 是專門針對深度學習所設計的。

每個Tensor Cores 為一個4x4x4的矩陣處理陣列原件,同時執行一個D = A * B + C的矩陣運算。如上圖所示A , B, C, 和 D 皆為4x4的矩陣,以半精度計算(FP16)運行4X4(A&B)矩陣相乘而結果在與4x4(C矩陣)相加且C和D矩陣可為單精度或半精度運算。

這意味著在每個時脈週期裏一個Tensor Cores可執行128次浮點FMA混合精度運算(mixed-precision operations) ,也就是矩陣(FP16)相乘產生full-precision product且在運行矩陣相加(FP32) ,如上圖。且一個SM(streaming multiprocessor)含有8個Tensor Cores因此每個時脈週期裏可執行1024 次浮點運算,這比常規的CUDA Core單精度運算還要快8倍。所以深度學習若要在這個硬體上受益,在深度學習框架上模組應該以混合精度運算(半精度及單精度)或是單純半精度運算來編寫達到高效的使用Tensor Cores。

B . Volta SM

以Nvidia Tesla V100為例,採用Volta GV100 GPU 這是當今最高效能的平行運算處理器,GV100在硬體設計上具有重大的創新這為深度學習算法和框架提供了大量的加速也為HPC系統和應用提供更多的計算能力。

與上一代Pascal GP100 GPU一樣,GV100 GPU由多個GPU組成包含GPC(Graphics Processing Cluster),TPC (Texture Processing Cluster),SM(streaming multiprocessor),和記憶體控制器。完整的GV100 GPU包括:

6個GPCs

每個 GPC 包括 :

  • 7個TPCs (each including two SMs)
  • 14個 SMs

84個 Volta SMs

每個SM 包括 :

  • 64個 FP32 cores
  • 64 個INT32 cores
  • 32個 FP64 cores
  • 8 個Tensor Cores
  • 4個texture units

8個 512-bit memory controllers (共4096 bits)

一個完整的GV100 GPU總共有5376個FP32 Cores,5376個INT32 Cores,2688個FP64 Cores,672個Tensor Cores和336個texture units。

Volta SM 更新重點 :

  1. 專為深度學習矩陣運算而設計的新型混合精度FP16 / FP32 Tensor Core。
  2. 增強L1 資料快取使其提供更高的效能及更低延遲。
  3. 為了更快速的解碼而優化指令集以及減少指令集延遲。
  4. 更高的時脈及更高的供電效率。

GPU深度學習工作平台解決方案

深度學習(英語:deep learning)是機器學習拉出的分支,它試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。

深度學習應用範圍非常廣,擅長識別非結構化的數據,舉凡多數人所知道的圖像、影像、聲音、文本等皆屬於這類型的數據。

本方案主要結合各種深度學習函式庫 - 影像處理、電腦視覺及深層神經網路函式庫等 ... 架構出一套GPU深度學習開發平台。主要以Python框架建立而成依使用者本身的需求可選擇運用Theano、TensorFlow、Caffe2、Keras、mxnet 等深度學習框架來組合建立,且支持CUDA GPU 加速運算及利用GPU加速卷積神經網路的函式庫(cuDNN)。

本方案的參考規格架構 :

MB : 支援1151/2011腳及Nvidia SLI 技術主機板

CPU : intel 最新的 Core i7 處理器

RAM : 32Gb DDR4 2400 MHz 記憶體

HDD : 至少 2TB SATA 硬碟

GPU : Nvidia GTX 1080 ti

Power : 至少600W電源供應器

OS : Linux

軟體 : 深度學習函式庫/影像處理與電腦視覺函式庫/深層神經網路函式庫/CUDA

更多細節歡迎聯絡我們 !

Gaussian 16、VASP、Q-Chem、Amber等化學運算 GPU-Accelerated 解決方案

這個解決方案是針對有支援GPU加速的科學運算軟體所設立(如 : VASP、Molpro等 ...),我們能提供給使用者一個含有nvidia GPU的科學計算環境,其中GPU又以kepler架構為主且支援 single-precision、double precision記憶體大小於12Gb~24Gb之間,系統方面我們能做到讓使用者開機就能計算不需要煩惱過多的設定。

 

VASP 的運行速度現已提高2.5到4倍

維也納大學 VASP 推出支援 GPU 加速器的新版 VASP v 5.4.1,以加快研發新事物的腳步,在GPU 加速運算的加持下,研究人員完成模擬作業的時間可以加快2.5到4倍。

Several core algorithms of VASP have been ported to run on GPU accelerated hardware, e.g.:

  • Blocked-Davidson and RMM-DIIS
  • Hybrid functionals
  • Application of the real-space projection operators

 

 

 

Q-Chem 的 GPU 運算效能

右圖為使用S1070 GPU及intel Xeon E5462 2.8GHz CPU 運行同一範例計算的效能差別

Q-Chem 目前提供可使用GPUs加速運算 RI-MP2 calculations .


 

最新版AMBER 16 GPU 全面支援 PMEMD算法,其內容包含AMBER 14 的特色重點以及新增以下特點 :

  1. Support for semi-isotropic pressure scaling.
  2. Support for the Charmm VDW force switch.
  3. Enhances NMR restraint support and R^6 averaging support
  4. Gaussian accelerated molecular dynamics.
  5. Expanded umbrella sampling support.
  6. Constant pH and REMD Constant pH support.
  7. Support and significant performance improvements for the latest Maxwell and the soon to be released Pascal GPUs from NVIDIA.
  8. Adaptively biased MD (coming soon via automatic update).
  9. Thermodynamic Integration, FEP and MBAR (coming soon via an automatic update).

 


 

Gaussian 16 GPU 運算加速

在Linux的作業系統環境下Gaussian 16目前能夠使用Nvidia K40和K80的GPUs來進行運算。

較早期的GPU則未有足夠的運算能力及記憶體滿足執行Gaussian 16的運算 ,且Gaussian 16也尚未支援 Tesla-Pascal 系列的GPU。

GPUs 在大型分子的 DFT energies, gradients and frequencies (for both ground and excited states) 的運算都是有效的, 但是對於較小型分子運算則是無效的 .  另外也包括 post-SCF calculations 諸如 MP2 or CCSD也是無效的.


 

Molpro 的 GPU運算加速

Molpro 的 "Density-fitted MP2 (DF-MP2), density
fitted local correlation methods (DF-RHF, DF-KS), DFT"算法能夠支援GPU加速但不包含 (EOM-)CCSD.


 

影像處裡加速解決方案

瑋凌知道怎麼樣的系統環境組合可以對運算的速度做增加,提高您對影像處理開發達顯注效能。利用 GPU 的特色來加強整體的速度以及精確度。

Why GPU ?

CPU

  • 具速度和熱功能限制]
  • 增量式的改進(快取記憶和複雜的結構)
  • 多核,但軟體很少具多核

GPU

  • 數百內核高速平行
  • 簡單的就能擴展更多核心數
  • 持續以倍數成長

GPU 運用在影像處裡範例

由以下的範例結果顯示對於影像處裡搭配 GPU 後的效能無論在時間、FPS、精確度都是顯著提升!

Canny

Canny

Canny

叢集計算/叢集運算系統解決方案(HPC Solution)

Cluster 定義

為了某種特定需求,由一台以上的機器所組成的架構。

Cluster 種類

    • High Availability Cluster-增加伺服器和以網路為基礎的應用程式的高可用性及備援性。
    • Load Balancing Cluster-將服務需求分派給多台伺服器,可視系統負載隨時彈性增加伺服器。
    • High Performance Computing Cluster(高效能/平行運算叢集系統)-所謂高效能/平行運算叢集系統就是讓你的應用程式可以使用到多台主機的運算能力(CPU、Memory..)讓程式很快地運算執行完畢,例如:Beowulf Cluster。
    • Grid computing

-網格計算或網格叢集是一種與叢集計算非常相關的技術。網格與傳統叢集的主要差別是網格是連線一組相關並不信任的電腦,它的運作更像一個計算公共設施而不是一個獨立的電腦。還有,網格通常比叢集支援更多不同類型的電腦集合。

Beowulf Cluster

1994年夏季,美國太空總署(NASA)的CESDIS(the Center of Excellence in Space Data and Information Sciences)為了進行地球與太空科學研究計畫(the Earth and Space Science Project),而嘗試用低廉而易得的電腦相關零件,或稱為COTS (Commodity Off The Shelf),來組裝可支援平行計算的電腦系統,以應付該計畫所需處理的大量資訊處理與計算。

為此,將十六個Intel 100 MHz DX4以10Mbits/s Ethernet組裝成一個叢集(Cluster),並取名為Beowulf(戰狼或稱北歐武夫)。但是,Beowulf真正的內容定義則是到了1996年才確定下來。該年的九月,美國的Los Alamos National Laboratory(LANL)建置了一個名為Loki的叢集電腦系統,它是由16顆Intel Pentium Pro 200 CPUs所組成,網路則為100Mbps Fast Ethernet,作業系統採用Linux,平行運算與資料傳輸用MPI(Message Passing Interfacing)。

HPC系統架構

High Performace Computing(簡稱HPC)系統泛指用於中大規模科學/工程計算的計算機系統。目前的主流架構有SMP、PVP、cc-NUMA、Cluster等幾種基礎系統架構。實際系統有可能同時採用多種架構。

HPC Cluster
Cluster的種類比較多,我們這裡僅僅指HPC Cluster。如下圖所示,HPC Cluster是指通過軟體和網路將多台獨立的伺服器組建成為一個大型系統;通過將一個大規模計算任務進行分割並分發至內部各個計算節點上來實現對中大規模計算任務的支持。 Cluster的組建方式非常靈活,能夠支持異構節點(例如,32bit和64bit、linux和Unix、不同硬件配置的節點等)。

Cluster系統架構

瑋凌的叢集運算系統:

瑋凌的叢集系統能讓使用者達到開機就能隨即使用,另外我們能應客戶需求達到彈性且客製化的叢集運算系統,而穩定、快速則是瑋凌的叢集系統長久以來一直保持著的優點。叢集系統並非只是在硬體上做串連而已,在軟體上必須做很大量且需要經驗及技術的設定!若對瑋凌的叢集系統要進一步的瞭解歡迎聯絡我們 。

化學平行計算系統

瑋凌知道該如何才能成功建構一個優越且可靠的化學平行計算系統,關鍵在於計算速度以及系統的穩定性,化學平行計算系統解決方案的設計,基於將一個系統進行精細的調整、優化,打造出一個迅速且精確的系統環境,進而證明硬體性能不一定能完全代表整個科學計算的性能,我們的系統並不是將"箱子打開"就能使用的系統,真正的價值在於整個"化學平行計算系統"對於使用者帶來的效益。

綜合以上,您需要一個供應商提供細心、專業的服務。瑋凌在這已經累積超過10年的經驗,建立一個廣闊的基礎在化學平行計算系統上,您可以在這選擇我們所提供的解決方案。

個人化型運算系統 叢集型運算系統 SMP 多處理器型運算系統

個人化型運算系統

藉由工作站與化學運算軟體結合,且再加上 Nvidia Kepler GPU 提升整體運算效能 ,打造一個適合單人單機且精巧靈活的系統環境。 我們還提供一系列系統監控的服務,讓您隨時都能掌握系統的狀態。

特點 : 具 GPU 提升運算效能

  • 高靈活度
  • 操作直接、方便

個人化型運算系統產品solution1-1

我們細心評估後最合適的環境,參考以下規格:

  • Intel Xeon E5 系列,單顆或兩顆CPU。
  • 記憶體 : 48GB。
  • 硬碟 : 1TB。
  • 作業系統 : Linux。
  • K-20 GPU。
  • 視訊卡 : NVIDIA Quadro 2000。

選購軟體 : Gaussian 09 / Gauss View / Q-Chem / VASP / Molpro / 視使用者需求。

靈活且多樣的選擇,您可以透過連絡我們告訴我們您的需求,我們將會提供一份完整的規格及報價給您 !

 

叢集型運算系統

以多台機架伺服器透過網路串聯行成一個大型計算集群,實現高速運算及平行處裡構想。我們還提供排程管理的技術支援方便對個節點控制。
特點 : 集群監控

  • 可擴充
  • 優化配置節點環境達到一致性
  • 排程控制,管理方便

叢集型運算系統產品

您可以參考以下由我們挑選的系統環境:

  • 處裡器 : 12 核心2.0GHz。
  • 記憶體 : 24GB。
  • 硬碟 : 300GB。
  • 作業系統 : Linux。
  • 4 埠Gigabit。solution1-2

選購軟體 : Gaussian 09 / Gauss View / Q-Chem / VASP / Molpro / 視使用者需求

靈活且多樣的選擇,您可以透過連絡我們告訴我們您的需求我們將會提供一份完整的規格及報價給您 !

 

SMP 多處理器型運算系統

這一系列的解決方案以高核心數伺服器的基底來打造出的運算系統,讓平行運算方便且簡易。由常見的單機高核心的系統另外還有一種新式的2U空間內含有4 個 DP 節點系統所建立,效能卓越!
特點 :

  • 單機平行運算其效能不亞於多機叢集
  • 超高核心數

SMP 多處理器型運算系統

您可以參考以下由我們專業挑選的系統環境:

基礎方案一. solution1-3

  • 處裡器 : 4 核心2.0GHz x4 (total 16 core)。
  • 記憶體 : 64GB。
  • 作業系統 : Linux。
  • 硬碟 : 1TB x 4(Raid)。
  • 網路 : 4 埠Gigabit。
  • 電源 : 1100W x 2。

選購軟體 : Gaussian 09 / Gauss View / Q-Chem / VASP / Molpro 視使用者需求。

更強大方案二.

  • 處裡器 : 8 核心2.0GHz x4 (total 32 core)。
  • 記憶體 : 128GB。
  • 作業系統 : Linux。
  • 硬碟 : 500GB x 6(Raid)。
  • 網路 : 4 埠Gigabit。
  • 電源 : 1100W x 4。

選購軟體 : Gaussian 09 / Gauss View / Q-Chem / VASP / Molpro / 視使用者需求。

靈活且多樣的選擇,您可以透過連絡我們告訴我們您的需求我們將會提供一份完整的規格及報價給您 !