在 AI 領域,模型訓練已被證實是用于 AI 實現的有效方法。它廣泛應用于宇宙學、物理學、計算機視覺、核聚變、醫療等領域研究,因其算法依賴于大數據量和多樣性來有效進行訓練任務,因此,I/O 性能是制約模型訓練效率的一個重要瓶頸。
GPU 作為整個人工智能訓練任務的算力核心,因其成本高昂,系統架構和參數設置應以最大發揮 GPU 的使用效率為目標。同時,模型參數不斷增大,數據爆炸式增加,算力需求正得到前所未有的增長,并對底層 SSD、網卡等 I/O 設備提出了更高要求。
使用 DLIO Benchmark 深度學習 I/O 性能測試工具,在 Unet3D 模型訓練測試中加載3TB訓練數據,單片 PBlaze7 7940 PCIe 5.0 SSD 可以在5個epoch下節省近1,000秒的時間。
相較于PCIe 4.0 SSD,PBlaze7 7940 在測試中節省了42.6%的耗時,有助于訓練任務更快完成。
典型 AI 訓練任務需要經過數十個甚至上百個epoch,大量時間被節省下來,可進行更多訓練任務,相同時間內帶來更高的效益與回報。
更高的 I/O 性能意味著更短的數據等待時間,讓加速器(如 GPU)可以更早開始訓練任務。加速器性能越強,訓練耗時越短,對 I/O 性能的要求也就越高。
在 Unet3D 訓練任務中,通過增加訓練數據的讀壓力,可以獲得超過 10GB/s 的 I/O 處理速度,此時選擇更高性能的 NVMe SSD 成為必需。
隨著加速器數量的增加,每顆加速器獲得的數據量被均分,執行效率出現下降。配置單片 PBlaze7 7940 SSD,在模擬訓練任務中將8顆加速器的使用效率提高至90%以上。
較大的內存容量可以有效減少 NVMe SSD 的讀取次數,但也會造成內存成本的大幅增加。選擇性能更強的 NVMe SSD,可以在數據樣本較大的訓練任務中降低內存要求,并減少內存等待數據的時間。
在訓練數據加載環節,PBlaze7 7940 SSD 以幾乎滿載的狀態進行數據讀取,大幅降低 SSD 讀操作帶來的性能影響。
在數據集較大的訓練任務中,這些數據可能無法全部存儲在系統內存當中,通過提高底層 NVMe SSD 性能,可有效減少內存等待數據的時間。
PBlaze7 7940 系列 PCIe 5.0 SSD 可提供兩倍于 PCIe 4.0 SSD 的性能與容量密度,可幫助企業客戶、AI團隊大幅減少 SSD 的部署規模和所需服務器數量,為數據中心帶來更高的算力密度并大幅降低 TCO。
提供 14GB/s 順序讀性能和 2800K IOPS 4K 隨機讀性能,均達到 PCIe 4.0 SSD 兩倍。
保持2X讀寫性能的同時,提供兩倍于 PCIe 4.0 SSD 的容量密度,帶來存力水平的翻倍提升。
每瓦讀性能提升至 970MB/s以上。
相同存力水平下,顯著減少所需的服務器、交換機部署數量,可通過配置更多數量的加速器,為算力水平的持續提升打好基礎。