榮合超算集群系統為您構建便捷、穩定的HPC高性能計算集群環境。
幫助客戶合理設計滿足當下和未來需求的HPC集群環境、AI集群計算環境,根據用戶的不同需求,提供服務器集群設計、環境搭建、服務器集群在線服務門戶、應用運行特征采集分析工具等服務。同時我們將為客戶提供多年的HPC建設及維護經驗,并通過在線技術服務,實現“響應及時、保障有力”,為用戶使用HPC環境保駕護航。
1) 平臺設計:協助客戶完成集群設計,提供環境配置建議
2) 集群實施:提供HPC集群實施建設服務、性能測試服務
3) 軟件安裝:提供常用計算軟件的的安裝、部署、調試服務
4) 超算平臺:提供專屬的HPC服務門戶,實現桌面化圖形操作
5) 性能分析工具:全面采集并實時展示集群的性能狀態,快速定位瓶頸
6) 運維服務:根據需求提供7*24小時在線服務、巡檢服務
行業應用概況:
? 教育科研:北京航天大學、南京大學、上海交大、浙江大學等
? 工業制造:長安汽車、北京汽車、航天某院等
? 氣象海洋:中國氣象局、某環境監測機構、中國水科院等
? 生命科學:中科院微生物所、上海生物研究機構等
1) HPC集群平臺設計
通過對用戶計算應用程序進行科學、系統的分析,并結合并行科技積累多年的應用運行特征庫,以及資深的系統架構師的設計經驗,從而設計出*符合當前計算應用、*均衡的HPC集群,避免產生系統短板,導致資源浪費,*大化地提升系統運行效率,花*少的錢,辦*多的事。
2) HPC集群實施
為用戶提供集群系統安裝、配置及培訓等相關工作,幫助客戶建成一套可用且*的HPC集群系統。旨在*、快捷、穩定的交付集群系統。結合眾多用戶的使用需求,*集成集群管理軟件、資源調度系統、并行文件系統和各種并行環境。
? 集群管理軟件:集群系統自動推送、用戶管理等基礎功能
? 操作系統:CentOS、Ubuntu、Rocky、openEuler等
? 作業調度系統:Slurm
? 文件系統:NFS/lustre(根據架構設計進行安裝部署)
? 編譯軟件:Intel編譯器等編譯環境
? 并行環境:intelMPI、Openmpi、Mpich等主流版本,支持常用數學庫的安裝部署,如Blas、FFTW等
3) 軟件安裝:
可以根據客戶需求,提供計算軟件的安裝部署服務(商業軟件需用戶提供安裝包及lic授權)。
支持如:ANSYS、Fluent、Lammps、WRF、VASP、CP2K、Gromacs、Gaussian、CST、Material-Studio等常見的HPC應用程序。
4) 榮合超算集群平臺
為用戶提供在線的超算集群平臺,計算用戶可以通過瀏覽器訪問HPC集群環境,實現實現圖形化、一鍵式系統登錄和作業提交。
面向業務用戶:
? 桌面化操作,提高平臺的易用性
? 統一WEB訪問入口同時訪問集群資源,避免記憶多個IP及賬號密碼
? 可以自助申請應用及SSH權限,按需使用
? 前后處理一體化,減少數據搬運成本
? 通過應用模板一鍵提交作業,一站式管理
? 支持WEBSSH訪問資源方式
面向管理員:
? 實現集群的統一用戶認證,較少用戶管理壓力
? 實現計算資源、應用資源的統一監管
? 支持多種調度系統,既能滿足標準要求,也能滿足特殊需求
? 應用服務SAAS化,全生命周期管理
? 能夠根據用戶權限及申請需求,分配SSH及應用的使用權,統一管理
5) 性能分析工具:
應用運行特征采集與分析軟件可實現大規模集群的實時性能監控、應用運行特征性能數據采集歷史留存、并進行應用運行特征分析。秒級監控集群和應用的系統級、微架構級等性能指標,智能分析性能異常,實時告警,通過性能數據實時監控,及時發現大規模集群性能異常情況,*時間處理,保證集群*運行;通過應用運行特征性能數據采集與分析,定位應用系統瓶頸以優化系統。另外,積累應用運行特征數據,為集群擴容或新建選型提供依據指標。
? 顯示異常節點,快速排查集群異常
? 按用戶作業維度,快速定位查看作業狀態
? 同一界面多級指標關聯分析,快速定位性能瓶頸
? 智能分析作業性能,主動推送異常告警
6) 運維服務
為*終客戶提供集群查排故障、運維支持等人工服務,建設客戶IT維護成本,能夠充分利用高性能計算資源,*大程度降低運營風險,確保系統穩定、健康運行。
? 分擔管理壓力,彌補運維力量不足的問題
? 專家服務團隊為客戶解答各類疑難問題
? 定期從不同角度分析集群健康狀態
? 用戶專注科學研究工作,避免運維問題分散精力