如何從零開始搭建深度學習工作站
文章導讀:
隨著AlphaGo橫空出世擊敗韓國頂尖圍棋高手李世石,人工智能第一次真正進行大眾視野,并在近幾年出現星火燎原之勢,而深度學習作為人工智能一個最重要的分支,也開始在各行各業應用起來。深度學習的興起離不開對海量數據的依賴,而處理海量數據,對機算機的性能有很高要求。工欲善其事必先利其器,本文就來詳細談談如何搭建一臺滿足日常需要的工作站。
正文:
最近由于工作的需要,組建了一臺適用于深度學習的工作站。工作臺的搭建涉及到硬件及軟件兩部份,每一部份都對整體性能有影響,而且還需要綜合考慮實際研發需要和后期的擴展性。下面就來詳細說說每一點,希望對大家有幫助。
硬件選購考慮因素:
一、顯卡GPU
顯卡作為整體最優先考慮的硬件,直接決定了整體的預算及性能。如果要擴展4卡,對主板和CPU的選購會有特殊的要求,整體的價格也會貴至少2倍以上。對于一般使用場景,建議單卡入門,最多支持擴展到2卡就行了。
從上圖可以明顯看出,GPU上的投資回報比基本呈線性變化,因此可以按照自己的需要量力而行。不過除非是在過去型號的GPU上已有投資,否則強烈建議直接上GTX 1080Ti。
二、中央處理器CPU
深度學習主要占用GPU資源,對CPU要求不是很高,再加上只考慮最多擴展雙顯卡,所以消費級的CPU完全能滿足需要,不用考慮企業級或雙CPU方案。上一代或最新一代的I7 超頻版CPU是個不錯的選擇,核心多,頻率高。
三、主板
主板作為整個系統的地基,需要有個全局性的考慮,雖然不像CPU和顯卡一般有明顯的性能差異,但決定了整個主機的硬件層次及后期的升級。建議直接購買一線品牌,質量、做工及穩定性方面都有保障。再加上只考慮支持雙顯卡交火,目前市面上大多數的系列都兼容。
四、存儲
內存方面首選金士頓,占了市場60%以上的份額,口碑和質量都有保持。建議組多通道及選DDR4 2400以上的頻率。
由于深度學習只需要在運行處理大量數據,平時存儲時對速度要求并不高。可以采取普通的機械硬盤(HDD)和固態硬盤(SSD)相結合的方式,兼顧速度和存儲要求。機械硬盤從西數和希捷中挑一個就行,建議2T以上容量,容量越大,性價比越高,相比其它硬件,完全是白菜價了。固態硬盤速度比機械硬盤快了幾倍,對系統整體性能有很大提升,缺點就是一個字:貴。所以容量方面建議至少要256G,有經濟實力的就直接512G吧,一步到位。固態硬盤還有個要考慮的因素是接口規格了,目前主流的有SATA3和M.2兩種。M.2速度快,但有些主板識別不到,導致在安裝操作系統(Ubuntu)時無法安裝在固態硬盤上。
五、電源及機箱
電源作為整機的動力輸出,首要考慮的因素是能夠提供穩定并且夠用的功率輸出,用料及做工也是必須要考慮的因素。電源行業品牌多如牛毛,而且代工貼牌占據絕大多數比例,在這種情況下優化選擇一線品牌:海盜船,長城,安鈦克、臺達。其次要考慮的購買多大的瓦數,保險起見,我建議購買850W以上的(之后如果擴展多一張顯卡也完全夠用)。
機箱就沒什么硬性要求了,只要內部空間足夠就行了。優先考慮全塔式,可以根據自已的喜好進行選購。
工作站組裝及系統安裝:
計算機組裝應該是整個搭建過程中最簡單的部分了,只要注意安裝的順序及主板連線,大都能順利安裝成果,并且現在大多硬件都做了防呆設計,不可能會出現插反的情況。
第一步將CPU(注意方向)、內存安裝到主板上,將主板附送的主機后置面板安裝到機箱上。
第二步將散熱安裝到CPU上,放到機箱中,確定散熱器風道方向與散熱器的位置,以免放不下。
第三步涂硅脂,重新將確定好位置的風扇安裝到CPU上。
第四部將主板固定到機箱上,注意機箱上的銅柱不多也不少,避免主板下面有空余的銅柱而導致主板短路。
第五步將GPU和其他pcie接口設備安裝到主板與機箱上。
第六步安裝SSD和機械硬盤。
第七步安裝電源模塊。
第八步連接主板及各硬件的線,整理好背線。
第九步開機測試能否進入BIOS界面。
第十步安裝操作系統Ubuntu LTS 16.04(相對簡單,不展開)。
環境搭建及開源框架選擇:
硬件組裝完畢,安裝好操作系統后,接起來就是深度學習軟件環境搭建部份了。其中就涉及到顯卡驅動和CUDA、CUDNN的安裝,這三塊是基礎,建議直接登陸Nvidia官網跟著官方文檔一步步安裝。
一、顯卡驅動安裝
活進入系統桌面后,會發現默認的分辨率只有1024x768,因為系統默認使用了開源顯卡驅動,需要手動更新成N卡最新驅動。
第一步:打開設置,進入軟件更新設置(Software&Updates)。
第二步:選擇附加驅動,等待刷新。
第三步:選擇所列出來的可以析的選項,選擇應用改變即可
第四步:在終端中輸入nvvidia-smi,可以查詢顯卡驅動狀態。
二、CUDA與CUDNN安裝
登陸官網下載CUDA安裝包,在下載時找相應的官方安裝文檔仔細閱讀,盡可能按照它的步驟一步步走。同時再找幾篇好的博客文章作為參考,對常見的問題要知道如何解決,做到胸有成竹。
第一步:檢查自己的電腦環境是否具備安裝CUDA的條件。
第二步:驗證自己的Linux版本是否支持CUDA。
第三步:驗證系統是否安裝了GCC。
第四步:通過package manager安裝。
第五步:重啟電腦,檢查是否安裝成功。
第六步:嘗試編譯CUDA提供的samples。
第七步:根據官網教程安裝CUDNN。
三、Docker安裝
深度學習涉及到各個領域的研究,相關的框架不斷更新和迭代。如果在同一部主機上安裝全部的框架,有可能會出現管理問題及各種包沖突問題,也不利于工作站資源的充分利用。而Docker是一個開源的應用容器引擎,可以方便地打包應用以及依賴包到一個輕量級、可移植的容器中。使用Docker,可以按自己研究的需要,配置不同的Docker鏡像。Docker的安裝相對簡單,這里就不展開詳細說明,網上也有許多現成的文章可供參考,建議大家登陸官網查找相應的安裝文檔即可成功安裝。
四、深度學習鏡像選擇、
在實際的研究和開發中,可以根據需求下載不同的鏡像。下面列出常用的鏡像名稱和用途
五、成果演示
最后,讓我們來看看經過以上各個環節后,如何為深度學習研究提供簡單易用的開發環境:
打開終端,連到服務器,運行以下命令啟動容器(根據實際情況,參數不同):
打開瀏覽器,訪問以下地址,能夠正常顯示,一切正常。
總結:
經過今天的簡單梳理,大家應該對如何搭建深度學習工作站有了初步的了解,重要的是多實踐,思考自己實際工作中的需求,搭建出滿足研究的工作站。擁有一臺性能強勁的工作站,才能讓你在深度學習的海洋里如魚得水,遇到任何的波濤駭浪都能泰然面對。
相關新聞
廣州大麥干貨郵箱訂閱服務
免費為您提供各類型高質量電商干貨,方便您隨時閱讀感興趣的干貨!
輸入店鋪信息,獲取專業全方面分析
* 您的信息將被嚴格保密,請放心填寫