NVIDIA:GPU计算机2010年冲击世界前十

时间:2009-02-26   来源:   网友评论:0   人气: 245 作者:

近日,NVIDIA公司Tesla计算事业部总经理 Andy Keane在接受IT168服务器频道采访时表示,到2010年采用NVIDIA Tesla GPU构建的超级计算机有望进入全球高性能计算机TOP500排行榜的前十位。

TSUBAME:全球最快的GPU计算系统

    据了解,在11月公布的最新一期TOP500排行榜上,NVIDIA Tesla的最好成绩是第29位。这套名为“TSUBAME”的系统由NEC和SUN公司联合研制,采用了“CPU+GPU”的混合架构,包括3万多颗AMD Opteron和英特尔Xeon处理器内核,以及170台Tesla S1070 1U服务器,安装在日本东京工业大学,Linpack测试性能是77.48万亿次每秒(TFlops),理论峰值接近170万亿次每秒。

    据介绍,1台S1070内置4块Tesla GPU处理器卡,每个GPU处理器卡拥有240个流处理器核,也就是说1台S1070总共拥有960个内核,内核频率在1.296-1.44GHz之间,可以并行执行成千上万计的线程。S1070最大内存支持16GB,最大功耗800W,支持PCIe x16 or x8扩展。其单精度峰值浮点计算性能可以达到3.73 to 4.14万亿次每秒,双精度浮点性能可达到311 to 345 GFlops。也就是说,GPU双精度计算性能是单精度性能的8%左右。

    根据TOP500历史资料显示,早在2006年,东京工业大学就构筑了“TSUBAME Grid Cluster”高性能计算系统,当时的双精度浮点运算速度达到38.18万亿次每秒,在2006年6月TOP500中位居全球第7位。虽然之后该系统也不断升级,提高性能,但很难赶上全球高性能计算机的快速发展速度,在2008年6月公布的TOP500中,运算速度为67.7TFLOPS,排名跌至第24位。

    此前,东京工业大学全球科技信息和计算中心主任Satoshi Matsuoka曾表示,东京工大一直在研究未来的计算平台,发现要想实现下一步的性能跨越,TSUBAME必须采用GPU计算技术。“我们的应用测试发现,Tesla GPU提供了我们前所未见的加速比,而且只花了一周时间就把GPU系统部署完成。”

    此番通过增加170个Tesla节点,增加了10万亿次的双精度计算能力,按照现在4核的基本性能,大约相当于125个刀片的计算能力。如果我们按照单精度计算性能来计算,由于一个Tesla S1070的运算能力最大可达到4.1万亿次每秒,也就是说170台S1070可以实现697万亿次每秒,性能提升比较可观。

 

性能与功耗的问题

    不过,记者也了解到,目前高性能计算用户大都需要双精度计算,Tesla有限的双精度性能使其应用领域受到了限制。Andy Keane告诉记者,NVIDIA的GPU向双精度方向发展也是这两年的时间,在2006年时还没有双精度单元,但到2008年我们已经把双精度性能做到了84 GFlops。

    他谈到,当前10系列GPU是首批拥有双精度的NVIDIA处理器。过去这种性能曾作为GPU的一个模块添加在GPU当中。而在这一代产品中,NVIDIA为每组八个单精度处理器加入了一个双精度单元。随着快速发展,未来的GPU将拥有更多双精度单元。由于GPU的性能一般每年都会翻一番,未来双精度性能将至少比当前的速度快5倍。

    除了性能提升,成本、功耗、占地面积也是大规模超级计算机用户所关心的重要因素。目前,NVIDIA的GPU桌面高性能计算机在美国麻省理工学院、哈佛大学、伊利诺伊大学、英国剑桥大学、德国布伦瑞克里大学以及韩国延世大学的使用也证明了这些价值。如比利时安特卫普大学原来用的超级计算机有512颗处理器核,成本是530万美元,占用了好几个机柜;而后来换成一台拥有8个GPU的台式系统,性能相当,成本只有7000美元,占地面积也大为减少。

    另外值得一提的是,通过混合架构来提升性能,降低功耗的做法在IBM的“走鹃”超级计算机中已经得到较好的验证。比如同样是一千万亿次的计算性能,IBM“走鹃”的系统功耗只有2483.47千瓦,而Cray “美洲豹”却使用了6950.6千瓦。一个重要的原因就在于IBM“走鹃”采用了“Opetron+CELL”的混合结构:皓龙处理器负责标准的运算处理如文件系统的I/O,而PowerXCell 芯片主要加速数学和


 

文章评论