目录
1.电磁仿真计算特点与硬件配资分析
2.电磁仿真计算绝配~UltraLAB工作站介绍
3.电磁仿真计算硬件配置(单机与集群)推荐
一.电磁仿真计算特点与硬件配置分析
电磁场仿真软件广泛应用于无线和有线通信、计算机、卫星、雷达、半导体和微波集成电路、航空航天等领域,从毫米波电路、射频电路封装设计验证,到混合集成电路、PCB板、无源板级器件、RFIC/MMIC设计,天线设计,微波腔体、衰减器、微波转接头、波导录波器等设计等
1.1 电磁仿真算法分类、计算特点
计算电磁学(CEM)方法大致可分为2类:精确算法和高频近似方法。
(1)全波精确计算法
包括差分法(FDTD,FDFD)、有限元(FEM)、矩量法(MoM)以及基于矩量法的快速算法(如快速多极子FMM和多层快速多极子MLFMA)等,其中,在解决电大目标电磁问题中最有效的方法为多层快速多极子方法。
(2)高频近似方法
一般可归作2类:一类基于射线光学,包括几何光学(GO)、几何绕射理论(GTD)以及在GTD 基础上发展起来的一致性绕射理论(UTD)等;另一类基于波前光学,包括物理光学(PO)、物理绕射理论(PTD)、等效电磁流方法(MEC)以及增量长度绕射系数法(ILDC)等
算法计算特点汇总如下
NO |
关键项 |
时域算法 |
频域算法 |
||
1 |
主要算法 |
时域有限差分 FDTD |
时域有限积分 FIT |
有限元 FEM |
矩量法 MOM |
2 |
典型软件 |
EMPIRE XPU XFDTD EMPro |
CST |
HFSS EMPro JMAG FLU |
FEKO Momentum Sonnet |
3 |
计算特点 |
线性加速比高、高度多线程, 支持多核CPU 支持大型GPU 内存要求不高 回写很少 |
多线程,线性加速有限 支持多核CPU并行求解 内存要求高 回写有
|
小结
1.时域算法,属于显式算法,传统的CPU多核加速比好,核数越多计算越快,此外,并行度高,支持GPU加速计算,注意大部分求解器对GPU要求是双精度计算为主,也就是说需要用双精度性能高的GPU卡
2 频域算法,属于隐式算法,支持多核并行计算,但核数并行计算有限,不支持GPU计算,提升性能的手段,就是提升CPU的频率,足够大的内存,值得注意当内存非常大的时候(超过192GB),硬盘io性能非常关键
1.2 对并行计算求解过程分析
如何配置CPU要根据求解过程和算法特点,尤其要了解时域、频域两大算法特点紧密结合,这样才能更高效更合理,从并行求解流程图看,循环计算过程是单核和多核交叉过程
上图可以看出,CPU选型非常重要,CPU睿频足够高,大幅缩短【阶段1】求解时间,和整机足够核数+高频运行,大幅缩短【阶段2】的求解器解算时间
常规工作站卖家,提供的机器往往多核忽视了睿频的重要性,整个计算过程效率非常低,
因此 硬件配置注意:
1.如果是时域算法为主,例如 FDTD、FIT求解器,由于并行度高,工作站配置尽量多核,可显著提升求解速度,同时注意阶段1睿频高的处理器更快,如果是以GPU计算为主,可以配置CPU频率高,核数少的,这样整个过程显著提升
2.如果是隐式算法为主,例如 FEM,MOM求解器,由于并行度有限,一定要睿频尽可能高,同时保证足够的核数的并行,这样整个求解过程无死角瓶颈
3.如果是多种算法并用,CPU要足够核数与高睿频之间选择一个兼顾的规格,三种应用(时域算法、频域算法、混合算法)都均能确保工作站硬件计算性能最大化
考虑到上述计算特点,CPU的选择对整个求解过程极其重要,下面是最新上市的intel Xeon Schalable(可扩展)处理器多种规格,UltraLAB选型分析:
1.3 CEM求解规模与硬件配置推荐
a)基于时域算法~UltraLAB硬件配置参考(CPU类)
NO |
分类 |
规模划分 |
核数 |
全核频率 |
睿频 |
内存 |
并行存储 |
1 |
小规模 |
<50倍波长 |
14核 |
4.6GHz |
4.6GHz |
32GB |
|
18核 |
4.5GHz |
4.5GHz |
64GB |
|
|||
2 |
中等规模 |
50~100倍波长 |
36核 |
3.1GHz |
3.7GHz |
64GB |
|
40核 |
3.1GHz |
3.7GHz |
96GB |
|
|||
3 |
大规模 |
100~200倍波长 |
48核 |
3.5GHz |
3.7GHz |
96GB |
|
56核 |
3.3GHz |
3.8GHz |
192GB |
13*4TB |
|||
4 |
超大规模 |
>200倍波长 |
96核 |
2.8GHz |
3.3GHz |
512GB |
13*4TB |
b)基于频域算法~UltraLAB硬件配置参考
NO 分类 规模划分 核数 全核频率 睿频 内存 并行存储 1 小规模 <20万网格(</100万未知量) 14核 4.6GHz 4.6GHz 128GB 20万~80万网格(100~400万未知量) 18核 4.5GHz 4.5GHz 192GB 2 中等规模 80万~200万网格(400万~1000万未知量) 24核 4GHz 4.2GHz 256GB 200万~500万网格 36核 3.7GHz 3.7GHz 384GB 8*4TB (1000万~2500万未知量) 3 大规模 500万~1000万网格(2500万~5000万未知量) 48核 3.5GHz 3.7GHz 768GB 10*4TB 4 超大规模 1000万~2000万网格 (5000万~1亿未知量) 56核 3.3GHz 3.8GHz 1.5TB 13*4TB 5 超大规模 >2000万网格(>1亿个未知量) 集群18*6 =108 4.4GHz 4.4GHz 192GB 并行存储
c)基于超大规模时域算法求解GPU选型
如果以GPU求解为为主,可选的GPU卡参考下表
No 型号 显存(MB) CUDA核 显存带宽 (GBs) 浮点计算指标 TFlops -单精度 浮点计算指标 TFlops -双精度 散热 1 Tesla V100 16GB HBM2 5120 900 14.90 7.45 服务器 2 Tesla P100 16GB HBM2 3584 721 9.52 4.76 服务器 3 Tesla P100 12GB HBM2 3584 721 9.52 4.73 服务器 4 Quadro GV100 32GB 5120 870 14.85 7.42 主动式 5 Quadro GP100 16GB HBM2 3584 717 10.25 5.13 主动式 6 Quadro K6000 12GB 2880 288 5.18 1.73 主动式 7 Quadro K5200 8GB 2304 192 3.07 1.03 主动式
|
文章评论