首页 > 精品推荐 > 重回05,从校内网开始狂卷! > 第508章 处於领先全球的大气层!&好日子~

第508章 处於领先全球的大气层!&好日子~(1/2)

目录
好书推荐: 通房财大气粗,却被迫宅斗? 闺蜜齐穿书,嫁权臣,她离我也离 灵潮将至 全能艺术大师 霍格沃茨:谁让她当教授的 开局被诛十族,我在朱棣头上作死 重生86:开局就被撬墙角? 穿成极品小姑?我带全家荒年致富 意识觉醒后,白月光手撕剧本 婚礼当天,老公朋友圈官宣白月光了

第508章 处於领先全球的大气层!&好日子~

看著屏幕中列出的一项项数据,洛川忍不住咧开嘴巴。

稳了~

骄阳200单卡fp16算力高达7.92tfl0ps!

对比一下同期顶尖產品。

英伟达於今年3月份刚推出的geforcegtx680,单卡算力仅有3.09tflops。

不过二者的属性稍有不同。

后者是通用gpu,设计目標是,兼顾游戏渲染与通用计算,在3d建模、科学计算等场景中,兼容性更强。

而骄阳200为ai算力卡,仅针对ai算子优化,如矩阵乘法、lsttm门控运算等。

在通用浮点运算和图形渲染管线效率上,要弱於gtx680不少。

但在ai的核心战场,深度学习训练与推理等垂直领域,骄阳200却有著代际领先!

基於存算一体架构,骄阳200的数据传输延迟,低至15ns!

內存带宽高达1tb/s!

而gtx680,延迟高达200ns,內存带宽约192gb/s。

以模型训练为例。

后者需频繁在显存与与计算单元间搬运权重数据,每叠代100步,便因数据搬运,浪费28秒。

而骄阳200可实现“数据不动计算动”,同等任务下,计算效率提升4.7倍!

此外,通过骄阳200內置的“自注意力並行计算单元”,针对transformer的qkv矩阵乘法设计,可实现硬体级加速。

单卡每秒可处理2.1万亿次注意力计算!

gtx680仅0.4万亿次。

在在bert—base模型推理中,单卡qps,即每秒查询率达1.2万!

是gtx680的3.8倍!

功耗方面。

骄阳200的存算一体架构,使单卡功耗控制在220w,稍低於gtx680的195w。

但算力功耗比达36.4gflops/w,后者仅有15.8gflops/w。

在7x24小时不间断运行的情况下,8卡骄阳200集群,年耗电量较gtx680集群减少120

万度!

集群扩展性方面。

基於洛先知亲自主导研发的“晶片间高速通信协议+“云—芯协同”协议+高速总线”三层技术架构,骄阳200实现了节点通信的代际跨越!

单集群可扩展至256卡!

且通信延迟低於8us!

可实现跨节点数据高效同步,足以轻鬆支撑10亿参数模型的分布式训练。

不必再像骄阳100那样,通过堆砌节点数量、牺牲算力利用率,强行训练10亿级模型0

与之相比,英伟达仍依赖於pcle2.o与infinibandqdr构建集群。

pcie总线存在天然瓶颈,节点带宽5gb/s,256卡集群理论总带宽仅1.28tb/s,远低於骄阳200的2tb/s。

参数传输延迟,通常在100us以上。

且隨著节点增加,总线衝突將会导致实际可用带宽,呈指数级下降。

总之,在ai的核心战场上,骄阳200处於领先全球的大气层!

本章未完,点击下一页继续阅读。

目录
新书推荐: 斗罗:武魂大师球,美女请留步 斗罗:东皇太一,开局双神位传承 开团秒跟:一路开挂到权力巅峰 秩序游戏 让你演武将,你怎么成西楚霸王了 重生获系统,我掌握众多黑料 绝美顶流心声泄露,万人嫌成团宠 三国:从街亭开始重振蜀汉 直播讲医,观众问我有没有从医证 焦糖薄荷布第14本书
返回顶部