datasheet

华为的达芬奇架构芯片能否和英伟达平起平坐

2018-10-12来源: 半导体行业观察 关键字:华为  英伟达

日前,华为公布了其最新的AI芯片战略,并正式推出了基于达芬奇架构设计的的云端和边缘端的AI芯片。作为国内ICT产业、集成电路领域的一个重要角色,华为的这次公布,让行业内的人沸腾了。甚至出现了华为将在云端AI芯片领域干掉英伟达、谷歌,在边缘端会对这个领域的AI芯片初创者或者老玩家带来灭顶之灾。但华为真的有那么强大的影响力吗?我们来看一下本文作者对华为战略和整个市场影响力的分析。


近日,华为在联接大会2018发布了其全栈全场景AI解决方案,涵盖了从终端到云端,从AI芯片到深度学习训练部署框架的多层解决方案,其在AI领域投入的决心可谓巨大。然而,如果仔细分析其具体落地,我们会发现华为的战略特别实用主义,并没有去刻意追求技术上的精致,而是快速做了一个能满足需求的框架,以求先占领市场再做迭代。本文将着重对华为的AI芯片战略做一分析,并加入一些华为AI芯片对整个产业影响的个人观点。

 

多战场全覆盖:华为的雄心壮志

 

华为在本次大会上公布了其AI战略,涉及的产品无论是深度还是广度都是非常惊人的。首先,从深度来说,其AI相关产品生态包含了从应用接口ModelArt(用于客户的应用直接接入AI功能),中层深度学习软件框架MindSpore,软硬件接口层CANN,直到专用硬件Ascend系列,最终可以为终端和云端的应用赋能。

 

华为的AI战线之深可谓是全球一流,仅有Google、百度等技术导向明显的互联网公司可以与之匹敌(Google拥有最流行的深度学习框架TensorFlow和芯片TPU,百度则拥有深度学习框架PaddlePaddle和芯片XPU),而诸如微软、亚马逊、腾讯等其他云服务领域厂商的战线深度,尤其是在硬件领域的投入决心,都远远不及华为。

 

 

华为的战线如此之深,究其原因无外乎是“有纵深才能有壁垒”。

 

对于华为这样的巨头公司而言,只有把握住了生态链上的每一个环节,把开发者和用户的整个使用循环全部保留在自己的生态圈内,才能形成真正的壁垒,否则只要在任何环节存在空白或者弱项,就有被竞争对手或者新兴公司单点突破的机会。而这样的壁垒一旦形成,不仅仅可以完成对于竞争对手的防御,更可以在整体生态上获得极高的利润——由于完整技术栈的不可替代性,从而可以收获大量利润。Nvidia就是把自己凡是能接触到的生态环节都打通并做到极致的公司,从而产生了极高的壁垒:硬件上有GPU,深度学习框架和软硬件接口层有CuDNN和TensorRT,因此在这几年深度学习人工智能高速发展中,Nvidia几乎占据了不可替代的地位。

 

然而,Nvidia人工智能生态中的底层硬件GPU却存在破绽,由于GPU对于人工智能算法的支持并非完美,因此造成了计算效率不高,也引得群雄逐鹿,众多公司纷纷进入人工智能芯片的战场。从这个角度来看华为正在做挑战Nvidia的事情,借着Nvidia GPU做人工智能效率低的弱点,希望构建自主的技术生态来取而代之。

 

出了纵向深度之外,华为的战线横向也铺得很开。一旦有了一个设计完善的纵向框架,那么把这个框架在不同算力需求尺度上推广上将是非常容易的,对于华为这样以执行力强著称的公司来说这样的平推战术更是得心应手。一旦战略的深度和广度上都得到良好的执行,其最终的收益将是乘数效应(即收益正比于深度x广度),从而带来惊人的回报。从华为的战略广度来看,既包含终端(低功耗,中低算力),也包含边缘(中等功耗,中等算力)和云(高功耗,高算力)。在之前,华为的业务领域早已包含了从端(华为/荣耀手机以及智能家电)到云(华为云),因此在之前的业务上再部署推广人工智能可谓是水到渠成。 

 

 

唯快不破:“达芬奇”架构

 

华为同时注重深度和广度的人工智能战略是以技术为基石的,而其技术栈中最具有挑战性,同时也是最具有区分度的就是底层芯片。为了满足华为战略上的需求,其芯片技术需要满足以下需求:

 

  • 性能好,否则难以撼动Nvidia的位置,这毫无疑问是战略深度中最重要的一个要素;

  • 设计可伸缩性好,同一架构可以通过修改设计规模快速部署到不同算力尺度的应用,从而实现战略广度快速铺开的需求;

  • 通用性好,能兼容尽可能多的操作;

  • 上市速度要快。

 

以上四点要同时满足是非常困难的,尤其是一些非常痴迷于技术的公司,往往会选择去探索新的芯片架构以把前三个需求做到极致,这也就意味着放弃了第四个能快速上市的需求,因为新架构往往意味着较长的研发周期和较大的风险,难以做到快速上市。而华为的选择则是在传统架构上做足够的工程优化,并不追求极致性能,但求能满足用户需求并快速落地。与之对应的是华为使用在Ascend系列芯片中的达芬奇架构。

 

 

从Ascend芯片的架构来看,其实就是传统的ARM核+AI加速器的模式,而其AI加速器就是达芬奇核心。达芬奇核心从架构上看起来也并没有使用炫技式的前沿技术,而是简单直接地把计算用的乘加器(MAC)按照不同的计算组织成不同的方式,并搭配标准的数据缓存。当要做人工智能相关的计算时,可以使用按cube(“三维立方”) 模式组织的MAC群,从而支持相关计算。当需要其他常规计算时,则可以使用矢量或标量计算MAC。对于不同规模的芯片,可以通过放置不同数量的达芬奇核心来满足需求,因此同一个达芬奇核心的设计可以灵活地满足华为战略横向上不同应用的需求。

 

这次的大会上,华为发布了Ascend 910和Ascend 310,其中Ascend 910针对云端应用,使用7nm工艺在350W的功耗上实现了256 TOPS半精度浮点数算力或512 TOPS 8位整数算力,并且集成了128通道全高清视频解码器;而Ascend 310针对边缘应用,使用12nm工艺在7W的功耗上实现了8 TOPS半精度浮点数算力或16 TOPS 8位整数算力,并且集成了单通道全高清视频解码器。从中,我们可以看到华为的战略横向野心很大,但是第一个落地的市场看来还是机器视觉市场。

 

从公布的芯片性能上来看,这次Ascend 910以及Ascend 310特意提到了视频解码器,显然是与视频应用有关;此外,达芬奇架构中的cube式MAC阵列估计也是为了同时兼顾云端训练应用和机器视觉推理应用而做的选择。从技术上看,cube式MAC阵列非常适合卷积神经网络。卷积神经网络是目前机器视觉应用最流行的模型,而机器视觉应用则可以说是这一波人工智能应用中落地幅度最大的。在卷积神经网络中,卷积计算的形式(如下图)可以被达芬奇的cube式MAC阵列高效支持,而决策树、贝叶斯等其他常见机器学习算法在cube式MAC阵列上运行却不见得有什么优势,因此可以猜测达芬奇的架构设计首要目的是为了支持卷积神经网络推理,而优化卷积神经网络推理就意味着主打机器视觉。

 

换句话说,达芬奇架构是在通用性上有意识地做了折衷以换取较合理的开发时间和成本。另一方面,做云端训练的时候由于数据往往是批量到来,因此使用cube式MAC阵列也能一次处理一个批次中的不同并行数据,从而也能较好地支持训练。然而,如果从从架构上做比较,cube式的MAC阵列的效率相比Nvidia GPU的SIMD架构未必会有本质上的提升,因此从训练的角度来看达芬奇架构可以说是Nvidia GPU的替代者,但很难说是超越者。

 

 

我们不妨将达芬奇架构与目前最热门的两种商用人工智能芯片架构做比较,即Nvidia的GPU和Google的TPU。Nvidia的GPU架构源自经典的GPU多核并行架构,为了优化人工智能计算,加入了对于矩阵运算的优化支持(Tensor Core)。但是GPU并非天生为人工智能而生,因此在卷积神经网络推理等主流应用上,GPU架构的效率并不高,因此华为达芬奇为卷积神经网络优化过的架构相比GPU的计算效率要强不少。与Google的TPU相比,达芬奇架构则显得更加简单直接。

 

TPU上使用了优美的脉动阵列(systolic array)架构,该架构虽然很久之前就被人们提出,但是迟迟没有找到合适的应用,因此TPU采用脉动阵列从某种意义上可以说是重新发明了脉动阵列,给了脉动阵列以新生。脉动阵列的优势是对于内存带宽的需求大大减少,但是问题在于难以做小,一旦做小了效率就会大大下降——在TPU等级的云端高算力应用脉动阵列是合适的,但是在终端低算力低功耗应用中脉动阵列的效率就不高。因此达芬奇架构相比TPU的脉动阵列来说更灵活,能满足不同算力需求,也即满足了华为AI战略中的横向部分。

 

 

最终比拼的还是生态

 

从之前的分析中,我们的结论是华为的达芬奇架构是一个出色的架构,与Nvidia的GPU和Google的TPU相比性能并不落下风,但是其可伸缩性却远好于GPU和TPU,能快速部署到多个不同算力等级的应用中。为了能充分发挥可伸缩性强的优势,华为的AI芯片必须能尽快进入多个不同的应用领域,因此最终比拼的还是综合生态而非一两个特定应用上的性能对比,正

[1] [2]

关键字:华为  英伟达

编辑:muyan 引用地址:/qrs/2018/ic-news101251746.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:AI芯片未成垄断格局,华为阿里机会来了
下一篇:传感器芯片市场国有化率不足10%,呈现高度依赖态势

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

软件定义安防摄像机不是伪概念 未来发展还未可得知

“软件定义摄像机” 在安防行业正成为一个热门话题。部分从业者认为,软件不仅仅能够控制安防后端硬件运行,还能使得前端IPC具备自主学习能力,拓展智能系统,减少产品线矩阵。换句话说:在安防产品技术构成中,软件将丢掉以往辅助作用的盔甲,成为产品中枢与灵魂。今年3月,华为就发布了具备按需定义、分层智能、持续演进特征的“软件定义”系列智能摄像机。官方解释称,这些摄像机可以根据不同的场景为摄像机按需加载不同的软件和算法,通过多特征提取与识别、多摄像机间的协同、端云间的协同成倍地提高智能分析效率。内置实时图像质量检测与评估特性,并具备自我感知和场景适应性学习能力,让算法和应用不断迭代和演进,能够广泛适用于专业人像、车辆、电子警察等各种应用场景
发表于 2018-12-07
软件定义安防摄像机不是伪概念 未来发展还未可得知

华为畅享9入网工信部

        华为畅享9已经入网工信部,有DUB-TL00和DUB-AL00两个型号,配置、真机证件照已经公开。  昨日,华为官方宣布华为畅享9手机的预约活动开启,并宣布该手机具体将在12月12日开始正式预订,官方称“千元实力派,大可期待”。  从工信部的信息来看,华为畅享9采用6.26英寸1520×720屏幕,电池容量为3900mAh,CPU主频为1.8GHz,4GB RAM+64GB ROM,运行安卓8.1系统。相机方面,华为畅想9后置1300万像素+200万像素双摄像头,前置800万像素摄像头。  据悉将搭载骁龙450处理器,机身尺寸为158.92x76.91x8.1mm,保留
发表于 2018-12-07
华为畅享9入网工信部

V20将配备麒麟980和打孔屏

”似乎要成为2019年厂商们另一个主推的设计语言。此前,华为已经官宣,采用“极点全面屏”的Nova 4定于12月17日在长沙发布。  另外值得一提的是,往年,荣耀V系列都是国行先于海外发布的,所以大家可以期待“V20”在本月底或者明年1月初在国内率先登场。
发表于 2018-12-07
V20将配备麒麟980和打孔屏

日媒:华为事件后续,中美关系将更险峻

华为财务长孟晚舟1日在加拿大遭到拘捕,并将引渡至美国。日本市场议论纷纷,分析师认为,目前的影响还不透明,但可以确定的是,中美贸易战的问题将会更加复杂。《彭博》日文版引述分析师说法,CIBC证券金融商品部部长春木康认为,这会使中美两国更加对立。FPG证券的社长深谷幸司认为,这件事情会让美国与中国更加对立,恐怕影响接下来的交涉;SBI证券投信的相马勉部长也抱持相同看法,认为会让后面的形势更加险峻。但日本大和证券分析师石黑英之却认为,这并不会影响目前缓和的气氛,谈判决裂的可能性不高,对于中美贸易战未来的进展还是可以期待。曾任职于外务省,现任《富士电视台》解说员的风间晋指出,美国的目标有2个,第1个是“对伊朗的制裁”,这点难以妥协
发表于 2018-12-07
日媒:华为事件后续,中美关系将更险峻

华为三大供应商股价回升

集微网消息,昨(6)日,任正非之女、华为CFO孟晚舟加拿大被拘的消息轰动全网,华为主力供应商股价大跌。但今日,华为三大电子供应厂商台积电、大立光和鸿海开盘后股价携手上扬,台股供应链松了一口气。台积电、大立光和鸿海近来已经遭受了苹果砍单方面的利空消息,再加上昨日的孟晚舟被拘事件,三家大厂总市值已经缩水超过74亿美元。华为旗下IC设计公司海思是台积电前五大客户,双方从28纳米制程开始合作,目前华为订单约占台积电7纳米营收的10%以上。大立光是华为P系列和Mate系列的手机镜头主要供应商,华为占其营收比重约20~30%。另外,华为是鸿海旗下工业富联(FII)的电信设备业务最大客户,工业富联主要为华为代工无线基站,而鸿海旗下富士康则为华为
发表于 2018-12-07

日本计划将华为、中兴排除在政府设备使用名单之外

集微网消息,此前英国电信宣布将在未来两年内从其核心4G网络中彻底移除华为设备,以确保公司的手机业务符合内部政策。该政策旨在在电信基础设施中边缘化华为设备。新西兰电信运营商 也于28日发布声明称,新西兰政府通信安全局(GCSB)否决了该公司打算采用来自华为的 5G 电信设备的提议,理由依然是“对国家安全构成重大风险”。据读卖新闻今早消息,日本计划将华为、中兴通讯(000063)排除在政府设备使用名单之外。
发表于 2018-12-07
日本计划将华为、中兴排除在政府设备使用名单之外
热门资源推荐
更多

小广播

最新视频课程更多

MSP430 FRAM and CapTIvate 电容触控技术
MSP430 FRAM and CapTIvate 电容触控技术
计算机体系结构_国防科大_王志英
计算机体系结构_国防科大_王志英
计算机科学速成课
计算机科学速成课
随机信号处理 西电 赵国庆
随机信号处理 西电 赵国庆
Linux shell脚本应用
Linux shell脚本应用

何立民专栏

单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

更多相关热搜器件

  •  TPS77601D
  •  ML610Q439-NNNTCZ03A7
  •  CX5032SB26000H0FPJ01
  •  LFXTAL019155Bulk
  •  ESC-42-12-7S-TR
  •  FXO-PC735R-200
  •  SIT9001AC-43-33E3-80.00000Y
  •  PCU12108
  •  8N3SV76FC-0011CDI
  •  ABLS-24.576MHZ-B4-F-T
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright 2005-2018 EEWORLD.com.cn, Inc. All rights reserved