在线阅读杂志

    2018年05月20日

    第10期 总第484期

    封面文章
    “网银”殊途同归路
    金融服务似乎正在以你想要的方式前行。 相应的,金融的生态及格局也在发生重大变化。技术的推动让金融的数字化转型愈发明显,传统金融机构“离柜率”同互联网银行业务激增形成强烈的对比。[详细]
    精彩推荐
  • 首款可重构超低功耗人工智能芯片TX210量产 可重构架构优势凸显

    时间:2019-07-08    来源:    作者: 我要评论() 字号:T | T

  • 消息称:全球首款可重构超低功耗人工智能芯片TX210已实现规模化量产,生产商清微智能表示: TX210是一款语音SoC芯片,针对多种应用场景的智能终端产品开发,将于6月中旬正式交付市场,客户主要来自于手机、家居,玩具及智能穿戴设备厂商。

    清微智能核心技术团队来自清华微电子所,在正式推出商用芯片TX210前,一直在做的一件事便是——以更先进的可重构计算追求更低的功耗,最高的能效比。

    谋定而后动

    提起中国芯片产业,就不能不提输送了占据中国半数芯片公司创始团队与高管的清华大学,提到清华芯片,绕不开微电子学研究所。而这其中的灵魂人物正是现任清华大学微电子学研究所所长,被誉为中国芯片技术领头人的魏少军教授。

    十三年前的2006年,意识到可重构计算架构对于芯片算力提升、功耗降低的巨大优势,魏少军教授牵头成立了清华大学可重构计算研究团队。十多年来,由魏少军教授带领的团队一直在进行着可重构计算的研发。

    而这支团队正是后来清微智能的核心。

    “做AI芯片勿自欺欺人,架构创新很关键。“魏教授曾不止在一个场合强调架构对AI芯片的重要作用。

    随着2015年,AI在全球的第三次全面兴起,AI算法对芯片运算能力远高于传统芯片的要求,让能效更高、基本架构上与AI算法浑然天成的可重构计算开始异军突起,验证了魏教授的提醒,也让基于此架构的芯片开始进入“聚光灯“下。

    2017年6月,团队的第一代人工智能芯片Thinker-Ⅰ推出,在2017VLSI国际研讨会上,当团队公开介绍这颗花费数年时间设计的芯片时,外界给出了极高的评价:(Thinker)突破了神经网络计算和访存瓶颈,实现了高能效多模态混合神经网络计算。

    2017 ACM/IEEE ISLPED会议获设计竞赛奖;ISCA 2018发表了中国唯一第一作者论文。《麻省理工科技评论》曾专门撰文称:Thinker芯片论文发表在国际集成电路顶级期刊IEEE Journal of Solid-State Circuits上,对于中国来说,是件很了不起的事情,这颗支持神经网络的芯片,最特别之处就在于它的极低功耗。

    2018年7月,预测到AIoT市场将步入全面爆发期的研发团队,在北京中关村注册成立北京清微智能科技有限公司,十多年扎实的技术积累,200多项技术专利,一旦投入市场,在不到一年时间交出的量产TX210芯片,水到而渠成。

    为什么是可重构?

    传统人工智能芯片,主要基于CPU/DSP/GPU/NPU架构, 这些架构本质属于指令驱动的计算模式。在具体计算过程中,需要从指令存储器中加载指令并解析指令,然后指导执行单元进行计算。在每次的数据计算中,这样的过程都不可避免,因此这是一种灵活但是低效的时域计算模式。

    在AI芯片的研发过程中,也有利用SIMD方式来提高数据复用以减少指令解析,但是SIMD面向的是同构的操作,当指令功能变换时,仍需要重复前面的过程。

    可重构计算(CGRA)是一种无需指令驱动的计算模式,它基于数据流图,面向的是异构的空域计算,一次配置形成固定的电路结构,从而以接近ASIC效率反复执行,资源利用率和数据复用率高。同时,相比ASIC方式的固定电路结构,它又可以依据应用或者算法进行电路配置,形成不同的计算电路结构,具有非常强的灵活性。

    “指令驱动”的时域计算模式 v.s. “数据驱动、动态重构”的空间计算模式

    清微智能CTO欧阳鹏透露,在可重构计算更低能耗和更强灵活性的基础上,清微在具体的芯片设计上,又做了两方面深化。

    主流神经网络算法具有混合数据精度表示的特点,即不同的神经网络层可用不同数据位宽来表达中间数据或者权重数据的精度。

    传统AI架构无法高效支持混合精度计算,或者只能通过扩展资源方式支持少数几种精度。欧阳鹏表示:清微AI芯片产品,支持从1bit-16bit的混合精度计算,同时,不同的神经网络层可以采用不同的精度表示,可实现实时切换精度。在具体实现过程中,可重构模式动态重组计算资源和带宽,根据精度表示,让计算资源和带宽接近满负荷进行计算,从而将混合精度网络下的计算资源和带宽的利用率逼近极限,高效支持多种混合精度的神经网络。

    另外一方面,人工智能算法,除了神经网络中卷积层,全连接层等逻辑,还有非神经网络计算逻辑。比如人脸检测和识别中,有NMS(非极大值抑制)以及仿射变换。在语音识别中,有FBANK/MFCC特征提取以及声学解码等。同时,非神经网络算法也在快速演进。比如最新NMS已经演化到Soft-NMS。

    传统AI芯片架构,强调了神经网络逻辑的计算效率,却忽视了非神经网络逻辑的计算效率。针对非神经网络逻辑,一般仍然采用CPU或者DSP进行处理,或者采用ASIC进行固化。清微AI芯片产品针对神经网络部分和非神经网络部分均进行了计算效率考虑。针对非神经网络处理逻辑,从算法数据流图进行空间映射,以接近ASIC效率计算。同时,通过配置形成不同的电路结构来动态处理不同非神经网络计算逻辑,在保证灵活性前提下,计算效率有极大提升。

    岂止于最高的能效比

    面临AI终端市场,算力能耗比、时延、成本一个都不能少,业界少有的十多年的技术积累和底层的架构设计能力让TX210很好的满足了这些衡量标准。

    据介绍:TX210采用TSMC40ULP工艺,支持WLCSP和QFN两种产品封装。

    芯片采用多级功耗唤醒模式,极大的降低了芯片的功耗,工作功耗mW级,VAD功耗仅uW级。

    TX210芯片可编程可重构,结构上有着极强的灵活性,支持多比特DNN神经网络,可以支持1-16bit位宽的神经网络计算,也支持FFT/MEL FILTER等。

    TX210还有一个显著特点就是用极小的芯片面积支持丰富的接口和电源管理。TX210的WLCSP封装面积仅有2.3X1.9mm2,适用于手机,蓝牙耳机等对体积要求苛刻的应用场景;同时TX210集成了LDO/ADC/BANDGAP/PGA等模拟器件,支持32K crystal输入,极大降低了用户的使用成本。

    值得一提的是,采用算法+芯片的协同设计优化,TX210在典型信噪比下,唤醒识别率95%,误识别率小于24小时一次。

    丰富的应用场景,定制的AI芯片

    “中国已成为全球最大的智能终端生产和消费国。”工信部电子科技委副主任莫玮日前表示。尽管智能终端产品在2018年有了井喷式发展,以最有代表性的智能音箱为例,2018年第四季度的出货量增长了95%,但业界普遍认为:终端智能的渗透率尚不足1%。这意味着,智能终端市场规模远未达到预期,当然也意味着AI芯片市场的巨大潜力。

    而作为人机交互的首要途径,语音AI芯片必将率先实现大规模量产和落地。

    语音AI芯片可应用至智能手机、可穿戴智能设备、小家电、大家电、玩具及车载等众多场景,找准场景需求,投产的TX210针对语音交互场景做了更多的优化。例如:为保持极低功耗状态,芯片只有在检测到人声时,才被激活;被激活的芯片准确监听到命令后,才会唤醒休眠的处理器芯片;芯片支持一语直达功能,处理器要处理的仅为唤醒词之后的语音信号内容。

    清微创始人CEO王博表示:基于对清微团队技术积累的认可和产品的信任,在TX210正式上市前,公司已与一些大型的互联网公司,智能手机及家电厂商建立了合作关系。

    提供以端侧为基础,并向云侧延伸的芯片产品及解决方案的清微智能,对于未来的产品路线已经有了清晰的规划,据悉今年下半年公司将发布视觉芯片,并持续迭代更新核心计算架构,进一步提升芯片的计算能效比。

    AI时代,美国关注基础算法,欧洲关注伦理道德,而在中国,经济的快节奏和庞大的市场规模,让AI在应用层面如火如荼。AI芯片同样如此,除了尚未形成巨无霸的垄断局面外,中国庞大的用户群所形成的独特优势,使得企业可以更快地根据用户体验更新芯片设计。

    AI芯片,中国未来可期!

  • 加入收藏
  • [ 作者: ]
  • 分享到: 更多
    标签:
  • 相关推荐
    无相关信息
  • 最新消息
    · 首款可重构超低功耗人工智能芯片TX210量产 可重构架构优势凸显2019-07-08
    · 软通动力全面布局 助力企业数字化转型2019-07-08
    · 热烈恭祝金猪下崽4.0全球发布会圆满落幕2019-07-08
    · 直击2019夏季达沃斯:盘点中国大佬的观点,他们都说了什么2019-07-08
    · 2019夏季达沃斯论坛开启 聚焦全球化新时代成功之道2019-07-08
      已有条评论,查看更多评伦发表评论
  • 用户名:  密码:              匿名发表  | 注册会员
  • 网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述