搜索
>
人工智能AI的硬件解决方案

产品中心

人工智能AI的硬件解决方案

深度学习作为一个划时代的技术,在计算机视觉、语音识别与自然语言处理领域得到广泛的成功应用,相关的产品正如雨后春笋般涌现。在深度学习网络庞大的数据量和计算量的需求下,各种针对深度学习网络加速的AI芯片应运而生。但是现有的冯诺依曼架构的AI芯片由于存储墙依然存在功耗过大的问题。极大的功耗使得现有数字架构的AI芯片部署在边缘设备,尤其是电池供电的物联网终端设备存在种种困难。

典型的深度学习网络

 

主流的冯诺依曼架构中,计算单元和内存单元是两个完全分离的单元,计算单元根据指令从内存读取数据,在计算单元完成计算,再存回内存。数据需要在计算单元和存储单元之间进行频繁的移动,因此带来的极大的功耗和极低的运算效率。存算一体架构就是把计算单元与内存单元合二为一,在存储数据同时完成运算,从而极大地减少了计算过程中数据存取的时间和能耗。

冯诺依曼架构

存算一体架构

 

基于NOR Flash的存算一体架构的AI芯片是通过Flash阵列的模拟计算来高度并行化完成矩阵计算。具体做法是,将权值映射到Flash阵列,然后将输入转化为电压,输入到Flash阵列进行模拟计算,采集到的输出电流即为计算结果。基于NOR Flash的存算一体架构做到两点:第一,Flash单元同时是存储单元又是计算单元,消除了神经网络权重的内存移动,极大的降低了功耗,提高了能效比。第二,每个flash相当于一个乘法器,执行矩阵运算时,有几万个乘法累加并行进行,大大提高了吞吐量。

基于Nor Flash的存算一体架构的原理

 

公司最新推出的基于NOR Flash的超低功耗、高性能的用于边缘计算的AI的芯片,使用最新的存算一体架构,没有传统冯诺依曼结构的限制,能够使用超低功耗完成大规模并行乘法累加计算。该芯片与传统的CPU,DSP,GPU等冯诺依曼架构的芯片相比,在保证足够的算力同时,功耗降低百倍,能够带来百倍运算效能提升和成本降低。这款存算一体架构的AI芯片具有极低的功耗,强劲的算力,低廉的价格,和极小的面积,使得大型深度学习应用从云端部署至边缘计算领域带来无限可能。从此,边缘设备,尤其是电池供电的物联网设备无需将数据传输至云端,在本地完成计算,使用极低的功耗完成实时AI推理,并且享有绝对的数据安全。这款存算一体架构的AI芯片,节省了大量的存储单元和计算单元,无需采用先进的半导体加工工艺,因此产品成本非常低。恒烁的目标就是使大家能够以购买一块Flash的价格就能享受极高的算力。目前,公司的第一版AI芯片已经成功流片,并且搭载该芯片现场演示了一个人脸识别的深度学习算法。

 

恒烁AI芯片DIP封装样本

搭载恒烁AI芯片的人脸识别演示

 

这款存算一体架构的AI芯片聚焦于低延迟、低功耗、高算力需求的边缘计算领域,特别是使用电池供电的物联网终端设备领域,如,智能手机、可穿戴设备、智能家居、无人机、智能摄像头、助听器等。在即将到来的万物互联时代,该芯片将会带来更多传统应用的变革和新的应用产品的出现。

目前的可穿戴设备,由于单片机算力的限制无法实时的通过心电检测人体的健康状态,当前的做法是将心电数据传输至云端,在云端完成心电检测然后再传回本地,这样计算延迟高,功耗大,严重拉低了设备的续航和用户使用体验,并且不能使用在无网络或者复杂的网络的环境。未来,可穿戴设备的单片机只需挂载一块NOR Flash大小的恒烁超低功耗AI芯片,就能在本地实时地完成数十种心脏病的推理检测,无需网络,无延迟,能够适用于各种网络环境,实时的关注人体健康,大大提高了可穿戴设备的续航能力和使用体验。
  目前的语音识别终端设备由于算力和功耗的限制,只能将语音信息传输至云端进行识别,然后反馈至设备,该方法延迟高,功耗大,不能进行实时的语音处理,不能适用于各种复杂的网络环境。未来搭载恒烁AI芯片的语音识别设备,能够不依靠互联网就能完成本地的语音信号的实时推理识别,能够适用于各种的网络情况,不用上传语音信息就能享有绝对的数据安全,必然大大提高现在的语音识别设备的使用体验和续航。
  目前的智能手机终端大多使用NPU协处理器来完成深度学习算法的加速计算,这些NPU协处理器采用传统的冯诺依曼架构,以IP核的形式嵌入至CPU,极大地增加了芯片的面积和功耗,影响了智能手机的发展。未来这些厂商只需以挂载或者IP集成的方式搭载恒烁的超低功耗AI芯片,就能以极低的功耗享受强劲的算力,极大地提高手机续航和深度学习应用场景,为各种复杂的深度学习应用部署至手机终端带来无限可能,如人脸识别,AI识物,语言翻译等。

心电检测

语音唤醒

人脸识别