上海奥麦达微电子有限公司

专业高效
微纳加工公司

SOI晶圆+忆阻器+神经网络计算--用于神经形态计算的节能忆阻电容器设备(SEMRON)

#忆阻器 #SOI晶圆 #神经网络计算

摘要——数据密集型计算操作,如神经网络训练,对于人工智能应用至关重要,但这些操作也非常耗能。一个解决方案是开发专用硬件,将神经网络直接映射到上面,例如,忆阻器阵列可以经过训练来实现并行的乘加操作。在这里,我们展示了利用电荷屏蔽原理的忆电容器设备,能够提供一种高度节能的并行乘加操作实现方法。我们制造了一个由156个微尺度忆电容器设备组成的交叉阵列,并利用它训练了一个能够区分字母“M”、“P”和“I”的神经网络。对这些阵列的建模表明,这种方法可以提供每瓦特29,600万亿次操作的能效,同时确保高精度(6–8位)。模拟还表明,这些设备有可能被缩小到大约45纳米的横向尺寸。

#全国产SOI晶圆定制加工   #468寸50nm-15um热氧片

库存片:

220nmSI高阻-3umSIO2-675umSI 6寸8寸 用于薄硅硅光

3000nmSI高阻-3umSIO2-675umSI 6寸8寸 用于厚硅硅光

双高阻SOI用于CPO

#尺寸4-8寸 

#最小起订量1片

#热氧层厚度范围50nm-15um

#膜厚精度最高精度+-5nm

#厚膜SOI-减薄抛光工艺600nm到微米级,加离子束精修,超级高精度膜厚均匀性

 #CavitySOI-带空腔SOI晶圆,光刻显影刻蚀键合制作SOI一条龙

 #FDSOI -最薄顶层10nm,特殊工艺精修,粗糙度小,膜厚精度高

普通超薄:SMARTCUT+离子束精修

超级超薄:EPI+SMARTCUT+离子束精修

#超平硅片-TTV500nm

我们为客户提供晶圆(硅晶圆,玻璃晶圆,SOI晶圆,GaAs,蓝宝石,碳化硅(导电,非绝缘),Ga2O3,金刚石,GaN(外延片/衬底)),镀膜(PVD,cvd,Ald,PLD)和材料(Au Cu Ag Pt Al Cr Ti Ni Sio2 Tio2 Ti3O5,Ta2O5,ZrO2,TiN,ALN,ZnO,HfO2。。更多材料),键合(石英石英键合,蓝宝石蓝宝石键合)光刻,高精度掩模版,外延,掺杂,6寸DUVKRF电子束光刻等产品及加工服务(请找小编领取我们晶圆标品库存列表,为您的科学实验加速。

请联系小编免费获取原文

图片
文章名:Energy-efficient memcapacitor devices for neuromorphic computing
作者:Kai-Uwe Demasius  1, Aron Kirschen  2 and Stuart Parkin  1
单位:1.Max Planck Institute of Microstructure Physics, Halle (Saale), Germany.
 2.SEMRON GmbH, Dresden, Germany

脑启发计算——通常称为神经形态计算——基于人工神经网络及其硬件实现,可以用于解决广泛的计算密集型任务。神经形态计算可以追溯到1980年代(参考文献1,2),但在忆阻器设备的开发3和深度神经网络中卷积层的算法层面提出4,5之后,该领域获得了显著的动力。从那时起,多个基于氧化物材料6-8、相变存储器9、自旋电子设备10,11和铁电设备(隧道结12,13和铁电场效应晶体管(FeFET)14,15)的阻性神经形态系统和设备被实现,这些系统——如铁电隧道结13和SONOS(即硅-氧化物-氮化硅-氧化物-硅)晶体管16——已展现出高达每瓦特100万亿次操作的能效(TOPSW–1)。所有这些方法都依赖于突触权重的模拟存储,这些权重可以用于乘法操作,并使用基尔霍夫电流定律通过交叉阵列实现电流求和17。

忆电容器设备18类似于忆阻器设备,但基于电容原理,可能比忆阻器设备提供更低的静态功耗。曾有关于忆电容器设备的理论提案18-22,但实践中实现的例子较少23-26。忆电容器设备可以通过实现可变板距的概念来实现,正如在微机电系统中展示的那样27,或者通过与介电层串联的金属-绝缘体过渡材料22,或者通过改变经典忆阻器中的氧空位前沿20,或者通过具有记忆效应的简单金属-氧化物-半导体电容器24,25来实现。为了获得高动态范围,这些设备要么在小板距下具有较大的寄生电阻成分20,要么由于大板距限制了横向可扩展性。具有变化表面积23或变化介电常数26的忆电容器也会遇到类似的问题。

在本文中,我们报告了一种基于电荷屏蔽的忆电容器设备,这些设备能够提供高动态范围和低功耗操作。我们在数十微米尺度上制造了这些设备,并用它们创建了一个交叉阵列架构,我们用它来运行图像识别算法。我们还通过模拟评估了这些设备在大规模节能神经形态系统中的潜在可扩展性。

基于电荷屏蔽的忆容器件
我们的忆容器件由顶栅电极、带有接触的屏蔽层以及背面读出电极组成(图 1a)。

图 1 | 忆容器件的结构。
a,器件的一般结构,包括栅极电极、屏蔽层(SL)和读出电极(I,电流;Q,电荷)。蓝色箭头表示电场耦合。
b,带有横向 pin 结以及电子和空穴注入的器件结构。
c,基于 b 中器件的交叉阵列结构,交流(a.c.)输入信号施加在字线(WL)上,累积电荷在位线(BL)处读出。读出过程中,SL 多数情况下接地(GND)。

这些层之间由介电层隔开。顶层介电层可以具有存储效应,例如电荷俘获或铁电性,这些效应可能影响屏蔽层,或者屏蔽层本身也可以表现出存储效应(本文仅研究第一种机理)。通过完全屏蔽或透射,可以获得极高的电场耦合开/关比,从而在栅电极和读出电极之间实现极大的电容调制。与前述概念相比,该结构的横向可扩展性显著更好,因为各层的厚度可以方便地优化,而动态比主要取决于屏蔽层的屏蔽效率。
通常情况下,电荷屏蔽依赖于德拜屏蔽长度 LD

其中,UT 为热电压,n 为载流子浓度,ε0 为电场常数,εr 为相对介电常数,e 为元电荷。在条件 Ψ≪UT 下,电场在屏蔽层中呈指数衰减,并在一个屏蔽长度 LD 内衰减至 37%。在实际半导体中,该关系高度非线性,取决于深度 x 处的电势 Ψ,其形式如下:

其中,p0 和 n0 分别是热平衡状态下空穴和电子的载流子浓度。因此,德拜屏蔽长度(公式 (1))——考虑到材料中电场的指数空间依赖关系——仅是非线性微分方程 (2) 的线性近似。尤其是在屏蔽层内发生强反型和载流子聚集时,屏蔽的特征长度会远小于德拜长度。这种相对于施加栅压或存储介质中存储电荷的非线性,会导致屏蔽效应极强或具有较好的透射性。

更为详细的器件结构如图 1b 所示,其屏蔽层中引入了横向的 p+n–n+ 结。p+ 和 n+ 掺杂区域分别作为电子和空穴的储库,可以注入这两类载流子以实现屏蔽。这不仅赋予了器件额外的功能,更重要的是,还保证了器件在正、负栅压下具有对称的响应。这一特性对于类脑器件至关重要,因为这样一来权重更新不会失真,从而提升训练精度。读出时,屏蔽层接地 (GND);写入和训练时,p+ 和 n+ 接触点所加电压可以不同,并且还能作为选择器使用(详见补充资料第 1 节)。

如图 1c 所示,单个器件可以排布成交叉阵列,用于高度并行的乘加 (MAC) 运算。在这种情况下,栅电极作为字线 (WL),用于输入信号;屏蔽层作为屏蔽线 (SL),与 WL 垂直;读出电极作为位线 (BL),与 SL 平行。一个 BL 上累积的电荷即为各交叉点乘积累加的结果。乘法运算由 WL 的输入信号与屏蔽层的状态完成,而屏蔽层的状态又由存储材料调节。权重被编码在每个交叉点的电容中。与电阻型器件不同,电容型器件只对动态电压或电流信号响应,因此在读出时对 WL 施加交流 (a.c.) 电压。存储材料的写入通过 SL 和 WL 之间的电压差来实现。

CV 曲线与单器件的渐进式编程

在微米尺度上,单个器件被制造在绝缘体上硅(SOI)晶圆上,其中带有高度 n 掺杂外延层的基底晶圆充当读出电极,埋氧层作为底部介电层。作为存储机理,采用了铁电辅助电荷俘获(极化电荷吸引载流子并促进俘获),以结合两种机理的优势【28,29】;隧穿氧化层厚度为 2.5 nm,以避免电荷去俘获。具体的制造细节见方法部分。

制备的器件栅长范围为 10–60 μm,栅宽通过绕多个高度 p+ 和 n+ 掺杂的指状区域延伸,从而形成多个并联的 pin 结。较大的面积带来了可检测的电容,并且关断器件的最小电容也能被精确测量(电容动态范围)。图 2a 显示了制备器件的显微图像。电容–电压(CV)测量通过在栅极施加交流(a.c.)信号与直流(d.c.)偏压(扫描)来实现:读出电极产生的交流电流通过锁相放大器或示波器与电流前置放大器测量。图 2b 显示了在 n+ 和 p+ 区域施加不同直流电压(VAK)时的基本 CV 曲线数据(注意此处使用的是普通二氧化硅介电层而非存储介质)。CV 曲线会根据 pin 结处于反偏或正偏而展宽或几乎消失;该行为在补充资料第 1 节进一步解释。总体上可以观察到一个电容耦合窗口:在耗尽状态下较高(因此能透射过屏蔽层),而在反型或累积状态下较低。这些曲线是 sigmoid 曲线的导数,在人工神经网络中对神经元建模具有重要作用。sigmoid 曲线的直接测量及进一步应用见补充资料第 1 节。

图 2 | 单器件的测量装置与 CV 曲线。
a,单个器件的显微图像及测量装置。
b,在不同 VAK 值下测得的无存储功能器件的 CV 曲线;VAK 以反对称方式施加,栅极直流电压在 −7 至 7 V 范围内扫描,小交流电压的幅度为 100 mV,频率为 1 kHz。
c,由于电荷注入引起的 CV 曲线漂移,此时器件具有存储功能。
d–f,模拟值写入方式:脉冲数调制(写入电压高度恒定)(d)、脉冲高度调制(电压从 ±4.0 V 增加/减小至 ±6.1 V)(e)以及脉冲长度调制(f)。在 d–f 中,屏蔽层接地,每个脉冲之间通过交流信号进行读出,如 c 所示。
g,不同写入脉冲高度下的脉冲数调制。

将普通二氧化硅介质替换为存储介质,并在 −5 至 5V 范围内进行 CV 扫描时,可以观察到电容耦合窗口的漂移,记忆窗口为 2.7V(图 2d),同时 pin 结接地。根据漂移方向,可以得出电荷俘获是存储机理的结论(如果是纯铁电翻转,曲线将向相反方向漂移)。相比之下,电容器件只能通过交流电压或电流信号读出。因此,在读出时,栅极施加一个交流电压(0.5V),并叠加一个直流偏压(1.0V)来调整读出窗口,如图 2d 阴影区域所示(注意读出时 pin 结接地)。在补充图 11a,b 中展示了已写入和擦除单元的读出电流,实验上实现了约 1:1,478 的电容动态范围。

为了存储模拟值,可以对栅极施加相同幅度的短脉冲(图 2d,g),施加逐渐增大的脉冲幅度(图 2e),或者改变脉冲长度(图 2f)。所得曲线与纯铁电翻转得到的曲线【14】有一定相似性,表明铁电效应在存储过程中起到了辅助作用。图 2d 中的曲线呈现出典型的非线性长期增强(LTP)曲线,具有指数依赖关系。

长期抑制(LTD)同样适用。

其中,Npgr 和 Ner 分别表示编程脉冲和擦除脉冲的数量;βpgr 和 βer 为展宽因子;Cmin 和 Cmax 分别表示最小和最大电容。这里 ΔC 表示电容的最大变化量。

在脉冲数调制中改变写入脉冲的幅度,会导致曲线更加平缓或更加陡峭(图 2g)。写入/擦除脉冲高度调制(图 2e)则可能呈现出相对对称的行为,并且在某些区间内对脉冲高度步进表现为近似线性。这对于实现类脑算法【17】非常有利。脉冲长度调制则表现出与脉冲数调制相似的行为(图 2f)。在补充图 11c 中展示了针对不同脉冲数的脉冲高度调制(图 2e)下,LTP 和 LTD 的读出电流测量结果,并揭示了电流的截止和增加过程。

其他存储参数,例如器件间差异、耐久性和保持特性,可见补充资料第 9 节。

交叉阵列与训练算法的实现

用于执行图像识别算法的交叉阵列器件被制备并通过键合线封装到芯片载体上。设计了一个印刷电路板(PCB),并由数据采集系统进行控制。图 3a 显示了制备好的芯片及其键合焊盘的照片、交叉阵列的显微图放大图以及扫描电子显微镜图像。每个存储单元的尺寸为 50×50 μm²。

图 3 | 交叉阵列布局及基础测量。
a、通过显微镜和扫描电子显微镜观察的线键合芯片图。
b、器件截面图。
c、实现“四象限乘法”的类脑系统:正负输入信号相互相位差 180°。交流条件与图 2 相同,输入信号的周期数用于编码输入量。时钟信号在正信号上升沿时为高电平,高电平期间开关处于左侧位置。读取时,SL 接地。
d、测量得到的不同输入周期数 Nper 和编程脉冲数(脉冲数调制)Npgr 对应的“四象限乘法”结果。对于负 Nper,输入信号相位偏移 180°;对于正 Npgr,对应 BL 编程为正值,负 BL 保持清除状态(负 Npgr 情况相反)。

器件的截面结构示意图如图 3b 所示。存储阵列的位线(BL)通过填充的深槽隔离。具体的制造工艺细节见方法部分。

该矩阵包含 26 条字线(WL)和 6 条位线(BL)(图 3c)。采用了差分权重拓扑结构【17】,即每个权重的正值和负值分别存储在两个存储单元中,然后将这两个 BL 的输出值相互抵消。

输入值通过符号相隔,且相位差为 180°。为了实现所需的“四象限乘法”(输入 × 权重),采用全局时钟信号配合开关电容方法(图 3c)。更多细节见补充材料第 11 节。放大器的积分电容在输入正弦信号的每一个周期内都会充电,因此周期数 (Nper) 就编码了输入信号的数值。这一效应还带来了噪声水平的平均化以及信噪比的提升,后文会进一步解释。

这种“四象限乘法”的理论概念通过以下实验得到了验证(图 3d):输入周期数 (Nper) 和编程脉冲数 (Npgr)(用于调节实际权重)在正负值范围内变化,同时读取输出电压。正负 Nper 值通过 180° 相移来编码,而正/负编程脉冲 (Npgr) 仅改变正/负权重,对应的另一部分处于清除状态。补充图 12a、b 展示了图 3d 中三维图的截面。沿输入周期数方向的曲线表现出高度线性,这种线性也在累加操作中得到了验证(补充图 12c),说明所提出的开关电容方法能实现高度线性的 MAC 运算。

前 25 条字线 (WLs) 用于输入 5×5 像素的图像特征映射,因此可以完成单层全连接层。暗像素用正值表示,亮像素用负值表示。偏置输入映射到第 26 条字线。

在实现的训练算法方面,选择了 Manhattan 更新规则,因为其训练过程更为简化。

—— 传统方法中的计算如下:

其中,α 表示学习率,δi(n) 为反向传播误差,Xj(n) 为第 n 个输入图像对应的当前输入,该图像是从训练集中随机选择的。权重在每个样本之后都会更新(随机训练)。对于单层感知机,其反向传播误差可按如下方式计算:

其中,fᵢᵈ(n) 表示期望输出值,fᵢ(n) 表示当前输出。函数 fᵢ 与第 i 个感放大器的电压输出 vᵢ(n) 及神经元的激活函数(此处为 tanh)相关:

其中,κ 为陡峭因子。在 Manhattan 更新规则下,权重的更新由公式 (6) 粗粒化处理,采用如下符号方式进行:

因此,所有权重都会按照其符号以相同的幅度进行更新。图 4a 展示了实现该算法的脉冲方案。公式 (6) 中的项 δᵢ(n)Xⱼ(n),当误差 δᵢ(n) 和输入 Xⱼ(n) 同为正数时为正值,当二者同为负数时也为正值;而当符号相反时则为负值。因此,这一过程可以用 XNOR 逻辑来描述。为了更新权重,误差信号被施加到 SL 上(如图 4a 所示),对应的输入信号则施加到 WL 上。交叉点处的差分信号遵循 XNOR 运算,而特定的信号设计(见图 4a)保证了最大干扰水平不超过 1/3,从而有效防止同列或同行单元被覆盖(存储单元本身在此起到选择器的作用;参见补充材料第 7 和 8 节)。在 5×5图像识别任务中,选择了字母 M、P 和 I,每个样本中有一个像素被翻转,总共得到 78 个样本。这些伪图像被划分为训练集和测试集;测试图像用蓝色边框标示(图 4b)。训练和测试图像在训练历程中的误分类数如图 4c 所示。显然,在仅一个训练周期后,误分类数量迅速下降,并在后续训练周期中几乎保持为零。图 4d 展示了三类分类在训练历程中的平均神经元激活值。模拟结果中略高的平均误分类率(图 4c)是由于在部分运行中出现了在若干个周期保持 100% 准确率后误分类率突然攀升的情况。第一个周期后的误分类主要是因为字母 M 和 P 的部分突触前神经元的期望值非常接近。实验测量也验证了字母 I 分类结果更稳定的结论(见图 4d)。这些结果与已有研究一致。

图 4 | 交叉阵列上的 Manhattan 更新训练。
a、脉冲方案,用于在 Manhattan 权重更新过程中实现 XNOR 运算(写/擦脉冲电压幅值为 ±5.2 V,脉冲宽度为 1 ms)。干扰电平恰好为写/擦电压的 1/3。
b、字母 M、P 和 I 的训练集与测试集,每个样本有一个像素翻转。测试图像用紫色边框标示。
c、训练集和测试集在十个训练周期 (Nepoch) 中的误分类图像数量 Nmis。测量曲线与仿真曲线对比。
d、十个训练周期中三类分类 (f1、f2 和 f3) 对应三幅图像的平均人工神经元激活值。

因此,对微米级器件的实验结果验证了其工作原理。为了展示其在纳米级的可扩展性以及优异的能效,进行了详尽且广泛的仿真分析,相关内容将在后续章节中进行说明。

单器件的 TCAD 仿真
通过 Synopsys 对一个栅长为 90 nm 的器件(图 5a)进行了仿真。图 5b(首次仿真未集成存储介质)显示了栅极与读出电极之间耦合电容随栅极电压 (V_G) 的变化曲线,其结果与实验观测行为一致(图 2b)。

图 5 | TCAD 仿真结果。
a、栅长 Lg = 90 nm 的仿真结构。
b、沿 p⁺n⁻–n⁺ 二极管不同电压 VAK 的栅极电压下得到的 CV 曲线(准静态仿真)。电压 VAK 以反对称方式施加,如图 2 所示。
c、不同栅长和栅氧化层厚度下的电容动态比(CV 曲线最大电容/最小电容,p⁺n⁻–n⁺ 接地)。插图显示电子密度,短沟道效应明显。EOT:等效氧化层厚度。
d、栅氧化层不同存储电荷下,VAK = 0 V 时 CV 曲线的偏移。注意施加的带偏置交流读出信号。
e、图 d 中交流信号半周期内,不同电压偏移 (Vshift,由存储电荷引起) 对应的累积电荷 Qacc。
f、对比微米级器件(图 2 所示)的仿真与实验电容耦合曲线。

在该器件中,通过将栅极电压偏移 3 V 得到的最大电容与低电平电容的比值为 1:90。通过使用更薄的栅氧化层或更长的栅长,该比值可以进一步增大,如图 5c 所示。一般而言,由于短沟道效应,栅长减小时空间电荷区影响更显著,使得在该区域难以实现充分屏蔽,因此电容比随栅长减小而下降(图 5c 插图)。通过对上下氧化层使用高 κ 介质,对于栅长 45 nm 的器件,在与 90 nm 器件相同电容的情况下,得到的电容比为 1:60(补充材料第 2 节)。1:60–1:90 的动态范围足以实现 6–8 位精度。

引入存储窗口(电荷捕获存储约 3 V,铁电存储约 1–2 V,具体取决于厚度和矫顽场)会导致 CV 曲线发生偏移(图 5d)。图中标示了交流读出电压;对于正向偏移曲线,产生的读出电流及累积电荷将非常大。施加正弦信号半周期内的总读出电荷随存储偏移的变化如图 5e 所示。大部分负向存储窗口用于关闭器件。

45 nm 的可扩展性

关于横向可扩展性,需要区分三个方面:

  1. 顶部介质中存储技术的可扩展性,即可以存储多少个电平;

  2. 每条 BL 末端感放大器检测累积电荷的灵敏度;

  3. 单个器件在读出时的噪声水平。

对于神经网络而言,输入、权重和输出信号的常见分辨率在 4–8 位(16–256 电平)范围内。这种类模拟分辨率对可扩展性有显著影响,通常推理任务所需精度较低。

在存储材料方面,一般可以得出结论:电荷捕获存储器(如 SONOS)在栅长缩小到 40 nm 时可实现多达 31 个存储电平。其缺点是写入能耗相对较高且写入速度慢(毫秒级)。然而,SONOS 对于仅用于推理的应用可能是一个可选方案。另一方面,氧化铪(铁电材料)具有极低的写入能耗且速度快(纳秒到微秒级)。目前关于铁电存储器类模拟存储的可扩展性仍在研究中。已知 FeFET 在 500 nm 以下容易出现突发开关事件,这归因于晶粒尺寸的限制。

关于电容测量分辨率,在 DNA 传感和芯片互连测量中已有研究,可实现低于 10 aF 的分辨率(基于电荷的电容测量、电容-频率转换和锁相检测),类似于传统的感放大器,并包含由运放电路或电流镜充电的积分电容。灵敏度计算的详细信息见补充材料第 3 节。然而在类脑器件中,需要一次读取来自数百至数千个存储单元的累积电荷,用于后续信息处理,相比单个存储单元,累积电荷量大得多。此外,输入值编码通常使用多个脉冲/周期,实现多周期的阶梯式电荷积分。对于图 5 所示器件,需要 Nper = 142 个周期,这与输入信号的 7–8 位范围匹配(补充材料第 3 节)。注意,由于使用开关电容方法的 180° 相位偏移来编码负值,128 个周期已足够表示 8 位有符号整数。

关于电容器件的噪声水平,还需考虑 kTC 噪声。

其中,kB为玻尔兹曼常数,T 为温度,C 为电容。对于一个 6.65 aF 的器件(图 5d),在室温下噪声电压为 25.00 mV,比有效读出值 0.35 V 低 14 倍。然而,需要考虑噪声水平会随重复测量次数 Nper 增加而下降,即按 1/√Nper 缩减,结果在室温下噪声电压为 2.20 mV,比有效读出值低 169 倍;这对应约 7 位的精度。基于区分不同电平所需的最小幅值,还可以评估电阻式和电容式器件的理论能效(补充材料第 4 节):电容式器件的能效至少比电阻式器件高八倍。

超高能效的仿真

“大容量电容器件”(memcapacitor)的大部分能量可以回收,因为能量储存在电容中;这与电阻不同,后者的读出操作本质上由于焦耳热而不可避免地消耗能量。在原则上,充电过程中输入的能量可以在放电时回收。这一能量回收的概念也存在于绝热电路设计中,是可逆计算范式的核心。能量回收的限制因素主要是电路中的电阻损耗以及用于电源时钟生成器的电感损耗。电感的品质因数(Q 因子)通常在几十到几百之间。在常见绝热实现中,对于谐波信号,电源时钟生成器的能量回收率约为 95%,意味着供给的有功功率比无功功率低约 q = 20 倍。

为了估算一个现实交叉阵列(包括寄生元件)的时间延迟、面积效率和能效(表 1),开发了 90 nm 器件的 SPICE 模型(补充图 4a,补充材料第 5 节)。可以得出结论:极快的读出转换能够抑制 SL 屏蔽效应,因为电荷无法继续供给(硅化物线是关键电阻路径)。表中假设了能量最坏情况:所有 WL 同时被激活,所有权重为零,产生屏蔽效应,进而导致顶栅氧化层充电。表 1 总结了不同矩阵尺寸下的最小周期时间,该时间与 RC 延迟成正比,其中 R 为电阻,C 为电容。面积效率 Aη(TOPS/mm²)可由存储器占用面积 (2×8F²) 推导,假设采用差分权重和前述时间延迟。表中还总结了每个单元在 142 个周期下的有功能量 Wp 和无功能量 Wr。

基于该估算,在最坏情况下(输入信号稀疏度 0%,权重稀疏度 100%,能量回收率 95%),最小能效 ηrec 可达 3,452.6 TOPS/W。若不进行电荷回收,能效 η 为 198.5 TOPS/W。在实际神经网络场景中,例如在 MNIST 数据库上训练的单层感知机,包含电荷回收时能效可达 29,600 TOPS/W(补充材料第 6 节);若无回收,能效仅为 1,702 TOPS/W。

仿真与实验结果的对比

为了验证模拟器的功能,我们对栅长为 60 μm 的器件(图 2)进行了仿真。如图 5f 所示,图 2d 的实验数据与仿真结果吻合良好。

如补充图 14 所示,我们测量了单个器件(图 2)在施加交流读出电压下的栅极充电电流,可以清晰看到完美的 90° 相位偏移。根据曲线,可计算每个周期的无功功率消耗 WR(使用公式 31–33,补充材料第 5 节),得到每周期 WR = 3.22 nJ。此外,对于仿真中使用的 142 个周期,总的单次 MAC 操作无功能量为 Wr,tot = 457 nJ/单元。若将该值按七个数量级进行缩放,可得到 Wr,scaled = 45.7 fJ/单元(图 2d 所示电容相比仿真 90 nm 器件的电容低七个数量级,见图 5b)。

该值约为表 1 中数值(5 fJ/单元)的十倍。需要考虑实验器件的埋氧厚度远大于 90 nm 仿真器件(190 nm 对比 15 nm),导致在约相同栅氧电容/面积下,读出电容/面积降低约 12.7 倍。同时考虑不同的器件硅厚度,可得到修正后的无功能量 Wr,scaled,corr = 5.84 fJ/单元,与表 1 中的数值非常接近。其他在缩放过程中可能影响性能的现象,如短沟道效应(图 5c)、量子限制效应和带间隧穿,在补充材料第 10 节中有详细说明。

                表 1 | 通过 SPICE 仿真获得的面积效率和能效结果

*所有存储单元均处于擦除状态(最坏情况),电源时钟源能量回收率为 95%。不同矩阵尺寸下所需的时间周期 Tper 及由此得到的面积效率 Aη。阵列读出过程中的无功能量 Wr 和有功能量 Wp 来自仿真结果(补充材料第 5 节),能量按每个单元及 142 个周期计算。基于该数值并假设电源能量回收率为 95%,可计算最坏能量情况(全部单元擦除)下的能效 ηrec(单位 TOPS/W)。同样,未进行能量回收时的能效 η 亦可按此方法计算。

结论

我们报道了一种具有高能效潜力的 memcapacitive 器件,在缩放后可实现每瓦特每秒万亿次操作(TOPS/W)的性能。通过在两个电极之间使用屏蔽层,我们在微米级器件上实现了约 1,480 的高动态比,在仿真 90 nm 器件上实现了约 90 的动态比。此外,使用 156 个存储单元的实验交叉阵列成功实现了 5×5 图像识别任务。电路级仿真和噪声分析表明,相比传统电阻式器件,我们的 memcapacitive 器件在能效方面具有潜在优势。通过绝热充电,大部分电容充电能量可以回收,这使得可逆计算与类脑计算相结合成为可能。人脑的能效估算约为每次操作 ~10 fJ(或 100 TOPS/W),与当前基于忆阻器的方案相当。我们的方法在理论上可实现 1,000–10,000 TOPS/W 的能效。该技术兼容 CMOS 工艺,可采用最先进的工艺进行制造。

方法

TCAD 仿真使用 Synopsys 软件完成,SPICE 级仿真使用 LTspice 完成。在 TCAD 仿真中,考虑了漂移-扩散方程(电子与空穴连续性方程及泊松方程)、Shockley–Read–Hall 复合机制以及电场、温度和掺杂浓度依赖的迁移率模型。量子限制效应及带间隧穿的影响见补充材料第 10 节。

器件采用带 n⁺ 衬底、3.5 μm 外延层、190 nm 埋氧层及 88 nm 器件层的硅绝缘体 (SOI) 晶圆制造。首先在器件层刻蚀对准标记,随后进行硼和磷离子注入及退火活化。界面氧化层通过标准清洗 1 溶液和 750 °C 氧化生长。Hf₀.₅Zr₀.₅O₂ 层及 TiN 封顶层通过原子层沉积制备,并在 600 °C 下退火。随后对 Hf₀.₅Zr₀.₅O₂ 进行接触孔图案化,第一层铝金属化通过溅射沉积。SL 刻蚀采用离子束溅射,BL 刻蚀采用反应离子刻蚀形成 7 μm 深沟槽,并通过 SU-8 光刻胶回填,第二层金属化 (WL) 通过另一层 SU-8 绝缘与第一层隔离。

测量使用函数信号发生器 (Agilent 33500B)、锁相放大器 (Stanford SR830) 和电流前置放大器 (Stanford SR570) 完成。DSO5052A 示波器用于可视化测量电流。

神经形态芯片的 PCB 设计使用 EAGLE,制造由 Eurocircuits GmbH 完成。数据采集系统 (USB-6363, National Instruments) 用于 PCB 控制。测量程序采用 LabVIEW 编写,Manhattan 算法仿真使用 Python,MNIST 数据集仿真使用 Keras。


关于我们:

OMeda成立于2021年,由3名在微纳加工行业拥有超过7年经验的工艺,项目人员创立。目前拥有员工15人,在微纳加工(涂层、光刻、蚀刻、双光子印刷、键合)等领域拥有丰富的经验。 同时,我们支持4/6/8英寸晶圆的纳米加工。 部分设备和工艺支持12英寸晶圆工艺。针对MEMS传感器、柔性传感器、微流控、微纳光学等行业。

中国(上海)自由贸易试验区临港新片区业盛路188号450室 电话:+86 188 233 40140 邮箱:jing.chen@omeda-optics.com

来源:OMeda

关于我们

OMeda(上海奥麦达微)成立于2021年,由3名在微纳加工行业拥有超过7年经验的工艺,项目人员创立。在微纳加工(镀膜、光刻、蚀刻、双光子打印、键合,键合)等工艺拥有丰富的经验。 同时,我们支持4/6/8英寸晶圆的纳米加工。部分设备和工艺支持12英寸晶圆工艺。针对MEMS传感器、柔性传感器、微流控、微纳光学,激光器,光子集成电路,Micro LED,功率器件等行业。

姓名:*
邮件:*
公司名称:
电话:*
您的需求: