AMD利用可重构FPGA设备Moku实现自定义激光探测解决方案

第一财经记者 2025-11-24 共80476人围观，发现0个评论

摘要

本文介绍了Advanced Micro Devices, AMD公司如何基于可重构FPGA设备自定义激光探测解决方案，替代传统的仪器配置，通过灵活且可定制的FPGA设备Moku提供更高效和灵活的激光探测技术。文中结合多个案例研究探讨了使用Moku平台简化实验设置、部署锁相放大器和双boxcar平均器提升信号质量、并通过Moku的神经网络及云编译功能优化实时信号处理。Moku将信号生成、测试分析、控制调节等多种功能集成于一台设备，支持用户快速部署自定义HDL代码，该方案集成度高、硬件投资成本低、配置简洁，且支持高度自定义和先进的信号处理技术。

引言

目前，激光探测（laser probe, LP）技术及其衍生应用的整合通常高度依赖原始设备制造商（original equipment manufacturer , OEM）提供的解决方案。然而，这些整体方案普遍缺乏灵活度与泛化性，并且通常存在知识产权等方面的限制，与供应商之间协调所需的法律和财务流程通常复杂且耗时，这不仅极大地阻碍了企业实际生产中技术创新的进程，也影响科研院所之间在该领域的研究合作。FPGA（现场可编程门阵列）是一种可由用户编程和重新配置的集成电路，适用于高速并行处理和实时数据处理应用。现代FPGA通常集成硬件和软件IP核心，增强了其功能，支持嵌入式处理器、射频信号处理和AI加速等应用。FPGA的部分重构能力使得用户能够构建低延迟、定制的测试配置，简化布线并减少信号损耗。此外，FPGA支持动态热插拔，允许在不干扰其他仪器的情况下添加或删除功能。

昊量光电代理的Liquid Instruments的Moku设备是一款基于FPGA技术开发的高性能测试测量平台，集成了多达15种专业测试测量仪器功能，如示波器、锁相放大器、信号发生器等。其采用先进的ADC混合技术，显著提升了设备底噪性能，确保了更加精确的测量结果，尤其低频噪声表现出色。Moku支持多仪器并行，能够同时运行最多八个仪器，仪器间在时钟总线上高度同步，减少额外的噪声并提高了实验效率。这种高度集成的设计大大简化了实验配置，减少了硬件连接复杂度，同时提升了信号处理的可靠性。此外，Moku的云编译功能，即可编程特性让用户可以根据具体需求定制仪器功能和测试流程，无论是在实时数据处理、波形生成，还是在信号分析与实时处理中，都能灵活应对各种挑战。通过软件定义仪器的方式，Moku为激光测探技术提供了易于操作、精准灵活、可自定义的解决方案。

在本文中，我们将通过多个案例研究，展示基于Moku实现的可重构集成方案及其相较于传统方式的改进之处。首先，我们将介绍频域映射的两种替代实现方式，通过一台Moku替代传统方案中使用多台仪器的复杂设置：一种是使用Moku的锁相放大器，可直接在本地振荡器和锁相环之间直接切换，输出高信噪比信号，减小扫描区域并提升扫描速度；另一种是使用Moku的Python API及云编译功能实时部署双boxcar平均器，轻松在更复杂背景噪声下捕获门控窗口内的所有信号分量。随后，我们将探讨如何使用双boxcar平均器实现该方法。之后，我们会提供一种基于Moku锁相放大器的定制解决方案，以提高信号质量。最后，我们将研究人工智能，特别是通过Moku提供的神经网络（neural network, NN）功能，在实时信号处理过程中改进激光探针信号采集的应用方案。本文介绍的解决方案能够与任何配备低噪声激光和适当带宽探测器的商用激光扫描显微镜（laser scanning microscope, LSM）兼容。如图1所示，大多数商用LSM都至少提供一个光子探测器输出，它能将被测件（device under test, DUT）的电激励反射以电信号形式传输出来；一个用于将信号转换为灰度图像像素的模拟辅助输入；以及一个用于激光系统同步的外部同步输入。

图1：商用激光扫描显微的外部输入/输出接口，采用默认的激光探测和频域映射配置。

LSM厂商默认提供的低频和中频配置通常需要与示波器和频谱分析仪等独立仪器搭配使用，以实现相应的技术。如时域映射的实现还需要一个具有boxcar平均功能的锁相放大器，这通常作为附加选项提供。基于Moku的可重构集成方案将大大简化这一设置，只需要一个可重构FPGA设备，即Moku，和两个物理连接：一个连接到光子探测器输出，另一个连接到模拟辅助输入，如图2所示。在这种配置下，由于LSM软件的限制，不会使用激光同步。一旦硬件连接建立，这些仪器可以完全通过软件界面进行切换。接下来我们将更详细地讨如何通过Moku实现可自定义的激光探测方案。

图2：与原始设备制造商的默认配置相比，简化了激光探测技术的实现（已划掉部分）。部署单个可重构FPGA设备Moku可以取代所有三个独立的测量仪器（频谱分析仪、示波器和锁相放大器）。

频域映射解决方案

频域映射通常用于将激光图像与模具布局对齐以及确保精准聚焦，这一技术对于实现最佳的信号采集至关重要。首先，我们使用可重构FPGA设备Moku上部署的软件定义锁相放大器来实现频域映射。该锁相放大器提供了可以生成与DUT同步脉冲信号精确对齐的正弦波的锁相环（phase-locked loop, PLL）。如图3所示，如果需要相位信息，可以将DUT同步脉冲直接连接到Moku；否则，使用内部振荡器就足够了。具体配置需要在内部振荡器或PLL模块中设置所需的实验频率，并选择直角或极坐标系输出，这取决于是否需要相位信息或是否仅需要解调幅度的频域映射，如图4所示。最终输出的结果是具有高信噪比（signal-to-noise ratio, SNR）的频域映射信号，本方法支持快速扫描，并减少了扫描区域。

图3：可重构FPGA设备与LSM之间的物理硬件连接

图4：用于频率映射技术的Moku锁相放大器配置。可在本地振荡器和锁相环之间切换，以输出幅度或相位信息。因此，通过观察实时的频域映射扫描结果来实时调整光学焦点，可以实现最佳的光学聚焦效果。图5（上部）展示了在聚焦操作过程中捕获的连续频域映射图像。要达到最佳聚焦效果，P型和N型活跃区域都必须呈现出其全局的最大对比度值。在图5（下部）中，给出了从图5（上部）虚线矩形区域绘制的对比度图。该图定量地描绘了P型和N型活跃区域的对比度变化。图像编号4符合最佳聚焦的标准，因为它展示的P型和N型活跃区域都具有全局最大的对比度。这种统计方法在未来的自动化流程中具有潜在的应用价值。

图5：焦距调节过程中的频域映射图像序列。图像编号4的聚焦效果最佳。

应当指出的是，当目标频率是周期性的（例如时钟信号或基于HHLL的扁平化扫描信号）且占空比约为 50% 时，频域映射性能达到最佳。偏离50%的占空比会引入额外的谐波，对系统性能产生负面影响，并降低整体信噪比。

另外，利用软件定义的双boxcar平均器（Moku提供了Python API控制面板以及云编译部署控制实现该功能）也可以实现频域映射。在时域中，基线boxcar设置在时钟信号的零电平位置，脉冲boxcar设置有效时钟位置，如图6所示。根据测试模式的长度、频率和允许的激光功率，在超过2000次的平均下，双boxcar平均器能获得良好的信噪比，并且可以实现较快的扫描速率。图7展示了不同频域映射实现方式所获得结果的比较。总体而言，与锁相放大器方法相比，当背景信号更复杂时，如图8所示，它捕获了门控窗口内的所有信号分量，而锁相放大器方法仅捕获目标频率处的信号分量。用户可以根据其具体目标选择合适的频域映射方法。

图6：蓝色线条表示无时钟信号向量的显示波形。

红色线条表示存在有效时钟信号向量的显示波形。黄色阴影区域分别是基线boxcar（较低）和脉冲boxcar（较高）。

图7：不同频域映射实现方式的对比图

图8：采用双boxcar平均器得到的频域映射结果往往比使用锁相放大器得到的结果更为丰富。

时域映射解决方案

使用可重构FPGA设备Moku来实现时域映射的解决方案时，无需对图3所示的硬件连接进行任何更改，仅将部署的软件定义仪器从锁相放大器切换到双boxcar平均器模块即可。配置脉冲boxcar来捕获所需信号的位置以及基线boxcar在没有信号的位置。最后，将激光像素延迟与boxcar平均时间对齐，如图9所示。

图9：时域映射的时域波形图示例。触发信号（蓝色）由测试设备提供。基线boxcar（低的黄线）设置在无信号的位置，而脉冲boxcar（高的黄线）则设置在需要捕获信号的位置。时域映射在追踪非周期性信号或低占空比周期性信号（例如由压缩扫描模式生成的信号）的晶体管时域动态特性方面特别有效。图10展示了将时域调制应用于待测试的扫描单元的情况，其中输入缓冲器位于SI处，输出缓冲器位于SO处。从扫描单元的输出部分开始检测到缺失的时域映射信号，并一直延伸到SO缓冲器B。使用激光探测进一步检查这一异常情况，发现扫描单元的输出出现了不随激励信号翻转的现象。

图10：正常元件和故障元件上显示的时域映射结果图像。

对比正常元件，故障元件上从扫描单元输出区到输出缓冲器B的时域映射信号缺失。故障元件的激光探测信号在扫描单元输出处用“+”标记，表明其出现输出不随激励信号翻转的现象。时域映射还在探针精确定位方面表现出了极大的价值，它提供了一种比耗时的传统多点采集方法更快的替代方案，并且能够缓解当探测激光波长与成像激光波长不一致时所导致的问题。然而，时域映射的处理速度本质上较慢，需要至少三个数量级的平均周期。通常，时域映射是使用一个缩小的扫描窗口来执行的，建议优化测试图案的长度获得最大效率。

自定义解决方案示例—移动平均滤波器

接下来，我们将具体展示如何通过在Moku上部署一种定制解决方案来满足特定的测量需求。具体而言，我们通过Moku的多仪器并行模式，同时部署了锁相放大器与自定义的实时移动平均滤波器，通过它们协同工作实现简易的频域映射方案。在多仪器并行模式下，用户可以部署最多8种仪器同时运行，根据实验需求，用户可以灵活配置所需仪器，且仪器在时钟总线上高度同步。如图11所示，该实现方式所需的自定义算法通过云编译模块部署。本方案使用的两个仪器之间的数据交互与同步，通过FPGA的内部互连结构进行配置仪器之间无需额外任何物理连线，从而确保低延时信号传输。

移动平均滤波器的实现原理由以下公式给出

其中，x(t) 为离散时间序列输入信号，y(t) 为输出信号，n 为连续信号的样本数量。该方程通过HDL代码实现，并编译成比特流文件，然后即可通过云编译器进行部署。

图11：Moku多仪器并行的串联配置。锁相放大器的输出A被连接到云编译器的输入A，该云编译器部署了移动平均滤波器的自定义算法。

这种滤波器计算量较小，仅需要一个累加器、一个减法器和一个移位运算。因此，它时延非常低，非常适合实时应用。如图12的实际测量结果所示，示例中实现的移动平均滤波器的输入与输出之间的延迟量测量值为 224纳秒，相当于312.5 MHz FPGA的时钟的70个时钟周期。

图12：在基于50MHz FPGA的系统时钟下，锁相放大器和移动平均滤波器的输入与输出之间的延迟约为222纳秒。红线表示输入，蓝线表示移动平均滤波器的输出。这种移动平均滤波器能将噪声幅度降低到原始值的根号下2的n次方倍。在我们的实现中，n = 8，因此噪声幅度应降低至1/16，即相当于信号幅度增加到其原始值的16倍。在图13展示的结果中，移动平均滤波器的输出和输入分别被测得为360 mV和22 mV，约为16.4倍，符合理论预期。借助移动平均滤波器提供的更高的信噪比，可以降低激光功率，或者通过减少像素停留时间来实现更快的扫描速度，同时保持相当的输出结果。

图13：增加移动平均滤波器后输出与锁相放大器原始输出的对比；输出电压分别为360 mV和22 mV。

基于神经网络的降噪方案实现

FPGA的可重构和并行处理架构非常适合神经网络处理。它提供了低延迟的推理性能，适用于各种实时信号处理应用，例如信号降噪、分类和闭环控制。接下来，我们使用自编码器这类神经网络来进行信号降噪，并通过Moku将其部署到其他仪器（如示波器、锁相放大器和boxcar平均器）输入之前的一级进行前端信号处理。自编码器是一种神经网络类型，旨在高效地学习输入数据的压缩表示。它通过采用一种网络架构来将数据压缩至更小的编码空间表示，然后将其重构回原始输入大小，从而完成这一任务。

5.1 自编码器

在将一串时间序列数据输入神经网络之前，会使用一个包含32个数据点的滑动窗口将其转换为32个并行数据的格式。如图14所示，我们配置了一个四层的自编码器。前三层的编码空间大小分别设置为16-2-16，每层均使用Tanh函数，而最后一层则采用线性函数，解码后的数据汇聚为单输出。该自编码器是使用随机生成的均值为零、服从正态分布的白噪声数据进行训练的。

图14：一种基于时间数据滑动窗口的四层自编码器结构。考虑当前使用的FPGA资源划分，神经网络的输入采样率被设定在305 kSa/s，然而我们的测试设置和激光探头探测器的带宽不兼容，一定程度上限制了我们进一步探索。不过，我们还是进行了一系列软件仿真测试，以研究自编码器神经网络的行为。我们将具有正态分布的随机生成的白噪声，添加到振幅为 ±0.5 V 的方波中。

5.2 性能评估

为了评估噪声抑制的性能，我们采用了标准差差异（standard deviation difference, SDD）这一指标，它衡量的是处理后的信号与真实值之间的差异的标准差，而非使用均方误差（mean square error, MSE）。相比于MSE，SDD在各种场景下能更一致地反映相对真实值的去噪结果。如图15表明，MS给出的自编码器性能与中值滤波器相差超过8倍（8.9975 vs 0.9347）。相比之下，SDD能更准确地反映实际性能，这一数据显示中值滤波器的 SDD 更低（越低越好），低于自动编码器（0.1551 vs 0.3814）。

图15：中值滤波器与自编码器在SDD和MSE评估指标方面的比较。

5.3 偏移补偿

在自编码器的输出结果中，与真实值相比观察到有5个数据点的负偏移，如图16所示。这种偏移仅在仿真环境中明显可见，因为在仿真中未考虑任何延迟的处理。在实际应用中，这种负偏移通常可以忽略不计，因为仪器的延迟会显著更长，并且无法获得用于直接比较的真实数据。在本案例的研究中，我们始终补偿了5个数据点的偏移。

图16：自编码器有负偏移的原始输，以及补偿后的版本。

5.4 采样

为了测试自编码器在不同采样率或数据密度下的表现情况，我们将采样率定义为在每个信号脉冲下所采集的样本数量。在激光探测应用中，采样率通常设置在每个信号脉冲采集50个到200个样本之间，以获得可靠的分辨率用于分析，具体数值取决于测试设置的频率以及示波器的性能。图17所示的结果表明，自编码器的性能在数据密度增加时提升，但到达400个采样/脉冲时开始趋于稳定。

图17：不同采样率下自编码器的性能。采样率越低，SDD值越小，性能越好。

5.5 噪声水平

我们还针对不同的输入噪声水平对自编码器进行了仿真测试。噪声基于不同标准差下的随机正态分布定义并生成。图18的结果表明，自编码器在低噪声条件下表现更佳，而当噪声水平升高时，其表现则开始急剧下降。

图18：不同噪声水平下自编码器的性能表现。*SDD越低越好。

5.6 神经网络层数

针对自编码器结构，我们对不同的神经网络层数和编码空间大小进行了测试。结果表明，当将编码空间压缩至最小允许尺寸（即2）时，自编码器的表现会更好。随着神经网络层数从3层增加到5层，性能也会有所提升，但当层数从5层增加到7层时，性能则会下降。

图19：不同神经网络层数和编码空间大小下自编码器的性能表现。*SDD越小越好。

5.7 方案对比

在高噪声输入环境下，将自编码器与中值滤波器进行对比测试，测试时采用均值为0、标准差为2的正态分布数据。测试结果表明，中值滤波器的表现明显优于平均滤波器（噪声输入情况）以及自编码器。

图20：自编码器、均值滤波器和中值滤波器性能的比较。

5.8 实验总结

上述实验表明，自编码器在数据密度高且噪声水平低的情况下能够表现良好。然而，当输入的正态分布噪声标准差超过0.25时，自编码器不再适合作为前端信号降噪的解决方案。在这种情况下，中值滤波器结合取平均的处理将更为合适，因为它能够适应更广泛的输入数据密度和噪声水平。未来的研究可以关注其他训练数据集或反馈神经网络结构—例如循环神经网络。

结论

在此，特别感谢AMD工程师Zhi Hao Ko 提供的应用研究及支持。本文通过展示了一种基于单台自适应 FPGA 设备的激光探测技术的简易实现方案，并通过实际应用案例进行了验证。该 FPGA 平台的功能不仅限于可重构的测试与测量仪器，更可作为高度可定制的信号处理解决方案，满足多样化和特定化的测试需求及推动测试测量领域创新发展。

本文所展示的应用实现仅是初步探索，未来该方案不仅可拓展至更复杂的光学故障定位技术，也为更广泛的失效分析与测试方法提供了新的思路与实现路径。基于实时神经网络（Live NN）的概念在信号处理领域依然具有巨大潜力。随着Moku平台采用更高性能的 FPGA 架构，系统可进一步提升采样与处理能力。同时，未来可探索多种神经网络模型，以在精度与响应速度上实现更优表现。