和法涛研究员、李占明副教授等:深度学习驱动的机器视觉技术多宝体育- 多宝体育官方网站- APP下载 DUOBAO SPORTS
栏目:多宝体育入口 发布时间:2026-01-17

  多宝体育,多宝体育官网,多宝体育平台登录,多宝体育下载,多宝体育网页,多宝体育app,多宝体育试玩,多宝体育入口,多宝体育注册网址,多宝体育登录,多宝体育靠谱吗,多宝官网,多宝网址,多宝真人,多宝电竞

和法涛研究员、李占明副教授等:深度学习驱动的机器视觉技术多宝体育- 多宝体育官方网站- 多宝体育APP下载 DUOBAO SPORTS

  传统机器学习难以解决复杂问题和适应大规模数据集应用,存在较大的局限性。具有端对端特征提取能力的深度学习算法为图像识别领域带来了新突破,尤其是CNNs及其衍生模型,通过在多层神经网络模型中以端对端学习方法,自动学习图像内容并提取特征进行训练,随着后续层的数量增加可提取更高级别的特征。一般来说,CNNs由卷积层、池化层和全连接层组成。其中卷积层是核心,从输入数据中提取局部特征,通过堆叠多个卷积层和全连接层,以执行复杂特征的分析任务;利用池化层降低特征图的维度并尽可能保留特征信息;最后,池化层的输出经全连接层处理后完成分类、回归任务(图2)。CNNs在图像分类、检测和分割等任务中表现优异,结合CNNs在苹果、西红柿、芒果、莴苣等品质控制上的相关研究已实现令人满意的效果。然而,CNNs难以处理输入数据的变化,图像中的潜在元素难以被有效处理。此外,训练CNNs时需要多个图形处理单元(GPU),若缺乏高性能的GPU,训练过程将显著延长,对处理器和内存性能有较高的要求。

  在结合机器视觉技术使用的CNNs通常包含ResNet、YOLO(You Only Look Once)模型、VGG、SqueezeNet、MobileNet和ShuffleNet等。传统神经网络理论上随着层数的增加,能够提取更复杂的特征,但在实际训练中优化困难,导致其性能退化。ResNet的设计初衷是通过引入残差块解决CNNs在大规模图像集训练时面临的梯度消失问题,并保护信息的完整性,使极深网络训练成为可能。ResNet已发展出多个版本,主要包括ResNet-50、ResNet-101和ResNet-152。Chun等根据叶绿素相关波段的荧光强度衰减、光谱曲线形态变化和组织破坏引起的散射增加综合判断,结合基于ResNet-50结构的CNNs模型实现快速、无损地判断草莓果实的灰霉病感染程度。

  YOLO模型将区域建议网络(RPN)分支与分类阶段整合到单一网络中,形成更简洁的架构,在单个网络中预测目标边界框和类别,同时完成检测与定位,这一特性减少了冗余计算以及加速了检测过程。YOLO作为一种高效的端对端检测网络,是真正意义上的实时目标检测系统。YOLO系列经历多次迭代升级,从最初的YOLO v1发展到最新的YOLO v12,衍生出多种变体。有研究通过双相机实现对柑橘图像的高频捕获,结合YOLO-FD模型检测柑橘果皮缺陷;该模型基于YOLO v5网络框架,并且在主干网络中嵌入创新设计的三维坐标注意力机制,显著增强模型对水果果皮缺陷的感知能力。YOLO v12不同于以往基于CNNs的传统方法,而是以注意力为中心的架构,采用“区域注意机制”将特征图划分为4 个等大区域处理大感受野,能够大幅度降低计算成本。可实现物体检测、实例分割、图像分类、姿态估计和定向物体检测等多核心视觉任务,以更少的参数获得更高的精度。

  VGG神经网络模型的特点是通过极深的网络结构和统一的基础模块实现特征提取。主要由3×3卷积层、2×2最大池化层以及后续的全连接层组成,根据卷积层数量的不同,VGG架构有多种配置,如VGG 16和VGG 19。Olisah等使用可见-近红外光谱滤镜(波长700~770 nm)的立体传感器采集图像,结合基于在ImageNet数据集上预训练VGG-16构建的多输入CNNs,通过优化全连接层学习黑莓的成熟特征(果皮纹理特征),在田间检测准确率达90.2%。传统方法对所有空间特征进行同等处理,而注意力机制通过对输入特征图进行加权,使网络能够更好聚焦目标区域或通道,增强关键信息,从而提升特征表示能力,有效解决长距离依赖问题,增强模型的可解释性。注意力机制能够以更灵活的方式处理复杂输入信息,其可分为通道注意力、空间注意力、混合注意力和自注意力。Yang Qinchen等采用400~1 000 nm的HSI技术,结合1D-CNNs用于无损检测豆芽子叶中药物残留,通道注意力机制的融入进一步提高了分类精度,该模型准确率达96.3%。

  为适应移动端、嵌入式设备等资源有限的设备和计算环境,Iandola等首次提出轻量级深度学习模型——SqueezeNet,其开发的目标是在保持高精度的同时,通过极致的参数压缩和计算优化,利用Fire模块和结合深压缩技术实现模型轻量化。MobileNet的核心是深度可分离卷积,通过深度卷积对每个通道单独应用一个滤波器进行空间卷积,再通过逐点卷积(即1×1卷积)对通道进行组合并输出;相比标准卷积,计算量和参数量减少约85%~90%。MobileNet架构经过3 次迭代发展至MobileNet V3,广泛用于移动端视觉任务。ShuffleNet通过通道混洗和分组卷积重新定义了轻量级网络的设计范式,在计算资源严格受限的场景中表现突出,通过堆叠多个ShuffleNet单元可构建完整的ShuffleNet网络。大多数模型可通过参数修剪、网络量化、低秩分解、模型蒸馏和紧凑网络设计实现轻量化。有研究采用类平衡损失改进的MobileNet V2网络并利用经AdamW优化器调优的迁移学习训练模型,使其获得最佳的分类性能,在枣果成熟度测试上准确率高达99.294%,为果蔬品质智能分级提供了理论依据。

  在机器视觉领域,视觉Transformers(ViTs)已在图像处理上展现出卓越的性能,具有全局处理优势,其架构基于自然语言处理中最初开发的Transformer模型,与传统CNNs模型不同,是一种基于自注意力机制的深度学习架构。其将图像划分为一系列不重叠的图像块,利用Transformer中的多头注意力机制学习图像块间的表征。提高ViTs性能的一个重要方向就是使其具备多个协同控制注意力的“头”,通过部署多个注意力头并聚焦于输入序列的特定元素,模型可有效捕捉目标图像的细微特征,实现更细粒度的识别。另外,Swin Transformer在处理图像分类、目标检测与分割等密集预测任务中表现出优异的性能,是一种基于层次化窗口注意力的ViTs模型,其工作原理与ViTs类似。凭借分层结构和滑动窗口设计能够更高效地捕捉图像中的局部-全局关系和空间层次特征。除此之外,Rao Yao等提出了多尺度注意力金字塔视觉Transformer模型,该模型通过注意力增强、维度调整、多尺度特征聚合和损失函数优化,使模型能够捕捉水果图像中的细粒度细节,在模型复杂度略有降低的同时实现高判别性的表征,准确率高达99.55%,且单张图像的平均测试时间仅为0.3 s。

  果蔬品质不仅包括外观特征(如颜色、形状、大小),还涉及内部品质(如糖分、酸度、农药残留等)。另外,新鲜的水果和蔬菜具有较高的含水量,其呼吸作用和蒸腾作用易导致腐烂变质,降低营养价值和感官品质。果蔬新鲜度是衡量其品质的重要标准,是果蔬内外多种品质特征的综合体现。准确的果蔬品质检测分析对于果蔬食品品质保障以及促进果蔬产业的高质量发展均具有重要意义。近年来,随着机器视觉和深度学习技术的快速发展,基于图像处理的人工智能检测方法逐渐成为研究热点,展现出巨大的应用潜力。

  传统的果蔬颜色检测方法主要基于颜色空间的图像处理技术。常用的颜色空间包括RGB(红绿蓝)、HSV(色调、饱和度、亮度)和LAB(亮度、颜色轴a和b)等。RGB图像虽然能提供丰富的空间细节,但仅包含可见光谱范围(400~700 nm)内的红、绿、蓝光谱通道,光谱信息有限。尤其是对于成分复杂的食品或农产品,需要可见光谱范围外的不同波段光谱特性才能完整表征其特征。可通过采用LAB颜色空间的亮度通道(L通道)替代传统RGB颜色空间,捕捉细微的颜色差异,用于葡萄颜色识别,从而判断最佳收获时机。

  有研究通过简单的RGB图像对桃子的多个果实性状(果皮颜色、果肉硬度、糖含量以及4 种内部病害)进行评估(图3A),结合CNNs对这些性状进行二元分类和回归分析。Siricharoen等基于ResNet-101骨干网络的掩码区域CNNs(Mask R-CNNs)从图像中分割菠萝,去除背景后对目标对象进行裁剪和尺寸调节,将颜色空间从RGB转换为YcbCr,该颜色空间对不同光照条件具有鲁棒性,通过菠萝的视觉外观以识别其口感,推理时间仅需0.67 s(图3B)。此外,深度学习模型还可以结合迁移学习技术,利用预训练模型在大规模图像数据集上学习的通用特征,进一步提高颜色分类的准确性和泛化能力。CNNs作为一种强大的特征提取工具,可通过对预训练的卷积网络进行微调,能够自动学习图像中的颜色特征,从而实现对果蔬颜色的分类和识别。

  近年来,深度学习模型在颜色分类中的应用逐渐增多。颜色在深度神经网络中至关重要,因为输入层的一个维度代表颜色空间。尤其是在户外条件下,光照条件复杂多变,难以获取用于颜色恒常性深度神经网络的真实基准图像。此外,相机彩色滤镜的固有设计在平衡灵敏度与光谱透射率上常导致颜色还原不准确。因此颜色校正为不同光照条件下的图像处理提供了良好的解决方案。Chang Cheng等提出了一种同时基于物理和基于学习的颜色恒常性技术的混合颜色校正模型,将任何光照条件下捕获的图像转换为标准光照下的图像。利用捕获图像及其对应的同步光谱生成真实基准图像,将图像映射到其他环境光谱以训练颜色恒常性模型,最后使用校正后图像训练的YOLO v8对棕榈果进行成熟度检测。在这之前,Mojaravscki等基于YOLO v7检测模型比较了不同图像预处理方式和多种颜色校正技术在自然光下通过移动设备对橄榄品质的识别效果。结果显示,自适应直方图均衡化应对光照变化效果最好,与未处理图像相比,所有预处理方法均提高了检测性能。由此可见,对于视觉技术捕获颜色特征,未来研究应多关注颜色校正技术和图像预处理方式,从而保证即使在不同的复杂环境下依旧保持较高的灵敏度和检测性能。

  通过单一颜色模态进行果蔬品质控制常有失偏颇,Liu Yang等提出了结合颜色成像、近红外光谱和触觉模态的深度学习辅助多模态数据融合技术,用于番茄成熟度的预测(图3C)。通过图像获得番茄外部颜色,可见-近红外光谱(350~1 100 nm)能够获取与化学成分相关的内部及表面光谱特征,触觉传感则能够测量物理硬度,融合多模态预处理和提取的特征,对番茄成熟度的特征空间进行综合表征,所构建的模型对成熟度分类的准确率可达99.4%。与单模态方法性能相比,多模态融合技术具有更优异的稳定性和适用性。另外,该方法同样适用于成熟时没有表现出明显颜色变化的果蔬。

  传统的果蔬形状与尺寸检测方法主要依赖图像分割技术,如边缘检测和区域生长算法等。这些传统方法虽然简单高效,但在复杂背景或光照条件下准确性和鲁棒性可能受到限制。深度学习技术为果蔬快速形状识别提供了新的研究思路。目前,有研究基于YOLO v8算法实时监测棕榈树上的果串,结合Canny边缘检测与Hough转换用于检测和捕获成熟果树,可达毫秒级响应;其中VGG-16识别果实成熟度准确率达98%。深度学习算法赋能的边缘检测技术为农产品的智能收割提供了新思路。

  在自然环境下现场实时测量果实大小面临的主要挑战是遮挡问题。Wang Bingkai等基于YOLO v5算法和融合数据集检测水果尺寸,为解决在不同自然条件下水果遮挡问题,引入用于水果遮挡恢复的循环一致对抗网络(Cycle GAN)模型,在多种遮挡场景下该模型的平均相对误差仅为5.48%,还能通过图像形态学操作完成尺寸测量,全流程每个果实仅耗时0.2 s(图4A),突破了自然环境下水果尺寸测量的技术瓶颈。

  传统非接触式检测果蔬大小和形状主要基于二维图像处理。但对于脐橙等水果即使面积相同也可能存在不同体积,仅使用二维信息进行评估不够准确。三维重建相较于传统二维图像处理,可实现更精确的形态参数获取和水果全表面缺陷检测。Lu Yuwei等开发了Micro-CT系统并对百香果进行全自动无损扫描,以获取其内部和外部的高分辨率三维图像数据(图4B)。基于U-Net模型对扫描得到的三维数据进行自动分割,精准区分不同组织区域,可以分辨果实的形状和大小,并自动计算出包括果实体积、表面积、果肉体积和果皮厚度等14 个表型性状,且分割准确率达0.95以上。特征提取和分类算法的设计在处理大量多维数据和异常数据时能够发挥关键作用。Blok等开发了一种由卷积编码器和解码器组成的深度学习网络——3D形状补全网络(CoRe++),并基于潜在向量重建完整马铃薯块茎的三维几何结构。在测试集上的平均形状补全误差仅2.8 mm,且单个马铃薯3D形状补全仅需10 ms,有效解决了检测时遮挡问题。Gao Yuan等提出了基于GwcNet结构的OrangeStereo算法,基于语义信息引入用于提取稳定结构特征的结构特征提取模块、抑制冗余信息的注意力权重生成模块及改进的损失函数,在短时间内获取高精度表面深度信息,该算法有望通过水果三维重建在商业水果分拣线上实现精准的外部品质评估。

  与传统方法相比,深度学习模型在大规模表面缺陷检测中具有更高的准确性和鲁棒性,能够有效减少误检。有研究通过紫外线照射下的彩色相机获取草莓表面图像,结合Mask R-CNNs模型对草莓损伤进行准确分类,建立了缺陷检测的强泛化性模型。此外,深度学习模型还可以结合多尺度特征提取技术,进一步提高对果蔬不同大小和形状缺陷的检测能力。机器视觉技术结合深度学习不仅可以用于食品表面缺陷的检测,还可以结合高端成像技术进行果蔬内部缺陷(如褐变、内部空洞和结构缺陷等)的快速实时检测,如通过CT收集梨的X射线图像数据集,结合基于全卷积数据描述的深度异常值检测方法实现了梨果内部病害的无损检测。

  深度学习驱动的机器视觉技术成功应用于苹果、黄瓜、桃子的缺陷检测,为果蔬分类提供了一种准确、高效且无损的方法,开发专用的机械设备用于自动化在线果蔬缺陷检测是当前的研究热点。Fan Shuxiang等利用近红外光谱相机、漫反射光室和双通道水果分拣机构建了实时苹果缺陷的在线 个连续胶辊工位的近红外图像生成输入图像,采用通道剪枝和层剪枝方法对YOLO v4算法进行简化,并且他们还提出了基于L1范数的非极大值抑制法去除网络中的冗余预测框。基于光谱图像的修剪YOLO v4网络不受果皮颜色影响,可实现每秒5 个果实的在线检测,且平均检测精度达93.9%。Deng Limiao等开发了胡萝卜质量检测和分级的全自动系统,该系统由照明室和上位机组成,尽可能获取胡萝卜在高速运动过程中不同角度的表面图像,并基于ShuffleNet和迁移学习的轻量级深度学习模型,检测胡萝卜表面缺陷(图6)。该算法对正常和缺陷的检测准确率达99.82%,对多分类(正常、坏点、异常和纤维根)的准确率为93.01%。

  此外,提取ROI是计算机视觉任务中的关键技术,旨在从图像或视频中定位并提取出有效区域,从而提升模型性能。传统ROI提取方法包括边缘/阈值分割、滑动窗口法和区域生长算法等。Wonggasem等通过重复进行阈值处理和形态学操作以确认物置和ROI识别,结合迁移学习技术训练的EfficientNet B5模型开发了玉米笋图像的自动质量分类系统,且利用了夏普利加性解释(SHAP)框架解释模型,在实际可接受的计算时间内预测准确率达到了99.06%。传统检测方法从输入的图像中提取ROI,通过特征输入分类器对已获取的ROI进行分类,最终完成目标检测。而基于深度学习的检测方法可通过端对端方式同步学习特征提取网络、ROI生成模块和分类器的最优权重。例如,Yang Yu等采用多光谱成像系统采集马铃薯样本的多光谱图像,通过引入Res2Net模块替代原始卷积层对YOLO v3-tiny的骨干网络进行改造,增强多尺度特征提取能力,75 ms便可完成单张多光谱图像检测。

  果蔬品质控制中常用的视觉系统大多基于彩色摄像机,其局限于表面检测,通常无法获取关于产品内部成分的更多信息。光谱成像技术作为机器视觉技术的高端分支,通过融合传统成像和光谱技术,能够从目标物中获取空间信息与光谱信息,特别是HSI技术,能够获取光谱变化的空间图谱,已成功应用于评估不同食品的内外属性,为果蔬糖分和酸度的无损检测提供了新的解决方案。有研究在机器人平台上安装高光谱相机进行持续监测,结合自动编码器框架,将原始记录光谱转化为标准反射光谱,有效解决了因照明条件变化而引起的难题,利用该技术精确评估了4 种葡萄的含糖量。为满足农业现场快速、无损检测的需要,有研究将高光谱数据转换为多光谱数据,基于CNNs和前馈神经网络模型自动挖掘光谱与糖分之间的非线 个光谱波段训练的模型精度与商用折光仪相当。最新研究表明,HSI技术能够利用光谱反射率快速无损地测定甜瓜的叶片和果实中的蔗糖浓度(图7A)。结合U2Net神经网络对甜瓜图像分割算法进行训练,RegNet-y-8gf模型对蔗糖的判别精度最高,决定系数(R2)为0.958,均方误差为8.776。另外,HSI技术同样适用于果蔬多品质参数的同时测定,结合基于CNNs、双向长短期记忆网络和挤压-激励注意力机制组合的深度学习模型能够无损检测红枣中的可溶性固形物含量(SSC)、可滴定酸含量、水分含量和硬度。

  SSC除了能够判断水果的成熟度外,还是衡量水果甜度和质量的重要指标。Ong等开发了自动捕获哈密瓜图像的视觉系统,即使图像采集的照明条件不受控制,基于超过100万 张图像预训练的AlexNet CNNs算法也能较好地预测其SSC并对其进行分类,预测精度可达0.976 9(图7B)。Zhou Chenxin等构建了用于检测青梅SSC的无损HSI系统,并结合1D-DenseNet121算法处理图像,特征提取效果和模型预测性能均令人满意。为解决因样品颜色变化而导致的光谱畸变,Sun Zhizhong等开发了多源数据融合且具有颜色校正能力的1D-CNNs模型用于橙子SSC的检测,模型性能显著提高。在果蔬组织中,近红外波段(780~2 500 nm)的光子吸收衰减程度通常比红外区域弱,这一特性使得HSI能够提供毫米或厘米级的有效穿透路径长度。利用HSI获取光谱信息,结合算法模型构建预测模型,可有效预测灯笼果中VC含量、硬度、SSC和可滴定酸含量。大多数近红外光谱技术和HSI的应用均在实验室相对可控或静止条件下开展,光谱信号随时间的不稳定性对于实际应用中开展模型构建和模型的校准转移构成了巨大的挑战。

  此外,优化光谱数据的预处理方法、合适的特征波长以及图像处理技术,对于提高模型性能都至关重要。翻转、旋转、缩放、剪裁、平移及高斯噪声等多种图像数据增强技术可用于深度学习模型训练,以增强模型泛化能力,并显著提高酸度检测模型的预测精度。当前,果蔬品质分析的多维指标同步预测发展迅速,相关研究有助于增强模型的鲁棒性和泛化能力。结合HSI技术的深度学习模型能够同时检测水果的多种质量特性,为果蔬品质的全面评估提供了先进的解决方案,促进果蔬产业链的健康发展。

  Bian Huitao等将微荧光高光谱技术与机器学习结合用于检测哈密瓜中不同农药残留。该技术融合了荧光和显微HSI技术的优势,可在微观尺度下同时捕获高分辨率的光谱和图像信息,能够对待测物的细微结构和成分进行详细分析。特征波长提取后融合经Pearson分析筛选出的4 个重要图像颜色信息以提升模型识别精度,模型在测试集上的准确率和特异度分别为93.48%和96.63%。He Weiwen等基于HSI和1D CNNs用于快速无损检测韭菜叶片的农药残留,研究通过改进均值滤波提高图像信噪比,结合孤立森林算法剔除异常样本,该方法显示出优异的分类准确性和鲁棒性。Sun Lei等利用光谱分析确定农药残留的特征波长,结合配置带通滤波器和特征波长光源的机器视觉设备获取生菜图像信息,并改写了基于CNNs模型的预测程序,使输入图像泛化后可直接输出农药残留量,决定系数达0.833,均方根误差为0.134 mg/L。

  相关研究大多仅使用单一光谱波段进行检测,然而在不同波段范围内光谱响应存在明显差异,多波段光谱信息具有信息互补性。Hu Yating等采用可见-近红外和短波红外HSI系统检测哈密瓜表面不同类型的农药残留,全光谱数据融合后输入带有注意力机制的自定义多分支1D-CNNs模型准确率达94%,F1分数达0.939 6,该方法为大型厚皮水果表面农药残留的无损检测提供了新参考。另外,太赫兹成像已成为检测农药残留的新兴技术,其将各类农药的太赫兹吸收峰作为独特指纹从而实现多种农药的识别。Nie Pengcheng等通过将高通量太赫兹成像技术与深度CNNs(deep CNNs,DCNNs)相结合用于香椿叶表面痕量苯并咪唑类农药的可视化和检测。DCNNs模型将农药在叶片上的空间分布可视化,对农药混合物的检测准确率达96.99%,且可检测质量浓度低至10 mg/L的痕量农药残留。

  纳米材料与深度学习的联合使用能够为检测食品农药及抗生素残留提供了强大助力。Wu Guojian等设计了具有类漆酶活性的荧光纳米酶Cu-ATP@[Ru(bpy)3]2+,构建了深度学习辅助的比色-荧光双模式检测方法,实现蔬菜中拟除虫菊酯类农药残留的高效现场智能识别和定量分析。基于YOLO v8自制微信小程序并通过智能手机收集和处理比色-荧光图像,可以实现现场实时动态分析。Basavaraju等构建了基于图像分析和Mask R-CNNs的柑橘叶片上农药残留检测软件,并使用3D打印技术制作了坚固耐用且便携的样品舱,能够为在田间条件下进行图像数据采集提供更可控的环境,具有低成本、便携的特点,该软件在实验室和田间均表现出较高的准确性、精确度和召回率。由此可见,深度学习技术结合机器视觉技术在农药残留检测的应用中潜力巨大,但当前所开发的平台仅适用于小规模生产,向实际大规模应用扩展仍存在较大的挑战。

  果蔬霉变是导致食品安全问题的重要因素之一,传统检测方法依赖于人工观察或化学分析,效率低下且难以实现大规模自动化检测。通过图像采集设备获取果蔬表面的图像信息,利用深度学习模型对图像进行分析,能够快速识别霉变区域,为果蔬霉变检测提供了新的解决方案。有研究开发了基于750 张RGB图像分类的CNNs识别模型,根据草莓的外部品质将草莓样本分为新鲜、瘀伤和发霉3 类。使用90%的图像数据进行训练和验证时,模型即可在短时间内表现出较高的学习性能,其准确率、精确度、特异度和灵敏度均达到97%以上。

  在霉变检测中,图像处理技术是关键环节之一。深度学习模型特别是CNNs模型,能够特别有效地从图像中提取特征和准确识别待测物,即使在复杂的光照条件下或存在遮挡等条件下,能够自动学习霉变区域的纹理和颜色特征,无需人工设计复杂的特征提取算法。基于批量归一化增强的ResNet50模型,通过对葡萄霜霉病果实、叶片和健康叶片图像进行训练,并对图像进行翻转、裁剪、倾斜和缩放等技术增加可变性和减少过拟合,对健康和霉变葡萄的区分准确率达95%以上。

  HSI技术集成数字图谱和光谱学,不仅可以检测外部特征,还可以将其内部组成和空间结构可视化。另外,Sha Wen等使用随机蛙跳(random frog,RF)算法从高光谱数据中筛选有效波长,利用颜色矩阵提取图像的统计特征,同时通过CNNs提取网络特征,结合RF算法融合其他特征判断苹果的黑根霉感染程度,预测集准确率达96%(图8A)。该方法有效解决了HSI技术空间分辨率普遍较低、难以感知外部细节特征的局限性等问题。

  Zhai Mingcan等开发了一种新型非接触式振动检测装置用于苹果霉心的识别,该检测系统不仅具有重复性优异的响应信号,还能够适应不同直径的苹果。将信号转换为时域和频域的格拉姆角场图像和时频图,并输入改进ResNet50与极限学习机的结合模型和ViTs进行分析,ViTs模型表现更优,整体准确率为89.66%。另外,Yang Si等提出了一种基于生物散斑成像技术用于柑橘霉变的早期检测(图8B),该方法获取了柑橘样本在时间域和频率域的散斑信号特性并结合人工神经网络(ANNs)构建预测模型,可较传统RGB图像提前1~3 d发现感染迹象。在研究过程中,霉菌被内果皮壁限制在果核内的果实以及轻微霉变的果实区分最为困难,未来研究人员仍需开展相关工作,筛选出分类任务中更为敏感的特征,以及多关注早期果蔬劣变的分类和预测,不仅能减少企业的经济损失,还能切实保障消费者的权益和健康。

  在整个果蔬供应链中,对果蔬新鲜度进行精准及时的评估至关重要。传统检测方法存在投资成本高、大规模数据处理效率低,以及依赖专业能力等局限性。随着机器视觉、光谱分析和深度学习技术的发展,果蔬新鲜度检测逐渐向智能化、无损化方向发展。结合CNNs等深度学习算法应用于图像处理和光谱数据分析,通过不同的CNNs模型结构或逐步增加网络层数不断改进CNNs设计,并实施迁移学习和CNNs微调,从而提高模型对果蔬新鲜度检测的准确率。

  Bu Yuanpeng等融合RGB和高光谱图像数据,将一维高光谱数据转换为二维空间数据,使其在通道维度上能够与RGB图像数据叠加拼接,通过下采样技术重构RGB图像,生成融合数据,构建的ResNet18深度学习模型综合评价蔬菜大豆新鲜度的准确率达97.6%。Ismail等提出了使用基于集成摄像头和触摸屏显示器的Raspberry Pi模块进行实时视觉检测系统,用于用户交互,结合先进的深度学习模型和堆叠集成技术,对苹果和香蕉的实际样本测试准确率分别为96.7%和93.8%(图9A)。多任务学习模型已被证实可用于各类自动收获和供应链监控场景中的果蔬新鲜度检测,基于公开数据集训练的多任务学习模型表现优于其对应的单任务学习,其能够有效共享相关任务的底层提取特征,实现协同训练。另外,可通过将果蔬挥发性成分转换为比色或荧光图像实现气味的可视化,进而结合机器视觉技术实现智能感知。Wang Dayuan等基于高蛋白质的长豆角和菠菜腐败产生碱性挥发性有机化合物、富含糖分的玉米释放酸性挥发性有机化合物的特性,开发了一种基于姜黄素、葛根素和漆黄素构建的3×6 pH值敏感型荧光传感器阵列。将智能手机采集的图像作为输入数据,结合DCNNs模型实现非破坏性实时监测,训练后的ResNet50对3 种蔬菜的新鲜度分类总体准确率达96.21%(图9B)。

  另外,融合不同机器学习模型已成为未来发展的一个重大趋势。通过融合不同深度学习模型,自动学习表征果蔬新鲜度的深层特征,提取果蔬图像中各区域的相关性,以应对复杂场景中的多样性和变异性。有研究构建了结合参数优化处理的CNNs和双向长短时记忆神经网络融合深度学习模型,在果蔬新鲜度检测中能够达到97.76%的准确率。Abayomi-Alli等构建了一个评估水果新鲜度的图像数据集,该数据集包含11 种水果的图像,分为3 个新鲜度等级,结合5 种深度学习模型(ShuffleNet、SqueezeNet、EfficientNet、ResNet18和MobileNet-V2)作为基准模型进行水果质量识别。也有研究融合了GoogLeNet、DenseNet-201和ResNeXt-101 3 种架构预训练模型提取的深层提取特征,该模型对果蔬新鲜度的检测准确率达到了96.98%。

  深度学习算法的性能高度依赖于大规模、高质量的数据集,需要大量多维的数据才能有助于模型学习更全面和更准确的规律,做出正确判断。另外,果蔬本身具有易腐败的特点,在一定程度上降低了数据集的可用性。然而,在果蔬品质检测领域,获取大规模高质量数据集面临诸多挑战。果蔬的生长环境复杂,外观特征受光照、季节、天气和品种等诸多不可控因素影响较大,环境的多样性和多变性导致图像采集难度增加,需要投入大量的时间和资源。目前极度缺乏支持实时水果质量评估的多水果数据集,现有的数据集多为各个实验室制备的小规模数据集,无法全面综合反映果蔬性质。此外,已公开共享的数据库因实验条件不同,图像数据不具有通用性,开放数据集注释由专家或志愿者收集和人工标记,不可避免地会出现一些错误,导致其实用性大大降低。

  深度学习驱动的机器视觉技术在果蔬品质检测领域已取得突破性进展,但其仍存在较大的发展空间。未来需要解决人工标注问题,或降低对人工标注数据的依赖。半监督学习和无监督学习为减少数据注释、降低数据成本提供了新思路。在数据有限或标注质量参差不齐时,半监督学习可依旧实现有效学习和建模。果蔬具有明显的生长差异、品种差异等,需要构建出覆盖不同品种、生长阶段和贮藏条件的大规模果蔬图像数据集才能满足实际需要,未来或是训练出能够有效利用小规模数据集的算法模型也能较好解决该挑战。除此之外,探索出更高效的图像增强技术,加大对图像数据标准化处理的研究,鼓励研究人员共享图像数据集,建立可数据共享、易访问的全球公开果蔬注释图像数据平台十分必要。

  果蔬图像采集的过程中应充分考虑光照条件和反射条件,不当的图像采集过程可能会导致图像质量不佳,如图像模糊和各种噪声等,这也增加了额外的计算成本。值得注意的是,深度学习具有很强的拟合能力,能够捕捉训练数据中的细微特征,将数据中的噪声误认为是普遍规律,当模型经过多样化数据训练后,计算能力大大增强,可能会出现过拟合的现象。另外,需要通过大量的标记数据才能进行有效的算法训练,然而数据标注需要专业知识,且过程非常繁琐耗时,易受人为因素干扰。果蔬的图像采集和注释仍是机器视觉技术结合深度学习投入实际应用中的一项难题,三维重建技术为获得果蔬更准确的三维信息提供了一种有效的方法,但现有的三维重建技术仍发展不成熟。

  深度学习算法较传统机器学习模型相比,能够自主学习原始数据中的规律,在食品品质控制上具有较大的潜力。然而,深度学习模型的高复杂性和众多超参数使优化任务非常复杂和耗时,并且用于计算加速的GPU和与之相匹配的处理器等硬件都非常昂贵。果蔬品类繁多,不同品种、生长环境下的果蔬在外观和内部品质上存在显著差异,这对模型的泛化能力提出了挑战。果蔬品质算法需要足够灵活才能全面适应复杂多样的果蔬基质。幸运的是,随着现代科学技术的发展与普及,硬件价格逐渐下降,并且云计算平台通过弹性算力租赁模式,为用户提供了按需使用高性能硬件资源的选项,推动了深度学习模型使用的高性价比解决方案普及。

  选择单一的算法模型用于果蔬品质评估,可能会导致过拟合或欠拟合。未来可以优先考虑针对不同数据(图像)特点采用合适的预处理方式,数据增强已被广泛研究证实可提升分类器的鲁棒性和准确性,如随机图像裁剪、补丁生成和生成对抗网络(GANs),其中GANs并非只对原始数据进行几何或像素级变换,而是能够通过生成器网络生成多样化的数据样本,有助于模型泛化到各种数据场景;或是通过结合不同的深度学习模型以减少单一模型在复杂场景中的不足。Xue Wei等提出一种黄瓜果实形态性状识别框架及软件,该框架由6 种不同深度模型构成,可高效识别多达51 个黄瓜特征。

  三维重建技术为获得果蔬的三维形态和空间位置信息提供了较好的技术支撑,为果蔬无损品质分析提供了精准量化的高质量数据,即使在复杂环境也具有出色的适应性。未来应建立全球开放的三维农业数据集,提高三维数据处理效率,开发自监督或小样本学习模型解决泛化性问题。值得注意的是,深度学习可以从简单经济的RGB图像中重建高光谱数据,构建一个高效且可扩展的系统,为果蔬品质提供一个切实可行的解决方案。另外,硬件优化是重中之重,开发具有经济性的高分辨率三维传感装置,即使存在外部光照变化或是遮挡等影响,仍保持优异的鲁棒性。

  单一模态的数据(图像)往往不能全面反映果蔬品质,而多源数据融合填补了单一数据源的缺陷,多源数据融合为算法模型提供更丰富和高质量的数据(图像)输入,提高了算法模型及检测设备在复杂应用场景中的鲁棒性。多模态测量已日益普遍,为果蔬品质控制提供了整体视角。Pipitsunthonsan等开发了多传感器数据采集单元,其由RGB相机、红外传感器和称重传感器组成,通过融合多模态数据,将RGB和红外图像标准化,与质量数据对齐,形成统一输入,构建多分支CNNs,对棕榈串进行多标签分类,其中多输入模型的性能明显优于单输入模型。将独立模态(如视觉、听觉和传感器数据等)进行融合,提取果蔬多维数据,向算法提供高质量的数据(图像)输入,同时能够检测出果蔬多个质量属性,提高检测的效率和准确性。

  目前,结合机器视觉技术和深度学习的果蔬品质检测装置都是基于某种果蔬的检测。深度学习算法无法自动适应不同果蔬的生长差异,局限于特定的果蔬品种和生长特点。比如,用于检测苹果新鲜度的模型无法直接应用于其他水果的检测。但是,果蔬具有季节性和收获的不连续性,大型工厂只能应用某种果蔬使用的检测装置,产生了巨大的经济成本。因此,开发出通用性高的果蔬识别模型和装置是未来实现商业化自动化生产必不可少的一步,也是关键一步。

  当前,在增强模型决策透明度方面,可解释人工智能技术扮演着关键角色。包括全局解释方法、以局部可解释模型-不可知解释为代表的局部近似解释方法、基于博弈论的SHAP以及模型可视化技术等。梯度加权类激活映射通过生成热图直观呈现CNNs模型在决策过程中关注的图像区域,有效推动了CNNs模型在实际场景中的应用。未来研究人员应关注到算法模型的黑盒性质,探究解释复杂黑盒模型的方法,进一步关注针对特定数据类型(如图像、文本等)和特定学习任务的可解释模型,提高白盒模型在开发人员中的普及程度。同时,为了增强深度学习算法的实用性,开发出用户友好型的软件和设备是未来发展的必然趋势。

  虽然已有部分研究开发出深度学习驱动的机器视觉技术用于果蔬品质的便携在线检测,但该领域仍存在诸多方面的技术难题。近年来,随着智能设备的更新升级和普及度的提升,越来越多的研究人员集成智能手机用于食品在线实时监测。结合智能设备辅助深度学习驱动的机器视觉技术为果蔬检测装置的便携化、小型化提供了新思路,其潜力巨大,但依旧存在许多挑战需要克服。通过开发轻量级深度学习模型,显著降低了算法模型的大小和计算复杂性,可有效适应智能手机和其他较小的设备,但其准确性和性能会有所下降。因此,设备的小型化与高性能之间的平衡是一个关键问题,如何在实现便携式设备小型化的同时保证其特异性和灵敏度是食品便携检测设备领域一直探索的方向。

  果蔬检测的研究重点是效率、精度、集成和创新。在实际果蔬检测中要求在短时间内完成图像采集、处理和决策,因而未来应聚焦于开发出结构紧凑、计算能力更高、参数量少的轻量级网络,以及加大可用于边缘设备的轻量级模型研究,实现实时快速检测的同时还能提高视觉识别系统的性能。另外,3D打印技术快速发展,未来随着3D打印成本的不断降低使得便携式图像采集装置更具经济效益。同时,为了在线检测设备的实用性,该装置需配有用户友好型的软件和工具,该软件需具有易于使用的界面,并且提供简单易懂详细的解释和说明,确保装置的普适性,让该算法不再局限于专业人员,普通用户亦可便捷使用。

  自动化、模块化和商业化是果蔬品质检测装置的最终目标。果蔬品质检测及分级生产线包括清洗、风干、光谱分选(收集果蔬照片用于分析瑕疵种类和大小)、糖酸等品质光谱无损检测系统、光谱分选(分级)等全自动模块化设备,这类生产线在商业应用中面临诸多挑战。全自动模块化的大型果蔬品控装置制备复杂、数据库需求大,同时,维护和保养智能机器和大型计算机系统需要高额的费用,也是阻碍其广泛应用的主要因素之一。目前的算法模型和机器视觉技术距离满足大型自动化生产的广泛应用依旧存在较大的差距。另外,果蔬检测还缺乏统一的检测标准和分级规范,这使得不同厂商的产品在性能和兼容性上存在差异。

  未来应鼓励集成互联网技术、大数据和人工智能用于果蔬品质监测,将该技术贯彻于果蔬种植、生长管理、收获采摘、控制检测、物流运输以及终端消费等全过程。通过物联网技术和人工智能实时监测生长过程中水分含量、土壤条件和果蔬病害等,及时发现数据异常引发预警,立即采取行动将不利因素风险降至最低。在仓储和运输环节利用深度学习驱动的机器视觉技术实时监控果蔬品质,减少因品质劣变导致的损失,构建自动化和模块化的全自动生产线,从源头控制好果蔬品质。另外,未来可以结合区块链技术,实现果蔬供应链的可追溯性,建立好“从农田到餐桌”全链条管理体系,为消费者提供高质量的果蔬产品供应。

  本文全面综述了深度学习算法驱动的机器视觉技术在果蔬外部品质(包括颜色、形状与尺寸、表面缺陷检测)、内部品质(包括糖分、酸度、农药残留和果蔬霉变检测)和综合品质(如新鲜度检测)控制领域的研究进展。与传统机器学习算法相比,深度学习算法从大规模数据中提取复杂特征方面更高效,且能适应多种学习任务和实际应用,因其能够学习和理解复杂的数据模式,在果蔬质量评估任务中表现更精准。另外,研究仍需要克服诸如缺乏大规模高质量数据集、依赖人工标注、过拟合或欠拟合、黑盒性质及轻量化深度学习的设计与开发等多种挑战,以开发更可靠、更稳定的深度学习模型,满足果蔬品质分析的实际需求。随着人工智能技术、3D打印技术、智能手机和其他小型设备的快速发展,果蔬品质检测技术的准确性、便捷性与经济性会持续提高,将推动果蔬品质检测向智能化、便携化、自动化与精准化方向深度升级与可持续发展。

  和法涛,研究员,硕士生导师,享受国务院政府特殊津贴专家,兼任国家苹果加工技术研发专业中心主任、中国食品科学技术学会青委会委员、果蔬加工分会理事、休闲食品分会理事、中国苹果产业协会常务副秘书长、山东省科协九届委员会委员、山东省果蔬贮藏加工技术创新中心副主任、山东省食品科学技术学会秘书长等。主要从事果蔬等药食同源植物发酵、干燥等精深加工、功能性食品开发及应用推广,主持或核心参与国家重点研发计划及省部级课题33项,完成科技成果鉴定/第三方水平评价14项,获得山东省科技进步奖一等奖、二等奖等科技奖励20余项,获授权发明专利11 项,制修订行业标准、地方标准9 项,发表SCI/EI论文80余篇,带领团队为30余家果蔬加工企业提供技术服务。