编者按:
深度学习算法正重新定义目标检测和分类技术。算法训练需要大量数据集,而数据集搜集通常是复杂和耗时的。在国防和安全领域,如果数据具有敏感性,例如军用舰船红外图像,训练可能难以实现。算法开发和训练通常在合成环境中进行,研究人员对解决方案在真实世界数据的通用性提出了质疑。
本文研究了无需真实红外数据训练的红外自动目标识别深度学习算法,利用目标-导弹交战仿真软件和10个高保真计算机辅助设计模型,生成了大型舰船长波红外图像合成数据集,并探索了多种训练YOLOv3体系结构的方法,并随后使用真实世界红外数据的视频序列进行了评估。实验表明,在训练数据中加入小样本的半标记非真实红外图像可以显著提高训练性能。尽管没有真实的红外训练数据,但在真实的测试数据上,高平均精度和召回率分别达到99%和93%。为了促进自动目标识别算法的进一步发展和标杆基准化,本文还提供了图片真实感合成红外图像数据集。
关键词:自动目标识别,深度学习,红外,反舰,数据集
大多数红外反舰自动目标识别(ATR)算法都是围绕经典的计算机视觉概念设计的,如自适应阈值和手工特征提取,不过许多类似领域目前已采用深度卷积神经网络(DCNN)算法。该算法应用于反舰自动目标识别,可以提高恶劣天气条件下反舰自动目标识别的鲁棒性,并提高目标识别与确认性能,将对新兴系统至关重要,有助于实现高价值目标自动优先排序和非敌对航运规避能力。
DCNN严重依赖于越来越大的数据集合,在其许多应用程序中,需要大量基准测试数据集。基准测试数据集由数千个甚至数百万个带注释的示例组成,消除了各自领域中数据收集和注释等耗时任务。基准测试也促进了算法的直接比较,能快速确定适合进一步开发的方法。红外反舰自动目标识别领域没有可用的大型基准数据集,导致新算法开发受到定制数据集生成的繁琐工作阻碍。另外,此类数据集通常包含的示例太少,无法训练深层神经网络或促进稳健验证,而且很少能公开获取,进一步妨碍算法的直接比较。
为了使未来的红外反舰自动目标识别算法能充分利用最新技术,需要数据集生成和算法训练新方法,本文对这两种方法进行了探讨。
许多以舰船为中心的数据集一个主要缺陷是规模,许多数据集红外图像少于200张,不适合训练DCNN,因为目标识别等复杂任务训练示例必须足够多且多样化,以全面表示预期测试条件。选用目标检测数据集包括80个类别约120000个训练示例,ImageNet分类与定位数据集配有100万多个标记示例。用如此少量数据训练深度学习算法,不能保证反舰导弹在预计的各种情况下可靠运行。据悉,最大的相关数据集是新加坡海事数据集(SMD),其包括完全标记的离岸和岸上、可见光和近红外视频序列共31653帧,不过缺少现代红外反舰导弹所选择的长波红外图像,并不完全适合海军领域。该数据集规模很大,却仍然缺乏训练复杂算法所需的多样性,而复杂算法包含数百万可学习的数据参数。不过,新加坡海事数据集仍构成了可公开获取的最大现实世界海上图像数据集,可作为海港监视和防撞等有价值的基准数据。
许多数据集第二个缺陷则与缺乏环境因素变化有关,如大气条件、海况和背景“杂波”存在。很少有数据集描述广泛的可能条件,通常只考虑一组单一大气和海面条件集。背景杂波通常作为一个具有挑战性的虚警检测源,尤其在沿海环境中,而现有数据集很少描述。如ATR算法要真正对可能部署条件的巨大多样性具有鲁棒性,我们认为未来的数据集必须包含更多条件组合。
导弹导引头算法必须能在一个大的方位包线内探测与识别任何尺寸或设计的舰船。很少数据集能完全考虑到这一点,有些只关注侧面透视图,而另一些则忽略立面,只考虑水平透视图。而且,大多数现有数据集只描述了不同舰船类别一个小样本,通常不超过六个。这简化了探测任务,阻碍了识别和确认能力发展,未来数据集必须包括更多不同军民用舰船集合。
不太可能收集和公开分发一个包含各种军用舰船的红外数据集,研究人员已多次尝试生成综合图像数据集。早期如使用CAD模型来生成约41000个轮廓,且仰角和方位角不断增加,但作为二值图像只适用于舰船分类。后来进行了改进,利用先进的导弹-目标交战软件生成军用舰船的真实长波红外图像,然后用训练的神经网络分类器对目标进行辨别。其展示了合成数据潜力,使机器学习算法用于红外自动目标识别,并具备其他优势,如减少时间成本,收集了全面的元数据等。
反舰自动目标识别合成数据仍然存在一些基本挑战。例如,现有合成数据集未考虑各种可能的外部因素,如大气条件、海况和背景杂波。CAD模型可能描述任意数量的舰船设计,但创建工作是一项耗时且熟练性任务,因而当前合成数据集与现实世界同类数据集同样有限。舰船热特征随外部和船载条件变化而急剧变化,但目前假设舰船表面温度不变,也有待考虑。而生成合成数据是解决红外目标自动识别数据相关问题的一个有吸引力的解决方案,如能有效训练鲁棒检测算法,则需要进行重大改进。
在技术人员看来,为克服真实世界红外图像可用性有限和合成数据集真实性有限的问题,可能需生成一个混合数据集且需利用每种数据集的优点。本文详细介绍了合成红外数据集生成的改进方法,并提出了高质量、开放可用的数据集,为未来机器学习红外反舰ATR算法发展提供了参考。本文还演示了如何使用其数据来训练复杂的高性能深度学习目标检测算法,并使用一系列真实的红外图像对其进行了评估。
船型选择与设计。表1所示为四种类型中选择的一些国家目前使用的十型舰船,包括轻型护卫舰、护卫舰和驱逐舰三种军用舰船,每种有三种不同型号,以及民用客轮(Armorique),代表各种不同设计。
表 1 为数据集选择的舰船类别(排水量指标准排水量)
红外性能分配。在仿真舰船红外外观前,必须对每个模型表面应用红外特性,包括温度和发射率。
使用Tau™2长波红外相机收集选择真实舰船图像,以用于算法设计,可产生不同和现实热特征。对于给定船模,分别从均匀分布U(2,6)和U(5,20)中得出平均温度μ和标准差σ,用于定义一个正态分布(Normaldistribution),从中可以得出每个表面温度值。如果给定表面是一个排气筒,其温度值会升高一个从有效区间中提取的量。在50%情况下,天线和天线罩表面的温度也会升高,升高量来自N(U(3,10),U(0,4)2)。所有表面规定发射率值为0.97,窗户等玻璃表面如发射率值为0.85。
为说明舰船热特征的连续变化性质,为每艘舰船生成9个热特征库,并生成9个独特的相应的CAD模型。图1为Akizuki级驱逐舰。
红外图像生成。CAD模型热成像由CounterSim目标导弹交战仿真器生成。虚拟长波热成像仪定义温度范围为0℃~100℃,分辨率为1024×512。在图像生成过程中,海洋建模为一个平面,温度来自U(5,20),背景天空建模为一个常数,温度来自U(5,25),大气传输建模为中分辨率大气传输(MODTRAN4)模式。选定的任意值涵盖海面和天空温度值的广泛可行温度值,假设为恒定的平坦表面有助于后期增强。共生成了97.2万张图像,另外还生成了10.8万个二进制掩膜,用于在线数据增强和语义分割。
在线图像增强。为增加合成数据的变化,技术人员设计了一个三级在线随机数据增强管道,以增加不同的海天状态和背景杂波。每个步骤都依赖于运行时随机叠加到给定图像中的预处理图像的集合。
为进行天空状态增强,从各种在线来源收集包含天空的图像,并将对应于蓝天的像素设置为零并转换为灰度进行预处理。在运行时,对于给定的合成图像,选择一个混浊图像,随机调整大小并裁剪成形状,其像素强度根据公式(1)进行缩放,利用合成图像对应的二值掩模将云层图像叠加到合成图像的海天地平线上,以保留目标像素。
添加背景杂波过程类似。从各种在线资源中收集图像,描绘了合理背景景色和物体,如石油平台、风力涡轮机、冰山、小岛和建成的海岸线。对图像同样进行去除背景像素并转换为灰度预处理。在运行时,随机选择背景图像,在场景沿着给定合成图像的海天地平线叠加前,应用相同的调整大小、裁剪和像素缩放过程。根据等式(1)对杂乱图像进行像素缩放,不过c使用值0,并且根据杂乱场景的性质选择边界a和b。对于描绘人造结构的图像,分别使用20和80的值;对于冰山,分别使用0和2的值;对于其余图像,分别使用15和60的值。数值系任意选择,以符合背景杂波性质。
最后,为增强海况,收集了两组海面图像,分别从近海平面和高仰角拍摄。在运行时,如果海天地平线在给定的合成图像中可见,则选择第一组,否则选择第二组。进行相同预处理,使用等式(1)重新缩放像素,不过,边界a和b分别使用值5和30,c对应于合成图像中海洋区域的平均像素强度。该阶段还存在增加传感器噪声的范围,水平图像和高仰角图像增强效果分别可在图2和图3中看到。
本文编译自2020年英国国防学院电子战信息和网络中心的相关研究资料,数据结果仅供参考。由于大量资料从互联网多个渠道收集整理,加之作者水平有限,可能存在认识或理解不当之处,更多精彩的国内外测试、仿真以及数据分析等内容,欢迎各领域专家联系本公众号探讨研究,交流指正。
需要英文原文及更多国外装备伪装隐身技术资料欢迎联系010-86468585,13810077682(微信同号)
免责声明:本公众号目前所载内容为本公众号原创、网络转载或根据非密公开性信息资料编辑整理,相关内容仅供参考及学习交流使用。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请跟我们联系。我们致力于保护作者知识产权或作品版权,本公众号所载内容的知识产权或作品版权归原作者所有。本公众号拥有对此声明的最终解释权。