视觉位置识别 (VPR) 是识别拍摄特定图像的位置的任务。计算机科学家最近开发了各种深度学习算法,可以有效地解决这项任务,让用户知道在已知环境中捕获图像的位置。
(资料图)
代尔夫特理工大学(TU Delft)的一组研究人员最近推出了一种新方法,以提高VPR应用的深度学习算法的性能。他们提出的方法在IEEE Transactions on Robotics的一篇论文中概述,基于一种称为连续位置描述符回归(CoPR)的新模型。
“我们的研究源于对VPR性能基本瓶颈以及相关视觉定位方法的反思,”该研究的第一作者Mubariz Zaffar告诉Tech Xplore。
“首先,我们谈论的是"感知混叠"的问题,即具有相似视觉外观的不同区域。举一个简单的例子,假设我们收集参考图像,其中车辆在高速公路的最右侧车道上行驶。如果我们稍后在同一条高速公路的最左侧车道上行驶,最准确的 VPR 估计将是匹配这些附近的参考图像。但是,视觉内容可能会错误地匹配不同的高速公路路段,其中参考图像也收集在最左侧的车道上。
克服Zaffar及其同事确定的VPR方法的这种限制的一种可能方法是训练所谓的图像描述符提取器(即VPR模型的一个组件,从图像中提取描述性元素)来类似地分析图像,而不管它们被带入的行车道如何。但是,这会降低他们有效确定图像拍摄地点的能力。
“因此,我们想知道:VPR是否只有在每条地图高速公路的所有车道上收集图像时才有可能,或者我们只在完全相同的车道上行驶?我们希望扩展VPR简单但有效的图像检索范式来处理此类实际问题,“Zaffar说。
“其次,我们意识到,即使是完美VPR系统的姿势估计也会在准确性上受到限制,因为参考图像及其姿势的有限尺寸意味着地图不能包含每个可能的查询具有完全相同姿势的参考,因此我们认为解决这种稀疏性可能更重要, 而不是试图构建更好的 VPR 描述符。
在回顾以前的文献时,Zaffar和他的同事也意识到VPR模型通常被用作更大系统的一部分。例如,视觉同步定位和映射 (SLAM) 技术可以从 VPR 方法中受益,以检测所谓的闭环,而粗到细定位方法可以通过细化 VPR 的粗略位姿估计来实现亚米级定位精度。
“与这些更复杂的系统相比,VPR步骤可以很好地扩展到大型环境并且易于实现,但其姿势估计并不那么准确,因为它只能返回以前看到的图像的姿势,这些图像在视觉上与查询最匹配,”Zaffar说。
“尽管如此,SLAM和相对姿势估计确实使用相同的稀疏参考图像和姿势提供了高度准确的姿态估计,那么这些方法与VPR有何根本不同?我们的观察是,这种技术从参考文献中构建了一个连续的空间表示,明确地将姿势与视觉特征联系起来,允许从给定参考中插入和推断的姿势的视觉内容进行推理。
根据他们的观察结果,研究人员着手探索SLAM和相对姿势估计方法获得的相同连续表示是否可以扩展到单独运行的VPR模型。传统的VPR方法的工作原理是将查询图像转换为单个所谓的描述符向量,然后将其与预先计算的描述符进行比较,而粗到细的定位方法可以通过细化VPR的粗略姿势估计来实现亚米级定位精度。所有这些引用描述符统称为“映射”。
比较这些描述符后,模型确定哪个引用描述符与查询图像的描述符最匹配。因此,该模型通过共享与查询图像描述符最相似的参考描述符的位置和方向(即姿势)来解决 VPR 任务。
为了改善VPR本地化,Zaffar和他的同事通过使用深度学习模型简单地使描述符的整体“地图”更加密集。他们的方法不是将参考图像的描述符视为与其姿势分开的离散集,而是将参考视为将姿势与其描述符相关联的基础连续函数上的点。
“如果你想到一对具有两个附近姿势的参考(因此,图像的位置和方向略有不同,但仍然看着相同的场景),你可以想象描述符有些相似,因为它们代表相似的视觉内容,”该研究的合著者Julian Kooij解释说。
“尽管如此,它们也有些不同,因为它们代表了不同的观点。虽然很难手动定义描述符如何准确变化,但这可以从具有已知姿势的稀疏可用参考描述符中学习。这就是我们方法的本质:我们可以对图像描述符如何随姿势变化而变化进行建模,并使用它来致密化参考地图。在离线阶段,我们拟合了一个插值和外推函数,可以从附近的已知参考描述符中以看不见的姿势回归描述符。
完成这些步骤后,团队可以通过添加新姿势的回归描述符来致密VPR模型考虑的地图,这些描述符代表参考图像中的相同场景,但略微移动或旋转。值得注意的是,Zaffar和他的同事设计的方法不需要对VPR模型进行任何设计更改,并允许它们在线运行,因为模型提供了更大的参考集,它们可以匹配查询图像。这种用于VPR的新方法的另一个优点是它需要相对最小的计算能力。
“其他一些最近的工作(例如,神经辐射场和多视图立体)遵循类似的思维过程,也试图在不收集更多参考图像的情况下使地图致密化,”Zaffar说。“这些工作提出隐式/显式地构建环境的纹理3D模型,以合成新姿势的参考图像,然后通过提取这些合成参考图像的图像描述符来致密地图。这种方法与视觉SLAM估计的3D点云有相似之处,需要仔细调整和昂贵的优化。此外,生成的VPR描述符可能包括被认为与VPR无关的外观条件(天气,季节等),或者对意外重建伪影过于敏感。
与以前旨在通过在图像空间中重建场景来提高VPR模型性能的方法相比,Zaffar的方法排除了这个中间图像空间,这将增加其计算负载并引入不相关的细节。从本质上讲,团队的方法不是重建这些图像,而是直接在参考描述符上工作。这使得大规模实现 VPR 模型变得更加简单。
“此外,我们的方法不需要访问参考图像本身,它只需要参考描述符和姿势,”Kooij说。“有趣的是,我们的实验表明,如果基于深度学习的VPR方法被训练为对姿势相似性的描述符匹配进行权衡的损失,那么描述符回归方法是最有效的,因为这有助于将描述符空间与视觉信息的几何形状对齐。
在初步评估中,研究人员的方法取得了非常有希望的结果,尽管所采用的模型很简单,这意味着更复杂的模型很快就会获得更好的性能。此外,发现该方法与现有的相对姿势估计方法具有非常相似的目标(即,用于预测从特定角度观察场景时场景如何变化)。
“这两种方法都解决了不同类型的VPR错误,并且是互补的,”Kooij说。“相对姿势估计可以进一步减少VPR正确检索的参考的最终姿势错误,但如果VPR错误地检索了与真实位置外观相似的错误位置(”感知混叠“),则无法修复姿势。我们通过真实世界的例子表明,使用我们的方法绘制致密化图可以帮助识别或避免这种灾难性的不匹配。
未来,该研究团队开发的新方法可以帮助不可知地提高VPR应用程序算法的性能,而不会增加其计算负载。因此,它还可以提高依赖于这些模型的SLAM或粗到细定位系统的整体性能。
到目前为止,Zaffar和他的同事们已经测试了他们的方法,使用简单的回归函数来插值和外推描述符,例如线性插值和浅层神经网络,它们只考虑了一个或几个附近的参考描述符。在接下来的研究中,他们希望设计更先进的基于学习的插值技术,可以考虑更多的参考文献,因为这可以进一步改进他们的方法。
“例如,对于向下看走廊的查询,走廊下方的参考可以提供更详细的描述符应包含的内容,而不是向另一个方向查看的更近的参考,”Kooij补充道。
“我们未来工作的另一个目标是提供一个预先训练的地图致密化网络,可以泛化到各种数据集上的不同姿势,并且几乎不需要微调即可很好地工作。在我们当前的实验中,我们从头开始拟合每个数据集的训练拆分。统一的预训练模型可以使用更多的训练数据,允许更复杂的网络架构,并为VPR的最终用户提供更好的开箱即用的结果。
版权声明:本文由用户上传,如有侵权请联系删除!标签: