2020-04-16 来源：INDEMIND

科普|三种常见视觉SLAM方案

如今科技发展日新月异，诸如机器人、AR/VR等前沿科技产品已走入了大众生活当中。但是想在这些领域让用户有更好的体验，就需要很多底层技术的支持，SLAM就是其中之一。如果说机器人离开了SLAM，就相当于人类失去了双眼一样。

一、什么是视觉SLAM?

SLAM的英文全称是Simultaneous Localization and Mapping，中文称作「即时定位与地图创建」，而视觉SLAM就是用摄像头来完成环境的感知工作。

举个例子，当你第一天去上大学的时候，为了迅速熟悉校园环境并且找到宿舍时，你会做以下的事情：

1.用眼睛一直观察周围的教学楼、篮球场、喷泉等标志性建筑物，并且记住它们的特征。（特征提取）

2.根据你刚才眼睛观察到的信息，在脑海里把这些有特征的标志性建筑物建立成一个地图。（建图）

3.在继续行走时，又看到了一些如咖啡店、健身房等新的标志性建筑物，再把它们加到脑海中的地图里面校对一下。（状态更新）

4.根据你前一段时间行走获得的标志性建筑物，确定自己的位置。（路径规划）

5.当无意中走了很长一段路的时候，和脑海中的以往标志性建筑物进行匹配，看一看是否走回了原路。（回环检测）

其实上面你做的这些事情，就是视觉SLAM里面的几个部分。

二、视觉SLAM的分类

视觉SLAM研究主要分为三大类:单目、双目(或多目)、RGBD。

单目仅用一支摄像头就能完成SLAM。最大的优点是传感器简单且成本低廉，但同时也有个大问题，就是不能确切的得到深度，存在尺寸不确定的现象，比如丢失深度信息的相片中，我们能见到“手捏太阳”“借位拍照”这样的现象。

一方面是由于绝对深度未知，单目SLAM不能得到机器人运动轨迹及地图的真实大小，如果把轨迹和房间同时放大两倍，单目看到的像是一样的，因此，单目SLAM只能估计一个相对深度。另一方面，单目相机无法依靠一张图像获得图像中物体离自己的相对距离。为了估计这个相对深度，单目SLAM要靠运动中的三角测量，来求解相机运动并估计像素的空间位置。即是说，它的轨迹和地图，只有在相机运动之后才能收敛，如果相机不进行运动时，就无法得知像素的位置。同时，相机运动还不能是纯粹的旋转，这就给单目SLAM的应用带来了一些麻烦。

双目（多目）顾名思义是由两个或多个摄像头来完成SLAM，其普遍为双目视觉方案。双目视觉既可以在运动时估计深度，亦可在静止时估计，双目视觉融合两个摄像头获得的图像并观察它们之间的差别，获得明显的深度感，建立特征间的对应关系，将同一空间物理点在不同图像中的映像点对应起来。并且可以精准感知周围的物体和自身移动的轨迹，从而对周围环境形成三维立体的认识，解决了上面提到的问题。不过通过双目图像计算像素距离，计算量大，而且在特征少的白墙或暗光环境易丢失目标。

目前双目的应用程度明显较高，针对双目方案拓展应用场景上，大多融和了IMU或者IR等传感器，比如国内立体视觉方案公司indemind推出的双目视觉惯性模组，采用了“双目摄像头+IMU”多传感器融合架构与微秒级时间同步机制，可提供精准稳定数据源；并且内置了自研高精度Vi-SLAM算法，以满足SLAM研究、智能机器人、无人机避障、室内外导航定位等使用需求。

RGBD相机是2010年左右开始兴起的一种相机，它最大的特点是可以通过红外结构光或Time-of-Flight原理，直接测出图像中各像素离相机的距离。因此，它比传统相机能够提供更丰富的信息，也不必像单目或双目那样费时费力地计算深度。