“管中窥豹”——战“疫”中看3D视觉的未来
当前,疫情防控进入最关键时期。一方面医护人员在前线奋战,阻击病毒的传播,另一方面后方的复工复产工作也再有条不紊的开展。受疫情影响,我们的生活办公方式发生了很大的变化,逐渐兴起的人工智能技术经过多年的积累,很多成果在疫情期间逐渐推广应用。扫脸支付,自动驾驶,还有受疫情影响应用最多的远程医疗、肺炎影像分析,AR远程教学,智能测温等场景,人工智能的身影覆盖医疗,交通,教育,智能化生产等多领域多场景,每一个社会需求,人工智能都给出自己的解决方案,实现社会需求与技术推广应用的完美衔接。并且我们发现深度学习技术已经悄然的从处理2D图像发展到处理三维世界的真实点云数据。
1.概述
在工业界,利用激光雷达获取点云数据,很早就有应用了,如进行测高、遥感等。近几年的大规模发展得益于自动驾驶和机器人领域的火热,激光雷达成为重要的感知手段而得到人们关注,点云处理也成为热门。近年来,深度学习技术已经成功地用于解决各种二维视觉问题,在计算机视觉、语音识别、自然语言处理、生物信息学等研究领域占据主导地位。但是,在三维点云上进行深度学习仍然面临数个重大挑战,例如数据集规模小,维数高和三维点云的非结构化性质。由于使用深度神经网络处理点云所面临的独特挑战,对点云的深度学习仍处于起步阶段。最近,人们提出了许多方法来解决这一领域的不同问题。
2.主要技术路线
近年来,已经有很多优秀的论文应用在3D深度学习领域中。该领域主要涵盖了以下三个主要任务,包括三维形状分类,三维目标检测和跟踪以及三维点云分割。
2.1 Multi-view representation:
这是最早用深度学习来处理点云数据的方法,但是需要先把三维点云在不同角度渲染得到二维图像,然后借助图像处理领域成熟的深度学习框架进行分析。这类方法主要包括两类,一类是扩展2D检测的方法;一类是先估计3D信息再进行3D检测的方法。这类方法只根据2D信息回归3D信息,效果并不好,其效果一般都不如基于3D信息的方法。然而,这类方法的巨大优势就是速度快,在无人车应用中,Tesla和Apollo中,使用的是基于单目的算法进行3D检测。
代表性方法:
[ArXiv] Monocular 3D Object Detection and Box Fitting Trained End-to-End
[ArXiv] Monocular 3D Object Detection via Geometric Reasoning on Keypoints
[ArXiv] Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving
[CVPR] Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving
2.2 volumetic representation
此类方法将点云划分成均匀的空间三维体素,对体素进行处理。优点是这种表示方式很规整,可以很方便地将卷积池化等神经网络运算迁移到三维;缺点是由于体素表达的数据离散运算量大,所以分辨率较低,因此具有一定的局限性。
代表性方法:
[ArXiv] Part-A2 Net: 3D Part-Aware and Aggregation Neural Network for Object
[ArXiv] STD: Sparse-to-Dense 3D Object Detector for Point Cloud
[ArXiv] Deep Hough Voting for 3D Object Detection in Point Clouds [code]
[CVPR] PointPillars: Fast Encoders for Object Detection from Point Clouds
[CVPR] PointRCNN 3D Object Proposal Generation and Detection from Point Cloud
[CVPR] PIXOR: Real-time 3D Object Detection from Point Clouds
[CVPR] VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
[CVPR] Deep Sliding Shapes for Amodal 3D Object Detection in RGB-D Images [code]
2.3 point-based network
2.3.1 Pointwise MLP Networks
直接对点进行处理是目前最为主流的做法,代表作是斯坦福大学研究人员提出的PointNet,用来直接对点云进行处理,PointNet是第一个直接处理无序点云数据的深度神经网络。一般情况下,深度神经网络要求输入信息具有规范化的格式,比如二维的图像,时序性的语音等。而原始的三维点云数据往往是空间中的一些无序点集,假设某一个点云中包含N个三维点,每一个点用(x,y,z)三维坐标表示,即使不考虑遮挡,视角等变化,单就这些点的先后顺序排列组合,就有N!种可能。因此,我们需要设计一个函数,使得函数值与输入数据的顺序无关。实际上,在代数组合学中,这类函数被称为对称函数。PointNet中,作者使用了Max Pooling层做为主要的对称函数,这种处理虽然简单,但是实验证明效果较好。
之后考虑到PointNet缺乏局部信息的缺点,提出了改进版PointNet++,各项指标也是刷新了前作。与PointNet不同,在解决点云的无序排列问题上,PointCNN没有采用maxpooling作为对称函数,而是训练了一个X变换网络,在多项任务中达到了当时的最高水平。之后很多学者都是在PointNet系列的基础上进行了很多的改进,并取得了不错的进展。
2.3.2 Convolution-based Networks
与二维网格结构上定义的内核相比(例如图像),由于点云的无序性和不规则性,很难设计一个通用的三维卷积核。根据对于卷积核的类型,当前的三维卷积网络可以分为连续卷积网络和离散卷积网络。
三维连续卷积网络的方法在连续空间上定义卷积核,其中相邻点的权重与相对于中心点的空间分布相关。三维卷积可以解释为在给定的子集上加权和,MLP是学习权重的简单方法。三维离散卷积网络,这些方法在规则网格上定义卷积核,其中相邻点的权重与相对于中心点的偏移有关。
2.3.3 Graph-based Networks
近年来,图神经网络在社交网络、知识图、推荐系统甚至生命科学等各个领域得到了越来越广泛的应用。图神经网络是一种连接模型,它通过图的节点之间的消息传递来捕捉图的依赖关系。与标准神经网络不同的是,图神经网络保留了一种状态,可以表示来自其邻域的具有任意深度的信息。虽然发现原始的GNN很难为一个固定点进行训练,但是网络结构、优化技术和并行计算的最新进展使它们能够成功地学习。近年来,基于图卷积网络(GCN)和门控图神经网络(GGNN)的系统在上述众多任务中表现出突破性的性能。GNN在对图节点之间依赖关系进行建模的强大功能,使得与图分析相关的研究领域取得了突破,在点云处理领域也有很大的进展,基于图的网络考虑点云中的每个点作为图的顶点,并为基于每个点的邻域的图,然后在空间域或光谱域中执行特征学习,典型的基于图的网络如图所示。
3.未来发展方向
当下热门研究方向仍是应用直接处理点云数据的相关研究,此方法能够最大限度的保留三维数据的原始信息,使得模型精度拥有更高的提升空间。但是,点表示自然没有显式的邻近信息,大多数现有的基于点的方法不得不求助于昂贵的邻居搜索机制(例如KNN或ball查询)。这个固有地限制了这些方法的效率,因为邻居搜索机制需要高计算成本和不规则内存访问。同时,大多数现有方法在小点云上工作。实际上,关键是由深度传感器获取的云通常是巨大且大规模的。因此,有必要进一步研究大规模点云的有效分割问题和此类方法的计算开销问题。
未来研究中,仍有很多方向值得探索。已经有学者开始动态学习时空信息点云,预计时空信息会有助于提高网络的性能。同时,如何进一步解决点云无序性问题,处理非均匀分布的点云数据的采样问题,对于非刚体变换的不变性问题,检测任务中的定位问题,减少网络的参数和时间空间开销,处理原数据的噪声和遮挡等,都需要我们进一步去探索,在点云深度学习的道路上,我们还有很长的一段路要走。
供稿:孙琦
编辑:庄新豪