Reading Report on Relation-Shape Convolutional Neural Network for Point Cloud Analysis in CVPR2019

本文是2019年5月《模式识别》专业课的读书报告

主要内容是在阅读中国科学院自动化所模式识别国家重点实验室刘永成团队的CVPR2019会议论文(oral)
《用于3D点云分析的形状关系卷积神经网络》过程中的个人理解、要点摘录以及收获和感悟。

中文标题:CVPR2019《Relation-Shape Convolutional Neural Network for Point Cloud Analysis》读书报告

简介

该论文《Relation-Shape Convolutional Neural Network for Point Cloud Analysis》,即《用于3D点云分析的形状关系卷积神经网络》,是由中国科学院自动化所模式识别国家重点实验室15级在读博士刘永成团队提交的CVPR 2019会议论文。该论文现已入选并拟为会议现场演讲论文。作为IEEE主办的计算机视觉、模式识别和人工智能领域的国际顶级会议,CVPR 2019将于今年6月16~20日在美国加州召开。

论文提出了一种根据局部点之间的几何拓扑关系作为特征进行处理的新型卷积神经网络,从而实现对3D点云的模式识别。基于针对传统2D图像的CNN,该论文提出了扩展到3D点云的Relation-Shape CNN。该方法对¬局部点云子集选取中心点作为采样点,通过对采样点与其他点的几何关系让卷积层从几何关系向量中学习一个高维的映射函数,从而得到了能够对3D点的空间分布进行显示推理的卷积结果,进而有区分度地反映其隐含的3D形状。

Relation-Shape CNN方法在三个主流的点云分析任务上均实现了行业内领先的优秀性能。除此之外,该方法不仅可以从点云中学习3D形状特征,还能从点云的2D投影空间中推理3D形状特征。

笔者(注:以下代表本读书报告作者)看到,近年来,卷积神经网络已经在2D图像这类规则数据的模式识别处理中获得了相当大的成功,而该论文在将卷积神经网络网络扩展到3D点云这类不规则数据的研究方面走出了一大步。

问题提出

目前,在3D点云模式识别领域的很多研究工作是集中在将卷积神经网络在识别现有网格数据(例如图像)的成功模式复制到3D点云上,例如将3D点云转化为一般的体元(voxel)或者转化为简单的多视图平面图像等。这些方法都将导致3D点云内在蕴含的复杂几何细节信息的损失。

对此,笔者也十分肯定,传统的2D图像与3D点云的区别相当巨大,在2D图像上的旧有模式识别方法往往不能很好地适合对3D点云的处理。
为了直接处理点云数据,PointNet对每个点进行学习并从全局角度提取最终的特征,这种方式却忽略了局部结构,而局部结构已经被证明在图像卷积网络中提取高维度视觉特征的过程中的重要性。为了解决这个问题,一些基于取样和体元(例如Superpoint)的方法被提了出来,它们在一定程度上建立在全局到局部的语义关系的学习上。但是这些方法十分依赖于对于局部点集的高效感知学习,这是十分难以达成的。

笔者在自己个人的实践过程中,也感受到了这一点,对于一类具体的模式识别问题,单纯地依赖现有方法框架的学习效率和训练得出模型的识别效果,其最终的整体性能是相当差的,因为这忽略了很多重要的先验知识,这些先验知识能够通过指导对数据结构、网络结构上的改进来提升整体性能。
总体上,对于一组3D点云P的识别目前存在着3类挑战:

  1. P往往是无序的,因此需要卷积得到的表征能够满足置换排列的不变性,在笔者看来,也就是说对于某一种特定的排列方式应当能够在其出现在整组点云的任意位置上的情况下被识别出来,也就是对点的输入顺序不敏感。
  2. P是分布在3D空间中的,因此需要卷积得到的表征能够对于例如旋转、偏移变换等常见的几何刚体变换具有语义上的不变性。
  3. P事实上组成了一个特定形状,因此,卷积网络需要具备有区分度的“形状意识”,笔者认为这正意味着需要从各点之间的几何关系推理出其表示的3D形状这一能力,因此才引出了论文的主要思路:根据局部点之间的几何拓扑关系作为特征进行学习的方法。

论文表示:问题(1)已经能够通过对称函数很好地解决,然而问题(2)、(3)都需要进行全新的研究工作。这一项研究工作的主要目的就是将一般的2D网格CNN扩展到能够解决以上问题的特殊结构上。

pic-1

图1 点云与点云所表示的潜在形状之间的关系

对于图1,笔者看到,论文根据该图能够说明只有讨论局部的点与点之间的几何拓扑关系,才能够获取3D点云所表示的各个局部所代表的潜在形状关系。
综上所述,笔者认为,正如论文在问题提出中的思路,基于关键的先验知识和对于当前问题研究总体进展的把握,使用一定的数学、计算理论工具对系统结构进行改进,是当前研究工作的重要思路。

论文成果

论文提出了一种根据局部点之间的几何拓扑关系作为特征进行处理的新型卷积神经网络RS-CNN(Relation-Shape Convolutional Neural Network)。该方法的关键在于对点之间的几何拓扑关系进行学习,这种学习方式能够对3D点云中存在内在意义的形状信息进行编码。

特别地,对于整体点云的每个局部的卷积都通过选取该局部点云的中心采样点和其邻居点集构建。然后,这一卷积权重结果被用于学习一般认为是低维的采样点与邻居点集之间的关系在高维度上的表征。通过这一卷积方式,我们就能够获取到对点所在的空间层面的、具有明确推理过程的感知表征。这些感知表征有区分度地反映了特定点集模式构成的潜在形状,从而实现了形状的感知。不仅如此,这些表征能够在各种几何先验知识条件下,包括置换排列的不变性、对于网格数据变换的鲁棒性(例如,旋转和偏移等)。

通过将这些卷积作为基本操作,我们能够构建出一个多层的类似于CNN的深度神经网络架构:RS-CNN。这一架构能够实现在点云分析的过程中进行语义形状感知学习。

之后,论文总结了目前取得的关键成果:

  • 提出了一个基于形状学习的新型卷积操作:形状关系卷积。它能够明确地对点之间的几何关系的进行编码,从而得到了良好的形状感知能力和鲁棒性。
  • 提出了一个通过多层形状关系卷积构建的神经网络架构RS-CNN。它能够扩展传统的CNN到为实现点云的语义形状感知学习而构造的特殊架构上。
  • 通过3种具有挑战性的性能评测以及经验性、理论性的分析,展示RS-CNN达到了行业领先的优秀性能。

论文还在接下来的相关研究(Related Work)中提到了取得以上成果所基于的行业内目前的研究成果。例如:

  • 基于3D到2D视图变换的方法、3D形状向3D表面网格变换的方法。
  • 对3D点云使用深度学习。例如PointNet、PointNet++系列框架,后者开始注意到对于局部结构特征的学习,此外还有Superpoint将点云的部分转化为几何体元,Graph Convolution Network将局部的点云绘制成平面图像进行处理,但以上研究均未考虑到局部点云中点之间的3D空间关系,还有一些将点云映射为高维空间以适应经典CNN应用的研究、以及一些对点云的几何特性例如排列不变性、3D变换的鲁棒性的研究。
  • 关系学习。通过对关系的学习进而得到数据相关的权重的研究、尤其是在3D点云中对于点之间关系的学习在业界已经获得了相当的进展,但大部分研究均没有考虑到局部点之间关系的学习,这也为本论文提出的方法提供了思路。

笔者看到,论文作者的研究方向选取是建立在对大量业内相关研究的深刻理解和分析上的。若没有对3D点云分析的整体研究方向具有如此深刻的把握,基本上很难在该领域选取到一个较好的研究方向。

这也可以在作者的GitHub仓库上看出,作者建立了一个GitHub仓库,收集了自2017年以来的点云分析的重要研究文献资料(笔者注:地址为 https://github.com/Yochengliu/awesome-point-cloud-analysis )。这说明了研读相关领域内的重要文献是科研工作的重要组成部分之一,而科研工作取得的成果也基于对前人研究的分析和思考。

算法实现

在算法实现方面,论文首先讨论了形状感知的表征学习。论文指出,点云分析的关键就在于有区分度地表示出具有鲁棒性的潜在形状。在这里我们使用基于上下文的形状感知表征学习,通过将传统的网格CNN扩展到一种新型的形状关系卷积(RS-Conv)上来达成这一目的。

pic-2

图2 RS-Conv的概要图

对于图2,论文解释如下:对于中心样本点$x_i$每一个邻居点$x_j$的卷积权重$w_{ij}$,都通过对在预设定的几何关系向量$h_{ij}$(即中心样本点$x_i$与每一个邻居点$x_j$构成的向量)得到的映射Μ中转换得到。

通过这种方式,感知卷积表征 $\sigma(A({ w_{ij}∙f_{x_j},∀x_j }))$(此处的 $f_{x_j}$ 为对于 $x_j$ 的一个特征向量,事实上就是 $x_j$ 的坐标位置等信息)就能够具有表现力地推理出每个点的空间层级,最终得到了高判别度的形状感知能力。正如在图像CNN中那样,进一步的通道数提升的映射被用来产生一个更加强大的形状感知表征。

笔者认为,如图中所示,通过通道数逐步提高的多层感知机(MLP,事实上可以认为是卷积核大小与输入大小相同的CNN)的处理,能够从低维度提取更多的细节特征到更高的维度,从而更加能够更好地识别局部点集构成的潜在形状特征。
论文进一步介绍了形状关系卷积的算法推理过程,如下所示。

建模

为了实现局部卷积的归纳学习,我们将局部点云子集$P_{sub}⊂\mathbb{R}^3$建模为一个建模为一个球形邻域,该邻域的中心点为采样点$x_i$,其余点作为$x_i$的邻居点$x_j∈N(x_i )$。在该邻域上,我们构建了一个一般性的卷积操作方法:

$$
\begin{equation}
f_{P_{sub}}=\sigma(A({ T(f_{x_j}),∀x_j })),d_{ij} < r,∀x_j∈N(x_i)
\end{equation}
$$

笔者看到,以上一般卷积操作方法中特征变换函数Τ事实上就是神经元模型中的判别函数(最简单的形式即权重向量与特征向量的点乘),该操作方法也同样具有非线性的激活函数,而与普通的神经元不同的是:聚合函数函数$A$,这一函数应当是论文为了能够将整个局部邻域的特征进行聚合从而生成一份单一特征的,从而满足将点云格式的特征转码为经典CNN能够处理的特征格式。

经典CNN的限制

在经典的网格CNN中,特征变换函数实现为:

$$Τ(f_{x_j} )=w_j∙f_{x_j}$$

其中$w_j$为学习得出的卷积权重,$f_{x_j}$为对于点$x_j$的一个特征向量,点乘符号 ∙ 表示按元素相乘。该卷积方法在点云数据上直接使用会存在两个缺陷:1)由于$w_j$不与其他点共享参数,因此该卷积对于输入点集不具有置换排列不变性。2)在反向传播中,$w_j$的梯度仅与孤立点$x_j$相关,因此该卷积难以捕捉到点间关系。

转换:基于关系的学习

为了克服上述问题,我们将卷积转换为从几何关系中学习。在方法上,我们将$w_j$替换为$w_{ij}$,并让$w_{ij}$从中心样本点$x_i$与每一个邻居点$x_j$构成的几何关系向量$h_{ij}$中学习一个高维的映射函数$M$。该过程可以描述为:

$$
\begin{equation}
Τ(f_{x_j})=w_{ij} ∙ f_{x_j}=M(h_{ij})∙f_{x_j}
\end{equation}
$$

其中,映射函数$M$的目标是从几何先验中学习一个高维的、有表现力的关系表达,以编码 3D 点集的空间布局,这里我们使用共享的多层感知机(MLP)实现映射函数$M$。以这种方式,$w_j$巧妙地转换为$w_{ij}$,它的梯度由预定义的几何先验关系向量$h_{ij}$决定,且与点$x_i$和$x_j$均几何相关。于是,公式$(1)$中的$f_{P_{sub}}$变为:

$$
\begin{equation}
f_{P_{sub}}=σ(A({M(h_{ij} )∙f_{x_j},∀x_j }))
\end{equation}
$$

该卷积方法聚集了点$x_i$和所有邻居点$x_j∈N(x_i)$之间的几何关系表达,因此可以对3D 点的空间分布进行显式的推理,进而有区分力的反映其隐含的 3D 形状。其中几何先验$h_{ij}$可以灵活设置,因为使用多层感知机实现的映射函数M能将$h_{ij}$映射为高维的关系向量,以实现与特征$f_{x_j}$进行通道对齐。

笔者看到,论文所描述的共享参数就是几何先验性地让$w_{ij}$从中心样本点$x_i$与每一个邻居点$x_j$构成的几何关系向量$h_{ij}$之中的中心样本点$x_i$。通过$w_{ij}$描述$x_i$与每一个邻居点$x_j$的关系而非$x_j$这孤立一点的权重,将局部点集所描述的整个潜在形状用$x_i$这一共享参数进行相对位置的描述,而非直接使用每一个邻居点$x_j$的绝对位置进行描述,从而从本质上赋予了这一方法置换排列不变性。

通道数提升的映射

从公式$(3)$中可以看出,$f_{P_{sub}}$对应的通道数量是等于$f_{x_j}$特征向量的。这与经典的图像CNN中,为了能够获得更加抽象的表征而降低图像分辨率,从而增加通道数量的做法不同。因此,如图2的中间部分所示,我们添加了一个基于多层感知机的通道数提升映射来实现这一方法。

之后,论文介绍了RS-Conv这一新型卷积操作的4个特性:

  • 置换排列不变性。在映射函数$M(h_{ij})$中,低维的关系$h$和多层感知机$M$都能够实现对点输入顺序的置换排列不变性,因为它们描述的是样本点与邻居点的相对位置关系,对输入顺序不敏感。再加之聚合函数$A$使用的是对称函数,能够在整体上实现置换排列不变性。
  • 对于网格变换的鲁棒性。因为低维的关系$h$描述的是基于3D欧式距离的相对位置关系,因此对于旋转、平移等变换操作具有鲁棒性。
  • 点间关系的互动。RS-Conv的方法创新性地提出了不是对一个孤立的点进行学习而是对点间关系进行学习。
  • 权重的共享,在该方法中这是一个关键的特性,通过对不同的特定点集使用相同的学习函数实现更好地鲁棒性并降低学习的复杂度。在公式$(3)$中,对称函数$A$、共享的多层感知机$M$、以及预先设定的几何先验$h$都独立于特定的点集结构的制约,满足了这一特性。

论文进一步讨论了RS-Conv在经典2D网格卷积方面进行应用的能力。

pic-3

图3 使用3×3卷积核的经典2D网格卷积示意图

如图3所示,在2D网格卷积中我们可以注意到,$w_j$总是隐含着$x_i$与$x_j$的一个固定的位置关系,也就是说,$w_j$在学习过程中同样和在RS-Conv一样受到了相对位置关系的限制,实际上编码了一种规则的网格关系。因此,论文提出的形状关系卷积方法具有通用性,同样也能够建模经典的2D网格卷积。

pic-4

图4 应用于点云分类(a)和点云物体分割(b)的RS-CNN结构。

其中N为点云中点的总数,C为通道数。

不仅如此,论文也提到了基于RS-Conv构成的多层卷积神经网络RS-CNN的结构,可以说与经典的CNN极为类似。如图4所示,在点云分类中,由于需要输出对于每一种分类的预测概率,使用了若干层全连接层;而在点云物体分割中,和经典的图像语义分割一样,对于每一层都进行的大范围的连接,从而对多层学习到的表征成功地通过特征传播方法(feature propagation)进行上采样(笔者注:unsample,上采样的作用是能够将特征点还原到源输入格式的空间,例如像素空间或3D点空间,从而达到像素、3D点级别的预测),完成逐个像素或点的预测分割操作。

最后,论文提到RS-Conv和RS-CNN的一些实现细节。

  • RS-Conv的实现。使用的激活函数依然是经典的ReLU函数。在映射函数M中,使用了三层的共享MLP来实现随机连续的映射。低纬度关系h_ij通过10通道的向量定义,格式为(3D欧式距离, $x_i-x_j$, $x_i$,$x_j$),通道数1+3+3+3=10。通道数提升映射使用了单层的MLP实现。而每一层MLP都使用了批归一化(笔者注:batch normalization,能够将每次输入的数据分布进行规范化,让其均匀分布在当前层上,从而加速神经网络的训练速度、防止过拟合)。
  • 用于点云分析的RS-CNN。采样中心点一般选取在距离点云原点最远的的点。在局部点云邻域中,固定数目的邻居点作为一个批次batch进行卷积操作,同时也采取归一化操作来保持领域的中心不变。为了能够实现高效的学习,我们强制RS-CNN学习高于3种不同尺度(笔者注:一般是不同范围上的,虽然邻域本身的球型半径相同,但是学习时选取的领域子集范围可以不同)的邻域关系,但是学习结束之后由于使用的是同一组MLP,因此分享同一份权重,因此与多尺度分组学习(Multi-Scale Grouping, MSG)针对不同尺度生成的多份权重不同。RS-CNN基于PyTorch实现,具体参数此处省略。

实验结果

为了验证RS-CNN的有效性,论文作者在在主流的点云分析任务上进行了测试,包括点云分类、部件分割和法向预测。

ModelNet40上的点云分类结果如表1所示,在仅使用3D坐标和1k个稀疏点作为输入的情况下,RS-CNN仍然实现了最佳分类效果(93.6%的精度)。
同样,如图5所示,RS-CNN在给出点数不断随机减少的过程中,分类的准确率下降速度是同类方法中最慢的。

table-1

表1 ModelNet40上的形状分类测试结果

pic-5

图5 3D点云的点数随机减少过程中不同方法的准确率变化

ShapeNet part上的部件分割效果示意图如图6所示。如表2所示,尽管点云所形成的形状多种多样,并且很容易产生混淆,RS-CNN依然可以准确地将部件分割出来。

table-2

表2 ShapeNet part上的形状部件分割测试结果

pic-6

图6 形状部件分割测试效果

ModelNet40上的法向预测结果如图7所示。与PointNet以及PointNet++相比,RS-CNN可以取得更加准确的法向预测结果,偏移程度明显较其他模型更小。尽管如此,论文表示,RS-CNN仍然难以有效推理棘手的形状,比如旋转楼梯(可以从图中看出偏移程度较大)以及错综复杂的植物。

pic-7

图7 ModelNet40上的法向预测结果

由于公式(3)中的几何先验$h_{ij}$可以灵活地定义,因此论文在ModelNet40上测试了五个比较直观的例子,结果如表6所示。

table-6

表6 不同的几何先验结构对于准确率的影响

可以看到,仅仅使用3D欧式距离作为低维几何关系(model A),RS-CNN依然能够取得92.5%的精度,这是十分令人印象深刻的。而其他的几何先验结构也同样得出了较好的精度。
此外,为了测试RS-CNN的几何形状推理能力,我们强制置零某一维的坐标值,即将3D点云投影到2D空间(model E,图9),如表12所示,得到的分类精度均接近92.2。这证明了RS-CNN不仅可以从3D点云中学习3D形状,还能从2D投影空间中推理3D形状。

pic-8

图8 将3D点云投影到XY、XZ、YZ等2D平面上

table-12

表12 识别3D点云的不同方向2D投影的准确率

为了验证所提出的RS-Conv的鲁棒性,论文设置几何先验$h_{ij}$为3D欧式距离,然后在ModelNet40上进行鲁棒性测试,结果如表7所示。
虽然几何关系能够做到旋转不变,但网络初始输入的特征仍然会受到旋转的影响。针对这一问题,我们引入法向将每一个局部点集旋转到以法向和采样点确定的局部坐标系中,实现了旋转不变。但该旋转会给形状识别带来困难,因此分类精度会有所下降。

table-7

表7 通过测试旋转、偏移等操作对于分类精度的影响

验证论文提出的RS-Conv的鲁棒性

其他的测试还有模型简化测试(Ablation Study),对于对称函数A、映射函数M的选取等,RS-CNN在以上测试中均获得了优秀的结果。此处由于篇幅限制,暂且省略。
综上,笔者看到,RS-CNN以其具有创新性的对于局部点云的点间几何关系的先验知识作为特征进行学习的优良特性,在使用了类似于经典CNN的网络结构的前提下,依然能够获得相当优良的测试结果。这体现了先验知识作为另一种研究方向的关键作用。

收获体会

阅毕全文,笔者看到,论文不同于以往研究中对于深度神经网络的层数等结构特征进行改造,而考虑了3D点云内在的几何先验知识,从而成功地针对这些几何先验知识构造出了新的卷积操作形状关系卷积RS-Conv。而且,使用这一全新卷积操作的、类似经典CNN结构的RS-CNN,能够在实验性能对比上超越相当多的对于深度神经网络结构改造的方法。

可以说,这是一次先验知识本质研究相对于经验性结构改造的成功。也正因为该方法在结构上与经典CNN类似,在一定程度上使得对于深度神经网络接触不是特别深入的笔者,在阅读论文过程中遇到的理解上的障碍相对较小。通过阅读本篇论文,笔者有以下的收获体会:

  • 一种全新的研究思路。笔者认为,论文专注于研究问题中先验知识而非经验性地改造网络结构的思路,对于其他在现有深度神经网络框架下基于复杂不规则数据问题的适配和改进工作,具有很大的启发性。本论文以3D点云特有的几何先验知识为切入点,根据先验知识的指导对经典卷积操作的进行合理改进,在使用类似经典CNN的网络结构的前提下,取得了业界领先的性能测试结果,这是一个基于先验知识改进神经网络基本结构的全新研究思路。

  • 模式识别、深度学习相关论文的基本格式和专业术语。在阅读过程中,笔者进一步巩固了之前已经了解的卷积层、全连接层、多层感知机(MLP)、批归一化(batch normalization)、激活函数、判别函数等专业术语的基本原理和功能作用,并进一步接触了一篇模式识别、深度学习顶级会议论文的基本格式:

    1) 简介Introduction提出并解释问题,回顾研究领域内的现有成果,并简要给出自己的方法;
    2) 相关研究Related Work说明了自己给出的方法是基于哪些现有研究成果;
    3) 接下来的章节应当具体描述自己给出的方法所用到的数学建模、算法推导、基本结构、特性、实现细节等,全方面地描述这一方法的实现思路;
    4) 实验测试Experiment通过具体的性能测试结果,图表文结合地来考察该方法的具体性能;
    5) 结论Conclusion总结上文的要点,通过结论来说明文首简介中提及的内容是得到准确论证的。

  • 论文写作、排版和文字表达的技巧。在阅读论文的过程中,笔者获得了较好的阅读体验,不存在过多的阅读理解上的障碍,不仅说明了论文本身提出的方法在结构上类似于经典CNN,比较容易理解,而且也说明了作者的论文写作技巧、排版技巧以及文字表达能力是十分优秀的,这也是值得笔者学习的地方。

  • 进一步深入研究的方向。笔者看到,论文仅仅是在类似经典的CNN网络结构上便取得了相当重大的成果,那么是否能够通过对神经网络的结构以及卷积单元的进一步改造从而让该方法的综合性能更上一层楼,便成为了进一步深入研究的方向。

参考资料

  1. 论文《Relation-Shape Convolutional Neural Network for Point Cloud Analysis》地址:
    https://arxiv.org/abs/1904.07601
  2. 论文作者刘永成的中文分享:
    https://mp.weixin.qq.com/s/Jso2YZs2NEtMORZsLkrJ5w
  3. 论文作者建立的2017年以来点云分析的重要研究文献资料GitHub仓库:
    https://github.com/Yochengliu/awesome-point-cloud-analysis
  4. 中文解读:
    http://www.ijiandao.com/2b/baijia/250710.html