【3D点群処理】RandLA-Netを理解する

2023年5月12日

1. サマリー
2. RandLA-Netのアーキテクチャ
3. RandLA-Netの特徴
4. RandLA-Netの効率性
- 4.1. SemanticKITTIデータセットを用いたRandLA-Net の検証結果
5. セマンティックセグメンテーションのベンチマーク
- 5.1. Semantic3D
- 5.2. SemanticKITTI
6. まとめ
7. おすすめ参考書

サマリー

RandA-Netとは大規模3次元点群データでセマンティックセグメンテーションを行うためのシンプルで効率的なモデル

Paper: https://arxiv.org/abs/1911.11236

Git : https://github.com/QingyongHu/RandLA-Net

●長所
　・メモリ使用量が少なく、計算効率が高いのでリアルタイムに使用できる
　・ランダムサンプリングを用いた大規模点群の効率的な処理方法

・ローカルアグリゲーションモジュールは、オブジェクトの幾何学的構造を維持するために重要な技術
　・Semantic Kittiデータセットでは、360度ビューで23fps

● 短所
　・小規模な点群では精度が著しく低下する。
　・ランダムサンプリングモジュールは、小規模な点群では効率が悪い
　・小規模な点群でも高いfpsを得ることができるが、精度とトレードオフになる

RandLA-Netのアーキテクチャ

RandLA-Netでは、ランダムサンプリングというシンプルで高速な手法で点密度を大幅に低下させる一方、局所的な特徴量の集約を慎重に行い、目立つ特徴量を保持することを提案した。
これにより、ネットワーク全体が効率と効果の間の優れたトレードオフを達成することができる。

RandLA-Netの特徴

・ネットワーク内のランダムサンプリング (RS) にのみ依存するため、メモリや計算量が大幅に削減される。

・提案する局所特徴集約器 (LFA/LA) は、局所的な空間関係と点特徴を明示的に考慮することにより、連続的に大きな受容野を得ることができ、複雑な局所パターンの学習に対してより有効かつ頑健である。

・グラフ構築やカーネル化などの高価な演算に頼らず、ネットワーク全体が共有MLPのみで構成されているため大規模点群に対して優れた効率性を発揮する。

Local Feature Aggregation (LocSE)

各点はXYZの位置座標とd次元の特徴量 (RGBや中間の特徴)

図では黄色で示されているのが特徴量、緑色で示されているのが位置座標である。

LocSEでは以下の処理を行う。

・近傍点探索 (図の中央部分の処理)
i番目の点に対してk nearest Neighborを使って近傍点を探索する。

・相対点位置の符号化 Relative Point Position Encoding (図の中央上部分の処理)
点の近傍点k のそれぞれについて、以下の式を用いて符号化する。

・点特徴量の補強 (図の右部分の処理)
符号化した点と特徴をまとめてf^ki次元ベクトルを出力する。

Attentive pooling

Attentive PoolingはLocSEOの出力を集約する。
与えられた局所特徴量に対して、共有関数g()を設計し、以下の式で定義されるソフトマックス関数を用いて独自のアテンションスコアが学習される。

ただし, WはMLPの学習パラメータで, 式の通りkやiに依存しない (パラメータ共有してる)
その後、アテンションスコアは、以下の式を用いて合計される。

Dilated Residual Block

Resnetアーキテクチャのアイデアを取り入れ、複数のLocSE、Attentive Pooling、スキップ接続を接続し、図に示すようなDilated Residual Block を形成する。

RandLA-Netの効率性

SemanticKITTIデータセットを用いたRandLA-Net の検証結果

・SPGは、モデルパラメータが最も少ないが、最も時間がかかる。幾何学的分割やスーパーグラフ構築などのステップの計算コストが比較的高いためである。

・PointNet++、 PointCNNも時間がかかる。主な理由は大きなシーン点群を扱う場合、FPSに時間がかかるため。

・PointNetとPConvは一度に大規模な点群を扱うことができない。 PointNetはダウンサンプリング処理がなく、KPConvはモデルがより複雑であるため。

・RandLA-Netは、シンプルなランダムサンプリングとMLPに基づく効率的な局所特徴集約モジュールのおかげで、最も時間がかからず(~23フレーム/秒) 一度に最大10^6の点群を処理することができる。

セマンティックセグメンテーションのベンチマーク

Semantic3D

RandLA-Netは他のアーキテクチャと比較して、総合的なmIOUで優れた結果を出していることがわかる。

SemanticKITTI

RandLA-Netは、mloU をみるとどのモデルよりも良い結果となっている。特にPontCloudベースのアプローチを大きく上回っている。
DarkNetと比較するとmloUに大きな差はないが、これはDarkNetが交通標識などの小さなオブジェクトカテゴリで良い結果を出していることが大きく影響している。