ChatPaper.aiChatPaper

FruitNeRF:ニューラルラジアンスフィールドに基づく果実計数の統合フレームワーク

FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework

August 12, 2024
著者: Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger
cs.AI

要旨

本論文では、FruitNeRFという統一的な果実計数フレームワークを紹介します。このフレームワークは、最先端の視点合成手法を活用し、任意の果実タイプを直接3D空間で計数します。本フレームワークは、単眼カメラで撮影されたポーズ付き画像の無秩序なセットを入力とし、各画像内の果実をセグメンテーションします。果実タイプに依存しないシステムを実現するため、任意の果実に対して二値セグメンテーションマスクを生成するファウンデーションモデルを採用しています。RGBとセマンティックの両モダリティを活用し、セマンティックニューラルラジアンスフィールドを学習します。暗黙的なFruit Fieldを均一な体積サンプリングすることで、果実のみの点群を取得します。抽出された点群にカスケードクラスタリングを適用することで、正確な果実計数を実現します。ニューラルラジアンスフィールドの使用は、オブジェクトトラッキングやオプティカルフローといった従来手法に対して大きな利点を提供します。なぜなら、計数そのものが3D空間に持ち上げられるからです。本手法は、果実の二重計数を防ぎ、無関係な果実の計数を回避します。本手法は、実世界データセットと合成データセットの両方を用いて評価を行いました。実世界データセットは、手動で計数されたグラウンドトゥルースを持つ3本のリンゴの木と、1列分のリンゴとその果実位置のグラウンドトゥルースを持つベンチマークリンゴデータセットで構成されています。一方、合成データセットは、リンゴ、プラム、レモン、梨、桃、マンゴーなど様々な果実タイプを含んでいます。さらに、ファウンデーションモデルとU-Netを用いた果実計数の性能を比較評価しました。
English
We introduce FruitNeRF, a unified novel fruit counting framework that leverages state-of-the-art view synthesis methods to count any fruit type directly in 3D. Our framework takes an unordered set of posed images captured by a monocular camera and segments fruit in each image. To make our system independent of the fruit type, we employ a foundation model that generates binary segmentation masks for any fruit. Utilizing both modalities, RGB and semantic, we train a semantic neural radiance field. Through uniform volume sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By applying cascaded clustering on the extracted point cloud, our approach achieves precise fruit count.The use of neural radiance fields provides significant advantages over conventional methods such as object tracking or optical flow, as the counting itself is lifted into 3D. Our method prevents double counting fruit and avoids counting irrelevant fruit.We evaluate our methodology using both real-world and synthetic datasets. The real-world dataset consists of three apple trees with manually counted ground truths, a benchmark apple dataset with one row and ground truth fruit location, while the synthetic dataset comprises various fruit types including apple, plum, lemon, pear, peach, and mango.Additionally, we assess the performance of fruit counting using the foundation model compared to a U-Net.

Summary

AI-Generated Summary

PDF182November 28, 2024