FruitNeRF: Ein vereinheitlichtes Framework zur Fruchtzählung basierend auf Neuralen Strahlungsfeldern
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework
August 12, 2024
Autoren: Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger
cs.AI
Zusammenfassung
Wir stellen FruitNeRF vor, ein vereinheitlichtes neuartiges Fruchtzählungs-Framework, das modernste Ansichten-Synthese-Methoden nutzt, um direkt in 3D jede Art von Früchten zu zählen. Unser Framework nimmt eine ungeordnete Menge von aufgenommenen Bildern auf, die von einer monokularen Kamera erfasst wurden, und segmentiert Früchte in jedem Bild. Um unser System unabhängig von der Fruchtart zu machen, verwenden wir ein Grundlagenmodell, das binäre Segmentierungsmasken für jede Frucht generiert. Unter Verwendung beider Modalitäten, RGB und semantisch, trainieren wir ein semantisches neuronales Strahlungsfeld. Durch gleichmäßige Volumenabtastung des impliziten Fruchtfelds erhalten wir nur Fruchtpunktwolken. Durch Anwendung einer kaskadierten Clusterung auf die extrahierte Punktwolke erreicht unser Ansatz präzise Fruchtzählung. Die Verwendung von neuronalen Strahlungsfeldern bietet signifikante Vorteile gegenüber herkömmlichen Methoden wie Objektverfolgung oder optischem Fluss, da die Zählung selbst in den 3D-Raum übertragen wird. Unsere Methode verhindert das doppelte Zählen von Früchten und vermeidet das Zählen von irrelevanten Früchten. Wir evaluieren unsere Methodik anhand von sowohl realen als auch synthetischen Datensätzen. Der reale Datensatz besteht aus drei Apfelbäumen mit manuell gezählten Ground Truths, einem Benchmark-Apfeldatensatz mit einer Reihe und Ground-Truth-Fruchtstandorten, während der synthetische Datensatz verschiedene Fruchtarten wie Apfel, Pflaume, Zitrone, Birne, Pfirsich und Mango umfasst. Zusätzlich bewerten wir die Leistung der Fruchtzählung unter Verwendung des Grundlagenmodells im Vergleich zu einem U-Net.
English
We introduce FruitNeRF, a unified novel fruit counting framework that
leverages state-of-the-art view synthesis methods to count any fruit type
directly in 3D. Our framework takes an unordered set of posed images captured
by a monocular camera and segments fruit in each image. To make our system
independent of the fruit type, we employ a foundation model that generates
binary segmentation masks for any fruit. Utilizing both modalities, RGB and
semantic, we train a semantic neural radiance field. Through uniform volume
sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By
applying cascaded clustering on the extracted point cloud, our approach
achieves precise fruit count.The use of neural radiance fields provides
significant advantages over conventional methods such as object tracking or
optical flow, as the counting itself is lifted into 3D. Our method prevents
double counting fruit and avoids counting irrelevant fruit.We evaluate our
methodology using both real-world and synthetic datasets. The real-world
dataset consists of three apple trees with manually counted ground truths, a
benchmark apple dataset with one row and ground truth fruit location, while the
synthetic dataset comprises various fruit types including apple, plum, lemon,
pear, peach, and mango.Additionally, we assess the performance of fruit
counting using the foundation model compared to a U-Net.Summary
AI-Generated Summary