FruitNeRF: Un Framework Unificato per il Conteggio della Frutta Basato su Campi di Radianza Neurale
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework
August 12, 2024
Autori: Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger
cs.AI
Abstract
Presentiamo FruitNeRF, un framework unificato e innovativo per il conteggio dei frutti che sfrutta metodi all'avanguardia di sintesi delle viste per contare qualsiasi tipo di frutto direttamente in 3D. Il nostro framework prende in input un insieme non ordinato di immagini con pose note, acquisite da una camera monoculare, e segmenta i frutti in ciascuna immagine. Per rendere il nostro sistema indipendente dal tipo di frutto, utilizziamo un modello di base che genera maschere di segmentazione binaria per qualsiasi frutto. Utilizzando entrambe le modalità, RGB e semantica, addestriamo un campo di radianza neurale semantico. Attraverso un campionamento uniforme del volume del campo implicito Fruit Field, otteniamo nuvole di punti contenenti solo frutti. Applicando un clustering a cascata sulla nuvola di punti estratta, il nostro approccio raggiunge un conteggio preciso dei frutti. L'uso dei campi di radianza neurale offre vantaggi significativi rispetto ai metodi convenzionali come il tracciamento degli oggetti o il flusso ottico, poiché il conteggio stesso viene elevato in 3D. Il nostro metodo previene il doppio conteggio dei frutti ed evita di contare frutti irrilevanti. Valutiamo la nostra metodologia utilizzando sia dataset reali che sintetici. Il dataset reale è composto da tre meli con conteggi manuali come verità di base, un dataset di riferimento di mele con una fila e posizioni dei frutti note, mentre il dataset sintetico comprende vari tipi di frutti tra cui mela, prugna, limone, pera, pesca e mango. Inoltre, valutiamo le prestazioni del conteggio dei frutti utilizzando il modello di base rispetto a una U-Net.
English
We introduce FruitNeRF, a unified novel fruit counting framework that
leverages state-of-the-art view synthesis methods to count any fruit type
directly in 3D. Our framework takes an unordered set of posed images captured
by a monocular camera and segments fruit in each image. To make our system
independent of the fruit type, we employ a foundation model that generates
binary segmentation masks for any fruit. Utilizing both modalities, RGB and
semantic, we train a semantic neural radiance field. Through uniform volume
sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By
applying cascaded clustering on the extracted point cloud, our approach
achieves precise fruit count.The use of neural radiance fields provides
significant advantages over conventional methods such as object tracking or
optical flow, as the counting itself is lifted into 3D. Our method prevents
double counting fruit and avoids counting irrelevant fruit.We evaluate our
methodology using both real-world and synthetic datasets. The real-world
dataset consists of three apple trees with manually counted ground truths, a
benchmark apple dataset with one row and ground truth fruit location, while the
synthetic dataset comprises various fruit types including apple, plum, lemon,
pear, peach, and mango.Additionally, we assess the performance of fruit
counting using the foundation model compared to a U-Net.