FruitNeRF: Un marco unificado de conteo de frutas basado en el Campo de Radiancia Neural.
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework
August 12, 2024
Autores: Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger
cs.AI
Resumen
Presentamos FruitNeRF, un novedoso marco unificado para contar frutas que aprovecha métodos de síntesis de vista de última generación para contar cualquier tipo de fruta directamente en 3D. Nuestro marco toma un conjunto desordenado de imágenes posicionadas capturadas por una cámara monocular y segmenta las frutas en cada imagen. Para hacer que nuestro sistema sea independiente del tipo de fruta, empleamos un modelo base que genera máscaras de segmentación binaria para cualquier fruta. Utilizando ambas modalidades, RGB y semántica, entrenamos un campo de radiance neural semántico. A través del muestreo uniforme de volumen del Campo de Frutas implícito, obtenemos nubes de puntos solo de frutas. Al aplicar un agrupamiento en cascada en la nube de puntos extraída, nuestro enfoque logra un recuento preciso de frutas. El uso de campos de radiance neurales proporciona ventajas significativas sobre métodos convencionales como el seguimiento de objetos o el flujo óptico, ya que el conteo mismo se eleva a 3D. Nuestro método evita contar dos veces la misma fruta y evita contar frutas irrelevantes. Evaluamos nuestra metodología utilizando conjuntos de datos tanto del mundo real como sintéticos. El conjunto de datos del mundo real consta de tres árboles de manzanas con verdades de referencia contadas manualmente, un conjunto de datos de referencia de manzanas con una fila y la ubicación de frutas de referencia, mientras que el conjunto de datos sintéticos comprende varios tipos de frutas, incluyendo manzana, ciruela, limón, pera, durazno y mango. Además, evaluamos el rendimiento del conteo de frutas utilizando el modelo base en comparación con un U-Net.
English
We introduce FruitNeRF, a unified novel fruit counting framework that
leverages state-of-the-art view synthesis methods to count any fruit type
directly in 3D. Our framework takes an unordered set of posed images captured
by a monocular camera and segments fruit in each image. To make our system
independent of the fruit type, we employ a foundation model that generates
binary segmentation masks for any fruit. Utilizing both modalities, RGB and
semantic, we train a semantic neural radiance field. Through uniform volume
sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By
applying cascaded clustering on the extracted point cloud, our approach
achieves precise fruit count.The use of neural radiance fields provides
significant advantages over conventional methods such as object tracking or
optical flow, as the counting itself is lifted into 3D. Our method prevents
double counting fruit and avoids counting irrelevant fruit.We evaluate our
methodology using both real-world and synthetic datasets. The real-world
dataset consists of three apple trees with manually counted ground truths, a
benchmark apple dataset with one row and ground truth fruit location, while the
synthetic dataset comprises various fruit types including apple, plum, lemon,
pear, peach, and mango.Additionally, we assess the performance of fruit
counting using the foundation model compared to a U-Net.Summary
AI-Generated Summary