FruitNeRF: Um Framework Unificado de Contagem de Frutas baseado em Campo de Radiância Neural
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework
August 12, 2024
Autores: Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger
cs.AI
Resumo
Apresentamos o FruitNeRF, um novo e unificado framework de contagem de frutas que aproveita métodos de síntese de visualização de ponta para contar qualquer tipo de fruta diretamente em 3D. Nosso framework recebe um conjunto não ordenado de imagens posicionadas capturadas por uma câmera monocular e segmenta as frutas em cada imagem. Para tornar nosso sistema independente do tipo de fruta, empregamos um modelo base que gera máscaras de segmentação binária para qualquer fruta. Utilizando ambas as modalidades, RGB e semântica, treinamos um campo de radiância neural semântico. Através da amostragem uniforme de volume do Campo de Frutas implícito, obtemos nuvens de pontos contendo apenas frutas. Aplicando um agrupamento em cascata na nuvem de pontos extraída, nosso método alcança uma contagem precisa de frutas. O uso de campos de radiância neural oferece vantagens significativas sobre métodos convencionais, como rastreamento de objetos ou fluxo óptico, uma vez que a contagem é realizada em 3D. Nosso método evita a contagem dupla de frutas e a contagem de frutas irrelevantes. Avaliamos nossa metodologia utilizando conjuntos de dados tanto do mundo real quanto sintéticos. O conjunto de dados do mundo real consiste em três macieiras com contagens manuais verdadeiras, um conjunto de dados de referência de maçã com uma linha e a localização verdadeira das frutas, enquanto o conjunto de dados sintético compreende vários tipos de frutas, incluindo maçã, ameixa, limão, pera, pêssego e manga. Além disso, avaliamos o desempenho da contagem de frutas usando o modelo base em comparação com um U-Net.
English
We introduce FruitNeRF, a unified novel fruit counting framework that
leverages state-of-the-art view synthesis methods to count any fruit type
directly in 3D. Our framework takes an unordered set of posed images captured
by a monocular camera and segments fruit in each image. To make our system
independent of the fruit type, we employ a foundation model that generates
binary segmentation masks for any fruit. Utilizing both modalities, RGB and
semantic, we train a semantic neural radiance field. Through uniform volume
sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By
applying cascaded clustering on the extracted point cloud, our approach
achieves precise fruit count.The use of neural radiance fields provides
significant advantages over conventional methods such as object tracking or
optical flow, as the counting itself is lifted into 3D. Our method prevents
double counting fruit and avoids counting irrelevant fruit.We evaluate our
methodology using both real-world and synthetic datasets. The real-world
dataset consists of three apple trees with manually counted ground truths, a
benchmark apple dataset with one row and ground truth fruit location, while the
synthetic dataset comprises various fruit types including apple, plum, lemon,
pear, peach, and mango.Additionally, we assess the performance of fruit
counting using the foundation model compared to a U-Net.Summary
AI-Generated Summary