FruitNeRF: Единая нейронная радиационная область для подсчета фруктов.
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework
August 12, 2024
Авторы: Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger
cs.AI
Аннотация
Мы представляем FruitNeRF, унифицированную новую структуру подсчета фруктов, которая использует передовые методы синтеза изображений для прямого подсчета любого типа фруктов в 3D. Наша структура принимает неупорядоченный набор позированных изображений, снятых монокулярной камерой, и выделяет фрукты на каждом изображении. Чтобы сделать нашу систему независимой от типа фруктов, мы используем базовую модель, которая генерирует бинарные маски сегментации для любого фрукта. Используя обе модальности, RGB и семантическую, мы обучаем семантическое нейронное поле радиационной яркости. Через равномерную выборку объема неявного Фруктового Поля мы получаем облака точек только с фруктами. Применяя каскадное кластеризование к извлеченному облаку точек, наш подход достигает точного подсчета фруктов. Использование нейронных полей радиационной яркости обеспечивает значительные преимущества по сравнению с традиционными методами, такими как отслеживание объектов или оптический поток, поскольку сам подсчет осуществляется в 3D. Наш метод предотвращает двойной подсчет фруктов и избегает подсчета несущественных фруктов. Мы оцениваем нашу методологию, используя как реальные, так и синтетические наборы данных. Реальный набор данных состоит из трех яблонь с ручным подсчетом истинных значений, набора данных яблок с одним рядом и истинным местоположением фруктов, в то время как синтетический набор данных включает различные типы фруктов, включая яблоко, сливу, лимон, грушу, персик и манго. Кроме того, мы оцениваем производительность подсчета фруктов с использованием базовой модели по сравнению с U-Net.
English
We introduce FruitNeRF, a unified novel fruit counting framework that
leverages state-of-the-art view synthesis methods to count any fruit type
directly in 3D. Our framework takes an unordered set of posed images captured
by a monocular camera and segments fruit in each image. To make our system
independent of the fruit type, we employ a foundation model that generates
binary segmentation masks for any fruit. Utilizing both modalities, RGB and
semantic, we train a semantic neural radiance field. Through uniform volume
sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By
applying cascaded clustering on the extracted point cloud, our approach
achieves precise fruit count.The use of neural radiance fields provides
significant advantages over conventional methods such as object tracking or
optical flow, as the counting itself is lifted into 3D. Our method prevents
double counting fruit and avoids counting irrelevant fruit.We evaluate our
methodology using both real-world and synthetic datasets. The real-world
dataset consists of three apple trees with manually counted ground truths, a
benchmark apple dataset with one row and ground truth fruit location, while the
synthetic dataset comprises various fruit types including apple, plum, lemon,
pear, peach, and mango.Additionally, we assess the performance of fruit
counting using the foundation model compared to a U-Net.Summary
AI-Generated Summary