FruitNeRF: Een Geünificeerd Fruit Telraamwerk Gebaseerd op Neurale Radiance Velden
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework
August 12, 2024
Auteurs: Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger
cs.AI
Samenvatting
We introduceren FruitNeRF, een geïntegreerd raamwerk voor het tellen van fruit dat gebruikmaakt van state-of-the-art methoden voor viewsynthese om elk fruittype direct in 3D te tellen. Ons raamwerk neemt een ongeordende set van gepositioneerde afbeeldingen, gemaakt door een monoculaire camera, en segmenteert fruit in elke afbeelding. Om ons systeem onafhankelijk te maken van het fruittype, gebruiken we een foundation model dat binaire segmentatiemaskers genereert voor elk fruit. Door beide modaliteiten, RGB en semantiek, te benutten, trainen we een semantisch neural radiance field. Via uniforme volumesampling van het impliciete Fruit Field verkrijgen we puntenwolken die alleen fruit bevatten. Door cascaded clustering toe te passen op de geëxtraheerde puntenwolk, bereikt onze aanpak een nauwkeurige fruittelling. Het gebruik van neural radiance fields biedt aanzienlijke voordelen ten opzichte van conventionele methoden zoals objecttracking of optische flow, omdat het tellen zelf in 3D plaatsvindt. Onze methode voorkomt dubbeltelling van fruit en vermijdt het tellen van irrelevant fruit. We evalueren onze methodologie met behulp van zowel real-world als synthetische datasets. De real-world dataset bestaat uit drie appelbomen met handmatig getelde grondwaarden, een benchmark-appeldataset met één rij en grondwaarde fruitleveringen, terwijl de synthetische dataset verschillende fruittypes omvat, waaronder appel, pruim, citroen, peer, perzik en mango. Daarnaast beoordelen we de prestaties van fruittelling met behulp van het foundation model in vergelijking met een U-Net.
English
We introduce FruitNeRF, a unified novel fruit counting framework that
leverages state-of-the-art view synthesis methods to count any fruit type
directly in 3D. Our framework takes an unordered set of posed images captured
by a monocular camera and segments fruit in each image. To make our system
independent of the fruit type, we employ a foundation model that generates
binary segmentation masks for any fruit. Utilizing both modalities, RGB and
semantic, we train a semantic neural radiance field. Through uniform volume
sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By
applying cascaded clustering on the extracted point cloud, our approach
achieves precise fruit count.The use of neural radiance fields provides
significant advantages over conventional methods such as object tracking or
optical flow, as the counting itself is lifted into 3D. Our method prevents
double counting fruit and avoids counting irrelevant fruit.We evaluate our
methodology using both real-world and synthetic datasets. The real-world
dataset consists of three apple trees with manually counted ground truths, a
benchmark apple dataset with one row and ground truth fruit location, while the
synthetic dataset comprises various fruit types including apple, plum, lemon,
pear, peach, and mango.Additionally, we assess the performance of fruit
counting using the foundation model compared to a U-Net.