MeshFleet : Ensemble de données 3D de véhicules filtré et annoté pour la modélisation générative spécifique au domaine
MeshFleet: Filtered and Annotated 3D Vehicle Dataset for Domain Specific Generative Modeling
March 18, 2025
Auteurs: Damian Boborzi, Phillip Mueller, Jonas Emrich, Dominik Schmid, Sebastian Mueller, Lars Mikelsons
cs.AI
Résumé
Les modèles génératifs ont récemment réalisé des progrès remarquables dans le domaine des objets 3D. Cependant, leur application pratique dans des domaines comme l'ingénierie reste limitée, car ils ne parviennent pas à fournir la précision, la qualité et la contrôlabilité nécessaires pour des tâches spécifiques à ces domaines. L'affinage de grands modèles génératifs représente une perspective prometteuse pour rendre ces modèles utilisables dans ces domaines. La création de jeux de données 3D de haute qualité et spécifiques à un domaine est cruciale pour l'affinage de grands modèles génératifs, mais le processus de filtrage et d'annotation des données reste un goulot d'étranglement majeur. Nous présentons MeshFleet, un jeu de données 3D de véhicules filtré et annoté, extrait d'Objaverse-XL, la plus vaste collection publique d'objets 3D. Notre approche propose un pipeline de filtrage automatisé des données basé sur un classifieur de qualité. Ce classifieur est entraîné sur un sous-ensemble d'Objaverse annoté manuellement, incorporant des embeddings DINOv2 et SigLIP, affinés par une analyse basée sur les légendes et une estimation de l'incertitude. Nous démontrons l'efficacité de notre méthode de filtrage à travers une analyse comparative avec des techniques basées sur les légendes et les scores esthétiques d'images, ainsi que des expériences d'affinage avec SV3D, mettant en lumière l'importance d'une sélection ciblée des données pour la modélisation générative 3D spécifique à un domaine.
English
Generative models have recently made remarkable progress in the field of 3D
objects. However, their practical application in fields like engineering
remains limited since they fail to deliver the accuracy, quality, and
controllability needed for domain-specific tasks. Fine-tuning large generative
models is a promising perspective for making these models available in these
fields. Creating high-quality, domain-specific 3D datasets is crucial for
fine-tuning large generative models, yet the data filtering and annotation
process remains a significant bottleneck. We present MeshFleet, a filtered and
annotated 3D vehicle dataset extracted from Objaverse-XL, the most extensive
publicly available collection of 3D objects. Our approach proposes a pipeline
for automated data filtering based on a quality classifier. This classifier is
trained on a manually labeled subset of Objaverse, incorporating DINOv2 and
SigLIP embeddings, refined through caption-based analysis and uncertainty
estimation. We demonstrate the efficacy of our filtering method through a
comparative analysis against caption and image aesthetic score-based techniques
and fine-tuning experiments with SV3D, highlighting the importance of targeted
data selection for domain-specific 3D generative modeling.Summary
AI-Generated Summary