MeshFleet: Conjunto de datos de vehículos 3D filtrados y anotados para modelado generativo específico de dominio
MeshFleet: Filtered and Annotated 3D Vehicle Dataset for Domain Specific Generative Modeling
March 18, 2025
Autores: Damian Boborzi, Phillip Mueller, Jonas Emrich, Dominik Schmid, Sebastian Mueller, Lars Mikelsons
cs.AI
Resumen
Los modelos generativos han logrado avances notables recientemente en el campo de los objetos 3D. Sin embargo, su aplicación práctica en áreas como la ingeniería sigue siendo limitada, ya que no alcanzan la precisión, calidad y controlabilidad necesarias para tareas específicas del dominio. El ajuste fino de modelos generativos de gran escala representa una perspectiva prometedora para hacer que estos modelos estén disponibles en estos campos. La creación de conjuntos de datos 3D de alta calidad y específicos del dominio es crucial para el ajuste fino de modelos generativos grandes, aunque el proceso de filtrado y anotación de datos sigue siendo un cuello de botella significativo. Presentamos MeshFleet, un conjunto de datos de vehículos 3D filtrado y anotado, extraído de Objaverse-XL, la colección de objetos 3D más extensa disponible públicamente. Nuestro enfoque propone una canalización para el filtrado automatizado de datos basado en un clasificador de calidad. Este clasificador se entrena en un subconjunto etiquetado manualmente de Objaverse, incorporando incrustaciones de DINOv2 y SigLIP, refinadas mediante análisis basado en descripciones y estimación de incertidumbre. Demostramos la eficacia de nuestro método de filtrado a través de un análisis comparativo frente a técnicas basadas en puntuaciones estéticas de imágenes y descripciones, así como experimentos de ajuste fino con SV3D, destacando la importancia de la selección de datos dirigida para el modelado generativo 3D específico del dominio.
English
Generative models have recently made remarkable progress in the field of 3D
objects. However, their practical application in fields like engineering
remains limited since they fail to deliver the accuracy, quality, and
controllability needed for domain-specific tasks. Fine-tuning large generative
models is a promising perspective for making these models available in these
fields. Creating high-quality, domain-specific 3D datasets is crucial for
fine-tuning large generative models, yet the data filtering and annotation
process remains a significant bottleneck. We present MeshFleet, a filtered and
annotated 3D vehicle dataset extracted from Objaverse-XL, the most extensive
publicly available collection of 3D objects. Our approach proposes a pipeline
for automated data filtering based on a quality classifier. This classifier is
trained on a manually labeled subset of Objaverse, incorporating DINOv2 and
SigLIP embeddings, refined through caption-based analysis and uncertainty
estimation. We demonstrate the efficacy of our filtering method through a
comparative analysis against caption and image aesthetic score-based techniques
and fine-tuning experiments with SV3D, highlighting the importance of targeted
data selection for domain-specific 3D generative modeling.Summary
AI-Generated Summary