MeshFleet: Отфильтрованный и аннотированный 3D-набор данных транспортных средств для предметно-ориентированного генеративного моделирования
MeshFleet: Filtered and Annotated 3D Vehicle Dataset for Domain Specific Generative Modeling
March 18, 2025
Авторы: Damian Boborzi, Phillip Mueller, Jonas Emrich, Dominik Schmid, Sebastian Mueller, Lars Mikelsons
cs.AI
Аннотация
Генеративные модели в последнее время достигли значительных успехов в области работы с 3D-объектами. Однако их практическое применение в таких областях, как инженерия, остается ограниченным, поскольку они не обеспечивают необходимой точности, качества и управляемости для задач, специфичных для этих областей. Тонкая настройка крупных генеративных моделей представляет собой перспективное направление для их внедрения в такие сферы. Создание высококачественных, специализированных 3D-наборов данных имеет ключевое значение для тонкой настройки крупных генеративных моделей, однако процесс фильтрации и аннотирования данных остается серьезным препятствием. Мы представляем MeshFleet — отфильтрованный и аннотированный набор данных 3D-моделей транспортных средств, извлеченный из Objaverse-XL, самой обширной общедоступной коллекции 3D-объектов. Наш подход предлагает конвейер автоматической фильтрации данных на основе классификатора качества. Этот классификатор обучается на вручную размеченном подмножестве Objaverse, используя эмбеддинги DINOv2 и SigLIP, уточненные с помощью анализа на основе подписей и оценки неопределенности. Мы демонстрируем эффективность нашего метода фильтрации посредством сравнительного анализа с методами, основанными на подписях и эстетических оценках изображений, а также экспериментов по тонкой настройке с использованием SV3D, подчеркивая важность целенаправленного отбора данных для специализированного 3D-генеративного моделирования.
English
Generative models have recently made remarkable progress in the field of 3D
objects. However, their practical application in fields like engineering
remains limited since they fail to deliver the accuracy, quality, and
controllability needed for domain-specific tasks. Fine-tuning large generative
models is a promising perspective for making these models available in these
fields. Creating high-quality, domain-specific 3D datasets is crucial for
fine-tuning large generative models, yet the data filtering and annotation
process remains a significant bottleneck. We present MeshFleet, a filtered and
annotated 3D vehicle dataset extracted from Objaverse-XL, the most extensive
publicly available collection of 3D objects. Our approach proposes a pipeline
for automated data filtering based on a quality classifier. This classifier is
trained on a manually labeled subset of Objaverse, incorporating DINOv2 and
SigLIP embeddings, refined through caption-based analysis and uncertainty
estimation. We demonstrate the efficacy of our filtering method through a
comparative analysis against caption and image aesthetic score-based techniques
and fine-tuning experiments with SV3D, highlighting the importance of targeted
data selection for domain-specific 3D generative modeling.Summary
AI-Generated Summary