Génération évolutive de légendes 3D avec des modèles pré-entraînés
Scalable 3D Captioning with Pretrained Models
June 12, 2023
Auteurs: Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson
cs.AI
Résumé
Nous présentons Cap3D, une approche automatique pour générer des descriptions textuelles d'objets 3D. Cette méthode exploite des modèles préentraînés issus de la génération de légendes d'images, de l'alignement image-texte et de modèles de langage (LLM) pour consolider les descriptions issues de multiples vues d'un objet 3D, évitant ainsi le processus long et coûteux de l'annotation manuelle. Nous appliquons Cap3D au récent ensemble de données 3D à grande échelle, Objaverse, produisant ainsi 660 000 paires 3D-texte. Notre évaluation, réalisée à l'aide de 41 000 annotations humaines provenant du même ensemble de données, montre que Cap3D surpasse les descriptions rédigées par des humains en termes de qualité, de coût et de rapidité. Grâce à une ingénierie de prompts efficace, Cap3D rivalise avec les performances humaines pour générer des descriptions géométriques sur 17 000 annotations collectées à partir du jeu de données ABO. Enfin, nous affinons des modèles de génération de texte-à-3D sur les descriptions de Cap3D et celles rédigées par des humains, et démontrons que Cap3D surpasse ces dernières ; nous comparons également Cap3D aux modèles de pointe, notamment Point-E, Shape-E et DreamFusion.
English
We introduce Cap3D, an automatic approach for generating descriptive text for
3D objects. This approach utilizes pretrained models from image captioning,
image-text alignment, and LLM to consolidate captions from multiple views of a
3D asset, completely side-stepping the time-consuming and costly process of
manual annotation. We apply Cap3D to the recently introduced large-scale 3D
dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted
using 41k human annotations from the same dataset, demonstrates that Cap3D
surpasses human-authored descriptions in terms of quality, cost, and speed.
Through effective prompt engineering, Cap3D rivals human performance in
generating geometric descriptions on 17k collected annotations from the ABO
dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions,
and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E,
and DreamFusion.