ChatPaper.aiChatPaper

Captioning 3D Scalabile con Modelli Pre-addestrati

Scalable 3D Captioning with Pretrained Models

June 12, 2023
Autori: Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson
cs.AI

Abstract

Presentiamo Cap3D, un approccio automatico per la generazione di testo descrittivo per oggetti 3D. Questo metodo utilizza modelli pre-addestrati per la generazione di didascalie da immagini, l'allineamento immagine-testo e LLM (Large Language Models) per consolidare le descrizioni ottenute da più viste di un asset 3D, bypassando completamente il processo dispendioso in termini di tempo e costi dell'annotazione manuale. Abbiamo applicato Cap3D al recente dataset su larga scala di oggetti 3D, Objaverse, ottenendo 660k coppie 3D-testo. La nostra valutazione, condotta utilizzando 41k annotazioni umane dello stesso dataset, dimostra che Cap3D supera le descrizioni create manualmente in termini di qualità, costo e velocità. Attraverso un'ingegnerizzazione efficace dei prompt, Cap3D rivaleggia con le prestazioni umane nella generazione di descrizioni geometriche su 17k annotazioni raccolte dal dataset ABO. Infine, abbiamo ottimizzato modelli Text-to-3D su Cap3D e su didascalie umane, dimostrando che Cap3D offre prestazioni superiori; e abbiamo confrontato i risultati con lo stato dell'arte, inclusi Point-E, Shape-E e DreamFusion.
English
We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.
PDF160February 8, 2026