Skalierbare 3D-Beschriftung mit vortrainierten Modellen
Scalable 3D Captioning with Pretrained Models
June 12, 2023
Autoren: Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson
cs.AI
Zusammenfassung
Wir stellen Cap3D vor, einen automatischen Ansatz zur Generierung beschreibender Texte für 3D-Objekte. Dieser Ansatz nutzt vortrainierte Modelle aus den Bereichen Bildbeschreibung, Bild-Text-Ausrichtung und LLM (Large Language Models), um Beschreibungen aus mehreren Ansichten eines 3D-Assets zu konsolidieren, wodurch der zeitaufwändige und kostspielige Prozess der manuellen Annotation vollständig umgangen wird. Wir wenden Cap3D auf den kürzlich eingeführten groß angelegten 3D-Datensatz Objaverse an, was zu 660.000 3D-Text-Paaren führt. Unsere Evaluierung, die mit 41.000 menschlichen Annotationen aus demselben Datensatz durchgeführt wurde, zeigt, dass Cap3D von Menschen verfasste Beschreibungen in Bezug auf Qualität, Kosten und Geschwindigkeit übertrifft. Durch effektives Prompt-Engineering erreicht Cap3D eine vergleichbare Leistung wie Menschen bei der Generierung geometrischer Beschreibungen auf Basis von 17.000 gesammelten Annotationen aus dem ABO-Datensatz. Schließlich finetunen wir Text-to-3D-Modelle mit Cap3D und menschlichen Beschreibungen und zeigen, dass Cap3D überlegen ist; zudem benchmarken wir den State-of-the-Art, einschließlich Point-E, Shape-E und DreamFusion.
English
We introduce Cap3D, an automatic approach for generating descriptive text for
3D objects. This approach utilizes pretrained models from image captioning,
image-text alignment, and LLM to consolidate captions from multiple views of a
3D asset, completely side-stepping the time-consuming and costly process of
manual annotation. We apply Cap3D to the recently introduced large-scale 3D
dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted
using 41k human annotations from the same dataset, demonstrates that Cap3D
surpasses human-authored descriptions in terms of quality, cost, and speed.
Through effective prompt engineering, Cap3D rivals human performance in
generating geometric descriptions on 17k collected annotations from the ABO
dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions,
and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E,
and DreamFusion.