ChatPaper.aiChatPaper

Schaalbare 3D-beschrijving met vooraf getrainde modellen

Scalable 3D Captioning with Pretrained Models

June 12, 2023
Auteurs: Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson
cs.AI

Samenvatting

We introduceren Cap3D, een automatische aanpak voor het genereren van beschrijvende tekst voor 3D-objecten. Deze aanpak maakt gebruik van vooraf getrainde modellen voor beeldbeschrijving, beeld-tekst-uitlijning en LLM (Large Language Models) om bijschriften vanuit meerdere perspectieven van een 3D-asset te consolideren, waardoor het tijdrovende en kostbare proces van handmatige annotatie volledig wordt omzeild. We passen Cap3D toe op de recent geïntroduceerde grootschalige 3D-dataset, Objaverse, wat resulteert in 660k 3D-tekstparen. Onze evaluatie, uitgevoerd met behulp van 41k menselijke annotaties uit dezelfde dataset, toont aan dat Cap3D menselijk geschreven beschrijvingen overtreft op het gebied van kwaliteit, kosten en snelheid. Door effectieve prompt engineering rivaliseert Cap3D menselijke prestaties bij het genereren van geometrische beschrijvingen op basis van 17k verzamelde annotaties uit de ABO-dataset. Tot slot finetunen we Text-to-3D-modellen op Cap3D en menselijke bijschriften, en laten we zien dat Cap3D beter presteert; en benchmarken we de state-of-the-art (SOTA) inclusief Point-E, Shape-E en DreamFusion.
English
We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.
PDF160February 8, 2026