Legendas Escaláveis em 3D com Modelos Pré-treinados

Resumo

Apresentamos o Cap3D, uma abordagem automática para gerar textos descritivos para objetos 3D. Essa abordagem utiliza modelos pré-treinados de legendagem de imagens, alinhamento imagem-texto e LLM (Large Language Models) para consolidar legendas a partir de múltiplas visualizações de um ativo 3D, contornando completamente o processo demorado e custoso de anotação manual. Aplicamos o Cap3D ao recentemente introduzido conjunto de dados em larga escala Objaverse, resultando em 660 mil pares de texto-3D. Nossa avaliação, conduzida com 41 mil anotações humanas do mesmo conjunto de dados, demonstra que o Cap3D supera as descrições feitas por humanos em termos de qualidade, custo e velocidade. Por meio de uma engenharia de prompts eficaz, o Cap3D rivaliza com o desempenho humano na geração de descrições geométricas em 17 mil anotações coletadas do conjunto de dados ABO. Por fim, ajustamos modelos de Texto-para-3D com legendas do Cap3D e humanas, e mostramos que o Cap3D supera; e comparamos com o estado da arte, incluindo Point-E, Shape-E e DreamFusion.

English

We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.

Legendas Escaláveis em 3D com Modelos Pré-treinados

Scalable 3D Captioning with Pretrained Models

Resumo

Support