ChatPaper.aiChatPaper

Escalabilidad en la Generación de Descripciones 3D con Modelos Preentrenados

Scalable 3D Captioning with Pretrained Models

June 12, 2023
Autores: Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson
cs.AI

Resumen

Presentamos Cap3D, un enfoque automático para generar texto descriptivo para objetos 3D. Este método utiliza modelos preentrenados de generación de subtítulos para imágenes, alineación imagen-texto y LLM (Modelos de Lenguaje de Gran Escala) para consolidar descripciones a partir de múltiples vistas de un activo 3D, evitando por completo el proceso lento y costoso de la anotación manual. Aplicamos Cap3D al recientemente introducido conjunto de datos a gran escala Objaverse, obteniendo 660k pares de texto-3D. Nuestra evaluación, realizada utilizando 41k anotaciones humanas del mismo conjunto de datos, demuestra que Cap3D supera las descripciones creadas por humanos en términos de calidad, costo y velocidad. Mediante una ingeniería de prompts efectiva, Cap3D rivaliza con el rendimiento humano en la generación de descripciones geométricas sobre 17k anotaciones recopiladas del conjunto de datos ABO. Finalmente, ajustamos modelos de Texto-a-3D con Cap3D y descripciones humanas, mostrando que Cap3D supera a estas; y comparamos con el estado del arte, incluyendo Point-E, Shape-E y DreamFusion.
English
We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.
PDF150December 15, 2024