ChatPaper.aiChatPaper

Масштабируемое 3D-описание с использованием предобученных моделей

Scalable 3D Captioning with Pretrained Models

June 12, 2023
Авторы: Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson
cs.AI

Аннотация

Мы представляем Cap3D — автоматизированный подход для генерации описательного текста для 3D-объектов. Этот подход использует предобученные модели для создания подписей к изображениям, выравнивания изображений и текста, а также языковые модели (LLM) для объединения описаний, полученных с нескольких ракурсов 3D-актива, полностью избегая трудоемкого и дорогостоящего процесса ручной аннотации. Мы применяем Cap3D к недавно представленному крупномасштабному 3D-датасету Objaverse, получая 660 тысяч пар "3D-объект — текст". Наша оценка, проведенная с использованием 41 тысячи человеческих аннотаций из того же датасета, показывает, что Cap3D превосходит описания, созданные людьми, по качеству, стоимости и скорости. Благодаря эффективному инжинирингу промптов, Cap3D достигает уровня человеческой производительности в генерации геометрических описаний на основе 17 тысяч аннотаций из датасета ABO. Наконец, мы дообучаем модели Text-to-3D на данных Cap3D и человеческих описаниях, демонстрируя, что Cap3D превосходит их; также мы проводим сравнительный анализ с современными методами, включая Point-E, Shape-E и DreamFusion.
English
We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.
PDF150December 15, 2024