ChatPaper.aiChatPaper

MARVEL-40M+: Многоуровневая визуальная доработка для создания контента Text-to-3D высокой точности.

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

November 26, 2024
Авторы: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
cs.AI

Аннотация

Генерация трехмерного контента высокой точности по текстовым запросам остается значительной проблемой в компьютерном зрении из-за ограниченного размера, разнообразия и глубины аннотации существующих наборов данных. Для решения этой проблемы мы представляем MARVEL-40M+, обширный набор данных с 40 миллионами текстовых аннотаций для более чем 8,9 миллиона трехмерных ресурсов, собранных из семи крупных 3D наборов данных. Наш вклад - это новая многоэтапная аннотационная платформа, которая интегрирует предварительно обученные многообзорные VLM и LLM для автоматического создания многоуровневых описаний, начиная от подробных (150-200 слов) до кратких семантических тегов (10-20 слов). Эта структура поддерживает как детализированную трехмерную реконструкцию, так и быстрое прототипирование. Кроме того, мы включаем метаданные человека из исходных наборов данных в нашу аннотационную платформу, чтобы добавить доменно-специфическую информацию в нашу аннотацию и уменьшить галлюцинации VLM. Кроме того, мы разрабатываем MARVEL-FX3D, двухэтапную платформу текст-в-3D. Мы донастраиваем Stable Diffusion с нашими аннотациями и используем предварительно обученную сеть изображения-в-3D для создания текстурированных трехмерных сеток за 15 секунд. Обширные оценки показывают, что MARVEL-40M+ значительно превосходит существующие наборы данных по качеству аннотации и лингвистическому разнообразию, достигая победных показателей 72,41% по GPT-4 и 73,40% по оценщикам-людям.
English
Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.

Summary

AI-Generated Summary

PDF214November 28, 2024