ChatPaper.aiChatPaper

Magic123: Генерация высококачественных 3D-объектов из одного изображения с использованием 2D и 3D диффузионных априорных моделей

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

June 30, 2023
Авторы: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI

Аннотация

Мы представляем Magic123 — двухэтапный подход от грубого к детальному для генерации высококачественных текстурных 3D-мешей из одного непоставленного изображения в естественных условиях с использованием как 2D, так и 3D априорных данных. На первом этапе мы оптимизируем нейронное поле излучения для получения грубой геометрии. На втором этапе мы применяем эффективное по памяти дифференцируемое представление меша для создания высокодетализированного меша с визуально привлекательной текстурой. На обоих этапах 3D-контент обучается через контроль по опорным видам и новые виды, направляемые комбинацией 2D и 3D диффузионных априорных данных. Мы вводим единый параметр компромисса между 2D и 3D априорными данными для управления исследованием (более воображаемым) и эксплуатацией (более точным) генерируемой геометрии. Дополнительно мы используем текстовую инверсию и регуляризацию монокулярной глубины для обеспечения согласованности внешнего вида между видами и предотвращения вырожденных решений соответственно. Magic123 демонстрирует значительное улучшение по сравнению с предыдущими методами преобразования изображений в 3D, что подтверждается обширными экспериментами на синтетических тестах и разнообразных реальных изображениях. Наш код, модели и сгенерированные 3D-активы доступны по адресу https://github.com/guochengqian/Magic123.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.
PDF434December 15, 2024