Авторегрессивная генерация согласованных изображений с нескольких точек зрения
Auto-Regressively Generating Multi-View Consistent Images
June 23, 2025
Авторы: JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
cs.AI
Аннотация
Генерация многовидовых изображений на основе инструкций человека имеет ключевое значение для создания 3D-контента. Основные сложности заключаются в обеспечении согласованности между несколькими видами и эффективном синтезе форм и текстур в различных условиях. В данной работе мы предлагаем метод Multi-View Auto-Regressive (MV-AR), который использует авторегрессионную модель для постепенной генерации согласованных многовидовых изображений из произвольных запросов. Во-первых, способность модели AR предсказывать следующий токен значительно повышает её эффективность в прогрессивном синтезе многовидовых изображений. При генерации сильно разнесённых видов MV-AR может использовать все предыдущие виды для извлечения полезной справочной информации. Затем мы предлагаем унифицированную модель, которая адаптируется к различным запросам за счёт проектирования архитектуры и стратегий обучения. Для работы с множественными условиями мы вводим модули инъекции условий для текста, позы камеры, изображения и формы. Для одновременного управления многомодальными условиями применяется прогрессивная стратегия обучения. Эта стратегия сначала использует модель text-to-multi-view (t2mv) в качестве базовой для улучшения разработки всеобъемлющей модели X-to-multi-view (X2mv) путём случайного исключения и комбинирования условий. Наконец, для смягчения проблемы переобучения, вызванной ограниченным количеством высококачественных данных, мы предлагаем технику аугментации данных "Shuffle View", что значительно расширяет объём обучающих данных в несколько раз. Эксперименты демонстрируют производительность и универсальность нашей модели MV-AR, которая стабильно генерирует согласованные многовидовые изображения в различных условиях и показывает результаты, сопоставимые с ведущими моделями генерации многовидовых изображений на основе диффузии. Код и модели будут доступны по адресу https://github.com/MILab-PKU/MVAR.
English
Generating multi-view images from human instructions is crucial for 3D
content creation. The primary challenges involve maintaining consistency across
multiple views and effectively synthesizing shapes and textures under diverse
conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR)
method, which leverages an auto-regressive model to progressively generate
consistent multi-view images from arbitrary prompts. Firstly, the
next-token-prediction capability of the AR model significantly enhances its
effectiveness in facilitating progressive multi-view synthesis. When generating
widely-separated views, MV-AR can utilize all its preceding views to extract
effective reference information. Subsequently, we propose a unified model that
accommodates various prompts via architecture designing and training
strategies. To address multiple conditions, we introduce condition injection
modules for text, camera pose, image, and shape. To manage multi-modal
conditions simultaneously, a progressive training strategy is employed. This
strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to
enhance the development of a comprehensive X-to-multi-view (X2mv) model through
the randomly dropping and combining conditions. Finally, to alleviate the
overfitting problem caused by limited high-quality data, we propose the
"Shuffle View" data augmentation technique, thus significantly expanding the
training data by several magnitudes. Experiments demonstrate the performance
and versatility of our MV-AR, which consistently generates consistent
multi-view images across a range of conditions and performs on par with leading
diffusion-based multi-view image generation models. Code and models will be
released at https://github.com/MILab-PKU/MVAR.