Autoregressives Erzeugen von multi-view-konsistenten Bildern
Auto-Regressively Generating Multi-View Consistent Images
June 23, 2025
Autoren: JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
cs.AI
Zusammenfassung
Die Erzeugung von Multi-View-Bildern aus menschlichen Anweisungen ist entscheidend für die 3D-Inhaltserstellung. Die Hauptherausforderungen bestehen darin, die Konsistenz über mehrere Ansichten hinweg aufrechtzuerhalten und Formen sowie Texturen effektiv unter verschiedenen Bedingungen zu synthetisieren. In diesem Artikel schlagen wir die Multi-View Auto-Regressive (MV-AR)-Methode vor, die ein autoregressives Modell nutzt, um schrittweise konsistente Multi-View-Bilder aus beliebigen Eingabeaufforderungen zu generieren. Zunächst verbessert die Next-Token-Prediction-Fähigkeit des AR-Modells dessen Effektivität bei der schrittweisen Multi-View-Synthese erheblich. Bei der Generierung weit voneinander entfernt liegender Ansichten kann MV-AR alle vorhergehenden Ansichten nutzen, um effektive Referenzinformationen zu extrahieren. Anschließend schlagen wir ein einheitliches Modell vor, das verschiedene Eingabeaufforderungen durch Architekturdesign und Trainingsstrategien berücksichtigt. Um mehrere Bedingungen zu adressieren, führen wir Condition-Injection-Module für Text, Kamerapose, Bild und Form ein. Um multimodale Bedingungen gleichzeitig zu verwalten, wird eine progressive Trainingsstrategie eingesetzt. Diese Strategie verwendet zunächst das Text-to-Multi-View (t2mv)-Modell als Baseline, um die Entwicklung eines umfassenden X-to-Multi-View (X2mv)-Modells durch das zufällige Weglassen und Kombinieren von Bedingungen zu fördern. Schließlich schlagen wir die „Shuffle View“-Datenaugmentationstechnik vor, um das Overfitting-Problem aufgrund begrenzter hochwertiger Daten zu mildern und so die Trainingsdaten erheblich zu erweitern. Experimente demonstrieren die Leistungsfähigkeit und Vielseitigkeit unseres MV-AR, das konsistente Multi-View-Bilder über eine Reihe von Bedingungen hinweg erzeugt und mit führenden diffusionsbasierten Multi-View-Bildgenerierungsmodellen gleichauf liegt. Code und Modelle werden unter https://github.com/MILab-PKU/MVAR veröffentlicht.
English
Generating multi-view images from human instructions is crucial for 3D
content creation. The primary challenges involve maintaining consistency across
multiple views and effectively synthesizing shapes and textures under diverse
conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR)
method, which leverages an auto-regressive model to progressively generate
consistent multi-view images from arbitrary prompts. Firstly, the
next-token-prediction capability of the AR model significantly enhances its
effectiveness in facilitating progressive multi-view synthesis. When generating
widely-separated views, MV-AR can utilize all its preceding views to extract
effective reference information. Subsequently, we propose a unified model that
accommodates various prompts via architecture designing and training
strategies. To address multiple conditions, we introduce condition injection
modules for text, camera pose, image, and shape. To manage multi-modal
conditions simultaneously, a progressive training strategy is employed. This
strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to
enhance the development of a comprehensive X-to-multi-view (X2mv) model through
the randomly dropping and combining conditions. Finally, to alleviate the
overfitting problem caused by limited high-quality data, we propose the
"Shuffle View" data augmentation technique, thus significantly expanding the
training data by several magnitudes. Experiments demonstrate the performance
and versatility of our MV-AR, which consistently generates consistent
multi-view images across a range of conditions and performs on par with leading
diffusion-based multi-view image generation models. Code and models will be
released at https://github.com/MILab-PKU/MVAR.