Auto-regressief genereren van multi-view consistente afbeeldingen
Auto-Regressively Generating Multi-View Consistent Images
June 23, 2025
Auteurs: JiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu
cs.AI
Samenvatting
Het genereren van multi-view afbeeldingen op basis van menselijke instructies is cruciaal voor 3D-contentcreatie. De belangrijkste uitdagingen zijn het behouden van consistentie over meerdere views en het effectief synthetiseren van vormen en texturen onder diverse omstandigheden. In dit artikel stellen we de Multi-View Auto-Regressive (MV-AR) methode voor, die gebruikmaakt van een autoregressief model om progressief consistente multi-view afbeeldingen te genereren vanuit willekeurige prompts. Ten eerste verbetert de next-token-predictie-capaciteit van het AR-model aanzienlijk de effectiviteit bij het faciliteren van progressieve multi-view synthese. Bij het genereren van sterk gescheiden views kan MV-AR al zijn voorgaande views gebruiken om effectieve referentie-informatie te extraheren. Vervolgens stellen we een uniform model voor dat verschillende prompts ondersteunt via architectuurontwerp en trainingsstrategieën. Om meerdere condities aan te pakken, introduceren we conditie-injectiemodules voor tekst, camerapositie, afbeelding en vorm. Om multi-modale condities gelijktijdig te beheren, wordt een progressieve trainingsstrategie toegepast. Deze strategie neemt aanvankelijk het text-to-multi-view (t2mv) model als uitgangspunt om de ontwikkeling van een uitgebreid X-to-multi-view (X2mv) model te verbeteren door willekeurig condities weg te laten en te combineren. Tot slot stellen we, om het overfitting-probleem veroorzaakt door beperkte hoogwaardige data te verlichten, de "Shuffle View" data-augmentatietechniek voor, waardoor de trainingsdata aanzienlijk wordt uitgebreid met meerdere grootteordes. Experimenten tonen de prestaties en veelzijdigheid van onze MV-AR aan, die consistent multi-view afbeeldingen genereert over een reeks condities en presteert op hetzelfde niveau als toonaangevende op diffusie gebaseerde multi-view afbeeldingsgeneratiemodellen. Code en modellen worden vrijgegeven op https://github.com/MILab-PKU/MVAR.
English
Generating multi-view images from human instructions is crucial for 3D
content creation. The primary challenges involve maintaining consistency across
multiple views and effectively synthesizing shapes and textures under diverse
conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR)
method, which leverages an auto-regressive model to progressively generate
consistent multi-view images from arbitrary prompts. Firstly, the
next-token-prediction capability of the AR model significantly enhances its
effectiveness in facilitating progressive multi-view synthesis. When generating
widely-separated views, MV-AR can utilize all its preceding views to extract
effective reference information. Subsequently, we propose a unified model that
accommodates various prompts via architecture designing and training
strategies. To address multiple conditions, we introduce condition injection
modules for text, camera pose, image, and shape. To manage multi-modal
conditions simultaneously, a progressive training strategy is employed. This
strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to
enhance the development of a comprehensive X-to-multi-view (X2mv) model through
the randomly dropping and combining conditions. Finally, to alleviate the
overfitting problem caused by limited high-quality data, we propose the
"Shuffle View" data augmentation technique, thus significantly expanding the
training data by several magnitudes. Experiments demonstrate the performance
and versatility of our MV-AR, which consistently generates consistent
multi-view images across a range of conditions and performs on par with leading
diffusion-based multi-view image generation models. Code and models will be
released at https://github.com/MILab-PKU/MVAR.