Auto-regressief genereren van multi-view consistente afbeeldingen

Samenvatting

Het genereren van multi-view afbeeldingen op basis van menselijke instructies is cruciaal voor 3D-contentcreatie. De belangrijkste uitdagingen zijn het behouden van consistentie over meerdere views en het effectief synthetiseren van vormen en texturen onder diverse omstandigheden. In dit artikel stellen we de Multi-View Auto-Regressive (MV-AR) methode voor, die gebruikmaakt van een autoregressief model om progressief consistente multi-view afbeeldingen te genereren vanuit willekeurige prompts. Ten eerste verbetert de next-token-predictie-capaciteit van het AR-model aanzienlijk de effectiviteit bij het faciliteren van progressieve multi-view synthese. Bij het genereren van sterk gescheiden views kan MV-AR al zijn voorgaande views gebruiken om effectieve referentie-informatie te extraheren. Vervolgens stellen we een uniform model voor dat verschillende prompts ondersteunt via architectuurontwerp en trainingsstrategieën. Om meerdere condities aan te pakken, introduceren we conditie-injectiemodules voor tekst, camerapositie, afbeelding en vorm. Om multi-modale condities gelijktijdig te beheren, wordt een progressieve trainingsstrategie toegepast. Deze strategie neemt aanvankelijk het text-to-multi-view (t2mv) model als uitgangspunt om de ontwikkeling van een uitgebreid X-to-multi-view (X2mv) model te verbeteren door willekeurig condities weg te laten en te combineren. Tot slot stellen we, om het overfitting-probleem veroorzaakt door beperkte hoogwaardige data te verlichten, de "Shuffle View" data-augmentatietechniek voor, waardoor de trainingsdata aanzienlijk wordt uitgebreid met meerdere grootteordes. Experimenten tonen de prestaties en veelzijdigheid van onze MV-AR aan, die consistent multi-view afbeeldingen genereert over een reeks condities en presteert op hetzelfde niveau als toonaangevende op diffusie gebaseerde multi-view afbeeldingsgeneratiemodellen. Code en modellen worden vrijgegeven op https://github.com/MILab-PKU/MVAR.

English

Generating multi-view images from human instructions is crucial for 3D content creation. The primary challenges involve maintaining consistency across multiple views and effectively synthesizing shapes and textures under diverse conditions. In this paper, we propose the Multi-View Auto-Regressive (MV-AR) method, which leverages an auto-regressive model to progressively generate consistent multi-view images from arbitrary prompts. Firstly, the next-token-prediction capability of the AR model significantly enhances its effectiveness in facilitating progressive multi-view synthesis. When generating widely-separated views, MV-AR can utilize all its preceding views to extract effective reference information. Subsequently, we propose a unified model that accommodates various prompts via architecture designing and training strategies. To address multiple conditions, we introduce condition injection modules for text, camera pose, image, and shape. To manage multi-modal conditions simultaneously, a progressive training strategy is employed. This strategy initially adopts the text-to-multi-view (t2mv) model as a baseline to enhance the development of a comprehensive X-to-multi-view (X2mv) model through the randomly dropping and combining conditions. Finally, to alleviate the overfitting problem caused by limited high-quality data, we propose the "Shuffle View" data augmentation technique, thus significantly expanding the training data by several magnitudes. Experiments demonstrate the performance and versatility of our MV-AR, which consistently generates consistent multi-view images across a range of conditions and performs on par with leading diffusion-based multi-view image generation models. Code and models will be released at https://github.com/MILab-PKU/MVAR.

Auto-regressief genereren van multi-view consistente afbeeldingen

Auto-Regressively Generating Multi-View Consistent Images

Samenvatting

Support