ChatPaper.aiChatPaper

iMontage: Uniforme, veelzijdige, zeer dynamische veel-op-veel beeldgeneratie

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

November 25, 2025
Auteurs: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI

Samenvatting

Voorgetrainde videomodellen leren krachtige a priori kennis voor het genereren van hoogwaardige, temporeel coherente content. Hoewel deze modellen uitblinken in temporele coherentie, worden hun dynamieken vaak beperkt door het continue karakter van hun trainingsdata. Wij veronderstellen dat door de rijke en onbeperkte contentdiversiteit van beeldgegevens in dit coherente temporele raamwerk te injecteren, we beeldenreeksen kunnen genereren die zowel natuurlijke overgangen vertonen als een aanzienlijk uitgebreider dynamisch bereik. Hiertoe introduceren we iMontage, een uniform raamwerk ontworpen om een krachtig videomodel om te vormen tot een alles-in-één beeldgenerator. Het raamwerk verwerkt en produceert beeldenreeksen van variabele lengte, en verenigt een breed scala aan beeldgeneratie- en bewerkingstaken. Om dit te bereiken, stellen we een elegante en minimaal invasieve aanpassingsstrategie voor, aangevuld met een op maat gemaakte datacuratieprocedure en trainingsparadigma. Deze aanpak stelt het model in staat brede beeldmanipulatiecapaciteiten te verwerven zonder zijn onschatbare oorspronkelijke bewegingspriors aan te tasten. iMontage presteert uitstekend bij diverse gangbare many-in-many-out taken, waarbij het niet alleen sterke contextuele consistentie tussen beelden behoudt, maar ook scènes genereert met buitengewone dynamiek die conventionele kaders overstijgt. Onze homepage vindt u op: https://kr1sjfu.github.io/iMontage-web/.
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
PDF302December 1, 2025