ChatPaper.aiChatPaper

iMontage: Generazione di immagini many-to-many unificata, versatile e altamente dinamica

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

November 25, 2025
Autori: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI

Abstract

I modelli video pre-addestrati apprendono prior potenti per generare contenuti di alta qualità e temporalmente coerenti. Sebbene questi modelli eccellano nella coerenza temporale, le loro dinamiche sono spesso vincolate dalla natura continua dei loro dati di addestramento. Ipotesizziamo che, iniettando la ricca e libera diversità di contenuti dei dati immagine in questo framework temporale coerente, possiamo generare set di immagini che presentino sia transizioni naturali sia una gamma dinamica molto più ampia. A tal fine, introduciamo iMontage, un framework unificato progettato per riconvertire un potente modello video in un generatore di immagini tuttofare. Il framework consuma e produce set di immagini a lunghezza variabile, unificando un'ampia gamma di task di generazione e editing di immagini. Per ottenere ciò, proponiamo una strategia di adattamento elegante e minimamente invasiva, affiancata da un processo di curatela dei dati e un paradigma di addestramento su misura. Questo approccio consente al modello di acquisire ampie capacità di manipolazione delle immagini senza corrompere i suoi preziosi prior motori originali. iMontage eccelle in diverse task many-in-many-out mainstream, mantenendo non solo una forte consistenza contestuale cross-immagine ma anche generando scene con dinamiche straordinarie che superano gli ambiti convenzionali. La nostra homepage è disponibile all'indirizzo: https://kr1sjfu.github.io/iMontage-web/.
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
PDF302December 1, 2025