ChatPaper.aiChatPaper

iMontage : Génération d'images many-to-many unifiée, polyvalente et hautement dynamique

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

November 25, 2025
papers.authors: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI

papers.abstract

Les modèles vidéo pré-entraînés acquièrent des connaissances préalables puissantes pour générer un contenu de haute qualité et temporellement cohérent. Bien que ces modèles excellent en cohérence temporelle, leur dynamique est souvent limitée par la nature continue de leurs données d'entraînement. Nous émettons l'hypothèse qu'en injectant la riche diversité de contenu sans contrainte des données d'image dans ce cadre temporel cohérent, nous pouvons générer des ensembles d'images présentant à la fois des transitions naturelles et une plage dynamique considérablement plus étendue. À cette fin, nous présentons iMontage, un cadre unifié conçu pour reconvertir un modèle vidéo performant en un générateur d'images tout-en-un. Ce framework consomme et produit des ensembles d'images de longueur variable, unifiant une large gamme de tâches de génération et d'édition d'images. Pour y parvenir, nous proposons une stratégie d'adaptation élégante et minimalement invasive, complétée par un processus de curation de données et un paradigme d'entraînement spécifiques. Cette approche permet au modèle d'acquérir de vastes capacités de manipulation d'images sans altérer ses précieuses connaissances préalables sur le mouvement. iMontage excelle dans plusieurs tâches principales de type "plusieurs entrées - plusieurs sorties", maintenant non seulement une forte cohérence contextuelle inter-images mais aussi générant des scènes aux dynamiques extraordinaires dépassant les cadres conventionnels. Consultez notre page d'accueil à l'adresse : https://kr1sjfu.github.io/iMontage-web/.
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
PDF302December 1, 2025