ChatPaper.aiChatPaper

iMontage: Einheitliche, vielseitige und hochdynamische Viele-zu-viele-Bildgenerierung

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

November 25, 2025
papers.authors: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI

papers.abstract

Vortrainierte Videomodelle erlernen leistungsfähige A-priori-Informationen zur Erzeugung hochwertiger, zeitlich kohärenter Inhalte. Obwohl diese Modelle in puncto zeitlicher Kohärenz überzeugen, sind ihre Dynamiken häufig durch die kontinuierliche Natur ihrer Trainingsdaten eingeschränkt. Wir stellen die Hypothese auf, dass wir durch die Integration der reichen und uneingeschränkten Inhaltsvielfalt von Bilddaten in diesen kohärenten zeitlichen Rahmen Bildsätze erzeugen können, die sowohl natürliche Übergänge als auch eine deutlich erweiterte dynamische Bandbreite aufweisen. Zu diesem Zweck führen wir iMontage ein, einen einheitlichen Rahmen, der entwickelt wurde, um ein leistungsstarkes Videomodell in einen All-in-One-Bildgenerator umzuwidmen. Das Framework verarbeitet und erzeugt Bildsätze variabler Länge und vereint so eine Vielzahl von Bildgenerierungs- und Bearbeitungsaufgaben. Um dies zu erreichen, schlagen wir eine elegante und minimalinvasive Adaptionsstrategie vor, ergänzt durch einen maßgeschneiderten Datenkuratierungsprozess und Trainingsparadigma. Dieser Ansatz ermöglicht es dem Modell, umfassende Bildbearbeitungsfähigkeiten zu erwerben, ohne seine wertvollen ursprünglichen Bewegungs-Priors zu beeinträchtigen. iMontage überzeugt bei mehreren gängigen Many-in-Many-out-Aufgaben, indem es nicht nur eine hohe kontextuelle Konsistenz zwischen den Bildern beibehält, sondern auch Szenen mit außergewöhnlicher Dynamik erzeugt, die konventionelle Grenzen überschreiten. Unsere Projektwebseite finden Sie unter: https://kr1sjfu.github.io/iMontage-web/.
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
PDF302December 1, 2025