iMontage: Унифицированная, универсальная и высокодинамичная система генерации изображений по принципу «многие-ко-многим»
iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation
November 25, 2025
Авторы: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI
Аннотация
Предварительно обученные видео-модели усваивают мощные априорные знания для генерации качественного и временно согласованного контента. Хотя эти модели превосходно обеспечивают временную согласованность, их динамика часто ограничена непрерывной природой обучающих данных. Мы выдвигаем гипотезу, что путем внедрения богатого и неограниченного разнообразия контента из изображений в эту согласованную временную структуру можно генерировать наборы изображений, сочетающие как естественные переходы, так и значительно более широкий динамический диапазон. С этой целью мы представляем iMontage — унифицированную структуру, предназначенную для преобразования мощной видео-модели в универсальный генератор изображений. Данная структура принимает и производит наборы изображений переменной длины, объединяя широкий спектр задач генерации и редактирования изображений. Для достижения этого мы предлагаем элегантную и минимально инвазивную стратегию адаптации, дополненную специализированным процессом курирования данных и парадигмой обучения. Такой подход позволяет модели приобрести широкие возможности манипулирования изображениями без ущерба для её бесценных исходных априорных знаний о движении. iMontage демонстрирует превосходные результаты в решении нескольких основных задач типа «многие-ко-многим», не только сохраняя высокую контекстную согласованность между изображениями, но и генерируя сцены с исключительной динамикой, выходящей за рамки традиционных возможностей. С домашней страницей проекта можно ознакомиться по адресу: https://kr1sjfu.github.io/iMontage-web/.
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.