ChatPaper.aiChatPaper

iMontage: Generación de imágenes de muchos a muchos unificada, versátil y altamente dinámica

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

November 25, 2025
Autores: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI

Resumen

Los modelos de vídeo preentrenados aprenden distribuciones previas potentes para generar contenido de alta calidad y coherencia temporal. Si bien estos modelos sobresalen en coherencia temporal, su dinámica suele verse limitada por la naturaleza continua de sus datos de entrenamiento. Planteamos la hipótesis de que, al inyectar la rica y sin restricciones diversidad de contenido de los datos de imagen en este marco temporal coherente, podemos generar conjuntos de imágenes que presenten tanto transiciones naturales como un rango dinámico mucho más expansivo. Con este fin, presentamos iMontage, un marco unificado diseñado para readaptar un potente modelo de vídeo como generador de imágenes todo en uno. El marco consume y produce conjuntos de imágenes de longitud variable, unificando una amplia gama de tareas de generación y edición de imágenes. Para lograrlo, proponemos una estrategia de adaptación elegante y mínimamente invasiva, complementada con un proceso de curación de datos y un paradigma de entrenamiento específicos. Este enfoque permite que el modelo adquiera amplias capacidades de manipulación de imágenes sin corromper sus invaluables distribuciones previas de movimiento originales. iMontage destaca en varias tareas principales de tipo "muchas entradas-muchas salidas", manteniendo no solo una fuerte consistencia contextual entre imágenes, sino también generando escenas con dinámicas extraordinarias que superan los alcances convencionales. Consulte nuestra página web en: https://kr1sjfu.github.io/iMontage-web/.
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
PDF302December 1, 2025