ChatPaper.aiChatPaper

iMontage: 統一性、汎用性、高ダイナミック性を備えた多対多画像生成

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

November 25, 2025
著者: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI

要旨

事前学習済みビデオモデルは、高品質で時間的一貫性のあるコンテンツを生成するための強力な事前知識を学習します。これらのモデルは時間的一貫性に優れていますが、その動態は連続的な学習データの性質によって制約されることが多いです。我々は、画像データが持つ豊かで制約のないコンテンツ多様性を、この一貫した時間的フレームワークに注入することで、自然な遷移と従来をはるかに超える広範な動的範囲を備えた画像セットを生成できると仮説を立てます。この目的のために、強力なビデオモデルをオールインワンの画像生成器に転用する統合フレームワーク「iMontage」を提案します。本フレームワークは可変長の画像セットを入力・出力し、多様な画像生成・編集タスクを統合的に扱います。これを実現するため、エレガントで最小限の介入に留める適応戦略を提案し、それに特化したデータキュレーション手法と訓練パラダイムを組み合わせます。このアプローチにより、モデルは貴重な元の動きに関する事前知識を損なうことなく、広範な画像操作能力を獲得します。iMontageは複数の主流な多対多画像タスクにおいて優れた性能を発揮し、画像間の強力な文脈的一貫性を維持するだけでなく、従来の範囲を超えた非凡な動態を持つシーンを生成します。ホームページは https://kr1sjfj.github.io/iMontage-web/ で公開しています。
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
PDF302December 1, 2025