ChatPaper.aiChatPaper

iMontage: 통합적, 다기능, 고도로 동적인 다대다 이미지 생성

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

November 25, 2025
저자: Zhoujie Fu, Xianfang Zeng, Jinghong Lan, Xinyao Liao, Cheng Chen, Junyi Chen, Jiacheng Wei, Wei Cheng, Shiyu Liu, Yunuo Chen, Gang Yu, Guosheng Lin
cs.AI

초록

사전 학습된 비디오 모델은 높은 품질의 시간적 일관성을 가진 콘텐츠를 생성하는 강력한 사전 지식(Prior)을 학습합니다. 이러한 모델들은 시간적 일관성에서 뛰어난 성능을 보이지만, 그 동역학(Dynamics)은 연속적인 훈련 데이터의 특성에 의해 종종 제한됩니다. 우리는 이미지 데이터가 가진 풍부하고 제약이 없는 콘텐츠 다양성을 이 일관된 시간적 프레임워크에 주입함으로써, 자연스러운 전환과 훨씬 더 확장된 동적 범위(Dynamic Range)를 모두 갖춘 이미지 세트를 생성할 수 있다고 가정합니다. 이를 위해 우리는 강력한 비디오 모델을 올인원(All-in-One) 이미지 생성기로 재탄생시키도록 설계된 통합 프레임워크인 iMontage를 소개합니다. 이 프레임워크는 가변 길이의 이미지 세트를 입력받고 생성하며, 다양한 이미지 생성 및 편집 작업을 통합합니다. 이를 실현하기 위해 우리는 정교하고 최소한의 변경을 통한 적응 전략과, 이를 보완하는 맞춤형 데이터 큐레이션 과정 및 훈련 패러다임을 제안합니다. 이 접근법은 모델이 그 가치 있는 원본 운동(Motion) 사전 지식을 손상시키지 않으면서도 광범위한 이미지 조작 능력을 획득할 수 있게 합니다. iMontage는 여러 주류 다수-입력-다수-출력(Many-in-Many-Out) 작업에서 탁월한 성능을 보이며, 강력한 이미지 간 맥락 일관성을 유지할 뿐만 아니라 기존 범위를 넘어서는 비범한 동역학을 가진 장면들을 생성합니다. 홈페이지는 https://kr1sjfu.github.io/iMontage-web/에서 확인할 수 있습니다.
English
Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.
PDF302December 1, 2025