iMontage: Geração de Imagens Muitos-para-Muitos Unificada, Versátil e Altamente Dinâmica

Resumo

Os modelos de vídeo pré-treinados aprendem *priors* poderosos para gerar conteúdo de alta qualidade e temporalmente coerente. Embora esses modelos se destaquem em coerência temporal, suas dinâmicas são frequentemente limitadas pela natureza contínua dos seus dados de treinamento. Nossa hipótese é que, ao injetar a rica e irrestrita diversidade de conteúdo dos dados de imagem nesta estrutura temporal coerente, podemos gerar conjuntos de imagens que apresentam tanto transições naturais quanto uma gama dinâmica muito mais expansiva. Para isso, introduzimos o iMontage, uma estrutura unificada projetada para readaptar um modelo de vídeo poderoso em um gerador de imagens completo. A estrutura consome e produz conjuntos de imagens de comprimento variável, unificando uma ampla gama de tarefas de geração e edição de imagens. Para alcançar este objetivo, propomos uma estratégia de adaptação elegante e minimamente invasiva, complementada por um processo de curadoria de dados e um paradigma de treinamento específicos. Esta abordagem permite que o modelo adquira amplas capacidades de manipulação de imagem sem corromper seus inestimáveis *priors* originais de movimento. O iMontage se destaca em várias tarefas principais do tipo *many-in-many-out*, mantendo não apenas uma forte consistência contextual entre imagens, mas também gerando cenas com dinâmicas extraordinárias que ultrapassam os escopos convencionais. Acesse nossa página em: https://kr1sjfu.github.io/iMontage-web/.

English

Pre-trained video models learn powerful priors for generating high-quality, temporally coherent content. While these models excel at temporal coherence, their dynamics are often constrained by the continuous nature of their training data. We hypothesize that by injecting the rich and unconstrained content diversity from image data into this coherent temporal framework, we can generate image sets that feature both natural transitions and a far more expansive dynamic range. To this end, we introduce iMontage, a unified framework designed to repurpose a powerful video model into an all-in-one image generator. The framework consumes and produces variable-length image sets, unifying a wide array of image generation and editing tasks. To achieve this, we propose an elegant and minimally invasive adaptation strategy, complemented by a tailored data curation process and training paradigm. This approach allows the model to acquire broad image manipulation capabilities without corrupting its invaluable original motion priors. iMontage excels across several mainstream many-in-many-out tasks, not only maintaining strong cross-image contextual consistency but also generating scenes with extraordinary dynamics that surpass conventional scopes. Find our homepage at: https://kr1sjfu.github.io/iMontage-web/.

iMontage: Geração de Imagens Muitos-para-Muitos Unificada, Versátil e Altamente Dinâmica

iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

Resumo

Support