EditVerse: Unificando Edição e Geração de Imagens e Vídeos com Aprendizado em Contexto

Resumo

Os recentes avanços em modelos de base destacam uma tendência clara em direção à unificação e escalabilidade, mostrando capacidades emergentes em diversos domínios. Embora a geração e edição de imagens tenham rapidamente evoluído de frameworks específicos para tarefas para frameworks unificados, a geração e edição de vídeos permanecem fragmentadas devido a limitações arquitetônicas e escassez de dados. Neste trabalho, apresentamos o EditVerse, um framework unificado para geração e edição de imagens e vídeos em um único modelo. Ao representar todas as modalidades, ou seja, texto, imagem e vídeo, como uma sequência unificada de tokens, o EditVerse aproveita a auto-atenção para alcançar aprendizado robusto em contexto, transferência natural de conhecimento entre modalidades e manipulação flexível de entradas e saídas com resoluções e durações arbitrárias. Para lidar com a falta de dados de treinamento para edição de vídeos, projetamos um pipeline de dados escalável que coleta 232 mil amostras de edição de vídeo e as combina com grandes conjuntos de dados de imagens e vídeos para treinamento conjunto. Além disso, apresentamos o EditVerseBench, o primeiro benchmark para edição de vídeo baseada em instruções, abrangendo diversas tarefas e resoluções. Experimentos extensivos e estudos com usuários demonstram que o EditVerse alcança desempenho de ponta, superando modelos open-source e comerciais existentes, enquanto exibe habilidades emergentes de edição e geração entre modalidades.

English

Recent advances in foundation models highlight a clear trend toward unification and scaling, showing emergent capabilities across diverse domains. While image generation and editing have rapidly transitioned from task-specific to unified frameworks, video generation and editing remain fragmented due to architectural limitations and data scarcity. In this work, we introduce EditVerse, a unified framework for image and video generation and editing within a single model. By representing all modalities, i.e., text, image, and video, as a unified token sequence, EditVerse leverages self-attention to achieve robust in-context learning, natural cross-modal knowledge transfer, and flexible handling of inputs and outputs with arbitrary resolutions and durations. To address the lack of video editing training data, we design a scalable data pipeline that curates 232K video editing samples and combines them with large-scale image and video datasets for joint training. Furthermore, we present EditVerseBench, the first benchmark for instruction-based video editing covering diverse tasks and resolutions. Extensive experiments and user studies demonstrate that EditVerse achieves state-of-the-art performance, surpassing existing open-source and commercial models, while exhibiting emergent editing and generation abilities across modalities.

EditVerse: Unificando Edição e Geração de Imagens e Vídeos com Aprendizado em Contexto

EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

Resumo

Support