ChatPaper.aiChatPaper

EditVerse: Unificando la Edición y Generación de Imágenes y Videos con Aprendizaje en Contexto

EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

September 24, 2025
Autores: Xuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu
cs.AI

Resumen

Los recientes avances en modelos fundacionales destacan una clara tendencia hacia la unificación y el escalamiento, mostrando capacidades emergentes en diversos dominios. Mientras que la generación y edición de imágenes han transitado rápidamente de enfoques específicos a marcos unificados, la generación y edición de vídeo siguen fragmentadas debido a limitaciones arquitectónicas y escasez de datos. En este trabajo, presentamos EditVerse, un marco unificado para la generación y edición de imágenes y vídeo dentro de un único modelo. Al representar todas las modalidades, es decir, texto, imagen y vídeo, como una secuencia unificada de tokens, EditVerse aprovecha la autoatención para lograr un aprendizaje robusto en contexto, transferencia natural de conocimiento entre modalidades y manejo flexible de entradas y salidas con resoluciones y duraciones arbitrarias. Para abordar la falta de datos de entrenamiento en edición de vídeo, diseñamos una canalización de datos escalable que selecciona 232K muestras de edición de vídeo y las combina con conjuntos de datos a gran escala de imágenes y vídeo para un entrenamiento conjunto. Además, presentamos EditVerseBench, el primer punto de referencia para la edición de vídeo basada en instrucciones que cubre diversas tareas y resoluciones. Experimentos exhaustivos y estudios de usuario demuestran que EditVerse alcanza un rendimiento de vanguardia, superando a los modelos de código abierto y comerciales existentes, mientras exhibe habilidades emergentes de edición y generación a través de modalidades.
English
Recent advances in foundation models highlight a clear trend toward unification and scaling, showing emergent capabilities across diverse domains. While image generation and editing have rapidly transitioned from task-specific to unified frameworks, video generation and editing remain fragmented due to architectural limitations and data scarcity. In this work, we introduce EditVerse, a unified framework for image and video generation and editing within a single model. By representing all modalities, i.e., text, image, and video, as a unified token sequence, EditVerse leverages self-attention to achieve robust in-context learning, natural cross-modal knowledge transfer, and flexible handling of inputs and outputs with arbitrary resolutions and durations. To address the lack of video editing training data, we design a scalable data pipeline that curates 232K video editing samples and combines them with large-scale image and video datasets for joint training. Furthermore, we present EditVerseBench, the first benchmark for instruction-based video editing covering diverse tasks and resolutions. Extensive experiments and user studies demonstrate that EditVerse achieves state-of-the-art performance, surpassing existing open-source and commercial models, while exhibiting emergent editing and generation abilities across modalities.
PDF162September 25, 2025