EditVerse: Унификация редактирования и генерации изображений и видео с помощью обучения в контексте
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
September 24, 2025
Авторы: Xuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu
cs.AI
Аннотация
Последние достижения в области базовых моделей демонстрируют явную тенденцию к унификации и масштабированию, раскрывая возникающие возможности в различных областях. В то время как генерация и редактирование изображений быстро перешли от узкоспециализированных подходов к унифицированным фреймворкам, генерация и редактирование видео остаются фрагментированными из-за архитектурных ограничений и недостатка данных. В данной работе мы представляем EditVerse — унифицированный фреймворк для генерации и редактирования изображений и видео в рамках единой модели. Представляя все модальности, такие как текст, изображение и видео, в виде единой последовательности токенов, EditVerse использует механизм самовнимания для достижения устойчивого обучения в контексте, естественного переноса знаний между модальностями и гибкой обработки входных и выходных данных с произвольными разрешениями и длительностями. Для решения проблемы отсутствия обучающих данных для редактирования видео мы разработали масштабируемый конвейер данных, который включает 232 тыс. образцов редактирования видео и объединяет их с крупномасштабными наборами данных изображений и видео для совместного обучения. Кроме того, мы представляем EditVerseBench — первый бенчмарк для редактирования видео на основе инструкций, охватывающий разнообразные задачи и разрешения. Многочисленные эксперименты и пользовательские исследования показывают, что EditVerse достигает наилучших результатов, превосходя существующие открытые и коммерческие модели, и демонстрирует возникающие способности к редактированию и генерации в различных модальностях.
English
Recent advances in foundation models highlight a clear trend toward
unification and scaling, showing emergent capabilities across diverse domains.
While image generation and editing have rapidly transitioned from task-specific
to unified frameworks, video generation and editing remain fragmented due to
architectural limitations and data scarcity. In this work, we introduce
EditVerse, a unified framework for image and video generation and editing
within a single model. By representing all modalities, i.e., text, image, and
video, as a unified token sequence, EditVerse leverages self-attention to
achieve robust in-context learning, natural cross-modal knowledge transfer, and
flexible handling of inputs and outputs with arbitrary resolutions and
durations. To address the lack of video editing training data, we design a
scalable data pipeline that curates 232K video editing samples and combines
them with large-scale image and video datasets for joint training. Furthermore,
we present EditVerseBench, the first benchmark for instruction-based video
editing covering diverse tasks and resolutions. Extensive experiments and user
studies demonstrate that EditVerse achieves state-of-the-art performance,
surpassing existing open-source and commercial models, while exhibiting
emergent editing and generation abilities across modalities.