EditVerse: Het verenigen van beeld- en videobewerking en -generatie met in-context leren
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
September 24, 2025
Auteurs: Xuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu
cs.AI
Samenvatting
Recente ontwikkelingen in foundation-modellen benadrukken een duidelijke trend naar unificatie en schaalvergroting, waarbij emergente capaciteiten worden getoond in diverse domeinen. Hoewel beeldgeneratie en -bewerking snel zijn overgegaan van taakspecifieke naar geünificeerde frameworks, blijven videogeneratie en -bewerking gefragmenteerd vanwege architectonische beperkingen en schaarste aan data. In dit werk introduceren we EditVerse, een geünificeerd framework voor beeld- en videogeneratie en -bewerking binnen een enkel model. Door alle modaliteiten, d.w.z. tekst, beeld en video, te representeren als een geünificeerde tokenreeks, maakt EditVerse gebruik van self-attention om robuuste in-context learning, natuurlijke cross-modale kennisoverdracht en flexibele verwerking van inputs en outputs met willekeurige resoluties en duur te bereiken. Om het gebrek aan trainingsdata voor videobewerking aan te pakken, hebben we een schaalbare datapijplijn ontworpen die 232K videobewerkingsmonsters selecteert en combineert met grootschalige beeld- en videodatasets voor gezamenlijke training. Bovendien presenteren we EditVerseBench, de eerste benchmark voor instructiegebaseerde videobewerking die diverse taken en resoluties omvat. Uitgebreide experimenten en gebruikersstudies tonen aan dat EditVerse state-of-the-art prestaties bereikt, bestaande open-source en commerciële modellen overtreft, en tegelijkertijd emergente bewerkings- en generatiecapaciteiten over modaliteiten vertoont.
English
Recent advances in foundation models highlight a clear trend toward
unification and scaling, showing emergent capabilities across diverse domains.
While image generation and editing have rapidly transitioned from task-specific
to unified frameworks, video generation and editing remain fragmented due to
architectural limitations and data scarcity. In this work, we introduce
EditVerse, a unified framework for image and video generation and editing
within a single model. By representing all modalities, i.e., text, image, and
video, as a unified token sequence, EditVerse leverages self-attention to
achieve robust in-context learning, natural cross-modal knowledge transfer, and
flexible handling of inputs and outputs with arbitrary resolutions and
durations. To address the lack of video editing training data, we design a
scalable data pipeline that curates 232K video editing samples and combines
them with large-scale image and video datasets for joint training. Furthermore,
we present EditVerseBench, the first benchmark for instruction-based video
editing covering diverse tasks and resolutions. Extensive experiments and user
studies demonstrate that EditVerse achieves state-of-the-art performance,
surpassing existing open-source and commercial models, while exhibiting
emergent editing and generation abilities across modalities.