EditVerse: Vereinheitlichung von Bild- und Video-Bearbeitung und -Generierung durch In-Context-Learning
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
September 24, 2025
papers.authors: Xuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu
cs.AI
papers.abstract
Jüngste Fortschritte bei Foundation-Modellen verdeutlichen einen klaren Trend hin zu Vereinheitlichung und Skalierung, wobei emergente Fähigkeiten über diverse Domänen hinweg sichtbar werden. Während Bildgenerierung und -bearbeitung sich schnell von aufgabenspezifischen zu vereinheitlichten Frameworks entwickelt haben, bleiben Videogenerierung und -bearbeitung aufgrund architektonischer Einschränkungen und Datenknappheit fragmentiert. In dieser Arbeit stellen wir EditVerse vor, ein vereinheitlichtes Framework für Bild- und Videogenerierung sowie -bearbeitung innerhalb eines einzigen Modells. Indem alle Modalitäten, d.h. Text, Bild und Video, als eine vereinheitlichte Token-Sequenz repräsentiert werden, nutzt EditVerse Self-Attention, um robustes In-Context-Lernen, natürlichen cross-modalen Wissenstransfer und flexible Handhabung von Eingaben und Ausgaben mit beliebigen Auflösungen und Dauer zu erreichen. Um den Mangel an Trainingsdaten für Videobearbeitung zu beheben, entwickeln wir eine skalierbare Datenpipeline, die 232K Videobearbeitungsbeispiele kuratiert und sie mit groß angelegten Bild- und Videodatensätzen für gemeinsames Training kombiniert. Darüber hinaus präsentieren wir EditVerseBench, den ersten Benchmark für instruktionsbasierte Videobearbeitung, der diverse Aufgaben und Auflösungen abdeckt. Umfangreiche Experimente und Nutzerstudien zeigen, dass EditVerse state-of-the-art Leistung erzielt und bestehende Open-Source- und kommerzielle Modelle übertrifft, während es emergente Bearbeitungs- und Generierungsfähigkeiten über Modalitäten hinweg aufweist.
English
Recent advances in foundation models highlight a clear trend toward
unification and scaling, showing emergent capabilities across diverse domains.
While image generation and editing have rapidly transitioned from task-specific
to unified frameworks, video generation and editing remain fragmented due to
architectural limitations and data scarcity. In this work, we introduce
EditVerse, a unified framework for image and video generation and editing
within a single model. By representing all modalities, i.e., text, image, and
video, as a unified token sequence, EditVerse leverages self-attention to
achieve robust in-context learning, natural cross-modal knowledge transfer, and
flexible handling of inputs and outputs with arbitrary resolutions and
durations. To address the lack of video editing training data, we design a
scalable data pipeline that curates 232K video editing samples and combines
them with large-scale image and video datasets for joint training. Furthermore,
we present EditVerseBench, the first benchmark for instruction-based video
editing covering diverse tasks and resolutions. Extensive experiments and user
studies demonstrate that EditVerse achieves state-of-the-art performance,
surpassing existing open-source and commercial models, while exhibiting
emergent editing and generation abilities across modalities.