ChatPaper.aiChatPaper

OmniGen2: Erforschung der fortgeschrittenen multimodalen Generierung

OmniGen2: Exploration to Advanced Multimodal Generation

June 23, 2025
Autoren: Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir OmniGen2 vor, ein vielseitiges und quelloffenes generatives Modell, das eine einheitliche Lösung für diverse Generierungsaufgaben bietet, einschließlich Text-zu-Bild, Bildbearbeitung und In-Kontext-Generierung. Im Gegensatz zu OmniGen v1 verfügt OmniGen2 über zwei separate Dekodierungspfade für Text- und Bildmodalitäten, die ungeteilte Parameter und einen entkoppelten Bild-Tokenizer verwenden. Dieser Entwurf ermöglicht es OmniGen2, auf bestehenden multimodalen Verständnismodellen aufzubauen, ohne die VAE-Eingaben neu anpassen zu müssen, wodurch die ursprünglichen Textgenerierungsfähigkeiten erhalten bleiben. Um das Training von OmniGen2 zu erleichtern, haben wir umfassende Datenkonstruktionspipelines entwickelt, die Bildbearbeitungs- und In-Kontext-Generierungsdaten umfassen. Zusätzlich führen wir einen Reflexionsmechanismus ein, der speziell für Bildgenerierungsaufgaben entwickelt wurde, und kuratieren ein dediziertes Reflexionsdatenset basierend auf OmniGen2. Trotz seiner relativ bescheidenen Parametergröße erzielt OmniGen2 wettbewerbsfähige Ergebnisse in mehreren Aufgaben-Benchmarks, einschließlich Text-zu-Bild und Bildbearbeitung. Um die In-Kontext-Generierung, auch als subjektgetriebene Aufgaben bezeichnet, weiter zu evaluieren, führen wir einen neuen Benchmark namens OmniContext ein. OmniGen2 erreicht state-of-the-art Leistungen unter quelloffenen Modellen in Bezug auf Konsistenz. Wir werden unsere Modelle, Trainingscode, Datensätze und Datenkonstruktionspipeline veröffentlichen, um zukünftige Forschung in diesem Bereich zu unterstützen. Projektseite: https://vectorspacelab.github.io/OmniGen2; GitHub-Link: https://github.com/VectorSpaceLab/OmniGen2
English
In this work, we introduce OmniGen2, a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlike OmniGen v1, OmniGen2 features two distinct decoding pathways for text and image modalities, utilizing unshared parameters and a decoupled image tokenizer. This design enables OmniGen2 to build upon existing multimodal understanding models without the need to re-adapt VAE inputs, thereby preserving the original text generation capabilities. To facilitate the training of OmniGen2, we developed comprehensive data construction pipelines, encompassing image editing and in-context generation data. Additionally, we introduce a reflection mechanism tailored for image generation tasks and curate a dedicated reflection dataset based on OmniGen2. Despite its relatively modest parameter size, OmniGen2 achieves competitive results on multiple task benchmarks, including text-to-image and image editing. To further evaluate in-context generation, also referred to as subject-driven tasks, we introduce a new benchmark named OmniContext. OmniGen2 achieves state-of-the-art performance among open-source models in terms of consistency. We will release our models, training code, datasets, and data construction pipeline to support future research in this field. Project Page: https://vectorspacelab.github.io/OmniGen2; GitHub Link: https://github.com/VectorSpaceLab/OmniGen2
PDF482June 24, 2025