Uni-Edit: Intelligentes Editieren ist eine allgemeine Aufgabe für das einheitliche Modell-Tuning.

Zusammenfassung

Derzeit basiert die Verbesserung von Unified Multimodal Models (UMMs) mit Bildverständnis-, Generierungs- und Bearbeitungsfähigkeiten hauptsächlich auf gemischtem Multi-Task-Training. Aufgrund inhärenter Aufgabenkonflikte erfordert eine solche Strategie komplexe mehrstufige Pipelines, massive Datenmischung und Ausgleichstricks, was lediglich zu einem Leistungskompromiss führt, anstatt zu einer echten gegenseitigen Verstärkung. Um dieses Paradigma zu durchbrechen, schlagen wir Uni-Edit vor, eine intelligente Bildbearbeitungsaufgabe, die als erste allgemeine Aufgabe für das UMM-Tuning dient. Im Gegensatz zu komplexen gemischten Pipelines verbessert Uni-Edit die Leistung in allen drei Fähigkeiten gleichzeitig, indem es nur eine Aufgabe, eine Trainingsstufe und einen Datensatz verwendet. Insbesondere identifizieren wir zunächst die Bildbearbeitung als eine inhärent ideale allgemeine Aufgabe, da sie natürlicherweise sowohl visuelles Verständnis als auch Generierung erfordert. Allerdings stützt sich die vorhandene Bearbeitungsdaten auf einfache Anweisungen, die das Verständnisvermögen eines Modells stark unterausnutzen. Um dies zu beheben, führen wir die erste automatisierte und skalierbare Datensynthesepipeline für intelligentes Editieren ein, die verschiedene VQA-Daten in komplexe und effektive Bearbeitungsanweisungen mit eingebetteten Fragen und verschachtelter Logik umwandelt. Dies ergibt Uni-Edit-148k, das vielfältige schlussfolgerungsintensive Anweisungen mit qualitativ hochwertigen editierten Bildern paart. Umfangreiche Experimente mit BAGEL und Janus-Pro zeigen, dass das alleinige Tuning auf Uni-Edit umfassende Verbesserungen in allen drei Fähigkeiten ohne jegliche Hilfsoperationen erzielt.

English

Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and generation. However, existing editing data relies on simplistic instructions that severely underutilize a model's understanding capacity. To address this, we introduce the first automated and scalable data synthesis pipeline for intelligent editing, transforming diverse VQA data into complex and effective editing instructions with embedded questions and nested logic. This yields Uni-Edit-148k, pairing diverse reasoning-intensive instructions with high-quality edited images. Extensive experiments on BAGEL and Janus-Pro demonstrate that tuning solely on Uni-Edit achieves comprehensive enhancements across all three capabilities without any auxiliary operations.