Uni-Edit: Intelligent redigeren als algemene taak voor het afstemmen van uniforme modellen

Samenvatting

Momenteel is het verbeteren van Unified Multimodale Modellen (UMM's) met beeldbegrip, -generatie en -bewerking voornamelijk gebaseerd op gemengde multitaaktraining. Vanwege inherente taakconflicten vereist een dergelijke strategie complexe meertrapspijplijnen, massale datamenging en balanceringstrucs, wat slechts resulteert in een prestatieafweging in plaats van echte wederzijdse versterking. Om dit paradigma te doorbreken, stellen wij Uni-Edit voor, een intelligente beeldbewerkingstaak die dient als de eerste algemene taak voor UMM-fijnafstemming. In tegenstelling tot complexe gemengde pijplijnen, verbetert Uni-Edit de prestaties op alle drie de vaardigheden tegelijk met slechts één taak, één trainingsfase en één dataset. Concreet identificeren wij beeldbewerking eerst als een inherent ideale algemene taak, omdat het van nature zowel visueel begrip als generatie vereist. Bestaande bewerkingsdata steunen echter op simplistische instructies die de begripscapaciteit van een model ernstig onderbenutten. Om dit aan te pakken, introduceren wij de eerste geautomatiseerde en schaalbare datasynthesespijplijn voor intelligente bewerking, waarbij diverse VQA-data worden omgezet in complexe en effectieve bewerkingsinstructies met ingebedde vragen en geneste logica. Dit levert Uni-Edit-148k op, dat diverse redeneerintensieve instructies koppelt aan hoogwaardig bewerkte afbeeldingen. Uitgebreide experimenten op BAGEL en Janus-Pro tonen aan dat fijnafstemming uitsluitend op Uni-Edit leidt tot uitgebreide verbeteringen in alle drie de vaardigheden, zonder enige ondersteunende handelingen.

English

Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and generation. However, existing editing data relies on simplistic instructions that severely underutilize a model's understanding capacity. To address this, we introduce the first automated and scalable data synthesis pipeline for intelligent editing, transforming diverse VQA data into complex and effective editing instructions with embedded questions and nested logic. This yields Uni-Edit-148k, pairing diverse reasoning-intensive instructions with high-quality edited images. Extensive experiments on BAGEL and Janus-Pro demonstrate that tuning solely on Uni-Edit achieves comprehensive enhancements across all three capabilities without any auxiliary operations.