Uni-Edit: La edición inteligente es una tarea general para el ajuste de modelos unificados

Resumen

Actualmente, mejorar los Modelos Multimodales Unificados (UMMs) con capacidades de comprensión, generación y edición de imágenes se basa principalmente en el entrenamiento multitarea mixto. Debido a conflictos inherentes entre tareas, esta estrategia requiere pipelines complejos de múltiples etapas, una masiva mezcla de datos y trucos de balanceo, lo que resulta simplemente en una compensación de rendimiento en lugar de un verdadero refuerzo mutuo. Para romper este paradigma, proponemos Uni-Edit, una tarea inteligente de edición de imágenes que actúa como la primera tarea general para el ajuste de UMMs. A diferencia de los pipelines mixtos complejos, Uni-Edit mejora el rendimiento en las tres capacidades a la vez utilizando solo una tarea, una etapa de entrenamiento y un conjunto de datos. Específicamente, primero identificamos la edición de imágenes como una tarea general inherentemente ideal, ya que demanda naturalmente tanto comprensión como generación visual. Sin embargo, los datos de edición existentes se basan en instrucciones simplistas que infrautilizan severamente la capacidad de comprensión del modelo. Para abordar esto, introducimos el primer pipeline automatizado y escalable de síntesis de datos para edición inteligente, transformando diversos datos de VQA en instrucciones de edición complejas y efectivas con preguntas integradas y lógica anidada. Esto produce Uni-Edit-148k, que empareja instrucciones diversas e intensivas en razonamiento con imágenes editadas de alta calidad. Experimentos extensos en BAGEL y Janus-Pro demuestran que el ajuste exclusivo en Uni-Edit logra mejoras integrales en las tres capacidades sin ninguna operación auxiliar.

English

Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and generation. However, existing editing data relies on simplistic instructions that severely underutilize a model's understanding capacity. To address this, we introduce the first automated and scalable data synthesis pipeline for intelligent editing, transforming diverse VQA data into complex and effective editing instructions with embedded questions and nested logic. This yields Uni-Edit-148k, pairing diverse reasoning-intensive instructions with high-quality edited images. Extensive experiments on BAGEL and Janus-Pro demonstrate that tuning solely on Uni-Edit achieves comprehensive enhancements across all three capabilities without any auxiliary operations.