Uni-Edit: Edição Inteligente é uma Tarefa Geral para Ajuste de Modelo Unificado

Resumo

Atualmente, o aprimoramento de Modelos Multimodais Unificados (UMMs) com capacidades de compreensão, geração e edição de imagens depende principalmente do treinamento misto multitarefa. Devido a conflitos inerentes entre as tarefas, essa estratégia exige pipelines complexos de múltiplos estágios, mistura massiva de dados e truques de balanceamento, resultando apenas em uma compensação de desempenho, em vez de um verdadeiro reforço mútuo. Para romper esse paradigma, propomos o Uni-Edit, uma tarefa inteligente de edição de imagens que serve como a primeira tarefa geral para o ajuste de UMMs. Diferentemente de pipelines mistos complexos, o Uni-Edit melhora o desempenho em todas as três capacidades simultaneamente, utilizando apenas uma tarefa, um estágio de treinamento e um conjunto de dados. Especificamente, identificamos inicialmente a edição de imagens como uma tarefa geral inerentemente ideal, pois exige naturalmente tanto a compreensão visual quanto a geração. No entanto, os dados de edição existentes dependem de instruções simplistas que subutilizam severamente a capacidade de compreensão do modelo. Para resolver isso, introduzimos o primeiro pipeline automatizado e escalável de síntese de dados para edição inteligente, transformando dados diversos de VQA em instruções de edição complexas e eficazes, com perguntas embutidas e lógica aninhada. Isso resulta no Uni-Edit-148k, que combina instruções diversas e intensivas em raciocínio com imagens editadas de alta qualidade. Experimentos extensivos no BAGEL e no Janus-Pro demonstram que o ajuste exclusivo com o Uni-Edit alcança melhorias abrangentes em todas as três capacidades, sem qualquer operação auxiliar.

English

Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and generation. However, existing editing data relies on simplistic instructions that severely underutilize a model's understanding capacity. To address this, we introduce the first automated and scalable data synthesis pipeline for intelligent editing, transforming diverse VQA data into complex and effective editing instructions with embedded questions and nested logic. This yields Uni-Edit-148k, pairing diverse reasoning-intensive instructions with high-quality edited images. Extensive experiments on BAGEL and Janus-Pro demonstrate that tuning solely on Uni-Edit achieves comprehensive enhancements across all three capabilities without any auxiliary operations.