Uni-Edit : l'édition intelligente est une tâche générale pour l'ajustement de modèle unifié

Résumé

Actuellement, l'amélioration des Modèles Multimodaux Unifiés (UMM) avec des capacités de compréhension, génération et édition d'images repose principalement sur un entraînement multitâche mixte. En raison de conflits inhérents entre les tâches, cette stratégie nécessite des pipelines multi-étapes complexes, un mélange massif de données et des astuces d'équilibrage, aboutissant simplement à un compromis de performance plutôt qu'à un véritable renforcement mutuel. Pour briser ce paradigme, nous proposons Uni-Edit, une tâche intelligente d'édition d'images qui sert de première tâche générale pour le réglage des UMM. Contrairement aux pipelines mixtes complexes, Uni-Edit améliore simultanément les trois capacités en utilisant une seule tâche, une seule étape d'entraînement et un seul ensemble de données. Plus précisément, nous identifions d'abord l'édition d'images comme une tâche générale idéale intrinsèquement, car elle exige naturellement à la fois la compréhension visuelle et la génération. Cependant, les données d'édition existantes reposent sur des instructions simplistes qui sous-utilisent gravement la capacité de compréhension d'un modèle. Pour remédier à cela, nous introduisons le premier pipeline automatisé et évolutif de synthèse de données pour l'édition intelligente, transformant diverses données VQA en instructions d'édition complexes et efficaces intégrant des questions et une logique imbriquée. Cela donne Uni-Edit-148k, associant des instructions diversifiées et intensives en raisonnement à des images éditées de haute qualité. Des expériences approfondies sur BAGEL et Janus-Pro démontrent que le réglage uniquement sur Uni-Edit permet des améliorations complètes des trois capacités sans aucune opération auxiliaire.

English

Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and generation. However, existing editing data relies on simplistic instructions that severely underutilize a model's understanding capacity. To address this, we introduce the first automated and scalable data synthesis pipeline for intelligent editing, transforming diverse VQA data into complex and effective editing instructions with embedded questions and nested logic. This yields Uni-Edit-148k, pairing diverse reasoning-intensive instructions with high-quality edited images. Extensive experiments on BAGEL and Janus-Pro demonstrate that tuning solely on Uni-Edit achieves comprehensive enhancements across all three capabilities without any auxiliary operations.