Uni-Edit: Интеллектуальное редактирование — это общая задача для унифицированной настройки модели.

Аннотация

В настоящее время улучшение унифицированных мультимодальных моделей (UMM) в части способностей к пониманию, генерации и редактированию изображений в основном опирается на смешанное мультизадачное обучение. Из-за внутренних конфликтов между задачами такая стратегия требует сложных многоэтапных конвейеров, массового смешивания данных и различных ухищрений для балансировки, что приводит лишь к компромиссу в производительности, а не к истинному взаимному усилению. Чтобы разрушить эту парадигму, мы предлагаем Uni-Edit — интеллектуальную задачу редактирования изображений, которая служит первой общей задачей для настройки UMM. В отличие от сложных смешанных конвейеров, Uni-Edit одновременно улучшает производительность по всем трём способностям, используя только одну задачу, один этап обучения и один набор данных. В частности, мы в первую очередь выявляем, что редактирование изображений является изначально идеальной общей задачей, так как оно естественным образом требует как визуального понимания, так и генерации. Однако существующие данные для редактирования опираются на упрощённые инструкции, которые существенно недоиспользуют способность модели к пониманию. Чтобы решить эту проблему, мы впервые представляем автоматизированный и масштабируемый конвейер синтеза данных для интеллектуального редактирования, преобразующий разнообразные данные VQA в сложные и эффективные инструкции по редактированию со встроенными вопросами и вложенной логикой. Это приводит к созданию набора данных Uni-Edit-148k, объединяющего разнообразные инструкции, требующие интенсивного рассуждения, с высококачественными отредактированными изображениями. Обширные эксперименты на BAGEL и Janus-Pro демонстрируют, что настройка исключительно на Uni-Edit обеспечивает всестороннее улучшение всех трёх способностей без каких-либо вспомогательных операций.

English

Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and generation. However, existing editing data relies on simplistic instructions that severely underutilize a model's understanding capacity. To address this, we introduce the first automated and scalable data synthesis pipeline for intelligent editing, transforming diverse VQA data into complex and effective editing instructions with embedded questions and nested logic. This yields Uni-Edit-148k, pairing diverse reasoning-intensive instructions with high-quality edited images. Extensive experiments on BAGEL and Janus-Pro demonstrate that tuning solely on Uni-Edit achieves comprehensive enhancements across all three capabilities without any auxiliary operations.