Meta-CoT: Повышение детализации и обобщающей способности при редактировании изображений

Аннотация

Унифицированные мультимодальные понимающие/генеративные модели продемонстрировали улучшенную производительность редактирования изображений за счет включения детального понимания в свой процесс цепочки рассуждений (Chain-of-Thought, CoT). Однако ключевой вопрос остается недостаточно изученным: какие формы CoT и стратегии обучения могут совместно улучшить как детализацию понимания, так и способность к обобщению? Для решения этой проблемы мы предлагаем Meta-CoT — парадигму, которая выполняет двухуровневое разложение любой операции редактирования одиночного изображения с двумя ключевыми свойствами: (1) **Разлагаемость**. Мы наблюдаем, что любое намерение редактирования может быть представлено в виде триплета — (задача, цель, требуемая способность понимания). Вдохновленные этим, Meta-CoT декомпозирует как задачу редактирования, так и цель, генерируя специфичные для задачи цепочки рассуждений и осуществляя операции редактирования для всех целей. Это разложение усиливает детализацию понимания моделью операций редактирования и направляет ее на изучение каждого элемента триплета в процессе обучения, существенно улучшая способность к редактированию. (2) **Обобщаемость**. На втором уровне декомпозиции мы дополнительно разбиваем задачи редактирования на пять фундаментальных метазадач. Мы обнаружили, что обучение на этих пяти метазадачах вместе с двумя другими элементами триплета достаточно для достижения сильного обобщения на разнообразные, ранее не встречавшиеся задачи редактирования. Для дальнейшего согласования поведения модели при редактировании с ее рассуждениями CoT мы вводим **Вознаграждение за согласованность CoT и редактирования**, которое поощряет более точное и эффективное использование информации CoT во время редактирования. Эксперименты показывают, что наш метод достигает общего улучшения на 15.8% по 21 задаче редактирования и эффективно обобщается на незнакомые задачи редактирования при обучении лишь на небольшом наборе метазадач. Наш код, эталонные тесты и модель доступны по адресу https://shiyi-zh0408.github.io/projectpages/Meta-CoT/.

English

Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

Meta-CoT: Повышение детализации и обобщающей способности при редактировании изображений

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Аннотация

Support