Meta-CoT: Aprimorando a Granularidade e a Generalização na Edição de Imagens
Meta-CoT: Enhancing Granularity and Generalization in Image Editing
April 27, 2026
Autores: Shiyi Zhang, Yiji Cheng, Tiankai Hang, Zijin Yin, Runze He, Yu Xu, Wenxun Dai, Yunlong Lin, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
Resumo
Os modelos unificados de compreensão/geração multimodal demonstraram melhor desempenho na edição de imagens ao incorporar uma compreensão refinada em seu processo de Cadeia de Pensamento (CoT). No entanto, uma questão crítica permanece pouco explorada: quais formas de CoT e estratégias de treinamento podem aprimorar conjuntamente tanto a granularidade da compreensão quanto a generalização? Para abordar isso, propomos o Meta-CoT, um paradigma que realiza uma decomposição em dois níveis de qualquer operação de edição de imagem única com duas propriedades principais: (1) Decomponibilidade. Observamos que qualquer intenção de edição pode ser representada como um tripleto – (tarefa, alvo, capacidade de compreensão necessária). Inspirados por isso, o Meta-CoT decompõe tanto a tarefa de edição quanto o alvo, gerando uma CoT específica para a tarefa e percorrendo operações de edição em todos os alvos. Esta decomposição aumenta a granularidade de compreensão do modelo sobre as operações de edição e orienta-o a aprender cada elemento do tripleto durante o treinamento, melhorando substancialmente a capacidade de edição. (2) Generalizabilidade. No segundo nível de decomposição, decompomos ainda mais as tarefas de edição em cinco meta-tarefas fundamentais. Descobrimos que o treinamento nessas cinco meta-tarefas, juntamente com os outros dois elementos do tripleto, é suficiente para alcançar uma forte generalização em diversas tarefas de edição não vistas. Para alinhar ainda mais o comportamento de edição do modelo com seu raciocínio CoT, introduzimos a Recompensa de Consistência CoT-Edição, que incentiva uma utilização mais precisa e eficaz da informação CoT durante a edição. Os experimentos demonstram que nosso método alcança uma melhoria geral de 15,8% em 21 tarefas de edição e generaliza eficazmente para tarefas de edição não vistas quando treinado apenas em um pequeno conjunto de meta-tarefas. Nosso código, benchmark e modelo estão disponíveis em https://shiyi-zh0408.github.io/projectpages/Meta-CoT/.
English
Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/