Meta-CoT: Migliorare la Granularità e la Generalizzazione nell'Editing di Immagini

Abstract

I modelli unificati di comprensione/generazione multi-modale hanno dimostrato prestazioni migliorate nell'editing di immagini incorporando una comprensione granulare nel loro processo di Catena di Pensiero (CoT). Tuttavia, una questione cruciale rimane poco esplorata: quali forme di CoT e strategie di addestramento possono migliorare congiuntamente sia la granularità della comprensione che la generalizzazione? Per affrontare questo problema, proponiamo Meta-CoT, un paradigma che esegue una scomposizione a due livelli di qualsiasi operazione di editing su singola immagine con due proprietà chiave: (1) Scomponibilità. Osserviamo che qualsiasi intenzione di editing può essere rappresentata come una tripla - (compito, obiettivo, capacità di comprensione richiesta). Ispirati da ciò, Meta-CoT scompone sia il compito di editing che l'obiettivo, generando CoT specifica per il compito e attraversando le operazioni di editing su tutti gli obiettivi. Questa scomposizione migliora la granularità di comprensione del modello riguardo alle operazioni di editing e lo guida ad apprendere ogni elemento della tripla durante l'addestramento, migliorando sostanzialmente la capacità di editing. (2) Generalizzabilità. Nel secondo livello di scomposizione, scomponiamo ulteriormente i compiti di editing in cinque meta-compiti fondamentali. Riteniamo che l'addestramento su questi cinque meta-compiti, insieme agli altri due elementi della tripla, sia sufficiente per ottenere una forte generalizzazione su vari compiti di editing non visti. Per allineare ulteriormente il comportamento di editing del modello con il suo ragionamento CoT, introduciamo il CoT-Editing Consistency Reward, che incoraggia un utilizzo più accurato ed efficace delle informazioni CoT durante l'editing. Gli esperimenti dimostrano che il nostro metodo raggiunge un miglioramento complessivo del 15,8% su 21 compiti di editing e generalizza efficacemente a compiti di editing non visti quando addestrato solo su un piccolo insieme di meta-compiti. Il nostro codice, benchmark e modello sono rilasciati su https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

English

Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

Meta-CoT: Migliorare la Granularità e la Generalizzazione nell'Editing di Immagini

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Abstract

Support