Meta-CoT: Verbetering van Granulariteit en Generalisatie in Beeldbewerking

Samenvatting

Unificatie multimodale begrips-/generatieve modellen hebben verbeterde prestaties bij beeldbewerking getoond door fijnmazig begrip te integreren in hun Chain-of-Thought (CoT)-proces. Een cruciale vraag blijft echter onderbelicht: welke vormen van CoT en trainingsstrategie kunnen gezamenlijk zowel de begripsgranulariteit als de generalisatie verbeteren? Om dit aan te pakken, stellen we Meta-CoT voor, een paradigma dat een tweeledige decompositie uitvoert van elke beeldbewerkingsoperatie met twee kerneigenschappen: (1) Decomposeerbaarheid. We observeren dat elke bewerkingsintentie kan worden voorgesteld als een triplet - (taak, doel, vereist begripsvermogen). Geïnspireerd hierop decomposeert Meta-CoT zowel de bewerkingstaak als het doel, genereert het taakspecifieke CoT en doorloopt het bewerkingsoperaties op alle doelen. Deze decompositie verbetert de begripsgranulariteit van het model voor bewerkingsoperaties en leidt het om elk element van het triplet tijdens de training te leren, wat de bewerkingscapaciteit aanzienlijk verbetert. (2) Generaliseerbaarheid. Op het tweede decompositieniveau verdelen we bewerkingstaken verder in vijf fundamentele meta-taken. We ontdekken dat training op deze vijf meta-taken, samen met de andere twee elementen van het triplet, voldoende is om sterke generalisatie te bereiken over uiteenlopende, ongeziene bewerkingstaken. Om het bewerkingsgedrag van het model verder af te stemmen op zijn CoT-redenering, introduceren we de CoT-Bewerkingsconsistentiebeloning, die een nauwkeurigere en effectievere benutting van CoT-informatie tijdens het bewerken aanmoedigt. Experimenten tonen aan dat onze methode een algehele verbetering van 15,8% bereikt over 21 bewerkingstaken, en effectief generaliseert naar ongeziene bewerkingstaken wanneer getraind op slechts een kleine set meta-taken. Onze code, benchmark en model zijn vrijgegeven op https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

English

Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

Meta-CoT: Verbetering van Granulariteit en Generalisatie in Beeldbewerking

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Samenvatting

Support