Meta-CoT: Verbesserung der Granularität und Generalisierung in der Bildbearbeitung
Meta-CoT: Enhancing Granularity and Generalization in Image Editing
April 27, 2026
Autoren: Shiyi Zhang, Yiji Cheng, Tiankai Hang, Zijin Yin, Runze He, Yu Xu, Wenxun Dai, Yunlong Lin, Chunyu Wang, Qinglin Lu, Yansong Tang
cs.AI
Zusammenfassung
Einheitliche multimodale Verständnis-/Generierungsmodelle haben durch die Integration von feinkörnigem Verständnis in ihre Chain-of-Thought (CoT)-Prozesse verbesserte Bildbearbeitungsleistungen gezeigt. Eine entscheidende Frage bleibt jedoch weitgehend unerforscht: Welche Formen von CoT und welche Trainingsstrategie können gemeinsam sowohl die Verständnisgranularität als auch die Generalisierung verbessern? Um dies zu adressieren, schlagen wir Meta-CoT vor, ein Paradigma, das eine zweistufige Zerlegung jeder Einzelbildbearbeitungsoperation mit zwei Schlüsseleigenschaften durchführt: (1) Zerlegbarkeit. Wir beobachten, dass jede Bearbeitungsabsicht als ein Triplett – (Aufgabe, Ziel, erforderliche Verständnisfähigkeit) – dargestellt werden kann. Inspiriert davon zerlegt Meta-CoT sowohl die Bearbeitungsaufgabe als auch das Ziel, erzeugt aufgabenspezifisches CoT und durchläuft Bearbeitungsoperationen für alle Ziele. Diese Zerlegung verbessert die Verständnisgranularität des Modells für Bearbeitungsoperationen und leitet es an, jedes Element des Tripletts während des Trainings zu lernen, was die Bearbeitungsfähigkeit erheblich steigert. (2) Generalisierbarkeit. Auf der zweiten Zerlegungsebene unterteilen wir Bearbeitungsaufgaben weiter in fünf fundamentale Meta-Aufgaben. Wir stellen fest, dass das Training an diesen fünf Meta-Aufgaben zusammen mit den anderen beiden Elementen des Tripletts ausreicht, um eine starke Generalisierung über diverse, ungesehene Bearbeitungsaufgaben zu erreichen. Um das Bearbeitungsverhalten des Modells besser mit seiner CoT-Argumentation in Einklang zu bringen, führen wir den CoT-Editing Consistency Reward ein, der eine genauere und effektivere Nutzung von CoT-Informationen während der Bearbeitung fördert. Experimente zeigen, dass unsere Methode eine Gesamtverbesserung von 15,8 % über 21 Bearbeitungsaufgaben hinweg erzielt und effektiv auf ungesehene Bearbeitungsaufgaben generalisiert, obwohl sie nur auf einer kleinen Menge von Meta-Aufgaben trainiert wurde. Unser Code, Benchmark und Modell sind unter https://shiyi-zh0408.github.io/projectpages/Meta-CoT/ veröffentlicht.
English
Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/