Meta-CoT: Mejorando la Granularidad y Generalización en la Edición de Imágenes

Resumen

Los modelos unificados multimodales de comprensión/generación han demostrado un mejor rendimiento en la edición de imágenes al incorporar una comprensión detallada en su proceso de Cadena de Pensamiento (CoT). Sin embargo, una pregunta crítica permanece poco explorada: ¿qué formas de CoT y estrategias de entrenamiento pueden mejorar conjuntamente tanto la granularidad de la comprensión como la generalización? Para abordar esto, proponemos Meta-CoT, un paradigma que realiza una descomposición de dos niveles de cualquier operación de edición de imagen única con dos propiedades clave: (1) Descomponibilidad. Observamos que cualquier intención de edición puede representarse como un triplete: (tarea, objetivo, capacidad de comprensión requerida). Inspirados por esto, Meta-CoT descompone tanto la tarea de edición como el objetivo, generando CoT específica de la tarea y recorriendo las operaciones de edición en todos los objetivos. Esta descomposición mejora la granularidad de comprensión del modelo sobre las operaciones de edición y lo guía para aprender cada elemento del triplete durante el entrenamiento, mejorando sustancialmente la capacidad de edición. (2) Generalizabilidad. En el segundo nivel de descomposición, desglosamos aún más las tareas de edición en cinco meta-tareas fundamentales. Descubrimos que entrenar en estas cinco meta-tareas, junto con los otros dos elementos del triplete, es suficiente para lograr una fuerte generalización en diversas tareas de edición no vistas. Para alinear aún más el comportamiento de edición del modelo con su razonamiento CoT, introducimos la Recompensa de Coherencia CoT-Edición, que fomenta una utilización más precisa y efectiva de la información CoT durante la edición. Los experimentos demuestran que nuestro método logra una mejora general del 15.8% en 21 tareas de edición, y generaliza efectivamente a tareas de edición no vistas cuando se entrena solo con un pequeño conjunto de meta-tareas. Nuestro código, benchmark y modelo están disponibles en https://shiyi-zh0408.github.io/projectpages/Meta-CoT/.

English

Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

Meta-CoT: Mejorando la Granularidad y Generalización en la Edición de Imágenes

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Resumen

Support