CoCo: Código como CoT para la Vista Previa de Texto a Imagen y Generación de Conceptos Raros

Resumen

Los recientes avances en Modelos Multimodales Unificados (UMMs) han impulsado significativamente la generación de texto a imagen (T2I), particularmente mediante la integración del razonamiento en Cadena de Pensamiento (CoT). Sin embargo, los métodos T2I basados en CoT existentes dependen en gran medida de una planificación abstracta en lenguaje natural, que carece de la precisión necesaria para diseños espaciales complejos, elementos visuales estructurados y contenido textual denso. En este trabajo, proponemos CoCo (Código-como-CoT), un marco de razonamiento impulsado por código que representa el proceso de razonamiento como código ejecutable, permitiendo una planificación intermedia explícita y verificable para la generación de imágenes. Dado un texto de entrada, CoCo genera primero código ejecutable que especifica el diseño estructural de la escena, el cual se ejecuta luego en un entorno controlado para renderizar un borrador determinista de la imagen. Posteriormente, el modelo refina este borrero mediante edición de imagen de grano fino para producir el resultado final de alta fidelidad. Para respaldar este paradigma de entrenamiento, construimos CoCo-10K, un conjunto de datos curado que contiene pares de imágenes borrador-final estructurados, diseñados para enseñar tanto la construcción de borradores estructurados como el refinamiento visual correctivo. Las evaluaciones empíricas en StructT2IBench, OneIG-Bench y LongText-Bench muestran que CoCo logra mejoras del +68.83%, +54.8% y +41.23% sobre la generación directa, superando también a otros métodos de generación potenciados por CoT. Estos resultados demuestran que el código ejecutable es un paradigma de razonamiento efectivo y confiable para la generación de texto a imagen precisa, controlable y estructurada. El código está disponible en: https://github.com/micky-li-hd/CoCo

English

Recent advancements in Unified Multimodal Models (UMMs) have significantly advanced text-to-image (T2I) generation, particularly through the integration of Chain-of-Thought (CoT) reasoning. However, existing CoT-based T2I methods largely rely on abstract natural-language planning, which lacks the precision required for complex spatial layouts, structured visual elements, and dense textual content. In this work, we propose CoCo (Code-as-CoT), a code-driven reasoning framework that represents the reasoning process as executable code, enabling explicit and verifiable intermediate planning for image generation. Given a text prompt, CoCo first generates executable code that specifies the structural layout of the scene, which is then executed in a sandboxed environment to render a deterministic draft image. The model subsequently refines this draft through fine-grained image editing to produce the final high-fidelity result. To support this training paradigm, we construct CoCo-10K, a curated dataset containing structured draft-final image pairs designed to teach both structured draft construction and corrective visual refinement. Empirical evaluations on StructT2IBench, OneIG-Bench, and LongText-Bench show that CoCo achieves improvements of +68.83%, +54.8%, and +41.23% over direct generation, while also outperforming other generation methods empowered by CoT. These results demonstrate that executable code is an effective and reliable reasoning paradigm for precise, controllable, and structured text-to-image generation. The code is available at: https://github.com/micky-li-hd/CoCo

CoCo: Código como CoT para la Vista Previa de Texto a Imagen y Generación de Conceptos Raros

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Resumen

Support