CoCo : Le Code comme Chaîne de Pensée pour la Prévisualisation Texte-Image et la Génération de Concepts Rares

Résumé

Les progrès récents des modèles multimodaux unifiés (UMM) ont considérablement fait avancer la génération texte-image (T2I), notamment grâce à l'intégration du raisonnement par enchaînement de pensées (CoT). Cependant, les méthodes T2I existantes basées sur le CoT reposent largement sur une planification en langage naturel abstraite, qui manque de la précision nécessaire pour les dispositions spatiales complexes, les éléments visuels structurés et le contenu textuel dense. Dans ce travail, nous proposons CoCo (Code-as-CoT), un cadre de raisonnement piloté par code qui représente le processus de raisonnement sous forme de code exécutable, permettant une planification intermédiaire explicite et vérifiable pour la génération d'images. Étant donné une instruction textuelle, CoCo génère d'abord du code exécutable qui spécifie la disposition structurelle de la scène, lequel est ensuite exécuté dans un environnement isolé pour produire une ébauche d'image déterministe. Le modèle affine ensuite cette ébauche par un édition d'image fine pour produire le résultat final haute fidélité. Pour soutenir ce paradigme d'apprentissage, nous avons constitué CoCo-10K, un jeu de données organisé contenant des paires d'images ébauche-finale structurées conçues pour enseigner à la fois la construction d'ébauches structurées et le raffinement visuel correctif. Les évaluations empiriques sur StructT2IBench, OneIG-Bench et LongText-Bench montrent que CoCo obtient des améliorations de +68,83 %, +54,8 % et +41,23 % par rapport à la génération directe, tout en surpassant également les autres méthodes de génération assistées par le CoT. Ces résultats démontrent que le code exécutable est un paradigme de raisonnement efficace et fiable pour une génération texte-image précise, contrôlable et structurée. Le code est disponible à l'adresse : https://github.com/micky-li-hd/CoCo

English

Recent advancements in Unified Multimodal Models (UMMs) have significantly advanced text-to-image (T2I) generation, particularly through the integration of Chain-of-Thought (CoT) reasoning. However, existing CoT-based T2I methods largely rely on abstract natural-language planning, which lacks the precision required for complex spatial layouts, structured visual elements, and dense textual content. In this work, we propose CoCo (Code-as-CoT), a code-driven reasoning framework that represents the reasoning process as executable code, enabling explicit and verifiable intermediate planning for image generation. Given a text prompt, CoCo first generates executable code that specifies the structural layout of the scene, which is then executed in a sandboxed environment to render a deterministic draft image. The model subsequently refines this draft through fine-grained image editing to produce the final high-fidelity result. To support this training paradigm, we construct CoCo-10K, a curated dataset containing structured draft-final image pairs designed to teach both structured draft construction and corrective visual refinement. Empirical evaluations on StructT2IBench, OneIG-Bench, and LongText-Bench show that CoCo achieves improvements of +68.83%, +54.8%, and +41.23% over direct generation, while also outperforming other generation methods empowered by CoT. These results demonstrate that executable code is an effective and reliable reasoning paradigm for precise, controllable, and structured text-to-image generation. The code is available at: https://github.com/micky-li-hd/CoCo

CoCo : Le Code comme Chaîne de Pensée pour la Prévisualisation Texte-Image et la Génération de Concepts Rares

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Résumé

Support