CoCo: Code als CoT für Text-zu-Bild-Vorschau und Generierung seltener Konzepte

Zusammenfassung

Jüngste Fortschritte bei vereinheitlichten multimodalen Modellen (UMMs) haben die Text-zu-Bild-Generierung (T2I) erheblich vorangetrieben, insbesondere durch die Integration von Chain-of-Thought (CoT)-Reasoning. Bisherige CoT-basierte T2I-Methoden stützen sich jedoch weitgehend auf abstrakte natürlichsprachliche Planung, der die für komplexe räumliche Anordnungen, strukturierte visuelle Elemente und dichte Textinhalte erforderliche Präzision fehlt. In dieser Arbeit stellen wir CoCo (Code-as-CoT) vor, ein codegesteuertes Reasoning-Framework, das den Denkprozess als ausführbaren Code repräsentiert und so explizite, überprüfbare Zwischenplanung für die Bildgenerierung ermöglicht. Bei einer Texteingabe generiert CoCo zunächst ausführbaren Code, der den strukturellen Aufbau der Szene spezifiziert. Dieser Code wird in einer sandboxed-Umgebung ausgeführt, um ein deterministisches Vorentwurfsbild zu rendern. Anschließend verfeinert das Modell diesen Entwurf durch fein granulierte Bildbearbeitung, um das endgültige hochauflösende Ergebnis zu erzeugen. Um dieses Trainingsparadigma zu unterstützen, haben wir CoCo-10K erstellt, einen kuratierten Datensatz mit strukturierten Vorentwurf-Endbild-Paaren, der sowohl den Aufbau strukturierter Entwürfe als auch korrigierende visuelle Verfeinerung vermittelt. Empirische Auswertungen auf StructT2IBench, OneIG-Bench und LongText-Bench zeigen, dass CoCo Verbesserungen von +68,83 %, +54,8 % bzw. +41,23 % gegenüber Direktgenerierung erzielt und dabei andere durch CoT unterstützte Generierungsmethoden übertrifft. Diese Ergebnisse demonstrieren, dass ausführbarer Code ein effektives und zuverlässiges Reasoning-Paradigma für präzise, steuerbare und strukturierte Text-zu-Bild-Generierung darstellt. Der Code ist verfügbar unter: https://github.com/micky-li-hd/CoCo

English

Recent advancements in Unified Multimodal Models (UMMs) have significantly advanced text-to-image (T2I) generation, particularly through the integration of Chain-of-Thought (CoT) reasoning. However, existing CoT-based T2I methods largely rely on abstract natural-language planning, which lacks the precision required for complex spatial layouts, structured visual elements, and dense textual content. In this work, we propose CoCo (Code-as-CoT), a code-driven reasoning framework that represents the reasoning process as executable code, enabling explicit and verifiable intermediate planning for image generation. Given a text prompt, CoCo first generates executable code that specifies the structural layout of the scene, which is then executed in a sandboxed environment to render a deterministic draft image. The model subsequently refines this draft through fine-grained image editing to produce the final high-fidelity result. To support this training paradigm, we construct CoCo-10K, a curated dataset containing structured draft-final image pairs designed to teach both structured draft construction and corrective visual refinement. Empirical evaluations on StructT2IBench, OneIG-Bench, and LongText-Bench show that CoCo achieves improvements of +68.83%, +54.8%, and +41.23% over direct generation, while also outperforming other generation methods empowered by CoT. These results demonstrate that executable code is an effective and reliable reasoning paradigm for precise, controllable, and structured text-to-image generation. The code is available at: https://github.com/micky-li-hd/CoCo

CoCo: Code als CoT für Text-zu-Bild-Vorschau und Generierung seltener Konzepte

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Zusammenfassung

Support