CoCo: Code als CoT voor Tekst-naar-Beeld Voorvertoning en Generatie van Zeldzame Concepten

Samenvatting

Recente vooruitgang in Unified Multimodal Models (UMM's) heeft tekst-naar-beeld-generatie (T2I) aanzienlijk verbeterd, met name door de integratie van Chain-of-Thought (CoT)-redenering. Bestaande CoT-gebaseerde T2I-methoden zijn echter grotendeels afhankelijk van abstracte planning in natuurlijke taal, wat de precisie mist die nodig is voor complexe ruimtelijke lay-outs, gestructureerde visuele elementen en dense tekstuele inhoud. In dit werk stellen we CoCo (Code-as-CoT) voor, een code-gestuurd redeneerkader dat het redeneerproces vertegenwoordigt als uitvoerbare code, waardoor expliciete en verifieerbare tussenplanning voor beeldgeneratie mogelijk wordt. Gegeven een tekstprompt genereert CoCo eerst uitvoerbare code die de structurele lay-out van de scène specificeert, die vervolgens wordt uitgevoerd in een gescheiden omgeving om een deterministisch conceptbeeld te renderen. Het model verfijnt dit concept vervolgens via fijnmazige beeldbewerking om het uiteindelijke hoogfideliteitsresultaat te produceren. Om dit trainingsparadigma te ondersteunen, construeren we CoCo-10K, een gecureerde dataset met gestructureerde concept-eindbeeldparen die is ontworpen om zowel gestructureerde conceptconstructie als correctieve visuele verfijning aan te leren. Empirische evaluaties op StructT2IBench, OneIG-Bench en LongText-Bench tonen aan dat CoCo verbeteringen behaalt van respectievelijk +68,83%, +54,8% en +41,23% ten opzichte van directe generatie, terwijl het ook andere generatiemethoden die door CoT worden aangedreven, overtreft. Deze resultaten tonen aan dat uitvoerbare code een effectief en betrouwbaar redeneerparadigma is voor precieze, controleerbare en gestructureerde tekst-naar-beeldgeneratie. De code is beschikbaar op: https://github.com/micky-li-hd/CoCo

English

Recent advancements in Unified Multimodal Models (UMMs) have significantly advanced text-to-image (T2I) generation, particularly through the integration of Chain-of-Thought (CoT) reasoning. However, existing CoT-based T2I methods largely rely on abstract natural-language planning, which lacks the precision required for complex spatial layouts, structured visual elements, and dense textual content. In this work, we propose CoCo (Code-as-CoT), a code-driven reasoning framework that represents the reasoning process as executable code, enabling explicit and verifiable intermediate planning for image generation. Given a text prompt, CoCo first generates executable code that specifies the structural layout of the scene, which is then executed in a sandboxed environment to render a deterministic draft image. The model subsequently refines this draft through fine-grained image editing to produce the final high-fidelity result. To support this training paradigm, we construct CoCo-10K, a curated dataset containing structured draft-final image pairs designed to teach both structured draft construction and corrective visual refinement. Empirical evaluations on StructT2IBench, OneIG-Bench, and LongText-Bench show that CoCo achieves improvements of +68.83%, +54.8%, and +41.23% over direct generation, while also outperforming other generation methods empowered by CoT. These results demonstrate that executable code is an effective and reliable reasoning paradigm for precise, controllable, and structured text-to-image generation. The code is available at: https://github.com/micky-li-hd/CoCo

CoCo: Code als CoT voor Tekst-naar-Beeld Voorvertoning en Generatie van Zeldzame Concepten

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Samenvatting

Support