CoF-T2I: Videomodellen als zuiver visuele redeneerders voor tekst-naar-beeldgeneratie
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
January 15, 2026
Auteurs: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
cs.AI
Samenvatting
Recente videogeneratiemodellen hebben het ontstaan van Chain-of-Frame (CoF)-redenering onthuld, wat visuele inferentie frame-voor-frame mogelijk maakt. Met deze capaciteit zijn videomodellen met succes toegepast op diverse visuele taken (bijvoorbeeld het oplossen van doolhoven, visuele puzzels). Hun potentieel om tekst-naar-beeld (T2I)-generatie te verbeteren, blijft echter grotendeels onontgonnen vanwege de afwezigheid van een duidelijk gedefinieerd startpunt voor visuele redenering en interpreteerbare tussenstadia in het T2I-generatieproces. Om deze kloof te overbruggen, stellen we CoF-T2I voor, een model dat CoF-redenering integreert in T2I-generatie via progressieve visuele verfijning, waarbij tussenliggende frames fungeren als expliciete redeneringsstappen en het laatste frame als output wordt genomen. Om een dergelijk expliciet generatieproces te creëren, hebben we CoF-Evol-Instruct samengesteld, een dataset van CoF-trajecten die het generatieproces van semantiek naar esthetiek modelleren. Om de kwaliteit verder te verbeteren en bewegingsartefacten te vermijden, maken we onafhankelijke codering per frame mogelijk. Experimenten tonen aan dat CoF-T2I de basis-videomodel significant overtreft en competitieve prestaties behaalt op uitdagende benchmarks, met een score van 0.86 op GenEval en 7.468 op Imagine-Bench. Deze resultaten wijzen op de aanzienlijke belofte van videomodellen voor het bevorderen van hoogwaardige tekst-naar-beeldgeneratie.
English
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.