ChatPaper.aiChatPaper

CoF-T2I: Videomodelle als reine visuelle Schlussfolgerer für die Text-zu-Bild-Generierung

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

January 15, 2026
papers.authors: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
cs.AI

papers.abstract

Aktuelle Videogenerierungsmodelle haben das Auftreten von Chain-of-Frame (CoF)-Reasoning aufgezeigt, das eine bildliche Schlussfolgerung Frame für Frame ermöglicht. Mit dieser Fähigkeit wurden Videomodelle erfolgreich auf verschiedene visuelle Aufgaben angewendet (z.B. Labyrinth-Lösung, visuelle Rätsel). Ihr Potenzial zur Verbesserung der Text-zu-Bild (T2I)-Generierung bleibt jedoch weitgehend unerforscht, da im T2I-Generierungsprozess ein klar definierter visueller Reasoning-Startpunkt und interpretierbare Zwischenzustände fehlen. Um diese Lücke zu schließen, schlagen wir CoF-T2I vor, ein Modell, das CoF-Reasoning über progressive visuelle Verfeinerung in die T2I-Generierung integriert, wobei Zwischenframes als explizite Reasoning-Schritte dienen und der letzte Frame als Ausgabe verwendet wird. Um einen solchen expliziten Generierungsprozess zu etablieren, haben wir CoF-Evol-Instruct kuratiert, einen Datensatz von CoF-Trajektorien, die den Generierungsprozess von Semantik zu Ästhetik modellieren. Um die Qualität weiter zu verbessern und Bewegungsartefakte zu vermeiden, ermöglichen wir eine unabhängige Enkodierungsoperation für jeden Frame. Experimente zeigen, dass CoF-T2I das Basis-Videomodell signifikant übertrifft und eine wettbewerbsfähige Leistung auf anspruchsvollen Benchmarks erzielt, mit 0,86 auf GenEval und 7,468 auf Imagine-Bench. Diese Ergebnisse deuten auf das beträchtliche Potenzial von Videomodellen für die Weiterentwicklung hochwertiger Text-zu-Bild-Generierung hin.
English
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.
PDF251January 17, 2026