ChatPaper.aiChatPaper

CoF-T2I : Les modèles vidéo en tant que raisonneurs purement visuels pour la génération d'images à partir de texte

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

January 15, 2026
papers.authors: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
cs.AI

papers.abstract

Les modèles récents de génération vidéo ont révélé l'émergence d'un raisonnement en chaîne de frames (CoF), permettant une inférence visuelle frame par frame. Grâce à cette capacité, les modèles vidéo ont été appliqués avec succès à diverses tâches visuelles (par exemple, la résolution de labyrinthes, les puzzles visuels). Cependant, leur potentiel pour améliorer la génération texte-image (T2I) reste largement inexploré en raison de l'absence d'un point de départ clairement défini pour le raisonnement visuel et d'états intermédiaires interprétables dans le processus de génération T2I. Pour combler cette lacune, nous proposons CoF-T2I, un modèle qui intègre le raisonnement CoF dans la génération T2I via un raffinement visuel progressif, où les frames intermédiaires agissent comme des étapes de raisonnement explicites et la frame finale est prise comme sortie. Pour établir un tel processus de génération explicite, nous constituons CoF-Evol-Instruct, un jeu de données de trajectoires CoF qui modélise le processus de génération de la sémantique à l'esthétique. Pour améliorer davantage la qualité et éviter les artefacts de mouvement, nous permettons une opération d'encodage indépendante pour chaque frame. Les expériences montrent que CoF-T2I surpasse significativement le modèle vidéo de base et obtient des performances compétitives sur des benchmarks difficiles, atteignant 0,86 sur GenEval et 7,468 sur Imagine-Bench. Ces résultats indiquent le potentiel substantiel des modèles vidéo pour faire progresser la génération texte-image de haute qualité.
English
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.
PDF251January 17, 2026