CoF-T2I: Modelos de Vídeo como Raciocinadores Visuais Puros para Geração de Texto em Imagem

Resumo

Modelos recentes de geração de vídeo revelaram o surgimento do raciocínio em Cadeia de Frames (Chain-of-Frame - CoF), permitindo inferência visual frame a frame. Com essa capacidade, os modelos de vídeo foram aplicados com sucesso a várias tarefas visuais (por exemplo, resolução de labirintos, quebra-cabeças visuais). No entanto, seu potencial para melhorar a geração de texto para imagem (Text-to-Image - T2I) permanece amplamente inexplorado devido à ausência de um ponto de partida de raciocínio visual claramente definido e de estados intermediários interpretáveis no processo de geração T2I. Para preencher essa lacuna, propomos o CoF-T2I, um modelo que integra o raciocínio CoF na geração T2I por meio de um refinamento visual progressivo, onde os frames intermediários atuam como etapas explícitas de raciocínio e o frame final é tomado como saída. Para estabelecer esse processo de geração explícito, criamos o CoF-Evol-Instruct, um conjunto de dados de trajetórias CoF que modelam o processo de geração da semântica para a estética. Para melhorar ainda mais a qualidade e evitar artefatos de movimento, habilitamos uma operação de codificação independente para cada frame. Experimentos mostram que o CoF-T2I supera significativamente o modelo de vídeo base e alcança desempenho competitivo em benchmarks desafiadores, atingindo 0,86 no GenEval e 7,468 no Imagine-Bench. Esses resultados indicam a promessa substancial dos modelos de vídeo para o avanço da geração de imagens de alta qualidade a partir de texto.

English

Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.

CoF-T2I: Modelos de Vídeo como Raciocinadores Visuais Puros para Geração de Texto em Imagem

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

Resumo

Support