Cuando los números hablan: Alineación de numerales textuales e instancias visuales en modelos de difusión de texto a video.
When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models
April 9, 2026
Autores: Zhengyang Sun, Yu Chen, Xin Zhou, Xiaofan Li, Xiwu Chen, Dingkang Liang, Xiang Bai
cs.AI
Resumen
Los modelos de difusión de texto a vídeo han permitido la síntesis de vídeo abierta, pero a menudo presentan dificultades para generar la cantidad correcta de objetos especificados en un *prompt*. Presentamos NUMINA, un marco de trabajo de identificación y guía que no requiere entrenamiento para mejorar la alineación numérica. NUMINA identifica las inconsistencias entre el *prompt* y la disposición espacial seleccionando cabezas de auto-atención y atención cruzada discriminativas para derivar un diseño latente contable. Luego, refina este diseño de manera conservadora y modula la atención cruzada para guiar la regeneración. En el benchmark CountBench presentado, NUMINA mejora la precisión en el recuento hasta en un 7.4% en Wan2.1-1.3B, y en un 4.9% y 5.5% en modelos de 5B y 14B, respectivamente. Además, mejora la alineación CLIP manteniendo la coherencia temporal. Estos resultados demuestran que la guía estructural complementa la búsqueda de semillas y la mejora de *prompts*, ofreciendo un camino práctico hacia la difusión de texto a vídeo con recuento preciso. El código está disponible en https://github.com/H-EmbodVis/NUMINA.
English
Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.