Wanneer Nummers Spreken: Het Afstemmen van Tekstuele Numerieke Waarden en Visuele Voorbeelden in Tekst-naar-Video Diffusiemodellen
When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models
April 9, 2026
Auteurs: Zhengyang Sun, Yu Chen, Xin Zhou, Xiaofan Li, Xiwu Chen, Dingkang Liang, Xiang Bai
cs.AI
Samenvatting
Tekst-naar-video-diffusiemodellen hebben open-ended videosynthese mogelijk gemaakt, maar hebben vaak moeite met het genereren van het juiste aantal objecten dat in een prompt is gespecificeerd. Wij introduceren NUMINA, een trainingsvrij identify-then-guide raamwerk voor verbeterde numerieke uitlijning. NUMINA identificeert prompt-lay-out inconsistenties door onderscheidende zelf- en kruis-attentiekopjes te selecteren om een telbare latente lay-out af te leiden. Vervolgens verfijnt het deze lay-out conservatief en moduleert het kruis-attentie om regeneratie te sturen. Op de geïntroduceerde CountBench verbetert NUMINA de telnauwkeurigheid met tot 7,4% op Wan2.1-1.3B, en met respectievelijk 4,9% en 5,5% op 5B- en 14B-modellen. Bovendien wordt CLIP-uitlijning verbeterd terwijl temporele consistentie behouden blijft. Deze resultaten tonen aan dat structurele begeleiding zaadzoeken en promptverbetering complementeert, en een praktisch pad biedt naar telnauwkeurige tekst-naar-video-diffusie. De code is beschikbaar op https://github.com/H-EmbodVis/NUMINA.
English
Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.