Wenn Zahlen sprechen: Die Ausrichtung von textuellen Zahlen und visuellen Instanzen in Text-zu-Video-Diffusionsmodellen

Zusammenfassung

Text-to-Video-Diffusionsmodelle ermöglichen eine offene Videosynthese, haben jedoch oft Schwierigkeiten, die korrekte Anzahl von Objekten zu generieren, die in einer Eingabeaufforderung angegeben ist. Wir stellen NUMINA vor, ein trainierungsfreies Identify-then-Guide-Framework zur Verbesserung der numerischen Übereinstimmung. NUMINA identifiziert Inkonsistenzen zwischen Eingabeaufforderung und Layout, indem es diskriminative Selbst- und Kreuz-Attentions-Köpfe auswählt, um ein zählbares latentes Layout abzuleiten. Anschließend verfeinert es dieses Layout konservativ und moduliert die Kreuz-Attention, um die Regeneration zu steuern. Auf der eingeführten CountBench verbessert NUMINA die Zählgenauigkeit um bis zu 7,4 % bei Wan2.1-1.3B sowie um 4,9 % bzw. 5,5 % bei 5B- und 14B-Modellen. Darüber hinaus wird die CLIP-Übereinstimmung verbessert, während die zeitliche Konsistenz erhalten bleibt. Diese Ergebnisse zeigen, dass strukturelle Führung die Suche nach Ausgangspunkten und die Verbesserung von Eingabeaufforderungen ergänzt und einen praktischen Weg zu zählgenauer Text-zu-Video-Diffusion bietet. Der Code ist verfügbar unter https://github.com/H-EmbodVis/NUMINA.

English

Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.

Wenn Zahlen sprechen: Die Ausrichtung von textuellen Zahlen und visuellen Instanzen in Text-zu-Video-Diffusionsmodellen

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Zusammenfassung

Support