Quand les chiffres parlent : aligner les chiffres textuels et les instances visuelles dans les modèles de diffusion texte-vidéo

Résumé

Les modèles de diffusion texte-vidéo permettent une synthèse vidéo ouverte, mais peinent souvent à générer le nombre correct d'objets spécifié dans l'invite. Nous présentons NUMINA, un cadre d'identification-puis-guidage sans apprentissage pour une meilleure alignement numérique. NUMINA identifie les incohérences entre l'invite et la disposition en sélectionnant des têtes d'auto-attention et d'attention croisée discriminantes pour dériver une disposition latente dénombrable. Il affine ensuite cette disposition de manière conservative et module l'attention croisée pour guider la régénération. Sur le benchmark CountBench introduit, NUMINA améliore la précision du décompte jusqu'à 7,4% sur Wan2.1-1.3B, et de 4,9% et 5,5% respectivement sur les modèles 5B et 14B. De plus, l'alignement CLIP est amélioré tout en maintenant la cohérence temporelle. Ces résultats démontrent que le guidage structurel complète la recherche de germes et l'enrichissement des invites, offrant une voie pratique vers la diffusion texte-vidéo avec décompte précis. Le code est disponible à l'adresse https://github.com/H-EmbodVis/NUMINA.

English

Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.

Quand les chiffres parlent : aligner les chiffres textuels et les instances visuelles dans les modèles de diffusion texte-vidéo

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Résumé

Support