Когда цифры говорят: согласование числительных в тексте и визуальных представлений в диффузионных моделях для генерации видео

Аннотация

Диффузионные модели для генерации видео по текстовому описанию открыли возможности для неограниченного синтеза видео, однако зачастую испытывают трудности с генерацией правильного количества объектов, указанного в промпте. Мы представляем NUMINA — не требующую дообучения систему identify-then-guide (идентифицируй и направляй) для улучшения численного соответствия. NUMINA выявляет несоответствия между промптом и компоновкой, выбирая информативные самовнимающие и кросс-внимающие головы для получения исчисляемого латентного расположения. Затем она осторожно уточняет это расположение и модулирует кросс-внимание для управления процессом регенерации. На представленном бенчмарке CountBench NUMINA повышает точность подсчёта до 7.4% для модели WAN2.1-1.3B и на 4.9% и 5.5% для моделей на 5 и 14 миллиардов параметров соответственно. Кроме того, улучшается соответствие по метрике CLIP при сохранении временной согласованности. Эти результаты демонстрируют, что структурное руководство дополняет поиск начальных состояний и улучшение промптов, предлагая практический путь к созданию диффузионных моделей для генерации видео по тексту с точным подсчётом объектов. Код доступен по адресу https://github.com/H-EmbodVis/NUMINA.

English

Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.

Когда цифры говорят: согласование числительных в тексте и визуальных представлений в диффузионных моделях для генерации видео

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Аннотация

Support