ChatPaper.aiChatPaper

Когда цифры говорят: согласование числительных в тексте и визуальных представлений в диффузионных моделях для генерации видео

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

April 9, 2026
Авторы: Zhengyang Sun, Yu Chen, Xin Zhou, Xiaofan Li, Xiwu Chen, Dingkang Liang, Xiang Bai
cs.AI

Аннотация

Диффузионные модели для генерации видео по текстовому описанию открыли возможности для неограниченного синтеза видео, однако зачастую испытывают трудности с генерацией правильного количества объектов, указанного в промпте. Мы представляем NUMINA — не требующую дообучения систему identify-then-guide (идентифицируй и направляй) для улучшения численного соответствия. NUMINA выявляет несоответствия между промптом и компоновкой, выбирая информативные самовнимающие и кросс-внимающие головы для получения исчисляемого латентного расположения. Затем она осторожно уточняет это расположение и модулирует кросс-внимание для управления процессом регенерации. На представленном бенчмарке CountBench NUMINA повышает точность подсчёта до 7.4% для модели WAN2.1-1.3B и на 4.9% и 5.5% для моделей на 5 и 14 миллиардов параметров соответственно. Кроме того, улучшается соответствие по метрике CLIP при сохранении временной согласованности. Эти результаты демонстрируют, что структурное руководство дополняет поиск начальных состояний и улучшение промптов, предлагая практический путь к созданию диффузионных моделей для генерации видео по тексту с точным подсчётом объектов. Код доступен по адресу https://github.com/H-EmbodVis/NUMINA.
English
Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.
PDF1042April 11, 2026