HiMu : Sélection hiérarchique multimodale de trames pour le question-réponse sur vidéos longues

Résumé

La réponse à des questions sur de longues vidéos nécessite un raisonnement sur des contextes temporels étendus, ce qui rend la sélection de frames critique pour les grands modèles vision-langage (LVLM) contraints par des fenêtres de contexte finies. Les méthodes existantes sont confrontées à un compromis marqué : les sélecteurs basés sur la similarité sont rapides mais réduisent les requêtes compositionnelles à un seul vecteur dense, perdant l'ordre des sous-événements et les liens intermodaux ; les méthodes agentives récupèrent cette structure via des inférences LVLM itératives, mais à un coût prohibitif. Nous présentons HiMu, un cadre sans apprentissage qui comble cet écart. Un seul appel à un LLM purement textuel décompose la requête en un arbre logique hiérarchique dont les feuilles sont des prédicats atomiques, chacun étant acheminé vers un expert léger couvrant la vision (CLIP, détection open-vocabulary, OCR) et l'audio (reconnaissance automatique de la parole, CLAP). Les signaux résultants sont normalisés, lissés temporellement pour aligner les différentes modalités, et composés de manière ascendante via des opérateurs de logique floue qui imposent un séquençage et une adjacence temporels, produisant une courbe de satisfaction continue. Les évaluations sur Video-MME, LongVideoBench et HERBench-Lite montrent que HiMu améliore le front de Pareto efficacité-précision : à 16 frames avec Qwen3-VL 8B, il surpasse tous les sélecteurs concurrents, et avec GPT-4o, il dépasse les systèmes agentiques opérant à 32-512 frames tout en nécessitant environ 10 fois moins de FLOPs.

English

Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.

HiMu : Sélection hiérarchique multimodale de trames pour le question-réponse sur vidéos longues

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Résumé

Support