HiMu: Hiërarchische Multimodale Frame-selectie voor Vragen Beantwoorden over Lange Video's
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
March 19, 2026
Auteurs: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
Samenvatting
Langdurige video-vraagantwoording vereist redeneren over uitgebreide temporele contexten, waardoor frameselectie cruciaal is voor grote visie-taalmodellen (LVLM's) die gebonden zijn aan beperkte contextvensters. Bestaande methoden kampen met een scherpe afweging: op gelijkenis gebaseerde selectors zijn snel maar verkleinen compositionele vragen tot een enkele dichte vector, waarbij subgebeurtenisvolgorde en cross-modale bindingen verloren gaan; op agenten gebaseerde methoden herstellen deze structuur via iteratieve LVLM-inferentie, maar tegen onbetaalbare kosten. Wij introduceren HiMu, een trainingsvrij raamwerk dat deze kloof overbrugt. Eén tekstuele LLM-aanroep decomposeert de vraag in een hiërarchische logische boom waarvan de bladeren atomaire predicaten zijn, elk gerouteerd naar een lichtgewicht expert die visie (CLIP, open-vocabulary-detectie, OCR) en audio (ASR, CLAP) omspant. De resulterende signalen worden genormaliseerd, temporeel gladgestreken om verschillende modaliteiten uit te lijnen, en van onderaf samengesteld via fuzzy-logica-operatoren die temporele volgorde en adjacentie afdwingen, wat een continue satisfactiecurve oplevert. Evaluaties op Video-MME, LongVideoBench en HERBench-Lite tonen aan dat HiMu het efficiëntie-nauwkeurigheid-Pareto-front verbetert: bij 16 frames met Qwen3-VL 8B presteert het beter dan alle concurrerende selectors, en met GPT-4o overtreft het agent-gebaseerde systemen die opereren op 32-512 frames, terwijl het ongeveer 10x minder FLOPs vereist.
English
Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.