HiMu: Selezione Gerarchica Multimodale dei Frame per il Question-Answering su Video Lunghi

Abstract

L'answer reasoning su video di lunga durata richiede un ragionamento su contesti temporali estesi, rendendo la selezione dei frame critica per i grandi modelli visione-linguaggio (LVLM) vincolati da finestre di contesto finite. I metodi esistenti affrontano un netto compromesso: i selettori basati su similarità sono veloci ma comprimono query compositive in un singolo vettore denso, perdendo l'ordinamento dei sotto-eventi e i legami cross-modali; i metodi agent-based recuperano questa struttura attraverso inferenze LVLM iterative, ma a costi proibitivi. Introduciamo HiMu, un framework senza training che colma questa lacuna. Una singola chiamata a un LLM esclusivamente testuale scompone la query in un albero logico gerarchico le cui foglie sono predicati atomici, ciascuno indirizzato a un esperto leggero che copre visione (CLIP, rilevamento open-vocabulary, OCR) e audio (ASR, CLAP). I segnali risultanti vengono normalizzati, temporalmente levigati per allineare le diverse modalità, e composti bottom-up attraverso operatori di fuzzy-logic che impongono sequenzialità e adiacenza temporale, producendo una curva di soddisfacimento continua. Le valutazioni su Video-MME, LongVideoBench e HERBench-Lite mostrano che HiMu avanza il fronte di Pareto efficienza-accuratezza: a 16 frame con Qwen3-VL 8B supera tutti i selettori concorrenti, e con GPT-4o supera i sistemi agentistici operanti a 32-512 frame richiedendo circa 10 volte meno FLOP.

English

Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.

HiMu: Selezione Gerarchica Multimodale dei Frame per il Question-Answering su Video Lunghi

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Abstract

Support