HiMu: Hierarchische multimodale Rahmenselektion für Frage-Antwort-Systeme mit langen Videos
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
March 19, 2026
Autoren: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
Zusammenfassung
Langformat-Videofragebeantwortung erfordert Schlussfolgerungen über erweiterte zeitliche Kontexte, was die Bildauswahl für große Vision-Sprache-Modelle (LVLMs) mit begrenzten Kontextfenstern entscheidend macht. Bestehende Methoden stehen vor einem deutlichen Zielkonflikt: Ähnlichkeitsbasierte Selektoren sind schnell, reduzieren aber kompositionelle Abfragen auf einen einzelnen dichten Vektor und verlieren dabei Teilereignisreihenfolge und cross-modale Bindungen; agentenbasierte Methoden stellen diese Struktur durch iterative LVLM-Inferenz wieder her, jedoch zu prohibitiv hohen Kosten. Wir stellen HiMu vor, ein trainierungsfreies Framework, das diese Lücke schließt. Ein einzelner LLM-Aufruf (nur Text) zerlegt die Abfrage in einen hierarchischen Logikbaum, dessen Blätter atomare Prädikate sind – jedes wird einem leichtgewichtigen Experten zugeleitet, der Vision (CLIP, Open-Vocabulary Detection, OCR) und Audio (ASR, CLAP) abdeckt. Die resultierenden Signale werden normalisiert, zeitlich geglättet, um verschiedene Modalitäten abzugleichen, und bottom-up durch Fuzzy-Logik-Operatoren zusammengesetzt, die zeitliche Abfolge und Nachbarschaft erzwingen, wodurch eine kontinuierliche Erfüllungskurve entsteht. Evaluationen auf Video-MME, LongVideoBench und HERBench-Lite zeigen, dass HiMu die Effizienz-Genauigkeits-Paretofront vorantreibt: Mit 16 Frames und Qwen3-VL 8B übertrifft es alle konkurrierenden Selektoren, und mit GPT-4o übertrifft es agentenbasierte Systeme, die mit 32-512 Frames operieren, bei etwa 10x geringerem FLOPs-Bedarf.
English
Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.