HiMu: 長尺ビデオ質問応答のための階層的マルチモーダルフレーム選択
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
March 19, 2026
著者: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
要旨
長時間動画質問応答では、拡張された時間的コンテキストに対する推論が要求されるため、有限のコンテキストウィンドウに制約される大規模視覚言語モデル(LVLM)においてフレーム選択が極めて重要となる。既存手法は鋭いトレードオフに直面している:類似性ベースの選択手法は高速だが、合成的クエリを単一の密ベクトルに圧縮するため、サブイベントの順序関係やクロスモーダルな結合情報が失われる。エージェントベース手法は反復的なLVLM推論を通じてこの構造を回復するが、膨大なコストがかかる。我々はこのギャップを埋める学習不要フレームワークHiMuを提案する。単一のテキスト専用LLM呼び出しにより、クエリを階層的な論理木に分解し、その葉ノードは原子述語となる。各述語は視覚(CLIP、オープン語彙検出、OCR)および音声(ASR、CLAP)に跨る軽量エキスパートに振り分けられる。得られた信号は正規化され、異なるモダリティを整合させるため時間的に平滑化された後、時間的順序と隣接性を保証するファジィ論理演算子によるボトムアップ合成を経て、連続的な充足度曲線を生成する。Video-MME、LongVideoBench、HERBench-Liteによる評価では、HiMuが効率と精度のパレートフロンティアを推進することを示した:Qwen3-VL 8Bで16フレーム使用時、全ての競合する選択手法を性能で上回り、GPT-4oでは32-512フレーム動作するエージェント型システムを性能で凌駕しつつ、必要FLOPsを約10分の1に削減した。
English
Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.