HiMu: Seleção Hierárquica Multimodal de Quadros para Questionamento sobre Vídeos Longos

Resumo

A resposta a perguntas em vídeos longos exige raciocínio sobre contextos temporais estendidos, tornando a seleção de quadros crítica para grandes modelos de visão e linguagem (LVLMs) limitados por janelas de contexto finitas. Os métodos existentes enfrentam uma forte dicotomia: seletores baseados em similaridade são rápidos, mas colapsam consultas composicionais em um único vetor denso, perdendo a ordenação de subeventos e os vínculos cross-modais; métodos baseados em agente recuperam essa estrutura por meio de inferência iterativa do LVLM, mas a um custo proibitivo. Apresentamos HiMu, uma estrutura *training-free* que preenche esta lacuna. Uma única chamada a um LLM apenas de texto decompõe a consulta em uma árvore lógica hierárquica cujas folhas são predicados atômicos, cada um roteado para um especialista leve que abrange visão (CLIP, detecção de vocabulário aberto, OCR) e áudio (ASR, CLAP). Os sinais resultantes são normalizados, suavizados temporalmente para alinhar diferentes modalidades e compostos de baixo para cima por meio de operadores de lógica difusa que impõem sequenciamento e adjacência temporal, produzindo uma curva de satisfação contínua. Avaliações no Video-MME, LongVideoBench e HERBench-Lite mostram que o HiMu avança a fronteira de Pareto de eficiência-precisão: com 16 quadros no Qwen3-VL 8B, ele supera todos os seletores concorrentes, e com o GPT-4o supera sistemas agentes operando com 32-512 quadros, enquanto requer aproximadamente 10 vezes menos FLOPS.

English

Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.

HiMu: Seleção Hierárquica Multimodal de Quadros para Questionamento sobre Vídeos Longos

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Resumo

Support