HiMu: Selección Jerárquica Multimodal de Fotogramas para la Respuesta a Preguntas en Vídeos Largos

Resumen

La resolución de preguntas en videos de larga duración requiere razonar sobre contextos temporales extensos, lo que hace que la selección de fotogramas sea crítica para los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés) limitados por ventanas de contexto finitas. Los métodos existentes enfrentan una disyuntiva marcada: los selectores basados en similitud son rápidos pero comprimen consultas compositivas en un único vector denso, perdiendo el orden de los subeventos y las vinculaciones multimodales; los métodos basados en agentes recuperan esta estructura mediante inferencia LVLM iterativa, pero a un costo prohibitivo. Presentamos HiMu, un marco de trabajo que no requiere entrenamiento y que salva esta brecha. Una única llamada a un LLM de solo texto descompone la consulta en un árbol lógico jerárquico cuyas hojas son predicados atómicos, cada uno enrutado a un experto ligero que abarca visión (CLIP, detección de vocabulario abierto, OCR) y audio (ASR, CLAP). Las señales resultantes se normalizan, se suavizan temporalmente para alinear las diferentes modalidades y se componen de abajo hacia arriba mediante operadores de lógica difusa que imponen secuenciación y adyacencia temporal, produciendo una curva de satisfacción continua. Las evaluaciones en Video-MME, LongVideoBench y HERBench-Lite muestran que HiMu mejora el frente de Pareto de eficiencia-precisión: con 16 fotogramas y Qwen3-VL 8B supera a todos los selectores competidores, y con GPT-4o supera a los sistemas agentes que operan con 32-512 fotogramas, requiriendo aproximadamente 10 veces menos FLOPS.

English

Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.

HiMu: Selección Jerárquica Multimodal de Fotogramas para la Respuesta a Preguntas en Vídeos Largos

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Resumen

Support