HiMu: Иерархический мультимодальный отбор кадров для ответов на вопросы по длинным видео
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
March 19, 2026
Авторы: Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
cs.AI
Аннотация
Решение задач вопросно-ответных систем для длинных видео требует анализа протяженных временных контекстов, что делает выбор ключевых кадров критически важным для больших языково-визуальных моделей (LVLM), ограниченных конечными окнами контекста. Существующие методы сталкиваются с резким компромиссом: селекторы на основе схожести работают быстро, но сворачивают композиционные запросы в единый плотный вектор, теряя порядок под-событий и кросс-модальные связи; агентские методы восстанавливают эту структуру за счет итеративных выводов LVLM, но неприемлемо дороги. Мы представляем HiMu, беспарадигменную систему, устраняющую этот разрыв. Единственный вызов текстовой LLM декомпозирует запрос в иерархическое логическое дерево, листья которого являются атомарными предикатами, каждый из которых направляется к легковесному эксперту, охватывающему визуальную (CLIP, детекция с открытым словарем, OCR) и аудио (ASR, CLAP) модальности. Полученные сигналы нормализуются, временно сглаживаются для согласования различных модальностей и компонуются снизу вверх через операторы нечеткой логики, обеспечивающие временную последовательность и смежность, формируя непрерывную кривую удовлетворения запроса. Оценки на Video-MME, LongVideoBench и HERBench-Lite показывают, что HiMu продвигает Парето-фронт эффективности-точности: при 16 кадрах с Qwen3-VL 8B он превосходит все конкурирующие селекторы, а с GPT-4o превосходит агентские системы, работающие с 32-512 кадрами, требуя при этом примерно в 10 раз меньше FLOPs.
English
Long-form video question answering requires reasoning over extended temporal contexts, making frame selection critical for large vision-language models (LVLMs) bound by finite context windows. Existing methods face a sharp trade-off: similarity-based selectors are fast but collapse compositional queries into a single dense vector, losing sub-event ordering and cross-modal bindings; agent-based methods recover this structure through iterative LVLM inference, but at prohibitive cost. We introduce HiMu, a training-free framework that bridges this gap. A single text-only LLM call decomposes the query into a hierarchical logic tree whose leaves are atomic predicates, each routed to a lightweight expert spanning vision (CLIP, open-vocabulary detection, OCR) and audio (ASR, CLAP). The resulting signals are normalized, temporally smoothed to align different modalities, and composed bottom-up through fuzzy-logic operators that enforce temporal sequencing and adjacency, producing a continuous satisfaction curve. Evaluations on Video-MME, LongVideoBench and HERBench-Lite show that HiMu advances the efficiency-accuracy Pareto front: at 16 frames with Qwen3-VL 8B it outperforms all competing selectors, and with GPT-4o it surpasses agentic systems operating at 32-512 frames while requiring roughly 10x fewer FLOPs.