Оркестрация инструментов с учётом уверенности для надёжного понимания видео

Аннотация

Модели видеорассуждения неявно предполагают, что каждый входной кадр одинаково надежен. Это приводит к тому, что мы называем проблемой слепого доверия: при реалистичных искажениях, таких как размытие движения, блики или окклюзия, передовые модели видеорассуждения могут терять 15–30 процентных пунктов точности на реальных встраиваемых эталонных тестах, оставаясь при этом неосведомленными о том, что их визуальные данные были ухудшены. Для решения этой задачи мы предлагаем Robust-TO — агентную структуру понимания видео, которая явно интегрирует доверие к каждому кадру на каждом этапе рассуждения. Robust-TO организует разнородные инструменты визуального восприятия под единым интерфейсом свидетельств. Каждый инструмент получает подзапрос, полученный из исходного вопроса, и набор надежных кадров, отобранных по оценке надежности-релевантности. Он возвращает свидетельства в общем формате: конкретное предсказание (например, ограничивающая рамка, траектория движения, распознанный текст или метка действия), временная привязка и калиброванная оценка надежности. В процессе рассуждения эти калиброванные оценки направляют взвешивание свидетельств в трехуровневом процессе синтеза (высокий/средний/низкий) и определяют вознаграждение GRPO на основе уверенности и затрат, которое совместно оптимизирует корректность, надежность свидетельств и эффективность. На двух эталонных тестах видеорассуждения, охватывающих восемь задач, Robust-TO достигает средней точности 56,4% на чистых входных данных, превосходя самую сильную открытую базовую линию на 10,6 процентных пункта и опережая Gemini-2.5-Pro (46,2%). При пяти реалистичных типах искажений Robust-TO сохраняет среднюю точность 54,3%, что на 5,8 процентных пункта выше самой сильной открытой базовой линии, при этом демонстрируя наименьшее падение точности от чистых к искаженным данным среди всех сравниваемых методов.

English

Video reasoning language models implicitly assume that every input frame is equally reliable. This leads to what we term the Blind Trust Problem: under realistic perturbations such as motion blur, glare, or occlusion, frontier video reasoning models can suffer 15-30%p accuracy drops on real-world embodied benchmarks, while remaining unaware that their visual evidence has been degraded. To address this challenge, we propose Robust-TO, an agentic video understanding framework that explicitly integrates per-frame trustworthiness into every stage of reasoning. Robust-TO organizes heterogeneous visual perception tools under a unified evidence interface. Each tool receives a sub-query derived from the original question and a set of trustworthy frames selected by the reliability-relevance score. It returns evidence in a shared format: a concrete prediction (e.g., a bounding box, motion trajectory, recognized text, or action label), temporal grounding, and a calibrated reliability score. During reasoning, these calibrated scores guide evidence weighting in a three-tier synthesis process (high/medium/low) and define a confidence-cost GRPO reward that jointly optimizes correctness, evidence reliability, and efficiency. On two video reasoning benchmarks spanning eight tasks, Robust-TO achieves 56.4% average accuracy on clean inputs, surpassing the strongest open-source baseline by 10.6%p and outperforming Gemini-2.5-Pro (46.2%). Under five realistic corruption types, Robust-TO maintains 54.3% average accuracy, 5.8%p above the strongest open-source baseline, while exhibiting the smallest clean-to-corrupted accuracy drop among all compared methods.