Zekerheidsbewuste Toolorkestratie voor Robuust Videobegrip

Samenvatting

Videoredeneren-taalmodellen gaan impliciet uit van een gelijke betrouwbaarheid van elk invoerframe. Dit leidt tot wat wij het Blind Trust Probleem noemen: onder realistische verstoringen zoals bewegingsonscherpte, schittering of occlusie kunnen geavanceerde videoredeneringsmodellen een nauwkeurigheidsdaling van 15–30%p vertonen op real-world embodied benchmarks, terwijl ze zich er niet van bewust zijn dat hun visuele bewijs is aangetast. Om deze uitdaging aan te pakken, stellen wij Robust-TO voor, een agentisch videobegripsframework dat per-frame betrouwbaarheid expliciet integreert in elke fase van de redenering. Robust-TO organiseert heterogene visuele perceptiehulpmiddelen onder een uniforme bewijsinterface. Elk hulpmiddel ontvangt een subvraag, afgeleid van de oorspronkelijke vraag, en een set betrouwbare frames, geselecteerd op basis van de betrouwbaarheid-relevantiescore. Het retourneert bewijs in een gedeeld formaat: een concrete voorspelling (bijv. een begrenzingskader, bewegingsbaan, herkende tekst of actielabel), temporele verankering en een gekalibreerde betrouwbaarheidsscore. Tijdens het redeneren sturen deze gekalibreerde scores de weging van bewijs in een drielagig syntheseproces (hoog/midden/laag) en definiëren ze een confidence-cost GRPO-beloning die zowel correctheid, bewijsbetrouwbaarheid als efficiëntie optimaliseert. Op twee videoredeneringsbenchmarks die acht taken omvatten, behaalt Robust-TO een gemiddelde nauwkeurigheid van 56,4% op schone invoer, waarmee het de sterkste open-sourcebaseline met 10,6%p overtreft en Gemini-2.5-Pro (46,2%) verslaat. Onder vijf realistische corruptietypen handhaaft Robust-TO een gemiddelde nauwkeurigheid van 54,3%, 5,8%p boven de sterkste open-sourcebaseline, terwijl het de kleinste nauwkeurigheidsdaling van schoon naar gecorrumpeerd vertoont van alle vergeleken methoden.

English

Video reasoning language models implicitly assume that every input frame is equally reliable. This leads to what we term the Blind Trust Problem: under realistic perturbations such as motion blur, glare, or occlusion, frontier video reasoning models can suffer 15-30%p accuracy drops on real-world embodied benchmarks, while remaining unaware that their visual evidence has been degraded. To address this challenge, we propose Robust-TO, an agentic video understanding framework that explicitly integrates per-frame trustworthiness into every stage of reasoning. Robust-TO organizes heterogeneous visual perception tools under a unified evidence interface. Each tool receives a sub-query derived from the original question and a set of trustworthy frames selected by the reliability-relevance score. It returns evidence in a shared format: a concrete prediction (e.g., a bounding box, motion trajectory, recognized text, or action label), temporal grounding, and a calibrated reliability score. During reasoning, these calibrated scores guide evidence weighting in a three-tier synthesis process (high/medium/low) and define a confidence-cost GRPO reward that jointly optimizes correctness, evidence reliability, and efficiency. On two video reasoning benchmarks spanning eight tasks, Robust-TO achieves 56.4% average accuracy on clean inputs, surpassing the strongest open-source baseline by 10.6%p and outperforming Gemini-2.5-Pro (46.2%). Under five realistic corruption types, Robust-TO maintains 54.3% average accuracy, 5.8%p above the strongest open-source baseline, while exhibiting the smallest clean-to-corrupted accuracy drop among all compared methods.