ChatPaper.aiChatPaper

CyberV: Cybernetica voor schaling tijdens testtijd in videobegrip

CyberV: Cybernetics for Test-time Scaling in Video Understanding

June 9, 2025
Auteurs: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
cs.AI

Samenvatting

Huidige Multimodale Grote Taalmodellen (MLLMs) kunnen moeite hebben met het begrijpen van lange of complexe video's vanwege de rekenkundige eisen tijdens het testen, een gebrek aan robuustheid en beperkte nauwkeurigheid, wat voornamelijk voortkomt uit hun feed-forward verwerkingsnatuur. Deze beperkingen kunnen ernstiger zijn voor modellen met minder parameters. Om deze beperkingen aan te pakken, stellen we een nieuw framework voor, geïnspireerd op cybernetische principes, waarbij video-MLLMs worden herontworpen als adaptieve systemen die in staat zijn tot zelfmonitoring, zelfcorrectie en dynamische resourceallocatie tijdens inferentie. Onze aanpak, CyberV, introduceert een cybernetische lus bestaande uit een MLLM Inferentie Systeem, een Sensor en een Controller. Specifiek monitort de sensor de voorwaartse processen van het MLLM en verzamelt tussenliggende interpretaties, zoals aandachtverschuiving, waarna de controller bepaalt wanneer en hoe zelfcorrectie moet worden geactiveerd en feedback genereert om de volgende ronde te begeleiden. Dit test-time adaptieve schalingsframework verbetert bevroren MLLMs zonder hertraining of extra componenten te vereisen. Experimenten tonen significante verbeteringen aan: CyberV verhoogt Qwen2.5-VL-7B met 8.3% en InternVL3-8B met 5.5% op VideoMMMU, wat het concurrerende propriëtaire model GPT-4o overtreft. Wanneer toegepast op Qwen2.5-VL-72B, resulteert het in een verbetering van 10.0%, wat zelfs vergelijkbaar is met de prestaties van menselijke experts. Bovendien toont onze methode consistente verbeteringen op algemene benchmarks, zoals VideoMME en WorldSense, wat de effectiviteit en generalisatiecapaciteiten benadrukt in het robuuster en nauwkeuriger maken van MLLMs voor dynamisch videobegrip. De code is vrijgegeven op https://github.com/marinero4972/CyberV.
English
Current Multimodal Large Language Models (MLLMs) may struggle with understanding long or complex videos due to computational demands at test time, lack of robustness, and limited accuracy, primarily stemming from their feed-forward processing nature. These limitations could be more severe for models with fewer parameters. To address these limitations, we propose a novel framework inspired by cybernetic principles, redesigning video MLLMs as adaptive systems capable of self-monitoring, self-correction, and dynamic resource allocation during inference. Our approach, CyberV, introduces a cybernetic loop consisting of an MLLM Inference System, a Sensor, and a Controller. Specifically, the sensor monitors forward processes of the MLLM and collects intermediate interpretations, such as attention drift, then the controller determines when and how to trigger self-correction and generate feedback to guide the next round. This test-time adaptive scaling framework enhances frozen MLLMs without requiring retraining or additional components. Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0% improvement, achieving performance even comparable to human experts. Furthermore, our method demonstrates consistent gains on general-purpose benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and generalization capabilities in making MLLMs more robust and accurate for dynamic video understanding. The code is released at https://github.com/marinero4972/CyberV.
PDF42June 10, 2025