CyberV : Cybernétique pour la mise à l'échelle en temps de test dans la compréhension vidéo
CyberV: Cybernetics for Test-time Scaling in Video Understanding
June 9, 2025
Auteurs: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) actuels peuvent rencontrer des difficultés à comprendre des vidéos longues ou complexes en raison des exigences computationnelles au moment du test, d'un manque de robustesse et d'une précision limitée, principalement attribuables à leur nature de traitement en flux direct. Ces limitations pourraient être plus sévères pour les modèles avec moins de paramètres. Pour remédier à ces limitations, nous proposons un nouveau cadre inspiré des principes cybernétiques, redéfinissant les MLLMs vidéo comme des systèmes adaptatifs capables de s'auto-surveiller, de s'auto-corriger et d'allouer dynamiquement des ressources pendant l'inférence. Notre approche, CyberV, introduit une boucle cybernétique composée d'un système d'inférence MLLM, d'un capteur et d'un contrôleur. Plus précisément, le capteur surveille les processus directs du MLLM et collecte des interprétations intermédiaires, telles que la dérive de l'attention, puis le contrôleur détermine quand et comment déclencher l'auto-correction et générer un retour pour guider le prochain cycle. Ce cadre d'adaptation au moment du test améliore les MLLMs figés sans nécessiter de réentraînement ou de composants supplémentaires. Les expériences démontrent des améliorations significatives : CyberV améliore Qwen2.5-VL-7B de 8,3 % et InternVL3-8B de 5,5 % sur VideoMMMU, surpassant le modèle propriétaire concurrent GPT-4o. Lorsqu'il est appliqué à Qwen2.5-VL-72B, il permet une amélioration de 10,0 %, atteignant des performances comparables à celles d'experts humains. De plus, notre méthode montre des gains constants sur des benchmarks à usage général, tels que VideoMME et WorldSense, mettant en évidence son efficacité et ses capacités de généralisation pour rendre les MLLMs plus robustes et précis pour la compréhension dynamique des vidéos. Le code est disponible à l'adresse https://github.com/marinero4972/CyberV.
English
Current Multimodal Large Language Models (MLLMs) may struggle with
understanding long or complex videos due to computational demands at test time,
lack of robustness, and limited accuracy, primarily stemming from their
feed-forward processing nature. These limitations could be more severe for
models with fewer parameters. To address these limitations, we propose a novel
framework inspired by cybernetic principles, redesigning video MLLMs as
adaptive systems capable of self-monitoring, self-correction, and dynamic
resource allocation during inference. Our approach, CyberV, introduces a
cybernetic loop consisting of an MLLM Inference System, a Sensor, and a
Controller. Specifically, the sensor monitors forward processes of the MLLM and
collects intermediate interpretations, such as attention drift, then the
controller determines when and how to trigger self-correction and generate
feedback to guide the next round. This test-time adaptive scaling framework
enhances frozen MLLMs without requiring retraining or additional components.
Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B
by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive
proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0%
improvement, achieving performance even comparable to human experts.
Furthermore, our method demonstrates consistent gains on general-purpose
benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and
generalization capabilities in making MLLMs more robust and accurate for
dynamic video understanding. The code is released at
https://github.com/marinero4972/CyberV.