CyberV: Kybernetik für die Skalierung zur Testzeit in der Videoanalyse
CyberV: Cybernetics for Test-time Scaling in Video Understanding
June 9, 2025
Autoren: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
cs.AI
Zusammenfassung
Aktuelle Multimodale Große Sprachmodelle (MLLMs) könnten Schwierigkeiten haben, lange oder komplexe Videos zu verstehen, was auf den hohen Rechenaufwand zur Testzeit, mangelnde Robustheit und begrenzte Genauigkeit zurückzuführen ist, die hauptsächlich aus ihrer feed-forward-Verarbeitungsnatur resultieren. Diese Einschränkungen könnten bei Modellen mit weniger Parametern noch gravierender sein. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Framework vor, das von kybernetischen Prinzipien inspiriert ist und Video-MLLMs als adaptive Systeme neu gestaltet, die in der Lage sind, sich selbst zu überwachen, selbst zu korrigieren und Ressourcen dynamisch während der Inferenz zuzuweisen. Unser Ansatz, CyberV, führt eine kybernetische Schleife ein, die aus einem MLLM-Inferenzsystem, einem Sensor und einem Controller besteht. Konkret überwacht der Sensor die Vorwärtsprozesse des MLLM und sammelt Zwischeninterpretationen, wie z.B. Aufmerksamkeitsdrift, woraufhin der Controller entscheidet, wann und wie eine Selbstkorrektur ausgelöst und Feedback generiert wird, um die nächste Runde zu steuern. Dieses Framework zur adaptiven Skalierung zur Testzeit verbessert eingefrorene MLLMs, ohne dass eine Neuanpassung oder zusätzliche Komponenten erforderlich sind. Experimente zeigen signifikante Verbesserungen: CyberV steigert Qwen2.5-VL-7B um 8,3 % und InternVL3-8B um 5,5 % auf VideoMMMU und übertrifft dabei das konkurrenzfähige proprietäre Modell GPT-4o. Bei der Anwendung auf Qwen2.5-VL-72B ergibt sich eine Verbesserung von 10,0 %, was sogar mit der Leistung menschlicher Experten vergleichbar ist. Darüber hinaus zeigt unsere Methode konsistente Gewinne auf allgemeinen Benchmarks wie VideoMME und WorldSense, was ihre Effektivität und Generalisierungsfähigkeit unterstreicht, um MLLMs robuster und genauer für das dynamische Verständnis von Videos zu machen. Der Code ist unter https://github.com/marinero4972/CyberV veröffentlicht.
English
Current Multimodal Large Language Models (MLLMs) may struggle with
understanding long or complex videos due to computational demands at test time,
lack of robustness, and limited accuracy, primarily stemming from their
feed-forward processing nature. These limitations could be more severe for
models with fewer parameters. To address these limitations, we propose a novel
framework inspired by cybernetic principles, redesigning video MLLMs as
adaptive systems capable of self-monitoring, self-correction, and dynamic
resource allocation during inference. Our approach, CyberV, introduces a
cybernetic loop consisting of an MLLM Inference System, a Sensor, and a
Controller. Specifically, the sensor monitors forward processes of the MLLM and
collects intermediate interpretations, such as attention drift, then the
controller determines when and how to trigger self-correction and generate
feedback to guide the next round. This test-time adaptive scaling framework
enhances frozen MLLMs without requiring retraining or additional components.
Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B
by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive
proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0%
improvement, achieving performance even comparable to human experts.
Furthermore, our method demonstrates consistent gains on general-purpose
benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and
generalization capabilities in making MLLMs more robust and accurate for
dynamic video understanding. The code is released at
https://github.com/marinero4972/CyberV.