CyberV: Cibernetica per il ridimensionamento al momento del test nella comprensione video
CyberV: Cybernetics for Test-time Scaling in Video Understanding
June 9, 2025
Autori: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
cs.AI
Abstract
Gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLM) possono incontrare difficoltà nella comprensione di video lunghi o complessi a causa delle esigenze computazionali durante il test, della mancanza di robustezza e di una precisione limitata, derivanti principalmente dalla loro natura di elaborazione feed-forward. Queste limitazioni potrebbero essere più severe per i modelli con un numero inferiore di parametri. Per affrontare queste sfide, proponiamo un nuovo framework ispirato ai principi cibernetici, ridisegnando i video MLLM come sistemi adattivi in grado di auto-monitorarsi, auto-correggersi e allocare dinamicamente le risorse durante l'inferenza. Il nostro approccio, CyberV, introduce un ciclo cibernetico composto da un Sistema di Inferenza MLLM, un Sensore e un Controller. Nello specifico, il sensore monitora i processi in avanti dell'MLLM e raccoglie interpretazioni intermedie, come la deriva dell'attenzione, mentre il controller determina quando e come attivare l'auto-correzione e generare feedback per guidare il ciclo successivo. Questo framework di scalabilità adattiva durante il test migliora gli MLLM congelati senza richiedere riaddestramento o componenti aggiuntivi. Gli esperimenti dimostrano miglioramenti significativi: CyberV incrementa Qwen2.5-VL-7B dell'8.3% e InternVL3-8B del 5.5% su VideoMMMU, superando il modello proprietario competitivo GPT-4o. Quando applicato a Qwen2.5-VL-72B, si ottiene un miglioramento del 10.0%, raggiungendo prestazioni paragonabili a quelle di esperti umani. Inoltre, il nostro metodo mostra guadagni consistenti su benchmark di uso generale, come VideoMME e WorldSense, evidenziando la sua efficacia e capacità di generalizzazione nel rendere gli MLLM più robusti e precisi per la comprensione dinamica dei video. Il codice è disponibile all'indirizzo https://github.com/marinero4972/CyberV.
English
Current Multimodal Large Language Models (MLLMs) may struggle with
understanding long or complex videos due to computational demands at test time,
lack of robustness, and limited accuracy, primarily stemming from their
feed-forward processing nature. These limitations could be more severe for
models with fewer parameters. To address these limitations, we propose a novel
framework inspired by cybernetic principles, redesigning video MLLMs as
adaptive systems capable of self-monitoring, self-correction, and dynamic
resource allocation during inference. Our approach, CyberV, introduces a
cybernetic loop consisting of an MLLM Inference System, a Sensor, and a
Controller. Specifically, the sensor monitors forward processes of the MLLM and
collects intermediate interpretations, such as attention drift, then the
controller determines when and how to trigger self-correction and generate
feedback to guide the next round. This test-time adaptive scaling framework
enhances frozen MLLMs without requiring retraining or additional components.
Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B
by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive
proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0%
improvement, achieving performance even comparable to human experts.
Furthermore, our method demonstrates consistent gains on general-purpose
benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and
generalization capabilities in making MLLMs more robust and accurate for
dynamic video understanding. The code is released at
https://github.com/marinero4972/CyberV.