CyberV: Cibernética para Escalonamento em Tempo de Teste em Compreensão de Vídeo
CyberV: Cybernetics for Test-time Scaling in Video Understanding
June 9, 2025
Autores: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
cs.AI
Resumo
Os atuais Modelos de Linguagem Multimodais de Grande Escala (MLLMs) podem enfrentar dificuldades na compreensão de vídeos longos ou complexos devido às demandas computacionais no momento do teste, falta de robustez e precisão limitada, principalmente decorrentes de sua natureza de processamento feed-forward. Essas limitações podem ser mais severas para modelos com menos parâmetros. Para abordar essas limitações, propomos uma nova estrutura inspirada em princípios cibernéticos, redesenhando os MLLMs de vídeo como sistemas adaptativos capazes de auto-monitoramento, auto-correção e alocação dinâmica de recursos durante a inferência. Nossa abordagem, CyberV, introduz um loop cibernético composto por um Sistema de Inferência MLLM, um Sensor e um Controlador. Especificamente, o sensor monitora os processos de avanço do MLLM e coleta interpretações intermediárias, como desvio de atenção, então o controlador determina quando e como acionar a auto-correção e gerar feedback para orientar a próxima rodada. Essa estrutura de escalonamento adaptativo no momento do teste aprimora MLLMs congelados sem a necessidade de retreinamento ou componentes adicionais. Experimentos demonstram melhorias significativas: o CyberV aumenta o Qwen2.5-VL-7B em 8,3% e o InternVL3-8B em 5,5% no VideoMMMU, superando o modelo proprietário competitivo GPT-4o. Quando aplicado ao Qwen2.5-VL-72B, resulta em uma melhoria de 10,0%, alcançando desempenho comparável até mesmo a especialistas humanos. Além disso, nosso método demonstra ganhos consistentes em benchmarks de propósito geral, como VideoMME e WorldSense, destacando sua eficácia e capacidades de generalização em tornar os MLLMs mais robustos e precisos para a compreensão dinâmica de vídeos. O código é disponibilizado em https://github.com/marinero4972/CyberV.
English
Current Multimodal Large Language Models (MLLMs) may struggle with
understanding long or complex videos due to computational demands at test time,
lack of robustness, and limited accuracy, primarily stemming from their
feed-forward processing nature. These limitations could be more severe for
models with fewer parameters. To address these limitations, we propose a novel
framework inspired by cybernetic principles, redesigning video MLLMs as
adaptive systems capable of self-monitoring, self-correction, and dynamic
resource allocation during inference. Our approach, CyberV, introduces a
cybernetic loop consisting of an MLLM Inference System, a Sensor, and a
Controller. Specifically, the sensor monitors forward processes of the MLLM and
collects intermediate interpretations, such as attention drift, then the
controller determines when and how to trigger self-correction and generate
feedback to guide the next round. This test-time adaptive scaling framework
enhances frozen MLLMs without requiring retraining or additional components.
Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B
by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive
proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0%
improvement, achieving performance even comparable to human experts.
Furthermore, our method demonstrates consistent gains on general-purpose
benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and
generalization capabilities in making MLLMs more robust and accurate for
dynamic video understanding. The code is released at
https://github.com/marinero4972/CyberV.