CyberV: Cibernética para el Escalado en Tiempo de Prueba en Comprensión de Video
CyberV: Cybernetics for Test-time Scaling in Video Understanding
June 9, 2025
Autores: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
cs.AI
Resumen
Los modelos actuales de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) pueden enfrentar dificultades para comprender videos largos o complejos debido a las demandas computacionales en tiempo de prueba, la falta de robustez y la precisión limitada, principalmente derivadas de su naturaleza de procesamiento secuencial. Estas limitaciones podrían ser más severas en modelos con menos parámetros. Para abordar estos desafíos, proponemos un marco novedoso inspirado en principios cibernéticos, rediseñando los MLLMs de video como sistemas adaptativos capaces de auto-monitoreo, auto-corrección y asignación dinámica de recursos durante la inferencia. Nuestro enfoque, CyberV, introduce un bucle cibernético compuesto por un Sistema de Inferencia MLLM, un Sensor y un Controlador. Específicamente, el sensor monitorea los procesos de avance del MLLM y recopila interpretaciones intermedias, como la deriva de atención, mientras que el controlador determina cuándo y cómo activar la auto-corrección y generar retroalimentación para guiar la siguiente iteración. Este marco de escalado adaptativo en tiempo de prueba mejora los MLLMs congelados sin necesidad de reentrenamiento o componentes adicionales. Los experimentos demuestran mejoras significativas: CyberV aumenta Qwen2.5-VL-7B en un 8.3% e InternVL3-8B en un 5.5% en VideoMMMU, superando al modelo propietario competitivo GPT-4o. Cuando se aplica a Qwen2.5-VL-72B, se obtiene una mejora del 10.0%, alcanzando un rendimiento comparable incluso al de expertos humanos. Además, nuestro método muestra ganancias consistentes en benchmarks de propósito general, como VideoMME y WorldSense, destacando su efectividad y capacidades de generalización para hacer que los MLLMs sean más robustos y precisos en la comprensión dinámica de videos. El código está disponible en https://github.com/marinero4972/CyberV.
English
Current Multimodal Large Language Models (MLLMs) may struggle with
understanding long or complex videos due to computational demands at test time,
lack of robustness, and limited accuracy, primarily stemming from their
feed-forward processing nature. These limitations could be more severe for
models with fewer parameters. To address these limitations, we propose a novel
framework inspired by cybernetic principles, redesigning video MLLMs as
adaptive systems capable of self-monitoring, self-correction, and dynamic
resource allocation during inference. Our approach, CyberV, introduces a
cybernetic loop consisting of an MLLM Inference System, a Sensor, and a
Controller. Specifically, the sensor monitors forward processes of the MLLM and
collects intermediate interpretations, such as attention drift, then the
controller determines when and how to trigger self-correction and generate
feedback to guide the next round. This test-time adaptive scaling framework
enhances frozen MLLMs without requiring retraining or additional components.
Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B
by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive
proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0%
improvement, achieving performance even comparable to human experts.
Furthermore, our method demonstrates consistent gains on general-purpose
benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and
generalization capabilities in making MLLMs more robust and accurate for
dynamic video understanding. The code is released at
https://github.com/marinero4972/CyberV.