ChatPaper.aiChatPaper

CyberV: Кибернетика для масштабирования во время тестирования в задачах понимания видео

CyberV: Cybernetics for Test-time Scaling in Video Understanding

June 9, 2025
Авторы: Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
cs.AI

Аннотация

Современные мультимодальные большие языковые модели (MLLM) могут испытывать трудности с пониманием длинных или сложных видео из-за вычислительных требований во время тестирования, недостаточной устойчивости и ограниченной точности, что в основном обусловлено их последовательной обработкой данных. Эти ограничения могут быть более выраженными для моделей с меньшим количеством параметров. Чтобы устранить эти недостатки, мы предлагаем новую структуру, вдохновленную кибернетическими принципами, которая переосмысливает видео-MLLM как адаптивные системы, способные к самоконтролю, самокоррекции и динамическому распределению ресурсов во время вывода. Наш подход, CyberV, вводит кибернетический цикл, состоящий из системы вывода MLLM, сенсора и контроллера. В частности, сенсор отслеживает процессы вывода MLLM и собирает промежуточные интерпретации, такие как смещение внимания, после чего контроллер определяет, когда и как инициировать самокоррекцию и генерировать обратную связь для управления следующим этапом. Эта адаптивная структура масштабирования во время тестирования улучшает замороженные MLLM без необходимости переобучения или дополнительных компонентов. Эксперименты демонстрируют значительные улучшения: CyberV повышает производительность Qwen2.5-VL-7B на 8.3% и InternVL3-8B на 5.5% на тесте VideoMMMU, превосходя конкурентоспособную проприетарную модель GPT-4o. При применении к Qwen2.5-VL-72B она дает улучшение на 10.0%, достигая производительности, сравнимой с экспертами-людьми. Кроме того, наш метод демонстрирует стабильные улучшения на общецелевых тестах, таких как VideoMME и WorldSense, подчеркивая его эффективность и способность к обобщению в повышении устойчивости и точности MLLM для динамического понимания видео. Код доступен по адресу https://github.com/marinero4972/CyberV.
English
Current Multimodal Large Language Models (MLLMs) may struggle with understanding long or complex videos due to computational demands at test time, lack of robustness, and limited accuracy, primarily stemming from their feed-forward processing nature. These limitations could be more severe for models with fewer parameters. To address these limitations, we propose a novel framework inspired by cybernetic principles, redesigning video MLLMs as adaptive systems capable of self-monitoring, self-correction, and dynamic resource allocation during inference. Our approach, CyberV, introduces a cybernetic loop consisting of an MLLM Inference System, a Sensor, and a Controller. Specifically, the sensor monitors forward processes of the MLLM and collects intermediate interpretations, such as attention drift, then the controller determines when and how to trigger self-correction and generate feedback to guide the next round. This test-time adaptive scaling framework enhances frozen MLLMs without requiring retraining or additional components. Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0% improvement, achieving performance even comparable to human experts. Furthermore, our method demonstrates consistent gains on general-purpose benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and generalization capabilities in making MLLMs more robust and accurate for dynamic video understanding. The code is released at https://github.com/marinero4972/CyberV.
PDF42June 10, 2025