Обрати внимание до внимания: эффективное и масштабируемое понимание видео с помощью авторегрессивного наблюдения

Аннотация

Мультимодальные большие языковые модели (MБЯМ) достигли прогресса в области универсального понимания видео, но сталкиваются с трудностями при работе с длинными видео высокого разрешения — они обрабатывают каждый пиксель одинаково в своих визуальных трансформерах (ViT) или ЯМ, несмотря на значительную пространственно-временную избыточность. Мы представляем AutoGaze, легковесный модуль, который удаляет избыточные патчи до их обработки ViT или МБЯМ. Обученный с помощью предсказания следующего токена и обучения с подкреплением, AutoGaze авторегрессивно выбирает минимальный набор много масштабных патчей, способных восстановить видео в рамках заданного пользователем порога ошибки, устраняя избыточность при сохранении информации. Экспериментально AutoGaze сокращает количество визуальных токенов в 4–100 раз и ускоряет работу ViT и МБЯМ до 19 раз, позволяя масштабировать МБЯМ для работы с видео длиной до 1000 кадров в разрешении 4K и демонстрируя превосходные результаты на видео-бенчмарках (например, 67.0% на VideoMME). Кроме того, мы представляем HLVid: первый бенчмарк вопросов и ответов для длинных видео высокого разрешения с 5-минутными видео в 4K, где МБЯМ, масштабированная с помощью AutoGaze, улучшает результат базового уровня на 10.1% и превосходит предыдущую лучшую МБЯМ на 4.5%. Страница проекта: https://autogaze.github.io/.

English

Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.

Обрати внимание до внимания: эффективное и масштабируемое понимание видео с помощью авторегрессивного наблюдения

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Аннотация

Support