Atender Antes de Atender: Comprensión de Video Eficiente y Escalable mediante Mirada Autoregresiva

Resumen

Los modelos de lenguaje grandes multimodales (MLLMs) han avanzado en la comprensión de video de propósito general, pero luchan con videos largos y de alta resolución: procesan cada píxel por igual en sus transformadores de visión (ViTs) o LLMs a pesar de la significativa redundancia espacio-temporal. Presentamos AutoGaze, un módulo ligero que elimina los parches redundantes antes de ser procesados por un ViT o un MLLM. Entrenado con predicción del siguiente token y aprendizaje por refuerzo, AutoGaze selecciona de forma autoregresiva un conjunto mínimo de parches multi-escala que pueden reconstruir el video dentro de un umbral de error especificado por el usuario, eliminando la redundancia mientras preserva la información. Empíricamente, AutoGaze reduce los tokens visuales entre 4x y 100x y acelera los ViTs y MLLMs hasta en 19x, permitiendo escalar MLLMs a videos de resolución 4K con 1K fotogramas y logrando resultados superiores en benchmarks de video (por ejemplo, 67.0% en VideoMME). Además, presentamos HLVid: el primer benchmark de preguntas y respuestas (QA) para videos de larga duración y alta resolución, con videos de 5 minutos en resolución 4K, donde un MLLM escalado con AutoGaze mejora la línea base en un 10.1% y supera al mejor MLLM anterior en un 4.5%. Página del proyecto: https://autogaze.github.io/.

English

Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.

Atender Antes de Atender: Comprensión de Video Eficiente y Escalable mediante Mirada Autoregresiva

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Resumen

Support