Atenda Antes da Atenção: Compreensão de Vídeo Eficiente e Escalável por meio de Observação Autoregressiva

Resumo

Os modelos de linguagem de grande escala multimodais (MLLMs) avançaram na compreensão de vídeo de propósito geral, mas lutam com vídeos longos e de alta resolução — eles processam cada pixel igualmente em seus vision transformers (ViTs) ou LLMs, apesar da significativa redundância espaço-temporal. Apresentamos o AutoGaze, um módulo leve que remove *patches* redundantes antes que sejam processados por um ViT ou um MLLM. Treinado com previsão do próximo token e aprendizado por reforço, o AutoGaze seleciona autoregressivamente um conjunto mínimo de *patches* multi-escala que podem reconstruir o vídeo dentro de um limite de erro especificado pelo usuário, eliminando a redundância enquanto preserva a informação. Empiricamente, o AutoGaze reduz os tokens visuais em 4x-100x e acelera ViTs e MLLMs em até 19x, permitindo escalar MLLMs para vídeos de 4K com 1K *frames* e alcançando resultados superiores em *benchmarks* de vídeo (por exemplo, 67,0% no VideoMME). Além disso, introduzimos o HLVid: o primeiro *benchmark* de Q&A para vídeos longos e de alta resolução, com vídeos de 5 minutos em 4K, onde um MLLM escalado com AutoGaze melhora a linha de base em 10,1% e supera o melhor MLLM anterior em 4,5%. Página do projeto: https://autogaze.github.io/.

English

Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.

Atenda Antes da Atenção: Compreensão de Vídeo Eficiente e Escalável por meio de Observação Autoregressiva

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Resumo

Support