Assister avant d'Attirer : Compréhension vidéo efficace et évolutive via un regard autorégressif
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing
March 12, 2026
Auteurs: Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin
cs.AI
Résumé
Les modèles de grands langages multimodaux (MLLM) ont fait progresser la compréhension vidéo générale, mais peinent avec les vidéos longues et haute résolution : ils traitent chaque pixel de manière égale dans leurs transformeurs de vision (ViT) ou leurs LLM, malgré une redondance spatio-temporelle importante. Nous présentons AutoGaze, un module léger qui supprime les patches redondants avant qu'ils ne soient traités par un ViT ou un MLLM. Entraîné par prédiction du token suivant et apprentissage par renforcement, AutoGaze sélectionne de manière autorégressive un ensemble minimal de patches multi-échelles capable de reconstruire la vidéo dans un seuil d'erreur spécifié par l'utilisateur, éliminant ainsi la redondance tout en préservant l'information. Empiriquement, AutoGaze réduit les tokens visuels d'un facteur 4 à 100 et accélère les ViT et MLLM jusqu'à 19 fois, permettant de mettre à l'échelle les MLLM pour des vidéos de 1000 images en résolution 4K et obtenant des résultats supérieurs sur des benchmarks vidéo (par exemple, 67,0 % sur VideoMME). De plus, nous présentons HLVid : le premier benchmark de question-réponse (QA) pour vidéos longues et haute résolution, avec des vidéos de 5 minutes en 4K, où un MLLM mis à l'échelle avec AutoGaze améliore le résultat de base de 10,1 % et surpasse le meilleur MLLM précédent de 4,5 %. Page du projet : https://autogaze.github.io/.
English
Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.