Prima di Attendere, Attenzione: Comprensione Video Efficiente e Scalabile Tramite Osservazione Autoregressiva

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire la comprensione video generica, ma incontrano difficoltà con video lunghi e ad alta risoluzione: elaborano ogni pixel in modo uniforme nei loro vision transformer (ViT) o negli LLM, nonostante la significativa ridondanza spazio-temporale. Introduciamo AutoGaze, un modulo leggero che rimuove le patch ridondanti prima che vengano elaborate da un ViT o da un MLLM. Addestrato con la previsione del token successivo e il reinforcement learning, AutoGaze seleziona in modo autoregressivo un insieme minimo di patch multi-scala in grado di ricostruire il video entro una soglia di errore specificata dall'utente, eliminando la ridondanza preservando al contempo le informazioni. Empiricamente, AutoGaze riduce i token visivi di 4-100 volte e accelera i ViT e gli MLLM fino a 19 volte, consentendo di scalare gli MLLM per video a risoluzione 4K da 1.000 fotogrammi e ottenendo risultati superiori sui benchmark video (ad esempio, 67,0% su VideoMME). Inoltre, introduciamo HLVid: il primo benchmark di domande e risposte (QA) per video lunghi e ad alta risoluzione, con video della durata di 5 minuti a risoluzione 4K, dove un MLLM scalato con AutoGaze migliora del 10,1% rispetto al baseline e supera del 4,5% il precedente MLLM migliore. Pagina del progetto: https://autogaze.github.io/.

English

Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.

Prima di Attendere, Attenzione: Comprensione Video Efficiente e Scalabile Tramite Osservazione Autoregressiva

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Abstract

Support