Aandacht voor Aandacht: Efficiënt en Schaalbaar Videobegrip via Autoregressief Kijken

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben algemene videobegrip verbeterd, maar worstelen met lange video's van hoge resolutie. Ze verwerken elke pixel op dezelfde manier in hun vision transformers (ViT's) of LLM's, ondanks aanzienlijke spatiotemporele redundantie. Wij introduceren AutoGaze, een lichtgewicht module die overbodige patches verwijdert voordat ze door een ViT of MLLM worden verwerkt. Getraind met next-token-predictie en reinforcement learning, selecteert AutoGaze autoregressief een minimale set multi-schaal patches die de video kunnen reconstrueren binnen een door de gebruiker gespecificeerde foutmarge, waardoor redundantie wordt geëlimineerd terwijl informatie behouden blijft. Empirisch gezien reduceert AutoGaze visuele tokens met 4x-100x en versnelt het ViT's en MLLM's met tot 19x, waardoor MLLM's kunnen worden opgeschaald naar video's van 1K frames en 4K-resolutie, en superieure resultaten behalen op videobenchmarks (bijv. 67,0% op VideoMME). Verder introduceren we HLVid: de eerste benchmark voor vraag-antwoordtaken met video's van hoge resolutie en lange duur, bestaande uit 5-minuten durende 4K-video's, waarbij een MLLM opgeschaald met AutoGaze 10,1% beter presteert dan de baseline en de vorige beste MLLM met 4,5% overtreft. Projectpagina: https://autogaze.github.io/.

English

Multi-modal large language models (MLLMs) have advanced general-purpose video understanding but struggle with long, high-resolution videos -- they process every pixel equally in their vision transformers (ViTs) or LLMs despite significant spatiotemporal redundancy. We introduce AutoGaze, a lightweight module that removes redundant patches before processed by a ViT or an MLLM. Trained with next-token prediction and reinforcement learning, AutoGaze autoregressively selects a minimal set of multi-scale patches that can reconstruct the video within a user-specified error threshold, eliminating redundancy while preserving information. Empirically, AutoGaze reduces visual tokens by 4x-100x and accelerates ViTs and MLLMs by up to 19x, enabling scaling MLLMs to 1K-frame 4K-resolution videos and achieving superior results on video benchmarks (e.g., 67.0% on VideoMME). Furthermore, we introduce HLVid: the first high-resolution, long-form video QA benchmark with 5-minute 4K-resolution videos, where an MLLM scaled with AutoGaze improves over the baseline by 10.1% and outperforms the previous best MLLM by 4.5%. Project page: https://autogaze.github.io/.

Aandacht voor Aandacht: Efficiënt en Schaalbaar Videobegrip via Autoregressief Kijken

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Samenvatting

Support