Оптимизация локального и глобального контекстов для сокращения токенов в эффективных видео-больших языковых моделях

Аннотация

Крупные языковые модели для видео (VLLMs) демонстрируют высокое понимание видеоконтента, но страдают от неэффективности из-за избыточных визуальных токенов. Существующие методы прореживания в основном нацелены на внутрикадровую пространственную избыточность или осуществляют прореживание внутри языковой модели с накладными расходами на мелкие слои, что приводит к субоптимальному пространственно-временному сокращению и недостаточному использованию сжимаемости длинного контекста. При этом они часто отбрасывают тонкий, но информативный контекст из объединенных или удаленных токенов. В данной статье мы предлагаем новый подход, который детализирует якорные токены внутри кадра и между кадрами для комплексной агрегации информативных контекстов с помощью локально-глобального оптимального транспорта (AOT). Конкретно, мы сначала устанавливаем локально- и глобально-ориентированные якорные токены в каждом кадре под руководством механизма внимания, которые затем с помощью оптимального транспорта агрегируют информативные контексты из удаляемых токенов, формируя внутрикадровые якорные токены. Затем, на основе временных видеоклипов, первый кадр в каждом клипе рассматривается как якорный ключевой кадр для объединения схожей информации из последовательных кадров посредством оптимального транспорта, при этом сохраняются уникальные токены для отображения временной динамики, что приводит к эффективному сокращению токенов без обучения. Многочисленные оценки показывают, что предложенный метод AOT демонстрирует конкурентоспособные результаты на различных наборах данных для коротких и длинных видео в ведущих видео-ориентированных языковых моделях, обеспечивая существенную вычислительную эффективность при сохранении временной и визуальной точности. Страница проекта: https://tyroneli.github.io/AOT{AOT}.

English

Video Large Language Models (VLLMs) demonstrate strong video understanding but suffer from inefficiency due to redundant visual tokens. Existing pruning primary targets intra-frame spatial redundancy or prunes inside the LLM with shallow-layer overhead, yielding suboptimal spatiotemporal reduction and underutilizing long-context compressibility. All of them often discard subtle yet informative context from merged or pruned tokens. In this paper, we propose a new perspective that elaborates token Anchors within intra-frame and inter-frame to comprehensively aggregate the informative contexts via local-global Optimal Transport (AOT). Specifically, we first establish local- and global-aware token anchors within each frame under the attention guidance, which then optimal transport aggregates the informative contexts from pruned tokens, constructing intra-frame token anchors. Then, building on the temporal frame clips, the first frame within each clip will be considered as the keyframe anchors to ensemble similar information from consecutive frames through optimal transport, while keeping distinct tokens to represent temporal dynamics, leading to efficient token reduction in a training-free manner. Extensive evaluations show that our proposed AOT obtains competitive performances across various short- and long-video benchmarks on leading video LLMs, obtaining substantial computational efficiency while preserving temporal and visual fidelity. Project webpage: https://tyroneli.github.io/AOT{AOT}.

Оптимизация локального и глобального контекстов для сокращения токенов в эффективных видео-больших языковых моделях

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Аннотация

Support