PARCEL: Ресемплинг с привязкой к пулу на основе обусловленных эластичных запросов для эффективного визуально-языкового понимания

Аннотация

Крупные мультимодальные модели зрения-языка (LVLMs) преобразуют визуальные входные данные в плотные последовательности токенов, что создаёт квадратичное вычислительное узкое место при инференсе. Эластичное сжатие визуальных токенов решает эту проблему путём обучения единой модели, способной работать при разных бюджетах визуальных токенов. Однако существующие подходы дают сбои при агрессивном сжатии. Сжатие только по пространству, как при вложенном объединении, ведёт себя как несовершенный фильтр нижних частот и вызывает спектральный алиасинг, скрывающий мелкие детали. Сжатие только по запросам, как при вложенной передискретизации запросов, заменяет явные токены, привязанные к сетке, нелокальными сводками и существенно ухудшает пространственную привязку. Для разрешения этого конфликта представлений мы представляем PARCEL (Pool‑Anchored Resampling with Conditioned Elastic Queries for Efficient Vision‑Language Understanding — передискретизация с якорями пула и условными эластичными запросами для эффективного понимания зрения-языка) — архитектуру токенизации визуальных данных, которая динамически распределяет работу по извлечению признаков. PARCEL устанавливает пространственные токены пула в качестве низкочастотных якорей макета и обуславливает эластичные токены запросов этими якорями через передискретизацию запросов с условием от пула. Это побуждает токены запросов фокусироваться на дополнительных визуальных признаках, а не на избыточном пространственном отображении. Обширные оценки на 27 эталонных тестах показывают, что PARCEL улучшает границу Парето производительности и эффективности, последовательно превосходя существующие базовые линии «матрешки» при различных бюджетах визуальных токенов, сохраняя при этом парадигму «обучить один раз, развернуть где угодно».

English

Large Vision-Language Models (LVLMs) map visual inputs into dense token sequences, imposing a quadratic computational bottleneck for inference. Elastic visual-token compression addresses this by training a single model that can run at multiple visual-token budgets. However, existing approaches struggle under aggressive compression. Spatial-only compression, as in nested pooling, behaves as an imperfect low-pass filter and induces spectral aliasing that obscures fine-grained detail. Query-only compression, as in nested query resampling, replaces explicit grid-aligned tokens with non-local summaries and substantially degrades spatial grounding. To resolve this representational conflict, we introduce PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding), a visual tokenization architecture that dynamically partitions the labor of feature extraction. PARCEL establishes spatial pool tokens as low-frequency layout anchors and conditions elastic query tokens on these anchors through Pool-Conditioned Query Resampling. This encourages query tokens to focus on complementary visual features rather than redundant spatial mapping. Extensive evaluations across 27 benchmarks show that PARCEL improves the performance-efficiency Pareto frontier, consistently outperforming existing matryoshka baselines across visual-token budgets while preserving the "train once, deploy anywhere" paradigm.