PARCEL: Reamostragem Ancorada em Pool com Consultas Elásticas Condicionadas para Compreensão Eficiente Visão-Linguagem

Resumo

Grandes Modelos de Visão-Linguagem (GMVLs) mapeiam entradas visuais em sequências densas de tokens, impondo um gargalo computacional quadrático para inferência. A compressão elástica de tokens visuais aborda esse problema treinando um único modelo que pode operar com múltiplos orçamentos de tokens visuais. No entanto, as abordagens existentes enfrentam dificuldades sob compressão agressiva. A compressão apenas espacial, como no pooling aninhado, comporta-se como um filtro passa-baixas imperfeito e induz aliasing espectral que obscurece detalhes finos. A compressão apenas de consulta, como na reamostragem de consultas aninhada, substitui tokens alinhados à grade explícita por sumários não locais e degrada substancialmente a ancoragem espacial. Para resolver esse conflito representacional, apresentamos o PARCEL (Reamostragem Ancorada em Pool com Consultas Elásticas Condicionadas para Compreensão Eficiente de Visão-Linguagem), uma arquitetura de tokenização visual que particiona dinamicamente o trabalho de extração de características. O PARCEL estabelece tokens de pool espaciais como âncoras de layout de baixa frequência e condiciona tokens de consulta elásticos a essas âncoras por meio da Reamostragem de Consultas Condicionada ao Pool. Isso incentiva os tokens de consulta a focar em características visuais complementares, em vez de mapeamento espacial redundante. Avaliações extensivas em 27 benchmarks mostram que o PARCEL melhora a fronteira de Pareto de desempenho-eficiência, superando consistentemente as linhas de base matrioshka existentes em diferentes orçamentos de tokens visuais, preservando ao mesmo tempo o paradigma "treine uma vez, implante em qualquer lugar".

English

Large Vision-Language Models (LVLMs) map visual inputs into dense token sequences, imposing a quadratic computational bottleneck for inference. Elastic visual-token compression addresses this by training a single model that can run at multiple visual-token budgets. However, existing approaches struggle under aggressive compression. Spatial-only compression, as in nested pooling, behaves as an imperfect low-pass filter and induces spectral aliasing that obscures fine-grained detail. Query-only compression, as in nested query resampling, replaces explicit grid-aligned tokens with non-local summaries and substantially degrades spatial grounding. To resolve this representational conflict, we introduce PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding), a visual tokenization architecture that dynamically partitions the labor of feature extraction. PARCEL establishes spatial pool tokens as low-frequency layout anchors and conditions elastic query tokens on these anchors through Pool-Conditioned Query Resampling. This encourages query tokens to focus on complementary visual features rather than redundant spatial mapping. Extensive evaluations across 27 benchmarks show that PARCEL improves the performance-efficiency Pareto frontier, consistently outperforming existing matryoshka baselines across visual-token budgets while preserving the "train once, deploy anywhere" paradigm.