PARCEL: Pool-verankerde resampling met geconditioneerde elastische queries voor efficiënt visie-taalbegrip

Samenvatting

Grote Visie-Taalmodellen (GVTM's) zetten visuele inputs om in dichte tokenreeksen, wat een kwadratische computationele bottleneck oplevert voor inferentie. Elastische visuele-tokencompressie pakt dit aan door een enkel model te trainen dat op meerdere visuele-tokenbudgetten kan draaien. Bestaande benaderingen hebben echter moeite met agressieve compressie. Ruimtelijke-only compressie, zoals bij geneste pooling, gedraagt zich als een imperfect laagdoorlaatfilter en veroorzaakt spectrale aliasing die fijnkorrelige details verbergt. Query-only compressie, zoals bij geneste query-hersampling, vervangt expliciete grid-uitgelijnde tokens door niet-lokale samenvattingen en verslechtert de ruimtelijke verankering aanzienlijk. Om dit representatieconflict op te lossen, introduceren we PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding), een visuele tokenisatiearchitectuur die het werk van kenmerkextractie dynamisch verdeelt. PARCEL stelt ruimtelijke pooltokens in als laagfrequente lay-outankers en conditioneert elastische querytokens op deze ankers door middel van Pool-Geadconditioneerde Query-Hersampling. Dit moedigt querytokens aan om zich te richten op complementaire visuele kenmerken in plaats van redundante ruimtelijke mapping. Uitgebreide evaluaties over 27 benchmarks tonen aan dat PARCEL de Pareto-grens van prestatie-efficiëntie verbetert, consequent beter presteert dan bestaande matryoshka-baselines over visuele-tokenbudgetten, terwijl het 'train once, deploy anywhere'-paradigma behouden blijft.

English

Large Vision-Language Models (LVLMs) map visual inputs into dense token sequences, imposing a quadratic computational bottleneck for inference. Elastic visual-token compression addresses this by training a single model that can run at multiple visual-token budgets. However, existing approaches struggle under aggressive compression. Spatial-only compression, as in nested pooling, behaves as an imperfect low-pass filter and induces spectral aliasing that obscures fine-grained detail. Query-only compression, as in nested query resampling, replaces explicit grid-aligned tokens with non-local summaries and substantially degrades spatial grounding. To resolve this representational conflict, we introduce PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding), a visual tokenization architecture that dynamically partitions the labor of feature extraction. PARCEL establishes spatial pool tokens as low-frequency layout anchors and conditions elastic query tokens on these anchors through Pool-Conditioned Query Resampling. This encourages query tokens to focus on complementary visual features rather than redundant spatial mapping. Extensive evaluations across 27 benchmarks show that PARCEL improves the performance-efficiency Pareto frontier, consistently outperforming existing matryoshka baselines across visual-token budgets while preserving the "train once, deploy anywhere" paradigm.