PARCEL: Pool-verankertes Resampling mit konditionierten elastischen Queries für effizientes Bild-Text-Verständnis

Zusammenfassung

Large Vision-Language Models (LVLMs) bilden visuelle Eingaben in dichte Token-Sequenzen ab, was zu einem quadratischen Rechenengpass bei der Inferenz führt. Eine elastische visuelle Token-Kompression begegnet diesem Problem, indem sie ein einzelnes Modell trainiert, das mit mehreren visuellen Token-Budgets betrieben werden kann. Bestehende Ansätze stoßen jedoch bei aggressiver Kompression an ihre Grenzen. Rein räumliche Kompression, wie beim verschachtelten Pooling, verhält sich wie ein unvollkommener Tiefpassfilter und induziert spektrale Aliasing-Effekte, die feine Details verschleiern. Rein query-basierte Kompression, wie beim verschachtelten Query-Resampling, ersetzt explizite gitterausgerichtete Token durch nicht-lokale Zusammenfassungen und beeinträchtigt die räumliche Verankerung erheblich. Um diesen Repräsentationskonflikt zu lösen, führen wir PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding) ein, eine Architektur zur visuellen Tokenisierung, die die Arbeit der Merkmalsextraktion dynamisch aufteilt. PARCEL etabliert räumliche Pool-Token als niederfrequente Layout-Anker und konditioniert elastische Query-Token auf diese Anker durch Pool-konditioniertes Query-Resampling. Dies regt die Query-Token dazu an, sich auf komplementäre visuelle Merkmale zu konzentrieren, anstatt redundante räumliche Abbildungen durchzuführen. Umfangreiche Auswertungen über 27 Benchmarks hinweg zeigen, dass PARCEL die Pareto-Grenze zwischen Leistung und Effizienz verbessert, indem es bestehende Matroschka-Baselines über verschiedene visuelle Token-Budgets hinweg konsistent übertrifft, während es das Paradigma „einmal trainieren, überall einsetzen“ beibehält.

English

Large Vision-Language Models (LVLMs) map visual inputs into dense token sequences, imposing a quadratic computational bottleneck for inference. Elastic visual-token compression addresses this by training a single model that can run at multiple visual-token budgets. However, existing approaches struggle under aggressive compression. Spatial-only compression, as in nested pooling, behaves as an imperfect low-pass filter and induces spectral aliasing that obscures fine-grained detail. Query-only compression, as in nested query resampling, replaces explicit grid-aligned tokens with non-local summaries and substantially degrades spatial grounding. To resolve this representational conflict, we introduce PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding), a visual tokenization architecture that dynamically partitions the labor of feature extraction. PARCEL establishes spatial pool tokens as low-frequency layout anchors and conditions elastic query tokens on these anchors through Pool-Conditioned Query Resampling. This encourages query tokens to focus on complementary visual features rather than redundant spatial mapping. Extensive evaluations across 27 benchmarks show that PARCEL improves the performance-efficiency Pareto frontier, consistently outperforming existing matryoshka baselines across visual-token budgets while preserving the "train once, deploy anywhere" paradigm.