Test-Time Spectrum-Bewust Latente Sturing voor Zero-Shot Generalisatie in Visie-Taalmodellen
Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models
November 12, 2025
Auteurs: Konstantinos M. Dafnis, Dimitris N. Metaxas
cs.AI
Samenvatting
Vision-Language Models (VLMs) blinken uit in zero-shot inferentie, maar vertonen vaak degradatie onder domeinverschuivingen tijdens testtijd. Daarom zijn episodische testtijd-aanpassingsstrategieën recent naar voren gekomen als krachtige technieken om VLMs aan te passen aan een enkel ongelabeld beeld. Bestaande aanpassingsstrategieën, zoals testtijd prompt-tuning, vereisen echter typisch backpropagatie door grote encoder-gewichten of wijzigen kernmodelcomponenten. In dit werk introduceren we Spectrum-Aware Test-Time Steering (STS), een lichtgewicht aanpassingsframework dat een spectrale deelruimte extraheert uit de tekstuele inbeddingen om principale semantische richtingen te definiëren en leert om latente representaties op een spectrum-bewuste manier te sturen door een klein aantal per-sample verschuivingsparameters aan te passen om de entropie over geaugmenteerde views te minimaliseren. STS opereert volledig tijdens inferentie in de latente ruimte, zonder backpropagatie door of modificatie van de bevroren encoders. Voortbouwend op standaard evaluatieprotocollen, tonen onze uitgebreide experimenten aan dat STS de state-of-the-art testtijd-aanpassingsmethoden ruimschoots overtreft of gunstig vergelijkbaar is, terwijl het slechts een handjevol extra parameters introduceert en inferentiesnelheden bereikt tot 8x sneller met een 12x kleinere geheugenvoetafdruk dan conventionele testtijd prompt-tuning. De code is beschikbaar op https://github.com/kdafnis/STS.
English
Vision-Language Models (VLMs) excel at zero-shot inference but often degrade under test-time domain shifts. For this reason, episodic test-time adaptation strategies have recently emerged as powerful techniques for adapting VLMs to a single unlabeled image. However, existing adaptation strategies, such as test-time prompt tuning, typically require backpropagating through large encoder weights or altering core model components. In this work, we introduce Spectrum-Aware Test-Time Steering (STS), a lightweight adaptation framework that extracts a spectral subspace from the textual embeddings to define principal semantic directions and learns to steer latent representations in a spectrum-aware manner by adapting a small number of per-sample shift parameters to minimize entropy across augmented views. STS operates entirely at inference in the latent space, without backpropagation through or modification of the frozen encoders. Building on standard evaluation protocols, our comprehensive experiments demonstrate that STS largely surpasses or compares favorably against state-of-the-art test-time adaptation methods, while introducing only a handful of additional parameters and achieving inference speeds up to 8x faster with a 12x smaller memory footprint than conventional test-time prompt tuning. The code is available at https://github.com/kdafnis/STS.