BiCLIP: Domänenkanonisierung durch strukturierte geometrische Transformation

Zusammenfassung

Jüngste Fortschritte bei Vision-Language-Modellen (VLMs) haben bemerkenswerte Zero-Shot-Fähigkeiten demonstriert, doch die Anpassung dieser Modelle an spezialisierte Domänen bleibt eine große Herausforderung. Aufbauend auf aktuellen theoretischen Erkenntnissen, die nahelegen, dass unabhängig trainierte VLMs durch eine kanonische Transformation verbunden sind, erweitern wir dieses Verständnis auf das Konzept der Domänen. Wir stellen die Hypothese auf, dass Bildmerkmale über verschiedene Domänen hinweg durch eine kanonisierte geometrische Transformation verbunden sind, die mit einer kleinen Menge von Ankerpunkten rekonstruiert werden kann. Few-Shot-Klassifikation bietet ein natürliches Setting für diese Ausrichtung, da die begrenzten gelabelten Stichproben als Ankerpunkte dienen, die zur Schätzung dieser Transformation benötigt werden. Motiviert durch diese Hypothese stellen wir BiCLIP vor, einen Rahmen, der eine gezielte Transformation auf multimodale Merkmale anwendet, um die cross-modale Ausrichtung zu verbessern. Unser Ansatz zeichnet sich durch seine extreme Einfachheit und geringe Parameterzahl aus. Umfangreiche Auswertungen über 11 Standard-Benchmarks, darunter EuroSAT, DTD und FGVCAircraft, zeigen, dass BiCLIP durchweg state-of-the-art Ergebnisse erzielt. Darüber hinaus liefern wir eine empirische Bestätigung bestehender geometrischer Erkenntnisse durch Analyse der Orthogonalität und Winkelverteilung der gelernten Transformationen, was bestätigt, dass strukturierte Ausrichtung der Schlüssel zu robuster Domänenanpassung ist. Code ist verfügbar unter https://github.com/QuantitativeImagingLaboratory/BilinearCLIP

English

Recent advances in vision-language models (VLMs) have demonstrated remarkable zero-shot capabilities, yet adapting these models to specialized domains remains a significant challenge. Building on recent theoretical insights suggesting that independently trained VLMs are related by a canonical transformation, we extend this understanding to the concept of domains. We hypothesize that image features across disparate domains are related by a canonicalized geometric transformation that can be recovered using a small set of anchors. Few-shot classification provides a natural setting for this alignment, as the limited labeled samples serve as the anchors required to estimate this transformation. Motivated by this hypothesis, we introduce BiCLIP, a framework that applies a targeted transformation to multimodal features to enhance cross-modal alignment. Our approach is characterized by its extreme simplicity and low parameter footprint. Extensive evaluations across 11 standard benchmarks, including EuroSAT, DTD, and FGVCAircraft, demonstrate that BiCLIP consistently achieves state-of-the-art results. Furthermore, we provide empirical verification of existing geometric findings by analyzing the orthogonality and angular distribution of the learned transformations, confirming that structured alignment is the key to robust domain adaptation. Code is available at https://github.com/QuantitativeImagingLaboratory/BilinearCLIP

BiCLIP: Domänenkanonisierung durch strukturierte geometrische Transformation

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Zusammenfassung

Support