GeoStack: Ein Framework für quasi-abelsche Wissenskomposition in VLMs
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs
May 7, 2026
Autoren: Pranav Mantini, Shishir K. Shah
cs.AI
Zusammenfassung
Wir behandeln das Problem der Wissenskomposition in Vision-Language-Modellen (VLMs), bei dem die Akkumulation von Expertise über mehrere Domänen oder Aufgaben typischerweise zu katastrophalem Vergessen führt. Wir stellen GeoStack (Geometric Stacking) vor, einen modularen Rahmen, der es ermöglicht, unabhängig voneinander trainierte Domain-Experten zu einem einheitlichen Modell zu kombinieren. Durch die Auferlegung geometrischer und struktureller Beschränkungen auf die Adapter-Mannigfaltigkeit stellt GeoStack sicher, dass das Grundlagenwissen des Basismodells erhalten bleibt. Darüber hinaus demonstrieren wir mathematisch eine Gewichtsfaltungseigenschaft, die eine konstante Inferenzkomplexität (O(1)) erreicht, unabhängig von der Anzahl der integrierten Experten. Experimentelle Ergebnisse in den Bereichen Multi-Domain-Adaption und klassenzuwachsenden Lernens zeigen, dass GeoStack einen effizienten Mechanismus für langfristige Wissenskomposition bereitstellt und gleichzeitig katastrophales Vergessen signifikant mindert. Der Code ist verfügbar unter https://github.com/QuantitativeImagingLaboratory/GeoStack.
English
We address the challenge of knowledge composition in Vision-Language Models (VLMs), where accumulating expertise across multiple domains or tasks typically leads to catastrophic forgetting. We introduce GeoStack (Geometric Stacking), a modular framework that allows independently trained domain experts to be composed into a unified model. By imposing geometric and structural constraints on the adapter manifold, GeoStack ensures the foundational knowledge of the base model is preserved. Furthermore, we mathematically demonstrate a weight-folding property that achieves constant-time inference complexity (O(1)), regardless of the number of integrated experts. Experimental results across multi-domain adaptation and class-incremental learning show that GeoStack provides an efficient mechanism for long-term knowledge composition while significantly mitigating catastrophic forgetting. Code is available at https://github.com/QuantitativeImagingLaboratory/GeoStack.