ChatPaper.aiChatPaper

GeoStack : Un Cadre pour la Composition de Connaissances Quasi-Abéliennes dans les Modèles de Langage Visuel

GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7, 2026
Auteurs: Pranav Mantini, Shishir K. Shah
cs.AI

Résumé

Nous abordons le défi de la composition des connaissances dans les modèles vision-langage (VLM), où l'accumulation d'expertise sur plusieurs domaines ou tâches entraîne typiquement un oubli catastrophique. Nous présentons GeoStack (Empilement Géométrique), un cadre modulaire permettant de composer des experts de domaine entraînés indépendamment en un modèle unifié. En imposant des contraintes géométriques et structurelles sur la variété des adaptateurs, GeoStack préserve les connaissances fondamentales du modèle de base. De plus, nous démontrons mathématiquement une propriété de repliement des poids qui atteint une complexité d'inférence en temps constant (O(1)), indépendamment du nombre d'experts intégrés. Les résultats expérimentaux en adaptation multi-domaines et en apprentissage incrémental de classes montrent que GeoStack fournit un mécanisme efficace pour la composition des connaissances à long terme tout en atténuant significativement l'oubli catastrophique. Le code est disponible à l'adresse https://github.com/QuantitativeImagingLaboratory/GeoStack.
English
We address the challenge of knowledge composition in Vision-Language Models (VLMs), where accumulating expertise across multiple domains or tasks typically leads to catastrophic forgetting. We introduce GeoStack (Geometric Stacking), a modular framework that allows independently trained domain experts to be composed into a unified model. By imposing geometric and structural constraints on the adapter manifold, GeoStack ensures the foundational knowledge of the base model is preserved. Furthermore, we mathematically demonstrate a weight-folding property that achieves constant-time inference complexity (O(1)), regardless of the number of integrated experts. Experimental results across multi-domain adaptation and class-incremental learning show that GeoStack provides an efficient mechanism for long-term knowledge composition while significantly mitigating catastrophic forgetting. Code is available at https://github.com/QuantitativeImagingLaboratory/GeoStack.
PDF11May 9, 2026