GeoStack: Фреймворк для квазиабелевой композиции знаний в моделях визуально-лингвистического обучения
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs
May 7, 2026
Авторы: Pranav Mantini, Shishir K. Shah
cs.AI
Аннотация
Мы решаем проблему композиции знаний в визуально-языковых моделях (VLM), где накопление экспертизы в нескольких областях или задачах обычно приводит к катастрофическому забыванию. Мы представляем GeoStack (Geometric Stacking) — модульную структуру, которая позволяет объединять независимо обученных экспертов предметных областей в единую модель. Путем наложения геометрических и структурных ограничений на многообразие адаптеров GeoStack гарантирует сохранение базовых знаний исходной модели. Кроме того, мы математически демонстрируем свойство свёртки весов, которое обеспечивает постоянную вычислительную сложность вывода (O(1)) независимо от количества интегрированных экспертов. Результаты экспериментов в области многодоменной адаптации и обучения с поэтапным добавлением классов показывают, что GeoStack предоставляет эффективный механизм для долгосрочной композиции знаний при значительном снижении катастрофического забывания. Код доступен по адресу https://github.com/QuantitativeImagingLaboratory/GeoStack.
English
We address the challenge of knowledge composition in Vision-Language Models (VLMs), where accumulating expertise across multiple domains or tasks typically leads to catastrophic forgetting. We introduce GeoStack (Geometric Stacking), a modular framework that allows independently trained domain experts to be composed into a unified model. By imposing geometric and structural constraints on the adapter manifold, GeoStack ensures the foundational knowledge of the base model is preserved. Furthermore, we mathematically demonstrate a weight-folding property that achieves constant-time inference complexity (O(1)), regardless of the number of integrated experts. Experimental results across multi-domain adaptation and class-incremental learning show that GeoStack provides an efficient mechanism for long-term knowledge composition while significantly mitigating catastrophic forgetting. Code is available at https://github.com/QuantitativeImagingLaboratory/GeoStack.