ChatPaper.aiChatPaper

Обеспечение гибкой интеграции нескольких языковых моделей для масштабируемой агрегации знаний

Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation

May 28, 2025
Авторы: Zhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют впечатляющие результаты, однако их постоянное улучшение с помощью традиционного тонкого настройки остается сложной задачей, особенно при интеграции возможностей из других специализированных LLM. Популярные методы, такие как ансамблирование и объединение весов, требуют значительных объемов памяти и плохо адаптируются к изменяющимся данным. Недавние попытки передачи знаний из нескольких LLM в одну целевую модель сталкиваются с проблемами интерференции и снижения производительности между задачами, что во многом связано с ограниченной гибкостью в выборе кандидатов и процессах обучения. Для решения этих проблем мы предлагаем фреймворк, который адаптивно выбирает и агрегирует знания из различных LLM для создания единой, более мощной модели, избегая высоких затрат памяти при ансамблировании и негибкости объединения весов. В частности, мы разрабатываем адаптивную сеть выбора, которая идентифицирует наиболее релевантные исходные LLM на основе их оценок, тем самым снижая интерференцию знаний. Мы также предлагаем стратегию динамического взвешенного слияния, учитывающую внутренние сильные стороны кандидатов LLM, а также функцию потерь, управляемую обратной связью, которая предотвращает сходимость селектора на одном подмножестве источников. Экспериментальные результаты показывают, что наш метод обеспечивает более стабильный и масштабируемый процесс агрегации знаний, снижая интерференцию знаний до 50% по сравнению с существующими подходами. Код доступен по адресу https://github.com/ZLKong/LLM_Integration.
English
Large language models (LLMs) have shown remarkable promise but remain challenging to continually improve through traditional finetuning, particularly when integrating capabilities from other specialized LLMs. Popular methods like ensemble and weight merging require substantial memory and struggle to adapt to changing data environments. Recent efforts have transferred knowledge from multiple LLMs into a single target model; however, they suffer from interference and degraded performance among tasks, largely due to limited flexibility in candidate selection and training pipelines. To address these issues, we propose a framework that adaptively selects and aggregates knowledge from diverse LLMs to build a single, stronger model, avoiding the high memory overhead of ensemble and inflexible weight merging. Specifically, we design an adaptive selection network that identifies the most relevant source LLMs based on their scores, thereby reducing knowledge interference. We further propose a dynamic weighted fusion strategy that accounts for the inherent strengths of candidate LLMs, along with a feedback-driven loss function that prevents the selector from converging on a single subset of sources. Experimental results demonstrate that our method can enable a more stable and scalable knowledge aggregation process while reducing knowledge interference by up to 50% compared to existing approaches. Code is avaliable at https://github.com/ZLKong/LLM_Integration
PDF52June 2, 2025