Мультиагентное донастройка: самосовершенствование с разнообразными цепями рассуждений
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
January 10, 2025
Авторы: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI
Аннотация
Большие языковые модели (LLM) достигли выдающихся результатов в последние годы, но их основным ограничением являются обучающие данные. Для улучшения моделей за пределами обучающих данных в недавних работах исследовалось, как LLM можно использовать для генерации синтетических данных для автономного самосовершенствования. Однако последовательные этапы самосовершенствования могут достичь точки убывающей отдачи. В данной работе мы предлагаем дополнительный подход к самосовершенствованию, при котором применяется донастройка к мультиагентному сообществу языковых моделей. Группа языковых моделей, все начиная с одной и той же базовой модели, независимо специализируется путем обновления каждой модели с использованием данных, сгенерированных через мультиагентное взаимодействие между моделями. Обучая каждую модель на независимых наборах данных, мы показываем, как этот подход позволяет осуществлять специализацию между моделями и диверсификацию по набору моделей. В результате наша общая система способна сохранять разнообразные цепочки рассуждений и автономно улучшаться на гораздо большем количестве раундов донастройки, чем методы самосовершенствования одного агента. Мы количественно иллюстрируем эффективность подхода на широком наборе задач рассуждения.
English
Large language models (LLMs) have achieved remarkable performance in recent
years but are fundamentally limited by the underlying training data. To improve
models beyond the training data, recent works have explored how LLMs can be
used to generate synthetic data for autonomous self-improvement. However,
successive steps of self-improvement can reach a point of diminishing returns.
In this work, we propose a complementary approach towards self-improvement
where finetuning is applied to a multiagent society of language models. A group
of language models, all starting from the same base model, are independently
specialized by updating each one using data generated through multiagent
interactions among the models. By training each model on independent sets of
data, we illustrate how this approach enables specialization across models and
diversification over the set of models. As a result, our overall system is able
to preserve diverse reasoning chains and autonomously improve over many more
rounds of fine-tuning than single-agent self-improvement methods. We
quantitatively illustrate the efficacy of the approach across a wide suite of
reasoning tasks.Summary
AI-Generated Summary