Ajuste fino multiagente: Mejora personal con Cadenas de Razonamiento Diversas
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
January 10, 2025
Autores: Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) han logrado un rendimiento notable en los últimos años, pero están fundamentalmente limitados por los datos de entrenamiento subyacentes. Para mejorar los modelos más allá de los datos de entrenamiento, trabajos recientes han explorado cómo los LLMs pueden ser utilizados para generar datos sintéticos para el auto-mejoramiento autónomo. Sin embargo, los pasos sucesivos de auto-mejora pueden llegar a un punto de rendimientos decrecientes. En este trabajo, proponemos un enfoque complementario hacia el auto-mejoramiento donde se aplica el ajuste fino a una sociedad multiagente de modelos de lenguaje. Un grupo de modelos de lenguaje, todos partiendo del mismo modelo base, se especializan de forma independiente mediante la actualización de cada uno utilizando datos generados a través de interacciones multiagente entre los modelos. Al entrenar cada modelo en conjuntos de datos independientes, ilustramos cómo este enfoque permite la especialización entre modelos y la diversificación sobre el conjunto de modelos. Como resultado, nuestro sistema general es capaz de preservar cadenas de razonamiento diversas y mejorar de forma autónoma durante muchas más rondas de ajuste fino que los métodos de auto-mejora de un solo agente. Ilustramos cuantitativamente la eficacia del enfoque en una amplia gama de tareas de razonamiento.
English
Large language models (LLMs) have achieved remarkable performance in recent
years but are fundamentally limited by the underlying training data. To improve
models beyond the training data, recent works have explored how LLMs can be
used to generate synthetic data for autonomous self-improvement. However,
successive steps of self-improvement can reach a point of diminishing returns.
In this work, we propose a complementary approach towards self-improvement
where finetuning is applied to a multiagent society of language models. A group
of language models, all starting from the same base model, are independently
specialized by updating each one using data generated through multiagent
interactions among the models. By training each model on independent sets of
data, we illustrate how this approach enables specialization across models and
diversification over the set of models. As a result, our overall system is able
to preserve diverse reasoning chains and autonomously improve over many more
rounds of fine-tuning than single-agent self-improvement methods. We
quantitatively illustrate the efficacy of the approach across a wide suite of
reasoning tasks.Summary
AI-Generated Summary