Aprendiendo a Decodificar de Manera Colaborativa con Múltiples Modelos de Lenguaje
Learning to Decode Collaboratively with Multiple Language Models
March 6, 2024
Autores: Shannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag
cs.AI
Resumen
Proponemos un método para enseñar a múltiples modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) a colaborar intercalando sus generaciones a nivel de tokens. Modelamos la decisión de qué LLM genera el siguiente token como una variable latente. Al optimizar la verosimilitud marginal de un conjunto de entrenamiento bajo nuestro modelo de variable latente, el LLM base aprende automáticamente cuándo generar por sí mismo y cuándo invocar a uno de los modelos de lenguaje "asistentes" para generar, todo sin supervisión directa. La colaboración a nivel de tokens durante la decodificación permite una fusión de la experiencia de cada modelo de manera adaptada a la tarea específica en cuestión. Nuestra decodificación colaborativa es especialmente útil en entornos interdominio, donde un LLM base generalista aprende a invocar modelos expertos en dominios específicos. En tareas de seguimiento de instrucciones, preguntas y respuestas específicas de dominio y razonamiento, demostramos que el rendimiento del sistema conjunto supera al de los modelos individuales. A través de un análisis cualitativo de las decisiones latentes aprendidas, mostramos que los modelos entrenados con nuestro método exhiben varios patrones interesantes de colaboración, como el llenado de plantillas. Nuestro código está disponible en https://github.com/clinicalml/co-llm.
English
We propose a method to teach multiple large language models (LLM) to
collaborate by interleaving their generations at the token level. We model the
decision of which LLM generates the next token as a latent variable. By
optimizing the marginal likelihood of a training set under our latent variable
model, the base LLM automatically learns when to generate itself and when to
call on one of the ``assistant'' language models to generate, all without
direct supervision. Token-level collaboration during decoding allows for a
fusion of each model's expertise in a manner tailored to the specific task at
hand. Our collaborative decoding is especially useful in cross-domain settings
where a generalist base LLM learns to invoke domain expert models. On
instruction-following, domain-specific QA, and reasoning tasks, we show that
the performance of the joint system exceeds that of the individual models.
Through qualitative analysis of the learned latent decisions, we show models
trained with our method exhibit several interesting collaboration patterns,
e.g., template-filling. Our code is available at
https://github.com/clinicalml/co-llm.