Lernen, gemeinsam mit mehreren Sprachmodellen zu decodieren.

papers.abstract

Wir schlagen eine Methode vor, um mehrere große Sprachmodelle (LLM) beizubringen, durch die Verflechtung ihrer Generierungen auf Token-Ebene zusammenzuarbeiten. Wir modellieren die Entscheidung, welches LLM das nächste Token generiert, als latente Variable. Durch die Optimierung der marginalen Wahrscheinlichkeit eines Trainingssatzes unter unserem Modell mit latenten Variablen lernt das Basis-LLM automatisch, wann es sich selbst generieren soll und wann es auf eines der „Assistenten“-Sprachmodelle zurückgreifen soll, um zu generieren, und das alles ohne direkte Überwachung. Die Zusammenarbeit auf Token-Ebene während der Dekodierung ermöglicht eine Fusion der Expertise jedes Modells auf eine Weise, die auf die spezifische Aufgabe zugeschnitten ist. Unsere kollaborative Dekodierung ist besonders nützlich in plattformübergreifenden Einstellungen, in denen ein generalistisches Basis-LLM lernt, Domänenexpertenmodelle anzurufen. Bei Anweisungsverfolgung, domänenspezifischen Fragen und Aufgaben des Denkens zeigen wir, dass die Leistung des gemeinsamen Systems die der einzelnen Modelle übertrifft. Durch qualitative Analyse der gelernten latenten Entscheidungen zeigen wir, dass Modelle, die mit unserer Methode trainiert wurden, verschiedene interessante Kollaborationsmuster aufweisen, z. B. Vorlagenfüllung. Unser Code ist verfügbar unter https://github.com/clinicalml/co-llm.

English

We propose a method to teach multiple large language models (LLM) to collaborate by interleaving their generations at the token level. We model the decision of which LLM generates the next token as a latent variable. By optimizing the marginal likelihood of a training set under our latent variable model, the base LLM automatically learns when to generate itself and when to call on one of the ``assistant'' language models to generate, all without direct supervision. Token-level collaboration during decoding allows for a fusion of each model's expertise in a manner tailored to the specific task at hand. Our collaborative decoding is especially useful in cross-domain settings where a generalist base LLM learns to invoke domain expert models. On instruction-following, domain-specific QA, and reasoning tasks, we show that the performance of the joint system exceeds that of the individual models. Through qualitative analysis of the learned latent decisions, we show models trained with our method exhibit several interesting collaboration patterns, e.g., template-filling. Our code is available at https://github.com/clinicalml/co-llm.

Lernen, gemeinsam mit mehreren Sprachmodellen zu decodieren.

Learning to Decode Collaboratively with Multiple Language Models

papers.abstract

Support