LearnLM: Verbesserung von Gemini für das Lernen

LearnLM: Improving Gemini for Learning

December 21, 2024
Autoren: LearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Brett Wiltshire, Brian Veprek, Daniel Gillick, Daniel Kasenberg, Derek Ahmed, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin McKee, Lisa Wang, Markus Kunesch, Mike Schaekermann, Miruna Pîslar, Nikhil Joshi, Parsa Mahmoudieh, Paul Jhun, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Amy Wang, Ankit Anand, Avishkar Bhoopchand, Dan Wild, Divya Pandya, Filip Bar, Garth Graham, Holger Winnemoeller, Mahvish Nagda, Prateek Kolhar, Renee Schneider, Shaojian Zhu, Stephanie Chan, Steve Yadlowsky, Viknesh Sounderajah, Yannis Assael
cs.AI

Zusammenfassung

Die heutigen generativen KI-Systeme sind standardmäßig darauf eingestellt, Informationen zu präsentieren, anstatt Benutzer wie ein menschlicher Tutor beim Lernen zu unterstützen. Um die Vielzahl potenzieller Bildungsanwendungsfälle für diese Systeme anzugehen, formulieren wir die Herausforderung, pädagogisches Verhalten einzuführen, als pädagogische Anweisungsnachfolge. Dabei umfassen Trainings- und Evaluierungsbeispiele systemweite Anweisungen, die die spezifischen pädagogischen Merkmale beschreiben, die in nachfolgenden Modellinteraktionen vorhanden oder erwünscht sind. Diese Herangehensweise vermeidet es, unsere Modelle an eine bestimmte Definition von Pädagogik zu binden, und ermöglicht es Lehrern oder Entwicklern, das gewünschte Verhalten des Modells festzulegen. Sie ebnet auch den Weg zur Verbesserung von Gemini-Modellen für das Lernen, indem sie die Hinzufügung unserer pädagogischen Daten zu post-training Mischungen ermöglicht, neben ihrem schnell wachsenden Funktionsumfang. Beide stellen wichtige Änderungen gegenüber unserem ursprünglichen Technikbericht dar. Wir zeigen, wie das Training mit pädagogischer Anweisungsnachfolge ein LearnLM-Modell (verfügbar auf Google AI Studio) hervorbringt, das von Experten in einer Vielzahl von Lernszenarien deutlich bevorzugt wird, mit durchschnittlichen Präferenzstärken von 31\% gegenüber GPT-4o, 11\% gegenüber Claude 3.5 und 13\% gegenüber dem Gemini 1.5 Pro-Modell, auf dem LearnLM basierte.
English
Today's generative AI systems are tuned to present information by default rather than engage users in service of learning as a human tutor would. To address the wide range of potential education use cases for these systems, we reframe the challenge of injecting pedagogical behavior as one of pedagogical instruction following, where training and evaluation examples include system-level instructions describing the specific pedagogy attributes present or desired in subsequent model turns. This framing avoids committing our models to any particular definition of pedagogy, and instead allows teachers or developers to specify desired model behavior. It also clears a path to improving Gemini models for learning -- by enabling the addition of our pedagogical data to post-training mixtures -- alongside their rapidly expanding set of capabilities. Both represent important changes from our initial tech report. We show how training with pedagogical instruction following produces a LearnLM model (available on Google AI Studio) that is preferred substantially by expert raters across a diverse set of learning scenarios, with average preference strengths of 31\% over GPT-4o, 11\% over Claude 3.5, and 13\% over the Gemini 1.5 Pro model LearnLM was based on.

Summary

AI-Generated Summary

PDF222December 24, 2024