LearnLM: Het verbeteren van Gemini voor Leren
LearnLM: Improving Gemini for Learning
December 21, 2024
Auteurs: LearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Brett Wiltshire, Brian Veprek, Daniel Gillick, Daniel Kasenberg, Derek Ahmed, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin McKee, Lisa Wang, Markus Kunesch, Mike Schaekermann, Miruna Pîslar, Nikhil Joshi, Parsa Mahmoudieh, Paul Jhun, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Amy Wang, Ankit Anand, Avishkar Bhoopchand, Dan Wild, Divya Pandya, Filip Bar, Garth Graham, Holger Winnemoeller, Mahvish Nagda, Prateek Kolhar, Renee Schneider, Shaojian Zhu, Stephanie Chan, Steve Yadlowsky, Viknesh Sounderajah, Yannis Assael
cs.AI
Samenvatting
De generatieve AI-systemen van vandaag zijn afgestemd om standaard informatie te presenteren in plaats van gebruikers te betrekken in het leerproces zoals een menselijke tutor zou doen. Om de brede reeks potentiële onderwijsgebruiksscenario's voor deze systemen aan te pakken, herschikken we de uitdaging van het injecteren van pedagogisch gedrag als een van pedagogische instructieopvolging, waarbij trainings- en evaluatievoorbeelden systeemniveau-instructies bevatten die de specifieke pedagogische kenmerken beschrijven die aanwezig zijn of gewenst zijn in daaropvolgende modelomwentelingen. Deze benadering vermijdt het vastleggen van onze modellen aan een specifieke definitie van pedagogie, en stelt in plaats daarvan leraren of ontwikkelaars in staat om het gewenste modelgedrag te specificeren. Het opent ook een pad naar het verbeteren van Gemini-modellen voor leren - door de toevoeging van onze pedagogische gegevens aan post-training mengsels - naast hun snel groeiende reeks mogelijkheden. Beide vertegenwoordigen belangrijke veranderingen ten opzichte van ons oorspronkelijke technische rapport. We tonen aan hoe training met pedagogische instructieopvolging een LearnLM-model oplevert (beschikbaar op Google AI Studio) dat aanzienlijk de voorkeur geniet van deskundige beoordelaars in een divers scala van leerscenario's, met gemiddelde voorkeurssterktes van 31\% boven GPT-4o, 11\% boven Claude 3.5, en 13\% boven het Gemini 1.5 Pro-model waar LearnLM op gebaseerd was.
English
Today's generative AI systems are tuned to present information by default
rather than engage users in service of learning as a human tutor would. To
address the wide range of potential education use cases for these systems, we
reframe the challenge of injecting pedagogical behavior as one of
pedagogical instruction following, where training and evaluation
examples include system-level instructions describing the specific pedagogy
attributes present or desired in subsequent model turns. This framing avoids
committing our models to any particular definition of pedagogy, and instead
allows teachers or developers to specify desired model behavior. It also clears
a path to improving Gemini models for learning -- by enabling the addition of
our pedagogical data to post-training mixtures -- alongside their rapidly
expanding set of capabilities. Both represent important changes from our
initial tech report. We show how training with pedagogical instruction
following produces a LearnLM model (available on Google AI Studio) that is
preferred substantially by expert raters across a diverse set of learning
scenarios, with average preference strengths of 31\% over GPT-4o, 11\% over
Claude 3.5, and 13\% over the Gemini 1.5 Pro model LearnLM was based on.