WALL-E : Alignement mondial par l'apprentissage de rÚgles améliore les agents LLM basés sur le modÚle mondialWALL-E: World Alignment by Rule Learning Improves World Model-based LLM
Agents
Les grands modĂšles de langage (GML) peuvent-ils directement servir de puissants modĂšles du monde pour les agents basĂ©s sur des modĂšles ? Bien que des Ă©carts existent entre les connaissances antĂ©rieures des GML et la dynamique de l'environnement spĂ©cifiĂ©, notre Ă©tude rĂ©vĂšle que ces Ă©carts peuvent ĂȘtre comblĂ©s en alignant un GML avec son environnement dĂ©ployĂ©, et un tel "alignement mondial" peut ĂȘtre efficacement rĂ©alisĂ© en apprenant des rĂšgles sur les GML. Compte tenu des riches connaissances antĂ©rieures des GML, seules quelques rĂšgles supplĂ©mentaires suffisent pour aligner les prĂ©dictions des GML avec la dynamique de l'environnement spĂ©cifiĂ©. Ă cette fin, nous proposons une approche neurosymbolique pour apprendre ces rĂšgles sans gradient Ă travers les GML, en induisant, mettant Ă jour et Ă©laguant des rĂšgles basĂ©es sur des comparaisons entre les trajectoires explorĂ©es par l'agent et les prĂ©dictions du modĂšle du monde. Le modĂšle du monde rĂ©sultant est composĂ© du GML et des rĂšgles apprises. Notre agent GML incarnĂ© "WALL-E" est construit sur un contrĂŽle prĂ©dictif de modĂšle (CPM). En optimisant les actions de prĂ©vision en fonction du modĂšle du monde prĂ©cis, le CPM amĂ©liore significativement l'efficacitĂ© de l'exploration et de l'apprentissage. ComparĂ© aux agents GML existants, le raisonnement de WALL-E ne nĂ©cessite que quelques rĂšgles principales plutĂŽt que des trajectoires tampon verbeuses incluses en entrĂ©e du GML. Sur des dĂ©fis en monde ouvert dans Minecraft et ALFWorld, WALL-E atteint des taux de rĂ©ussite plus Ă©levĂ©s que les mĂ©thodes existantes, avec des coĂ»ts moindres en termes de temps de replanification et du nombre de jetons utilisĂ©s pour le raisonnement. Dans Minecraft, WALL-E dĂ©passe les rĂ©fĂ©rences de 15 Ă 30 % en taux de rĂ©ussite tout en nĂ©cessitant de 8 Ă 20 rounds de replanification en moins et seulement 60 Ă 80 % des jetons. Dans ALFWorld, son taux de rĂ©ussite atteint un nouveau record de 95 % seulement aprĂšs 6 itĂ©rations.