Agent-R : Entraßnement d'agents de modélisation linguistique pour la réflexion via un auto-entraßnement itératifAgent-R: Training Language Model Agents to Reflect via Iterative
Self-Training
Les grands modĂšles de langage (LLM) sont de plus en plus essentiels pour aborder des tĂąches complexes dans des environnements interactifs. Les travaux existants se concentrent principalement sur l'amĂ©lioration des performances grĂące Ă la clonage de comportement Ă partir d'experts plus forts, cependant, de telles approches Ă©chouent souvent dans des applications du monde rĂ©el, principalement en raison de l'incapacitĂ© Ă rĂ©cupĂ©rer des erreurs. Cependant, les donnĂ©es de critique au niveau de l'Ă©tape sont difficiles et coĂ»teuses Ă collecter. Automatiser et construire dynamiquement des ensembles de donnĂ©es d'auto-critique est donc crucial pour doter les modĂšles de capacitĂ©s d'agent intelligent. Dans ce travail, nous proposons un cadre d'auto-formation itĂ©ratif, Agent-R, qui permet Ă l'agent de langage de rĂ©flĂ©chir en temps rĂ©el. Contrairement aux mĂ©thodes traditionnelles qui rĂ©compensent ou pĂ©nalisent les actions en fonction de leur correction, Agent-R exploite MCTS pour construire des donnĂ©es d'entraĂźnement qui rĂ©cupĂšrent des trajectoires correctes Ă partir de celles erronĂ©es. Un dĂ©fi clĂ© de la rĂ©flexion de l'agent rĂ©side dans la nĂ©cessitĂ© d'une rĂ©vision rapide plutĂŽt que d'attendre la fin d'un dĂ©ploiement. Pour y remĂ©dier, nous introduisons un mĂ©canisme de construction de critique guidĂ© par le modĂšle : le modĂšle d'acteur identifie la premiĂšre Ă©tape d'erreur (dans sa capacitĂ© actuelle) dans une trajectoire Ă©chouĂ©e. Ă partir de lĂ , nous la fusionnons avec le chemin correct adjacent, qui partage le mĂȘme nĆud parent dans l'arbre. Cette stratĂ©gie permet au modĂšle d'apprendre la rĂ©flexion en fonction de sa politique actuelle, offrant ainsi une meilleure efficacitĂ© d'apprentissage. Pour explorer davantage la scalabilitĂ© de ce paradigme d'auto-amĂ©lioration, nous Ă©tudions le raffinement itĂ©ratif des capacitĂ©s de correction d'erreur et de construction de jeu de donnĂ©es. Nos rĂ©sultats dĂ©montrent qu'Agent-R amĂ©liore continuellement la capacitĂ© du modĂšle Ă rĂ©cupĂ©rer des erreurs et permet une correction d'erreur en temps opportun. Des expĂ©riences menĂ©es sur trois environnements interactifs montrent qu'Agent-R dote efficacement les agents de la capacitĂ© de corriger des actions erronĂ©es tout en Ă©vitant les boucles, atteignant des performances supĂ©rieures par rapport aux mĂ©thodes de base (+5,59%).