Schaalbaarheid van autonome agents via automatische beloningsmodellering en planning
Scaling Autonomous Agents via Automatic Reward Modeling And Planning
February 17, 2025
Auteurs: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond bij een reeks tekstgeneratietaken. LLMs hebben echter nog steeds moeite met problemen die multi-staps besluitvorming en omgevingsfeedback vereisen, zoals online winkelen, wetenschappelijk redeneren en wiskundig probleemoplossen. In tegenstelling tot pure tekstdata is het verzamelen van grootschalige besluitvormingsdata uitdagend. Bovendien zijn veel krachtige LLMs alleen toegankelijk via API's, wat het finetunen voor agenttaken belemmert vanwege kosten en complexiteit. Om de beperkingen van LLM-agents aan te pakken, stellen we een framework voor dat automatisch een beloningsmodel kan leren uit de omgeving zonder menselijke annotaties. Dit model kan worden gebruikt om de actietrajecten van LLM-agents te evalueren en heuristieken te bieden voor taakplanning. Specifiek omvat onze aanpak het inzetten van één LLM-gebaseerde agent om willekeurig door een omgeving te navigeren, waardoor diverse actietrajecten worden gegenereerd. Vervolgens wordt een aparte LLM gebruikt om een taakintentie toe te wijzen en een negatieve reactie samen te stellen naast de correcte reactie voor elk traject. Deze triplets (taakintentie, positieve reactie en negatieve reactie) worden vervolgens gebruikt als trainingsdata om een beloningsmodel te optimaliseren dat actietrajecten kan scoren. De effectiviteit en generaliseerbaarheid van ons framework worden aangetoond door evaluaties uitgevoerd op verschillende agentbenchmarks. Concluderend vertegenwoordigt ons voorgestelde framework een significante vooruitgang in het verbeteren van de besluitvormingscapaciteiten van LLM-agents. Door het automatisch leren van beloningsmodellen overkomen we de uitdagingen van dataschaarste en API-beperkingen, wat mogelijk een revolutie teweegbrengt in de toepassing van LLMs in complexe en interactieve omgevingen. Dit onderzoek opent de weg voor meer geavanceerde AI-agents die in staat zijn een breed scala aan real-world problemen aan te pakken die multi-staps besluitvorming vereisen.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
a range of text-generation tasks. However, LLMs still struggle with problems
requiring multi-step decision-making and environmental feedback, such as online
shopping, scientific reasoning, and mathematical problem-solving. Unlike pure
text data, collecting large-scale decision-making data is challenging.
Moreover, many powerful LLMs are only accessible through APIs, which hinders
their fine-tuning for agent tasks due to cost and complexity. To address LLM
agents' limitations, we propose a framework that can automatically learn a
reward model from the environment without human annotations. This model can be
used to evaluate the action trajectories of LLM agents and provide heuristics
for task planning. Specifically, our approach involves employing one LLM-based
agent to navigate an environment randomly, generating diverse action
trajectories. Subsequently, a separate LLM is leveraged to assign a task intent
and synthesize a negative response alongside the correct response for each
trajectory. These triplets (task intent, positive response, and negative
response) are then utilized as training data to optimize a reward model capable
of scoring action trajectories. The effectiveness and generalizability of our
framework are demonstrated through evaluations conducted on different agent
benchmarks. In conclusion, our proposed framework represents a significant
advancement in enhancing LLM agents' decision-making capabilities. By
automating the learning of reward models, we overcome the challenges of data
scarcity and API limitations, potentially revolutionizing the application of
LLMs in complex and interactive environments. This research paves the way for
more sophisticated AI agents capable of tackling a wide range of real-world
problems requiring multi-step decision-making.Summary
AI-Generated Summary