Scalabilità degli Agenti Autonomi tramite Modellazione Automatica dei Premi e Pianificazione
Scaling Autonomous Agents via Automatic Reward Modeling And Planning
February 17, 2025
Autori: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in una vasta gamma di compiti di generazione di testo. Tuttavia, gli LLM continuano a incontrare difficoltà con problemi che richiedono processi decisionali multi-step e feedback ambientale, come lo shopping online, il ragionamento scientifico e la risoluzione di problemi matematici. A differenza dei dati testuali puri, la raccolta di dati su larga scala relativi ai processi decisali è complessa. Inoltre, molti potenti LLM sono accessibili solo tramite API, il che ostacola il loro fine-tuning per compiti di agenti a causa di costi e complessità. Per affrontare le limitazioni degli agenti basati su LLM, proponiamo un framework in grado di apprendere automaticamente un modello di ricompensa dall'ambiente senza annotazioni umane. Questo modello può essere utilizzato per valutare le traiettorie d'azione degli agenti LLM e fornire euristiche per la pianificazione dei compiti. Nello specifico, il nostro approccio prevede l'impiego di un agente basato su LLM per esplorare un ambiente in modo casuale, generando traiettorie d'azione diverse. Successivamente, un LLM separato viene utilizzato per assegnare un'intenzione di compito e sintetizzare una risposta negativa insieme alla risposta corretta per ogni traiettoria. Queste triplette (intenzione di compito, risposta positiva e risposta negativa) vengono poi utilizzate come dati di addestramento per ottimizzare un modello di ricompensa in grado di valutare le traiettorie d'azione. L'efficacia e la generalizzabilità del nostro framework sono dimostrate attraverso valutazioni condotte su diversi benchmark per agenti. In conclusione, il framework proposto rappresenta un significativo progresso nel migliorare le capacità decisionali degli agenti LLM. Automatizzando l'apprendimento dei modelli di ricompensa, superiamo le sfide legate alla scarsità di dati e alle limitazioni delle API, potenzialmente rivoluzionando l'applicazione degli LLM in ambienti complessi e interattivi. Questa ricerca apre la strada a agenti AI più sofisticati, in grado di affrontare una vasta gamma di problemi del mondo reale che richiedono processi decisionali multi-step.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
a range of text-generation tasks. However, LLMs still struggle with problems
requiring multi-step decision-making and environmental feedback, such as online
shopping, scientific reasoning, and mathematical problem-solving. Unlike pure
text data, collecting large-scale decision-making data is challenging.
Moreover, many powerful LLMs are only accessible through APIs, which hinders
their fine-tuning for agent tasks due to cost and complexity. To address LLM
agents' limitations, we propose a framework that can automatically learn a
reward model from the environment without human annotations. This model can be
used to evaluate the action trajectories of LLM agents and provide heuristics
for task planning. Specifically, our approach involves employing one LLM-based
agent to navigate an environment randomly, generating diverse action
trajectories. Subsequently, a separate LLM is leveraged to assign a task intent
and synthesize a negative response alongside the correct response for each
trajectory. These triplets (task intent, positive response, and negative
response) are then utilized as training data to optimize a reward model capable
of scoring action trajectories. The effectiveness and generalizability of our
framework are demonstrated through evaluations conducted on different agent
benchmarks. In conclusion, our proposed framework represents a significant
advancement in enhancing LLM agents' decision-making capabilities. By
automating the learning of reward models, we overcome the challenges of data
scarcity and API limitations, potentially revolutionizing the application of
LLMs in complex and interactive environments. This research paves the way for
more sophisticated AI agents capable of tackling a wide range of real-world
problems requiring multi-step decision-making.Summary
AI-Generated Summary