Skalierung autonomer Agenten durch automatische Belohnungsmodellierung und Planung
Scaling Autonomous Agents via Automatic Reward Modeling And Planning
February 17, 2025
Autoren: Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei einer Vielzahl von Textgenerierungsaufgaben gezeigt. Dennoch haben LLMs immer noch Schwierigkeiten mit Problemen, die mehrstufige Entscheidungsfindung und Umweltfeedback erfordern, wie z.B. Online-Shopping, wissenschaftliches Denken und mathematische Problemlösung. Im Gegensatz zu reinen Textdaten ist die Sammlung von groß angelegten Entscheidungsdaten eine Herausforderung. Darüber hinaus sind viele leistungsstarke LLMs nur über APIs zugänglich, was ihre Feinabstimmung für Agentenaufgaben aufgrund von Kosten und Komplexität behindert. Um die Einschränkungen von LLM-Agenten zu überwinden, schlagen wir ein Framework vor, das automatisch ein Belohnungsmodell aus der Umgebung lernen kann, ohne menschliche Annotationen. Dieses Modell kann verwendet werden, um die Aktionspfade von LLM-Agenten zu bewerten und Heuristiken für die Aufgabenplanung bereitzustellen. Konkret beinhaltet unser Ansatz den Einsatz eines LLM-basierten Agenten, der zufällig in einer Umgebung navigiert und diverse Aktionspfade erzeugt. Anschließend wird ein separates LLM genutzt, um eine Aufgabenabsicht zuzuweisen und eine negative Antwort neben der korrekten Antwort für jeden Pfad zu synthetisieren. Diese Tripel (Aufgabenabsicht, positive Antwort und negative Antwort) werden dann als Trainingsdaten verwendet, um ein Belohnungsmodell zu optimieren, das in der Lage ist, Aktionspfade zu bewerten. Die Wirksamkeit und Generalisierbarkeit unseres Frameworks wird durch Bewertungen auf verschiedenen Agenten-Benchmarks demonstriert. Zusammenfassend stellt unser vorgeschlagenes Framework einen bedeutenden Fortschritt bei der Verbesserung der Entscheidungsfähigkeiten von LLM-Agenten dar. Durch die Automatisierung des Lernens von Belohnungsmodellen überwinden wir die Herausforderungen der Datenknappheit und API-Beschränkungen und revolutionieren potenziell die Anwendung von LLMs in komplexen und interaktiven Umgebungen. Diese Forschung ebnet den Weg für anspruchsvollere KI-Agenten, die in der Lage sind, eine breite Palette von realen Problemen zu bewältigen, die mehrstufige Entscheidungsfindung erfordern.
English
Large language models (LLMs) have demonstrated remarkable capabilities across
a range of text-generation tasks. However, LLMs still struggle with problems
requiring multi-step decision-making and environmental feedback, such as online
shopping, scientific reasoning, and mathematical problem-solving. Unlike pure
text data, collecting large-scale decision-making data is challenging.
Moreover, many powerful LLMs are only accessible through APIs, which hinders
their fine-tuning for agent tasks due to cost and complexity. To address LLM
agents' limitations, we propose a framework that can automatically learn a
reward model from the environment without human annotations. This model can be
used to evaluate the action trajectories of LLM agents and provide heuristics
for task planning. Specifically, our approach involves employing one LLM-based
agent to navigate an environment randomly, generating diverse action
trajectories. Subsequently, a separate LLM is leveraged to assign a task intent
and synthesize a negative response alongside the correct response for each
trajectory. These triplets (task intent, positive response, and negative
response) are then utilized as training data to optimize a reward model capable
of scoring action trajectories. The effectiveness and generalizability of our
framework are demonstrated through evaluations conducted on different agent
benchmarks. In conclusion, our proposed framework represents a significant
advancement in enhancing LLM agents' decision-making capabilities. By
automating the learning of reward models, we overcome the challenges of data
scarcity and API limitations, potentially revolutionizing the application of
LLMs in complex and interactive environments. This research paves the way for
more sophisticated AI agents capable of tackling a wide range of real-world
problems requiring multi-step decision-making.Summary
AI-Generated Summary