Belohnungsvorhersage mit faktorisierten Weltzuständen

Zusammenfassung

Agenten müssen Handlungsergebnisse ableiten und Aktionen auswählen, die ein Belohnungssignal maximieren, das anzeigt, wie nah das Ziel erreicht ist. Überwachtes Lernen von Belohnungsmodellen könnte Verzerrungen einführen, die den Trainingsdaten inhärent sind, und so die Generalisierung auf neue Ziele und Umgebungen einschränken. In dieser Arbeit untersuchen wir, ob allein gut definierte Weltzustandsrepräsentationen eine genaue Belohnungsvorhersage über Domänen hinweg ermöglichen können. Um dies zu adressieren, führen wir StateFactory ein, eine faktorisierte Repräsentationsmethode, die unstrukturierte Beobachtungen mithilfe von Sprachmodellen in eine hierarchische Objekt-Attribut-Struktur transformiert. Diese strukturierte Repräsentation erlaubt es, Belohnungen natürlich als semantische Ähnlichkeit zwischen dem aktuellen Zustand und dem Zielzustand unter hierarchischer Nebenbedingung zu schätzen. Insgesamt ermöglicht die durch StateFactory induzierte kompakte Repräsentationsstruktur starke Generalisierungsfähigkeiten für Belohnungen. Wir evaluieren auf RewardPrediction, einem neuen Benchmark-Datensatz, der fünf verschiedene Domänen umfasst und 2.454 einzigartige Aktions-Beobachtungs-Trajektorien mit schrittweisen Ground-Truth-Belohnungen enthält. Unsere Methode zeigt vielversprechende Zero-Shot-Ergebnisse im Vergleich zu sowohl VLWM-critic- als auch LLM-as-a-Judge-Belohnungsmodellen und erreicht jeweils eine um 60 % bzw. 8 % geringere EPIC-Distanz. Darüber hinaus überträgt sich diese überlegene Belohnungsqualität erfolgreich in eine verbesserte Planungsleistung von Agenten, was zu Steigerungen der Erfolgsrate von +21,64 % auf AlfWorld und +12,40 % auf ScienceWorld gegenüber reaktiven System-1-Policies führt und die Planung von System-2-Agenten verbessert. Projektseite: https://statefactory.github.io

English

Agents must infer action outcomes and select actions that maximize a reward signal indicating how close the goal is to being reached. Supervised learning of reward models could introduce biases inherent to training data, limiting generalization to novel goals and environments. In this paper, we investigate whether well-defined world state representations alone can enable accurate reward prediction across domains. To address this, we introduce StateFactory, a factorized representation method that transforms unstructured observations into a hierarchical object-attribute structure using language models. This structured representation allows rewards to be estimated naturally as the semantic similarity between the current state and the goal state under hierarchical constraint. Overall, the compact representation structure induced by StateFactory enables strong reward generalization capabilities. We evaluate on RewardPrediction, a new benchmark dataset spanning five diverse domains and comprising 2,454 unique action-observation trajectories with step-wise ground-truth rewards. Our method shows promising zero-shot results against both VLWM-critic and LLM-as-a-Judge reward models, achieving 60% and 8% lower EPIC distance, respectively. Furthermore, this superior reward quality successfully translates into improved agent planning performance, yielding success rate gains of +21.64% on AlfWorld and +12.40% on ScienceWorld over reactive system-1 policies and enhancing system-2 agent planning. Project Page: https://statefactory.github.io

Belohnungsvorhersage mit faktorisierten Weltzuständen

Reward Prediction with Factorized World States

Zusammenfassung

Support