WALL-E: Wereldafstemming door regelgebaseerd leren verbetert LLM-agents op basis van wereldmodel.
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
October 9, 2024
Auteurs: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
cs.AI
Samenvatting
Kunnen grote taalmodellen (LLM's) rechtstreeks dienen als krachtige wereldmodellen voor op modellen gebaseerde agenten? Hoewel er wel degelijk kloven bestaan tussen de voorafgaande kennis van LLM's en de dynamiek van de gespecificeerde omgeving, onthult onze studie dat deze kloven kunnen worden overbrugd door een LLM af te stemmen op zijn ingezette omgeving, en dat een dergelijke "wereldafstemming" efficiënt kan worden bereikt door regels te leren op LLM's. Gezien de rijke voorafgaande kennis van LLM's volstaan slechts enkele extra regels om de voorspellingen van LLM's af te stemmen op de dynamiek van de gespecificeerde omgeving. Daartoe stellen we een neurosymbolische benadering voor om deze regels zonder gradiënt te leren via LLM's, door regels te induceren, bij te werken en te snoeien op basis van vergelijkingen tussen door de agent verkende trajecten en voorspellingen van het wereldmodel. Het resulterende wereldmodel bestaat uit de LLM en de geleerde regels. Onze belichaamde LLM-agent "WALL-E" is gebouwd op modelvoorspellende controle (MPC). Door vooruitkijkende acties te optimaliseren op basis van het nauwkeurige wereldmodel, verbetert MPC aanzienlijk de verkenning en leer-efficiëntie. In vergelijking met bestaande LLM-agenten vereist de redenering van WALL-E slechts enkele hoofdregels in plaats van uitgebreide gebufferde trajecten die in de LLM-input zijn opgenomen. In open-wereld uitdagingen in Minecraft en ALFWorld behaalt WALL-E hogere succespercentages dan bestaande methoden, met lagere kosten voor herplanningstijd en het aantal tokens dat wordt gebruikt voor redenering. In Minecraft overtreft WALL-E baselines met 15-30% in succespercentage, terwijl het 8-20 minder herplanningsrondes kost en slechts 60-80% van de tokens gebruikt. In ALFWorld stijgt het succespercentage naar een nieuw recordhoogte van 95% na slechts 6 iteraties.
English
Can large language models (LLMs) directly serve as powerful world models for
model-based agents? While the gaps between the prior knowledge of LLMs and the
specified environment's dynamics do exist, our study reveals that the gaps can
be bridged by aligning an LLM with its deployed environment and such "world
alignment" can be efficiently achieved by rule learning on LLMs. Given the rich
prior knowledge of LLMs, only a few additional rules suffice to align LLM
predictions with the specified environment dynamics. To this end, we propose a
neurosymbolic approach to learn these rules gradient-free through LLMs, by
inducing, updating, and pruning rules based on comparisons of agent-explored
trajectories and world model predictions. The resulting world model is composed
of the LLM and the learned rules. Our embodied LLM agent "WALL-E" is built upon
model-predictive control (MPC). By optimizing look-ahead actions based on the
precise world model, MPC significantly improves exploration and learning
efficiency. Compared to existing LLM agents, WALL-E's reasoning only requires a
few principal rules rather than verbose buffered trajectories being included in
the LLM input. On open-world challenges in Minecraft and ALFWorld, WALL-E
achieves higher success rates than existing methods, with lower costs on
replanning time and the number of tokens used for reasoning. In Minecraft,
WALL-E exceeds baselines by 15-30% in success rate while costing 8-20 fewer
replanning rounds and only 60-80% of tokens. In ALFWorld, its success rate
surges to a new record high of 95% only after 6 iterations.Summary
AI-Generated Summary