STMA: Un Agente di Memoria Spazio-Temporale per la Pianificazione di Attività Embodied a Lungo Termine
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning
February 14, 2025
Autori: Mingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI
Abstract
Un obiettivo chiave dell'intelligenza incarnata è consentire agli agenti di eseguire compiti a lungo termine in ambienti dinamici, mantenendo al contempo un processo decisionale robusto e adattabilità. Per raggiungere questo obiettivo, proponiamo l'agente di memoria spaziotemporale (Spatio-Temporal Memory Agent, STMA), un nuovo framework progettato per migliorare la pianificazione e l'esecuzione dei compiti attraverso l'integrazione della memoria spaziotemporale. STMA si basa su tre componenti critiche: (1) un modulo di memoria spaziotemporale che cattura in tempo reale i cambiamenti storici e ambientali, (2) un grafo della conoscenza dinamico che facilita il ragionamento spaziale adattivo, e (3) un meccanismo pianificatore-critico che affina iterativamente le strategie dei compiti. Valutiamo STMA nell'ambiente TextWorld su 32 compiti, che coinvolgono pianificazione multi-step ed esplorazione con diversi livelli di complessità. I risultati sperimentali dimostrano che STMA ottiene un miglioramento del 31,25% nel tasso di successo e un aumento del 24,7% nel punteggio medio rispetto al modello all'avanguardia. I risultati evidenziano l'efficacia della memoria spaziotemporale nel potenziare le capacità mnemoniche degli agenti incarnati.
English
A key objective of embodied intelligence is enabling agents to perform
long-horizon tasks in dynamic environments while maintaining robust
decision-making and adaptability. To achieve this goal, we propose the
Spatio-Temporal Memory Agent (STMA), a novel framework designed to enhance task
planning and execution by integrating spatio-temporal memory. STMA is built
upon three critical components: (1) a spatio-temporal memory module that
captures historical and environmental changes in real time, (2) a dynamic
knowledge graph that facilitates adaptive spatial reasoning, and (3) a
planner-critic mechanism that iteratively refines task strategies. We evaluate
STMA in the TextWorld environment on 32 tasks, involving multi-step planning
and exploration under varying levels of complexity. Experimental results
demonstrate that STMA achieves a 31.25% improvement in success rate and a 24.7%
increase in average score compared to the state-of-the-art model. The results
highlight the effectiveness of spatio-temporal memory in advancing the memory
capabilities of embodied agents.