TGPO: Ottimizzazione Temporale delle Politiche Radicate per Compiti di Logica Temporale dei Segnali

Abstract

L'apprendimento di politiche di controllo per compiti complessi e a lungo orizzonte rappresenta una sfida centrale nella robotica e nei sistemi autonomi. La Logica Temporale dei Segnali (Signal Temporal Logic, STL) offre un linguaggio potente ed espressivo per specificare tali compiti, ma la sua natura non markoviana e le ricompense intrinsecamente sparse rendono difficile la risoluzione tramite algoritmi standard di Apprendimento per Rinforzo (Reinforcement Learning, RL). Gli approcci RL precedenti si concentrano solo su frammenti limitati di STL o utilizzano i punteggi di robustezza STL come ricompense terminali sparse. In questo articolo, proponiamo TGPO, Temporal Grounded Policy Optimization, per risolvere compiti STL generali. TGPO scompone l'STL in sotto-obiettivi temporizzati e vincoli invarianti, fornendo un framework gerarchico per affrontare il problema. Il componente di alto livello di TGPO propone allocazioni temporali concrete per questi sotto-obiettivi, mentre la politica condizionata al tempo di basso livello impara a raggiungere i sotto-obiettivi sequenziali utilizzando un segnale di ricompensa denso e graduale. Durante l'inferenza, campioniamo varie allocazioni temporali e selezioniamo l'assegnazione più promettente per la rete di policy per generare la traiettoria di soluzione. Per favorire un apprendimento efficiente della politica per STL complessi con più sotto-obiettivi, sfruttiamo il critico appreso per guidare la ricerca temporale di alto livello tramite il campionamento Metropolis-Hastings, concentrando l'esplorazione su soluzioni temporalmente fattibili. Abbiamo condotto esperimenti su cinque ambienti, che vanno dalla navigazione a bassa dimensionalità alla manipolazione, ai droni e alla locomozione quadrupedale. In un'ampia gamma di compiti STL, TGPO supera significativamente i benchmark di stato dell'arte (soprattutto nei casi ad alta dimensionalità e lungo orizzonte), con un miglioramento medio del 31,6% nel tasso di successo del compito rispetto al miglior baseline. Il codice sarà disponibile all'indirizzo https://github.com/mengyuest/TGPO.

English

Learning control policies for complex, long-horizon tasks is a central challenge in robotics and autonomous systems. Signal Temporal Logic (STL) offers a powerful and expressive language for specifying such tasks, but its non-Markovian nature and inherent sparse reward make it difficult to be solved via standard Reinforcement Learning (RL) algorithms. Prior RL approaches focus only on limited STL fragments or use STL robustness scores as sparse terminal rewards. In this paper, we propose TGPO, Temporal Grounded Policy Optimization, to solve general STL tasks. TGPO decomposes STL into timed subgoals and invariant constraints and provides a hierarchical framework to tackle the problem. The high-level component of TGPO proposes concrete time allocations for these subgoals, and the low-level time-conditioned policy learns to achieve the sequenced subgoals using a dense, stage-wise reward signal. During inference, we sample various time allocations and select the most promising assignment for the policy network to rollout the solution trajectory. To foster efficient policy learning for complex STL with multiple subgoals, we leverage the learned critic to guide the high-level temporal search via Metropolis-Hastings sampling, focusing exploration on temporally feasible solutions. We conduct experiments on five environments, ranging from low-dimensional navigation to manipulation, drone, and quadrupedal locomotion. Under a wide range of STL tasks, TGPO significantly outperforms state-of-the-art baselines (especially for high-dimensional and long-horizon cases), with an average of 31.6% improvement in task success rate compared to the best baseline. The code will be available at https://github.com/mengyuest/TGPO

TGPO: Ottimizzazione Temporale delle Politiche Radicate per Compiti di Logica Temporale dei Segnali

TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic Tasks

Abstract

Support