Politica di Diffusione Controllabile Diversificata con Logica Temporale dei Segnali

Abstract

Generare simulazioni realistiche è fondamentale per applicazioni di sistemi autonomi come la guida autonoma e le interazioni uomo-robot. Tuttavia, i simulatori di guida attuali hanno ancora difficoltà nel generare comportamenti controllabili, diversificati e conformi alle regole per i partecipanti alla strada: i modelli basati su regole non riescono a produrre comportamenti diversificati e richiedono un'attenta regolazione, mentre i metodi basati sull'apprendimento imitano la politica dai dati ma non sono progettati per seguire esplicitamente le regole. Inoltre, i dataset del mondo reale sono per natura "a singolo esito", rendendo difficile per i metodi di apprendimento generare comportamenti diversificati. In questo articolo, sfruttiamo la Signal Temporal Logic (STL) e i Diffusion Models per apprendere una politica controllabile, diversificata e consapevole delle regole. Prima calibriamo la STL sui dati del mondo reale, poi generiamo dati sintetici diversificati utilizzando l'ottimizzazione delle traiettorie, e infine apprendiamo la politica di diffusione rettificata sul dataset aumentato. Testiamo sul dataset NuScenes e il nostro approccio può ottenere le traiettorie più diversificate e conformi alle regole rispetto ad altri metodi di riferimento, con un tempo di esecuzione 1/17X rispetto al secondo miglior approccio. Nei test in ciclo chiuso, il nostro approccio raggiunge la massima diversità, il tasso di soddisfazione delle regole e il minor tasso di collisioni. Il nostro metodo può generare caratteristiche variabili condizionate su diversi parametri STL nei test. Uno studio di caso sugli scenari di incontro uomo-robot mostra che il nostro approccio può generare traiettorie diversificate e vicine a quelle ideali. Lo strumento di annotazione, il dataset aumentato e il codice sono disponibili su https://github.com/mengyuest/pSTL-diffusion-policy.

English

Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.

Politica di Diffusione Controllabile Diversificata con Logica Temporale dei Segnali

Diverse Controllable Diffusion Policy with Signal Temporal Logic

Abstract

Support