Politica di Diffusione Controllabile Diversificata con Logica Temporale dei Segnali
Diverse Controllable Diffusion Policy with Signal Temporal Logic
March 4, 2025
Autori: Yue Meng, Chuchu fan
cs.AI
Abstract
Generare simulazioni realistiche è fondamentale per applicazioni di sistemi autonomi come la guida autonoma e le interazioni uomo-robot. Tuttavia, i simulatori di guida attuali hanno ancora difficoltà nel generare comportamenti controllabili, diversificati e conformi alle regole per i partecipanti alla strada: i modelli basati su regole non riescono a produrre comportamenti diversificati e richiedono un'attenta regolazione, mentre i metodi basati sull'apprendimento imitano la politica dai dati ma non sono progettati per seguire esplicitamente le regole. Inoltre, i dataset del mondo reale sono per natura "a singolo esito", rendendo difficile per i metodi di apprendimento generare comportamenti diversificati. In questo articolo, sfruttiamo la Signal Temporal Logic (STL) e i Diffusion Models per apprendere una politica controllabile, diversificata e consapevole delle regole. Prima calibriamo la STL sui dati del mondo reale, poi generiamo dati sintetici diversificati utilizzando l'ottimizzazione delle traiettorie, e infine apprendiamo la politica di diffusione rettificata sul dataset aumentato. Testiamo sul dataset NuScenes e il nostro approccio può ottenere le traiettorie più diversificate e conformi alle regole rispetto ad altri metodi di riferimento, con un tempo di esecuzione 1/17X rispetto al secondo miglior approccio. Nei test in ciclo chiuso, il nostro approccio raggiunge la massima diversità, il tasso di soddisfazione delle regole e il minor tasso di collisioni. Il nostro metodo può generare caratteristiche variabili condizionate su diversi parametri STL nei test. Uno studio di caso sugli scenari di incontro uomo-robot mostra che il nostro approccio può generare traiettorie diversificate e vicine a quelle ideali. Lo strumento di annotazione, il dataset aumentato e il codice sono disponibili su https://github.com/mengyuest/pSTL-diffusion-policy.
English
Generating realistic simulations is critical for autonomous system
applications such as self-driving and human-robot interactions. However,
driving simulators nowadays still have difficulty in generating controllable,
diverse, and rule-compliant behaviors for road participants: Rule-based models
cannot produce diverse behaviors and require careful tuning, whereas
learning-based methods imitate the policy from data but are not designed to
follow the rules explicitly. Besides, the real-world datasets are by nature
"single-outcome", making the learning method hard to generate diverse
behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion
Models to learn controllable, diverse, and rule-aware policy. We first
calibrate the STL on the real-world data, then generate diverse synthetic data
using trajectory optimization, and finally learn the rectified diffusion policy
on the augmented dataset. We test on the NuScenes dataset and our approach can
achieve the most diverse rule-compliant trajectories compared to other
baselines, with a runtime 1/17X to the second-best approach. In the closed-loop
testing, our approach reaches the highest diversity, rule satisfaction rate,
and the least collision rate. Our method can generate varied characteristics
conditional on different STL parameters in testing. A case study on human-robot
encounter scenarios shows our approach can generate diverse and
closed-to-oracle trajectories. The annotation tool, augmented dataset, and code
are available at https://github.com/mengyuest/pSTL-diffusion-policy.Summary
AI-Generated Summary