Vielfältige steuerbare Diffusionsstrategie mit Signal-Temporal-Logik

papers.abstract

Die Erzeugung realistischer Simulationen ist entscheidend für Anwendungen autonomer Systeme wie selbstfahrende Fahrzeuge und Mensch-Roboter-Interaktionen. Allerdings haben heutige Fahrsimulatoren noch Schwierigkeiten, kontrollierbare, vielfältige und regelkonforme Verhaltensweisen für Verkehrsteilnehmer zu generieren: Regelbasierte Modelle können keine diversen Verhaltensweisen erzeugen und erfordern eine sorgfältige Anpassung, während lernbasierte Methoden die Strategie aus Daten nachahmen, jedoch nicht explizit darauf ausgelegt sind, die Regeln einzuhalten. Darüber hinaus sind reale Datensätze von Natur aus „Einzelereignisse“, was es der Lernmethode erschwert, diverse Verhaltensweisen zu generieren. In diesem Artikel nutzen wir Signal Temporal Logic (STL) und Diffusionsmodelle, um eine kontrollierbare, vielfältige und regelbewusste Strategie zu erlernen. Wir kalibrieren zunächst die STL anhand der realen Daten, generieren dann diverse synthetische Daten mithilfe von Trajektorienoptimierung und lernen schließlich die korrigierte Diffusionsstrategie auf dem erweiterten Datensatz. Wir testen auf dem NuScenes-Datensatz und unser Ansatz kann im Vergleich zu anderen Baselines die vielfältigsten regelkonformen Trajektorien erzielen, mit einer Laufzeit von 1/17X im Vergleich zum zweitbesten Ansatz. In der Closed-Loop-Testung erreicht unser Ansatz die höchste Diversität, Regelbefolgung und die geringste Kollisionsrate. Unsere Methode kann in der Testphase verschiedene Merkmale basierend auf unterschiedlichen STL-Parametern erzeugen. Eine Fallstudie zu Mensch-Roboter-Begegnungsszenarien zeigt, dass unser Ansatz diverse und nahezu optimale Trajektorien generieren kann. Das Annotationswerkzeug, der erweiterte Datensatz und der Code sind verfügbar unter https://github.com/mengyuest/pSTL-diffusion-policy.

English

Generating realistic simulations is critical for autonomous system applications such as self-driving and human-robot interactions. However, driving simulators nowadays still have difficulty in generating controllable, diverse, and rule-compliant behaviors for road participants: Rule-based models cannot produce diverse behaviors and require careful tuning, whereas learning-based methods imitate the policy from data but are not designed to follow the rules explicitly. Besides, the real-world datasets are by nature "single-outcome", making the learning method hard to generate diverse behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion Models to learn controllable, diverse, and rule-aware policy. We first calibrate the STL on the real-world data, then generate diverse synthetic data using trajectory optimization, and finally learn the rectified diffusion policy on the augmented dataset. We test on the NuScenes dataset and our approach can achieve the most diverse rule-compliant trajectories compared to other baselines, with a runtime 1/17X to the second-best approach. In the closed-loop testing, our approach reaches the highest diversity, rule satisfaction rate, and the least collision rate. Our method can generate varied characteristics conditional on different STL parameters in testing. A case study on human-robot encounter scenarios shows our approach can generate diverse and closed-to-oracle trajectories. The annotation tool, augmented dataset, and code are available at https://github.com/mengyuest/pSTL-diffusion-policy.

Vielfältige steuerbare Diffusionsstrategie mit Signal-Temporal-Logik

Diverse Controllable Diffusion Policy with Signal Temporal Logic

papers.abstract

Support