Política de Difusión Controlable Diversa con Lógica Temporal de Señales
Diverse Controllable Diffusion Policy with Signal Temporal Logic
March 4, 2025
Autores: Yue Meng, Chuchu fan
cs.AI
Resumen
La generación de simulaciones realistas es crucial para aplicaciones de sistemas autónomos, como la conducción autónoma y las interacciones humano-robot. Sin embargo, los simuladores de conducción actuales aún tienen dificultades para generar comportamientos controlables, diversos y compatibles con las reglas para los participantes en la carretera: los modelos basados en reglas no pueden producir comportamientos diversos y requieren un ajuste cuidadoso, mientras que los métodos basados en aprendizaje imitan la política a partir de los datos pero no están diseñados para seguir las reglas de manera explícita. Además, los conjuntos de datos del mundo real son por naturaleza de "resultado único", lo que dificulta que los métodos de aprendizaje generen comportamientos diversos. En este artículo, aprovechamos la Lógica Temporal de Señales (STL, por sus siglas en inglés) y los Modelos de Difusión para aprender una política controlable, diversa y consciente de las reglas. Primero calibramos la STL en los datos del mundo real, luego generamos datos sintéticos diversos utilizando optimización de trayectorias, y finalmente aprendemos la política de difusión rectificada en el conjunto de datos aumentado. Probamos nuestro enfoque en el conjunto de datos NuScenes y logramos las trayectorias más diversas y compatibles con las reglas en comparación con otros métodos de referencia, con un tiempo de ejecución 1/17 veces menor que el segundo mejor enfoque. En las pruebas de bucle cerrado, nuestro método alcanza la mayor diversidad, la tasa más alta de cumplimiento de reglas y la menor tasa de colisiones. Nuestro método puede generar características variadas condicionadas a diferentes parámetros de STL en las pruebas. Un estudio de caso sobre escenarios de encuentros humano-robot muestra que nuestro enfoque puede generar trayectorias diversas y cercanas a las ideales. La herramienta de anotación, el conjunto de datos aumentado y el código están disponibles en https://github.com/mengyuest/pSTL-diffusion-policy.
English
Generating realistic simulations is critical for autonomous system
applications such as self-driving and human-robot interactions. However,
driving simulators nowadays still have difficulty in generating controllable,
diverse, and rule-compliant behaviors for road participants: Rule-based models
cannot produce diverse behaviors and require careful tuning, whereas
learning-based methods imitate the policy from data but are not designed to
follow the rules explicitly. Besides, the real-world datasets are by nature
"single-outcome", making the learning method hard to generate diverse
behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion
Models to learn controllable, diverse, and rule-aware policy. We first
calibrate the STL on the real-world data, then generate diverse synthetic data
using trajectory optimization, and finally learn the rectified diffusion policy
on the augmented dataset. We test on the NuScenes dataset and our approach can
achieve the most diverse rule-compliant trajectories compared to other
baselines, with a runtime 1/17X to the second-best approach. In the closed-loop
testing, our approach reaches the highest diversity, rule satisfaction rate,
and the least collision rate. Our method can generate varied characteristics
conditional on different STL parameters in testing. A case study on human-robot
encounter scenarios shows our approach can generate diverse and
closed-to-oracle trajectories. The annotation tool, augmented dataset, and code
are available at https://github.com/mengyuest/pSTL-diffusion-policy.Summary
AI-Generated Summary