Política de Difusão Controlável Diversa com Lógica Temporal de Sinais
Diverse Controllable Diffusion Policy with Signal Temporal Logic
March 4, 2025
Autores: Yue Meng, Chuchu fan
cs.AI
Resumo
A geração de simulações realistas é crucial para aplicações de sistemas autônomos, como direção autônoma e interações humano-robô. No entanto, os simuladores de direção atuais ainda têm dificuldade em gerar comportamentos controláveis, diversos e em conformidade com as regras para os participantes da via: modelos baseados em regras não conseguem produzir comportamentos diversos e exigem ajustes cuidadosos, enquanto métodos baseados em aprendizado imitam a política a partir de dados, mas não são projetados para seguir as regras explicitamente. Além disso, os conjuntos de dados do mundo real são, por natureza, de "único resultado", o que dificulta a geração de comportamentos diversos pelos métodos de aprendizado. Neste artigo, utilizamos Lógica Temporal de Sinais (STL) e Modelos de Difusão para aprender uma política controlável, diversa e consciente das regras. Primeiro, calibramos a STL nos dados do mundo real, depois geramos dados sintéticos diversos usando otimização de trajetória e, finalmente, aprendemos a política de difusão retificada no conjunto de dados aumentado. Testamos no conjunto de dados NuScenes e nossa abordagem consegue alcançar as trajetórias mais diversas e em conformidade com as regras em comparação com outras abordagens de referência, com um tempo de execução 1/17X em relação à segunda melhor abordagem. Nos testes de loop fechado, nossa abordagem atinge a maior diversidade, taxa de satisfação das regras e a menor taxa de colisão. Nosso método pode gerar características variadas condicionadas a diferentes parâmetros de STL nos testes. Um estudo de caso em cenários de encontro humano-robô mostra que nossa abordagem pode gerar trajetórias diversas e próximas às ideais. A ferramenta de anotação, o conjunto de dados aumentado e o código estão disponíveis em https://github.com/mengyuest/pSTL-diffusion-policy.
English
Generating realistic simulations is critical for autonomous system
applications such as self-driving and human-robot interactions. However,
driving simulators nowadays still have difficulty in generating controllable,
diverse, and rule-compliant behaviors for road participants: Rule-based models
cannot produce diverse behaviors and require careful tuning, whereas
learning-based methods imitate the policy from data but are not designed to
follow the rules explicitly. Besides, the real-world datasets are by nature
"single-outcome", making the learning method hard to generate diverse
behaviors. In this paper, we leverage Signal Temporal Logic (STL) and Diffusion
Models to learn controllable, diverse, and rule-aware policy. We first
calibrate the STL on the real-world data, then generate diverse synthetic data
using trajectory optimization, and finally learn the rectified diffusion policy
on the augmented dataset. We test on the NuScenes dataset and our approach can
achieve the most diverse rule-compliant trajectories compared to other
baselines, with a runtime 1/17X to the second-best approach. In the closed-loop
testing, our approach reaches the highest diversity, rule satisfaction rate,
and the least collision rate. Our method can generate varied characteristics
conditional on different STL parameters in testing. A case study on human-robot
encounter scenarios shows our approach can generate diverse and
closed-to-oracle trajectories. The annotation tool, augmented dataset, and code
are available at https://github.com/mengyuest/pSTL-diffusion-policy.Summary
AI-Generated Summary