PRIX: Aprendizaje de planificación a partir de píxeles en bruto para conducción autónoma de extremo a extremo

Resumen

Si bien los modelos de conducción autónoma de extremo a extremo muestran resultados prometedores, su implementación práctica a menudo se ve obstaculizada por el gran tamaño de los modelos, la dependencia de costosos sensores LiDAR y las representaciones de características BEV computacionalmente intensivas. Esto limita su escalabilidad, especialmente para vehículos de mercado masivo equipados únicamente con cámaras. Para abordar estos desafíos, proponemos PRIX (Plan from Raw Pixels). Nuestra novedosa y eficiente arquitectura de conducción de extremo a extremo opera utilizando únicamente datos de cámaras, sin una representación explícita BEV y prescindiendo de la necesidad de LiDAR. PRIX aprovecha un extractor de características visuales junto con un cabezal de planificación generativo para predecir trayectorias seguras directamente a partir de entradas de píxeles en bruto. Un componente central de nuestra arquitectura es el Context-aware Recalibration Transformer (CaRT), un módulo novedoso diseñado para mejorar eficazmente las características visuales de múltiples niveles para una planificación más robusta. Demostramos mediante experimentos exhaustivos que PRIX alcanza un rendimiento de vanguardia en los benchmarks NavSim y nuScenes, igualando las capacidades de planificadores de difusión multimodal más grandes, mientras es significativamente más eficiente en términos de velocidad de inferencia y tamaño del modelo, lo que lo convierte en una solución práctica para la implementación en el mundo real. Nuestro trabajo es de código abierto y el código estará disponible en https://maxiuw.github.io/prix.

English

While end-to-end autonomous driving models show promising results, their practical deployment is often hindered by large model sizes, a reliance on expensive LiDAR sensors and computationally intensive BEV feature representations. This limits their scalability, especially for mass-market vehicles equipped only with cameras. To address these challenges, we propose PRIX (Plan from Raw Pixels). Our novel and efficient end-to-end driving architecture operates using only camera data, without explicit BEV representation and forgoing the need for LiDAR. PRIX leverages a visual feature extractor coupled with a generative planning head to predict safe trajectories from raw pixel inputs directly. A core component of our architecture is the Context-aware Recalibration Transformer (CaRT), a novel module designed to effectively enhance multi-level visual features for more robust planning. We demonstrate through comprehensive experiments that PRIX achieves state-of-the-art performance on the NavSim and nuScenes benchmarks, matching the capabilities of larger, multimodal diffusion planners while being significantly more efficient in terms of inference speed and model size, making it a practical solution for real-world deployment. Our work is open-source and the code will be at https://maxiuw.github.io/prix.

PRIX: Aprendizaje de planificación a partir de píxeles en bruto para conducción autónoma de extremo a extremo

PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

Resumen

Support