PRIX: Aprendizaje de planificación a partir de píxeles en bruto para conducción autónoma de extremo a extremo
PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving
July 23, 2025
Autores: Maciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt
cs.AI
Resumen
Si bien los modelos de conducción autónoma de extremo a extremo muestran resultados prometedores, su implementación práctica a menudo se ve obstaculizada por el gran tamaño de los modelos, la dependencia de costosos sensores LiDAR y las representaciones de características BEV computacionalmente intensivas. Esto limita su escalabilidad, especialmente para vehículos de mercado masivo equipados únicamente con cámaras. Para abordar estos desafíos, proponemos PRIX (Plan from Raw Pixels). Nuestra novedosa y eficiente arquitectura de conducción de extremo a extremo opera utilizando únicamente datos de cámaras, sin una representación explícita BEV y prescindiendo de la necesidad de LiDAR. PRIX aprovecha un extractor de características visuales junto con un cabezal de planificación generativo para predecir trayectorias seguras directamente a partir de entradas de píxeles en bruto. Un componente central de nuestra arquitectura es el Context-aware Recalibration Transformer (CaRT), un módulo novedoso diseñado para mejorar eficazmente las características visuales de múltiples niveles para una planificación más robusta. Demostramos mediante experimentos exhaustivos que PRIX alcanza un rendimiento de vanguardia en los benchmarks NavSim y nuScenes, igualando las capacidades de planificadores de difusión multimodal más grandes, mientras es significativamente más eficiente en términos de velocidad de inferencia y tamaño del modelo, lo que lo convierte en una solución práctica para la implementación en el mundo real. Nuestro trabajo es de código abierto y el código estará disponible en https://maxiuw.github.io/prix.
English
While end-to-end autonomous driving models show promising results, their
practical deployment is often hindered by large model sizes, a reliance on
expensive LiDAR sensors and computationally intensive BEV feature
representations. This limits their scalability, especially for mass-market
vehicles equipped only with cameras. To address these challenges, we propose
PRIX (Plan from Raw Pixels). Our novel and efficient end-to-end driving
architecture operates using only camera data, without explicit BEV
representation and forgoing the need for LiDAR. PRIX leverages a visual feature
extractor coupled with a generative planning head to predict safe trajectories
from raw pixel inputs directly. A core component of our architecture is the
Context-aware Recalibration Transformer (CaRT), a novel module designed to
effectively enhance multi-level visual features for more robust planning. We
demonstrate through comprehensive experiments that PRIX achieves
state-of-the-art performance on the NavSim and nuScenes benchmarks, matching
the capabilities of larger, multimodal diffusion planners while being
significantly more efficient in terms of inference speed and model size, making
it a practical solution for real-world deployment. Our work is open-source and
the code will be at https://maxiuw.github.io/prix.