ChatPaper.aiChatPaper

PRIX: エンドツーエンド自動運転のための生ピクセルからの計画学習

PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

July 23, 2025
著者: Maciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt
cs.AI

要旨

エンドツーエンドの自動運転モデルは有望な結果を示していますが、その実用化は、大規模なモデルサイズ、高価なLiDARセンサーへの依存、計算集約的なBEV(鳥瞰図)特徴表現によってしばしば妨げられています。これは、特にカメラのみを搭載した大衆向け車両において、スケーラビリティを制限しています。これらの課題に対処するため、我々はPRIX(Plan from Raw Pixels)を提案します。この新規で効率的なエンドツーエンド運転アーキテクチャは、カメラデータのみを使用し、明示的なBEV表現を必要とせず、LiDARも不要です。PRIXは、視覚的特徴抽出器と生成型プランニングヘッドを組み合わせて、生のピクセル入力から直接安全な軌道を予測します。我々のアーキテクチャの中核となるのは、Context-aware Recalibration Transformer(CaRT)という新規モジュールで、多層の視覚的特徴を効果的に強化し、より堅牢なプランニングを実現します。包括的な実験を通じて、PRIXがNavSimおよびnuScenesベンチマークで最先端の性能を達成し、大規模でマルチモーダルな拡散プランナーと同等の能力を持ちながら、推論速度とモデルサイズの点で大幅に効率的であることを示し、実世界での実用化に適したソリューションであることを証明します。我々の研究はオープンソースであり、コードはhttps://maxiuw.github.io/prixで公開されます。
English
While end-to-end autonomous driving models show promising results, their practical deployment is often hindered by large model sizes, a reliance on expensive LiDAR sensors and computationally intensive BEV feature representations. This limits their scalability, especially for mass-market vehicles equipped only with cameras. To address these challenges, we propose PRIX (Plan from Raw Pixels). Our novel and efficient end-to-end driving architecture operates using only camera data, without explicit BEV representation and forgoing the need for LiDAR. PRIX leverages a visual feature extractor coupled with a generative planning head to predict safe trajectories from raw pixel inputs directly. A core component of our architecture is the Context-aware Recalibration Transformer (CaRT), a novel module designed to effectively enhance multi-level visual features for more robust planning. We demonstrate through comprehensive experiments that PRIX achieves state-of-the-art performance on the NavSim and nuScenes benchmarks, matching the capabilities of larger, multimodal diffusion planners while being significantly more efficient in terms of inference speed and model size, making it a practical solution for real-world deployment. Our work is open-source and the code will be at https://maxiuw.github.io/prix.
PDF52July 28, 2025