ChatPaper.aiChatPaper

Fast-FoundationStereo : Appariement Stéréo Temps Réel Sans Apprentissage Préalable

Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching

December 11, 2025
papers.authors: Bowen Wen, Shaurya Dewan, Stan Birchfield
cs.AI

papers.abstract

Les modèles de fondation stéréo atteignent une forte généralisation zero-shot mais restent prohibitifs en calcul pour les applications en temps réel. Les architectures stéréo efficaces, quant à elles, sacrifient la robustesse pour la vitesse et nécessitent un réglage fin coûteux par domaine. Pour combler cet écart, nous présentons Fast-FoundationStereo, une famille d'architectures qui atteint, pour la première fois, une forte généralisation zero-shot à une fréquence d'images temps réel. Nous employons une stratégie d'accélération diviser-pour-régner avec trois composantes : (1) la distillation de connaissances pour compresser le backbone hybride en un seul étudiant efficace ; (2) une recherche de architecture neuronale par blocs pour découvrir automatiquement des conceptions optimales de filtrage des coûts sous contrainte de latence, réduisant exponentiellement la complexité de la recherche ; et (3) un élagage structuré pour éliminer la redondance dans le module de raffinement itératif. De plus, nous introduisons un pipeline automatique de pseudo-étiquetage utilisé pour constituer 1,4 million de paires stéréo en conditions réelles afin de compléter les données d'entraînement synthétiques et de faciliter la distillation des connaissances. Le modèle résultant peut fonctionner plus de 10 fois plus vite que FoundationStereo tout en approchant de près sa précision zero-shot, établissant ainsi un nouvel état de l'art parmi les méthodes temps réel. Page du projet : https://nvlabs.github.io/Fast-FoundationStereo/
English
Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/
PDF42December 17, 2025