Fast-FoundationStereo: Stima Stereo Zero-Shot in Tempo Reale
Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching
December 11, 2025
Autori: Bowen Wen, Shaurya Dewan, Stan Birchfield
cs.AI
Abstract
I modelli stereo di base (foundation models) raggiungono una forte generalizzazione zero-shot ma rimangono computazionalmente proibitivi per applicazioni in tempo reale. Le architetture stereo efficienti, d'altro canto, sacrificano la robustezza a favore della velocità e richiedono una costosa messa a punto (fine-tuning) per ogni dominio. Per colmare questa lacuna, presentiamo Fast-FoundationStereo, una famiglia di architetture che raggiunge, per la prima volta, una solida generalizzazione zero-shot a una frequenza fotogrammi (frame rate) in tempo reale. Adottiamo una strategia di accelerazione divide-et-impera con tre componenti: (1) distillazione della conoscenza (knowledge distillation) per comprimere il backbone ibrido in un singolo studente efficiente; (2) ricerca dell'architettura neurale (neural architecture search) a blocchi per scoprire automaticamente progetti ottimali di filtraggio dei costi (cost filtering) sotto vincoli di latenza, riducendo esponenzialmente la complessità della ricerca; e (3) potatura strutturata (structured pruning) per eliminare la ridondanza nel modulo di raffinamento iterativo. Inoltre, introduciamo una pipeline automatica di pseudo-etichettatura (pseudo-labeling) utilizzata per curare 1,4 milioni di coppie stereo del mondo reale (in-the-wild) per integrare i dati di addestramento sintetici e facilitare la distillazione della conoscenza. Il modello risultante può essere eseguito oltre 10 volte più velocemente di FoundationStereo, avvicinandosi alla sua accuratezza zero-shot, stabilendo così un nuovo stato dell'arte tra i metodi in tempo reale. Pagina del progetto: https://nvlabs.github.io/Fast-FoundationStereo/
English
Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/