ChatPaper.aiChatPaper

Fast-FoundationStereo: Emparejamiento Estéreo de Cero Disparos en Tiempo Real

Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching

December 11, 2025
Autores: Bowen Wen, Shaurya Dewan, Stan Birchfield
cs.AI

Resumen

Los modelos base de estéreo logran una fuerte generalización zero-shot pero siguen siendo computacionalmente prohibitivos para aplicaciones en tiempo real. Las arquitecturas estéreo eficientes, por otro lado, sacrifican robustez por velocidad y requieren costosos ajustes por dominio. Para cerrar esta brecha, presentamos Fast-FoundationStereo, una familia de arquitecturas que logra, por primera vez, una sólida generalización zero-shot a velocidades de tiempo real. Empleamos una estrategia de aceleración divide y vencerás con tres componentes: (1) destilación de conocimiento para comprimir el backbone híbrido en un único estudiante eficiente; (2) búsqueda de arquitectura neuronal por bloques para descubrir automáticamente diseños óptimos de filtrado de coste bajo límites de latencia, reduciendo exponencialmente la complejidad de búsqueda; y (3) poda estructurada para eliminar redundancias en el módulo de refinamiento iterativo. Además, introducimos un pipeline automático de pseudoetiquetado utilizado para curar 1.4M pares estéreo del mundo real para complementar los datos de entrenamiento sintéticos y facilitar la destilación de conocimiento. El modelo resultante puede ejecutarse más de 10 veces más rápido que FoundationStereo mientras iguala estrechamente su precisión zero-shot, estableciendo así un nuevo estado del arte entre los métodos en tiempo real. Página del proyecto: https://nvlabs.github.io/Fast-FoundationStereo/
English
Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/
PDF42December 17, 2025