Fast-FoundationStereo: Correspondência Estéreo em Tempo Real com Aprendizado Zero

Resumo

Os modelos de base para estereoscopia alcançam uma forte generalização zero-shot, mas permanecem computacionalmente proibitivos para aplicações em tempo real. As arquiteturas estereoscópicas eficientes, por outro lado, sacrificam a robustez pela velocidade e requerem um ajuste fino custoso por domínio. Para preencher esta lacuna, apresentamos o Fast-FoundationStereo, uma família de arquiteturas que alcança, pela primeira vez, uma forte generalização zero-shot à taxa de frames em tempo real. Empregamos uma estratégia de aceleração de dividir-e-conquistar com três componentes: (1) destilação de conhecimento para comprimir a espinha dorsal híbrida num único estudante eficiente; (2) pesquisa de arquitetura neural por blocos para descobrir automaticamente projetos ótimos de filtragem de custo sob orçamentos de latência, reduzindo a complexidade da pesquisa exponencialmente; e (3) poda estruturada para eliminar a redundância no módulo de refinamento iterativo. Adicionalmente, introduzimos um pipeline automático de pseudo-rotulagem usado para curar 1.4M de pares estereoscópicos do mundo real para complementar os dados de treino sintéticos e facilitar a destilação de conhecimento. O modelo resultante pode ser executado mais de 10 vezes mais rápido que o FoundationStereo, equiparando-se de perto à sua precisão zero-shot, estabelecendo assim um novo estado da arte entre os métodos em tempo real. Página do projeto: https://nvlabs.github.io/Fast-FoundationStereo/

English

Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/