Lite Any Stereo V2: более быстрое и сильное эффективное zero-shot стерео-сопоставление

Аннотация

Недавние достижения в области стерео-сопоставления позволили достичь впечатляющей точности, однако они часто опираются на крупные модели, высокие вычислительные затраты или дополнительные априорные данные базовых моделей, что затрудняет их развёртывание на платформах с ограниченными ресурсами. Напротив, эффективные стерео-модели обеспечивают более быстрый вывод, но обычно считаются менее способными к сильному обобщению в режиме zero-shot. В данной работе мы оспариваем это предположение, представляя Lite Any Stereo V2 (LAS2) — серию сверхбыстрых моделей, разработанных для эффективного стерео-сопоставления в режиме zero-shot. LAS2 разрабатывался с учётом как архитектурных, так и обучающих аспектов. С архитектурной точки зрения мы пересматриваем проектирование эффективных стерео-систем в условиях практического развёртывания и предлагаем фреймворк агрегации стоимости, основанный исключительно на 2D-операциях и оптимизированный для реальной задержки вывода, а не только для теоретических MAC. Что касается обучения, мы разрабатываем трёхэтапную стратегию, сочетающую синтетическое обучение с учителем, самодистилляцию и дистилляцию знаний на реальных данных. Для повышения надёжности псевдо-наблюдений на реальных данных мы дополнительно вводим фильтрацию псевдо-меток и операцию ограничения ошибок, что обеспечивает более плавный перенос с синтетических на реальные данные. Мы реализуем LAS2 как семейство моделей, включая варианты прямого распространения для различных бюджетов эффективности и итеративный вариант для более высокой точности. Обширные эксперименты показывают, что LAS2 достигает передовой точности среди эффективных стерео-методов, сохраняя при этом значительно меньшую задержку. В частности, LAS2-H демонстрирует более высокую общую производительность в режиме zero-shot, чем итеративный метод Fast-FoundationStereo, при этом обеспечивая в 1,8 и 2,7 раза более быстрый вывод на платформах H200 и Orin соответственно. Страница проекта, демонстрации и код доступны по адресу https://tomtomtommi.github.io/LiteAnyStereoV2/.

English

Recent advances in stereo matching have achieved remarkable accuracy, but often rely on large models, heavy computation, or additional foundation-model priors, making them difficult to deploy on resource-constrained platforms. In contrast, efficient stereo models offer faster inference but are commonly considered less capable of strong zero-shot generalization. In this paper, we challenge this assumption by introducing Lite Any Stereo V2 (LAS2), an ultra-fast model series designed for efficient zero-shot stereo matching. LAS2 is developed from both architecture and training perspectives. Architecturally, we revisit efficient stereo design under practical deployment settings and propose a 2D-only cost aggregation framework, optimized for real inference latency rather than theoretical MACs alone. For training, we develop a three-stage strategy that combines synthetic supervision, self-distillation, and real-world knowledge distillation. To improve the reliability of real-world pseudo supervision, we further introduce pseudo-label filtering and an error-clamping operation, enabling smoother synthetic-to-real transfer. We instantiate LAS2 as a family of models, including feed-forward variants for different efficiency budgets and an iterative variant for higher accuracy. Extensive experiments show that LAS2 achieves state-of-the-art accuracy among efficient stereo methods while maintaining significantly lower latency. Specifically, LAS2-H achieves stronger overall zero-shot performance than the iterative method Fast-FoundationStereo, with 1.8x and 2.7x faster inference on H200 and Orin, respectively. The project page, demos, and code are available at https://tomtomtommi.github.io/LiteAnyStereoV2/.