Видеомодели рассуждают заранее: использование приверженности плану для решения лабиринтов

Аннотация

Видеодиффузионные модели демонстрируют эмерджентные способности к логическому выводу, такие как решение лабиринтов и головоломок, однако механизмы их рассуждений в процессе генерации остаются малоизученными. Мы делаем первый шаг к пониманию этого, исследуя внутреннюю динамику планирования видеомоделей на примере решения двумерных лабиринтов как контролируемого полигона. Наши изыскания выявили два ключевых результата. Первый — это раннее принятие плана: видеодиффузионные модели фиксируют общий план движения в течение первых нескольких шагов денойзинга, после чего дальнейшее удаление шума влияет лишь на визуальные детали, но не изменяет базовую траекторию. Второй результат заключается в том, что доминирующим фактором сложности лабиринта является длина пути, а не плотность препятствий, с резким порогом отказа на отметке в 12 шагов. Это означает, что видеомодели могут анализировать протяжённые лабиринты только путём объединения нескольких последовательных генераций. Чтобы продемонстрировать практическую пользу наших открытий, мы представляем метод Chaining with Early Planning (ChEaP), который расходует вычислительные ресурсы только на перспективные начальные планы и объединяет их для решения сложных лабиринтов. Это повышает точность с 7% до 67% для лабиринтов с длинной перспективой и в 2.5 раза в целом для сложных задач в Frozen Lake и VR-Bench на моделях Wan2.2-14B и HunyuanVideo-1.5. Наш анализ показывает, что современные видеомодели обладают более глубокими capabilities к рассуждению, чем считалось ранее, которые можно надёжнее активировать за счёт улучшенного масштабирования на этапе вывода.

English

Video diffusion models exhibit emergent reasoning capabilities like solving mazes and puzzles, yet little is understood about how they reason during generation. We take a first step towards understanding this and study the internal planning dynamics of video models using 2D maze solving as a controlled testbed. Our investigations reveal two findings. Our first finding is early plan commitment: video diffusion models commit to a high-level motion plan within the first few denoising steps, after which further denoising alters visual details but not the underlying trajectory. Our second finding is that path length, not obstacle density, is the dominant predictor of maze difficulty, with a sharp failure threshold at 12 steps. This means video models can only reason over long mazes by chaining together multiple sequential generations. To demonstrate the practical benefits of our findings, we introduce Chaining with Early Planning, or ChEaP, which only spends compute on seeds with promising early plans and chains them together to tackle complex mazes. This improves accuracy from 7% to 67% on long-horizon mazes and by 2.5x overall on hard tasks in Frozen Lake and VR-Bench across Wan2.2-14B and HunyuanVideo-1.5. Our analysis reveals that current video models possess deeper reasoning capabilities than previously recognized, which can be elicited more reliably with better inference-time scaling.

Видеомодели рассуждают заранее: использование приверженности плану для решения лабиринтов

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

Аннотация

Support