시각적 계획: 이미지만으로 생각해보자
Visual Planning: Let's Think Only with Images
May 16, 2025
저자: Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
cs.AI
초록
대규모 언어 모델(LLMs)과 그 다중모달 확장(MLLMs)의 최근 발전은 다양한 작업에서 기계 추론을 크게 향상시켰습니다. 그러나 이러한 모델들은 시각 정보가 존재하는 경우에도 주로 순수 텍스트를 추론을 표현하고 구조화하는 매체로 의존합니다. 본 연구에서는 특히 공간 및 기하학적 정보를 포함하는 작업에서 언어가 항상 가장 자연스럽거나 효과적인 추론 방식이 아닐 수 있다고 주장합니다. 이를 바탕으로 우리는 텍스트와 독립적으로 순수 시각적 표현을 통해 계획을 가능하게 하는 새로운 패러다임인 '시각적 계획(Visual Planning)'을 제안합니다. 이 패러다임에서는 인간이 스케치하거나 미래 행동을 시각화하는 방식과 유사하게, 시각적 영역에서 단계별 추론을 인코딩한 이미지 시퀀스를 통해 계획이 실행됩니다. 우리는 대규모 비전 모델의 사후 학습을 위해 GRPO로 강화된 새로운 강화 학습 프레임워크인 '강화 학습을 통한 시각적 계획(VPRL)'을 소개하며, 이를 통해 FrozenLake, Maze, MiniBehavior와 같은 대표적인 시각적 탐색 작업에서 계획 능력이 크게 개선되었음을 보여줍니다. 우리의 시각적 계획 패러다임은 텍스트만을 사용한 추론 방식의 모든 변형을 능가하는 성능을 보였습니다. 이러한 결과는 시각적 계획이 언어 기반 추론에 대한 실행 가능하고 유망한 대안임을 입증하며, 직관적이고 이미지 기반의 추론이 유리한 작업을 위한 새로운 가능성을 열었습니다.
English
Recent advancements in Large Language Models (LLMs) and their multimodal
extensions (MLLMs) have substantially enhanced machine reasoning across diverse
tasks. However, these models predominantly rely on pure text as the medium for
both expressing and structuring reasoning, even when visual information is
present. In this work, we argue that language may not always be the most
natural or effective modality for reasoning, particularly in tasks involving
spatial and geometrical information. Motivated by this, we propose a new
paradigm, Visual Planning, which enables planning through purely visual
representations, independent of text. In this paradigm, planning is executed
via sequences of images that encode step-by-step inference in the visual
domain, akin to how humans sketch or visualize future actions. We introduce a
novel reinforcement learning framework, Visual Planning via Reinforcement
Learning (VPRL), empowered by GRPO for post-training large vision models,
leading to substantial improvements in planning in a selection of
representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our
visual planning paradigm outperforms all other planning variants that conduct
reasoning in the text-only space. Our results establish Visual Planning as a
viable and promising alternative to language-based reasoning, opening new
avenues for tasks that benefit from intuitive, image-based inference.Summary
AI-Generated Summary