사고의 풍경: 대규모 언어 모델의 추론 과정 시각화
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models
March 28, 2025
저자: Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han
cs.AI
초록
대규모 언어 모델(LLMs)의 다양한 응용은 단계별 추론 능력에 의존합니다. 그러나 LLMs의 추론 행동은 여전히 잘 이해되지 않고 있어 연구, 개발 및 안전에 도전 과제를 제기합니다. 이러한 격차를 해소하기 위해, 우리는 '생각의 풍경(landscape of thoughts)'을 소개합니다. 이는 사용자가 다중 선택 데이터셋에서 사고의 연쇄(chain-of-thought) 및 그 파생물의 추론 경로를 검사할 수 있는 첫 번째 시각화 도구입니다. 구체적으로, 우리는 추론 경로의 상태를 모든 답변 선택지와의 거리를 정량화하는 특징 벡터로 표현합니다. 이러한 특징들은 t-SNE를 사용하여 2차원 플롯으로 시각화됩니다. '생각의 풍경'을 통한 질적 및 양적 분석은 강력한 모델과 약한 모델, 정답과 오답, 그리고 다양한 추론 작업을 효과적으로 구분합니다. 또한, 낮은 일관성과 높은 불확실성과 같은 바람직하지 않은 추론 패턴을 발견합니다. 추가적으로, 사용자는 우리의 도구를 관찰하는 속성을 예측하는 모델에 적용할 수 있습니다. 우리는 이 장점을 경량 검증기(verifier)에 적용하여 추론 경로의 정확성을 평가하는 사례를 보여줍니다. 코드는 https://github.com/tmlr-group/landscape-of-thoughts에서 공개되어 있습니다.
English
Numerous applications of large language models (LLMs) rely on their ability
to perform step-by-step reasoning. However, the reasoning behavior of LLMs
remains poorly understood, posing challenges to research, development, and
safety. To address this gap, we introduce landscape of thoughts-the first
visualization tool for users to inspect the reasoning paths of chain-of-thought
and its derivatives on any multi-choice dataset. Specifically, we represent the
states in a reasoning path as feature vectors that quantify their distances to
all answer choices. These features are then visualized in two-dimensional plots
using t-SNE. Qualitative and quantitative analysis with the landscape of
thoughts effectively distinguishes between strong and weak models, correct and
incorrect answers, as well as different reasoning tasks. It also uncovers
undesirable reasoning patterns, such as low consistency and high uncertainty.
Additionally, users can adapt our tool to a model that predicts the property
they observe. We showcase this advantage by adapting our tool to a lightweight
verifier that evaluates the correctness of reasoning paths. The code is
publicly available at: https://github.com/tmlr-group/landscape-of-thoughts.Summary
AI-Generated Summary