화이트보드-오브-생각: 다중 모달리티 간 단계별 사고
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
June 20, 2024
저자: Sachit Menon, Richard Zemel, Carl Vondrick
cs.AI
초록
시각적 사고가 필요한 질문을 접했을 때, 인간은 자연스럽게 사고 방식을 전환하며, 종종 마음속 이미지를 형성하거나 시각적 보조 도구를 그립니다. 대형 언어 모델은 사고의 연쇄(chain of thought)로 중간 추론 과정을 텍스트로 표현함으로써 산술 및 기호 추론에서 유망한 결과를 보여왔지만, 광범위한 다중모드 사전 학습에도 불구하고 시각적 추론으로 쉽게 해결할 수 있는 텍스트 질의에 이 능력을 확장하는 데 어려움을 겪습니다. 우리는 다중모드 대형 언어 모델의 시각적 추론 능력을 다양한 모드에서 발휘할 수 있도록 하는 간단한 방법인 '화이트보드 사고 프롬프팅(whiteboard-of-thought prompting)'을 소개합니다. 화이트보드 사고 프롬프팅은 다중모드 대형 언어 모델에 추론 단계를 이미지로 그릴 수 있는 은유적인 '화이트보드'를 제공한 다음, 이러한 이미지를 모델에 다시 반환하여 추가 처리를 수행합니다. 우리는 이 방법이 데모나 특수 모듈 없이도 Matplotlib 및 Turtle과 같은 라이브러리를 사용하여 코드를 작성하는 모델의 기존 능력을 활용함으로써 가능하다는 것을 발견했습니다. 이 간단한 접근 방식은 시각적 및 공간적 추론이 포함된 네 가지 어려운 자연어 작업에서 최첨단 결과를 보여줍니다. 우리는 사고의 연쇄를 사용하는 GPT-4o가 극적으로 실패하는 여러 설정을 확인했으며, 그 중 하나 이상에서 0%의 정확도를 달성하는 반면, 화이트보드 사고는 동일한 설정에서 최대 92%의 정확도를 가능하게 합니다. 우리는 이 기술이 성공하는 경우와 오류의 원인에 대한 상세한 탐구를 제시합니다.
English
When presented with questions involving visual thinking, humans naturally
switch reasoning modalities, often forming mental images or drawing visual
aids. Large language models have shown promising results in arithmetic and
symbolic reasoning by expressing intermediate reasoning in text as a chain of
thought, yet struggle to extend this capability to answer text queries that are
easily solved by visual reasoning, even with extensive multimodal pretraining.
We introduce a simple method, whiteboard-of-thought prompting, to unlock the
visual reasoning capabilities of multimodal large language models across
modalities. Whiteboard-of-thought prompting provides multimodal large language
models with a metaphorical `whiteboard' to draw out reasoning steps as images,
then returns these images back to the model for further processing. We find
this can be accomplished with no demonstrations or specialized modules, instead
leveraging models' existing ability to write code with libraries such as
Matplotlib and Turtle. This simple approach shows state-of-the-art results on
four difficult natural language tasks that involve visual and spatial
reasoning. We identify multiple settings where GPT-4o using chain-of-thought
fails dramatically, including more than one where it achieves 0% accuracy,
while whiteboard-of-thought enables up to 92% accuracy in these same
settings. We present a detailed exploration of where the technique succeeds as
well as its sources of error.Summary
AI-Generated Summary