시각적 프로그래밍 가능성: 차트에서의 코드-사고를 위한 가이드 이해
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
September 11, 2025
저자: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI
초록
차트 이해는 시각-언어 모델(Vision-Language Models, VLMs)의 추론 능력을 평가하는 중요한 과제입니다. 기존 접근 방식은 몇 가지 한계를 가지고 있습니다: 일부는 외부 도구에 의존하여 취약하고 미리 정의된 도구 세트에 제한되며, 다른 일부는 텍스트 기반의 사고의 연쇄(chain-of-thought, CoT)와 같은 단일 추론 전략을 채택한 전문 모델을 미세 조정합니다. 텍스트 기반 추론의 중간 단계는 검증하기 어려워, 사실적 정확성을 보상하는 강화 학습 신호의 사용을 복잡하게 만듭니다. 이를 해결하기 위해, 우리는 차트의 시각적 정보를 검증 가능한 기호 형식으로 표현하는 Code-as-Thought(CaT) 접근 방식을 제안합니다. 우리의 핵심 통찰은 이 전략이 적응적이어야 한다는 것입니다: 고정된 코드 전용 구현은 기호 표현이 적합하지 않은 복잡한 차트에서 지속적으로 실패합니다. 이러한 발견은 우리가 시각적 프로그래밍 가능성(Visual Programmability)이라는 개념을 도입하도록 이끕니다. 이는 차트-질문 쌍이 코드로 해결되는 것이 더 나은지, 아니면 직접적인 시각적 분석으로 해결되는 것이 더 나은지를 결정하는 학습 가능한 속성입니다. 우리는 이 개념을 VLM이 CaT 경로와 직접적인 시각적 추론 경로 중에서 선택하도록 학습하는 적응형 프레임워크로 구현합니다. 모델의 선택 정책은 새로운 이중 보상 시스템을 사용한 강화 학습으로 훈련됩니다. 이 시스템은 모델을 사실에 기반하게 하고 수치적 환각을 방지하기 위한 데이터 정확성 보상과, 각 전략을 언제 사용할지 모델에게 가르치며 단일 추론 모드로 기본 설정되는 것을 방지하기 위한 결정 보상을 결합합니다. 실험 결과, 다양한 차트 이해 벤치마크에서 강력하고 견고한 성능을 보여줍니다. 우리의 연구는 VLMs가 추론하는 방법뿐만 아니라 어떻게 추론할지도 학습할 수 있으며, 각 작업에 대해 최적의 추론 경로를 동적으로 선택할 수 있음을 보여줍니다.
English
Chart understanding presents a critical test to the reasoning capabilities of
Vision-Language Models (VLMs). Prior approaches face critical limitations: some
rely on external tools, making them brittle and constrained by a predefined
toolkit, while others fine-tune specialist models that often adopt a single
reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate
steps of text-based reasoning are difficult to verify, which complicates the
use of reinforcement-learning signals that reward factual accuracy. To address
this, we propose a Code-as-Thought (CaT) approach to represent the visual
information of a chart in a verifiable, symbolic format. Our key insight is
that this strategy must be adaptive: a fixed, code-only implementation
consistently fails on complex charts where symbolic representation is
unsuitable. This finding leads us to introduce Visual Programmability: a
learnable property that determines if a chart-question pair is better solved
with code or direct visual analysis. We implement this concept in an adaptive
framework where a VLM learns to choose between the CaT pathway and a direct
visual reasoning pathway. The selection policy of the model is trained with
reinforcement learning using a novel dual-reward system. This system combines a
data-accuracy reward to ground the model in facts and prevent numerical
hallucination, with a decision reward that teaches the model when to use each
strategy, preventing it from defaulting to a single reasoning mode. Experiments
demonstrate strong and robust performance across diverse chart-understanding
benchmarks. Our work shows that VLMs can be taught not only to reason but also
how to reason, dynamically selecting the optimal reasoning pathway for each
task.