ビジュアルプログラマビリティ:チャートにおけるコードとしての思考のガイド 理解編
Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
September 11, 2025
著者: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
cs.AI
要旨
チャート理解は、Vision-Language Models(VLMs)の推論能力に対する重要なテストを提示します。従来のアプローチには重大な限界があります。一部の手法は外部ツールに依存しており、それらは脆弱で事前定義されたツールキットに制約されます。一方、他の手法は専門家モデルをファインチューニングしますが、これらはしばしばテキストベースの連鎖思考(CoT)のような単一の推論戦略を採用します。テキストベースの推論の中間ステップは検証が難しく、事実の正確性を報酬とする強化学習シグナルの使用を複雑にします。この問題に対処するため、我々はチャートの視覚情報を検証可能なシンボリック形式で表現するCode-as-Thought(CaT)アプローチを提案します。我々の重要な洞察は、この戦略が適応的でなければならないということです。固定されたコードのみの実装は、シンボリック表現が不適切な複雑なチャートで一貫して失敗します。この発見から、我々はVisual Programmabilityを導入します。これは、チャートと質問のペアがコードで解決されるべきか、直接的な視覚分析で解決されるべきかを決定する学習可能な特性です。我々はこの概念を適応的フレームワークに実装し、VLMがCaT経路と直接的な視覚推論経路のどちらを選択するかを学習します。モデルの選択ポリシーは、新しい二重報酬システムを使用した強化学習で訓練されます。このシステムは、モデルを事実に基づかせて数値の幻覚を防ぐデータ正確性報酬と、各戦略を使用するタイミングをモデルに教え、単一の推論モードに陥るのを防ぐ決定報酬を組み合わせます。実験では、多様なチャート理解ベンチマークで強力で堅牢な性能が示されました。我々の研究は、VLMsが推論するだけでなく、どのように推論するかを学び、各タスクに対して最適な推論経路を動的に選択できることを示しています。
English
Chart understanding presents a critical test to the reasoning capabilities of
Vision-Language Models (VLMs). Prior approaches face critical limitations: some
rely on external tools, making them brittle and constrained by a predefined
toolkit, while others fine-tune specialist models that often adopt a single
reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate
steps of text-based reasoning are difficult to verify, which complicates the
use of reinforcement-learning signals that reward factual accuracy. To address
this, we propose a Code-as-Thought (CaT) approach to represent the visual
information of a chart in a verifiable, symbolic format. Our key insight is
that this strategy must be adaptive: a fixed, code-only implementation
consistently fails on complex charts where symbolic representation is
unsuitable. This finding leads us to introduce Visual Programmability: a
learnable property that determines if a chart-question pair is better solved
with code or direct visual analysis. We implement this concept in an adaptive
framework where a VLM learns to choose between the CaT pathway and a direct
visual reasoning pathway. The selection policy of the model is trained with
reinforcement learning using a novel dual-reward system. This system combines a
data-accuracy reward to ground the model in facts and prevent numerical
hallucination, with a decision reward that teaches the model when to use each
strategy, preventing it from defaulting to a single reasoning mode. Experiments
demonstrate strong and robust performance across diverse chart-understanding
benchmarks. Our work shows that VLMs can be taught not only to reason but also
how to reason, dynamically selecting the optimal reasoning pathway for each
task.