VisuoThink:マルチモーダルツリーサーチによるLVLM推論の強化
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search
April 12, 2025
著者: Yikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu
cs.AI
要旨
大規模視覚言語モデルの最近の進展は、驚くべき能力を示してきた。しかし、人間が視覚的補助や慎重な段階的思考を通じて通常対処する複雑な推論タスクに直面すると、これらのモデルはしばしば失敗する。既存の手法は、テキストベースの遅い思考や初歩的な視覚的支援を探求してきたが、人間の視覚的・言語的推論プロセスの複雑で交互に絡み合った性質を捉えるには至っていない。これらの限界を克服し、人間の認知における遅い思考のメカニズムに着想を得て、我々は視覚空間的領域と言語的領域をシームレスに統合する新しいフレームワーク、VisuoThinkを提案する。VisuoThinkは、漸進的な視覚的・テキスト的推論を可能にし、先読み木探索を通じたテストタイムスケーリングを組み込むことで、マルチモーダルな遅い思考を促進する。広範な実験により、VisuoThinkがファインチューニングなしでも推論時のスケーリングを通じて推論能力を大幅に向上させ、幾何学や空間推論を含むタスクにおいて最先端の性能を達成することが実証された。
English
Recent advancements in Large Vision-Language Models have showcased remarkable
capabilities. However, they often falter when confronted with complex reasoning
tasks that humans typically address through visual aids and deliberate,
step-by-step thinking. While existing methods have explored text-based slow
thinking or rudimentary visual assistance, they fall short of capturing the
intricate, interleaved nature of human visual-verbal reasoning processes. To
overcome these limitations and inspired by the mechanisms of slow thinking in
human cognition, we introduce VisuoThink, a novel framework that seamlessly
integrates visuospatial and linguistic domains. VisuoThink facilitates
multimodal slow thinking by enabling progressive visual-textual reasoning and
incorporates test-time scaling through look-ahead tree search. Extensive
experiments demonstrate that VisuoThink significantly enhances reasoning
capabilities via inference-time scaling, even without fine-tuning, achieving
state-of-the-art performance in tasks involving geometry and spatial reasoning.Summary
AI-Generated Summary