### 图像思维：自调用智能体实现路径 **核心机制** 1. **元认知触发**：智能体通过语义间隙检测，主动调用视觉化工具 2. **多模态循环**：文本推理→图像生成→视觉解析→文本精炼的闭环流程 3. **认知增强**：将抽象概念转化为视觉符号，突破语言模型的模态限制 **技术实现** - 动态提示工程：根据思维深度自动调整图像生成参数 - 视觉注意力映射：通过热力图分析生成图像的认知焦点 - 跨模态对齐：确保视觉表征与语义意图的一致性 **应用场景** ▸ 复杂系统建模（如生态系统演化模拟） ▸ 抽象概念阐释（如量子纠缠可视化） ▸ 创造性问题解决（通过视觉隐喻激发灵感） **案例演示** 当处理"供应链韧性"议题时，系统自动生成节点网络图，通过颜色渐变显示风险传导路径，再基于图像分析提出瓶颈优化方案。这种自驱动的视觉化思维模式，使AI能够建立更立体的心智表征，为复杂推理提供新的认知支架。

摘要

基于图像思维的推理范式通过将视觉信息作为动态元素整合到思维链中，展现了卓越的视觉推理能力。然而，由于依赖稀缺的高质量推理数据，通过强化学习优化交错式多模态思维链仍具挑战性。本研究提出自调用思维链——一种新型视觉推理范式，它将交错式多模态思维链重构为具有自调用功能的纯语言思维链。具体而言，主代理将复杂视觉推理任务分解为原子子任务，并调用其虚拟副本（即参数共享子代理）在隔离上下文中解决问题。该范式无需显式的模态交错操作，因而具有显著的训练效能与效率优势。通过采用群体相对策略优化来强化有效推理行为，该范式进一步提升了优化效果。在HR-Bench 4K上的实验表明，相较于强基线方法，自调用思维链在减少约75%GPU时耗的同时，将整体推理性能提升最高达1.9%。代码已开源：https://github.com/YWenxi/think-with-images-through-self-calling。

English

Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.

Thinking with Images via Self-Calling Agent

摘要

Support