大型推理模型(如OpenAI的o3)的一个关键趋势是其原生具备使用外部工具的能力,例如利用网络浏览器进行搜索、编写/执行代码以进行图像处理,从而实现基于图像的思考。在开源研究社区中,尽管在纯语言代理能力(如函数调用和工具集成)方面已取得显著进展,但涉及真正基于图像思考的多模态代理能力及其相应基准的开发仍较少被探索。本研究强调了视觉代理强化微调(Visual-ARFT)在赋予大型视觉语言模型(LVLMs)灵活且自适应推理能力方面的有效性。通过Visual-ARFT,开源LVLMs能够浏览网站以获取实时信息更新,并编写代码通过裁剪、旋转等图像处理技术来操作和分析输入图像。我们还提出了一个多模态代理工具基准(MAT),包含两种设置(MAT-Search和MAT-Coding),旨在评估LVLMs的代理搜索和编码能力。实验结果表明,Visual-ARFT在MAT-Coding上比基线高出+18.6% F1 / +13.0% EM,在MAT-Search上高出+10.3% F1 / +8.7% EM,最终超越了GPT-4o。此外,Visual-ARFT在现有的多跳问答基准(如2Wiki和HotpotQA)上实现了+29.3% F1 / +25.9% EM的提升,展示了强大的泛化能力。我们的发现表明,Visual-ARFT为构建稳健且可泛化的多模态代理提供了一条有前景的路径。
Dario Garcia-Gasulla, Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguadé-Parra, Ulises Cortés
Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho
52
稀疏专家混合模型(Sparse Mixture of Experts, SMoE)提供了一种颇具吸引力的解决方案,能够在无需单纯增加网络深度或宽度的情况下,有效提升模型的复杂度。然而,我们认为,由于当前的路由过程存在不足——即执行计算的专家并未直接参与路由决策,使得高效的SMoE训练仍面临挑战。在本研究中,我们提出了一种新颖的竞争机制,用于将令牌路由至具有最高神经响应的专家。理论上,我们证明了该竞争机制相较于传统的softmax路由具有更优的样本效率。此外,我们开发了CompeteSMoE,这是一种简单而有效的算法,通过部署一个学习竞争策略的路由器来训练大规模语言模型,从而在较低的训练开销下实现强劲性能。我们在视觉指令调优和语言预训练任务上的广泛实证评估表明,与最先进的SMoE策略相比,CompeteSMoE在效能、鲁棒性和可扩展性方面均展现出显著优势。我们已在https://github.com/Fsoft-AIC/CompeteSMoE公开了实现代码。本工作是对arXiv:2402.02526先前研究的改进版本。