大型推理模型(如OpenAI的o3)的一个关键趋势是具备原生代理能力,能够使用外部工具(如网络浏览器进行搜索)以及编写/执行代码进行图像处理,从而实现基于图像的思考。在开源研究社区中,尽管在纯语言代理能力(如函数调用和工具集成)方面取得了显著进展,但涉及真正基于图像思考的多模态代理能力及其相应基准的开发仍较少被探索。本研究强调了视觉代理强化微调(Visual-ARFT)在赋予大型视觉语言模型(LVLMs)灵活且自适应推理能力方面的有效性。通过Visual-ARFT,开源LVLMs能够浏览网站以获取实时信息更新,并编写代码通过裁剪、旋转等图像处理技术来操作和分析输入图像。我们还提出了一个多模态代理工具基准(MAT),包含两种设置(MAT-Search和MAT-Coding),旨在评估LVLMs的代理搜索和编码能力。实验结果表明,Visual-ARFT在MAT-Coding上比基线高出+18.6% F1 / +13.0% EM,在MAT-Search上高出+10.3% F1 / +8.7% EM,最终超越了GPT-4o。Visual-ARFT在现有的多跳问答基准(如2Wiki和HotpotQA)上也实现了+29.3% F1 / +25.9% EM的提升,展示了强大的泛化能力。我们的研究结果表明,Visual-ARFT为构建稳健且可泛化的多模态代理提供了一条有前景的路径。
Dario Garcia-Gasulla, Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguadé-Parra, Ulises Cortés
Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho
52
稀疏專家混合模型(Sparse Mixture of Experts, SMoE)提供了一種吸引人的解決方案,能夠在不單純依賴增加網絡深度或寬度的情況下,提升模型的複雜度。然而,我們認為有效的SMoE訓練仍然具有挑戰性,這主要是由於次優的路由過程,其中執行計算的專家並未直接參與路由決策。在本研究中,我們提出了一種新穎的競爭機制,用於將令牌路由至具有最高神經響應的專家。理論上,我們證明了競爭機制相比傳統的softmax路由具有更好的樣本效率。此外,我們開發了CompeteSMoE,這是一種簡單而有效的算法,通過部署路由器來學習競爭策略,從而在低訓練開銷下實現強勁的性能。我們在視覺指令調優和語言預訓練任務上的廣泛實證評估表明,與最先進的SMoE策略相比,CompeteSMoE在效能、魯棒性和可擴展性方面均表現出色。我們已將實現公開於:https://github.com/Fsoft-AIC/CompeteSMoE。本工作是對arXiv:2402.02526上先前研究的改進版本。