每日精選AI研究論文及翻譯
我們介紹 Agent K v1.0,一個端對端的自主數據科學代理,旨在自動化、優化和泛化各種數據科學任務。Agent K v1.0 是完全自動化的,通過從經驗中學習,管理整個數據科學生命周期。它利用高度靈活的結構推理框架,使其能夠動態處理記憶,以巢狀結構有效地從積累的經驗中學習,以應對複雜的推理任務。它通過有選擇性地存儲和檢索關鍵信息,優化長期和短期記憶,並基於環境獎勵指導未來決策。這種迭代方法使其能夠在不需要微調或反向傳播的情況下完善決策,通過體驗學習實現持續改進。我們使用 Kaggle 競賽作為案例研究來評估我們代理的能力。按照完全自動化的協議,Agent K v1.0 系統地處理複雜和多模態的數據科學任務,利用貝葉斯優化進行超參數調整和特徵工程。我們的新評估框架嚴格評估 Agent K v1.0 的端對端能力,從 Kaggle 競賽 URL 開始生成並提交結果。結果表明,Agent K v1.0 在各種任務中實現了 92.5\% 的成功率,涵蓋表格、計算機視覺、自然語言處理和多模態領域。通過計算每個參賽者的 Elo-MMR 分數,與 5,856 名人類 Kaggle 參賽者進行基準測試,Agent K v1.0 在排名中位於前 38\%,展示出與專家級用戶相當的整體技能水平。值得注意的是,其 Elo-MMR 分數介於人類特級大師所獲得分數的第一和第三四分位數之間。此外,我們的結果表明,Agent K v1.0 已達到了與 Kaggle 特級大師相當的表現水平,憑藉 6 枚金牌、3 枚銀牌和 7 枚銅牌的成績,符合 Kaggle 的晉級制度定義。
多模式大型語言模型(MLLMs)的快速發展在各種多模式基準測試中展現出卓越的性能。然而,在訓練過程中出現的數據污染問題對性能評估和比較構成挑戰。儘管存在許多用於檢測大型語言模型(LLMs)中數據集污染的方法,但由於多模式和多個訓練階段,這些方法對於MLLMs的效果較差。在本研究中,我們引入了一個針對MLLMs設計的多模式數據污染檢測框架MM-Detect。我們的實驗結果表明,MM-Detect對不同程度的污染具有敏感性,並且能夠突顯由於多模式基準測試的訓練集泄漏而帶來的顯著性能改進。此外,我們還探討了污染可能源於MLLMs使用的LLMs的預訓練階段以及MLLMs的微調階段,從而提供了有關污染可能引入的階段的新見解。
由於其強大的擬合能力,Transformer 在各個領域中已經找到廣泛的應用。這種成功部分歸因於它們固有的非線性。因此,除了原始 Transformer 結構中使用的 ReLU 函數外,研究人員還探索了諸如 GeLU 和 SwishGLU 等替代模塊,以增強非線性,從而擴大表示能力。在本文中,我們提出了一種新類別的多項式組合激活函數(PolyCom),旨在優化 Transformer 的動態特性。從理論上講,我們對 PolyCom 進行了全面的數學分析,突出了相對於其他激活函數的增強表達能力和有效性。值得注意的是,我們證明了集成 PolyCom 的網絡實現了最佳的逼近速率,這表明 PolyCom 網絡需要最少的參數來逼近 Sobolev 空間中的一般平滑函數。我們對大型語言模型(LLM)的預訓練配置進行了實證實驗,包括密集和稀疏結構。通過將傳統激活函數替換為 PolyCom,我們使 LLM 能夠捕捉數據中的高階交互作用,從而在準確性和收斂速率方面改善性能指標。廣泛的實驗結果證明了我們方法的有效性,顯示相對於其他激活函數,取得了顯著的改進。程式碼可在 https://github.com/BryceZhuo/PolyCom 找到。
自我對齊是一個快速發展的研究領域,模型在沒有人類標註的情況下學習改進自身。然而,由於難以確定正確的獎勵,現有技術通常無法改進複雜的推理任務。一種已知能提高正確性的正交方法是自我一致性,在推論時應用多次取樣,以找到最一致的答案。在這項工作中,我們將自我一致性概念擴展到幫助訓練模型。因此,我們引入自我一致性偏好優化(ScPO),通過迭代訓練一致的答案,使其優於不一致的答案,應用於無監督的新問題。我們展示了ScPO在推理任務(如GSM8K和MATH)上比傳統的獎勵模型訓練取得了巨大改進,縮小了與帶有黃金答案或偏好的監督訓練之間的差距,並且將ScPO與標準監督學習結合可以進一步改善結果。在ZebraLogic上,ScPO微調Llama-3 8B,使其優於Llama-3 70B、Gemma-2 27B和Claude-3 Haiku。
像Medprompt這樣的運行時導向策略對引導大型語言模型(LLMs)在具有挑戰性任務上取得頂尖表現非常有價值。Medprompt展示了通用LLM可以通過使用提示來引出涉及思維鏈推理和集成的運行時策略,從而實現在醫學等專業領域提供最先進表現。OpenAI的o1-preview模型代表了一種新範式,其中一個模型被設計為在生成最終回應之前進行運行時推理。我們致力於了解o1-preview在各種醫學挑戰問題基準上的行為。在Medprompt與GPT-4的研究基礎上,我們系統評估o1-preview模型在各種醫學基準上的表現。值得注意的是,即使沒有提示技術,o1-preview在很大程度上優於具有Medprompt的GPT-4系列。我們進一步系統研究了經典提示工程策略的有效性,如Medprompt所代表的,在推理模型的新範式中。我們發現少量提示阻礙了o1的表現,這表明在場景內學習可能不再是推理本地模型的有效導向方法。雖然集成仍然可行,但它需要大量資源並需要仔細的成本效能優化。我們在運行時策略上的成本和準確性分析顯示了帕累托前沿,GPT-4o代表了一個更經濟實惠的選擇,而o1-preview在更高成本下實現了最先進的表現。儘管o1-preview提供了頂尖表現,但像Medprompt這樣的導向策略使GPT-4o在特定情境中仍具有價值。此外,我們注意到o1-preview模型在許多現有醫學基準上已接近飽和,突顯了對新的具有挑戰性的基準的需求。我們最後對與LLMs的推理時計算的一般方向進行反思。