每日精選AI研究論文及翻譯
科學大型語言模型(Sci-LLMs)正在改變知識在科學研究中的表示、整合與應用方式,然而其發展深受科學數據複雜性的影響。本綜述提出了一種以數據為中心的全面性綜合框架,將Sci-LLMs的發展重新定義為模型與其基礎數據基質之間的共同演化。我們構建了一個統一的科學數據分類體系和一個層次化的科學知識模型,強調了科學語料庫與通用自然語言處理數據集之間的多模態、跨尺度及領域特定性挑戰。我們系統性地回顧了近期Sci-LLMs的發展,從通用基礎模型到跨多種科學領域的專業模型,並對超過270個預訓練/後訓練數據集進行了深入分析,揭示了Sci-LLMs為何對數據提出獨特要求——即需要處理異質性、多尺度、充滿不確定性的語料庫,這些語料庫要求模型能夠保持領域不變性並支持跨模態推理。在評估方面,我們審視了超過190個基準數據集,並追蹤了從靜態考試向基於過程和發現導向的評估轉變,這些評估採用了先進的評估協議。這些以數據為中心的分析凸顯了科學數據開發中的持續問題,並討論了涉及半自動化註釋流程和專家驗證的新興解決方案。最後,我們勾勒出一種向閉環系統轉變的範式,其中基於Sci-LLMs的自動化代理能夠主動實驗、驗證並貢獻於一個活躍、不斷演化的知識庫。總體而言,這項工作為構建可信賴、持續演化的人工智能(AI)系統提供了路線圖,這些系統將作為加速科學發現的真正夥伴發揮作用。
配備逐步思考能力的多模態大型語言模型(MLLMs)在處理複雜推理問題時展現了卓越的性能。然而,對於無需複雜推理即可解決的簡單問題,這一思考過程顯得冗餘。為解決此效率問題,我們提出了R-4B,一種具備自動思考能力的MLLM,它能根據問題複雜度自適應地決定何時進行思考。R-4B的核心思想是通過雙模式退火賦予模型思考與非思考兩種能力,並應用雙模式策略優化(BPO)來提升模型在判斷是否啟動思考過程時的準確性。具體而言,我們首先在一個精心策劃、涵蓋多主題的數據集上訓練模型,該數據集包含來自思考與非思考模式的樣本。隨後,模型在改進的GRPO框架下進行第二階段訓練,其中策略模型被強制為每個輸入查詢生成來自兩種模式的響應。實驗結果顯示,R-4B在25個具有挑戰性的基準測試中達到了最先進的性能。在多數任務中,它超越了Qwen2.5-VL-7B,並在推理密集型基準測試上以更低的計算成本實現了與Kimi-VL-A3B-Thinking-2506(16B)等更大模型相當的性能。
大型語言模型(LLMs)在軟體工程中的日益普及,亟需對其生成程式碼進行嚴謹的安全性評估。然而,現有的基準測試存在不足,因其專注於孤立的程式片段,採用缺乏可重現性的不穩定評估方法,且未能將輸入上下文的品質與輸出安全性相聯繫。為彌補這些缺陷,我們引入了A.S.E(AI程式碼生成安全性評估),這是一個針對倉庫層級安全程式碼生成的基準測試。A.S.E從記錄有CVE的真實倉庫中構建任務,保留如建置系統和跨檔案依賴等完整倉庫上下文。其可重現、容器化的評估框架,利用專家定義的規則,提供穩定、可審計的安全性、建置品質及生成穩定性的評估。我們在A.S.E上對領先的LLMs進行評估,揭示了三個關鍵發現:(1) Claude-3.7-Sonnet表現最佳。(2) 專有模型與開源模型之間的安全性差距微小;Qwen3-235B-A22B-Instruct獲得最高安全評分。(3) 簡潔的「快速思考」解碼策略在安全修補上持續優於複雜的「慢速思考」推理。
人類在開放世界中無縫執行多模態推理與物理互動的能力,是通用型具身智能系統的核心目標。近期,基於大規模機器人與視覺-文本數據共同訓練的視覺-語言-動作(VLA)模型,在通用機器人控制方面展現了顯著進展。然而,這些模型在交錯推理與互動方面仍未能達到人類水平的靈活性。在本研究中,我們引入了EO-Robotics,包含EO-1模型與EO-Data1.5M數據集。EO-1是一個統一的具身基礎模型,通過交錯的視覺-文本-動作預訓練,在多模態具身推理與機器人控制中實現了卓越性能。EO-1的開發基於兩大關鍵支柱:(i) 一個統一架構,能夠無差別地處理多模態輸入(圖像、文本、視頻和動作),以及(ii) 一個大規模、高質量的多模態具身推理數據集EO-Data1.5M,該數據集包含超過150萬個樣本,重點強調交錯的視覺-文本-動作理解。EO-1通過在EO-Data1.5M上結合自迴歸解碼與流匹配去噪進行訓練,從而實現無縫的機器人動作生成與多模態具身推理。大量實驗證明了交錯視覺-文本-動作學習在開放世界理解與泛化方面的有效性,並通過多種具身形式下的長時程、精細操作任務進行了驗證。本文詳細介紹了EO-1的架構、EO-Data1.5M的數據構建策略以及訓練方法,為開發先進的具身基礎模型提供了寶貴的見解。
規模化定律已驗證了基於大量數據訓練的模型在文本、圖像和視頻領域創意生成中的成功與潛力。然而,在3D領域,這一範式面臨數據稀缺的挑戰,因為相比前述媒介,互聯網上可獲取的3D數據量遠為不足。幸運的是,存在大量視頻,它們內含常識先驗,為緩解因原生3D數據有限而導致的泛化瓶頸提供了替代的監督信號。一方面,捕捉物體或場景多視角的視頻為3D生成提供了空間一致性先驗;另一方面,視頻中蘊含的豐富語義信息使得生成內容更忠實於文本提示且語義上更為合理。本文探討了如何將視頻模態應用於3D資產生成,從數據集到模型全面覆蓋。我們介紹了Droplet3D-4M,首個帶有多視角級別註釋的大規模視頻數據集,並訓練了Droplet3D,這是一個支持圖像和密集文本輸入的生成模型。大量實驗驗證了我們方法的有效性,展示了其生成空間一致且語義合理內容的能力。此外,與現有的3D解決方案相比,我們的方法展現了向場景級應用擴展的潛力,這表明來自視頻的常識先驗極大地促進了3D創作。我們已開源所有資源,包括數據集、代碼、技術框架及模型權重:https://dropletx.github.io/。
大型語言模型(LLMs)在數學和編碼等複雜推理任務中表現出色,卻常常在幼兒能輕鬆完成的簡單互動任務中舉步維艱。這種差異凸顯了陳述性知識(知道某事)與程序性知識(知道如何做某事)之間的重要鴻溝。儘管傳統的強化學習(RL)代理能通過環境互動獲取程序性知識,但它們往往作為黑箱運作,且需要大量訓練數據。相比之下,LLMs擁有廣泛的世界知識和推理能力,卻無法有效地將這些靜態知識轉化為互動情境中的動態決策。為應對這一挑戰,我們提出了“遊戲中思考”(Think in Games, TiG)這一新框架,使LLMs能夠通過直接與遊戲環境互動來發展程序性理解,同時保留其固有的推理和解釋能力。具體而言,TiG將基於RL的決策制定重新表述為語言建模任務:LLMs生成語言引導的策略,並通過基於環境反饋的在線強化學習進行迭代優化。實驗結果表明,TiG成功彌合了陳述性與程序性知識之間的差距,在數據和計算需求大幅降低的情況下,實現了與傳統RL方法相當的性能。此外,TiG為其決策提供了逐步的自然語言解釋,極大提升了複雜互動任務中的透明度和可解釋性。
音頻驅動的說話頭合成技術已實現了顯著的逼真效果,然而現有的最先進(SOTA)模型卻暴露出一項關鍵缺陷:它們無法全面泛化到涵蓋不同種族、語言和年齡層的人類多樣性。我們認為,這種泛化差距直接反映了現有訓練數據在規模、質量及多樣性上的不足。為應對這一挑戰,我們推出了TalkVid,這是一個全新的大規模、高質量且多樣化的數據集,包含來自7729位獨特講者的1244小時視頻。TalkVid通過一個原則性、多階段的自動化流程精心篩選,嚴格把控動作穩定性、美學質量及面部細節,並通過人類判斷驗證以確保其可靠性。此外,我們構建並發布了TalkVid-Bench,這是一個分層的評估集,包含500個片段,在關鍵的人口統計學和語言學維度上精心平衡。實驗表明,基於TalkVid訓練的模型在跨數據集泛化能力上優於基於以往數據集訓練的對比模型。重要的是,我們在TalkVid-Bench上的分析揭示了傳統聚合指標所掩蓋的子群體間性能差異,強調了其對未來研究的必要性。代碼與數據可於https://github.com/FreedomIntelligence/TalkVid 獲取。
jina-code-embeddings 是一套創新的程式碼嵌入模型套件,旨在從自然語言查詢中檢索程式碼、執行技術問答,以及跨程式語言識別語意相似的程式碼片段。該模型創新地利用了在文本和程式碼上預訓練的自回歸骨幹網路,通過最後一個詞元的池化操作生成嵌入。我們概述了其訓練方法,並展示了儘管模型規模相對較小,仍能達到最先進的性能,從而驗證了這種程式碼嵌入模型構建方法的有效性。
語言模型預訓練所使用的數據混合策略,是其最終性能的基石。然而,靜態的混合策略並非最優,因為模型在訓練過程中對不同數據領域的學習偏好會動態變化。關鍵在於,如何以計算高效的方式觀察這些不斷演變的偏好,仍是一大挑戰。為此,我們提出了TiKMiX,一種根據模型演變偏好動態調整數據混合的方法。TiKMiX引入了群體影響力(Group Influence),這是一種評估數據領域對模型影響的高效指標。該指標使得數據混合問題能夠被表述為尋找一個最優、影響力最大化的分佈。我們通過兩種方法來解決這一問題:TiKMiX-D用於直接優化,而TiKMiX-M則利用回歸模型預測更優的混合比例。我們訓練了不同參數量的模型,處理了高達1萬億個token的數據。TiKMiX-D在僅使用20%計算資源的情況下,超越了REGMIX等最先進方法的性能。TiKMiX-M在9個下游基準測試中平均帶來了2%的性能提升。我們的實驗表明,模型的數據偏好隨訓練進度和規模而演變,並且我們證明,基於群體影響力(這些偏好的直接衡量指標)動態調整數據混合,能夠顯著提升性能,緩解靜態比例下數據消化不足的問題。
GUI代理旨在實現對移動/PC設備的自動化操作,這是邁向人工通用智慧的重要一步。視覺語言模型(VLM)的快速發展加速了GUI代理的進步,得益於其在視覺理解與任務規劃方面的強大能力。然而,構建GUI代理仍面臨諸多挑戰,包括操作軌跡的稀缺、互動基礎設施的可用性,以及基礎模型初始能力的限制。在本研究中,我們推出了UItron,一個開源的自動GUI代理基礎模型,具備先進的GUI感知、定位與規劃能力。UItron強調了系統化數據工程與互動基礎設施作為推進GUI代理發展的基石。它不僅系統性地研究了一系列提升訓練效果的數據工程策略,還建立了一個連接移動與PC設備的互動環境。在訓練過程中,UItron採用了多種GUI場景下感知與規劃任務的監督微調,隨後開發了一套課程強化學習框架,以支持在線環境中的複雜推理與探索。結果顯示,UItron在GUI感知、定位與規劃的基準測試中表現卓越。特別地,UItron在與頂級中文移動應用的交互熟練度上表現突出,我們發現即使在最先進的解決方案中,中文能力普遍不足。為此,我們手動收集了超過一百萬步的操作軌跡,涵蓋最受歡迎的100款應用,並構建了離線與在線代理評估環境。實驗結果表明,UItron在中文應用場景中取得了顯著進展,推動GUI代理向實際應用邁進了一大步。
對音頻-語言模型(ALMs)——這類多模態模型以交錯的音頻和文本作為輸入並輸出文本——的評估,因缺乏標準化基準而受到阻礙;大多數基準僅衡量一兩種能力,並忽略了如公平性或安全性等評估方面。此外,由於不同的評估測試僅涉及有限數量的模型,並使用不同的提示方法和推理參數,模型間的比較變得困難。為解決這些不足,我們引入了AHELM,一個彙集了多種數據集的基準——包括兩個新的合成音頻-文本數據集PARADE(用於評估ALMs在避免刻板印象方面的表現)和CoRe-Bench(通過推理性多輪問答來衡量對話音頻的推理能力)——以全面衡量ALMs在我們認為對其開發和使用至關重要的10個方面的表現:音頻感知、知識、推理、情感檢測、偏見、公平性、多語言性、魯棒性、毒性和安全性。我們還標準化了提示、推理參數和評估指標,以確保模型間的公平比較。我們測試了來自3個開發者的14個開放權重和封閉API的ALMs,以及3個額外的簡單基線系統,每個系統由一個自動語音識別器和一個語言模型組成。我們的結果顯示,儘管Gemini 2.5 Pro在10個方面中的5個方面排名第一,但在ASR任務上表現出群體不公平性(p=0.01),而大多數其他模型則沒有。我們還發現,基線系統在AHELM上表現相當不錯,其中一個僅具備語音轉文本能力的系統總體排名第五。為了透明性,所有原始提示、模型生成和輸出均可於我們的網站https://crfm.stanford.edu/helm/audio/v1.0.0上獲取。AHELM旨在成為一個持續更新的基準,新的數據集和模型將隨時間添加。
近期將強化學習(RL)應用於大型語言模型(LLMs)的研究取得了顯著進展。特別是在LLMs中,一系列引人注目卻常違反直覺的現象被報導出來,這些現象在傳統RL設定中並不常見。例如,有研究聲稱單一訓練樣本即可達到與完整數據集相當的性能,獎勵信號無需非常精確,以及僅使用負樣本進行訓練即可媲美甚至超越基於複雜獎勵的方法。然而,這些觀察結果成立的精確條件——尤其是它們何時失效——仍不明確。在本研究中,我們識別出區分RL觀察結果的一個關鍵因素:預訓練模型是否已展現出強烈的模型-任務對齊性,這通過在評估任務上的pass@k準確率來衡量。通過對一系列違反直覺的聲明進行系統且全面的檢驗,並在不同模型架構和任務領域中進行嚴格的實驗驗證,我們的研究結果表明,雖然標準RL訓練在各設定下始終保持穩健,但許多這些違反直覺的結果僅在模型與任務已展現出強烈對齊性時才會出現。相比之下,在更具挑戰性的情境中,這些技術無法驅動顯著的學習,而標準RL方法仍能保持有效。
對稱性是計算機視覺中最基本的幾何線索之一,而檢測對稱性一直是一個持續的挑戰。隨著視覺-語言模型(如CLIP)的最新進展,我們探討了預訓練的CLIP模型是否能夠通過利用自然圖像描述中的額外對稱線索來輔助對稱性檢測。我們提出了CLIPSym,該方法利用CLIP的圖像和語言編碼器,以及基於Transformer和G-卷積混合的旋轉等變解碼器來檢測旋轉和反射對稱性。為了充分利用CLIP的語言編碼器,我們開發了一種名為語義感知提示分組(SAPG)的新提示技術,該技術聚合了一組多樣的基於物件的常見提示,以更好地整合語義線索進行對稱性檢測。實驗表明,CLIPSym在三個標準的對稱性檢測數據集(DENDI、SDRW和LDRS)上優於當前最先進的方法。最後,我們進行了詳細的消融實驗,驗證了CLIP預訓練、所提出的等變解碼器以及SAPG技術的優勢。代碼可在https://github.com/timyoung2333/CLIPSym 獲取。
使用者介面(UI)代理承諾讓視障及低視力(BLV)使用者更容易接觸到原本難以接近或複雜的UI。然而,現有的UI代理通常以端到端的方式執行任務,未讓使用者參與關鍵選擇或告知重要情境資訊,從而降低了使用者的主動性。例如,在我們的實地研究中,一位BLV參與者要求購買最便宜的氣泡水,代理自動從多個價格相同的選項中選擇了一款,卻未提及不同口味或評分更好的替代產品。為解決此問題,我們引入了Morae,這是一款能在任務執行過程中自動識別決策點並暫停,以便使用者做出選擇的UI代理。Morae利用大型多模態模型來解析使用者查詢、UI代碼及螢幕截圖,並在需要做出選擇時提示使用者澄清。在一項針對BLV參與者進行的真實網路任務研究中,與包括OpenAI Operator在內的基準代理相比,Morae幫助使用者完成了更多任務,並選擇了更符合其偏好的選項。更廣泛而言,這項工作展示了一種混合主動性的方法,讓使用者既能受益於UI代理的自動化,又能表達自己的偏好。
從現實世界的觀測數據中自動發現物理定律,是人工智能領域的一大挑戰。現有方法依賴於符號回歸或大型語言模型(LLMs),僅限於單模態數據,忽視了對物理學家而言不可或缺的豐富視覺現象學運動表徵。這種“感官剝奪”嚴重削弱了它們解讀動態現象內在時空模式的能力。為彌補這一不足,我們提出了VIPER-R1,這是一個多模態模型,旨在通過視覺歸納進行基於物理的方程推理,以發現基礎符號公式。該模型整合了視覺感知、軌跡數據與符號推理,模擬科學發現過程。模型通過運動結構歸納(MSI)課程進行訓練,利用監督微調來解讀運動學相圖,並在因果思維鏈(C-CoT)的指導下構建假設,隨後通過獎勵引導的符號校準(RGSC)利用強化學習精煉公式結構。在推理階段,訓練完成的VIPER-R1作為代理:首先提出一個高置信度的符號假設,然後主動調用外部符號回歸工具執行符號殘差重對齊(SR^2)。這一步驟類似於物理學家的微擾分析,旨在調合理論模型與實證數據。為支持此研究,我們引入了PhysSymbol,一個包含5,000個實例的新多模態語料庫。實驗表明,VIPER-R1在準確性和可解釋性上持續超越現有最先進的視覺語言模型(VLM)基線,實現了更精確的物理定律發現。項目頁面:https://jiaaqiliu.github.io/VIPER-R1/
迴聲狀態網絡(Echo State Networks, ESNs)是儲備計算(Reservoir Computing, RC)框架下的一類特殊未訓練循環神經網絡(Recurrent Neural Networks, RNNs),以其快速高效的學習能力而廣受歡迎。然而,傳統的ESNs在長期信息處理方面往往表現欠佳。本文中,我們提出了一種基於時間殘差連接的新型深度未訓練RNNs,稱為深度殘差迴聲狀態網絡(Deep Residual Echo State Networks, DeepResESNs)。我們證明,利用未訓練的殘差循環層次結構能顯著提升記憶容量及長期時間建模能力。針對時間殘差連接,我們探討了不同的正交配置,包括隨機生成與固定結構配置,並研究了它們對網絡動態的影響。通過詳盡的數學分析,我們概述了確保DeepResESN內部動態穩定的必要與充分條件。在多種時間序列任務上的實驗結果,展示了所提方法相較於傳統淺層及深度RC的優勢。
利用人類運動數據賦予機器人多功能操作技能,已成為機器人操作領域中一個頗具前景的範式。然而,將多源的人類手部運動轉化為可行的機器人行為仍面臨挑戰,尤其是對於配備多指靈巧手的機器人而言,其複雜的高維動作空間更增加了難度。此外,現有方法往往難以生成能夠適應多樣環境條件的策略。本文介紹了HERMES,一個面向移動雙手機器人靈巧操作的人機學習框架。首先,HERMES構建了一種統一的強化學習方法,能夠無縫地將來自多源的異構人類手部運動轉化為物理上合理的機器人行為。隨後,為縮小仿真與現實的差距,我們設計了一種基於深度圖像的端到端仿真到現實轉移方法,以提升對現實場景的泛化能力。進一步地,為了在變化和非結構化環境中實現自主操作,我們在導航基礎模型中引入了閉環的透視n點(PnP)定位機制,確保視覺目標的精確對齊,有效橋接了自主導航與靈巧操作。大量實驗結果表明,HERMES在多樣化的野外場景中展現出良好的泛化行為,成功完成了多項複雜的移動雙手機器人靈巧操作任務。項目頁面:https://gemcollector.github.io/HERMES/。
後訓練量化(PTQ)對於在資源受限設備上部署高效能的物體檢測模型(如YOLO)至關重要。然而,降低精度對模型在面對現實世界輸入退化(如噪聲、模糊和壓縮偽影)時的魯棒性影響,是一個重要關注點。本文提供了一項全面的實證研究,評估了YOLO模型(從nano到extra-large規模)在多種精度格式下的魯棒性:FP32、FP16(TensorRT)、動態UINT8(ONNX)和靜態INT8(TensorRT)。我們提出並評估了一種針對靜態INT8 PTQ的退化感知校準策略,其中TensorRT校準過程會接觸到混合了乾淨和合成退化圖像的數據集。模型在COCO數據集上進行了基準測試,涵蓋七種不同的退化條件(包括各種類型和程度的噪聲、模糊、低對比度和JPEG壓縮)以及混合退化場景。結果表明,雖然靜態INT8 TensorRT引擎在乾淨數據上提供了顯著的加速(約1.5-3.3倍)且精度下降適中(約3-7% mAP50-95),但所提出的退化感知校準在大多數模型和退化條件下並未帶來一致且廣泛的魯棒性提升,相比於標準的乾淨數據校準。一個顯著的例外是在特定噪聲條件下,較大規模模型表現出改善,這表明模型容量可能影響此校準方法的有效性。這些發現凸顯了增強PTQ魯棒性的挑戰,並為在非受控環境中部署量化檢測器提供了見解。所有代碼和評估表格均可於https://github.com/AllanK24/QRID獲取。
每年,大多數教育機構都會從學生那裡收集並收到大量關於課程、教學和整體體驗的文本反饋。然而,將這些原始反饋轉化為有用的洞察卻遠非易事。由於內容的複雜性和低粒度報告要求,採用自動意見挖掘技術來處理這類教育評論文本數據一直是一個長期存在的挑戰。基於方面的情感分析(ABSA)以其豐富的子句級意見挖掘能力,提供了一個有前景的解決方案。然而,現有的ABSA研究和資源非常集中於商業領域。在教育領域,由於公開數據集有限且數據保護嚴格,相關資源稀缺且難以開發。迫切需要一個高質量的標註數據集來推動這一資源匱乏領域的研究。在本研究中,我們提出了EduRABSA(教育評論文本ABSA),這是首個公開的、標註的ABSA教育評論文本數據集,涵蓋了英語語言中的三種評論主題類型(課程、教學人員、大學)以及所有主要的ABSA任務,包括尚未充分探索的隱含方面和隱含意見提取。我們還分享了ASQE-DPT(數據處理工具),這是一個離線、輕量級、無需安裝的手動數據標註工具,它能從單一任務標註中生成適用於全面ABSA任務的標註數據集。這些資源共同為ABSA社區和教育領域做出了貢獻,通過消除數據集障礙,支持研究的透明度和可重複性,並促進了更多資源的創建和共享。數據集、標註工具以及用於數據集處理和採樣的腳本和統計信息可在https://github.com/yhua219/edurabsa_dataset_and_annotation_tool獲取。