每日精選AI研究論文及翻譯
鏈式思考(Chain-of-Thought, CoT)提示法已被證實能提升大型語言模型(LLM)在多種任務上的表現。採用此方法時,LLM在給出答案前似乎會產生類似人類的推理步驟(即CoT推理),這常讓人誤以為它們進行了深思熟慮的推論過程。然而,一些初步研究指出,CoT推理可能比表面上看來更為膚淺,這促使我們進一步探索。本文中,我們從數據分佈的視角研究CoT推理,探討其是否反映了模型從分佈內數據中學習到的結構化歸納偏見,從而能夠條件性地生成近似於訓練期間所見的推理路徑。因此,其有效性根本上受制於訓練數據與測試查詢之間分佈差異的程度。基於這一視角,我們從任務、長度和格式三個維度剖析CoT推理。為探究每個維度,我們設計了DataAlchemy,這是一個孤立且受控的環境,用於從零開始訓練LLM,並在各種分佈條件下系統性地探測它們。我們的結果揭示,CoT推理是一種脆弱的幻象,一旦超出訓練分佈便會消失。這項工作深化了我們對CoT推理為何及何時失效的理解,強調了實現真正且可泛化推理的持續挑戰。
近期研究深入探討了構建能夠執行基於圖形用戶界面(GUI)的複雜電腦任務的自動化代理,這有望徹底改變人機互動方式。儘管取得了令人鼓舞的成果,現有研究主要集中於短期互動,並依賴於僅基於結果的驗證,這限制了其在現實世界GUI應用中的可擴展性,這些應用需要長時程任務的分解與執行。在本研究中,我們引入了VeriGUI,這是一個新穎的可驗證長鏈GUI數據集,旨在促進在真實電腦環境中運行的通用GUI代理的開發與評估。我們的數據集強調兩個關鍵維度:(1)長鏈複雜性,任務被分解為一系列相互依賴的子任務,跨越數百個步驟,明確設計為允許任何子任務作為有效的起點;(2)子任務級別的可驗證性,這使得在每個子任務內能夠進行多樣化的探索策略,同時確保每個子任務級別的目標保持可驗證且一致。該數據集由人類專家註釋的桌面和網頁GUI任務軌跡組成。在VeriGUI上使用不同基礎模型的各種代理進行的大量實驗揭示了在處理長時程任務時顯著的性能差距,突顯了GUI代理在規劃和決策能力方面需要更加強健的需求。
大型語言模型(LLM)驅動的代理展現了卓越的能力,使複雜的多步驟任務得以由精密的系統處理,但其不斷攀升的成本威脅著可擴展性和可及性。本研究首次系統性地探討了現代代理系統中效率與效能之間的權衡,回應了在不犧牲性能的前提下設計成本效益系統的迫切需求。我們探討了三個關鍵問題:(1) 代理任務本質上需要多少複雜性?(2) 何時額外的模組會導致收益遞減?(3) 通過設計高效的代理框架,能獲得多少效率提升?基於GAIA基準的實證分析,我們評估了LLM骨幹選擇、代理框架設計以及測試時擴展策略的影響。利用「通過成本」指標,我們量化了這些維度上的效率與效能權衡。我們的研究成果啟發了「高效代理」的開發,這是一種新穎的代理框架,其複雜性與任務需求達到最佳匹配。高效代理保留了領先開源代理框架OWL 96.7%的性能,同時將運營成本從0.398降低至0.228,使通過成本提升了28.4%。我們的工作為設計高效且高性能的代理系統提供了可操作的見解,推動了AI驅動解決方案的可及性與永續性發展。
我們推出Agent Lightning,這是一個靈活且可擴展的框架,旨在為任何AI代理實現基於強化學習(RL)的大型語言模型(LLM)訓練。與現有方法不同,這些方法將RL訓練與代理緊密耦合或依賴於序列拼接與遮罩,Agent Lightning實現了代理執行與訓練的完全解耦,使得能夠無縫整合通過多種方式開發的現有代理(例如,使用LangChain、OpenAI Agents SDK、AutoGen等框架,或從零構建),幾乎無需代碼修改。通過將代理執行建模為馬爾可夫決策過程,我們定義了一個統一的數據接口,並提出了一種分層RL算法——LightningRL,該算法包含一個信用分配模塊,使我們能夠將任何代理生成的軌跡分解為訓練轉換。這使得RL能夠處理複雜的交互邏輯,如多代理場景和動態工作流。在系統設計方面,我們引入了訓練-代理分離架構,並將代理可觀測性框架引入代理運行時,提供了一個標準化的代理微調接口。在文本到SQL、檢索增強生成和數學工具使用任務上的實驗展示了穩定且持續的改進,彰顯了該框架在實際代理訓練與部署中的潛力。
强化学习(RL)在大型语言模型(LLMs)中的应用研究主要集中在单轮问题上,例如数学推理或单次代码生成。虽然这些问题可以被视为令牌级别的多轮马尔可夫决策过程(MDPs),但这种视角对应于多轮交互的退化情况,即环境不提供任何反馈。这与许多现实世界领域形成鲜明对比,例如软件工程(SWE),这些领域需要与有状态的环境进行丰富的多轮交互,环境对每个动作都会做出非平凡的观察。 为了弥合这一差距,我们展示了RL在这一通用领域中的成功应用。通过改进的解耦优势策略优化(DAPO)算法,我们训练了一个基于Qwen2.5-72B-Instruct的代理来解决现实世界的软件工程任务。我们的方法将代理在SWE-bench Verified基准上的成功率从20%的拒绝微调基线提高到39%,且不依赖任何教师模型。在SWE-rebench上,我们的代理在相同的框架下匹配或超越了领先的开源权重模型,如DeepSeek-V3-0324和Qwen3-235B-A22B,为基于开源模型构建更强大的自主代理以解决复杂现实问题提供了可行的路径。
將大型視覺語言模型(LVLMs)重新定位為計算機使用代理(CUAs)已帶來重大突破,這主要得益於人類標註的數據。然而,這些模型在面對新穎且專業的軟件時往往表現不佳,尤其是在缺乏人工註解的場景中。為應對這一挑戰,我們提出了SEAgent,這是一個使CUAs能夠通過與陌生軟件的交互自主進化的代理自演化框架。具體而言,SEAgent賦予計算機使用代理通過經驗學習自主掌握新軟件環境的能力,其中代理探索新軟件,通過迭代試錯學習,並逐步解決從簡單到複雜自動生成的任務。為實現這一目標,我們設計了一個用於逐步軌跡評估的世界狀態模型,以及一個生成日益多樣化和挑戰性任務的課程生成器。代理的策略通過經驗學習進行更新,包括對失敗動作的對抗性模仿和對成功動作的群體相對策略優化(GRPO)。此外,我們引入了一種從專家到通才的訓練策略,該策略整合了來自專家代理的個體經驗見解,促進了能夠持續自主進化的更強大通才CUA的發展。這一統一代理最終在其專業軟件上的表現超越了單個專家代理的集合。我們在OS-World中的五個新軟件環境中驗證了SEAgent的有效性。與競爭性的開源CUA(即UI-TARS)相比,我們的方法在成功率上實現了顯著的23.2%提升,從11.3%增至34.5%。
交互式多模态代理必须将原始视觉观察转化为连贯的语言条件动作序列——这是当前视觉语言模型(VLMs)尚不具备的能力。早期的强化学习(RL)方法原则上可以为VLMs赋予此类技能,但它们很少测试所学行为是否能推广到训练模拟器之外,且依赖于脆弱的超参数调整或状态变化性低的密集奖励环境。我们提出了视觉语言解耦演员-评论家(VL-DAC),一种轻量级、无需超参数的RL算法。VL-DAC在动作标记上应用PPO更新,同时仅在环境步骤层面学习价值:据我们所知,这种安排尚未在大型VLMs或LLMs中探索过。这种简单的解耦消除了不稳定的权重项,带来了更快、更可靠的收敛。在单个廉价模拟器(MiniWorld、Gym-Cards、ALFWorld或WebShop)中依次训练一个VLM,已能产生广泛泛化的策略:在BALROG(以游戏为中心的代理控制)上相对提升+50%,在VSI-Bench(空间规划)最困难部分上相对提升+5%,在VisualWebBench(网页导航)上提升+2%,且均未降低一般图像理解的准确性。这些结果首次证明,一个简单的RL算法可以在廉价的合成世界中完全训练VLMs,同时在真实图像的代理控制、空间推理和网页导航基准上带来可衡量的提升。
社交智能已成為大型語言模型(LLMs)的關鍵能力,使其能夠有效地參與現實世界中的社交任務,如適應、說服、協作和談判。強化學習(RL)天然適合訓練具有社交智能的代理,因為它允許模型直接通過社交互動學習複雜的策略。然而,社交互動具有兩個關鍵特性,為RL訓練設置了障礙:(1)部分可觀測性,即話語具有間接和延遲的影響,使信用分配複雜化;(2)多維度性,即如建立融洽關係或尋求知識等行為間接貢獻於目標達成。這些特性使得基於馬可夫決策過程(MDP)的RL,在單維度回合級獎勵下效率低下且不穩定。為應對這些挑戰,我們提出了Sotopia-RL,一個新穎的框架,將粗糙的回合級反饋細化為話語級、多維度的獎勵。話語級信用分配通過將結果歸因於個別話語來緩解部分可觀測性,而多維度獎勵則捕捉了社交互動的全部豐富性,並減少了獎勵欺騙。在Sotopia,一個開放式社交學習環境中的實驗表明,Sotopia-RL在社交目標完成得分上達到了最先進的水平(在Sotopia-hard上為7.17,在Sotopia-full上為8.31),顯著超越了現有方法。消融研究證實了話語級信用分配和多維度獎勵設計對於RL訓練的必要性。我們的實現已公開於:https://github.com/sotopia-lab/sotopia-rl。
藥物毒性仍然是藥物開發中的主要挑戰。近年來,機器學習模型在計算毒性預測方面有所進步,但其對註釋數據的依賴以及缺乏可解釋性限制了其應用範圍。這限制了它們捕捉由複雜生物機制驅動的器官特異性毒性的能力。大型語言模型(LLMs)通過逐步推理和文本數據的整合提供了一種有前景的替代方案,然而先前的方法缺乏生物學背景和透明的推理過程。為了解決這一問題,我們提出了CoTox,這是一個將LLM與鏈式推理(CoT)相結合的新框架,用於多毒性預測。CoTox結合了化學結構數據、生物途徑和基因本體(GO)術語,通過逐步推理生成可解釋的毒性預測。使用GPT-4o,我們展示了CoTox在性能上超越了傳統的機器學習和深度學習模型。我們進一步檢驗了其在各種LLMs中的表現,以確定CoTox在哪些情況下最為有效。此外,我們發現使用IUPAC名稱表示化學結構(相比SMILES更易於LLMs理解)增強了模型的推理能力並提高了預測性能。為了展示其在藥物開發中的實際應用,我們模擬了相關細胞類型的藥物處理,並將由此產生的生物學背景整合到CoTox框架中。這種方法使CoTox能夠生成與生理反應一致的毒性預測,如案例研究所示。這一結果突顯了基於LLM的框架在提高可解釋性和支持早期藥物安全評估方面的潛力。本工作中使用的代碼和提示可在https://github.com/dmis-lab/CoTox獲取。
多模態大規模模型顯著推動了網路代理的發展,使其能夠以類似人類認知的方式感知並與數位環境互動。本文主張,網路代理首先必須獲取足夠的知識,才能有效地進行認知推理。因此,我們將網路代理的能力分解為兩個關鍵階段:知識內容學習與認知過程。為此,我們提出了Web-CogKnowledge框架,將知識分類為事實性、概念性和程序性。在此框架中,知識內容學習對應於代理的記憶與理解過程,依賴於前兩類知識,代表學習的「是什麼」;而認知過程則對應於探索,基於程序性知識,定義了推理與行動的「如何」。為促進知識獲取,我們構建了Web-CogDataset,這是一個從14個真實網站中精心策劃的結構化資源,旨在系統性地灌輸網路代理所需的核心知識。此數據集作為代理的概念基礎——理解所依賴的「名詞」——同時也是學習如何推理與行動的基礎。基於此,我們通過新穎的知識驅動的思維鏈(CoT)推理框架,將這些過程操作化,開發並訓練了我們提出的代理——Web-CogReasoner。大量實驗表明,其在泛化到未見任務時,尤其是在結構化知識起決定性作用的情況下,顯著優於現有模型。為實現嚴謹的評估,我們引入了Web-CogBench,這是一個全面的評估套件,旨在評估並比較代理在劃分的知識領域與認知能力上的表現。我們的代碼與數據已開源於https://github.com/Gnonymous/Web-CogReasoner。
將網頁設計轉換為代碼(設計到代碼)在用戶界面(UI)開發中扮演著至關重要的角色,它彌合了視覺設計與功能實現之間的鴻溝。儘管最近的多模態大型語言模型(MLLMs)在設計到代碼任務中展現出顯著的潛力,但它們在代碼生成過程中往往無法準確保留佈局。為此,我們從人類認知中的思維鏈(CoT)推理中汲取靈感,提出了LaTCoder,這是一種新穎的方法,通過佈局即思維(LaT)來增強網頁設計在代碼生成過程中的佈局保留。具體而言,我們首先引入了一種簡單而高效的算法,將網頁設計劃分為圖像塊。接著,我們使用基於CoT的方法提示MLLMs為每個圖像塊生成代碼。最後,我們應用兩種組裝策略——絕對定位和基於MLLM的方法——並通過動態選擇來確定最佳輸出。我們在多個骨幹MLLMs(即DeepSeek-VL2、Gemini和GPT-4o)上使用公開基準和新引入的更具挑戰性的基準(CC-HARD,其特點是複雜佈局)來評估LaTCoder的有效性。自動指標上的實驗結果顯示了顯著的改進。具體而言,使用DeepSeek-VL2時,TreeBLEU分數提高了66.67%,MAE降低了38%,相比於直接提示。此外,人類偏好評估結果表明,註釋者在超過60%的情況下更傾向於LaTCoder生成的網頁,這為我們方法的有效性提供了有力證據。
評估文本到圖像生成模型需要與人類感知保持一致,然而現有的以人為中心的指標受限於數據覆蓋範圍有限、特徵提取次優以及損失函數效率低下。為應對這些挑戰,我們引入了人類偏好評分第三版(HPSv3)。(1) 我們發布了HPDv3,這是首個廣譜人類偏好數據集,整合了來自頂尖生成模型及從低到高質量真實世界圖像的108萬文本-圖像對和117萬條註釋的成對比較。(2) 我們提出了一種基於視覺語言模型(VLM)的偏好模型,該模型採用不確定性感知的排序損失進行細粒度排名訓練。此外,我們提出了人類偏好鏈(CoHP),這是一種無需額外數據即可提升質量的迭代圖像優化方法,利用HPSv3在每一步選擇最佳圖像。大量實驗證明,HPSv3作為廣譜圖像評估的強健指標,而CoHP提供了一種高效且與人類感知一致的方法來提升圖像生成質量。代碼和數據集可在HPSv3主頁獲取。
本文提出了一種新穎的視頻到4D生成框架,能夠從單一視頻輸入創建高質量的動態3D內容。直接進行4D擴散建模極具挑戰性,原因在於數據構建成本高昂,以及同時表示3D形狀、外觀和運動的高維特性。我們通過引入一種直接4D網格到高斯變分場的變分自編碼器(Direct 4DMesh-to-GS Variation Field VAE)來應對這些挑戰,該模型直接從3D動畫數據中編碼規範高斯散點(GS)及其時間變化,無需逐實例擬合,並將高維動畫壓縮至緊湊的潛在空間。基於這一高效表示,我們訓練了一個高斯變分場擴散模型,該模型配備了時間感知的擴散變換器,並以輸入視頻和規範GS為條件。在Objaverse數據集中精心策劃的可動畫3D對象上訓練後,我們的模型展現出相較現有方法更優的生成質量。儘管僅在合成數據上訓練,它對真實世界視頻輸入也表現出顯著的泛化能力,為生成高質量動畫3D內容開闢了新途徑。項目頁面:https://gvfdiffusion.github.io/。
影片虛擬試穿(VVT)技術因其在電子商務廣告和娛樂領域的廣闊應用前景而引起了學術界的廣泛關注。然而,現有的大多數端到端方法過度依賴稀缺的成對服裝中心數據集,未能有效利用先進視覺模型的先驗知識和測試時輸入,這使得在無約束場景中精確保留服裝細節和維持時間一致性變得極具挑戰。為應對這些挑戰,我們提出了DreamVVT,這是一個基於擴散變壓器(DiTs)精心設計的兩階段框架,其內在能力能夠利用多樣化的非配對人體中心數據來增強現實場景中的適應性。為了進一步利用預訓練模型的先驗知識和測試時輸入,在第一階段,我們從輸入影片中採樣代表性幀,並利用整合了視覺語言模型(VLM)的多幀試穿模型,合成高保真且語義一致的關鍵幀試穿圖像。這些圖像作為後續影片生成的補充外觀指導。在第二階段,從輸入內容中提取骨架圖以及細粒度運動和外觀描述,這些信息與關鍵幀試穿圖像一同輸入到一個通過LoRA適配器增強的預訓練影片生成模型中。這確保了未見區域的長期時間一致性,並實現了高度逼真的動態運動。大量的定量和定性實驗表明,DreamVVT在現實場景中保留服裝細節和時間穩定性方面超越了現有方法。我們的項目頁面為https://virtu-lab.github.io/。
人工智慧(AI)會議對於推動研究、分享知識及促進學術社群至關重要。然而,其快速擴張已使集中式會議模式日益難以持續。本文基於數據分析,揭示了一場威脅科學傳播、公平性及社群福祉基礎目標的結構性危機。我們識別出四大壓力領域:(1) 科學層面,每位作者的平均發表率在過去十年間翻倍,現已超過每年4.5篇論文;(2) 環境層面,單一會議的碳足跡已超過其舉辦城市的日排放量;(3) 心理層面,線上社群討論中71%反映負面情緒,35%提及心理健康問題;(4) 後勤層面,如NeurIPS 2024等頂級會議的參與人數開始超出場地容量。這些壓力表明現行系統與其核心使命存在偏差。對此,我們提出「社群聯邦會議」(Community-Federated Conference, CFC)模型,將同行評審、論文發表與網絡交流分離為全球協調但本地組織的模塊,為AI研究開闢一條更可持續、包容且具韌性的發展道路。
大型语言模型(LLMs)能够处理长上下文任务,但由于不断增长的键值(KV)缓存,面临效率挑战。我们提出了LeanK,一种基于学习的方法,通过利用静态通道稀疏性来修剪不重要的键(K)缓存通道。通过新颖的两阶段训练过程,LeanK学习通道级别的静态掩码,能够满足特定的稀疏率与硬件对齐要求。LeanK在保持准确性的同时,减少了GPU内存并加速了解码过程。实验表明,K缓存最多可减少70%,V缓存内存减少16%-18%。定制的解码内核使注意力计算速度提升了1.3倍。我们还通过分析学习到的重要性分布,深入探讨了长上下文推理过程中模型通道与注意力头的行为。我们的代码可在https://aka.ms/LeanK获取。
大型語言模型(LLMs)在處理長上下文時,由於前攝干擾(proactive interference)的存在,會遭受顯著的性能下降,即上下文前段中的不相關信息會干擾推理和記憶提取。儘管大多數研究專注於通過外部記憶系統來增強LLMs的能力,我們提出了一種互補的方法:賦予LLMs主動上下文管理(Active Context Management, ACM)工具,以主動塑造其內部工作記憶。我們介紹了Sculptor框架,該框架為LLMs配備了三類工具:(1) 上下文分段,(2) 摘要、隱藏與恢復,以及(3) 智能搜索。我們的方法使LLMs能夠主動管理其注意力和工作記憶,類似於人類如何選擇性地聚焦於相關信息並過濾掉干擾。在信息稀疏的基準測試——PI-LLM(前攝干擾)和NeedleBench多針推理上的實驗評估表明,即使沒有特定訓練,Sculptor也能顯著提升性能,這得益於LLMs固有的工具調用泛化能力。通過實現主動上下文管理,Sculptor不僅緩解了前攝干擾,還為跨多樣長上下文任務的更可靠推理提供了認知基礎——這表明,明確的上下文控制策略,而非僅僅更大的token窗口,是實現大規模魯棒性的關鍵。
自動形式化旨在將自然語言中的數學陳述轉化為形式語言。儘管大型語言模型(LLMs)已加速了這一領域的進展,現有方法仍面臨準確性不足的問題。我們識別出有效自動形式化的兩項關鍵能力:對形式語言領域知識的全面掌握,以及自然語言問題理解與非正式-正式對齊的推理能力。缺乏前者,模型無法識別正確的形式對象;缺少後者,模型則難以解讀現實世界語境並將其精確映射為形式表達。為彌補這些不足,我們引入了ThinkingF,一個提升這兩種能力的數據合成與訓練流程。首先,我們構建了兩個數據集:一個通過提煉和篩選富含形式知識的大規模實例,另一個則基於專家設計的模板生成非正式到正式的推理軌跡。隨後,我們利用這些數據集進行監督微調(SFT)和強化學習價值回饋(RLVR),以進一步融合和精煉這兩種能力。最終得到的7B和32B模型展現了全面的形式知識和強大的非正式到正式推理能力。值得注意的是,StepFun-Formalizer-32B在FormalMATH-Lite上達到了40.5%的SOTA BEq@1分數,在ProverBench上達到了26.7%,超越了所有先前的通用和專用模型。
大型語言模型使代理能夠在開放網絡環境中自主執行任務。然而,隨著網絡中潛在威脅的演變,網絡代理在長時間序列操作中面臨著平衡任務性能與新興風險的挑戰。儘管這一挑戰至關重要,但當前的研究仍局限於單目標優化或單輪場景,缺乏在網絡環境中對安全性和實用性進行協同優化的能力。為解決這一問題,我們提出了HarmonyGuard,這是一個多代理協作框架,利用策略增強和目標優化來共同提升實用性和安全性。HarmonyGuard具有多代理架構,具備兩項基本能力:(1) 自適應策略增強:我們在HarmonyGuard中引入了策略代理,該代理能夠從非結構化外部文檔中自動提取並維護結構化的安全策略,同時根據不斷變化的威脅持續更新策略。(2) 雙目標優化:基於安全性和實用性的雙重目標,集成在HarmonyGuard中的實用性代理執行馬可夫實時推理以評估目標,並利用元認知能力對其進行優化。在多個基準上的廣泛評估表明,HarmonyGuard在策略合規性上比現有基線提高了最多38%,在任務完成率上提高了最多20%,同時在所有任務中實現了超過90%的策略合規性。我們的項目可在以下網址獲取:https://github.com/YurunChen/HarmonyGuard。
当前,大型音频语言模型(LALMs)的开发多依赖于封闭数据源或专有模型,这限制了其泛化能力与可访问性。本文介绍了一种新型开放音频语言模型——MiDashengLM,该模型旨在通过我们新开发的ACAVCaps训练数据集,利用通用音频字幕实现高效且全面的音频理解。MiDashengLM完全依赖于公开可获取的预训练与监督微调(SFT)数据集,确保了完全的透明度和可复现性。其核心整合了Dasheng,一个开源的音频编码器,专门设计用于高效处理多样化的听觉信息。与以往主要关注基于自动语音识别(ASR)的音频文本对齐工作不同,我们的策略聚焦于通用音频字幕,将语音、声音及音乐信息融合为单一文本表示,从而实现对复杂音频场景的整体文本描述。最后,MiDashengLM在首词生成时间(TTFT)上实现了高达4倍的加速,吞吐量比同类模型高出20倍。模型检查点已在线发布,访问地址为https://huggingface.co/mispeech/midashenglm-7b及https://github.com/xiaomi-research/dasheng-lm。
實例分割在生物醫學影像中至關重要,它能精確區分如細胞等常重疊且大小不一的個體。近期基於查詢的方法,即通過物件查詢引導分割,已展現出卓越性能。儘管U-Net在醫學影像分割中一直是首選架構,其在基於查詢方法中的潛力卻尚未充分挖掘。本研究提出IAUNet,一種新穎的基於查詢的U-Net架構。其核心設計特色在於完整的U-Net架構,並通過創新的輕量級卷積像素解碼器增強,使模型更為高效並減少參數量。此外,我們提出了一種Transformer解碼器,用於在多尺度上精煉物件特徵。最後,我們引入了2025年Revvity全細胞分割數據集,這是一份獨特的資源,包含明場影像中重疊細胞質的詳細標註,為生物醫學實例分割設立了新基準。在多個公開數據集及我們自有的數據集上的實驗表明,IAUNet在大多數最先進的全卷積、基於Transformer及基於查詢的模型以及專用於細胞分割的模型中表現優異,為細胞實例分割任務設立了堅實的基準。代碼可於https://github.com/SlavkoPrytula/IAUNet獲取。
命名實體識別(NER)是從超過80%存儲於非結構化臨床記錄和生物醫學文獻中的醫療數據中提取結構化信息的基礎。儘管大型語言模型近期取得了進展,但在保持計算效率的同時,跨多樣實體類型實現最先進性能仍是一大挑戰。我們推出了OpenMed NER,這是一套開源的、領域適應的變換器模型,結合了輕量級的領域適應預訓練(DAPT)與參數高效的低秩適應(LoRA)。我們的方法在一個由道德來源、公開可用的研究庫和去識別化臨床記錄(如PubMed、arXiv和MIMIC-III)編譯的35萬段落語料庫上,使用DeBERTa-v3、PubMedBERT和BioELECTRA骨幹進行了成本效益高的DAPT。隨後,通過LoRA進行任務特定的微調,更新了不到1.5%的模型參數。我們在12個已建立的生物醫學NER基準上評估了我們的模型,涵蓋化學物質、疾病、基因和物種。OpenMed NER在其中10個數據集上達到了新的微F1分數最高紀錄,在多樣實體類型上取得了顯著提升。我們的模型在基礎疾病和化學基準(例如BC5CDR-Disease,+2.70 pp)上推動了技術前沿,同時在更專業的基因和臨床細胞系語料庫上實現了超過5.3和9.7個百分點的更大改進。這項工作表明,經過戰略性適應的開源模型能夠超越閉源解決方案。這一性能的實現極為高效:訓練在單個GPU上不到12小時完成,碳足跡低(<1.2 kg CO2e),產生了許可寬鬆的開源檢查點,旨在幫助從業者促進遵守新興的數據保護和AI法規,如歐盟AI法案。
Rust 的編譯時安全保證使其成為安全關鍵系統的理想選擇,這也催生了將遺留 C 語言程式碼庫轉譯為 Rust 的需求。儘管針對此任務已出現多種方法,但它們都面臨著固有的權衡:基於規則的解決方案難以滿足程式碼安全性和慣用性要求,而基於大型語言模型(LLM)的解決方案則常因模組間的重度依賴而無法生成語意等價的 Rust 程式碼。近期研究顯示,這兩種解決方案均僅適用於小規模程式。本文提出 EvoC2Rust,這是一個將完整 C 專案轉換為等價 Rust 專案的自動化框架。EvoC2Rust 採用骨架引導的翻譯策略進行專案層級的轉譯。其流程包含三個演化階段:1)首先將 C 專案分解為功能模組,利用特徵映射增強型 LLM 轉換定義和巨集,並生成經過型別檢查的函數存根,從而形成可編譯的 Rust 骨架;2)隨後逐步翻譯函數,替換相應的存根佔位符;3)最後,通過整合 LLM 和靜態分析來修復編譯錯誤。透過演化增強,EvoC2Rust 結合了基於規則和基於 LLM 解決方案的優勢。我們在開源基準測試和六個工業專案上的評估顯示,EvoC2Rust 在專案層級的 C 到 Rust 轉譯中表現卓越。平均而言,它在語法和語意準確性上分別比基於 LLM 的方法提升了 17.24% 和 14.32%,同時程式碼安全率比基於規則的工具高出 96.79%。在模組層級上,EvoC2Rust 在工業專案中達到了 92.25% 的編譯通過率和 89.53% 的測試通過率,即使面對複雜的程式碼庫和冗長的函數也是如此。
我们提出了DPoser-X,一种基于扩散的3D全身人体姿态先验模型。构建一个多功能且稳健的全身人体姿态先验模型仍具挑战性,这源于人体关节姿态固有的复杂性以及高质量全身姿态数据集的稀缺。针对这些限制,我们引入了一种扩散模型作为姿态先验(DPoser),并将其扩展至DPoser-X,用于富有表现力的全身人体姿态建模。我们的方法将多种姿态中心任务统一为逆问题,通过变分扩散采样加以解决。为了提升下游应用的性能,我们提出了一种新颖的截断时间步调度方法,专门针对姿态数据特性设计。此外,我们还提出了一种掩码训练机制,有效整合了全身与部位特定数据集,使模型能够捕捉身体部位间的相互依赖关系,同时避免对特定动作的过拟合。大量实验表明,DPoser-X在身体、手部、面部及全身姿态建模的多个基准测试中展现出卓越的鲁棒性和多功能性。我们的模型持续超越现有最先进方案,为全身人体姿态先验建模树立了新标杆。
基於可驗證獎勵的強化學習(RLVR)顯著提升了大型語言模型(LLMs)的複雜推理能力。然而,由於其本質上的在線策略特性,加之LLM龐大的動作空間和稀疏的獎勵機制,RLVR難以突破基礎LLM的固有能力邊界。關鍵在於,RLVR可能導致能力邊界崩潰,從而縮小LLM的問題解決範圍。為解決這一問題,我們提出了RL-PLUS,一種新穎的混合策略優化方法,旨在通過內部開發與外部數據的協同作用,實現更強的推理能力並超越基礎模型的邊界。RL-PLUS整合了兩個核心組件,即多重重要性抽樣以應對外部數據的分佈不匹配問題,以及基於探索的優勢函數來引導模型走向高價值、未探索的推理路徑。我們提供了理論分析和大量實驗,以證明我們方法的優越性和普適性。與現有的RLVR方法相比,RL-PLUS在六個數學推理基準測試中達到了1)最先進的性能;2)在六個分佈外推理任務中表現優異;3)在不同模型家族中實現了一致且顯著的增益,平均相對提升高達69.2%。此外,Pass@k曲線的分析表明,RL-PLUS有效解決了能力邊界崩潰的問題。
視覺定位旨在根據自然語言描述識別場景中的物體或區域,這對於自動駕駛中的空間感知至關重要。然而,現有的視覺定位任務通常依賴於邊界框,這些邊界框往往無法捕捉到細粒度的細節。邊界框內的所有體素並非都被佔用,導致物體表示不準確。為解決這一問題,我們引入了一個針對挑戰性戶外場景的三維佔用定位基準。該基準基於nuScenes數據集,將自然語言與體素級別的佔用註釋相結合,相比傳統的定位任務,提供了更精確的物體感知。此外,我們提出了GroundingOcc,這是一個專為三維佔用定位設計的端到端模型,通過多模態學習從粗到細預測物體位置和佔用信息。具體而言,GroundingOcc包含一個用於特徵提取的多模態編碼器、一個用於體素級預測的佔用頭,以及一個用於精細定位的定位頭。此外,一個二維定位模塊和一個深度估計模塊增強了幾何理解,從而提升了模型性能。在基準上的大量實驗表明,我們的方法在三維佔用定位上優於現有的基線。數據集可在https://github.com/RONINGOD/GroundingOcc獲取。
長篇事實性評估旨在檢驗模型對簡短提示生成準確、全面回應的能力。現有的基準測試往往缺乏人工驗證,導致可能存在質量問題。為解決這一局限,我們引入了FACTORY,一個大規模、經人工驗證的提示集。FACTORY採用模型參與循環開發並由人工精煉,包含尋求事實、可回答且無歧義的挑戰性提示。我們利用FACTORY及現有數據集對六種頂尖語言模型進行了人工評估。結果顯示,FACTORY作為一個挑戰性基準,其回應中約40%的聲明與事實不符,而其他數據集僅為10%。我們的分析揭示了FACTORY相較於先前基準的優勢,強調了其可靠性以及模型在處理長尾事實時進行推理的必要性。
在移动网络中,根本原因分析(RCA)仍是一项具有挑战性的任务,这主要源于对可解释性、领域专业知识及因果推理的需求。本研究提出了一种轻量级框架,该框架利用大型语言模型(LLMs)进行RCA。为此,我们引入了TeleLogs,一个精心策划的标注故障排除问题数据集,旨在为RCA能力提供基准测试。我们的评估显示,现有的开源推理型LLMs在处理这些问题时表现欠佳,凸显了领域特定适应的必要性。针对这一问题,我们提出了一种两阶段训练方法,该方法结合了监督微调与强化学习,以提升LLMs的准确性和推理质量。所提出的方法通过微调一系列RCA模型,整合领域知识并生成结构化的多步骤诊断解释,从而提高了可解释性和有效性。跨多个LLM规模的广泛实验表明,相较于最先进的推理与非推理模型,该方法在性能上取得了显著提升,包括对随机化测试变体的强大泛化能力。这些结果展示了领域适应、推理增强的LLMs在网络运营与管理中实现实用且可解释的RCA的潜力。
自動駕駛需要精確的場景理解,包括道路幾何、交通參與者及其語義關係。在線高精度地圖生成場景中,基於柵格的表示法適合視覺模型,但缺乏幾何精度,而基於圖的表示法保留了結構細節,但在沒有精確地圖的情況下變得不穩定。為了利用兩者的互補優勢,我們提出了DiffSemanticFusion——一個用於多模態軌跡預測與規劃的融合框架。我們的方法在語義柵格融合的鳥瞰圖(BEV)空間中進行推理,並通過地圖擴散模塊增強,該模塊提高了在線高精度地圖表示的穩定性和表現力。我們在兩個下游任務上驗證了我們的框架:軌跡預測和面向規劃的端到端自動駕駛。在真實世界的自動駕駛基準測試nuScenes和NAVSIM上的實驗表明,相較於多種最先進的方法,我們的框架性能有所提升。對於nuScenes上的預測任務,我們將DiffSemanticFusion與基於在線高精度地圖的QCNet結合,實現了5.1%的性能提升。在NAVSIM的端到端自動駕駛中,DiffSemanticFusion達到了最先進的結果,在NavHard場景中性能提升了15%。此外,廣泛的消融和敏感性研究表明,我們的地圖擴散模塊可以無縫集成到其他基於向量的方法中,以提升性能。所有相關資源可在https://github.com/SunZhigang7/DiffSemanticFusion 獲取。
文本到3D(T23D)生成技術已革新了數字內容創作,但仍受制於盲目的試錯提示過程,導致結果難以預測。儘管視覺提示工程在文本到圖像領域已取得進展,但其在3D生成中的應用面臨獨特挑戰,需要多視角一致性評估和空間理解。我們提出了Sel3DCraft,這是一個專為T23D設計的視覺提示工程系統,將無結構的探索轉化為有指導的視覺過程。我們的方法引入了三大創新:結合檢索與生成的雙分支結構,用於多樣化候選探索;多視角混合評分方法,利用多模態大語言模型(MLLMs)及創新高層次指標,以人類專家一致性評估3D模型;以及提示驅動的視覺分析套件,支持直觀的缺陷識別與精細化。廣泛的測試與用戶研究表明,Sel3DCraft在支持設計師創造力方面超越了其他T23D系統。
基於可驗證獎勵的強化學習(RLVR)提升了大型語言模型(LLMs)的指令遵循能力,但由於難度評估不足,存在訓練效率低下的問題。此外,RLVR容易出現過度優化,即LLMs利用驗證捷徑而不對齊用戶指令的實際意圖。我們引入了指令遵循裝飾器(IFDecorator),這是一個將RLVR訓練封裝成穩健且樣本高效管線的框架。它包含三個組件:(1)一個合作對抗的數據飛輪,共同演化指令和混合驗證,生成逐步更具挑戰性的指令-驗證對;(2)IntentCheck,一個強制意圖對齊的旁路模塊;以及(3)觸發線,一種通過陷阱指令檢測獎勵黑客行為的診斷機制,這些陷阱指令觸發並捕捉捷徑利用行為。我們的Qwen2.5-32B-Instruct-IFDecorator在IFEval上達到了87.43%的準確率,超越了如GPT-4o等更大的專有模型。此外,我們在FollowBench上展示了顯著的改進,同時保持了通用能力。我們的觸發線顯示獎勵黑客率顯著降低。我們將發布模型、代碼和數據以供未來研究。
儘管大型語言模型(LLMs)在推理能力上的進步顯著提升了其在解決數學問題、編碼任務及一般謎題上的表現,但在準確遵循指令方面,尤其是面對更複雜的指示時,其效果仍不穩定。我們的研究發現,思維階段的懶惰推理是導致指令遵循不佳的主要原因。為緩解這一問題,我們提出了一個全面的框架,旨在實現嚴謹的推理過程,包括預覽與自我檢查,這對於滿足嚴格的指令約束至關重要。具體而言,我們首先生成具有複雜約束的指令,並通過過濾過程獲取有效的提示,從而得到三個不同類別的提示數據集:困難、簡單和通過。接著,我們對通過的提示進行拒絕採樣,精選出一個小而高質量的數據集,用於模型的冷啟動初始化,並促進其適應有效的推理模式。隨後,我們採用熵保持的監督微調(Entropy-SFT)策略,結合基於規則的密集獎勵引導的逐詞熵適應(TEA-RL)強化學習。這一方法鼓勵模型轉變其推理機制,最終培養出包含預覽與自我檢查的可泛化推理能力。在指令遵循基準上進行的大量實驗顯示,各模型規模均取得了顯著的性能提升。值得注意的是,我們的Light-IF-32B模型超越了如DeepSeek-R1等更大的開源模型以及Doubao-1.6等閉源模型。
三維異常檢測(3D Anomaly Detection, AD)在檢測高精度工業產品的異常或缺陷方面展現了巨大潛力。然而,現有方法通常以類別特定的方式進行訓練,且缺乏從新興類別中學習的能力。在本研究中,我們提出了一種名為持續三維異常檢測(Continual 3D Anomaly Detection, C3D-AD)的持續學習框架,該框架不僅能學習多類點雲的通用表示,還能處理隨時間出現的新類別。具體而言,在特徵提取模塊中,為了高效地從不同任務的多樣產品類型中提取通用局部特徵,引入了帶有隨機特徵層的核注意力(Kernel Attention with random feature Layer, KAL),該方法對特徵空間進行了標準化。接著,為了正確且持續地重建數據,提出了一種高效的帶有可學習顧問的核注意力(Kernel Attention with learnable Advisor, KAA)機制,該機制在編碼器和解碼器中學習新類別的信息,同時丟棄冗餘的舊信息。最後,為了保持任務間的表示一致性,提出了一種帶有參數擾動的重建(Reconstruction with Parameter Perturbation, RPP)模塊,通過設計表示排練損失函數,確保模型記住先前類別的信息並返回類別自適應的表示。在三個公開數據集上的廣泛實驗證明了所提方法的有效性,在Real3D-AD、Anomaly-ShapeNet和MulSen-AD上分別達到了66.4%、83.1%和63.4%的平均AUROC性能。
本文探討了系統性地治理、評估和量化機器學習模型全生命週期中偏見的方法,從初始開發與驗證到持續的生產監控及防護措施的實施。基於我們在大型語言模型(LLMs)偏見評估與測試套件(BEATS)上的基礎工作,作者們分享了LLMs中普遍存在的偏見與公平性相關缺口,並討論了數據與AI治理框架,以應對LLMs中的偏見、倫理、公平性及事實性問題。本文所述的數據與AI治理方法適用於實際的現實世界應用,能夠在LLMs投入生產部署前進行嚴格的基準測試,促進持續的實時評估,並主動治理LLM生成的回應。通過在AI開發的全生命週期中實施數據與AI治理,組織能顯著提升其生成式AI系統的安全性和責任感,有效降低歧視風險,防範潛在的聲譽或品牌損害。最終,我們希望通過本文,為推動創建和部署社會責任與倫理對齊的生成式人工智能應用做出貢獻。
音樂錄音常因過度混響、失真、削波、音調失衡及立體聲像縮窄等音質問題而受損,尤其是在非專業環境下未使用專用設備或專業知識製作時。這些問題通常需借助多種專用工具及手動調整來修正。本文介紹了SonicMaster,首個針對廣泛音頻瑕疵進行修復與母帶處理的統一生成模型,並支持基於文本的控制。SonicMaster可根據自然語言指令進行定向增強,或運行於自動模式以實現通用修復。為訓練此模型,我們構建了SonicMaster數據集,這是一個大型配對數據集,通過模擬五類增強組(均衡、動態、混響、振幅及立體聲)下的十九種退化函數,生成退化與高質量音軌的對比。我們的方法採用流匹配生成訓練範式,學習一種音頻轉換,將退化輸入映射至其經文本提示引導的淨化、母帶處理版本。客觀音質指標顯示,SonicMaster在所有瑕疵類別上均顯著提升了音質。此外,主觀聽覺測試證實,聽者更偏好SonicMaster增強後的輸出而非原始退化音頻,凸顯了我們統一方法的有效性。
文本到圖像擴散模型在從數十億張圖像(包括流行藝術作品)中學習生成藝術內容方面展現了顯著的能力。然而,這些模型內部如何表示概念(如繪畫中的內容和風格)的基本問題仍未得到探索。傳統的計算機視覺假設內容和風格是正交的,但擴散模型在訓練過程中並未獲得關於這種區分的明確指導。在本研究中,我們探討了基於變壓器的文本到圖像擴散模型在生成藝術作品時如何編碼內容和風格概念。我們利用交叉注意力熱圖將生成圖像中的像素歸因於特定的提示詞,使我們能夠分離受內容描述詞和風格描述詞影響的圖像區域。我們的研究結果表明,擴散模型根據具體的藝術提示和風格要求,展現出不同程度的內容-風格分離。在許多情況下,內容詞主要影響與物體相關的區域,而風格詞則影響背景和紋理區域,這表明了一種對內容-風格區分的新興理解。這些見解有助於我們理解大規模生成模型在沒有明確監督的情況下如何內部表示複雜的藝術概念。我們在 https://github.com/umilISLab/artistic-prompt-interpretation 上分享了代碼和數據集,以及一個用於可視化注意力圖的探索工具。