每日精選AI研究論文及翻譯
儘管「深度推理」範式在數學等可驗證領域推動了顯著進展,但其在開放性、創造性生成中的應用仍是一個關鍵挑戰。當前主流的兩種推理培養方法——強化學習(RL)與指令蒸餾——在此領域均顯乏力;RL因缺乏明確的獎勵信號及高質量獎勵模型而舉步維艱,而蒸餾法則因成本高昂且受制於教師模型的能力上限而難以施展。為突破這些限制,我們引入了逆向工程推理(REER),這一新範式從根本上轉變了方法論。REER不再通過試錯或模仿來「正向」構建推理過程,而是從已知優質解決方案出發,「逆向」工作,以計算方式揭示可能產生這些解決方案的潛在、逐步深入的推理過程。利用這一可擴展、無梯度的策略,我們精心策劃並開源了DeepWriting-20K,這是一個包含20,000條開放性任務深度推理軌跡的大規模數據集。基於此數據集訓練的模型DeepWriter-8B,不僅超越了強大的開源基準,而且在性能上與GPT-4o和Claude 3.5等領先的專有模型相匹敵,甚至在某些方面更勝一籌。
大型語言模型(LLMs)的範式已逐漸轉向代理應用,其中網路瀏覽能力對於從多樣化的線上資源中檢索資訊至關重要。然而,現有的開源網路代理在複雜任務上展現出有限的信息搜尋能力,或缺乏透明的實現方式。在本研究中,我們發現關鍵挑戰在於缺乏具有挑戰性的信息搜尋數據。為解決這一限制,我們引入了WebExplorer:一種基於模型探索和迭代式長短查詢演進的系統化數據生成方法。該方法創造了需要多步推理和複雜網路導航的挑戰性查詢-答案對。通過利用我們精心策劃的高質量數據集,我們成功開發了高級網路代理WebExplorer-8B,該模型通過監督微調後進行強化學習訓練。我們的模型支持128K的上下文長度和最多100次工具調用,實現了長時程問題解決。在各種信息搜尋基準測試中,WebExplorer-8B在其規模上達到了最先進的性能。值得注意的是,作為一個8B大小的模型,WebExplorer-8B在強化學習訓練後能夠有效進行平均16次搜索,在BrowseComp-en/zh上比WebSailor-72B獲得更高的準確率,並在WebWalkerQA和FRAMES上達到100B參數以下模型的最佳性能。除了這些信息搜尋任務外,我們的模型在HLE基準測試上也展現出強大的泛化能力,儘管它僅在知識密集型QA數據上進行了訓練。這些結果凸顯了我們的方法作為實現長時程網路代理的實用途徑。
我们提出了TraceRL,一种面向扩散语言模型(DLMs)的轨迹感知强化学习框架,该框架将偏好的推理轨迹融入后训练过程,并适用于多种架构。通过配备一个基于扩散的价值模型以增强训练稳定性,我们在复杂的数学和编码任务上展示了推理性能的提升。此外,它还能够应用于将特定模块的模型适配到更大的模块中,从而提高了采样的灵活性。运用TraceRL,我们开发了一系列最先进的扩散语言模型,命名为TraDo。尽管TraDo-4B-Instruct的规模小于7B级别的自回归模型,但在复杂的数学推理任务上,它始终表现更优。TraDo-8B-Instruct在数学推理基准测试中,相较于Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct,分别实现了6.1%和51.3%的相对准确率提升。通过课程学习,我们还推出了首个长链推理扩散语言模型,在MATH500上以18.1%的相对准确率优势超越了Qwen2.5-7B-Instruct。为了促进可重复的研究和实际应用,我们发布了一个全面的开源框架,用于构建、训练和部署跨多种架构的扩散大语言模型。该框架集成了加速的KV缓存技术和推理引擎,适用于推理和强化学习,并包含了针对数学、编码及通用任务的各种监督微调和强化学习方法的实现。代码与模型:https://github.com/Gen-Verse/dLLM-RL
大規模視覺基礎模型的出現,這些模型在多元的自然圖像上進行預訓練,標誌著電腦視覺領域的一次範式轉變。然而,這些前沿視覺基礎模型在專業領域,如醫學影像中的效能轉移,仍是一個未解之謎。本報告探討了DINOv3——一種在密集預測任務中展現出強大能力的最新自監督視覺變換器(ViT)——是否能夠直接作為醫學視覺任務的強大統一編碼器,而無需進行特定領域的預訓練。為此,我們在常見的醫學視覺任務上對DINOv3進行了基準測試,包括在多種醫學影像模式上的2D/3D分類與分割。我們通過改變模型大小和輸入圖像分辨率,系統地分析了其可擴展性。研究結果顯示,DINOv3展現出令人印象深刻的性能,並建立了一個強大的新基準。值得注意的是,儘管僅在自然圖像上訓練,它在多項任務上甚至超越了如BiomedCLIP和CT-Net等醫學專用基礎模型。然而,我們也發現了明顯的局限性:在需要深度領域專業化的場景中,如全片病理圖像(WSIs)、電子顯微鏡(EM)和正電子發射斷層掃描(PET),模型的特徵會退化。此外,我們觀察到DINOv3在醫學領域並未始終遵循規模定律;性能並未隨著模型增大或特徵分辨率提高而可靠地提升,顯示出跨任務的多樣化規模行為。最終,我們的工作確立了DINOv3作為一個強有力的基準,其強大的視覺特徵可作為多種複雜醫學任務的穩健先驗。這為未來的研究開闢了有前景的方向,例如利用其特徵來增強3D重建中的多視圖一致性。
視覺推理作為人類智能的基石,涵蓋了解決多樣化視覺問題所必需的複雜感知與邏輯過程。儘管計算機視覺的進步已催生出適用於各種感知任務的強大模型,但將這些模型應用於通用視覺推理仍面臨挑戰。先前的研究表明,通過監督式微調將視覺模型與大型語言模型(LLMs)結合能提升性能,但存在數據生成成本高、依賴於精細的數據篩選以及泛化能力差等關鍵限制。為解決這些問題,我們提出了ReVPT,旨在通過強化學習增強多模態LLMs在視覺工具使用與推理方面的能力。我們基於GRPO引入了一種新穎的強化學習算法,專門訓練模型以運用一套包含四種視覺工具進行推理。通過大量實驗,我們展示了該方法在包括SAT、CV-Bench、BLINK和MMStar在內的多個感知密集型基準測試上達到了業界領先水平,顯著超越了監督式及基於文本的強化學習微調基線。值得注意的是,我們的ReVPT-3B和ReVPT-7B在CV-Bench上分別以9.03%和9.44%的優勢超越了指導模型。最後,我們通過廣泛的消融實驗,為社區帶來了關於基於強化學習的視覺工具使用的新見解。我們的代碼已開源於https://github.com/ls-kelvin/REVPT。
深度研究系統,即通過協調推理、在開放網絡和用戶文件中進行搜索以及使用工具來解決複雜多步驟任務的自主AI,正朝著具有規劃器、協調器和執行器的分層部署方向發展。在實踐中,端到端訓練整個系統仍然不切實際,因此大多數工作訓練單一的規劃器,並將其連接到核心工具,如搜索、瀏覽和代碼。雖然監督微調(SFT)確保了協議的忠實性,但它存在模仿和暴露偏差,並且未能充分利用環境反饋。偏好對齊方法如DPO依賴於模式和代理,屬於離策略方法,並且在長期信用分配和多目標權衡方面表現較弱。SFT和DPO的另一個限制是它們依賴於通過模式設計和標記比較來定義人類決策點和子技能。強化學習通過優化軌跡級策略,與閉環工具交互研究保持一致,實現了探索、恢復行為和原則性信用分配,並減少了對這些人類先驗和評分者偏差的依賴。 據我們所知,本調查是首個專注於深度研究系統的強化學習基礎的調查。它沿著三個軸線系統化整理了DeepSeek-R1之後的工作:(i) 數據合成與整理;(ii) 涵蓋穩定性、樣本效率、長上下文處理、獎勵與信用設計、多目標優化和多模態整合的自主研究強化學習方法;以及(iii) 自主強化學習訓練系統和框架。我們還涵蓋了代理架構與協調,以及評估和基準測試,包括最近的問答(QA)、視覺問答(VQA)、長篇合成和基於領域的工具交互任務。我們提煉了重複出現的模式,揭示了基礎設施瓶頸,並為使用強化學習訓練健壯、透明的深度研究代理提供了實用指導。
多任務學習(MTL)通常通過在微調前合併數據集來實現,但隨著微調模型的日益普及,出現了諸如通過任務算術進行模型合併的新方法。在此背景下,任務干擾成為一大挑戰,且隨著任務數量的增加而加劇。我們提出了一種方法,將針對不同任務訓練的模型合併為單一模型,並在所有任務上保持強勁性能。我們的方法利用詹森-香農散度來指導合併過程,無需額外的標註數據,並自動平衡任務重要性。與現有方法不同,我們的方案在任務數量增加時仍保持穩健,並持續超越先前的工作。
我們介紹了Paper2Agent,這是一個將研究論文自動轉化為AI代理的框架。Paper2Agent將研究成果從被動的靜態產物轉變為能加速下游應用、採納與發現的主動系統。傳統的研究論文要求讀者投入大量精力來理解並將論文的代碼、數據和方法應用於自身工作,這造成了傳播與重用的障礙。Paper2Agent通過自動將論文轉化為一個知識淵博的研究助手AI代理來應對這一挑戰。它利用多個代理系統地分析論文及其相關代碼庫,構建一個模型上下文協議(MCP)服務器,然後迭代生成並運行測試以精煉和強化最終的MCP。這些論文MCP隨後可以靈活地連接到聊天代理(如Claude Code),通過自然語言執行複雜的科學查詢,同時調用原始論文中的工具和工作流程。我們通過深入的案例研究展示了Paper2Agent在創建可靠且能力強大的論文代理方面的有效性。Paper2Agent創建了一個利用AlphaGenome解釋基因組變異的代理,以及基於ScanPy和TISSUE的代理來執行單細胞和空間轉錄組學分析。我們驗證了這些論文代理能夠重現原始論文的結果,並能正確執行新的用戶查詢。通過將靜態論文轉變為動態、互動的AI代理,Paper2Agent引入了一種新的知識傳播範式,並為AI協作科學家的生態系統奠定了基礎。
視覺-語言模型(VLMs)在多樣化的視覺任務中展現了顯著的成功,然而在複雜的視覺環境中其性能會有所下降。現有的增強方法需要額外的訓練、依賴於外部分割工具或僅在粗粒度層面上操作,卻忽視了VLMs內在的能力。為彌補這一差距,我們研究了VLMs的注意力模式並發現:(1) 視覺複雜性與注意力熵強相關,對推理性能產生負面影響;(2) 注意力從淺層的全局掃描逐步精煉至深層的聚焦收斂,收斂程度由視覺複雜性決定。(3) 理論上,我們證明了通用查詢與任務特定查詢之間的注意力圖對比能夠將視覺信號分解為語義信號和視覺噪聲成分。基於這些洞察,我們提出了對比注意力精煉視覺增強(CARVE),這是一種無需訓練的方法,通過像素級別的注意力對比提取任務相關的視覺信號。大量實驗表明,CARVE持續提升性能,在開源模型上實現了高達75%的改進。我們的工作為視覺複雜性與注意力機制之間的相互作用提供了關鍵見解,為利用對比注意力改善視覺推理提供了一條高效途徑。
近期,統一的多模態理解與生成模型在圖像生成能力上取得了顯著進步,但在指令遵循與細節保留方面,與如GPT-4o等將理解與生成緊密結合的系統相比,仍存在較大差距。受交錯推理最新進展的啟發,我們探討了此類推理是否能進一步提升文本到圖像(T2I)生成的效果。我們引入了交錯推理生成(IRG)框架,該框架在基於文本的思考與圖像合成之間交替進行:模型首先生成基於文本的思考以指導初始圖像的生成,隨後對結果進行反思,以精細化細節、視覺質量及美學表現,同時保持語義一致性。為有效訓練IRG,我們提出了交錯推理生成學習(IRGL),其目標聚焦於兩個子任務:(1) 強化初始的思考與生成階段,以確立核心內容與基礎質量;(2) 實現高質量的文本反思,並在後續圖像中忠實執行這些改進。我們構建了IRGL-300K數據集,該數據集被組織成六種分解的學習模式,共同涵蓋了基於文本的思考及完整的思考-圖像軌跡的學習。從一個原生支持交錯文本-圖像輸出的統一基礎模型出發,我們的兩階段訓練首先構建了堅實的思考與反思能力,隨後在完整的思考-圖像軌跡數據上高效微調IRG流程。大量實驗展示了其在多項指標上的領先性能,在GenEval、WISE、TIIF、GenAI-Bench及OneIG-EN上實現了5至10個百分點的絕對提升,同時在視覺質量與細粒度保真度上取得了顯著改善。代碼、模型權重及數據集將發佈於:https://github.com/Osilly/Interleaving-Reasoning-Generation。
我們推出UniVerse-1,這是一個類似Veo-3的統一模型,能夠同時生成協調的音頻和視頻。為了提升訓練效率,我們跳過了從零開始的訓練,而是採用了專家拼接(SoE)技術。這種方法深度融合了預訓練視頻和音樂生成專家模型的相應模塊,從而充分利用了它們的基礎能力。為了確保環境音和語音與視頻內容的準確註釋和時間對齊,我們開發了一個在線註釋流程,該流程在訓練過程中處理所需的訓練數據並生成標籤。這一策略避免了基於文本的註釋不準確常導致的性能下降。通過這些技術的協同作用,我們的模型在約7,600小時的音視頻數據上進行微調後,能夠生成環境音時音視頻協調良好、語音生成時對齊精確的結果。為了系統地評估我們提出的方法,我們引入了Verse-Bench,這是一個新的基準數據集。為了推動音視頻生成領域的研究並縮小與Veo3等最先進模型的性能差距,我們公開了我們的模型和代碼。我們希望這一貢獻能惠及更廣泛的研究社區。項目頁面:https://dorniwang.github.io/UniVerse-1/。
文本到圖像(T2I)生成旨在從文字提示中合成圖像,這些提示共同指定了必須展示的內容並暗示了可推斷的資訊,從而對應於兩個核心能力:構圖與推理。然而,隨著T2I模型在超越構圖的推理能力上取得新進展,現有的基準測試在提供跨這些能力及各自內部的全面評估方面顯露出明顯的局限性。同時,這些進步也使模型能夠處理更複雜的提示,而當前的基準測試仍局限於低場景密度和簡化的一對一推理。為解決這些限制,我們提出了T2I-CoReBench,這是一個全面且複雜的基準測試,旨在評估T2I模型的構圖與推理能力。為確保全面性,我們圍繞場景圖元素(實例、屬性和關係)來組織構圖,並基於哲學推理框架(演繹、歸納和溯因)來組織推理,形成了一個12維的評估分類體系。為增加複雜性,受現實世界場景固有複雜性的驅動,我們為每個提示精心設計了高構圖密度以評估構圖能力,以及多步推理以評估推理能力。我們還為每個提示配備了一份檢查清單,其中列出了個別的“是/否”問題,以獨立評估每個預期元素,從而促進細緻且可靠的評估。統計數據顯示,我們的基準測試包含1,080個具有挑戰性的提示和約13,500個檢查清單問題。對27個當前T2I模型的實驗表明,在複雜的高密度場景中,它們的構圖能力仍然有限,而推理能力作為一個關鍵瓶頸更為落後,所有模型在從提示中推斷隱含元素時都面臨困難。我們的項目頁面:https://t2i-corebench.github.io/。
大型語言模型(LLMs)與自動定理證明的整合展現了巨大的潛力,但這一整合從根本上受到訓練時強化學習(RL)和推理時計算資源擴展的雙重挑戰所限制。本文介紹了BFS-Prover-V2系統,旨在解決這一雙重擴展問題。我們提出了兩項主要創新。第一項是針對訓練時持續提升LLM步驟證明器性能的新型多輪次離策略RL框架。該框架受AlphaZero原理啟發,採用多階段專家迭代管道,結合自適應戰術級數據過濾和定期重訓練,以克服通常限制基於LLM的代理長期RL的性能瓶頸。第二項創新是規劃器增強的多代理搜索架構,用於在推理時擴展推理能力。該架構利用通用推理模型作為高層次規劃器,迭代地將複雜定理分解為一系列更簡單的子目標。這種分層方法大幅縮小了搜索空間,使一組並行證明代理能夠通過共享證明緩存高效協作。我們證明,這種雙重擴展方法在已建立的正式數學基準測試中取得了最先進的成果。BFS-Prover-V2在MiniF2F和ProofNet測試集上分別達到了95.08%和41.4%的成績。雖然這些RL和推理技術在正式數學領域中得到了展示,但它們具有更廣泛的應用價值,可應用於其他需要長視野多輪次推理和複雜搜索的領域。
為大型語言模型(LLMs)配備複雜交錯的推理與工具使用能力,已成為代理型人工智慧研究的關鍵焦點,尤其是在近期以推理為導向(「思考型」)模型取得進展的背景下。此類能力對於解鎖多項重要應用至關重要。其中一項應用便是深度研究(Deep Research, DR),它要求對眾多來源進行廣泛的搜索與推理。本文的工作聚焦於開發具備最小化網絡爬取與Python工具整合的原生自主單代理模型,專為深度研究設計。與多代理系統不同,在後者中,代理承擔預定義角色並在靜態工作流程的每一步接受指令,而自主單代理則根據上下文動態決定其下一步行動,無需人工指示。儘管先前的研究已提出了針對基礎或指令微調LLMs的訓練方案,我們則專注於推理優化模型的持續強化學習(RL),以進一步提升代理技能,同時保持推理能力。為此,我們提出了一種完全基於合成數據的簡單RL方案,並將其應用於多種開源LLMs。我們的最佳變體SFR-DR-20B在「人類最後的考試」基準測試中達到了最高28.7%的成績。此外,我們還進行了關鍵的分析實驗,以更深入地理解我們的方法論。
測試時擴展(Test-time scaling)通過允許模型生成更長的推理鏈來增加推理階段的計算量,並在多個領域展現出強勁的性能。然而,在本研究中,我們發現這種方法對於知識密集型任務尚未有效,這類任務要求高事實準確性和低幻覺率。我們使用12個推理模型在兩個知識密集型基準上進行了全面的測試時擴展評估。結果顯示,增加測試時計算並不能一致性地提升準確性,且在許多情況下,反而導致更多幻覺。我們進一步分析了延長推理如何影響幻覺行為。發現幻覺的減少往往源於模型在深入思考後選擇放棄回答,而非事實回憶能力的提升。相反,對於某些模型,更長的推理會激勵其嘗試回答之前未答的問題,其中許多回答會產生幻覺。案例研究表明,延長推理可能誘發確認偏誤,導致過度自信的幻覺。儘管存在這些限制,我們觀察到,與不進行思考相比,啟用思考仍是有益的。代碼和數據可在https://github.com/XuZhao0/tts-knowledge獲取。
大型语言模型(LLMs)在各类应用中的整合,催生了对结构化且可靠响应的需求。检索增强生成(RAG)系统面临的一个核心挑战,在于确保输出符合预期格式的同时,最大限度地减少幻觉现象。本研究探讨了引导解码在RAG系统中的作用,通过对比三种方法——大纲法、XGrammar法及LM格式强制法——在不同多轮提示设置(零轮、一轮及两轮)下的表现,评估了成功率、幻觉率及输出质量,从而深入剖析了它们的性能与适用性。我们的研究揭示了多轮交互如何影响引导解码,发现了意料之外的性能差异,这些发现为特定应用场景下的方法选择提供了依据。本工作深化了对RAG系统中结构化输出生成的理解,为LLM的部署提供了理论洞见与实践指导。
網絡迷因中的黑色幽默因其依賴於隱含、敏感且具有文化背景的線索而帶來獨特挑戰。為解決多模態內容中黑色幽默檢測資源與方法的不足,我們引入了一個包含4,379個Reddit迷因的新數據集,這些迷因已針對黑色幽默、目標類別(性別、心理健康、暴力、種族、殘疾及其他)以及三級強度評分(輕微、中等、嚴重)進行了標註。基於此資源,我們提出了一種推理增強框架,該框架首先利用大型視覺-語言模型(VLM)為每個迷因生成結構化解釋。通過角色反轉自循環,VLM從作者視角出發,迭代精煉其解釋,確保完整性和一致性。隨後,我們從OCR轉錄文本及自我精煉的推理中提取文本特徵,同時使用視覺變換器獲取視覺特徵。三流交叉推理網絡(TCRNet)通過成對注意力機制融合這三個流——文本、圖像和推理,生成用於分類的統一表示。實驗結果表明,我們的方法在三個任務上均優於強基線:黑色幽默檢測、目標識別及強度預測。數據集、註釋及代碼已公開,以促進多模態幽默理解與內容審核的進一步研究。代碼與數據集可訪問: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
我們推出Llama-GENBA-10B,這是一個三語基礎模型,旨在解決大型語言模型中的英語中心偏見。該模型基於Llama 3.1-8B構建,並擴展至100億參數,持續預訓練於1640億個詞元(820億英語、820億德語及8000萬巴伐利亞語),在平衡資源分配的同時防止英語主導。針對德語自然語言處理社群,此模型亦致力於推廣巴伐利亞語這一低資源語言。開發過程中克服了四大挑戰:(1)在巴伐利亞語稀缺的情況下策劃多語料庫,(2)創建適用於英語、德語及巴伐利亞語的統一化分詞器,(3)優化架構與語言比例超參數以促進跨語言遷移,以及(4)通過將德語基準翻譯成巴伐利亞語,建立首個標準化三語評估套件。評估結果顯示,Llama-GENBA-10B展現出卓越的跨語言性能,其微調版本在巴伐利亞語上超越Apertus-8B-2509與gemma-2-9b,成為該語言類別中的最佳模型,同時在英語上優於EuroLLM,並在德語上與之匹敵。在Cerebras CS-2上的訓練展示了高效的大規模多語言預訓練,並記錄了能源使用情況,為整合低資源語言的包容性基礎模型提供了藍圖。
基于拖拽的图像编辑已成为一种直观图像处理的有力范式。然而,现有方法主要依赖于生成模型的潜在空间操作,导致精度受限、反馈延迟以及模型特定的限制。为此,我们提出了Inpaint4Drag,一个将基于拖拽的编辑分解为像素空间双向扭曲与图像修复的新颖框架。受物理世界中弹性物体变形的启发,我们将图像区域视为可变形材料,在用户操作下保持自然形状。我们的方法在512x512分辨率下实现了实时扭曲预览(0.01秒)和高效修复(0.3秒),相较于现有方法每次编辑需耗时数分钟,显著提升了交互体验。通过将拖拽输入直接转换为标准修复格式,我们的方法无需修改架构即可作为任何修复模型的通用适配器,自动继承修复技术未来的所有改进。大量实验证明,我们的方法在保持实时性能的同时,实现了卓越的视觉质量与精确控制。项目页面:https://visual-ai.github.io/inpaint4drag/
在本立場文件中,我們探討了快速增長的AI能力與滯後的安全進展之間持續存在的差距。現有範式分為「使AI安全」,即應用事後對齊和防護措施,但仍顯脆弱和被動;以及「製造安全AI」,強調內在安全性,卻難以應對開放環境中的未知風險。因此,我們提出「安全共演化」作為「製造安全AI」範式的新構想,靈感來自生物免疫系統,其中安全性成為一個動態、對抗且持續的學習過程。為實現這一願景,我們引入了R^2AI——抗性與韌性AI——作為一個實用框架,它結合了對已知威脅的抵抗力和對未知風險的韌性。R^2AI整合了快速與慢速安全模型、通過安全風洞進行的對抗模擬與驗證,以及引導安全性和能力共同演化的持續反饋循環。我們認為,這一框架提供了一條可擴展且主動的路徑,以在動態環境中維持持續的安全性,應對AI向AGI和ASI邁進過程中既有的短期脆弱性和長期的存在性風險。
視覺-語言-動作(VLA)模型是實現通用型具身代理的一條充滿前景的道路,這些代理能夠快速適應新任務、模態和環境。然而,解釋和引導VLA模型的方法遠遠落後於基於明確運動學、動力學和控制模型的傳統機器人技術流程。這種機制性洞察的缺乏,是在現實世界機器人中部署學習策略的核心挑戰,其中魯棒性和可解釋性至關重要。受大型語言模型機制可解釋性進展的啟發,我們首次引入了一個通過內部表示來解釋和引導VLA模型的框架,使得在推理時能夠直接干預模型行為。我們將變壓器層中的前饋激活投影到詞元嵌入基上,識別出與動作選擇因果相關的稀疏語義方向——如速度和方向。基於這些發現,我們提出了一種通用的激活引導方法,該方法能夠實時調節行為,無需微調、獎勵信號或環境交互。我們在兩個最新的開源VLA模型——Pi0和OpenVLA上評估了這一方法,並在模擬環境(LIBERO)和物理機器人(UR5)上展示了零樣本行為控制。這項工作表明,具身VLA模型的可解釋組件可以被系統性地用於控制——為機器人領域中透明且可引導的基礎模型建立了一種新範式。
爲了提升GUI代理在智能手機和電腦等多種平臺上的效率,一種結合靈活GUI操作與高效快捷方式(如API、深度鏈接)的混合範式正成爲一個頗具前景的研究方向。然而,系統性地對這些混合代理進行基準測試的框架仍未被充分探索。爲了邁出填補這一空白的第一步,我們引入了MAS-Bench,這是一個專注於移動領域、率先評估GUI-快捷方式混合代理的基準測試平臺。MAS-Bench不僅僅評估代理使用預定義快捷方式的能力,還着重評估其通過發現和創建可重複、低成本的工作流來自主生成快捷方式的能力。該基準測試平臺涵蓋了11個真實應用中的139個複雜任務,包含88個預定義快捷方式的知識庫(API、深度鏈接、RPA腳本),以及7個評估指標。這些任務設計爲僅通過GUI操作即可完成,但通過智能嵌入快捷方式可以顯著加速完成過程。實驗表明,混合代理相比僅依賴GUI操作的代理,在成功率和效率上均有顯著提升。這一結果也證明了我們評估代理快捷方式生成能力方法的有效性。MAS-Bench填補了一個關鍵的評估空白,爲未來創建更高效、更穩健的智能代理提供了基礎平臺。
如CLIP等视觉-语言模型(VLMs)已在多种应用中展现了卓越的零样本与少样本学习能力。然而,由于对提示工程的依赖及全模型微调的高昂成本,将这些模型适应于新的细粒度领域仍具挑战。现有适应方法依赖于增强组件,如提示令牌与适配器模块,这可能会限制适应质量,导致模型不稳定,并损害预训练期间习得的丰富知识。本研究提出CLIP-SVD,一种创新的多模态且参数高效的适应技术,它利用奇异值分解(SVD)在不引入额外模块的情况下调整CLIP内部参数空间。具体而言,我们仅微调CLIP参数矩阵的奇异值,以重新缩放基向量实现领域适应,同时保留预训练模型。这一设计仅需模型总参数的0.04%,即可提升适应性能,并更好地保持其泛化能力。CLIP-SVD在11个自然领域和10个生物医学数据集上取得了最先进的分类结果,在少样本设置下的准确率与泛化性均优于先前方法。此外,我们采用基于自然语言的方法分析CLIP适应的有效性与动态性,以实现CLIP-SVD的可解释性。代码已公开于https://github.com/HealthX-Lab/CLIP-SVD。
高質量且邏輯嚴密的數據稀缺,是提升大型語言模型(LLMs)數學推理能力的關鍵瓶頸。我們的工作直面這一挑戰,將數十年來自動定理證明的研究成果轉化為可擴展的數據引擎。與依賴易出錯的LLMs或Lean、Isabelle等複雜證明助手語法不同,我們的框架利用E-prover在龐大TPTP公理庫上的飽和能力,推導出一個大規模且保證有效的定理語料庫。我們的流程原則明確且簡潔:飽和公理,篩選“有趣”定理,並生成任務。由於全程不涉及LLMs,我們從根本上避免了事實錯誤。這份純符號化的數據隨後被轉化為三個難度可控的挑戰:蘊涵驗證、前提選擇和證明重建。我們在尖端模型上的零樣本實驗揭示了一個明顯的弱點:在需要深度結構推理的任務上,模型表現急劇下降。我們的框架不僅提供了衡量這一差距的診斷工具,還提供了一個可擴展的符號訓練數據源來彌補這一不足。我們已將代碼和數據公開。 https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
LiDAR点云配准是机器人感知与导航的基础。然而,在几何退化或狭窄的环境中,配准问题会变得病态,导致解的不稳定和精度下降。尽管现有方法尝试处理这些问题,但未能解决核心挑战:准确检测、解释并解决这种病态性,从而导致漏检或解的质量受损。在本研究中,我们提出了DCReg,一个通过三项集成创新系统性地解决病态配准问题的原则性框架。首先,DCReg通过采用Schur补分解对Hessian矩阵进行处理,实现了可靠的病态性检测。该技术将配准问题解耦为干净的旋转和平移子空间,消除了传统分析中掩盖退化模式的耦合效应。其次,在这些干净的子空间内,我们开发了定量表征技术,建立了数学特征空间与物理运动方向之间的明确映射,为哪些具体运动缺乏约束提供了可操作的见解。最后,利用这一干净的子空间,我们设计了一种有针对性的缓解策略:一种新颖的预处理器,它选择性地仅稳定已识别的病态方向,同时保留可观测空间中所有良好约束的信息。这使得通过具有单一物理可解释参数的预条件共轭梯度法实现高效且鲁棒的优化成为可能。大量实验表明,DCReg在多种环境下的定位精度比现有最先进方法提高了至少20%至50%,速度提升了5至100倍。我们的实现将发布于https://github.com/JokerJohn/DCReg。