每日精選AI研究論文及翻譯
基於大型語言模型(LLM)的列表排序在許多段落排序任務中展現了卓越的性能。隨著大型推理模型的發展,許多研究已證明在測試時進行逐步推理有助於提升列表排序的效果。然而,由於缺乏推理密集型的訓練數據,現有的重排序器在許多複雜排序場景中表現不佳,且推理密集型重排序器的排序能力仍顯著不足。本文首先提出了一種自動化的推理密集型訓練數據合成框架,該框架從多個領域獲取訓練查詢和段落,並應用DeepSeek-R1生成高質量的訓練標籤。我們設計了一種自洽數據過濾機制,以確保數據質量。為了賦予列表重排序器強大的推理能力,我們進一步提出了一種兩階段後訓練方法,包括一個用於推理模式學習的冷啟動監督微調(SFT)階段,以及一個用於進一步提升排序能力的強化學習(RL)階段。在RL階段,基於列表排序的特性,我們設計了一種多視角排序獎勵,其效果優於基於排序指標的獎勵。大量實驗表明,我們訓練的推理密集型重排序器ReasonRank顯著超越了現有基線,並且比點排序器Rank1具有更低的延遲。通過進一步實驗,我們的ReasonRank在BRIGHT排行榜上達到了40.6的頂尖性能(SOTA)。我們的代碼已開源於https://github.com/8421BCD/ReasonRank。
從專業研究到日常規劃,許多任務都受制於大規模信息檢索的瓶頸,這種工作往往重複性高而非認知複雜。隨著大型語言模型(LLMs)的快速發展,基於LLMs的自動搜索代理為解放人類於此類繁瑣工作提供了潛在解決方案。然而,這些代理在執行“廣上下文”信息收集時的可靠性和完整性仍缺乏充分評估,主要由於合適的基準測試缺失。為填補這一空白,我們推出了WideSearch,一個專為評估代理在大規模收集任務中可靠性而設計的新基準。該基準包含200道手工挑選的問題(100道英文,100道中文),涵蓋超過15個不同領域,基於真實用戶查詢。每項任務要求代理收集大規模原子信息,這些信息可逐一客觀驗證,並整理成結構化輸出。通過嚴格的五階段質量控制流程,確保了數據集的難度、完整性和可驗證性。我們對超過10種頂尖的代理搜索系統進行了基準測試,包括單代理、多代理框架及端到端商業系統。大多數系統的總體成功率接近0%,表現最佳者僅達5%。然而,若給予充足時間,多位人類測試者的交叉驗證可實現接近100%的成功率。這些結果表明,現有搜索代理在大規模信息檢索方面存在顯著不足,凸顯了代理搜索未來研究與開發的緊迫領域。我們的數據集、評估流程及基準測試結果已公開發佈於https://widesearch-seed.github.io/。
近期大型语言模型的进展,激起了人们对能够解决复杂现实任务的人工智能代理日益浓厚的兴趣。然而,现有的大多数代理系统依赖于手动配置,这些配置在部署后保持静态,限制了其适应动态变化环境的能力。为此,近期的研究探索了旨在基于交互数据与环境反馈自动增强代理系统的进化技术。这一新兴方向为自进化AI代理奠定了基础,它连接了基础模型的静态能力与终身代理系统所需的持续适应性。在本综述中,我们对现有的自进化代理系统技术进行了全面回顾。具体而言,我们首先引入了一个统一的概念框架,该框架抽象出自进化代理系统设计背后的反馈循环。该框架突出了四个关键组成部分:系统输入、代理系统、环境与优化器,作为理解和比较不同策略的基础。基于此框架,我们系统地回顾了针对代理系统不同组件的多种自进化技术。我们还探讨了为生物医学、编程和金融等专门领域开发的特定领域进化策略,其中优化目标与领域约束紧密耦合。此外,我们专门讨论了自进化代理系统的评估、安全与伦理考量,这对于确保其有效性和可靠性至关重要。本综述旨在为研究人员与实践者提供对自进化AI代理的系统性理解,为开发更具适应性、自主性和终身性的代理系统奠定基础。
視覺特效(VFX)是現代電影製作中不可或缺的視覺增強手段。儘管視頻生成模型為VFX製作提供了成本效益高的解決方案,但現有方法受限於針對單一特效的LoRA訓練,這限制了生成僅能應用於單一特效。這一根本性限制阻礙了需要空間可控複合特效的應用,即在指定位置同時生成多種特效。然而,將多樣特效整合到統一框架中面臨重大挑戰:特效變化的干擾以及多VFX聯合訓練中的空間不可控性。為應對這些挑戰,我們提出了Omni-Effects,這是首個能夠生成提示引導特效及空間可控複合特效的統一框架。我們框架的核心包含兩項關鍵創新:(1) 基於LoRA的專家混合模型(LoRA-MoE),它採用一組專家LoRA,在統一模型中整合多樣特效,同時有效減輕跨任務干擾。(2) 空間感知提示(SAP)將空間掩碼信息融入文本標記,實現精確的空間控制。此外,我們在SAP中引入了獨立信息流(IIF)模塊,隔離與各特效對應的控制信號,防止任何不期望的混合。為推動此研究,我們通過結合圖像編輯與首尾幀到視頻(FLF2V)合成的新穎數據收集管道,構建了全面的VFX數據集Omni-VFX,並引入專用的VFX評估框架以驗證模型性能。大量實驗證明,Omni-Effects實現了精確的空間控制與多樣特效生成,使用戶能夠指定所需特效的類別及位置。
深度研究代理,即整合大型语言模型(LLMs)与搜索工具的系统,在提升处理复杂查询的效率方面已展现出显著成效,这些查询往往需要迭代的搜索规划及对搜索结果的推理。当前基准测试如BrowseComp依赖于黑箱式的实时网络搜索API,存在明显局限:(1)公平性方面,动态且不透明的网络API阻碍了深度研究方法的公平比较与可复现性;(2)透明度方面,对文档库缺乏控制,难以分离检索器的贡献。换言之,现有评估虽能在特定时间点比较完整的深度研究系统,却未能促进受控实验,以深入理解底层深度研究LLMs的能力。针对这些挑战,我们推出了BrowseComp-Plus,一个基于BrowseComp的基准测试,采用固定且精心筛选的文档库。BrowseComp-Plus中的每个查询均包含人工验证的支持文档及挖掘出的挑战性负例,便于进行受控实验。该基准测试在区分深度研究系统性能方面表现出色。例如,开源模型Search-R1搭配BM25检索器时,准确率为3.86%,而GPT-5则达到55.9%。将GPT-5与Qwen3-Embedding-8B检索器结合,其准确率进一步提升至70.1%,且搜索调用次数减少。此基准测试支持对深度研究代理及检索方法的全面评估与解耦分析,促进了对检索效率、引用准确性及深度研究系统中上下文工程设计的深入洞察。
推理是實現目的性行動的核心,然而大多數機器人基礎模型將感知與指令直接映射至控制,這限制了其適應性、泛化能力及語義基礎。我們引入了行動推理模型(Action Reasoning Models, ARMs),這是一類視覺-語言-行動模型,通過結構化的三階段流程整合感知、規劃與控制。我們的模型MolmoAct將觀察與指令編碼為深度感知的標記,生成可編輯的中層空間規劃作為軌跡痕跡,並預測精確的低層行動,從而實現可解釋且可操控的行為。MolmoAct-7B-D在模擬與現實環境中均表現出色:在SimplerEnv視覺匹配任務中達到70.5%的零樣本準確率,超越閉源的Pi-0與GR00T N1;在LIBERO上平均成功率達86.6%,包括在長時程任務上較ThinkAct額外提升6.3%;在現實世界的微調中,單臂任務進展較Pi-0-FAST提升10%,雙臂任務提升22.7%。此外,在分佈外泛化上,它較基準模型額外提升23.3%,並在開放式指令跟隨與軌跡操控上獲得最高的人類偏好評分。更進一步,我們首次發布了MolmoAct數據集——一個包含超過10,000條高質量機器人軌跡的中期訓練數據集,涵蓋多樣場景與任務。使用此數據集訓練,相較基礎模型,整體性能平均提升5.5%。我們公開了所有模型權重、訓練代碼、收集的數據集及行動推理數據集,確立MolmoAct不僅為頂尖的機器人基礎模型,更為構建ARMs提供了一個開放藍圖,通過結構化推理將感知轉化為目的性行動。博客文章:https://allenai.org/blog/molmoact
我們介紹了Klear-Reasoner,這是一個具備長程推理能力的模型,在解決問題時展現出細緻的思考過程,並在多項基準測試中取得了卓越的成績。儘管當前學術界已有許多與推理模型相關的優秀工作,但由於訓練細節的不完全公開,複現高性能推理模型仍存在諸多問題。本報告深入分析了推理模型,涵蓋了從數據準備、長鏈思維監督微調(long CoT SFT)到強化學習(RL)的整個訓練後工作流程,並對每個實驗組件進行了詳細的消融研究。對於SFT數據,我們的實驗表明,少量高質量的數據源比大量多樣化的數據源更為有效,且困難樣本在不進行準確率篩選的情況下也能取得更好的結果。此外,我們探討了當前RL中剪裁機制的兩個關鍵問題:剪裁抑制了關鍵的探索信號,並忽略了次優軌跡。為應對這些挑戰,我們提出了梯度保留剪裁策略優化(GPPO),該方法從剪裁的標記中溫和地反向傳播梯度。GPPO不僅增強了模型的探索能力,還提高了其從負樣本中學習的效率。Klear-Reasoner在數學和編程方面展現出非凡的推理能力,在AIME 2024上得分90.5%,在AIME 2025上得分83.2%,在LiveCodeBench V5上得分66.0%,在LiveCodeBench V6上得分58.1%。
近期提出的大型概念模型(LCM)通过预测句子级嵌入序列,并采用均方误差或扩散目标进行训练来生成文本。我们介绍了SONAR-LLM,这是一种仅含解码器的Transformer模型,它在相同的连续SONAR嵌入空间中“思考”,但通过冻结的SONAR解码器传播的令牌级交叉熵进行监督。这种混合目标保留了LCM的语义抽象,同时消除了其扩散采样器,并恢复了基于似然的训练信号。在参数量从3900万到13亿的模型规模范围内,SONAR-LLM均展现出具有竞争力的生成质量。我们报告了扩展趋势、消融实验、基准测试结果,并公开了完整的训练代码及所有预训练检查点,以促进可重复性和未来研究。
基於大型語言模型(LLMs)的智能體在推理與工具使用方面取得了顯著進展,使其能夠解決複雜任務。然而,這些智能體在主動與用戶協作方面的能力,尤其是在目標模糊、動態變化或間接表達的情況下,仍未被充分探索。為填補這一空白,我們引入了UserBench,這是一個以用戶為中心的基準測試,旨在評估智能體在多輪次、偏好驅動的互動中的表現。UserBench模擬了初始目標不明確並逐步揭示偏好的用戶,要求智能體主動澄清意圖並基於工具做出有根據的決策。我們對領先的開源與閉源LLMs進行評估,發現任務完成度與用戶對齊度之間存在顯著脫節。例如,模型提供的答案平均僅有20%的時間完全符合所有用戶意圖,即使是最先進的模型,通過主動互動也僅能揭示不到30%的用戶偏好。這些結果凸顯了構建不僅是高效任務執行者,更是真正協作夥伴的智能體所面臨的挑戰。UserBench提供了一個互動環境,用以衡量並推進這一關鍵能力。
強化學習在大型語言模型推理中的應用已迅速崛起,成為一個顯著的研究領域,相關研究在算法創新與實際應用方面均呈現顯著增長。儘管取得了一定進展,但仍存在若干關鍵挑戰,包括缺乏運用強化學習技術的標準化指南,以及對其內在機制的理解尚顯零散。此外,實驗設置的不一致、訓練數據的變異以及模型初始化的差異,導致了相互矛盾的結論,模糊了這些技術的核心特徵,並使實踐者在選擇合適技術時感到困惑。本文通過在統一的開源框架內進行嚴謹的複現與獨立評估,系統性地回顧了廣泛採用的強化學習技術。我們通過細粒度實驗,包括不同難度的數據集、模型規模與架構,分析了每種技術的內部機制、適用場景與核心原則。基於這些洞察,我們為特定設置量身定制了選擇強化學習技術的清晰指南,並為實踐者在大型語言模型領域中探索強化學習提供了可靠的路線圖。最後,我們揭示了一種極簡的技術組合,能夠利用標準PPO損失解鎖無評論者策略的學習能力。結果表明,我們的簡單組合持續提升了性能,超越了如GRPO與DAPO等策略。
近期在強化學習(RL)與視覺智能交叉領域的進展,使得智能體不僅能感知複雜的視覺場景,還能進行推理、生成並在其中行動。本調查提供了該領域的批判性與最新綜合分析。我們首先形式化了視覺RL問題,並追溯了從RLHF到可驗證獎勵範式,以及從近端策略優化到群組相對策略優化的策略優化策略演變。接著,我們將超過200項代表性工作歸納為四大主題支柱:多模態大型語言模型、視覺生成、統一模型框架及視覺-語言-行動模型。針對每一支柱,我們探討了算法設計、獎勵工程、基準測試進展,並提煉出諸如課程驅動訓練、偏好對齊擴散及統一獎勵建模等趨勢。最後,我們回顧了涵蓋集合級保真度、樣本級偏好及狀態級穩定性的評估協議,並指出了包括樣本效率、泛化能力及安全部署在內的開放挑戰。我們的目標是為研究人員與實踐者提供一幅視覺RL快速擴展版圖的連貫地圖,並強調未來探索的潛在方向。相關資源可於以下網址獲取:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。
大型語言模型(LLMs)通過遵循檢索-閱讀範式的檢索增強生成(RAG)技術,展現了生成性能的提升,該技術通過外部檢索的知識來補充模型輸入。然而,先前的研究往往對RAG進行整體評估,將檢索器與閱讀器聯合考量,這使得難以孤立地評估檢索的真實貢獻,尤其是在使用LLMs作為閱讀器時,其對提示的敏感性更為突出。我們引入了光譜投影分數(SPS),這是一種輕量級、無需監督的度量方法,它允許閱讀器通過比較由摘要生成的詞彙所形成的區域與閱讀器子空間的主方向,來衡量檢索摘要與其隱藏表徵的語義對齊程度,從而評估相關性。基於SPS,我們提出了xCompress,這是一個推理時間控制器框架,能夠動態地採樣、排序並壓縮檢索摘要候選項。在五個問答基準測試和四種開源LLMs上的廣泛實驗表明,SPS不僅提升了一系列任務的性能,還為檢索與生成之間的互動提供了原則性的視角。
專家混合(Mixture of Experts, MoE)架構是現代頂尖大規模語言模型(Large Language Models, LLMs)的基石。MoE模型通過稀疏參數激活實現了可擴展性。然而,傳統的MoE架構使用同質且大小一致的專家,無論輸入複雜度如何,均激活固定數量的參數,從而限制了計算效率。為克服這一限制,我們引入了Grove MoE,這是一種受異構big.LITTLE CPU架構啟發、包含不同大小專家的新穎架構。該架構具有動態激活機制的伴隨專家,能在保持可控計算開銷的同時擴展模型容量。基於此架構,我們提出了GroveMoE-Base和GroveMoE-Inst,這兩個33B參數的LLM模型是在Qwen3-30B-A3B-Base模型的中期訓練和後期訓練中應用升級策略開發而成。GroveMoE模型根據令牌複雜度動態激活3.14至3.28B參數,並實現了與相似甚至更大規模的頂尖開源模型相當的性能。
大型语言模型在抽象推理方面表现出色,但其在具身代理推理方面的能力仍待深入探索。本文提出了OmniEAR,一个全面评估语言模型在具身任务中如何推理物理交互、工具使用及多智能体协调的框架。与现有提供预定义工具集或明确协作指令的基准不同,OmniEAR要求智能体根据任务需求动态获取能力并自主确定协调策略。通过基于文本的环境表示,我们在涵盖家庭和工业领域的1500个场景中,模拟了连续的物理属性和复杂的空间关系。系统性评估显示,当模型必须从约束条件进行推理时,性能显著下降:在明确指令下成功率可达85-96%,而在工具推理和隐式协作中分别降至56-85%和63-85%,复合任务的失败率更是超过50%。令人意外的是,完整的环境信息反而降低了协调性能,表明模型无法筛选出与任务相关的约束。微调虽大幅提升了单智能体任务的表现(从0.6%提升至76.3%),但对多智能体任务的改善微乎其微(仅从1.5%提升至5.5%),揭示了基础架构的局限性。这些发现表明,具身推理提出了与当前模型所能应对的根本不同的挑战,确立了OmniEAR作为评估和推进具身AI系统的严格基准。我们的代码和数据已包含在补充材料中,并将在论文被接受后开源。
自我獎勵語言模型提出了一種架構,其中大型語言模型(LLMs)不僅生成回應,還通過LLM-as-a-Judge提示來評估其自身輸出,並通過迭代的直接偏好優化(DPO)動態提升其生成能力。然而,我們的分析揭示了現有自我獎勵範式中的一個關鍵限制:被選中和被拒絕回應的同步改進逐漸縮小了對比樣本之間的表示差異,從而削弱了有效的偏好學習。我們提出了時間性自我獎勵語言模型,該模型策略性地協調過去、現在和未來的模型生成,以維持學習信號。我們的雙階段框架引入了:(1)錨定拒絕——使用過去初始模型的輸出固定被拒絕的回應,以及(2)未來引導選擇——使用下一代模型的預測動態策劃被選中的樣本。在三個模型家族(Llama、Qwen、Mistral)和不同模型大小(Llama3B/8B/70B)上的廣泛實驗表明,與使用相同計算資源的自我獎勵方法相比,採用我們的方法訓練的模型有顯著提升。例如,Llama3.1-8B在AlpacaEval 2.0上達到了29.44的勝率,比自我獎勵基線(19.69)高出9.75。值得注意的是,我們的方法在數學推理(GSM8K)、基於知識的問答(ARC、TruthfulQA)和代碼生成(HumanEval)任務上也展現了優異的分佈外泛化能力,儘管我們並未專門收集此類訓練數據。
大型推理模型通过测试时的规模扩展实现了强劲的性能,但同时也带来了显著的计算开销,尤其是在处理简短输入提示时因生成过多令牌而加剧。尽管稀疏注意力机制能够降低延迟和内存使用,现有方法由于在长序列推理过程中累积的错误而遭受显著的准确度下降。这些方法通常需要高令牌保留率或昂贵的重新训练。我们引入了LessIsMore,一种无需训练的稀疏注意力机制,专为推理任务设计,它利用全局注意力模式而非依赖传统的针对特定头的局部优化。LessIsMore通过整合来自局部注意力头的令牌选择与最近的上下文信息,实现了对未来解码层的统一跨头令牌排序。这种统一选择通过避免为每个头维护独立的令牌子集,提升了泛化能力和效率。在多种推理任务和基准测试中的评估显示,LessIsMore不仅保持了——在某些情况下还提高了——准确度,同时相比全注意力机制实现了1.1倍的解码速度提升。此外,LessIsMore关注了2倍少的令牌而不损失准确度,与现有稀疏注意力方法相比,实现了1.13倍的端到端速度提升。
在大型數據集(如Open X-Embodiment, OXE)上訓練的通用機器人策略展現了在廣泛任務中的強大性能。然而,這些策略往往難以超越其訓練數據分佈進行泛化。本文探討了這種有限泛化能力的根本原因,並將捷徑學習——依賴於任務無關特徵——識別為阻礙泛化的關鍵因素。通過全面的理論與實證分析,我們揭示了捷徑學習的兩大主要成因:(1) 個別子數據集內的多樣性有限,以及(2) 子數據集間顯著的分佈差異,導致數據集碎片化。這些問題源於如OXE等大型數據集的固有結構,這些數據集通常由在多樣環境和實體中獨立收集的多個子數據集組成。我們的研究成果為減少捷徑學習、提升通用機器人策略泛化能力的數據集收集策略提供了關鍵見解。此外,在獲取新的大規模數據不切實際的情況下,我們展示了精心選擇的機器人數據增強策略能有效減少現有離線數據集中的捷徑學習,從而提升通用機器人策略(例如pi_0)在模擬與現實環境中的泛化能力。更多資訊請訪問https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/。
尽管近期的基于流的图像编辑模型展现了跨多种任务的通用能力,但在处理具有挑战性的场景时,尤其是涉及大规模形状变换的情况,这些模型往往难以专精。在执行此类结构性编辑时,这些方法要么未能实现预期的形状改变,要么无意中改变了非目标区域,导致背景质量下降。我们提出了“随形而动”(Follow-Your-Shape),一个无需训练且无需掩码的框架,支持精确且可控的对象形状编辑,同时严格保护非目标内容。受反转与编辑轨迹间差异的启发,我们通过比较反转路径与去噪路径间逐令牌的速度差异,计算出一个轨迹差异图(Trajectory Divergence Map, TDM)。TDM能够精确定位可编辑区域,并指导一个预定的键值注入机制(Scheduled KV Injection),确保编辑过程的稳定性和忠实性。为了促进严谨的评估,我们引入了ReShapeBench,这是一个包含120张新图像及丰富提示对的新基准,专门为形状感知编辑而设计。实验表明,我们的方法在可编辑性和视觉保真度上均表现出色,特别是在需要大规模形状替换的任务中。
混合專家(Mixture-of-Experts, MoE)架構已成為擴展大型語言模型(LLMs)的主流範式。儘管MoE架構在性能和計算效率方面表現出色,但如DeepSeek-V3-0324和Kimi-K2-Instruct等基於MoE的大型語言模型在部署時面臨著巨大的記憶體需求挑戰。雖然近期研究探索了MoE壓縮以解決此問題,但現有方法即使在較低的壓縮率下也往往伴隨著顯著的準確率下降(例如相對下降7-14%)。本文提出了一種新穎的混合基底專家(Mixture-of-Basis-Experts, MoBE)方法,該方法在實現模型壓縮的同時,僅帶來極小的準確率下降。具體而言,每個專家中的上/門控矩陣通過秩分解被分解為W = AB,其中矩陣A對每個專家是獨特的。相對較大的矩陣B進一步被重新參數化為基底矩陣{Bi}的線性組合,這些基底矩陣在給定的MoE層中由所有專家共享。通過最小化與原始權重矩陣的重建誤差來學習此分解。實驗表明,與先前工作相比,MoBE實現了顯著更低的準確率下降。例如,MoBE能夠將Qwen3-235B-A22B-2507、DeepSeek-V3-0324(671B)和Kimi-K2-Instruct(1T)的參數數量減少24%-30%,而僅帶來1%-2%的準確率下降(相對測量時約為2%的下降)。
分類是人工智慧應用中最普遍的任務之一,通常作為過濾、排序和分類數據的第一步。由於現代人工智慧系統必須處理大量輸入數據,且早期處理階段的錯誤可能會傳播至下游,因此實現高效率和準確性至關重要。此外,分類需求可能根據用戶需求動態變化,這就需要模型具備強大的零樣本能力。雖然生成式大型語言模型(LLMs)因其多功能性已成為零樣本分類的主流方法,但它們存在指令遵循不一致和計算效率低下的問題。交叉編碼器(Cross-encoders)通常用於RAG管道中的重新排序,但面臨不同的瓶頸:它們必須按順序處理文本-標籤對,這在處理大規模標籤集時顯著降低了效率。基於嵌入的方法提供了良好的效率,但在涉及邏輯和語義約束的複雜場景中表現不佳。我們提出了GLiClass,這是一種將GLiNER架構應用於序列分類任務的新方法。我們的方法在保持與基於嵌入方法相當的準確性和效率的同時,還具備零樣本和少樣本學習場景所需的靈活性。此外,我們將近端策略優化(PPO)應用於多標籤文本分類,使得在數據稀疏條件下或基於人類反饋訓練分類器成為可能。
世界上大多數組織數據都以文檔形式存儲,而視覺檢索在從這些文檔中釋放集體智慧方面起著至關重要的作用。然而,現有的基準測試主要集中在僅限於英文的文檔檢索,或僅考慮單頁圖像上的多語言問答。為彌補這一差距,我們引入了VisR-Bench,這是一個專為長文檔中問題驅動的多模態檢索設計的多語言基準測試。我們的基準測試包含超過35,000個高質量問答對,涵蓋1,200份文檔,能夠對多模態檢索進行細粒度評估。VisR-Bench涵蓋十六種語言,包含三種問題類型(圖表、文本和表格),提供了多樣化的語言和問題覆蓋範圍。與之前的數據集不同,我們引入了沒有明確答案的查詢,防止模型依賴於表面的關鍵詞匹配。我們評估了各種檢索模型,包括基於文本的方法、多模態編碼器和多模態大語言模型(MLLMs),深入探討了它們的優勢和局限性。我們的結果表明,儘管MLLMs顯著優於基於文本和多模態編碼器的模型,但在處理結構化表格和低資源語言時仍存在困難,這凸顯了多語言視覺檢索中的關鍵挑戰。
使用思維鏈(CoT)提示的大型語言模型(LLMs)在複雜推理任務中表現出色,但生成的思維過程冗長且存在大量冗余,導致推理成本增加和效率降低。我們提出了一種基於步驟熵的新型CoT壓縮框架,該指標量化了各個推理步驟的信息貢獻,以識別冗余。通過理論分析和在數學推理基準上的廣泛實證驗證,我們證明了低熵步驟確實具有高度冗余性。我們的實驗表明,在DeepSeek-R1-7B、14B和Qwen3-8B模型上,驚人的80%低熵中間步驟可以被修剪,而對最終答案準確性的影響微乎其微。這一發現與隨機或高熵修剪形成鮮明對比,後者嚴重損害了推理性能。基於此,我們提出了一種結合監督微調(SFT)和組相對策略優化(GRPO)強化學習的兩階段訓練策略。該方法使LLMs能夠在推理過程中通過策略性地引入[SKIP]標記,自主學習生成壓縮的CoT。我們的方法顯著提高了LLM的推理效率,同時嚴格保持了準確性,為LLM的實際部署提供了深遠的影響,並加深了對推理結構的理解。
將高保真視覺合成能力整合至大型語言模型(LLMs)而不損害其強大的推理能力,這一課題日益受到關注。現有方法直接訓練LLMs或橋接LLMs與擴散模型,通常因LLMs在預訓練期間未接觸圖像表示而導致訓練成本高昂。我們提出了Bifrost-1,這是一個統一框架,利用patch級別的CLIP圖像嵌入作為潛在變量,橋接預訓練的多模態LLMs(MLLMs)與擴散模型,這些嵌入與MLLM的CLIP視覺編碼器自然對齊。這些patch級別的圖像嵌入通過輕量級改進的ControlNet整合到擴散模型中。為了保留MLLMs原有的多模態推理能力,我們在預測patch級別圖像嵌入時,為MLLM配備了一個視覺生成分支,該分支從原始MLLM參數初始化。通過無縫整合預訓練的MLLMs與擴散模型及patch級別的CLIP潛在變量,我們的框架實現了高保真可控圖像生成,並顯著提升了訓練效率。實驗表明,Bifrost-1在視覺保真度和多模態理解方面與先前方法相比,表現相當或更優,且訓練期間的計算量大幅降低。我們還提供了全面的消融研究,證明了我們設計選擇的有效性。
开放权重的AI系统提供了独特的优势,包括增强的透明度、开放的研究环境以及去中心化的访问权限。然而,它们也容易受到篡改攻击,通过修改权重或激活值,这些攻击能够高效地诱导出有害行为。目前,关于开放权重模型风险管理的科学体系尚未健全。现有的安全微调方法及其他训练后技术难以使大型语言模型(LLMs)抵御超过几十步的对抗性微调。本文探讨了从训练数据中筛选出涉及双重用途主题的文本,是否能防止不期望的能力出现,并作为一种更为抗篡改的防护措施。我们引入了一个多阶段的可扩展数据过滤流程,并展示了其在最小化LLMs中生物威胁代理知识方面的可行性与有效性。我们从零开始预训练了多个69亿参数的模型,发现这些模型在面对高达10,000步及3亿个与生物威胁相关文本的对抗性微调攻击时,表现出显著的抵抗力——超越现有训练后基线方法一个数量级以上——且未观察到对无关能力的退化。然而,尽管经过过滤的模型内部缺乏危险知识,我们发现当这些信息在上下文中提供时(例如,通过搜索工具增强),模型仍能利用此类信息,这表明需要采取深度防御策略。总体而言,这些发现有助于确立预训练数据筛选作为开放权重AI系统防御体系中一个颇具前景的层次。
最先進的事實查核系統通過部署基於大型語言模型(LLM)的自動化代理,將複雜的聲明分解為更小的子聲明,逐一驗證每個子聲明,並匯總部分結果以生成帶有解釋(即判決的解釋性理由)的結論,從而大規模地對抗虛假信息。這些系統的安全性至關重要,因為被攻破的事實查核系統往往容易被忽視,反而可能助長虛假信息的傳播。本研究提出了Fact2Fiction,這是首個針對此類代理式事實查核系統的投毒攻擊框架。Fact2Fiction模仿了系統的分解策略,並利用系統生成的解釋來精心設計針對性的惡意證據,從而破壞子聲明的驗證過程。大量實驗表明,Fact2Fiction在不同投毒預算下,其攻擊成功率比現有最先進的攻擊高出8.9%至21.2%。Fact2Fiction揭示了當前事實查核系統的安全漏洞,並強調了採取防禦性對策的必要性。
口述數學表達式的轉換是一項具有挑戰性的任務,它涉及將語音轉錄為嚴格結構化的符號表示,同時解決方程發音中固有的歧義性。儘管在自動語音識別(ASR)和語言模型(LM)方面已取得顯著進展,但將口述數學轉換為LaTeX的問題仍未得到充分探索。此任務直接應用於教育和研究領域,如講課轉錄或筆記創建。基於ASR後校正的先前工作需進行兩次轉錄,僅專注於孤立方程,測試集有限,且未提供訓練數據或多語言覆蓋。為解決這些問題,我們提出了首個完全開源的大規模數據集,包含超過66,000個人類註釋的數學方程和句子的音頻樣本,涵蓋英語和俄語,並來自多樣化的科學領域。除了ASR後校正模型和少樣本提示外,我們還應用了音頻語言模型,在MathSpeech基準上展示了可比較的字符錯誤率(CER)結果(28%對30%)用於方程轉換。相比之下,在提出的S2L-equations基準上,即使考慮到LaTeX格式的偽影,我們的模型也以超過40個百分點的顯著優勢超越了MathSpeech模型(27%對64%)。我們建立了首個數學句子識別(S2L-sentences)基準,並達到了40%的方程CER。這項工作為未來多模態AI的進步奠定了基礎,特別是在數學內容識別方面。
許多人觀察到,生成式機器學習(ML)和人工智慧(AI)模型的開發與部署遵循一種獨特的模式,即預訓練模型會被調整和微調以適應特定的下游任務。然而,探討這些互動結構的實證研究卻相當有限。本文分析了Hugging Face(一個領先的模型開發同儕生產平台)上的186萬個模型。我們對模型家族樹(將微調模型與其基礎或父模型連接起來的網絡)的研究揭示了規模和結構各異的廣泛微調譜系。透過借用演化生物學的視角來研究ML模型,我們利用模型元數據和模型卡片來衡量模型家族間的遺傳相似性和特徵變異。我們發現,模型往往表現出家族相似性,這意味著當它們屬於同一模型家族時,其遺傳標記和特徵會展現出更多的重疊。然而,這些相似性在某些方面與標準的無性繁殖模型有所不同,因為變異快速且具有方向性,使得兩個「兄弟」模型之間的相似性往往高於父子模型對。進一步分析這些變異的方向性漂移,揭示了開放機器學習生態系統的定性洞察:許可證出人意料地從限制性商業許可證轉向寬鬆或著佐權許可證,這通常違反了上游許可證的條款;模型從多語言兼容性演變為僅支持英語;模型卡片通過更多地轉向模板和自動生成文本,長度縮短並趨於標準化。總體而言,這項工作朝著基於實證的模型微調理解邁進了一步,並表明生態模型和方法能夠帶來新穎的科學洞見。
隨著大型語言模型日益融入日常生活,音頻已成為人機互動的關鍵介面。然而,這種便利性也帶來了新的脆弱性,使音頻成為潛在的攻擊面。本研究提出了WhisperInject,這是一個兩階段對抗性音頻攻擊框架,能夠操控最先進的音頻語言模型生成有害內容。我們的方法利用音頻輸入中難以察覺的擾動,這些擾動對人類聽眾而言仍保持無害。第一階段採用了一種新穎的基於獎勵的優化方法——帶有投影梯度下降的強化學習(RL-PGD),來引導目標模型繞過其自身的安全協議,生成有害的原生回應。此原生有害回應隨後作為第二階段——有效載荷注入的目標,在此階段我們使用投影梯度下降(PGD)來優化嵌入到良性音頻載體(如天氣查詢或問候訊息)中的細微擾動。在嚴格的StrongREJECT、LlamaGuard以及人類評估安全評估框架的驗證下,我們的實驗在Qwen2.5-Omni-3B、Qwen2.5-Omni-7B和Phi-4-Multimodal模型上展現了超過86%的成功率。我們的工作展示了一類新的實用、音頻原生的威脅,超越了理論上的利用,揭示了一種可行且隱蔽的操控AI行為的方法。
在模擬現實世界挑戰的複雜互動環境中評估人工智能代理,對於理解其實際能力至關重要。現有的代理基準雖然能有效評估工具使用或結構化任務表現等技能,但往往未能全面捕捉代理在探索性環境中自主運作的能力,這類環境要求代理在長期且不斷擴展的上下文中進行持續、自主的推理。為推動開發具備更強內在長期推理能力的代理,我們引入了TextQuests,這是一個基於Infocom系列互動小說遊戲的基準。這些基於文本的冒險遊戲,人類玩家可能需要超過30小時並執行數百次精確操作才能完成,它們作為評估人工智能代理在專注、有狀態任務上表現的有效替代品。該基準特別設計來評估大型語言模型代理的獨立問題解決能力,通過排除外部工具的使用,從而聚焦於在一個以試錯學習和單一互動會話內持續問題解決為特徵的探索性環境中的內在長期上下文推理能力。我們在https://textquests.ai發布了TextQuests。