每日精選AI研究論文及翻譯
在本研究中,我們引入了強化預訓練(Reinforcement Pre-Training, RPT)作為大型語言模型與強化學習(Reinforcement Learning, RL)的一種新型擴展範式。具體而言,我們將下一個詞元的預測重新定義為一項基於RL訓練的推理任務,模型在正確預測給定上下文的下一個詞元時會獲得可驗證的獎勵。RPT提供了一種可擴展的方法,能夠利用大量文本數據進行通用目的的強化學習,而非依賴於特定領域的標註答案。通過激勵下一個詞元推理的能力,RPT顯著提升了語言模型在預測下一個詞元時的準確性。此外,RPT為進一步的強化微調提供了強大的預訓練基礎。擴展曲線顯示,增加訓練計算量能持續提升下一個詞元的預測準確率。這些結果表明,RPT作為一種有效且前景廣闊的擴展範式,能夠推動語言模型預訓練的發展。
多模態大型語言模型(MLLMs)在理解常見視覺元素方面展現了令人印象深刻的能力,這主要歸功於其大規模數據集和先進的訓練策略。然而,由於醫學場景中的數據和任務與通用領域之間存在固有差異,這些模型在醫學應用中的有效性仍然有限。具體而言,現有的醫學MLLMs面臨以下關鍵限制:(1)醫學知識覆蓋範圍有限,僅限於影像;(2)由於數據整理過程不完善,更容易產生幻覺;(3)缺乏針對複雜醫學場景的推理能力。為應對這些挑戰,我們首先提出了一套全面的數據整理流程,該流程(1)不僅從醫學影像中高效獲取豐富的醫學知識數據,還從廣泛的醫學文本和通用領域數據中獲取;(2)合成精確的醫學描述、視覺問答(VQA)和推理樣本。由此,我們構建了一個富含廣泛醫學知識的多模態數據集。基於整理的數據,我們推出了專注於醫學的MLLM:靈樞。靈樞經過多階段訓練,逐步嵌入醫學專業知識並增強其任務解決能力。此外,我們初步探索了應用可驗證獎勵的強化學習範式來提升靈樞的醫學推理能力。同時,我們開發了MedEvalKit,這是一個統一的評估框架,整合了領先的多模態和文本醫學基準,用於標準化、公平且高效的模型評估。我們在三個基本醫學任務上評估了靈樞的表現,包括多模態問答、基於文本的問答和醫學報告生成。結果顯示,靈樞在多數任務上始終優於現有的開源多模態模型……
本文介紹了MiniCPM4,這是一款專為終端設備設計的高效大型語言模型(LLM)。我們通過在四個關鍵維度上的系統創新來實現這一效率:模型架構、訓練數據、訓練算法和推理系統。具體而言,在模型架構方面,我們提出了InfLLM v2,這是一種可訓練的稀疏注意力機制,能夠加速長上下文處理的預填充和解碼階段。在訓練數據方面,我們提出了UltraClean,這是一種高效且準確的預訓練數據過濾和生成策略,以及UltraChat v2,這是一個全面的監督微調數據集。這些數據集使得僅使用8萬億訓練標記即可實現滿意的模型性能。在訓練算法方面,我們提出了ModelTunnel v2用於高效的預訓練策略搜索,並通過引入分塊式滾動來改進現有的後訓練方法,實現負載均衡的強化學習和數據高效的三元LLM,BitCPM。在推理系統方面,我們提出了CPM.cu,它整合了稀疏注意力、模型量化和推測性採樣,以實現高效的預填充和解碼。為了滿足多樣的設備端需求,MiniCPM4提供了兩個版本,分別具有0.5B和8B參數。充分的評估結果顯示,MiniCPM4在多個基準測試中優於相似規模的開源模型,突顯了其效率和有效性。值得注意的是,MiniCPM4-8B在處理長序列時相比Qwen3-8B展現出顯著的速度提升。通過進一步的適應,MiniCPM4成功驅動了多樣化的應用,包括可信的調查生成和模型上下文協議的工具使用,清晰地展示了其廣泛的可用性。
現有的安全保證研究主要集中於訓練階段的對齊,旨在將安全行為灌輸給大型語言模型(LLMs)。然而,近期的研究揭示了這些方法在面對多樣化的越獄攻擊時的脆弱性。與此同時,推理擴展技術顯著提升了LLM的推理能力,但在安全保證的應用上仍未被探索。針對這一空白,我們的工作率先將推理擴展應用於增強LLM對新興威脅的魯棒性和有效性安全防護。我們發現,傳統的推理擴展技術儘管在推理任務中表現出色,在安全情境下卻表現不佳,甚至不及如最佳N採樣(Best-of-N Sampling)等基礎方法。我們將這種低效歸因於一個新發現的挑戰——探索效率困境,這是由於頻繁的過程獎勵模型(PRM)評估帶來的高計算開銷所致。為克服這一困境,我們提出了SAFFRON,一種專為安全保證量身定制的新型推理擴展範式。我們方法的核心是引入了一種多分支獎勵模型(MRM),它大幅減少了所需的獎勵模型評估次數。為實現這一範式,我們進一步提出了:(i) 針對MRM的部分監督訓練目標,(ii) 保守探索約束以防止分佈外探索,以及(iii) 基於Trie的鍵值緩存策略,該策略在樹搜索過程中促進了跨序列的緩存共享。大量實驗驗證了我們方法的有效性。此外,我們公開了訓練好的多分支獎勵模型(Saffron-1)及配套的令牌級安全獎勵數據集(Safety4M),以加速未來在LLM安全領域的研究。我們的代碼、模型和數據均公開於https://github.com/q-rz/saffron,項目主頁位於https://q-rz.github.io/p/saffron。
文本到圖像(T2I)模型因能生成與文字提示高度契合的高質量圖像而備受關注。然而,T2I模型的快速發展揭示了早期基準測試的侷限性,這些測試缺乏全面的評估,例如在推理、文字渲染和風格方面的評估。值得注意的是,近期最先進的模型憑藉其豐富的知識建模能力,在需要強大推理能力的圖像生成問題上展現出令人期待的成果,但現有的評估體系尚未充分應對這一前沿領域。為系統性地彌補這些不足,我們推出了OneIG-Bench,這是一個精心設計的綜合基準框架,用於從多個維度對T2I模型進行細粒度評估,包括提示-圖像對齊、文字渲染精度、推理生成內容、風格化及多樣性。通過結構化的評估,該基準能夠深入分析模型性能,幫助研究人員和實踐者精確定位圖像生成全流程中的優勢與瓶頸。具體而言,OneIG-Bench允許用戶聚焦於特定的評估子集,從而實現靈活的評估。用戶無需為所有提示生成圖像,而僅需為選定維度相關的提示生成圖像,並據此完成相應的評估。我們的代碼庫和數據集現已公開,旨在促進T2I研究領域內的可重複評估研究與跨模型比較。
SpatialLM 是一個專為處理 3D 點雲數據並生成結構化 3D 場景理解輸出而設計的大型語言模型。這些輸出包括牆壁、門窗等建築元素,以及帶有語義類別的定向物體框。與以往利用特定任務網絡設計的方法不同,我們的模型遵循標準的多模態 LLM 架構,並直接從開源 LLM 進行微調。 為了訓練 SpatialLM,我們收集了一個大規模、高質量的合成數據集,包含 12,328 個室內場景(54,778 個房間)的點雲數據及其真實 3D 註釋,並對各種建模和訓練決策進行了深入研究。在公開基準測試中,我們的模型在佈局估計方面達到了最先進的性能,並在 3D 物體檢測方面取得了具有競爭力的結果。由此,我們展示了增強現代 LLM 空間理解能力的可行路徑,適用於增強現實、具身機器人等應用領域。
視覺編碼器在現代應用中日益普及,從純視覺模型到多模態系統(如視覺-語言模型)皆有使用。儘管這些架構取得了顯著成功,但其內部如何表徵特徵仍不明確。在此,我們提出了一種新穎的方法,通過圖像重建來解釋視覺特徵。我們比較了兩個相關的模型家族——SigLIP 和 SigLIP2,它們僅在訓練目標上有所不同,並展示了基於圖像任務預訓練的編碼器比那些基於非圖像任務(如對比學習)訓練的編碼器保留了顯著更多的圖像信息。我們進一步將此方法應用於一系列視覺編碼器,根據其特徵表徵的信息量對它們進行排序。最後,我們證明,通過操控特徵空間可以在重建圖像中產生可預測的變化,揭示了正交旋轉(而非空間變換)控制著色彩編碼。我們的方法可應用於任何視覺編碼器,為其特徵空間的內部結構提供洞見。重現實驗的代碼和模型權重已公開於 GitHub。
現代機器人導航系統在多樣且複雜的室內環境中面臨諸多挑戰。傳統方法依賴於多個小型模型或基於規則的系統模塊,因而缺乏對新環境的適應能力。為解決這一問題,我們開發了Astra,這是一種全面的雙模型架構,包含Astra-Global和Astra-Local,專為移動機器人導航設計。Astra-Global作為一個多模態大語言模型,處理視覺與語言輸入,利用混合拓撲語義圖作為全局地圖進行自我定位與目標定位,其性能超越傳統的視覺地點識別方法。Astra-Local則是一個多任務網絡,負責局部路徑規劃與里程計估計。其4D時空編碼器通過自監督學習訓練,生成穩健的4D特徵以供下游任務使用。規劃頭部採用流匹配技術及新穎的掩碼ESDF損失函數,以最小化碰撞風險,生成局部軌跡;而里程計頭部則通過變壓器編碼器整合多傳感器輸入,預測機器人的相對姿態。Astra已部署於實際的室內移動機器人上,在多樣化的室內環境中實現了高端的端到端任務成功率。
隱馬爾可夫模型(HMMs)是建模具有潛在馬爾可夫結構的序列數據的基礎工具,然而將其擬合到現實世界的數據仍然具有計算上的挑戰性。在本研究中,我們展示了預訓練的大型語言模型(LLMs)能夠通過上下文學習(ICL)——即從提示中的示例推斷模式的能力——有效地建模由HMM生成的數據。在一系列多樣的合成HMM上,LLMs達到了接近理論最優的預測準確率。我們揭示了受HMM特性影響的新穎的規模化趨勢,並為這些實證觀察提供了理論猜想。我們還為科學家提供了使用ICL作為複雜數據診斷工具的實用指南。在現實世界的動物決策任務中,ICL與人類專家設計的模型相比,表現出競爭力。據我們所知,這是首次證明ICL能夠學習並預測HMM生成的序列——這一進展深化了我們對LLMs中上下文學習的理解,並確立了其作為揭示複雜科學數據中隱藏結構的強大工具的潛力。
視覺-語言-動作(VLA)模型在多種機器人操作任務中展現了卓越的能力。然而,其日益增長的模型規模對資源受限的機器人系統部署構成了重大挑戰。雖然1位元預訓練已證明能有效提升大型語言模型的推理效率且性能損失最小,但其在VLA模型中的應用仍未被充分探索。在本研究中,我們提出了BitVLA,這是首個用於機器人操作的1位元VLA模型,其中每個參數均為三元值,即{-1, 0, 1}。為了進一步減少視覺編碼器的記憶體佔用,我們提出了蒸餾感知訓練策略,將全精度編碼器壓縮至1.58位元權重。在此過程中,全精度編碼器作為教師模型,以更好地對齊潛在表示。儘管缺乏大規模的機器人預訓練,BitVLA在LIBERO基準測試中與採用4位元後訓練量化的最先進模型OpenVLA-OFT表現相當,同時僅消耗29.8%的記憶體。這些結果凸顯了BitVLA在記憶體受限的邊緣設備上部署的潛力。我們在https://github.com/ustcwhy/BitVLA上公開了代碼和模型權重。
多模態擴散變換器(MM-DiTs)在文本驅動的視覺生成領域取得了顯著進展。然而,即便是如FLUX這樣的頂尖MM-DiT模型,在實現文本提示與生成內容的精確對齊方面仍面臨挑戰。我們發現MM-DiT的注意力機制存在兩個關鍵問題:一是視覺與文本模態間令牌不平衡導致的跨模態注意力抑制,二是缺乏時間步感知的注意力權重分配,這些都阻礙了對齊效果。為解決這些問題,我們提出了溫度調節跨模態注意力(TACA),這是一種參數高效的方法,通過溫度縮放和時間步依賴性調整來動態重新平衡多模態交互。結合LoRA微調,TACA在T2I-CompBench基準測試中顯著提升了文本-圖像對齊效果,且計算開銷極小。我們在FLUX和SD3.5等頂尖模型上測試了TACA,證明了其在改善物體外觀、屬性綁定及空間關係方面的圖像-文本對齊能力。我們的研究結果強調了平衡跨模態注意力在提升文本到圖像擴散模型語義保真度中的重要性。我們的代碼已公開於https://github.com/Vchitect/TACA。
長鏈思維(CoT)監督已成為增強語言模型推理能力的常見策略。儘管對大型模型有效,我們發現了一種現象,稱之為「長鏈思維退化」,即在有限的長鏈思維數據上訓練的小型語言模型(SLMs;參數<=3B)會經歷顯著的性能下降。通過對Qwen2.5、LLaMA3和Gemma3系列模型的大量實驗,我們證明這種退化在小型語言模型中普遍存在。在某些情況下,僅在8k個長鏈思維樣本上訓練的模型,其性能會下降高達75%,相較於微調前的原始性能。更令人驚訝的是,我們進一步觀察到,對於一些特別小的模型,即使在220k個長鏈思維樣本上訓練,也無法恢復或超越其微調前的原始性能。我們的分析將此效應歸因於錯誤累積:雖然更長的回應增加了多步推理的能力,但也放大了錯誤疊加的風險。此外,我們發現長鏈思維退化可能會對下游的強化學習(RL)產生負面影響,儘管這可以通過足夠規模的監督微調(SFT)來緩解。我們的研究結果挑戰了關於長鏈思維訓練對小型語言模型益處的常見假設,並為構建更有效的小規模推理模型提供了實用指導。
我們深入研究了視覺變換器(Vision Transformers)中先前發現的一種現象的機制——高範數(high-norm)令牌的出現導致注意力圖譜出現噪聲。我們觀察到,在多個模型(如CLIP、DINOv2)中,一組稀疏的神經元負責將高範數激活集中於異常令牌上,從而引發不規則的注意力模式,並降低下游視覺處理的效能。雖然現有的解決方案是通過重新訓練模型並加入額外的學習寄存器令牌來消除這些異常值,但我們利用研究發現,提出了一種無需重新訓練的方法來減輕這些人工效應。通過將我們發現的寄存器神經元中的高範數激活轉移到一個未經訓練的額外令牌上,我們能夠模擬寄存器令牌在未預先配置寄存器的已訓練模型上的效果。我們證明,該方法能生成更清晰的注意力和特徵圖譜,在多個下游視覺任務中提升基礎模型的性能,並達到與顯式訓練寄存器令牌模型相當的結果。隨後,我們將測試時寄存器擴展至現成的視覺-語言模型,以提升其可解釋性。我們的結果表明,測試時寄存器有效地承擔了測試階段寄存器令牌的角色,為任何未配備寄存器令牌的預訓練模型提供了一種無需重新訓練的解決方案。
我们引入辩论演讲评估作为一项新颖且具挑战性的基准,用以评估大型语言模型(LLM)作为评判者的能力。评估辩论演讲需深入理解演讲的多个层面,包括论点的力度与相关性、演讲的连贯性与组织性、其风格与语调的适宜性等。此任务涉及一系列独特的认知能力,这些能力在以往的系统性LLM基准测试中鲜少受到关注。为探索此类技能,我们利用了一个包含600余篇精细标注的辩论演讲数据集,并首次深入分析了顶尖LLM在此任务上与人类评判者的对比情况。我们的研究揭示了一幅微妙的图景:尽管更大规模的模型在某些方面能近似个别人类评判,但它们在整体评判行为上存在显著差异。同时,我们还探究了前沿LLM生成具有说服力、观点鲜明的演讲的能力,结果表明,模型在此任务上可能达到人类水平。
在多模态大语言模型(MLLMs)中开发可泛化的推理能力仍具挑战性。受认知科学文献启发,游戏玩法能够促进可迁移的认知技能,我们提出了一种新颖的后训练范式——视觉游戏学习(Visual Game Learning,简称ViGaL),通过让MLLMs玩街机类游戏,发展跨领域的多模态推理泛化能力。具体而言,我们展示了对一个拥有70亿参数的MLLM通过强化学习(RL)在简单街机类游戏(如贪吃蛇)上进行后训练,显著提升了其在多模态数学基准(如MathVista)及跨学科问题(如MMMU)上的下游表现,而在此过程中并未接触任何解题步骤、方程或图表,这表明模型掌握了可迁移的推理技能。值得注意的是,我们的模型在多模态推理基准测试中超越了专门针对多模态推理数据调优的专业模型,同时保持了基础模型在通用视觉基准上的性能,这一挑战往往是专业模型难以克服的。我们的发现揭示了一种新的后训练范式:基于规则的合成游戏可作为可控且可扩展的预文本任务,解锁MLLMs中可泛化的多模态推理能力。
光學化學結構識別(OCSR)對於將化學知識數位化至關重要,它能夠將分子圖像轉換為機器可讀的格式。儘管近期的視覺-語言模型(VLMs)在此任務中展現出潛力,但其基於圖像-字幕的方法在處理複雜分子結構和不一致的註釋時往往面臨困難。為克服這些挑戰,我們提出了GTR-Mol-VLM,一個具有兩項關鍵創新的新框架:(1)圖形遍歷作為視覺思維鏈機制,通過逐步解析分子圖來模擬人類推理,實現原子-鍵的序列預測;(2)數據中心原則“忠實識別所見”,解決了圖像中縮寫結構與其擴展註釋之間的不匹配問題。為支持模型開發,我們構建了GTR-CoT-1.3M,一個大規模的指令調優數據集,其註釋經過精心校正,並引入了MolRec-Bench,這是首個專為OCSR中圖形解析精細評估設計的基準。全面的實驗表明,GTR-Mol-VLM在與專業模型、化學領域VLMs及商業通用VLMs的比較中取得了優異成績。特別是在涉及帶有功能基團縮寫的分子圖像場景中,GTR-Mol-VLM在基於SMILES和基於圖形的指標上均比次佳基線高出約14個百分點。我們希望這項工作能推動OCSR技術更有效地滿足現實需求,從而促進化學信息學和科學AI領域的發展。我們將在https://github.com/opendatalab/GTR-CoT發布GTR-CoT。
视觉与语言基础模型在多大程度上拥有一个现实的世界模型(观察×动作→观察)和一个动态模型(观察×观察→动作),当动作通过语言表达时?尽管开源的基础模型在这两方面均存在困难,但我们发现,通过监督微调使其获得动态模型,远比获得世界模型要容易得多。反过来,动态模型可以通过两种主要策略来引导世界模型的构建:1)从合成数据中进行弱监督学习,以及2)推理时验证。首先,动态模型可以为未标记的视频帧观察对标注动作,从而扩展训练数据。我们进一步提出了一种新的目标函数,其中观察对中的图像标记根据识别模型预测的重要性进行加权。其次,动态模型可以为世界模型的多个样本分配奖励以进行评分,在推理时有效指导搜索。我们通过在Aurora-Bench上的动作中心图像编辑任务,评估了这两种策略产生的世界模型。我们的最佳模型在性能上与最先进的图像编辑模型相当,根据GPT4o作为评判标准,在现实世界子集上提升了15%,并在Aurora-Bench的所有子集上获得了最佳的人类评价平均分。
近幾代的語言模型引入了大型推理模型(LRMs),這些模型在提供答案之前會生成詳細的思考過程。雖然這些模型在推理基準測試中表現出改進的性能,但其基本能力、擴展特性及限制仍未被充分理解。目前的評估主要集中於既有的數學和編程基準,強調最終答案的準確性。然而,這種評估範式常受到污染,且無法提供對推理軌跡的深入洞察。在本研究中,我們借助可控的謎題環境系統性地探討這些差距,這些環境允許精確操控複雜度,同時保持一致的邏輯結構。此設置不僅能分析最終答案,還能剖析內部的推理軌跡,從而揭示LRMs的思考方式。通過大量實驗,我們發現LRMs在超過一定複雜度後會遭遇完全準確性崩潰。此外,它們展現出一種反直覺的擴展限制:其推理努力隨問題複雜度增加至某一點後,儘管仍有剩餘的token預算,卻開始下降。通過在相同推理計算下比較LRMs與其標準LLM對應模型,我們識別出三種性能區間:(1)低複雜度任務中,標準模型優於LRMs,(2)中等複雜度任務中,LRMs展現優勢,(3)高複雜度任務中,兩者均面臨完全崩潰。我們發現LRMs在精確計算方面存在局限:它們無法使用明確的算法,且在不同規模下推理不一致。我們還更深入地研究了推理軌跡,探討了探索解決方案的模式,並分析了模型的計算行為,從而揭示了它們的優勢、限制,並對其推理能力提出了疑問。
我們能否教導大型語言模型(LLMs)避免在陳述事實時產生幻覺?本文提出了一種名為ConfQA的微調策略,該策略能將多個事實性基準測試中的幻覺率從20-40%降至5%以下。其核心思想簡單明瞭:當LLM正確回答問題時,模型被訓練繼續提供答案;反之,則被訓練承認“我不確定”。然而,有兩個關鍵因素使得此訓練極為有效。首先,我們引入了一種抑制性提示“僅在確信時作答”,以明確引導模型行為,若無此提示,幻覺率仍高達15%-25%。其次,我們利用簡單的事實陳述,特別是來自知識圖譜的屬性值,來幫助LLMs校準信心,從而實現跨領域和問題類型的穩健泛化。基於這一洞見,我們提出了雙重神經知識框架,該框架根據ConfQA的信心度,無縫地在內部參數化的神經知識與外部記錄的符號知識之間進行選擇。此框架不僅有望將準確率提升至95%以上,還能減少超過30%的不必要外部檢索。
我們推出CCI4.0,這是一個大規模雙語預訓練數據集,專為卓越的數據質量和多樣化的人類思維軌跡而設計。CCI4.0佔用約35TB的磁盤空間,包含兩個子數據集:CCI4.0-M2-Base和CCI4.0-M2-CoT。CCI4.0-M2-Base結合了5.2TB精心策劃的中文網絡語料庫、來自Nemotron-CC的22.5TB英文子集,以及來自數學、維基、arXiv和代碼的多樣化數據源。儘管這些數據大多來自經過良好處理的數據集,但各領域的質量標準是動態的,需要大量的專家經驗和人力來處理。因此,我們提出了一種新穎的流程,主要基於模型來驗證數據質量,包括兩階段去重、多分類器質量評分和領域感知的流暢性過濾。我們提取了45億條CoT(思維鏈)模板,命名為CCI4.0-M2-CoT。與從更大模型中蒸餾CoT不同,我們提出的分階段CoT提取展示了多樣化的推理模式,並顯著降低了幻覺的可能性。實證評估表明,在CCI4.0中預訓練的LLM受益於更乾淨、更可靠的訓練信號,在下游任務中,尤其是在數學和代碼反思任務中,表現出持續的改進。我們的結果強調了嚴格的數據策劃和人類思維模板在提升LLM性能中的關鍵作用,為自動處理預訓練語料庫提供了一些啟示。
本文介紹了ExpertLongBench,這是一個專家級別的基準測試,包含來自9個領域的11項任務,這些任務反映了現實中的專家工作流程和應用。除了問答之外,ExpertLongBench中的應用驅動型任務要求生成超過5,000個token的長篇輸出,並嚴格遵守特定領域的要求。值得注意的是,ExpertLongBench中的每項任務都包含一個由領域專家設計或驗證的評分標準,用以明確任務要求並指導輸出評估。此外,我們提出了CLEAR,這是一個支持在我們的基準測試中對長篇模型輸出進行準確評估的框架。為了實現細粒度、與專家對齊的評估,CLEAR通過提取與任務特定評分標準中項目相對應的信息,從模型輸出和參考文獻中生成檢查表。然後將模型輸出的檢查表項目與參考輸出的相應項目進行比較,以評估其正確性,從而實現有依據的評估。我們對11個大型語言模型(LLMs)進行了基準測試,並分析了CLEAR中的組件,結果顯示:(1)現有的LLMs在專家級任務上需要顯著改進,表現最佳的模型僅達到26.8%的F1分數;(2)模型能夠生成與所需方面相對應的內容,但往往不夠準確;(3)CLEAR中的準確檢查表提取和比較可以通過開源模型實現,從而實現更可擴展和低成本的使用。
模型免疫旨在預訓練那些難以針對有害任務進行微調的模型,同時保持其在其他非有害任務上的效用。儘管先前的研究已為文本到圖像模型的免疫提供了實證證據,但關於免疫何時可行的關鍵理解以及免疫模型的精確定義仍不明確。在本研究中,我們提出了一個基於Hessian矩陣條件數的框架,用於分析線性模型的免疫情況。基於此框架,我們設計了一種帶有正則化項的算法,以控制預訓練後所得條件數。在線性模型和非線性深度網絡上的實驗結果證明了所提算法在模型免疫方面的有效性。代碼可於https://github.com/amberyzheng/model-immunization-cond-num獲取。
多模態大型語言模型(MLLMs)在革新圖形用戶界面(GUI)自動化方面展現了巨大潛力。然而,現有的GUI模型主要依賴於從近乎無誤的離線軌跡中學習,因而缺乏反思與錯誤恢復能力。為彌補這一差距,我們提出了GUI-Reflection,這是一個新穎的框架,它通過專門的訓練階段——GUI特定預訓練、離線監督微調(SFT)和在線反思調優——將自我反思與錯誤修正能力明確整合到端到端的多模態GUI模型中。GUI-Reflection實現了自我反思行為的湧現,通過全自動的數據生成與學習過程,無需任何人類標註。具體而言,1)我們首先提出了可擴展的數據管道,從現有的成功軌跡中自動構建反思與錯誤修正數據。雖然現有的GUI模型主要關注於基礎與UI理解能力,但我們提出了GUI-Reflection任務套件,專門學習與評估反思導向的能力。2)此外,我們構建了一個多樣化且高效的環境,用於在移動設備上進行GUI模型的在線訓練與數據收集。3)我們還提出了一種迭代的在線反思調優算法,利用所提出的環境,使模型能夠持續增強其反思與錯誤修正能力。我們的框架賦予了GUI代理自我反思與修正的能力,為更健壯、適應性更強且智能的GUI自動化鋪平了道路,所有數據、模型、環境與工具都將公開發布。
大规模视频生成模型能够为动态世界创造合成多样且逼真的视觉内容,然而它们往往缺乏元素级别的可控性,这限制了其在场景编辑和具身人工智能代理训练中的应用。我们提出了Dreamland,一个结合了基于物理模拟器的精细控制与大规模预训练生成模型的光照级内容输出的混合世界生成框架。特别地,我们设计了一种分层世界抽象,将像素级和对象级的语义与几何信息编码为中间表示,以此桥接模拟器与生成模型。该方法增强了可控性,通过早期与现实世界分布的对齐最小化了适应成本,并支持即插即用地使用现有及未来的预训练生成模型。我们进一步构建了D3Sim数据集,以促进混合生成管道的训练与评估。实验表明,Dreamland在图像质量上提升了50.8%,在可控性上增强了17.9%,展现出提升具身代理训练的巨大潜力。代码与数据将公开提供。
大型語言模型(LLMs)需要與人類偏好保持一致,以避免生成冒犯性、虛假或無意義的內容。近年來,低資源的LLM對齊方法受到歡迎,但仍面臨獲取高質量且對齊內容的挑戰。基於觀察到生成對齊回應的難度集中在解碼的初始階段,我們提出了一個新框架——弱到強解碼(WSD),通過一個小型對齊模型的指導來增強基礎模型的對齊能力。小型模型首先起草良好對齊的開頭,隨後由大型基礎模型繼續完成剩餘部分,並通過精心設計的自動切換機制進行控制。我們還收集了一個新數據集GenerAlign,用於微調一個小型Pilot-3B作為草稿模型,這在WSD框架下有效增強了不同基礎模型,使其超越所有基準方法,同時避免了在下游任務上的性能下降,即所謂的對齊稅。我們進一步進行了大量實驗,以檢驗不同設置和時間效率的影響,並深入分析了WSD的內在機制。
近期關於大型語言模型(LLMs)多元對齊的呼籲,鼓勵模型適應多樣化的用戶偏好。然而,大多數先前關於個性化獎勵模型的研究,都嚴重依賴額外的身份信息,如人口統計細節或預定義的偏好類別。為此,我們提出了SynthesizeMe方法,該方法從用戶互動中誘導出合成用戶角色,用於個性化獎勵建模。SynthesizeMe首先生成並驗證解釋用戶偏好的推理,然後從該推理中誘導出合成用戶角色,最後篩選出信息豐富的先前用戶互動,以構建針對特定用戶的個性化提示。我們展示了使用SynthesizeMe誘導的提示,在Chatbot Arena上將個性化LLM作為評判者的準確率提高了4.4%。將SynthesizeMe衍生的提示與獎勵模型結合,在PersonalRewardBench上達到了頂尖性能:這是一個新的用戶分層互動策展,收集自Chatbot Arena和PRISM的854名用戶與聊天機器人的互動。
在本研究中,我們將單目視頻中的動態視角合成作為一個無訓練設置下的逆問題來處理。通過重新設計預訓練視頻擴散模型的噪聲初始化階段,我們實現了無需權重更新或輔助模塊的高保真動態視角合成。我們首先識別了由零終端信噪比(SNR)調度引起的確定性反演的基本障礙,並通過引入一種名為K階遞歸噪聲表示的新噪聲表示方法來解決這一問題。我們推導出了該表示的閉式表達式,從而實現了VAE編碼與DDIM反演潛變量之間的精確高效對齊。為了合成由相機運動產生的新可見區域,我們引入了隨機潛變調制,該方法在潛變空間上執行可見性感知採樣以完成被遮擋區域。綜合實驗表明,通過在噪聲初始化階段進行結構化的潛變量操作,可以有效地執行動態視角合成。
近期,大型语言模型(LLMs)与视觉语言模型(VLMs)的突破性进展,催生了具备复杂推理能力和多模态工具使用能力的强大自主代理。尽管这些代理的能力日益增强,当前的代理框架仍显脆弱,缺乏确保信息安全流动、可靠性及多代理协调的原则性机制。为此,我们提出了SAFEFLOW,一个构建可信赖LLM/VLM代理的协议级新框架。SAFEFLOW实施细粒度的信息流控制(IFC),精确追踪代理、工具、用户及环境间交换的所有数据的来源、完整性和保密性。通过约束LLM推理过程以遵循这些安全标签,SAFEFLOW有效防止了不可信或敌对输入污染高完整性决策。为确保并发多代理环境下的鲁棒性,SAFEFLOW引入了事务执行、冲突解决及共享状态的安全调度机制,维护了代理间的全局一致性。此外,我们还引入了包括预写日志、回滚和安全缓存等机制,进一步增强了对运行时错误及策略违规的抵御能力。为验证性能,我们构建了SAFEFLOWBENCH,一个全面的基准测试套件,旨在评估代理在对抗性、噪声及并发操作条件下的可靠性。大量实验表明,基于SAFEFLOW构建的代理即使在恶劣环境中也能保持卓越的任务执行能力和安全保障,显著超越了现有技术。SAFEFLOW与SAFEFLOWBENCH共同为构建原则性、鲁棒且安全的代理生态系统奠定了基础,推动了可靠自主技术的前沿发展。
大型語言模型在執行任務時,通常依賴於上下文輸入和參數化知識。然而,這兩種來源可能會產生衝突,尤其是在檢索到的文件與模型的參數化知識相矛盾時。我們提出了一個診斷框架,用於系統性地評估在上下文記憶衝突下(即上下文信息與其參數化信念相悖時)的LLM行為。我們構建了引發這些衝突的診斷數據,並分析了模型在多種任務類型中的表現。研究結果顯示:(1) 知識衝突對不需要利用知識的任務影響甚微,(2) 當上下文與參數化知識一致時,模型表現始終更佳,(3) 即使被指示,模型也無法完全抑制其內部知識,(4) 提供解釋衝突的推理會增加對上下文的依賴。這些發現引發了對基於模型評估有效性的擔憂,並強調了在部署LLM時需考慮知識衝突的必要性。
大型语言模型常被用于回答基于大规模文本语料库(如代码库、法律文件或聊天记录)的查询,其方法是将整个语料库置于上下文窗口中,并利用上下文学习(ICL)技术。尽管当前模型支持100K至1M标记的上下文,但这种配置的服务成本高昂,因为键值缓存(KV cache)的内存消耗随输入长度线性增长。我们探索了一种替代方案:针对每个语料库离线训练一个较小的KV缓存。在推理时,我们加载这一经过训练的KV缓存,称之为“卡带”(Cartridge),并解码出响应。关键在于,训练卡带的成本可以在引用同一语料库的所有查询中分摊。然而,我们发现,直接在语料库上进行下一标记预测来训练卡带的朴素方法,其效果无法与ICL相媲美。为此,我们提出了“自学”(self-study)这一训练方案,即生成关于语料库的合成对话,并以上下文蒸馏为目标训练卡带。我们发现,通过自学训练的卡带能够复制ICL的功能,同时服务成本显著降低。在具有挑战性的长上下文基准测试中,自学训练的卡带在保持与ICL相当性能的同时,内存使用量减少了38.6倍,吞吐量提升了26.4倍。自学还扩展了模型的有效上下文长度(例如,在MTOB上从128k标记扩展至484k标记),并且令人惊讶的是,它使得卡带在推理时无需重新训练即可组合使用。
近期大型語言模型(LLM)的進展使其能夠作為自主代理應用於多種任務,然而在制定和遵循連貫的長期策略方面仍存在困難。本文探討了當LLM代理被置於明確挑戰其策略規劃能力的環境中時,是否能夠自我改進。我們利用開源框架Catanatron,以桌遊《卡坦島》為測試平台,對一系列基於LLM的代理進行基準測試,從簡單的遊戲代理到能夠自主重寫自身提示和玩家代理代碼的系統。我們引入了一種多代理架構,其中專門角色(分析師、研究員、編碼員和玩家)協作迭代分析遊戲過程、研究新策略並修改代理的邏輯或提示。通過比較手工製作的代理與完全由LLM進化的代理,我們評估了這些系統在診斷失敗和隨時間適應方面的有效性。結果表明,自我進化的代理,特別是在Claude 3.7和GPT-4o等模型驅動下,通過自主採納策略、向遊戲代理傳遞樣本行為,並在多輪迭代中展現適應性推理,超越了靜態基準。
現有的對話式AI代理基準測試模擬的是單一控制環境,其中僅有AI代理能夠使用工具與世界互動,而用戶則保持被動的信息提供者角色。這與現實世界中的場景(如技術支援)有所不同,在這些場景中,用戶需要積極參與修改(共享)世界的狀態。為了解決這一差距,我們引入了tau^2-bench,其具有四個關鍵貢獻: 1) 一個新穎的電信雙控制領域,建模為Dec-POMDP,其中代理和用戶都利用工具在一個共享的動態環境中行動,該環境測試代理的協調與溝通能力, 2) 一個組合式任務生成器,能夠從原子組件中程序化地創建多樣化且可驗證的任務,確保領域覆蓋和受控的複雜性, 3) 一個與環境緊密耦合的可靠用戶模擬器,其行為受到工具和可觀察狀態的約束,提高了模擬的真實性, 4) 通過多種消融實驗對代理性能進行細粒度分析,包括區分由推理與溝通/協調引起的錯誤。 特別是,我們的實驗顯示,當代理從無用戶控制轉向雙控制時,性能顯著下降,這凸顯了引導用戶的挑戰。總體而言,tau^2-bench為那些必須有效推理並引導用戶行動的代理提供了一個受控的測試平台。
当前的多模态大语言模型(MLLMs)在理解长视频或复杂视频时可能面临挑战,这主要源于测试时的高计算需求、缺乏鲁棒性以及准确性有限,这些问题本质上与其前馈处理特性有关。对于参数较少的模型,这些限制可能更为严重。为了应对这些局限,我们受控制论原理启发,提出了一种新颖的框架,将视频MLLMs重新设计为能够在推理过程中自我监控、自我校正并动态分配资源的自适应系统。我们的方法——CyberV,引入了一个由MLLM推理系统、传感器和控制器组成的控制论循环。具体而言,传感器监控MLLM的前向过程并收集中间解释,如注意力漂移,随后控制器决定何时以及如何触发自我校正,并生成反馈以指导下一轮推理。这一测试时自适应扩展框架无需重新训练或添加额外组件,即可增强冻结的MLLMs。实验结果显示显著提升:CyberV使Qwen2.5-VL-7B在VideoMMMU上的表现提升了8.3%,InternVL3-8B提升了5.5%,超越了竞争性专有模型GPT-4o。应用于Qwen2.5-VL-72B时,更是带来了10.0%的提升,其性能甚至可与人类专家相媲美。此外,我们的方法在通用基准测试如VideoMME和WorldSense上也展现了持续的增益,凸显了其在增强MLLMs对动态视频理解的鲁棒性和准确性方面的有效性及泛化能力。代码已发布于https://github.com/marinero4972/CyberV。
基於專家示範訓練的視頻生成模型已被用作高性能的文本條件視覺規劃器,用於解決機器人任務。然而,泛化到未見任務仍然是一個挑戰。雖然通過利用從額外預先收集的離線數據源(如網絡規模的視頻數據集)中學習到的先驗知識,可能促進泛化能力的提升,但在經驗時代,我們旨在設計能夠從自我收集的行為中持續在線改進的智能體。因此,在本工作中,我們提出了自我適應改進循環(SAIL),其中域內視頻模型在自我產生的軌跡上迭代更新,這些軌跡通過與互聯網規模預訓練視頻模型的適應收集而來,並穩步提升其在指定感興趣任務上的表現。我們將SAIL應用於多樣化的MetaWorld任務集,以及真實機械臂上的兩個操作任務,發現對於最初在域內視頻模型訓練中未見的新任務,性能在多輪迭代中持續提升。此外,我們發現SAIL在自我收集經驗是否及如何過濾,以及初始域內示範的質量方面,表現出驚人的魯棒性。通過與總結的互聯網規模數據的適應,以及在線經驗的學習,我們展示了一種通過自我改進迭代引導高性能視頻模型解決新機器人任務的方法。
儘管視頻生成技術近期取得了進展,現有模型仍缺乏細粒度的可控性,特別是在多主體定制方面,難以保持身份一致性和互動性。本文提出PolyVivid,這是一個多主體視頻定制框架,能夠實現靈活且身份一致的生成。為了在主體圖像與文本實體之間建立精確的對應關係,我們設計了一個基於VLLM的文本-圖像融合模塊,將視覺身份嵌入文本空間以實現精確的定位。為了進一步增強身份保持和主體互動,我們提出了一個基於3D-RoPE的增強模塊,實現了文本與圖像嵌入之間的結構化雙向融合。此外,我們開發了一個注意力繼承的身份注入模塊,有效地將融合的身份特徵注入視頻生成過程,減輕身份漂移。最後,我們構建了一個基於MLLM的數據管道,結合了基於MLLM的定位、分割以及基於團的主體整合策略,生成高質量的多主體數據,有效增強了主體區分度並減少了下游視頻生成中的歧義。大量實驗表明,PolyVivid在身份保真度、視頻真實性和主體對齊方面表現優異,超越了現有的開源和商業基準。
大型语言模型(LLMs)已成为现代人工智能的基石。然而,现有的下一词预测范式从根本上限制了它们形成连贯、高层次概念的能力,这成为实现类人理解与推理的关键障碍。以“核糖核酸”这一短语为例:LLM首先会将其分解为若干词元,即人工文本片段(如“核”、“糖”、“酸”等),随后逐一学习这些词元,而非将整个短语作为一个统一、连贯的语义实体来把握。这种碎片化的表征阻碍了更深层次的概念理解,并最终影响了真正智能系统的发展。为此,我们提出了概念感知微调(CAFT),一种新颖的多词元训练方法,重新定义了LLMs的微调方式。通过支持跨越多词元的序列学习,该方法促进了更强的概念感知学习。我们的实验表明,相较于传统的下一词微调方法,CAFT在多种任务上均取得了显著提升,包括文本摘要等传统应用以及从头蛋白质设计等特定领域任务。多词元预测以往仅在成本高昂的预训练阶段可行;据我们所知,CAFT首次将多词元设置引入训练后阶段,从而有效普及了其优势,惠及更广泛的实践者与研究群体。最后,我们提出方法的意外有效性暗示了对机器学习研究界更广泛的影响。所有代码与数据均可在https://github.com/michaelchen-lab/caft-llm获取。
近期大型語言模型(LLM)推理能力的進展表明,諸如規劃和自我反思等複雜行為可以通過強化學習(RL)自然湧現。然而,儘管取得了這些成功,現有的RL形式仍不足以誘導出超越基礎模型限制的能力,因為它主要基於模型現有知識進行優化,而非促進新資訊的獲取。為解決這一限制,我們採用監督微調(SFT)來學習RL無法掌握的內容,這使得通過利用高質量示範數據來整合新知識和推理模式成為可能。我們分析了RL和SFT在LLM推理中的訓練動態,發現RL在保持和提升模型原有能力範圍內問題的表現上表現出色,而SFT則更有效地推動模型在當前範圍之外問題上的進步。基於RL和SFT的互補優勢,我們引入了一種新穎的訓練方法——ReLIFT(強化學習與線上微調交替進行)。在ReLIFT中,模型主要使用RL進行訓練,但當遇到具有挑戰性的問題時,會收集高質量解決方案進行微調,訓練過程在RL和微調之間交替進行,以增強模型的推理能力。與其他零RL模型相比,ReLIFT在五個競賽級基準和一個分佈外基準上平均提升了超過+5.2分。此外,我們展示了ReLIFT在僅使用13%詳細示範數據的情況下,其表現優於RL和SFT,突顯了其可擴展性。這些結果提供了有力證據,表明ReLIFT克服了RL的根本限制,並彰顯了其巨大的潛力。
近期,诸如显式结构化推理等技术通过强制分离模型的内部“思考”过程与最终响应,展现了强大的测试时扩展能力。在此情境下,影响答案质量的一个关键因素是思考阶段的长度。当推理过短时,模型可能无法捕捉任务的复杂性;反之,若推理过长,模型则可能过度思考,导致不必要的计算并降低性能。本文探究并利用了大型语言模型(LLMs)在显式思维过程中理解与调控其推理长度的内在机制。首先,我们展示了LLMs如何编码其推理过程的进展,并引入了一种交互式进度条可视化工具,用以揭示模型规划动态的洞见。其次,我们在推理过程中操控内部进度编码,以减少冗余步骤,生成更为简洁且果断的思维链。实证结果表明,这种“超频”方法有效缓解了过度思考,提升了答案准确性,并降低了推理延迟。我们的代码已公开提供。
近期,大型语言模型(LLMs)的进展在多个领域展现了显著能力,尤其在数学推理方面,其中几何问题求解仍是一个挑战性领域,辅助构造在其中扮演着关键角色。现有方法要么表现欠佳,要么依赖于大规模LLMs(如GPT-4o),导致巨大的计算成本。我们认为,结合可验证奖励的强化学习(如GRPO)为训练较小模型提供了有前景的方向,这些模型能有效融合辅助构造与稳健的几何推理。然而,直接将GRPO应用于几何推理存在根本性局限,因其依赖于无条件奖励,导致辅助构造不加区分且可能适得其反。针对这些挑战,我们提出了群组对比策略优化(GCPO),一种新颖的强化学习框架,具备两大创新点:(1) 群组对比掩码,根据上下文效用自适应地为辅助构造提供正负奖励信号;(2) 长度奖励,促进更长的推理链。基于GCPO,我们开发了GeometryZero,一系列规模适中的几何推理模型,它们能明智地决定何时采用辅助构造。我们在多个流行几何基准(Geometry3K, MathVista)上的广泛实证评估表明,GeometryZero模型持续超越基线(如GRPO),在所有基准上平均提升4.29%。
儘管人們對大型語言模型(LLMs)和智能體在特定領域的基準測試興趣日益增長,但目前的評估仍侷限於靜態、小規模的數據集,特別是在需要高可靠性的網絡操作等高風險任務中。我們提出了NetPress,這是一個用於評估網絡應用中LLM智能體的自動化基準生成框架。NetPress引入了一種包含狀態和動作的統一抽象,能夠動態生成多樣化的查詢集及其對應的真實答案。在運行時,用戶可以指定基準配置,以即時生成數百萬條查詢。除了動態基準構建外,NetPress還與網絡模擬器集成,提供真實的環境反饋,支持在正確性、安全性和延遲方面的全面評估。我們在三個代表性應用中實例化了NetPress,揭示了智能體行為中一些有趣且細微的差異,這些差異往往是靜態、僅關注正確性的基準測試所忽略的。NetPress推動了LLM評估向以基礎設施為中心的領域中的現實、可擴展測試邁進,有助於縮小基準測試性能與實際部署準備之間的差距。代碼可在https://github.com/Froot-NetSys/NetPress獲取。
我們提出了一種無需訓練的方法,通過正交匹配追蹤(OMP)重建未見詞元的嵌入,來移植預訓練大型語言模型(LLMs)中的分詞器。具體而言,我們將每個詞彙表外的詞元近似為共享詞元的稀疏線性組合,分為兩個階段:首先,使用少量共享錨定詞元的小字典計算每個新詞元在捐贈嵌入空間中的表示,然後將這些相同的稀疏係數轉移回基礎模型的嵌入空間。 在兩個具有挑戰性的跨分詞器任務——LlamatoMistral NeMo(12B)和QwentoLlama(1B)上,我們展示了OMP在多個基準測試中實現了最佳的零樣本性能保留,而其他零樣本方法則顯著退化。與基線方法(零初始化、均值初始化以及現有方法如WECHSEL、FOCUS、ZETT)相比,OMP始終實現最佳的整體性能,有效彌合了大型分詞器之間的差異,而無需梯度更新。我們的分析進一步指出,不匹配的數字分詞方案是保留數學推理能力的關鍵挑戰。該技術使得能夠直接重用預訓練模型權重與新分詞器,促進跨分詞器知識蒸餾、推測解碼、集成、合併以及特定領域詞彙適應。我們將該方法集成到開源工具mergekit-tokensurgeon中,用於事後詞彙重新對齊。
近期在對話式人工智慧領域取得了顯著進展,但開發用於感知任務指導的即時系統仍面臨挑戰。這些系統必須基於串流視覺輸入提供互動式、主動的協助,然而其開發受到數據收集和系統評估過程成本高昂且耗時的制約。為解決這些限制,我們提出了一個包含三大關鍵貢獻的綜合框架。首先,我們引入了一種新穎的數據策展管道,從註解的第一人稱視角影片中合成對話,從而產生了跨越多個領域的大規模合成對話數據集 \dataset。其次,我們開發了一套自動評估指標,並通過廣泛的人類研究進行了驗證。第三,我們提出了一個端到端模型,該模型處理串流視頻輸入以生成上下文適宜的回應,並整合了處理數據不平衡和長時間視頻的新技術。這項工作為開發能夠引導用戶完成多樣任務的即時、主動型AI助手奠定了基礎。項目頁面:https://pro-assist.github.io/
作为中华语言与文化的基石,汉字涵盖了极其广泛且不断扩展的类别,最新的GB18030-2022标准收录了87,887个字符类别。准确识别如此庞大的字符数量,即所谓的“超大类识别”,对于文化遗产保护与数字化应用而言,既是一项艰巨的挑战,又至关重要。尽管光学字符识别(OCR)技术已取得显著进展,但由于缺乏全面的数据集,超大类识别领域仍未被充分探索,现有最大数据集仅包含16,151个类别。为填补这一关键空白,我们推出了MegaHan97K,这是一个超大类、大规模的数据集,前所未有地覆盖了97,455个汉字类别。我们的工作贡献主要体现在三个方面:(1)MegaHan97K是首个完全支持最新GB18030-2022标准的数据集,提供的类别数量至少是现有数据集的六倍;(2)通过其三个独特子集——手写体、历史字体及合成字体子集,有效解决了长尾分布问题,为所有类别提供了均衡的样本;(3)全面的基准测试实验揭示了超大类场景下的新挑战,包括存储需求的增加、形态相似字符的识别以及零样本学习的困难,同时也为未来研究开辟了广阔机遇。据我们所知,MegaHan97K不仅在OCR领域,甚至可能在更广泛的模式识别领域中,都是类别数量最大的数据集。该数据集已公开于https://github.com/SCUT-DLVCLab/MegaHan97K。
大型語言模型(LLMs)的對齊對於確保其在實際應用中的安全性和可靠性至關重要。直接偏好優化(DPO)作為一種高效方法,通過直接利用偏好對來優化模型,顯著降低了資源需求。然而,DPO的效果在很大程度上依賴於數據質量,而數據質量常因噪聲而受到影響。在本研究中,我們提出了gamma-PO,這是一種動態目標邊際偏好優化算法,能在配對層面調整獎勵邊際。通過引入實例特定的邊際校準,gamma-PO策略性地優先處理高置信度對(即展示較高獎勵邊際的配對),同時抑制來自模糊配對的潛在噪聲。此外,gamma-PO是一種即插即用的方法,與依賴於偏好對之間獎勵邊際的DPO變體兼容。在AlpacaEval2和Arena-Hard等基準測試中,gamma-PO相較於其他基線平均提升了4.4%,為最新技術性能樹立了新標杆。此外,gamma-PO僅需極少的代碼改動,對訓練效率的影響微乎其微,使其成為增強LLMs對齊的強大解決方案。我們的代碼可在https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}獲取。
多模态大型語言模型(MLLMs)正日益被部署於開放且真實的環境中,這些環境中的輸入數據往往雜亂無章、定義不明,且並非總是可信。與精心設計的基準測試不同,這些情境經常涉及指令,這些指令可能指向缺失的對象或矛盾的事實,依賴於模糊的參考,或要求不可行的行動。在這種情況下,成功的關鍵不僅在於任務的執行,還在於模型能否察覺到某些情況在無聲中出錯。本文系統地分析了當前MLLMs如何處理這類隱含推理場景:即缺陷未被明確指出,但必須從上下文中推斷出來的情況。通過使用一套涵蓋四類現實世界故障模式的診斷工具,我們評估了包括o3和GPT-4o在內的六種MLLMs,發現這些模型經常未能揭示隱藏的問題,即使它們具備必要的感知和推理能力。明確的提示顯示,這些底層能力確實存在,但往往被壓制以順應用戶需求。我們進一步展示,簡單的推理時干預措施,如謹慎的角色提示,尤其是要求澄清問題,可以顯著恢復性能。我們的研究結果凸顯了當前MLLMs在推理能力與行為順從性之間存在的持續差距,並提出了在約束不足的環境中使這些模型更加可信的實用策略。
大型语言模型(LLMs)常拒绝响应伪恶意指令:这些语义无害的输入查询因保守的安全对齐机制触发不必要的LLM拒绝,严重损害了用户体验。收集此类指令对于评估和缓解过度拒绝至关重要,但现有的指令整理方法,如手动创建或指令重写,要么缺乏可扩展性,要么无法生成足够多样且有效的诱发拒绝提示。为解决这些局限,我们引入了EVOREFUSE,一种提示优化方法,能生成多样化的伪恶意指令,持续引发LLMs的自信拒绝。EVOREFUSE采用进化算法,通过变异策略和重组,在指令空间中探索比现有方法更多样化的方向,并迭代进化种子指令,以最大化LLM拒绝概率的证据下界。利用EVOREFUSE,我们创建了两个新颖的数据集:EVOREFUSE-TEST,一个包含582条伪恶意指令的基准测试集,在9个LLMs上平均拒绝触发率高出次优基准140.41%,词汇多样性提升34.86%,LLM响应置信度得分提高40.03%;以及EVOREFUSE-ALIGN,提供3000条带响应的伪恶意指令,用于监督和基于偏好的对齐训练。在EVOREFUSE-ALIGN上监督微调的LLAMA3.1-8B-INSTRUCT,在不牺牲安全性的前提下,比在次优对齐数据集上训练的模型减少了多达14.31%的过度拒绝。通过EVOREFUSE-TEST的分析,我们发现模型因过度关注敏感关键词而忽视更广泛的上下文,从而触发过度拒绝。
近年來,大型語言模型(LLMs)在多種自然語言處理(NLP)任務中展現了令人矚目的能力。然而,其對越獄和擾動的易感性要求進行額外的評估。許多LLMs是多語言的,但與安全性相關的訓練數據主要包含如英語等高資源語言。這可能使它們在波蘭語等低資源語言中易受擾動影響。我們展示了如何通過僅更改少數字符並使用一個小型代理模型進行詞重要性計算,來低成本地創建出驚人強大的攻擊。我們發現,這些字符和詞級別的攻擊會顯著改變不同LLMs的預測,表明存在一種潛在的脆弱性,可用於繞過其內部的安全機制。我們在波蘭語這一低資源語言上驗證了我們的攻擊構建方法,並發現了LLMs在該語言中的潛在脆弱性。此外,我們展示了如何將此方法擴展至其他語言。我們發布了創建的數據集和代碼,以供進一步研究。
大型多模态模型(LMMs)常依赖上下文学习(ICL)以在最小监督下执行新任务。然而,ICL的表现,特别是在较小型的LMMs中,并不稳定,且不总是随示例增加而单调提升。我们假设,这是由于LMM被图像嵌入中额外的信息所淹没,而这些信息对于下游任务并非必需。为解决此问题,我们提出了一种元学习方法,该方法通过从任务相关的图像特征中提炼出一组固定的软提示,并在测试时利用少量示例进行适配,为LMMs提供了一种诱导少样本能力的替代方案。为促进这一提炼过程,我们引入了一个注意力映射模块,该模块可轻松集成至流行的LLaVA v1.5架构中,并与软提示共同学习,使得LMMs在低数据条件下仅需少量梯度步骤即可实现任务适应。在VL-ICL基准上的评估表明,我们的方法在图像扰动下仍持续优于ICL及相关的提示调优方法,提升了视觉问答任务中的任务诱导与推理能力。