每日精選AI研究論文及翻譯
我們提出了Story2Board,這是一個無需訓練的框架,用於從自然語言生成富有表現力的故事板。現有方法過於專注於主體身份,而忽略了視覺敘事的關鍵方面,如空間構圖、背景演變和敘事節奏。為解決這一問題,我們引入了一個輕量級的一致性框架,該框架由兩個組件組成:潛在面板錨定(Latent Panel Anchoring),用於在面板間保持共享的角色參考;以及互惠注意力值混合(Reciprocal Attention Value Mixing),它通過強互惠注意力軟性融合視覺特徵對。這些機制共同增強了連貫性,無需架構更改或微調,使最先進的擴散模型能夠生成視覺多樣且一致的故事板。為了結構化生成,我們使用現成的語言模型將自由形式的故事轉換為具體的面板級提示。為了評估,我們提出了豐富故事板基準(Rich Storyboard Benchmark),這是一套開放域敘事,旨在評估佈局多樣性和基於背景的敘事,以及一致性。我們還引入了一種新的場景多樣性指標,用於量化故事板間的空間和姿勢變化。我們的定性和定量結果,以及用戶研究,表明Story2Board生成的故事情節比現有基線更動態、連貫且敘事引人入勝。
大型語言模型(LLMs),尤其是如DeepSeek-R1和QWQ這類顯式長鏈思維(CoT)推理模型,已展現出強大的推理能力,在常識推理和數學推斷中取得了令人印象深刻的表現。儘管這些長鏈CoT推理模型效果顯著,但它們在知識密集型領域(如分子發現)中的能力和效率常受到批評。要在這一領域取得成功,需要對領域知識(包括分子結構和化學原理)有精確的理解,這由於分子數據固有的複雜性和高質量專家註解的稀缺性而具有挑戰性。為彌合這一差距,我們引入了Mol-R1,這是一個旨在提升類似R1的顯式長鏈CoT推理LLMs在基於文本的分子生成中的可解釋性和推理性能的新框架。我們的方法始於通過先驗調節的上下文蒸餾(PRID)策劃的高質量推理數據集,這是一種專門的蒸餾策略,旨在有效生成由先驗調節指導的配對推理軌跡。在此基礎上,我們引入了MoIA,即分子迭代適應,這是一種精細的訓練策略,它迭代地結合了監督微調(SFT)與強化策略優化(RPO),專門用於提升類似R1的推理模型在分子發現中的推理性能。最後,我們檢驗了Mol-R1在基於文本的分子推理生成任務中的表現,顯示出相較於現有基線的優越性能。
生成與用戶指定身份相匹配的高保真人類視頻在生成式AI領域中既重要又具挑戰性。現有方法通常依賴過多的訓練參數,且與其他AIGC工具的兼容性不足。本文提出Stand-In,一個輕量級即插即用的框架,用於視頻生成中的身份保持。具體而言,我們在預訓練的視頻生成模型中引入了一個條件圖像分支。通過帶有條件位置映射的限制性自注意力機制實現身份控制,並且僅需2000對數據即可快速學習。儘管僅引入並訓練了約1%的額外參數,我們的框架在視頻質量和身份保持方面取得了優異成果,超越了其他全參數訓練方法。此外,我們的框架還能無縫整合到其他任務中,如主體驅動視頻生成、姿勢參考視頻生成、風格化以及面部替換。
我们推出了M3-Agent,一种配备长期记忆的新型多模态代理框架。与人类相似,M3-Agent能够处理实时的视觉和听觉输入,以构建并更新其长期记忆。除了情景记忆外,它还发展出语义记忆,使其能够随时间积累世界知识。其记忆以实体为中心、多模态的形式组织,从而实现对环境更深层次且一致的理解。在接收到指令后,M3-Agent自主进行多轮迭代推理,并从记忆中检索相关信息以完成任务。为了评估多模态代理中记忆的有效性及基于记忆的推理能力,我们开发了M3-Bench,一个全新的长视频问答基准测试。M3-Bench包含100段新录制的从机器人视角捕捉的真实世界视频(M3-Bench-robot)以及929段来自网络、涵盖多种场景的视频(M3-Bench-web)。我们标注了旨在测试代理应用关键能力的问答对,如人类理解、通用知识提取和跨模态推理。实验结果显示,通过强化学习训练的M3-Agent,在M3-Bench-robot、M3-Bench-web和VideoMME-long上分别比使用Gemini-1.5-pro和GPT-4o的最强基线提示代理高出6.7%、7.7%和5.3%的准确率。我们的工作推动了多模态代理向更接近人类长期记忆的方向发展,并为其实际设计提供了洞见。模型、代码及数据可在https://github.com/bytedance-seed/m3-agent获取。
扩散大语言模型(dLLMs)作为自回归(AR)LLMs在文本生成领域的一个有前景的替代方案崭露头角,其潜力在于能够单次迭代解码多个令牌。然而,现有的开源dLLMs在推理速度上均未能超越相似规模的自回归LLMs。本文基于一种简单而有效的策略——离散扩散强制(D2F),成功突破了这一障碍。D2F赋予dLLMs两大关键能力:(1)通过块级自回归生成实现KV缓存的有效利用;(2)无需完成前序块即可预测后续令牌,从而实现块间并行解码。由此,原始的dLLMs被改造为一种AR-扩散混合范式,以支持高效推理。D2F可通过基于预训练dLLMs的非对称蒸馏过程实现。我们进一步提出了一种流水线并行解码算法,在效率与效果之间实现了平衡。实证表明,采用D2F的dLLMs在GSM8K数据集上的推理速度较LLaMA3和Qwen2.5提升了超过2.5倍。与LLaDA和Dream等原始dLLMs相比,在保持输出质量相当的同时,加速效果可超过50倍。相关代码已发布于https://github.com/zhijie-group/Discrete-Diffusion-Forcing。
大型語言模型(LLMs)的快速發展,使得智能代理能夠利用多樣化的外部工具來解決複雜的現實世界問題。然而,隨著代理日益依賴多種工具,它們面臨新的挑戰:來自不同來源的擴展上下文以及工具輸出的噪聲或不相關性,可能削弱系統的可靠性和準確性。這些挑戰凸顯了增強基於代理的系統穩定性的必要性。為此,我們引入了動態監督與調控機制,在AWorld框架內構建了一個堅固且動態的多代理系統(MAS)架構。在我們的方法中,執行代理在關鍵步驟調用守護代理,以驗證並修正推理過程,有效減少由噪聲引起的錯誤,並增強問題解決的魯棒性。在GAIA測試數據集上的大量實驗表明,我們的動態調控機制顯著提升了解決方案的有效性和穩定性,超越了單代理系統(SAS)和標準工具增強系統。因此,我們的動態MAS系統在著名的GAIA排行榜上取得了開源項目中的首位。這些發現強調了協作代理角色在開發更可靠、更值得信賴的智能系統中的實用價值。
近期,GPT-4o在图像生成领域的卓越表现引起了广泛关注,然而开源模型仍显逊色。多项研究探索了从GPT-4o中蒸馏图像数据以提升开源模型性能,取得了显著进展。但一个核心问题依然存在:既然现实世界的图像数据集已是高质量数据的天然来源,为何还要使用GPT-4o生成的合成数据?本研究中,我们揭示了合成图像的两大关键优势。首先,它们能够补充现实数据集中罕见的场景,如超现实幻想或多参考图像生成,这些场景在用户查询中频繁出现。其次,合成图像提供了干净且可控的监督信号。现实数据常包含复杂的背景噪声及文本描述与图像内容之间的固有偏差,而合成图像则提供了纯净背景和长尾监督信号,有助于实现更精确的文本到图像对齐。基于这些洞见,我们推出了Echo-4o-Image,一个由GPT-4o生成的180K规模合成数据集,旨在利用合成图像数据的力量填补现实世界覆盖的盲区。利用此数据集,我们对统一多模态生成基线模型Bagel进行微调,得到了Echo-4o。此外,我们提出了两个新的评估基准,以更准确且具挑战性地评估图像生成能力:GenEval++,通过增加指令复杂度来缓解评分饱和现象;以及Imagine-Bench,专注于评估对创意内容的理解与生成能力。Echo-4o在标准基准测试中展现了强劲性能。更重要的是,将Echo-4o-Image应用于其他基础模型(如OmniGen2、BLIP3-o)时,在多项指标上均实现了性能提升,凸显了该数据集强大的可迁移性。
對齊方法論已成為提升語言模型對齊能力的關鍵途徑。雖然監督式微調(SFT)通過直接的詞元級損失干預加速了收斂,但其效能受制於離線策略軌跡。相比之下,強化學習(RL)促進了探索性策略優化,但存在樣本效率低且對高質量基礎模型依賴嚴格的問題。為應對這雙重挑戰,我們提出了群組相對對齊優化(GRAO),這是一個統一框架,通過三項關鍵創新協同SFT和RL的各自優勢:1)多樣本生成策略,通過獎勵反饋實現質量比較評估;2)新穎的群組直接對齊損失公式,利用組內相對優勢加權;3)基於成對偏好動態的參考感知參數更新。我們的理論分析確立了GRAO相較傳統方法的收斂保證和樣本效率優勢。在複雜的人類對齊任務上的全面評估顯示,GRAO表現出卓越性能,相較於SFT、DPO、PPO和GRPO基線,分別實現了57.70%、17.65%、7.95%和5.18%的相對提升。本工作不僅提供了一個理論基礎紮實的對齊框架,還為語言模型能力的高效進化提供了實證依據。
多模態大型語言模型(MLLMs)在現有的各種視覺數學推理基準測試中展現了卓越的能力。然而,這些基準測試主要基於乾淨或經過處理的多模態輸入,並未納入真實世界K-12教育用戶提供的圖像。為填補這一空白,我們引入了MathReal,這是一個精心策劃的數據集,包含2000道數學題目,這些題目的圖像均是在真實場景下通過手持移動設備拍攝的。每道題目都是一張圖像,包含題目文本和視覺元素。我們系統地將這些真實圖像分類為三大主要類別:圖像質量退化、視角變化和無關內容干擾,並進一步細分為14個子類別。此外,MathReal涵蓋了五個核心知識和能力類別,這些類別包含三種題型,並分為三個難度等級。為了全面評估最先進的MLLMs在真實場景中的多模態數學推理能力,我們設計了六種實驗設置,以便系統地分析其表現。通過大量實驗,我們發現現有MLLMs在真實教育情境中的解題能力面臨顯著挑戰。基於此,我們對其表現和錯誤模式進行了深入分析,提供了對其識別、理解和推理能力的見解,並為未來的改進方向提供了指導。數據和代碼請訪問:https://github.com/junfeng0288/MathReal。
大型語言模型(LLMs)在推理任務中展現了卓越的性能,其中強化學習(RL)作為提升其推理能力的關鍵算法。目前,存在兩種主流的獎勵範式:基於模型的獎勵和基於規則的獎勵。然而,這兩種方法都存在局限性:基於規則的獎勵缺乏魯棒性,而基於模型的獎勵容易受到獎勵欺騙的影響。為了解決這些問題,我們提出了Cooper(協同優化策略模型和獎勵模型),這是一個聯合優化策略模型和獎勵模型的RL框架。Cooper利用基於規則的獎勵在識別正確響應時的高精度,並動態構建和選擇正負樣本對以持續訓練獎勵模型。這一設計增強了魯棒性並降低了獎勵欺騙的風險。為了進一步支持Cooper,我們引入了一種混合註釋策略,高效且準確地生成獎勵模型的訓練數據。我們還提出了一種基於參考的獎勵建模範式,其中獎勵模型以參考答案作為輸入。基於這一設計,我們訓練了一個名為VerifyRM的獎勵模型,其在VerifyBench上的準確率優於同規模的其他模型。我們使用VerifyRM和Cooper進行了強化學習。實驗結果表明,Cooper不僅緩解了獎勵欺騙問題,還提升了端到端RL的性能,例如在Qwen2.5-1.5B-Instruct上實現了0.54%的平均準確率提升。我們的研究表明,動態更新獎勵模型是對抗獎勵欺騙的有效方法,為更好地將獎勵模型整合到RL中提供了參考。
測試時縮放的新範式在大型語言模型(LLMs,如推理模型)和生成視覺模型中取得了顯著突破,使模型能在推理過程中分配額外計算資源,有效應對日益複雜的問題。儘管這種方法帶來了改進,但一個重要限制也隨之顯現:計算時間的大幅增加使得該過程變得緩慢,對許多應用來說不切實際。鑑於這一範式的成功及其日益廣泛的應用,我們力求在保留其優勢的同時,避免推理開銷。在本研究中,我們提出了一種解決方案,旨在將測試時縮放的知識整合到模型後訓練階段。具體而言,我們用噪聲超網絡替代了擴散模型中的獎勵引導測試時噪聲優化,該網絡調製初始輸入噪聲。我們提出了一個理論基礎框架,通過一個可處理的噪聲空間目標,為蒸餾生成器學習這種獎勵傾斜分佈,既保持對基礎模型的忠實度,又優化期望特性。我們展示了該方法以極低的計算成本,恢復了顯式測試時優化帶來的大部分質量提升。代碼可在https://github.com/ExplainableML/HyperNoise獲取。
視覺語言模型(VLMs)在視覺定位等任務中取得了顯著進展,這些任務涉及根據自然語言查詢和圖像來定位特定對象。然而,VLMs在視覺定位任務中的安全性問題仍未得到充分探索,尤其是在後門攻擊的背景下。本文提出了一種新穎的輸入感知後門攻擊方法IAG,旨在操控VLMs的定位行為。該攻擊迫使模型在輸入圖像中定位特定目標對象,而無視用戶的查詢。我們提出了一種自適應觸發生成器,利用文本條件U-Net將攻擊目標描述的語義信息嵌入原始圖像,從而克服開放詞彙攻擊的挑戰。為了確保攻擊的隱蔽性,我們利用重建損失來最小化被污染圖像與乾淨圖像之間的視覺差異。此外,我們引入了一種統一的攻擊數據生成方法。IAG在理論和實證上均得到評估,證明了其可行性和有效性。值得注意的是,我們在InternVL-2.5-8B上的ASR@0.5在各種測試集上超過了65%。IAG在操控Ferret-7B和LlaVA-1.5-7B方面也顯示出良好的潛力,且對乾淨樣本的準確率下降極小。廣泛的具體實驗,如消融研究和潛在防禦,也表明了我們攻擊的魯棒性和可遷移性。
多模態大型語言模型(MLLMs)在視覺與文本理解的整合方面取得了顯著進展。然而,它們從多模態輸入生成程式碼的能力仍然有限。在本研究中,我們引入了VisCodex,這是一個無縫融合視覺與程式語言模型的統一框架,旨在賦予MLLMs強大的多模態程式碼生成能力。利用基於任務向量的模型融合技術,我們將最先進的程式碼LLM整合到一個強大的視覺語言骨幹中,同時保留了視覺理解與高級程式設計技能。為了支持訓練與評估,我們推出了多模態程式設計數據集(MCD),這是一個包含598k樣本的大規模多樣化集合,涵蓋高品質的HTML程式碼、圖表圖像-程式碼對、圖像增強的StackOverflow問答以及算法問題。此外,我們提出了InfiBench-V,這是一個新穎且具挑戰性的基準測試,專門設計用於評估模型在視覺豐富、現實世界的程式設計問題上的表現,這些問題需要對文本與視覺上下文有細緻的理解。大量實驗表明,VisCodex在開源MLLMs中達到了最先進的性能,並接近如GPT-4o等專有模型,這凸顯了我們模型融合策略與新數據集的有效性。
近期,文本到圖像(T2I)模型的進展使得無需訓練的區域圖像編輯成為可能,這主要依賴於基礎模型的生成先驗。然而,現有方法在平衡編輯區域的文本依從性、未編輯區域的上下文保真度以及編輯的無縫整合方面仍面臨挑戰。我們提出了CannyEdit,這是一種新穎的無訓練框架,通過兩項關鍵創新來應對這些挑戰:(1)選擇性Canny控制,該技術在用戶指定的可編輯區域內屏蔽Canny ControlNet的結構引導,同時通過反轉階段的ControlNet信息保留嚴格保護源圖像在未編輯區域的細節。這使得精確的、文本驅動的編輯成為可能,而不損害上下文的完整性。(2)雙提示引導,結合用於對象特定編輯的局部提示與全局目標提示,以維持場景交互的連貫性。在真實世界的圖像編輯任務(添加、替換、移除)中,CannyEdit超越了如KV-Edit等先前方法,在文本依從性和上下文保真度的平衡上實現了2.93%至10.49%的提升。在編輯無縫性方面,用戶研究顯示,當與未經編輯的真實圖像配對時,僅有49.2%的普通用戶和42.0%的AIGC專家能識別出CannyEdit的結果為AI編輯,而競爭對手方法的識別率則在76.08%至89.09%之間。
在快速發展的可解釋自然語言處理(NLP)領域中,文本解釋(即類人的推理)對於闡明模型預測並為數據集增添可解釋的標籤至關重要。傳統方法依賴於人工註釋,這種方式成本高昂、耗費人力,且阻礙了可擴展性。在本研究中,我們提出了一個自動化框架,該框架利用多種最先進的大型語言模型(LLMs)來生成高質量的文本解釋。我們使用一套全面的自然語言生成(NLG)指標嚴格評估這些LLM生成解釋的質量。此外,我們還探討了這些解釋在兩個多樣化的基準數據集上,對預訓練語言模型(PLMs)和LLMs在自然語言推理任務中表現的下游影響。我們的實驗表明,在提升模型性能方面,自動生成的解釋與人工註釋的解釋相比展現出極具競爭力的效果。我們的研究結果凸顯了一條有前景的途徑,即基於LLM的可擴展、自動化文本解釋生成,用於擴展NLP數據集並增強模型性能。
近年來,大型語言模型(LLMs)的關注度與應用日益增長,其中muTransfer技術已成為大規模訓練中超參數調優的關鍵手段。與此同時,混合專家模型(Mixture-of-Experts, MoE)在極大規模模型中嶄露頭角,成為領先的架構。然而,這兩項技術的交集尚未被深入探索。在本研究中,我們為MoE推導出一種mu參數化(mu-Parameterization, muP)方法,為路由器和專家模型中跨模型寬度的特徵學習提供了理論保證。我們通過實驗驗證了這一參數化方法,並進一步探討了專家數量與細粒度擴展如何影響最佳學習率。
通过可验证奖励的强化学习训练的大型语言模型,往往以牺牲准确性为代价换取长度——通过增加回答的长度来提升准确性。虽然对于更复杂的问题,较长的回答可能是必要的,但许多标记仅仅是“填充物”:重复、冗长的文本并未带来实质性的进展。我们引入了GFPO(群体过滤策略优化),通过在训练期间对每个问题进行更大规模的样本采样,并基于两个关键指标筛选训练响应来遏制这种长度膨胀:(1)响应长度和(2)标记效率:每标记的奖励比率。通过在训练时增加采样,我们教导模型在推理时减少思考。在Phi-4推理模型上,GFPO在具有挑战性的STEM和编程基准测试(AIME 24/25、GPQA、Omni-MATH、LiveCodeBench)中,将GRPO的长度膨胀减少了46-71%,同时保持了准确性。优化每标记的奖励进一步将长度膨胀的减少幅度提升至71-85%。我们还提出了自适应难度GFPO,它根据实时难度估计动态分配更多训练资源给更难的问题,特别是在难题上,改善了计算效率与准确性之间的平衡。GFPO证明了增加训练时的计算资源直接转化为减少测试时的计算需求——这是实现高效推理的一个简单而有效的权衡。
基於稀疏視角重建三維場景的三維高斯潑濺(3DGS)技術,由於信息不足,往往會產生明顯的偽影,這是一個病態問題。儘管近期研究嘗試利用生成先驗來補全約束不足區域的信息,但這些方法在生成與輸入觀測保持一致的內容方面仍面臨挑戰。為解決這一難題,我們提出了GSFixer,這是一個旨在提升從稀疏輸入重建的3DGS表示質量的新穎框架。我們方法的核心是基於參考引導的視頻修復模型,該模型建立在一個DiT基礎的視頻擴散模型之上,該模型在配對的偽影3DGS渲染圖與乾淨幀以及附加的基於參考的條件下進行訓練。將輸入的稀疏視角視為參考,我們的模型整合了從視覺幾何基礎模型中提取的參考視角的二維語義特徵和三維幾何特徵,從而增強了在修復偽影新視角時的語義連貫性和三維一致性。此外,考慮到缺乏適合評估3DGS偽影修復的基準,我們提出了DL3DV-Res,其中包含了使用低質量3DGS渲染的偽影幀。大量實驗證明,我們的GSFixer在3DGS偽影修復和稀疏視角三維重建方面超越了當前最先進的方法。項目頁面:https://github.com/GVCLab/GSFixer。
本文首次提出了一种去中心化方法,使微型飞行器(MAV)团队能够实现对缆绳悬挂负载的六自由度(6-DoF)实时操控。我们的方法利用多智能体强化学习(MARL)为每个MAV训练一个外环控制策略。与采用集中式方案的最先进控制器不同,我们的策略无需全局状态、MAV间通信或邻近MAV信息。相反,智能体仅通过负载姿态观测进行隐式通信,这赋予了系统高度的可扩展性和灵活性。同时,该方法显著降低了推理时的计算成本,使得策略能够在机载设备上部署。此外,我们为MAV引入了一种新的动作空间设计,采用线性加速度和机体角速率。这一选择,结合鲁棒的低级控制器,确保了在动态三维运动中尽管存在由缆绳张力引起的显著不确定性,仍能实现可靠的仿真到现实迁移。我们通过一系列真实世界实验验证了该方法,包括在负载模型不确定性下的全姿态控制,展示了与最先进集中式方法相当的设定点跟踪性能。我们还展示了具有异构控制策略的智能体之间的协作,以及对单个MAV完全失联的鲁棒性。实验视频请访问:https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
精確的病灶切除依賴於對細粒度解剖結構的準確識別。雖然許多粗粒度分割(CGS)方法在大規模分割(如器官)中取得了成功,但在需要細粒度分割(FGS)的臨床場景中,它們卻表現不足,這是由於小尺度解剖結構中頻繁的個體差異所帶來的挑戰。儘管基於Mamba的最新模型在醫學影像分割方面取得了進展,但它們通常依賴於固定的人工定義掃描順序,這限制了它們在FGS中對個體差異的適應能力。為解決這一問題,我們提出了ASM-UNet,一種新穎的基於Mamba的FGS架構。它引入了自適應掃描分數,通過結合群體層面的共性與個體層面的差異,動態指導掃描順序。在兩個公開數據集(ACDC和Synapse)以及新提出的具有挑戰性的膽道系統FGS數據集(即BTMS)上的實驗表明,ASM-UNet在CGS和FGS任務中均達到了優異的性能。我們的代碼和數據集可在https://github.com/YqunYang/ASM-UNet獲取。
成員推斷攻擊作為公平使用語言模型的有用工具,例如檢測潛在的版權侵權和審計數據洩露。然而,許多當前最先進的攻擊需要訪問模型的隱藏狀態或概率分佈,這阻礙了對更廣泛使用的、僅通過API訪問的模型(如GPT-4)的調查。在本研究中,我們引入了N-Gram覆蓋攻擊,這是一種僅依賴於目標模型文本輸出的成員推斷攻擊,使得對完全黑箱模型的攻擊成為可能。我們利用了一個觀察結果,即模型更有可能記住並隨後生成在其訓練數據中常見的文本模式。具體來說,為了對候選成員進行預測,N-Gram覆蓋攻擊首先獲取基於候選前綴的多個模型生成文本。然後,它使用n-gram重疊度量來計算並聚合這些輸出與真實後綴的相似性;高相似性表明可能的成員身份。我們首先在現有的多樣化基準上展示了N-Gram覆蓋攻擊優於其他黑箱方法,同時令人印象深刻地達到了與最先進的白箱攻擊相當甚至更好的性能——儘管僅能訪問文本輸出。有趣的是,我們發現我們方法的成功率隨著攻擊計算預算的增加而提高——隨著我們增加基於前綴從目標模型生成的序列數量,攻擊性能往往會提升。在驗證了我們方法的準確性後,我們使用它來調查多個領域中先前未研究的封閉OpenAI模型。我們發現,較新的模型(如GPT-4o)對成員推斷表現出更高的魯棒性,這表明隱私保護的改進趨勢正在演進。
大型語言模型(LLMs)通常通過一個兩階段流程進行推理任務的微調,即先進行監督式微調(SFT),再進行強化學習(RL),這一過程常伴隨著災難性遺忘以及模仿與探索之間次優的權衡問題。近期的單階段方法嘗試利用啟發式策略統一SFT與RL,但缺乏一種原則性的機制來動態平衡這兩種範式。本文中,我們通過隱性獎勵的理論視角重新審視這一挑戰,將SFT與RL視為互補的獎勵信號,而非截然不同的方法。我們提出了自適應元微調(AMFT),這是一種新穎的單階段算法,它學習SFT的隱性路徑級獎勵與RL的顯性基於結果的獎勵之間的最優平衡。AMFT的核心是一個元梯度自適應權重控制器,它將SFT-RL平衡視為可學習參數,並動態優化以最大化長期任務表現。這一前瞻性方法,通過策略熵進行正則化以確保穩定性,自主發現了有效的訓練課程。我們在涵蓋數學推理、抽象視覺推理(General Points)及視覺語言導航(V-IRL)的挑戰性基準上進行了全面評估。AMFT在這些任務上持續創建了新的技術標杆,並在分佈外(OOD)任務上展現出卓越的泛化能力。消融研究與訓練動態分析證實,元學習控制器對於AMFT的穩定性、樣本效率及性能至關重要,為LLM對齊提供了一種更為原則性且有效的範式。我們的代碼已通過https://github.com/hlxtsyj/AMFT開源。
大型語言模型(LLMs)的迅速普及,極大地促進了能夠進行事實問答(QA)的公平AI系統的發展。然而,目前尚無已知研究測試LLMs在面對模糊化問題時的穩健性。為系統性地評估這些限制,我們提出了一種新技術——ObfusQAte,並基於此引入了ObfusQA,這是一個首創的、全面的框架,具有多層次的模糊化級別,旨在從三個不同維度檢驗LLM的能力:(i)命名實體間接性,(ii)干擾項間接性,以及(iii)上下文過載。通過捕捉語言中的這些細微差別,ObfusQA為評估LLM的穩健性和適應性提供了一個全面的基準。我們的研究發現,當面對這些日益細膩的變體時,LLMs往往會失敗或產生虛構的回應。為推動這一方向的研究,我們將ObfusQAte公開提供。