每日精選AI研究論文及翻譯
层次推理模型(HRM)是一种创新方法,它利用两个小型神经网络以不同频率进行递归运算。这一受生物学启发的技术,在诸如数独、迷宫及ARC-AGI等复杂谜题任务上,超越了大型语言模型(LLMs)的表现,而其所依赖的仅是小型模型(2700万参数)和少量数据(约1000个示例)。HRM在利用小型网络解决难题方面展现出巨大潜力,但其机制尚未被充分理解,且可能存在优化空间。我们提出了微型递归模型(TRM),这是一种更为简洁的递归推理方法,仅采用一个仅含两层的微型网络,便实现了比HRM更高的泛化能力。TRM仅需700万参数,在ARC-AGI-1和ARC-AGI-2测试集上分别取得了45%和8%的准确率,这一成绩超越了多数LLMs(如Deepseek R1、o3-mini、Gemini 2.5 Pro),而其参数数量却不足这些模型的0.01%。
成果驱动的强化学习已在大规模语言模型(LLMs)中推动了推理能力的进步,但当前主流的工具增强方法训练的是一个单一的、整体性的策略,该策略在完整上下文中交替进行思考与工具调用;这种做法在面对长时程任务和多样化工具时扩展性差,且在新场景下的泛化能力弱。代理系统通过将工作分解至专门模块提供了一种有前景的替代方案,然而大多数系统仍保持无训练状态或依赖于与多轮交互实时动态脱节的离线训练。我们引入了AgentFlow,一个可训练的、实时流动的代理框架,它通过一个不断演进的记忆协调四个模块(规划器、执行器、验证器、生成器),并直接在多轮循环中优化其规划器。为了在实时环境中进行策略内训练,我们提出了基于流动的群体精炼策略优化(Flow-GRPO),该方法通过将多轮优化转化为一系列可处理的单轮策略更新,解决了长时程、稀疏奖励的信用分配问题。它向每一轮广播一个单一、可验证的轨迹级成果,以局部规划决策与全局成功对齐,并通过群体归一化优势稳定学习过程。在十个基准测试中,配备7B规模骨干的AgentFlow在搜索、代理、数学及科学任务上的平均准确率分别提升了14.9%、14.0%、14.5%和4.1%,超越了包括GPT-4o在内的更大规模专有模型。进一步分析证实了实时流动优化的益处,显示出规划能力的提升、工具调用可靠性的增强,以及随模型规模和推理轮次增加的正向扩展性。
工具集成推理已成為實現代理應用的關鍵焦點。其中,深度研究代理因其在複雜、開放式信息搜尋任務中的卓越表現而受到廣泛關注。我們介紹了Fathom-DeepResearch,這是一個由兩個專門模型組成的代理系統。第一個是Fathom-Search-4B,這是一個基於Qwen3-4B訓練的深度搜尋模型,專為通過實時網絡搜尋和目標網頁查詢進行基於證據的調查而優化。其訓練結合了三項創新:(i) DUETQA,一個通過多代理自我對抗生成的5K樣本數據集,強制依賴網絡搜尋並實現異質來源的基礎;(ii) RAPO,GRPO的零開銷擴展,通過課程修剪、獎勵感知的優勢縮放和每提示重放緩存來穩定多輪可驗證獎勵的強化學習;(iii) 可引導的步驟級獎勵,根據認知行為和邊際效用對每個工具調用進行分類,從而實現對搜尋軌跡廣度、深度和視野的明確控制。這些改進使得在必要時能夠可靠地將工具調用擴展至超過20次。第二個是Fathom-Synthesizer-4B,基於Qwen3-4B訓練,將多輪深度搜尋軌跡轉換為結構化、引用密集的深度研究報告,以實現全面綜合。在深度搜尋基準(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue)和DeepResearch-Bench上的評估顯示,該系統在開放權重類別中達到了最先進的性能,同時在包括HLE、AIME-25、GPQA-Diamond和MedQA在內的多樣化推理任務中展現出強大的泛化能力。
過程獎勵模型(PRMs)近期已成為增強大型推理模型(LRMs)推理能力的強大框架,特別是在測試時擴展(TTS)的背景下。然而,其在監督LRMs進行表格推理領域的潛力仍未得到充分探索。通過詳細的實證分析,我們發現現有的PRMs雖然廣泛應用於監督純文本推理步驟,但在處理表格特定操作(如子表檢索和模式交互)時存在困難,導致關鍵的性能瓶頸。為解決這一限制,我們提出了TaTToo,一個新穎的基於表格的PRM框架,該框架(i)明確地對表格推理步驟進行推理,並(ii)整合基於工具的驗證以提供精確的獎勵監督。具體而言,我們首先設計了一個可擴展的數據整理管道,通過將表格驗證理由與基於工具的執行相結合,構建了超過60k的高質量步驟級註釋。基於收集的數據,我們採用雙階段範式訓練TaTToo:冷啟動監督微調以捕捉工具使用的推理模式,隨後進行基於工具獎勵塑造的強化學習,以將我們的模型與基於表格的驗證對齊。我們對新設計的PRM所引致的策略改進進行了全面評估。在涵蓋數值推理、事實核查和數據分析的5個具有挑戰性的表格推理基準測試中,TaTToo在推理時將下游策略LRMs提升了30.9%,僅以8B參數超越了如Qwen-2.5-Math-PRM-72B等強大的PRM基線,並在多樣化的TTS策略中展現出強大的泛化能力。
自迴歸(AR)大型語言模型(LLMs)在多種自然語言任務中取得了顯著的性能,然而其固有的序列解碼限制了推理效率。在本研究中,我們提出了Fast-dLLM v2,這是一種精心設計的區塊擴散語言模型(dLLM),它有效地將預訓練的AR模型轉化為用於並行文本生成的dLLM,僅需約10億個標記的微調。這與全注意力擴散LLM(如Dream,需5800億個標記)相比,訓練數據量減少了500倍,同時保持了原始模型的性能。我們的方法引入了一種新穎的訓練策略,將區塊擴散機制與互補的注意力掩碼相結合,實現了區塊級雙向上下文建模,而不犧牲AR訓練目標。為了進一步加速解碼,我們設計了一種分層緩存機制:區塊級緩存存儲跨區塊的歷史上下文表示,以及子區塊緩存,使得在部分解碼的區塊內實現高效的並行生成。結合我們的並行解碼管道,Fast-dLLM v2在不影響生成質量的情況下,相比標準AR解碼實現了高達2.5倍的加速。在多樣化的基準測試中進行的廣泛實驗表明,Fast-dLLM v2在準確性上匹配或超越了AR基線,同時在dLLM中提供了最先進的效率——這標誌著快速且準確的LLM實際部署邁出了重要的一步。代碼和模型將公開發布。
扩散语言模型承诺提供自回归编码器所缺乏的双向上下文和填充能力,然而实际系统仍显笨重。我们推出了CoDA,一个拥有17亿参数、在TPU上训练且具备完全开源训练流程的扩散编码器。CoDA将大规模扩散预训练与以代码为中心的中期训练及指令微调相结合,实现了保持推理延迟竞争力的信心引导采样。在Humaneval、MBPP和EvalPlus基准测试中,CoDA-1.7B-Instruct的表现与参数高达70亿的扩散模型相当或更优。我们的发布内容包括模型检查点、评估框架及TPU训练流程,旨在加速基于轻量级扩散编码助手的研究进展。
扩散与基于流的非自回归(NAR)模型在大规模语言建模中展现出显著潜力,然而,其在自动语音识别(ASR)领域的应用潜力尚待深入挖掘。本文提出Drax,一种面向ASR的离散流匹配框架,旨在实现高效的并行解码。为了更佳地协调训练与推理过程,我们构建了一种音频条件概率路径,该路径引导模型穿越一系列模拟可能中间推理误差的轨迹,而非直接从随机噪声向目标状态过渡。理论分析揭示了泛化差距与训练推理占据度之间的差异,这一差异受累积速度误差调控,从而为我们的设计选择提供了理论依据。实证评估表明,我们的方法在识别准确率上可与最先进的语音模型相媲美,同时提供了更优的准确率与效率权衡,凸显了离散流匹配作为推动NAR ASR发展的一个富有前景的方向。
推理模型通过逐步解决问题的方式提升性能,将问题分解为子问题,并在生成答案之前探索长链的思维过程。然而,将扩展推理应用于每一步会引入大量冗余,因为子问题的难度和复杂性差异显著:少数关键步骤对最终答案具有真正的挑战性和决定性,而其他许多步骤仅涉及直接的修正或简单的计算。因此,一个自然的想法是赋予推理模型适应这种变化的能力,而不是对所有步骤采用相同的详细程度。为此,我们提出了MixReasoning框架,该框架在单个响应中动态调整推理的深度。由此产生的思维链便成为对困难步骤的详细推理与对简单步骤的简洁推理的混合体。在GSM8K、MATH-500和AIME上的实验表明,MixReasoning缩短了推理长度,并在不牺牲准确性的前提下显著提高了效率。
推理能力對於大型語言模型(LLMs)解決複雜任務至關重要,然而實現可靠且可擴展的推理仍具挑戰性。儘管思維鏈(Chain-of-Thought, CoT)提示已成為主流方法,現有方法常面臨生成不可控、質量不足及推理路徑多樣性有限的問題。近期研究利用代碼來增強CoT,通過將推理基於可執行的步驟,但此類方法通常受限於預定義的數學問題,阻礙了其可擴展性和泛化能力。本文提出Caco(Code-Assisted Chain-of-ThOught),一種新穎的框架,通過代碼驅動的增強自動化合成高質量、可驗證且多樣化的指令-CoT推理數據。與先前工作不同,Caco首先在統一代碼格式下對基於代碼的CoT生成器進行微調,利用現有的數學和編程解決方案,隨後將數據生成擴展至大量多樣化的推理軌跡。關鍵在於,我們引入了通過代碼執行和基於規則的過濾進行自動化驗證,以確保邏輯正確性和結構多樣性,繼而將過濾後的輸出逆向工程為自然語言指令和語言CoT,從而豐富任務適應性。這一閉環過程實現了完全自動化、可擴展的推理數據合成,並保證了可執行性。在我們創建的Caco-1.3M數據集上的實驗表明,經Caco訓練的模型在數學推理基準測試中表現出強勁的競爭力,超越了現有的強基線。進一步分析揭示,Caco的代碼錨定驗證和指令多樣性有助於在未見任務上實現優越的泛化能力。我們的工作為構建無需人工干預、自我維持且可信賴的推理系統確立了範式。
大型語言模型(LLMs)在單輪文本到SQL任務中展現了卓越的性能,但現實世界的數據庫應用主要需要多輪互動來處理模糊查詢、執行錯誤和不斷變化的用戶需求。現有的多輪基準測試存在不足,它們將對話歷史視為靜態上下文或將評估限制在只讀操作上,未能反映生產級數據庫助手所面臨的挑戰。我們引入了BIRD-INTERACT,這是一個通過以下方式恢復真實性的基準測試:(1) 一個全面的互動環境,將每個數據庫與分層知識庫、元數據文件和功能驅動的用戶模擬器相結合,使模型能夠在無人監督的情況下請求澄清、檢索知識並從錯誤中恢復;(2) 兩種評估設置,包括預定義的對話協議(c-Interact)和開放式的代理設置(a-Interact),在後者中模型自主決定何時查詢用戶模擬器或探索環境;(3) 一個涵蓋業務智能和操作用例的完整CRUD範圍的挑戰性任務套件,並由可執行的測試用例保護。每個任務都包含需要動態互動的模糊和後續子任務。該套件包括BIRD-INTERACT-FULL(600個任務,最多11,796次互動)用於全面性能評估,以及BIRD-INTERACT-LITE(300個任務,簡化數據庫)用於詳細行為分析和快速方法開發。我們的實證結果突顯了BIRD-INTERACT的難度:GPT-5在c-Interact中僅完成8.67%的任務,在a-Interact中完成17.00%。通過記憶嫁接和互動測試時間縮放的分析,驗證了有效互動對於複雜、動態的文本到SQL任務的重要性。
視頻條件下的四維形狀生成旨在直接從輸入視頻中恢復時變的三維幾何結構與視角一致的外觀。本研究提出了一種原生視頻至四維形狀生成框架,該框架能夠端到端地從視頻中合成單一的動態三維表示。我們的框架基於大規模預訓練的三維模型,引入了三個關鍵組件:(i) 一種時間注意力機制,該機制在生成過程中考慮所有幀,同時產生時間索引的動態表示;(ii) 一種時間感知的點採樣與四維潛在錨定技術,以促進時間上一致的幾何與紋理;(iii) 跨幀的噪聲共享,以增強時間穩定性。我們的方法無需逐幀優化,便能精確捕捉非剛性運動、體積變化乃至拓撲轉變。在多樣化的真實世界視頻中,與基線方法相比,我們的方法提升了魯棒性與感知保真度,並減少了失敗模式。
近期的大型语言模型(LLM)后训练方法在强化学习(RL)过程中依赖于基于词元的裁剪机制。然而,我们发现了这种基于结果监督的强化学习(OSRL)范式中的一个根本性缺陷:正优势词元的重要性采样(IS)比率不匹配,导致正负词元的权重分配失衡。这种不匹配抑制了低概率词元的更新,同时过度放大了已高概率词元的影响。为解决这一问题,我们提出了非对称重要性采样策略优化(ASPO),采用了一种简单而有效的策略,即翻转正优势词元的IS比率,使其更新方向与负词元的学习动态保持一致。ASPO进一步引入了软双裁剪机制,以稳定极端更新,同时保持梯度流动。在编码和数学推理基准上的全面实验表明,ASPO显著缓解了早熟收敛问题,提升了训练稳定性,并在基于GRPO的强基线基础上提高了最终性能。我们的分析为OSRL中词元级权重的作用提供了新的见解,并强调了在LLM RL中校正IS的至关重要性。ASPO的代码和模型可在https://github.com/wizard-III/Archer2.0获取。
学术论文的推广已成为提升研究可见度的重要手段。然而,现有的自动化方法在叙事连贯性、美学质量不足及自我调整受限等方面面临挑战,难以实现高效且引人入胜的传播。这些挑战的核心在于一个简单原则:无法正确评估便无从改进。为此,我们提出了EvoPresent,一个自我改进的代理框架,通过虚拟角色统一了连贯的叙事、美学感知的设计及逼真的演示呈现。EvoPresent的核心是PresAesth,一个多任务强化学习(RL)美学模型,它提供了可靠的美学评分、缺陷调整及比较反馈,即使在有限的美学训练数据下也能实现迭代自我改进。为了系统评估这些方法,我们引入了EvoPresent基准,这是一个综合基准,包括:基于650篇顶级AI会议论文的多模态资源(幻灯片、视频和脚本)构建的演示生成质量评估,以及由2000对美学水平各异的幻灯片组成的美学意识评估,支持在评分、缺陷调整和比较任务上的联合训练与评估。我们的研究结果表明:(i)高质量的反馈对于代理自我改进至关重要,而初始能力本身并不保证有效的自我纠正。(ii)自动化生成管道在视觉设计与内容构建之间存在权衡。(iii)多任务RL训练在美学意识任务中展现出更强的泛化能力。
近期生成医学模型的进展受限于特定模态场景,这阻碍了从影像、病理及临床笔记中整合互补证据的能力。此种碎片化限制了它们向能够跨生物医学数据全谱学习与推理的基础模型演进。我们提出了MeDiM,首个无需特定模态组件即可跨模态学习共享分布的医学离散扩散模型。MeDiM统一了多项生成任务:实现图像与文本间的转换,并响应提示跨领域联合生成图像-报告对。基于离散扩散框架,MeDiM通过共享概率空间桥接视觉与语言表征。为实现统一且灵活的医学生成,我们采用多模态大语言模型(MLLM)作为扩散主干,利用其先验知识与跨模态推理能力。两项关键设计被引入:(1)移除因果注意力掩码以实现双向上下文理解,(2)注入连续时间步嵌入以增强扩散感知。实验展示了高保真度的医学生成(MIMIC-CXR上FID 16.60,PathGen上FID 24.19)及准确的报告生成(METEOR 0.2650与0.2580)。联合生成的图像-报告对进一步提升了下游性能(BLEU-1提升6.43%,BLEU-2提升18.57%,BLEU-3提升31.58%,METEOR提升4.80%),表明MeDiM支持连贯且临床依据充分的多模态输出。
多模態大型語言模型(MLLMs)近期在放射學領域取得了顯著進展,通過將視覺感知與自然語言理解相結合。然而,這些模型常生成缺乏臨床支持的描述,即所謂的醫學幻覺,這在要求精確性和基於影像輸出的醫學應用中構成嚴重風險。通過實證分析,我們發現提示誘導的幻覺在放射學MLLMs中仍然普遍存在,主要源於對臨床部分的過度敏感。為解決此問題,我們提出了臨床對比解碼(CCD),這是一種無需訓練且無需檢索的推理框架,整合了來自特定任務放射學專家模型的結構化臨床信號。CCD引入了一種雙階段對比機制,在生成過程中精煉詞元級別的對數概率,從而提升臨床保真度,而無需修改基礎MLLM。在三個數據集和多個模型上的實驗表明,CCD在放射學報告生成(RRG)上持續提升整體性能。在MIMIC-CXR數據集上,當應用於最先進的RRG模型時,其在RadGraph-F1指標上最高提升了17%。我們的方法提供了一種輕量級且可泛化的解決方案,用於緩解醫學幻覺,有效地在放射學中橋接專家模型與MLLMs。
我們提出了OneFlow,這是首個非自回歸的多模態模型,能夠實現可變長度且並行的混合模態生成。與強制文本和圖像生成之間嚴格因果順序的自回歸模型不同,OneFlow結合了基於插入的Edit Flow用於離散文本標記,以及Flow Matching用於圖像潛在表示。OneFlow通過分層採樣實現並行的文本-圖像合成,優先考慮內容而非語法。通過在1B到8B模型規模上的控制實驗,我們證明OneFlow在生成和理解任務上均優於自回歸基線模型,同時訓練所需的FLOPs最多減少50%。OneFlow超越了自回歸和基於擴散的方法,並開啟了並行生成、迭代優化和類自然推理生成的新能力。
情境推理的一个关键组成部分是语言模型(LMs)绑定实体以供后续检索的能力。例如,一个LM可能通过将“Ann”与“pie”绑定来表示“Ann loves pie”,从而在询问“谁喜欢pie?”时能够检索到“Ann”。先前关于绑定实体短列表的研究发现,有强有力的证据表明LMs通过一种位置机制实现此类检索,即基于“Ann”在上下文中的位置进行检索。在本研究中,我们发现这种机制在更复杂的环境中泛化能力较差;随着上下文中绑定实体数量的增加,位置机制在中间位置变得嘈杂且不可靠。为了弥补这一点,我们发现LMs通过词汇机制(使用其绑定对应物“pie”检索“Ann”)和反射机制(通过直接指针检索“Ann”)来补充位置机制。通过对九个模型和十项绑定任务的广泛实验,我们揭示了LMs如何混合这些机制以驱动模型行为的一致模式。我们利用这些见解开发了一个结合所有三种机制的因果模型,该模型在估计下一个标记分布时达到了95%的一致性。最后,我们展示了我们的模型能够泛化到包含实体组的开放式文本的显著更长输入中,进一步证明了我们的发现在更自然环境中的鲁棒性。总体而言,我们的研究为LMs如何在情境中绑定和检索实体提供了一个更完整的图景。
当前训练大型语言模型(LLMs)作为文本编码器的主流方法依赖于对比损失,这些方法将模型视为黑箱函数,舍弃了其生成与推理能力,转而追求静态嵌入表示。我们提出了GRACE(通过对比策略优化进行生成式表示学习),这一新颖框架重新构想对比信号,不再将其视为需最小化的损失,而是作为指导生成策略的奖励。在GRACE中,LLM扮演策略角色,生成明确且人类可理解的理性——即对其语义理解的结构化自然语言解释。这些理性随后通过均值池化编码为高质量嵌入。利用策略梯度优化,我们采用多组件奖励函数训练模型,该函数最大化查询正例对之间的相似度,同时最小化与负例的相似度。此举将LLM从晦涩的编码器转变为可解释的智能体,其推理过程透明且可审查。在MTEB基准测试中,GRACE实现了跨类别的广泛提升:在四个骨干模型上平均,监督设置下的总体得分较基础模型提高了11.5%,无监督变体则增加了6.9%,同时保留了通用能力。本工作将对比目标视为对理性的奖励,统一了表示学习与生成,以产生更强的嵌入和透明的理性。模型、数据及代码已发布于https://github.com/GasolSun36/GRACE。
我们提出了Human3R,一个统一的、前馈式的框架,用于从随意拍摄的单目视频中在线重建世界坐标系下的4D人-场景。与以往依赖多阶段流程、人-场景间迭代接触感知优化及高度依赖(如人体检测、深度估计和SLAM预处理)的方法不同,Human3R在一次前向传递中同时恢复全局多人SMPL-X身体(“所有人”)、密集3D场景(“所有地方”)及相机轨迹(“一次性完成”)。我们的方法基于4D在线重建模型CUT3R,并采用参数高效的视觉提示调优,力求保留CUT3R丰富的时空先验,同时实现多个SMPL-X身体的直接读取。Human3R作为一个统一模型,消除了高度依赖和迭代优化。仅在一张GPU上对相对小规模的合成数据集BEDLAM训练一天后,它便以卓越的效率实现了优异性能:实时速度(15 FPS)下,以低内存占用(8 GB)一次性重建多人及3D场景。大量实验表明,Human3R在包括全局人体运动估计、局部人体网格恢复、视频深度估计和相机姿态估计等任务中,凭借单一统一模型,提供了最先进或具有竞争力的性能。我们希望Human3R能作为一个简单而强大的基线,易于扩展至下游应用。代码可在https://fanegg.github.io/Human3R获取。
現代自然語言處理模型已達到前所未有的規模,然而其評估工具往往成為計算瓶頸,限制了研究進展。這一問題在訓練中的評估指標上尤為突出,例如強化學習中的逐句獎勵信號,這些指標必須直接在GPU上高效地處理批量標記ID。本文介紹了TensorBLEU,這是一種從頭設計的BLEU指標新實現,專門針對這一特定使用場景。我們的方法在PyTorch中完全向量化,用於GPU加速的逐句計算,並引入了一種記憶體高效的計數機制。通過使用torch.unique創建一個緊湊的批次專用n-gram字典,我們的方法避免了傳統基於哈希的向量化所帶來的過高記憶體成本,使其適用於大詞彙量模型。我們將TensorBLEU與NLTK(基於CPU的標記ID BLEU計算標準庫)進行了基準測試。實驗表明,TensorBLEU在消費級GPU(NVIDIA T4)上提供了超過13倍的加速,在數據中心級硬件(NVIDIA A100)上更是超過40倍。這一性能將顯著的瓶頸轉化為訓練循環中可忽略的部分。通過明確其作為開發用途的“標記ID BLEU”角色,並開源我們的實現,我們為加速基於強化學習的模型微調等領域的研究提供了一個強大的工具。
上下文排序(In-context Ranking, ICR)是信息检索(Information Retrieval, IR)领域的一种新兴范式,它通过将任务描述、候选文档及查询直接整合到模型输入提示中,并利用大型语言模型(LLMs)的上下文理解能力来识别相关文档。尽管该方法有效,但其效率问题尤为突出,特别是在候选文档列表增长时,注意力操作随上下文长度呈二次/超线性扩展,导致计算负担加重。为此,本文首先揭示了针对ICR微调的LLMs注意力机制中固有的可挖掘结构:(1)文档间块稀疏性:注意力在单个文档块内密集,而在不同文档间稀疏;(2)查询-文档块相关性:中间层中某些查询词对文档块的注意力分数与该文档的实际相关性高度相关。基于这些观察,我们提出了BlockRank(块状上下文排序),一种创新方法,通过(a)在架构上强制实施观察到的文档间块稀疏性,将注意力复杂度从二次降至线性,同时保持性能不变;(b)在微调过程中,利用辅助对比训练目标优化真实相关文档的查询-文档块相关性,提升检索注意力。在BEIR、MSMarco和NQ数据集上使用Mistral-7B进行的实验表明,FLARE Mistral在匹配或超越现有最先进的列表排序器及受控微调基线的同时,推理效率显著提升(对于100个MSMarco文档,效率提升4.7倍),并能优雅地扩展至长上下文短列表,约500个文档的上下文(约10万上下文长度)在一秒内完成,为ICR提供了一个可扩展且高效的解决方案。
強化學習與可驗證獎勵(RLVR)是一種強大的範式,能夠增強大型語言模型(LLM)的推理能力,但其成功關鍵在於有效的探索。理想的探索策略必須應對兩個基本挑戰:在保持樣本質量的同時,確保訓練的穩定性。雖然標準的固定溫度採樣方法簡單,但難以平衡這些相互競爭的需求,因為高溫度會降低樣本質量,而低溫度則限制了發現的可能性。在本研究中,我們提出了一種更簡單且更有效的策略,即探索性退火解碼(EAD),其核心洞察是探索在定義序列語義方向的早期詞元上最具影響力。EAD通過在生成過程中將採樣溫度從高到低進行退火,實現了一種直觀的**「開始探索,結束利用」**策略。這種動態調度鼓勵在開始時產生有意義的高層次多樣性,然後逐漸降低溫度以保持樣本質量,並使採樣分布接近目標策略,這對於穩定的訓練至關重要。我們證明,EAD是一種輕量級、即插即用的方法,能顯著提高樣本效率,在各種RLVR算法和模型規模中始終優於固定溫度採樣。我們的研究表明,將探索與序列生成的自然動態對齊,為提升LLM推理能力提供了一條穩健的路徑。
具備多步推理能力的大型推理模型(LRMs)展現了卓越的問題解決能力,然而它們也顯露出令人擔憂的安全漏洞,這些漏洞至今仍未被充分理解。在本研究中,我們透過機制解釋性的視角,探討了為何安全對齊在推理模型中失效。採用線性探測方法追蹤拒絕意圖在詞元位置上的變化,我們發現了一個顯著的現象,稱之為“拒絕懸崖”:許多對齊不佳的推理模型能夠正確識別有害提示,並在思考過程中保持強烈的拒絕意圖,但在輸出生成前的最後幾個詞元處,拒絕分數急劇下降。這表明這些模型並非本質上不安全,而是其拒絕意圖被系統性地抑制了。通過因果干預分析,我們識別出一組稀疏的注意力頭,它們對拒絕行為產生了負面影響。僅消融這些頭中的3%,即可將攻擊成功率降低至10%以下。基於這些機制性洞察,我們提出了“懸崖即裁判”(Cliff-as-a-Judge),這是一種新穎的數據選擇方法,它識別出展現最大拒絕懸崖的訓練樣例,以高效修復推理模型的安全對齊。該方法僅使用1.7%的常規安全訓練數據,便達到了相當的安全改進效果,展示了安全對齊中的“少即是多”效應。
將物理世界數位化為精確且適合模擬的虛擬環境,在增強現實、虛擬現實、遊戲和機器人等多個領域提供了重大機遇。然而,當前的三維重建與場景理解方法通常在一或多個關鍵方面存在不足,如幾何完整性、物體交互性、物理合理性、照片級真實感渲染,或缺乏可靠的動態模擬所需的真實物理屬性。為解決這些限制,我們引入了HoloScene,這是一種新穎的交互式三維重建框架,能夠同時滿足上述所有要求。HoloScene利用全面的交互式場景圖表示,編碼物體的幾何形狀、外觀和物理屬性,以及層次結構和物體間的關係。重建被表述為一個基於能量的優化問題,將觀測數據、物理約束和生成先驗整合到一個統一且連貫的目標函數中。通過結合基於採樣的探索與基於梯度的細化,實現了高效的優化過程。由此產生的數字孿生體展現出完整精確的幾何形狀、物理穩定性,以及從新視角觀看的真實感渲染。在多個基準數據集上的評估顯示了其卓越的性能,而在交互式遊戲和實時數字孿生操作中的實際應用案例,則展示了HoloScene廣泛的適用性和有效性。項目頁面:https://xiahongchi.github.io/HoloScene。
大型語言模型(LLMs)在多種任務中展現出令人印象深刻的能力,然而,這種成功是否反映了真正的推理能力還是精密的記憶召回,尚不明確。我們引入了AInstein框架,用於測試LLMs是否能夠僅憑其預訓練的參數知識生成對AI研究問題的有效解決方案——無需領域特定的微調、檢索增強或其他外部輔助。我們的方法從高質量的ICLR 2025投稿中提取精煉的問題陳述,然後讓專門的求解代理通過迭代的批判循環提出並完善技術解決方案,模仿科學探究中提案、審查和修訂的核心循環。我們在1,214篇按接受層級(口頭報告、亮點展示、海報展示)分層的ICLR論文上評估AInstein,採用LLM作為評判者的範式,並輔以結構化評分標準,以及針對性的手動檢查。性能通過三個指標進行評估:成功率(解決方案是否解決了問題?)、再發現率(它是否與人類提出的方法一致?)和新穎性(它是否產生了有效且原創的方法?)。我們的結果顯示,雖然LLMs能夠重新發現可行的解決方案並偶爾提出創造性的替代方案,但它們的問題解決能力仍然脆弱且對問題框架高度敏感。這些發現首次提供了大規模證據,表明LLMs能夠作為自主科學問題解決者的程度,既揭示了它們的潛在潛力,也指出了它們當前的局限性。
無需訓練的加速技術已成為基於擴散模型的視頻生成領域中的一個前沿研究方向。擴散模型推理過程中潛在變量的冗餘性為加速提供了天然的切入點。本文將推理過程分解為編碼、去噪和解碼三個階段,並觀察到基於緩存的加速方法往往會導致後兩個階段的內存大幅增加。為解決這一問題,我們分析了不同階段推理的特點,並提出了針對各階段減少內存消耗的策略:1)異步緩存交換;2)特徵分塊;3)切片潛在變量進行解碼。同時,我們確保這三種策略引入的時間開銷低於其帶來的加速收益。與基準方法相比,我們的方法實現了更快的推理速度和更低的內存使用,同時將質量下降控制在可接受範圍內。代碼已開源於 https://github.com/NKUShaw/LightCache。
直接偏好優化(Direct Preference Optimization, DPO)作為一種簡單且有效的方法,已被用於對齊大型語言模型。然而,其依賴於固定溫度參數的特性,導致在處理多樣化偏好數據時訓練效果欠佳,容易對簡單樣本過擬合,而對信息量大的樣本學習不足。近期出現的方法旨在解決這一問題。雖然IPO方法針對一般性過擬合進行了處理,但其均勻的正則化策略可能過於保守。更具針對性的beta-DPO方法則存在自身局限:其批次級別的適應性調整對混合邊界對應用單一且折衷的溫度,其線性更新規則可能導致不穩定的負beta值,且其過濾機制可能丟棄潛在有用的訓練信號。在本研究中,我們提出了邊界自適應直接偏好優化(Margin-Adaptive Direct Preference Optimization, MADPO),該方法提供了一種穩定、數據保留且實例級別的解決方案。MADPO採用了一種實用的兩步策略:首先訓練一個獎勵模型來估計偏好邊界,然後利用這些邊界對每個單獨的訓練樣本應用連續且自適應的權重於DPO損失上。這種重新加權方案創建了一個有效的目標邊界,對於困難對其進行放大,對於簡單對則進行抑制,從而實現對學習信號的精細控制。我們提供了全面的理論分析,證明MADPO具有良好行為的優化景觀,並且對獎勵模型估計誤差具有魯棒性。我們在情感生成任務上的實驗驗證了我們的理論,MADPO在不同質量的數據集上均一致且顯著地超越了強基線方法。在高質量數據上,其性能提升最高達+33.3%,在低質量數據上則為+10.5%。我們的結果確立了MADPO作為一種更為穩健且基於原則的偏好對齊方法。
我們提出了平衡匹配(Equilibrium Matching, EqM),這是一個基於平衡動力學視角構建的生成建模框架。EqM摒棄了傳統擴散模型和基於流的生成模型中非平衡、時間條件性的動力學,轉而學習隱含能量景觀的平衡梯度。通過這種方法,我們可以在推理時採用基於優化的採樣過程,其中樣本是通過在學習到的景觀上進行梯度下降獲得的,並可調整步長、使用自適應優化器和自適應計算。EqM在生成性能上超越了擴散/流模型,在ImageNet 256×256上達到了1.90的FID分數。EqM在理論上也被證明能夠從數據流形中學習和採樣。除了生成任務,EqM還是一個靈活的框架,自然能夠處理包括部分噪聲圖像去噪、OOD檢測和圖像合成等任務。通過用統一的平衡景觀取代時間條件性的速度,EqM在流模型和基於能量的模型之間架起了更緊密的橋樑,並提供了一條通往優化驅動推理的簡單路徑。
大型語言模型作為科學助手的潛力巨大,然而現有的代理系統要么僅依賴於算法進化,要么孤立地進行深度研究,這兩種方式都存在關鍵的局限性。純粹的算法進化,如AlphaEvolve,僅依賴於LLM的內部知識,在複雜領域中很快就會遇到瓶頸;而純粹的深度研究則提出未經驗證的想法,導致不切實際或無法實施的解決方案。我們提出了DeepEvolve,這是一個將深度研究與算法進化相結合的代理系統,它將外部知識檢索、跨文件代碼編輯和系統化調試整合到一個反饋驅動的迭代循環中。每次迭代不僅提出新的假設,還對其進行精煉、實施和測試,避免了淺層改進和無效的過度精煉。在化學、數學、生物學、材料和專利等九個基準測試中,DeepEvolve持續改進初始算法,產生了可執行的新算法,並取得了持續的增益。通過彌合無指導進化與無基礎研究之間的差距,DeepEvolve為推進科學算法發現提供了一個可靠的框架。我們的代碼可在https://github.com/liugangcode/deepevolve獲取。
RAG(檢索增強生成)系統與網路代理在多跳深度搜索任務上的評估日益增多,然而當前實踐存在兩大主要限制。首先,多數基準測試在問題文本中洩露了推理路徑,使得模型能夠依循表面線索而非自主發現推理鏈。其次,評估通常簡化為單一通過率,這將多樣行為壓縮為一個分數,並模糊了失敗是源於搜索不足、知識利用不佳還是不當拒絕。為解決這些問題,我們提出了WebDetective,這是一個無提示多跳問題的基準測試,配備了一個受控的維基百科沙盒,確保模型行為的完全可追溯性,以及一個分離搜索充分性、知識利用和拒絕行為的全面評估框架。我們對25個最先進模型的評估揭示了所有架構中的系統性弱點:模型在擁有足夠證據的情況下仍難以有效利用知識,並在證據缺乏時幾乎不存在適當的拒絕行為。這些模式暴露了一個根本性差距:當今系統在執行給定推理路徑時表現出色,但在需要發現這些路徑時卻失敗了。我們開發了一個名為EvidenceLoop的代理工作流程,專門針對我們基準測試所識別的挑戰,整合了驗證循環和系統性證據追蹤,從而提升了搜索與綜合能力。這一基線展示了WebDetective的診斷框架能夠引導具體的架構改進,確立了我們的基準測試作為開發真正自主推理系統而非模式跟隨代理的關鍵工具。
現有的大多數自我中心視覺理解基準主要聚焦於日間場景,忽視了現實應用中不可避免的低光條件。為探究這一差距,我們提出了EgoNight,首個針對夜間自我中心視覺的綜合基準,其核心任務為視覺問答(VQA)。EgoNight的一個關鍵特點是引入了晝夜對齊的視頻,這些視頻利用日間數據提升了夜間註釋的質量,並揭示了光照條件之間的明顯性能差距。為實現這一點,我們收集了由Blender渲染的合成視頻和真實世界的錄像,確保場景和動作在視覺和時間上保持一致。基於這些配對視頻,我們構建了EgoNight-VQA,並通過一種新穎的日間增強夜間自動標註引擎以及廣泛的人工驗證進行了精細化處理。每個問答對都經過註釋者的雙重檢查以確保可靠性。總計,EgoNight-VQA包含了90個視頻中的3658個問答對,涵蓋12種多樣的問答類型,耗費了超過300小時的人工工作量。對當前最先進的多模態大語言模型(MLLMs)的評估顯示,從日間轉移到夜間時性能大幅下降,凸顯了在低光條件下進行推理的挑戰。除了VQA,EgoNight還引入了兩個輔助任務,即晝夜對應檢索和夜間自我中心深度估計,進一步探索現有模型的邊界。我們相信EgoNight-VQA為推動應用驅動的自我中心視覺研究以及開發能夠跨光照領域泛化的模型提供了堅實的基礎。所有數據和代碼將在論文被接受後公開。
在敏感領域(如醫療保健)中部署自主人工智慧代理,引入了對安全、保密及隱私的重大風險。這些代理可能偏離用戶目標、違反數據處理政策,或遭受敵對攻擊而受損。減輕這些危險需要一種機制,以正式保證代理的行動遵循預先設定的安全約束,這是現有系統尚未完全解決的挑戰。我們介紹了VeriGuard,這是一種新穎的框架,通過專為強健且可驗證的正確性設計的雙階段架構,為基於大型語言模型(LLM)的代理提供正式的安全保證。初始的離線階段包含一個全面的驗證過程,首先澄清用戶意圖以確立精確的安全規範。VeriGuard隨後合成行為策略,並對其進行測試與正式驗證,以證明其符合這些規範。此迭代過程不斷精煉策略,直至其被認定為正確。接著,第二階段提供線上行動監控,VeriGuard作為運行時監控器,在執行前對每個提議的代理行動進行預驗證策略的驗證。這種將詳盡的離線驗證與輕量級的線上監控分離的方式,使得正式保證能夠實際應用,提供了一種強健的保護措施,大幅提升了LLM代理的可信度。
情感支持对话(ESC)在通过交流减轻心理压力与提供情感价值方面发挥着至关重要的作用。尽管近期研究主要集中于数据增强与合成语料库构建,却常忽视支撑有效情感支持的深层认知推理过程。为填补这一空白,我们提出了CARE框架,该框架在不依赖大规模合成数据的前提下,强化了ESC中的推理能力。CARE利用原始ESC训练集引导模型生成逻辑连贯且具支持性的回应,从而显著提升认知推理。在此基础上,我们进一步采用强化学习来优化并巩固推理过程。实验结果表明,CARE显著提高了回应的逻辑严密性与支持质量,推动了具有同理心、认知稳健且类人化的情感支持系统的发展。
尽管后训练量化被广泛采用以实现大规模语言模型的高效部署,但量化鲁棒性背后的机制仍不明确。我们对开源语言模型训练轨迹中的量化退化进行了全面分析,模型参数规模高达320亿,训练token数量达到15万亿,以准确评估训练动态与量化性能之间的关系。我们的关键发现是,大规模训练中的量化误差由学习率与其他训练超参数之间的复杂相互作用所驱动。具体而言,一旦学习率衰减,验证损失与量化误差便出现分歧,这一现象在很大程度上与训练数据规模无关。为了探究训练动态的干预措施并识别能够有利调节量化鲁棒性的具体配置,我们在控制实验中训练了自建模型,训练token数量高达1000亿。我们的研究结果挑战了增加数据集规模必然损害量化有效性的假设,相反,证明了策略性的训练超参数干预能够在规模上提升量化质量。
參考視頻對象分割(RVOS)旨在根據自然語言描述來分割視頻中的特定對象。RVOS的核心挑戰在於將抽象的語言概念錨定到一組特定的像素上,並在視頻的複雜動態中持續地對其進行分割。面對這一難題,先前的研究通常將任務分解為一個實用的“定位-然後-分割”流程。然而,這種級聯設計通過將語義簡化為粗略的幾何提示(例如點)來創建信息瓶頸,並且由於分割過程通常與初始的語言基礎解耦,難以保持時間一致性。為克服這些根本性限制,我們提出了FlowRVS,這是一個將RVOS重新概念化為條件連續流問題的新框架。這使我們能夠利用預訓練的T2V模型的固有優勢,實現精細的像素控制、文本-視頻語義對齊以及時間連貫性。與傳統的從噪聲生成掩碼或直接預測掩碼不同,我們通過學習從視頻的整體表示到其目標掩碼的直接、語言引導的變形來重新表述任務。我們的一階段生成方法在所有主要RVOS基準測試中均取得了新的最先進成果。具體而言,在MeViS中達到了51.1的J&F(比先前SOTA提高了1.6),在零樣本Ref-DAVIS17中達到了73.3(提高了2.7),展示了將視頻理解任務建模為連續變形過程的顯著潛力。
大型語言模型(LLMs)易於產生幻覺,即生成看似合理但實際上不正確的陳述。本研究通過三項主要貢獻探討了這種失敗模式的內在架構根源。首先,為了可靠地追蹤內部語義失敗,我們提出了分佈語義追蹤(DST),這是一個整合了既定可解釋性技術的統一框架,旨在生成模型推理的因果圖,將意義視為上下文(分佈語義)的函數。其次,我們確定了模型層級中幻覺不可避免的發生點,識別出一個特定的承諾層,在此層級模型的內部表示與事實性不可逆地偏離。第三,我們揭示了這些失敗的底層機制。我們觀察到不同計算路徑之間的衝突,並使用雙過程理論的視角進行解釋:一個快速、啟發式的聯想路徑(類似於系統1)和一個緩慢、深思熟慮的上下文路徑(類似於系統2),導致了可預測的失敗模式,如推理捷徑劫持。我們框架量化上下文路徑連貫性的能力揭示了其與幻覺率之間的強烈負相關(rho = -0.863),這意味著這些失敗是內部語義弱點的可預測結果。最終,我們提供了一個關於Transformer架構中幻覺如何、何時以及為何發生的機制性解釋。
高斯過程(GP)迴歸提供了一種策略,通過減少需要評估能量及其對原子座標導數的次數,來加速高維能量面上的鞍點搜索。然而,超參數優化中的計算開銷可能很大,使得該方法效率低下。如果搜索過於深入GP模型未能充分表示的區域,也可能導致失敗。本文通過使用幾何感知的最優傳輸度量以及一種主動修剪策略來解決這些挑戰,該策略在遠點採樣中對每種原子類型的Wasserstein-1距離求和,選擇固定大小的幾何多樣性配置子集,以避免隨著觀測次數增加而迅速增長的GP更新成本。通過引入置換不變度量來增強穩定性,該度量為早期停止提供了可靠的信任半徑,並對信號方差的增長施加對數障礙懲罰。這些基於物理動機的算法改進,在來自先前發表的化學反應數據集的238個挑戰性配置上,將平均計算時間減少到不到一半,證明了其有效性。通過這些改進,GP方法被確立為一種穩健且可擴展的算法,用於在能量和原子力評估需要大量計算工作時加速鞍點搜索。
視覺語言模型(VLMs)通常以短文本窗口(<77個標記)進行預訓練,這導致長格式描述被迫截斷。然而,從大規模開源文獻中提取的生物醫學描述分佈顯示,大量描述遠超77個標記。為此,我們通過擴展VLMs中文本編碼器的上下文長度,探討了在長格式生物醫學描述上進行預訓練的影響。我們發現,更長的上下文(從而利用長格式描述提供的額外監督)與更好的檢索和分類性能相關。基於這一發現,我們引入了BIOMEDICA-LongCAP,這是一個包含100萬張圖像-描述對的數據集,其中描述來自全文文章,提供了更長且更具上下文感知的文本監督。利用BIOMEDICA-LongCAP,我們訓練了BMC-LongCLIP,這是一種支持高達512個標記窗口的長上下文生物醫學VLM,其文本編碼器將上下文容量擴展了6.6倍,將標記浪費從55%降至僅2.2%。在長描述檢索基準測試中,BMC-LongCLIP在Recall@1上實現了高達+30%的絕對增益,在分類上平均提升了+2%,同時比短上下文模型收斂更快。我們的結果表明,長上下文建模是推進生物醫學VLMs的一個有前景的方向。
在現實世界中的大型語言模型部署(例如對話式AI系統、程式碼生成助手)自然會產生大量的隱性用戶不滿意(DSAT)信號,因為用戶會通過修正、改進和表達偏好來迭代獲得更佳答案,而顯性的滿意(SAT)反饋則相對稀缺。現有的偏好學習方法與這種數據特徵並不相符,因為它們依賴於昂貴的人工標註或假設存在大量的正面回應。本文介紹了DRIFT(基於不滿意信號的迭代偏好訓練),該方法以現實世界中的DSAT信號為訓練基礎,並從不斷演進的策略中動態採樣正面樣本。實驗表明,基於現實世界WildFeedback數據集和合成UltraFeedback數據集訓練的DRIFT模型,在WildBench任務分數上分別提升了+6.23%(7B)和+7.61%(14B),在AlpacaEval2勝率上分別提升了+8.95%(7B)和+12.29%(14B),超越了迭代DPO和SPIN等強基準方法。在更大規模的模型上,改進尤為顯著:使用DRIFT訓練的14B模型在WildBench上超越了GPT-4o-mini。進一步分析顯示,DRIFT還保留了探索能力,產生了更多樣化的高獎勵解決方案,而非局限於狹窄的子集。理論上,我們證明了這種設計保留了偏好邊際,避免了梯度退化。這些結果表明,DRIFT是一種有效且可擴展的現實世界後訓練方法,能夠充分利用最豐富且最具信息量的信號。代碼和數據可在https://github.com/cacayaya/DRIFT.git獲取。
已有研究表明,程式碼數據能夠增強大型語言模型(LLMs)的推理能力,但尚不清楚程式碼的哪些方面對此貢獻最大。我們採用一個系統化、以數據為中心的框架來探討這一問題。我們構建了十種程式語言的平行指令數據集,並應用受控的擾動,選擇性地破壞程式碼的結構或語義特性。隨後,我們在每個變體上對來自五個模型家族、八種規模的LLMs進行微調,並評估它們在自然語言、數學和程式碼任務上的表現。通過3,331次實驗,我們的結果顯示,LLMs對結構性擾動比語義性擾動更為敏感,尤其是在數學和程式碼任務上。適當的抽象形式,如偽代碼和流程圖,可以與程式碼一樣有效,同時以更少的token編碼相同信息而不嚴格遵循原始語法,往往能保持甚至提升性能。值得注意的是,即使帶有誤導信號的損壞程式碼,只要表層規律性得以保持,仍能保持競爭力。最後,語法風格也影響任務特定的增益,Python有利於自然語言推理,而像Java和Rust這樣的低階語言則更有利於數學推理。通過我們的系統化框架,我們旨在深入理解程式碼的不同特性如何影響推理,並為設計增強LLM推理能力的訓練數據提供指導。
機器學習模型的性能在很大程度上依賴於訓練數據。大規模、高質量標註數據集的稀缺性,為構建魯棒模型帶來了重大挑戰。為解決這一問題,通過模擬和生成模型產生的合成數據已成為一種頗具前景的解決方案,它能夠增強數據集的多樣性,並提升模型的性能、可靠性和抗干擾能力。然而,評估這類生成數據的質量需要一個有效的度量標準。本文提出了合成數據集質量度量標準(SDQM),用於在無需模型訓練收斂的情況下,評估物體檢測任務中的數據質量。該度量標準使得合成數據集的生成和選擇更加高效,解決了資源受限的物體檢測任務中的一個關鍵挑戰。在我們的實驗中,SDQM與領先的物體檢測模型YOLOv11的平均精度均值(mAP)分數表現出強相關性,而以往的度量標準僅呈現出中等或弱相關性。此外,它還為提升數據集質量提供了可操作的見解,最大限度地減少了成本高昂的迭代訓練需求。這一可擴展且高效的度量標準為評估合成數據樹立了新標杆。SDQM的代碼已公開於https://github.com/ayushzenith/SDQM。
基於深度學習模型的自動和弦識別(ACR)已逐步實現了令人矚目的識別準確率,然而仍面臨兩大關鍵挑戰。首先,先前的研究主要集中於音頻領域的ACR,而符號音樂(如樂譜)的ACR由於數據稀缺性,所獲關注有限。其次,現有方法仍忽視了與人類音樂分析實踐相契合的策略。針對這些挑戰,我們提出了兩項貢獻:(1)我們引入了POP909-CL,這是POP909數據集的增強版本,具備節奏對齊的內容及人工校正的和弦、節拍、調性和拍號標籤;(2)我們提出了BACHI,一種符號和弦識別模型,該模型將任務分解為不同的決策步驟,即邊界檢測以及和弦根音、質量和低音(轉位)的迭代排序。此機制模擬了人類聽覺訓練的實踐。實驗結果顯示,BACHI在古典與流行音樂基準測試中均達到了頂尖的和弦識別性能,並通過消融研究驗證了各模塊的有效性。
AI模型在数据分析和可视化中的应用日益增多,然而基准测试鲜少针对散点图特定任务,这限制了对模型性能的深入理解。为填补这一常见图表类型的空白,我们引入了一个包含超过18,000个散点图的合成标注数据集,这些散点图来自六种数据生成器和十七种图表设计,并基于此建立了一个基准测试。我们评估了OpenAI和Google的专有模型,在五个源自聚类边界框、其中心坐标及离群点坐标标注的独特任务上,采用N-shot提示法进行测试。OpenAI模型及Gemini 2.5 Flash,特别是在提供示例提示时,对于聚类计数任务表现出色,而Flash在离群点识别上更是达到了90%以上的准确率。然而,在定位相关任务上的结果不尽如人意:除Flash在离群点识别上达到65.01%外,其他模型的精确率和召回率均接近或低于50%。此外,图表设计对性能的影响虽为次要因素,但建议避免使用宽高比过大(16:9及21:9)或颜色随机分配的散点图。补充材料可于https://github.com/feedzai/biy-paper获取。
在過去二十年間,語音情感識別(SER)逐漸受到關注。為了訓練SER系統,研究人員收集了由眾包或內部評分者標註的情感語音數據庫,這些評分者從預定義的類別中選擇情感。然而,評分者之間的分歧是常見的。傳統方法將這些分歧視為噪聲,將標籤匯總為單一的共識目標。雖然這將SER簡化為單一標籤任務,但它忽略了人類情感感知的固有主觀性。本論文挑戰了這些假設,並提出以下問題:(1) 少數情感評分是否應被捨棄?(2) SER系統是否應僅從少數個體的感知中學習?(3) SER系統是否應僅預測每個樣本的一種情感? 心理學研究表明,情感感知具有主觀性和模糊性,情感邊界相互重疊。我們提出了新的建模和評估視角:(1) 保留所有情感評分,並用軟標籤分佈來表示它們。基於個別評分者標註訓練的模型,並與標準SER系統聯合優化,在共識標註測試中表現更佳。(2) 重新定義SER評估,包括所有情感數據並允許情感共現(例如,悲傷和憤怒)。我們提出了一種「全包容規則」,匯總所有評分以最大化標籤表示的多樣性。在四個英語情感數據庫上的實驗顯示,其性能優於多數和複數標註。(3) 構建一個懲罰矩陣,在訓練過程中抑制不太可能的情感組合。將其整合到損失函數中進一步提升了性能。總體而言,接納少數評分、多個評分者以及多情感預測,能夠構建更為穩健且與人類感知一致的SER系統。
視覺-語言-動作模型(VLAs)在機器人控制領域展現了卓越的性能。然而,由於其單次推理範式,這些模型在需要高精度的任務中仍存在根本性限制。雖然使用外部驗證器的測試時縮放方法顯示出潛力,但它們需要額外的訓練,並且無法泛化到未見的條件。我們提出了掩碼分佈引導選擇(MG-Select),這是一種新穎的測試時縮放框架,用於VLAs,該框架利用模型的內部特性,無需額外的訓練或外部模塊。我們的方法使用KL散度作為置信度指標,從參考動作令牌分佈中選擇最佳動作。我們引入了一種由相同VLA生成的參考分佈,但使用隨機掩碼的狀態和語言條件作為輸入,確保最大不確定性,同時與目標任務分佈保持一致。此外,我們提出了一種聯合訓練策略,通過對狀態和語言條件應用dropout,使模型能夠學習條件和無條件分佈,從而進一步提高參考分佈的質量。我們的實驗表明,MG-Select實現了顯著的性能提升,包括在現實世界中的分佈內/分佈外任務中分別提升了28%/35%,以及在僅用30次示範訓練的RoboCasa拾取和放置任務中獲得了168%的相對增益。
近期,多模态大语言模型(LLMs)在基于图表的视觉问答任务中展现出潜力,但其在未标注图表上的表现急剧下降,尤其是在需要精确视觉解读而非依赖文本捷径的情况下。为解决这一问题,我们引入了ChartAgent,一种新颖的代理框架,该框架直接在图表的空间域内执行视觉推理。与文本链式思维推理不同,ChartAgent迭代地将查询分解为视觉子任务,并通过绘制注释、裁剪区域(如分割饼图切片、隔离柱状图)以及定位坐标轴等专门动作,主动操作并与图表图像互动,利用一套专为图表设计的视觉工具库来完成每个子任务。这一迭代推理过程紧密模拟了人类理解图表的认知策略。ChartAgent在ChartBench和ChartX基准测试中达到了最先进的准确率,相较于之前的方法,整体上实现了高达16.07%的绝对增益,在未标注且数值密集的查询上更是提升了17.31%。此外,我们的分析表明,ChartAgent(a)在多种图表类型上均有效,(b)在不同视觉和推理复杂度级别上均取得最高分,以及(c)作为一个即插即用的框架,能够提升多种底层LLMs的性能。我们的工作是首批展示利用工具增强的多模态代理进行视觉基础推理以理解图表的研究之一。
現代偏好對齊技術,如最佳N選取(BoN)採樣,依賴於基於成對比較數據訓練的獎勵模型。雖然這種方法在學習相對偏好方面效果顯著,但它未能捕捉到回應可接受性的信號,使得系統容易在眾多不可接受的選項中選擇最不壞的那個。這對於困難提示尤其成問題,因為隨著樣本數量的增加,此類錯誤接受的風險也會上升。本文通過引入一種新的數據收集與建模框架,來解決這一關鍵的可靠性缺口。受離散選擇模型的啟發,我們通過在偏好數據中加入外部選項,訓練了一個不僅能區分哪個更好,還能判斷什麼是足夠好的獎勵模型。我們利用這一能力創建了一種自適應推理策略——循環內最佳迷你N選取,該策略將生成預算劃分為多個順序循環,並配備了校準的提前退出條件。實驗表明,當作為對齊護欄進行調優時,它將可靠性故障減少了70%;而作為推理加速器調優時,在IMDB情感分析設置中,平均推理速度提升了超過22%。因此,我們為實踐者提供了一個原則性且靈活的框架,以明確管理可靠性與計算效率之間的權衡。
近期關於上下文與記憶基準測試的研究主要集中於對話實例,然而,在動態企業環境中評估記憶能力對於其有效應用至關重要。我們引入了MEMTRACK,這是一個旨在多平台代理環境中評估長期記憶與狀態追蹤的基準測試。MEMTRACK通過整合跨多個通信與生產力平台(如Slack、Linear和Git)的異步事件,模擬了現實的組織工作流程。每個基準測試實例提供了一個按時間順序交織的平台時間線,其中包含嘈雜、矛盾、相互參照的信息,以及對代碼庫/文件系統的理解與探索需求。因此,我們的基準測試考察了記憶能力的多個方面,如獲取、選擇與衝突解決。我們通過專家手工設計與基於代理的可擴展合成方法,精心構建了MEMTRACK數據集,生成了基於真實世界軟件開發過程的生態效度場景。我們引入了針對正確性、效率與冗餘性的相關指標,這些指標捕捉了記憶機制在簡單問答性能之外的有效性。對當前最先進的大型語言模型(LLMs)及記憶後端的實驗揭示了在長時程記憶利用、跨平台依賴處理以及矛盾解決方面的挑戰。值得注意的是,表現最佳的GPT-5模型在MEMTRACK上的正確性得分僅為60%。這項工作為推進記憶增強代理的評估研究提供了一個可擴展的框架,超越了現有對對話設置的關注,並為複雜組織環境下的多代理、多平台記憶基準測試奠定了基礎。
護髮作為一項日常必需活動,對於行動不便者而言卻難以觸及,同時由於頭髮精細的物理結構與複雜的動力學特性,這也對自主機器人系統構成了挑戰。本研究提出了DYMO-Hair,一個基於模型的機器人護髮系統。我們引入了一種新穎的動力學學習範式,該範式專為如頭髮這類體積量設計,依賴於動作條件下的潛在狀態編輯機制,並結合一個多樣化髮型的緊湊三維潛在空間,以提升泛化能力。此潛在空間通過一款新型頭髮物理模擬器進行大規模預訓練,從而實現對未見過髮型的廣泛適應。利用該動力學模型與模型預測路徑積分(MPPI)規劃器,DYMO-Hair能夠執行視覺目標導向的髮型設計。模擬實驗表明,DYMO-Hair的動力學模型在捕捉多樣化、未見過髮型的局部形變方面優於基準方法。在閉環髮型設計任務中,針對未見過髮型,DYMO-Hair進一步超越基準,其最終幾何誤差平均降低22%,成功率提高42%,相較於現有最先進系統。現實世界實驗展示了我們系統對假髮的零樣本遷移能力,在現有系統無法應對的挑戰性未見過髮型上實現了持續成功。這些成果共同為基於模型的機器人護髮奠定了基礎,推動了在無約束物理環境中更為通用、靈活且易於使用的機器人髮型設計技術的進步。更多詳情請訪問我們的項目頁面:https://chengyzhao.github.io/DYMOHair-web/。
將具有推理能力的大型語言模型(LLM)的思維軌跡蒸餾到較小的模型中已被證明是有效的。然而,關於模型性能如何隨蒸餾數據量的增加而變化的研究卻相對匱乏。在本研究中,我們探討了在兩個小型非推理LLM上蒸餾競賽編程技能的擴展趨勢。我們驗證了一個假設,即存在一個代碼推理的谷底:隨著數據量的增加,競賽編程的下游性能首先下降,然後以比對數線性更快的速度穩步上升。在識別出這一趨勢後,我們進一步在相同的數據上對模型進行了兩個不同蒸餾階段的微調,以基於它們各自的學習階段得出結論。我們發現,在低數據量和中低數據量範圍內,小型模型從較簡單的編碼問題中獲益顯著多於從較難的問題中獲益。我們還發現,令人驚訝的是,訓練數據中輸出的正確性對蒸餾結果並無影響。我們的工作代表了在直覺之外理解代碼推理蒸餾訓練動態方面邁出的一步。
大型語言模型(LLMs)在許多自然語言處理任務中表現卓越,但仍容易產生幻覺,這限制了其在實際應用中的可信度。我們提出了HalluGuard,這是一個擁有40億參數的小型推理模型(SRM),旨在緩解檢索增強生成(RAG)中的幻覺問題。HalluGuard將文檔-聲明對分類為有根據的或幻覺的,並生成基於證據的解釋以提高透明度。我們的方法結合了:(i) 從FineWeb衍生並通過多階段策劃和數據重構精煉的領域無關合成數據集,(ii) 合成的有根據和幻覺的聲明,以及(iii) 使用基於偏好的微調與勝率偏好優化,將大型模型的推理能力蒸餾到較小的骨幹中。在LLM-AggreFact基準測試的RAGTruth子集上,HalluGuard達到了84.0%的平衡準確率(BAcc),與專用模型MiniCheck(7B;84.0%)和Granite Guardian 3.3(8B;82.2%)相媲美,同時使用的參數約為其一半。在整個基準測試中,它達到了75.7%的BAcc,與更大的通用LLMs如GPT-4o(75.9%)相當。我們將在論文被接受後,根據Apache 2.0許可發布HalluGuard及其數據集。