每日精選AI研究論文及翻譯
記憶系統是實現大型語言模型與人工智慧代理等AI系統長期學習與持續互動的關鍵組件。然而在記憶存儲與檢索過程中,這些系統常出現記憶幻覺現象,包括虛構、錯誤、衝突與遺漏等問題。現有記憶幻覺評估主要採用端到端問答形式,難以定位幻覺產生的具體操作階段。為此,我們提出首個針對記憶系統的操作層級幻覺評估基準HaluMem,定義三項評估任務(記憶提取、記憶更新與記憶問答),全面揭示不同互動階段的幻覺行為。為支持評估,我們構建了以用戶為中心的多輪人機互動數據集HaluMem-Medium與HaluMem-Long,兩者均包含約1.5萬個記憶點與3.5千道多類型問題,單用戶平均對話輪次達1.5千與2.6千輪,上下文長度超百萬詞元,可評估不同上下文規模與任務複雜度下的幻覺表現。基於HaluMem的實證研究表明,現有記憶系統在提取與更新階段易產生並積累幻覺,進而將錯誤傳導至問答階段。未來研究應著重開發可解釋且具約束力的記憶操作機制,系統性抑制幻覺並提升記憶可靠性。
近期深度研究智能體的進展顯示,通過對外部資源進行動態推理來實現自主知識構建具有巨大潛力。然而,現有方法依賴於單一情境範式,將所有信息累積在不斷擴展的單一情境窗口內,導致情境窒息與噪聲污染問題,限制了其在長週期任務中的效能。我們提出IterResearch——一種創新的迭代式深度研究範式,將長週期研究重新定義為具有策略性工作空間重構的馬可夫決策過程。該方法通過維護動態演進的報告作為記憶體,並定期合成研究洞見,能在任意探索深度下保持一致的推理能力。我們進一步開發效率感知策略優化(EAPO),這是一個透過幾何獎勵折減激勵高效探索,並藉由自適應降採樣實現穩定分散式訓練的強化學習框架。大量實驗表明,IterResearch在六項基準測試中平均提升14.5個百分點,較現有開源智能體實現顯著進步,並縮小了與前沿專有系統的差距。值得注意的是,本範式展現出前所未有的交互擴展性——可延伸至2048次交互且效能大幅提升(從3.5%至42.5%),同時作為有效的提示策略,在長週期任務上相較ReAct能使前沿模型效能提升達19.2個百分點。這些發現確立了IterResearch作為長週期推理的通用解決方案,無論作為訓練完成的智能體還是前沿模型的提示範式均具卓越效能。
近期以推理為先的模型(如OpenAI o1、DeepSeek R1)推動了強化學習與驗證推理(RLVR)的復興。然而,相關進展主要由數學領域(如AIME)主導,競爭性程式設計的程式碼生成研究相對不足,且資料處理所獲關注遠少於強化學習演算法設計。本研究探討如何建構RLVR資料集(即RL提示詞),並提出實用訓練技術,在競爭性程式設計程式碼生成任務中實現強勁表現。我們的流程始於從強力開源模型蒸餾而來的監督式微調(SFT),並輔以通用性與高強度推理資料進行增強。後續強化學習採用雙階段流程,以可執行的測試案例驅動獎勵機制:第一階段使用群組相對策略優化(GRPO),在大量均勻分佈的競爭性程式設計題庫上訓練,每道提示詞生成8次回應,並設定較短的回應生成視窗(如SFT階段32k,本階段24k),以擴大熵值並緩解重複與截斷問題;第二階段實施預訓練GRPO:在精選的小型高難度題庫上,採用每道提示詞64次回應的大規模預算,透過持續保留最難實例的硬性聚焦課程進行更新。我們將該方法實作於Qwen2.5-32B模型,並在LeetCode與Codeforces週賽中評估以避免資料洩漏。最終模型在同等規模模型中達到最先進效能,與DeepSeek v3.1、Doubao-1.5-Thinking等頂尖系統表現相當。我們同時驗證擴展規律,在內部大規模混合專家模型上觀察到顯著的強化學習擴展效應。本研究總結出針對競爭性程式設計程式碼生成的RLVR資料處理、熵擴展與課程設計的簡明最佳實踐。
我們推出STATION——一個開放世界的多代理環境,旨在模擬微型科學生態系統。憑藉其擴展的上下文窗口,STATION中的代理能夠參與漫長的科學探索歷程,包括閱讀同儕論文、提出假說、提交代碼、執行分析與發表成果。關鍵在於,系統不存在中央協調機制——代理可自由選擇行動,在STATION內自主發展敘事線。實驗表明,STATION中的AI代理在從數學到計算生物學再到機器學習的廣泛基準測試中,均實現了新的最先進性能,尤其在圓形填充問題上顯著超越AlphaEvolve。當代理們開展獨立研究、與同儕互動並基於累積歷史推進工作時,會湧現出豐富的敘事脈絡。從這些湧現敘事中有機衍生出新方法,例如一種用於scRNA-seq批次整合的新型密度自適應算法。STATION標誌著我們在開放世界環境中,基於湧現行為驅動自主科學發現的第一步,代表著超越僵化優化範式的新典範。
我們推出PhysWorld框架,該框架通過物理世界建模實現從影片生成中進行機器人學習。近期影片生成模型能根據語言指令與圖像合成逼真的視覺示範,為機器人學提供了強大卻尚未被充分探索的訓練信號來源。然而,直接將生成影片的像素運動重定向至機器人會忽略物理規律,常導致操作失準。PhysWorld通過耦合影片生成與物理世界重建來解決此局限:在給定單張圖像與任務指令後,我們的方法能生成任務條件化影片並從中重建底層物理世界,再通過基於物件中心殘差強化學習與物理世界模型,將生成影片的運動轉化為物理精準的動作。這種協同作用將隱性視覺指導轉化為可物理執行的機器人軌跡,無需真實機器人數據收集即可實現零樣本泛化的機器人操作。在多元現實任務上的實驗表明,PhysWorld相較既有方法顯著提升操作精度。詳情請訪問項目頁面:https://pointscoder.github.io/PhysWorld_Web/。
文字生成影像模型已從休閒創作工具迅速發展為專業級系統,實現了前所未有的影像品質與真實感。然而,多數模型仍以簡短提示詞生成細節影像的訓練方式,導致稀疏文字輸入與豐富視覺輸出之間存在落差。這種不匹配降低了可控性——模型常隨機填補缺失細節,偏向普通用戶偏好,限制了專業應用的精確度。我們通過訓練首個基於長結構化描述文本的開源文字生成影像模型解決此問題:每個訓練樣本均以相同組別的細粒度屬性進行標註,此設計能最大化表達覆蓋率並實現對視覺要素的解耦控制。為高效處理長文本,我們提出DimFusion融合機制,在不增加標記長度的前提下整合輕量級LLM的中間標記。同時引入「文本瓶頸重建」(TaBR)評估協議,通過衡量真實影像在描述-生成循環中的重建質量,直接量化可控性與表達力,即使在現有評估方法失效的超長文本場景下仍能精準測評。最終,我們通過訓練大規模模型FIBO驗證貢獻,在開源模型中實現了最先進的提示詞對齊效果。模型權重公開於:https://huggingface.co/briaai/FIBO
稀疏專家混合模型(MoE)近年來被廣泛應用於大型語言模型,因其能在不增加推理成本的前提下有效擴展模型能力。然而,在多樣化下游任務的評估中,現有MoE大型語言模型的路由器始終存在次優問題,導致其與最優路由存在顯著性能差距(例如準確率相差10-20%)。本文論證通過將路由權重的流形與任務嵌入的流形對齊,可有效縮小此差距並提升MoE大型語言模型的泛化性能。我們提出的「路由流形對齊(RoMA)」方法,在訓練後目標函數中引入額外的流形正則化項,僅需對路由器進行輕量級微調(其餘參數凍結)。具體而言,該正則化促使每個樣本的路由權重在任務嵌入空間中接近其成功鄰居(即路由權重能導出正確答案的樣本)的權重分佈,從而使針對相似任務的樣本在各網絡層中共享相近的專家選擇模式。這種跨樣本建立任務與專家間的綁定關係,對實現更優泛化能力至關重要。此外,RoMA展現出將任務理解(通過嵌入模型)與解決方案生成(通過MoE大型語言模型)相統一的優勢。實驗中,我們使用RoMA對OLMoE、DeepSeekMoE及Qwen3-MoE的路由器進行微調。在多樣化基準測試中的評估結果及與基線模型的廣泛比較表明,RoMA帶來了顯著性能提升。
作為人類互動與資訊交流的關鍵媒介,社交網路服務對大型語言模型提出了獨特挑戰:異質性工作負載、快速更迭的網路規範與俚語,以及引發劇烈分佈遷移的多語言、文化多樣性語料庫。監督式微調雖能定制模型,但常引發域內增益與域外魯棒性之間的「蹺蹺板效應」,對小型模型尤為明顯。為應對這些挑戰,我們推出RedOne 2.0——採用漸進式強化學習優先的後訓練範式所訓練的社交網路導向大模型,專為快速穩定適應而設計。該流程包含三階段:(1) 基於精選社交網路語料庫的探索性學習,建立初步對齊並識別系統性弱點;(2) 針對性微調,選擇性地對診斷出的缺陷實施監督式微調,同時混入少量通用數據以緩解遺忘現象;(3) 精細化學習,重新應用以社交網路為核心信號的強化學習,鞏固改進成果並協調跨任務的權衡。在涵蓋三大類別的多元任務中,我們的40億參數模型相較70億參數次優基準模型實現平均約2.41分的性能提升。此外,RedOne 2.0僅需不到RedOne(以監督式微調為核心的方法)一半的數據量,即從基礎模型獲得平均約8.74分的性能增幅,展現出在緊湊規模下卓越的數據效率與穩定性。總體而言,RedOne 2.0為社交網路場景下的領域專用大模型建立了具競爭力且成本效益優異的基準,在保持魯棒性的同時推動能力邊界。
多模态大语言模型(MLLM)的出现将人工智能能力扩展至视觉模态,然而现有评估基准仍局限于单视频理解,忽视了现实场景(如体育分析和自动驾驶)中对多视频理解的关键需求。为填补这一重要空白,我们推出MVU-Eval——首个用于评估MLLM多视频理解能力的综合性基准。该基准主要通过1,824个精心构建的问答对(涵盖来自多元领域的4,959个视频)来系统评估八项核心能力,既包含基础感知任务,也涉及高阶推理任务。这些能力与自动驾驶系统中的多传感器融合、多视角体育分析等实际应用场景严格对标。通过对顶尖开源与闭源模型的广泛评估,我们发现当前MLLM在多视频理解能力方面存在显著性能差异与局限性。本基准将公开共享,以推动未来研究发展。
解決複雜任務通常需要大型語言模型生成冗長的多步驟推理鏈。先前研究表明,驗證單個推理步驟的正確性能夠進一步提升模型在此類任務上的表現與效率,並增強解決方案的可解釋性。然而現有驗證方法(如過程獎勵模型)存在計算成本高昂、適用領域受限或需要大規模人工/模型生成標註等侷限性。為此,我們提出一種基於數據驅動不確定性分數的輕量級步驟級推理驗證方案。通過訓練基於Transformer的不確定性量化頭模塊,利用凍結大型語言模型的內部狀態來實時估測其生成過程中推理步驟的不確定性。該方法實現全自動化:目標標籤可由更大規模語言模型(如DeepSeek R1)生成,或通過原模型的自監督方式產生。不確定性量化頭模塊不僅效能顯著,且具備輕量化特性(參數量少於1000萬)。在數學、規劃、常識問答等多領域測試中,其表現媲美甚至超越參數量達810倍以上的過程獎勵模型。我們的研究發現表明,大型語言模型的內部狀態編碼了其不確定性信息,可作為推理驗證的可靠信號,為構建可擴展、泛化性強的內省式大型語言模型開闢了新路徑。
近期深度循环语言模型的研究表明,循环结构能够将训练时的计算量与参数量同测试时的计算需求解耦。本研究探索如何将现有预训练的非循环语言模型转化为深度循环模型。我们发现,通过采用渐进式循环课程学习,在训练过程中逐步增加模型的有效深度,既能保持性能又可降低总计算成本。在数学领域的实验中,将预训练模型转换为循环模型相比直接对原始非循环语言模型进行后训练,能在相同计算预算下获得更优的性能表现。
大型语言模型(LLM)的软性思维推理范式在某些场景下能超越传统的离散标记思维链(CoT)推理,彰显其研究与应用价值。然而,尽管离散标记的CoT推理模式可通过群体相对策略优化(GRPO)等策略优化算法进行强化,但将软性思维模式与强化学习(RL)结合仍存在挑战。这一难点源于向软性思维标记注入随机性并据此更新策略的复杂性,导致先前将软性思维与GRPO结合的尝试通常表现不及离散标记GRPO方法。为充分释放软性思维潜力,本文提出新型策略优化算法SofT-GRPO,用于强化软性思维推理模式下的LLM。该算法通过向logits注入Gumbel噪声,采用Gumbel-Softmax技术避免软性思维标记超出预训练嵌入空间,并在策略梯度中运用重参数化技巧。我们在1.5B至7B参数的基座LLM上进行实验,结果表明:SofT-GRPO使软性思维LLM在Pass@1指标上略优于离散标记GRPO(平均准确率提升0.13%),而在Pass@32指标上呈现显著提升(平均准确率提升2.19%)。代码与权重已开源:https://github.com/zz1358m/SofT-GRPO-master
我们提出具有自适应可验证环境的强化学习(RLVE),该方法通过可验证环境动态生成问题并提供算法可验证的奖励机制,从而扩展语言模型的强化学习规模。RLVE使每个可验证环境能够根据策略模型在训练过程中的能力水平,动态调整其问题难度分布。相比之下,静态数据分布往往因问题对策略模型过于简单或困难而导致学习信号消失。为实现RLVE,我们创建了RLVE-Gym——一个通过人工环境工程精心开发的大规模套件,包含400个可验证环境。借助RLVE-Gym,我们证明环境扩展(即增加训练环境集合)能持续提升模型的泛化推理能力。在RLVE-Gym全部400个环境中进行联合训练的RLVE方法,从当前最强的15亿参数推理语言模型之一起步,在六个推理基准测试中实现了3.37%的绝对平均提升。相比之下,延续该语言模型原有强化学习训练仅获得0.49%的平均绝对增益,尽管其计算消耗超过RLVE的三倍。我们已公开代码。
基于大语言模型(LLM)的自主智能体虽已推动推理与问题解决能力的革命性进展,但其在训练后即保持静态,无法像智能生命那样通过部署过程中的经验实现成长。我们提出经验驱动的前向学习框架(FLEX),这一无需梯度的学习范式使LLM智能体能够通过积累的经验持续进化。具体而言,FLEX通过在与环境交互过程中持续反思成败,构建结构化的经验库,从而实现可扩展、可传承的智能体进化。该框架在数学推理、化学逆合成及蛋白质适应性预测任务中取得显著提升(AIME25数据集最高提升23%,USPTO50k提升10%,ProteinGym提升14%)。我们进一步揭示了经验增长的显著缩放规律及跨智能体经验传承现象,标志着智能体向可扩展、可传承的持续进化迈出关键一步。项目页面:https://flex-gensi-thuair.github.io。
我们正式推出llama-embed-nemotron-8b——一款开源权重的文本嵌入模型。截至2025年10月21日,该模型在多语言大规模文本嵌入基准(MMTEB)排行榜上实现了最先进的性能表现。尽管当前主流模型展现出强劲性能,但其训练数据与方法论往往未完全公开。为此,我们通过开发完全开源的模型、公开其权重与详细消融研究,并计划分享精编训练数据集,致力于解决这一问题。该模型在所有核心嵌入任务(包括检索、分类和语义文本相似度STS)中均表现卓越,尤其在低资源语言和跨语言设置等复杂多语言场景中表现突出。这一顶尖性能得益于我们创新的数据组合策略:1610万组查询-文档对中,770万样本来自公开数据集,840万则通过各类开源大语言模型合成生成。我们的核心贡献之一是通过详细消融研究分析了关键设计选择,包括对比损失实现的比较、合成数据生成策略的评估,以及模型融合的影响分析。作为指令感知模型,llama-embed-nemotron-8b支持用户自定义指令以优化特定场景性能。这种顶尖性能、广泛适用性与用户驱动灵活性的结合,使其成为通用文本嵌入的理想解决方案。
从自然语言生成可编辑的3D CAD模型仍具挑战性,因为现有文本到CAD系统要么生成网格模型,要么依赖稀缺的设计历史数据。我们提出NURBGen——首个通过非均匀有理B样条(NURBS)直接从文本生成高保真3D CAD模型的框架。为实现这一目标,我们微调大型语言模型(LLM),将自由格式文本转换为包含NURBS曲面参数(即控制点、节点向量、阶数和有理权重)的JSON表示,这些参数可通过Python直接转换为边界表示(BRep)格式。我们进一步提出混合表示法,将未裁剪的NURBS与解析图元相结合,以更稳健地处理裁剪曲面和退化区域,同时降低标记复杂度。此外,我们推出partABC数据集——这是ABC数据集的精选子集,包含独立CAD组件,并通过自动化标注流程添加了详细描述。专家评估证实,NURBGen在多样化提示词上表现优异,在几何保真度和尺寸精度方面均超越现有方法。代码与数据集将公开发布。
尽管可验证奖励的强化学习(RLVR)在训练大型推理模型方面具有强大能力,但其训练动态存在一个关键挑战:强化学习的过拟合问题,即模型虽然能获得训练奖励,却丧失了泛化能力。我们的分析表明,这一现象是由策略的过度专门化以及训练过程中产生的多样化解决方案被灾难性遗忘所驱动的。标准优化方法会丢弃这些宝贵的跨步骤策略多样性。为解决这一问题,我们提出了RLoop——一个基于迭代策略初始化的自我优化框架。该框架将标准训练过程转化为良性循环:首先利用强化学习从给定策略出发探索解空间,随后筛选成功轨迹创建专家数据集。通过拒绝采样微调技术,该数据集被用于优化初始策略,从而为下一轮迭代创造更优越的起点。这种通过迭代重初始化实现的探索与利用循环,有效将瞬时的策略差异转化为稳健的性能提升。实验表明,RLoop能有效缓解遗忘现象,显著提升泛化能力,相较于原始强化学习方法,平均准确率提高9%,pass@32指标提升超过15%。
强化学习(RL)常被认为能以牺牲记忆知识为代价来提升语言模型的推理与泛化能力。我们通过观察发现,经过RL增强的模型在纯粹的知识召回任务(尤其是需要遍历层次化结构知识的任务,如医疗代码查询)中持续优于基础模型及监督微调(SFT)模型,这一现象对传统观点提出了挑战。我们推测这些提升并非源于新获取的数据,而是源于模型在参数内部导航和搜索既有知识层次结构的程序性技能得到改善。为验证该假设,我们证明通过结构化提示(即在SFT模型中显式引导其进行层次遍历)可弥补大部分性能差距(在MedConceptsQA任务上将DeepSeek-V3/R1的差距从24个百分点缩减至7个百分点)。进一步研究发现,虽然提示策略能提升最终答案的准确率,但RL增强模型在深度检索任务中仍保持更优的正确程序路径召回能力。最后,我们的层级内部激活分析表明:尽管事实性表征(如“代码57.95指代尿路感染”的语句激活)在SFT与RL模型间保持较高的余弦相似度,但查询表征(如“代码57.95是什么”)却出现显著分化,这表明RL主要改变的是模型遍历知识的方式,而非知识表征本身。
近期多模态推理领域的进展主要依赖于未公开数据集和专有数据合成方法,这引发了一个悬而未决的问题:如何系统性地构建大规模、以视觉为中心的推理数据集,特别是针对超越视觉数学范畴的任务。本研究提出了一种新型推理数据生成框架,涵盖多样化技能与复杂度层级,生成超过100万条高质量合成视觉中心问题。该数据集同时包含偏好数据与支持离线和在线强化学习的指令提示。我们的合成框架采用两阶段流程:(1)规模化;(2)复杂化。通过利用视觉语言模型和推理大语言模型的双阶段处理,生成包含前沿推理模型丰富认知行为的思维链轨迹。值得注意的是,基于我们数据微调的Qwen2.5-VL-7B模型在所有评估的视觉中心基准测试中均超越开源基线模型,甚至在V* Bench、CV-Bench和MMStar-V基准上优于MiMo-VL-7B-RL等强效闭源模型。最令人惊讶的是,尽管完全以视觉为中心,我们的数据在纯文本推理(MMLU-Pro)和音频推理(MMAU)任务中展现出正向迁移能力。同样,在未包含视频或具身视觉数据的情况下,我们在单证据具身问答基准(NiEH)上观察到显著性能提升。最后,我们利用该数据分析了视觉语言模型后训练全流程。实证分析表明:(i)基于含非线性推理轨迹的高质量数据进行监督微调是在线强化学习生效的关键;(ii)分阶段离线强化学习可匹配在线强化学习性能同时降低计算需求;(iii)对高质量数据精心实施的监督微调能显著提升跨领域、跨模态的迁移性能。
能够操控用户界面的智能体有望彻底改变人类与数字设备的交互方式。为加速这一变革,两大基础要素至关重要:既能实现复杂人类相关目标的高质量数据集,以及可供研究者和开发者快速提升智能体性能的稳健评估方法。本文推出DigiData——一个专为移动端控制智能体训练设计的大规模、高质量、多模态数据集。与现有基于非结构化交互生成目标的数据集不同,DigiData通过系统性探索应用程序功能进行精心构建,具备更丰富的多样性及更高的目标复杂度。同时我们提出DigiData-Bench基准测试,用于评估智能体在真实世界复杂任务中的表现。研究证明当前广泛采用的分步准确率指标难以可靠评估移动控制智能体,为此我们提出动态评估协议与AI驱动的评估方法作为严格的替代方案。这些成果将显著推动移动控制智能体的发展,为更直观高效的人机交互铺平道路。
音乐诱导绘画是一种独特的艺术实践,指在音乐影响下创作视觉艺术作品。评估画作是否忠实反映其灵感来源的音乐,是一项具有挑战性的感知评价任务。现有方法主要依赖情感识别模型来评估音乐与绘画的相似性,但这类模型会引入显著噪声,且忽略了情感之外的更广泛感知线索。为突破这些局限,我们提出了一种新颖的音乐诱导绘画评估框架,直接建模音乐与视觉艺术之间的感知一致性。我们发布了MPD数据集——首个由领域专家基于感知一致性标注的大规模音乐-绘画配对数据集。为更好地处理模糊案例,我们进一步收集了成对偏好标注数据。基于该数据集,我们开发了MPJudge模型,通过基于调制的融合机制将音乐特征整合到视觉编码器中。为有效学习模糊案例,我们采用直接偏好优化方法进行训练。大量实验表明,本方法优于现有方案。定性结果进一步显示,我们的模型能更精准地识别绘画中与音乐相关的区域。
大型语言模型(LLM)的快速发展推动了众多应用,但高效的单批次推理仍是设备端智能实现的关键。尽管FPGA具备细粒度数据控制和高能效优势,但近期GPU优化已缩小了其领先差距,尤其在基于算术运算的场景下。为此,我们利用FPGA丰富的片上存储资源,通过查表操作将LLM推理从算术计算转向存储计算。本文提出LUT-LLM——首个通过向量化内存操作实现10亿参数级LLM推理的FPGA加速器。通过分析确定激活-权重协同量化是最优方案,并辅以三大技术支撑:(1) 带宽感知并行质心搜索;(2) 高效二维查表机制;(3) 时空混合架构最小化数据缓存。在AMD V80 FPGA上对定制化Qwen 3 1.7B模型的实测表明,LUT-LLM相较AMD MI210延迟降低1.66倍,较NVIDIA A100能效提升1.72倍,且可扩展至320亿参数模型,相较A100实现2.16倍能效增益。
得益于遵循自然语言指令的能力,视觉-语言-动作模型在具身人工智能领域日益普及,这延续了其前身——大语言模型和视觉语言模型取得的广泛成功。本文系统梳理了VLA模型发展进程中的十大核心里程碑:多模态融合、推理能力、数据构建、评估体系、跨机器人动作泛化、运行效率、全身协调、安全性保障、智能体架构以及人机协作。我们还深入探讨了为实现这些里程碑而涌现的技术趋势,包括空间关系理解、世界动态建模、后训练优化以及数据合成等。通过这些讨论,我们期望能引导学界关注那些可能加速VLA模型获得更广泛适用性的研究方向。
儘管文本到圖像擴散模型能生成高品質影像,但其與人類偏好的對齊仍面臨挑戰。我們重新審視基於擴散的直接偏好優化(DPO)方法,發現一個關鍵缺陷:擴大偏好間距並不一定能提升生成品質。具體而言,標準的Diffusion-DPO目標函數可能同時增加勝出分支與落敗分支的重建誤差。這會導致非偏好輸出的退化加劇,即使偏好間距擴大,勝出分支也會受到負面影響。為解決此問題,我們提出Diffusion-SDPO——一種通過根據敗者梯度與勝者梯度的對齊程度自適應縮放前者來保護勝出分支的安全更新規則。一階分析推導出的閉式縮放係數可確保在每個優化步驟中,偏好輸出的誤差保持非遞增。我們的方法簡潔且與模型無關,能廣泛兼容現有DPO式對齊框架,僅增加邊際計算開銷。在標準文本到圖像基準測試中,Diffusion-SDPO在自動化偏好評估、美學指標及提示詞對齊度上均持續優於現有偏好學習基線模型。代碼已公開於https://github.com/AIDC-AI/Diffusion-SDPO。
我们提出DIMO,一种能够从单张图像生成任意物体多样化三维运动的生成式方法。该方法的核心思想是利用训练成熟的视频模型中蕴含的丰富先验知识,提取通用运动模式并将其嵌入共享的低维潜空间。具体而言,我们首先生成包含同一物体但具有不同运动的多个视频序列,随后将每种运动嵌入潜向量,并训练共享运动解码器来学习由结构化紧凑运动表征(即神经关键点轨迹)所描述的运动分布。接着,这些关键点会驱动规范三维高斯模型并进行融合,以构建几何与外观表征。在推理阶段,通过已学习的潜空间可实现单次前向传播即时采样多样三维运动,并支持三维运动插值与语言引导运动生成等多项创新应用。项目页面详见:https://linzhanm.github.io/dimo。
尽管经过强化学习(RL)后训练的视觉语言模型(VLMs)展现出令人印象深刻的通用推理能力,但其评估往往局限于语言主导型任务(如数学推理)。这引发了一个关键问题:RL后训练是否真能拓展基础VLM固有的能力边界——尤其是在模型最初无法解决的视觉中心型空间任务上?为探究此问题,我们提出Ariadne框架,该框架利用合成迷宫进行多步空间推理,并精确控制任务难度(如路径长度、转弯次数)。我们通过难度感知课程学习,在此可控环境中运用验证奖励强化学习(RLVR)对VLMs进行训练。令人惊讶的是,经过RLVR后训练后,VLM在基础模型得分为0%的问题集上准确率超过50%,证明我们的方法拓展了模型的初始能力边界。为评估实际应用潜力,我们在实用基准测试中评估了分布外(OOD)泛化能力。尽管仅使用合成迷宫样本进行训练,Ariadne在MapBench(如博物馆导航)和ReasonMap(地铁换乘任务)上分别实现了16%和24%的平均零样本提升。这些结果证实我们的方法不仅拓宽了模型的基础能力极限,还增强了其在现实世界空间推理中的泛化能力。我们承认本研究受限于预训练数据的不透明性,仅聚焦于后训练阶段,期待我们的工作能推动针对能力边界拓展的专项对齐研究。
优化大规模软件仓库的性能需要代码推理与软件工程(SWE)领域的专业知识,以在保证程序正确性的同时降低运行耗时。然而现有基准测试多聚焦于"修复内容"而非"修复方法"。我们提出SWE-fficiency基准,用于评估真实工作负载下的仓库级性能优化能力。该测试集涵盖九个广泛使用的数据科学、机器学习和高性能计算仓库(如numpy、pandas、scipy)中的498项任务:给定完整代码库与低速工作负载,智能体需解析代码语义、定位瓶颈及相关测试,并生成能匹配或超越专家加速效果且通过单元测试的补丁。为实现这种"如何修复"的评估,我们通过自动化流水线从GitHub拉取请求中采集性能优化编辑,结合关键词过滤、静态分析、覆盖度工具与执行验证,既确认专家加速基准又识别相关仓库单元测试。对前沿智能体的实证评估显示其表现显著欠佳:平均仅达到专家加速效果的0.15倍。智能体在定位优化机会、跨函数执行推理及维护编辑正确性方面存在明显不足。我们公开此基准测试及配套数据流水线,以推动自动化性能工程与长周期软件推理的研究。
影片異常理解(VAU)旨在對影片中的異常事件提供細緻闡釋與語義解析,突破傳統方法僅專注於異常檢測與定位的局限性。然而現有方法往往忽略物體間深層因果關係與互動機制,而這些要素對於理解異常行為至關重要。本文提出VADER——一種基於大語言模型的影片異常理解框架,透過整合關鍵幀物體關係特徵與視覺線索,強化從影片中理解異常事件的能力。具體而言,VADER首先運用異常評分器計算逐幀異常分數,再透過情境感知採樣策略捕捉每個異常事件的因果上下文。透過關係特徵提取器與對比關係編碼器的協同工作,動態建模物體互動關係,生成緊湊的關係表徵以供下游推理。這些視覺與關係線索與大語言模型整合後,能生成具因果依據的詳細描述,並支援穩健的異常問答任務。在多個真實場景VAU基準測試上的實驗表明,VADER在異常描述、解釋與因果推理任務中均取得優異表現,推動可解釋影片異常分析的研究前沿。
對話情緒識別(ERC)是理解人類情感並實現自然人機交互的關鍵任務。儘管大型語言模型(LLMs)近期在該領域展現出巨大潛力,但其捕捉顯性與隱性情緒內在聯繫的能力仍存在侷限。本文提出創新型ERC訓練框架PRC-Emo,融合提示工程、示範檢索與課程學習三大要素,旨在探究LLMs能否有效感知對話情境中的情緒。具體而言,我們基於顯性與隱性情緒線索設計情緒敏感型提示模板,以更精準引導模型理解說話者心理狀態;構建首個專用於ERC的示範檢索庫,包含來自廣泛使用數據集的訓練樣本,以及由LLMs生成並經人工校驗的高質量對話實例;此外,我們在LoRA微調過程中引入課程學習策略,通過融合同一說話者與不同說話者話語間的加權情緒轉移來標定對話樣本難度等級,並按由易到難的順序組織訓練。在IEMOCAP和MELD兩個基準數據集上的實驗結果表明,本方法實現了新的最優性能,證明了所提方案在增強基於LLM的情緒理解能力方面的有效性與泛化性。
大型語言模型在多模態語音識別領域近期取得顯著進展,涵蓋聽覺語音識別、視覺語音識別及音視覺融合語音識別。然而現有基於LLM的方法通常獨立處理各項任務,需訓練多個獨立模型,這不僅增加了計算與部署資源消耗,還錯失了跨任務的協同效應。此外,這些方法依賴固定速率的分詞壓縮機制,限制了精度與效率平衡的靈活性。這些局限凸顯了構建統一框架的必要性——既能支持三類語音識別任務,又可實現彈性推理。為此,我們提出Omni-AVSR這一統一的音視覺大語言模型,通過多粒度高效訓練與參數高效微調相結合的創新方案。具體而言,我們改進套娃表示學習範式,使其能高效適應多層級音視覺特徵訓練,從而降低固有訓練資源消耗。進一步地,我們探索三種基於LoRA的骨幹網絡適配策略,在共享特徵與任務專有特性間實現動態平衡。在LRS2和LRS3數據集上的實驗表明,Omni-AVSR僅需訓練單一模型即可達到與現有頂尖基準模型相當或更優的準確率,同時大幅降低訓練與部署成本。該模型在聲學噪聲環境下保持強韌性,我們還分析了LLM規模擴展時的效能變化規律,為性能與效率的權衡提供了重要見解。