每日精選AI研究論文及翻譯
可解釋性方法近年來受到廣泛關注,特別是在大型語言模型的背景下,這些方法能夠深入理解語言表徵、檢測錯誤,並揭示模型行為如幻覺和重複等現象。然而,儘管這些技術在提升自動語音識別(ASR)系統的性能和可解釋性方面具有潛力,它們在ASR領域的應用仍顯不足。在本研究中,我們調整並系統地應用已建立的可解釋性方法,如logit透鏡、線性探測和激活修補,來考察ASR系統中各層次上聲學和語義信息的演變過程。我們的實驗揭示了此前未知的內部動態,包括導致重複幻覺的特定編碼器-解碼器交互,以及深植於聲學表徵中的語義偏見。這些發現展示了將可解釋性技術擴展並應用於語音識別的益處,為未來提升模型透明度和魯棒性的研究開闢了有前景的方向。
視覺語言模型(VLMs)常面臨視覺幻覺問題,即描述圖像中並不存在的事物,以及語言捷徑問題,即跳過視覺部分而僅依賴文本先驗。這些問題的產生,主要是因為大多數VLMs的後訓練方法依賴於簡單的可驗證答案匹配,並且僅對最終輸出進行監督,使得中間的視覺推理缺乏明確的指導。因此,VLMs接收到的視覺信號稀疏,往往傾向於優先基於語言的推理而非視覺感知。為緩解這一問題,現有的一些方法通過使用人工標註或從外部大型模型蒸餾出的標籤來增加視覺監督。然而,人工標註既耗時又成本高昂,且由於外部信號無法適應不斷演變的策略,它們會導致分佈偏移,從而可能引發獎勵欺詐。本文提出了一種自我獎勵方法——Vision-SR1,該方法通過強化學習在不依賴外部視覺監督的情況下提升視覺推理能力。Vision-SR1將VLM的推理分解為兩個階段:視覺感知與語言推理。首先,模型被提示生成自足的視覺感知,這些感知足以回答問題而無需回顧輸入圖像。為驗證這種自足性,同一VLM模型隨後被重新提示,僅使用生成的感知作為輸入進行語言推理以計算獎勵。這一自我獎勵與對最終輸出的監督相結合,提供了一種平衡的訓練信號,強化了視覺感知與語言推理。我們的實驗表明,Vision-SR1在多樣化的視覺語言任務中提升了視覺推理能力,減少了視覺幻覺,並降低對語言捷徑的依賴。
面向图形用户界面(GUI)的自主代理在科学计算等专业领域面临重大挑战,这些领域既需要长远的规划,又要求精确的执行。现有方法存在一种权衡:通才型代理擅长规划但在执行上表现欠佳,而专才型代理则表现出相反的弱点。近期的组合框架试图通过结合规划者和执行者来弥合这一差距,但这些框架通常是静态且不可训练的,从而阻碍了从经验中适应。鉴于科学领域高质量数据的稀缺性,这是一个关键的限制。为解决这些限制,我们引入了CODA,一种新颖且可训练的组合框架,它将通才型规划者(Cerebrum)与专才型执行者(Cerebellum)集成,通过专门的两阶段流程进行训练。在第一阶段,即专业化阶段,我们采用解耦的GRPO方法,为每个科学应用单独训练一个专家规划者,从一小部分任务轨迹中引导。在第二阶段,即泛化阶段,我们汇集所有来自专业专家的成功轨迹,构建一个整合的数据集,随后用于对最终规划者进行监督微调。这使得CODA既具备稳健的执行能力,又拥有跨领域的泛化能力。在ScienceBoard基准测试的四个挑战性应用上评估,CODA显著超越了基线模型,并在开源模型中确立了新的技术前沿。
近期,交互式数字人视频生成技术引起了广泛关注并取得了显著进展。然而,构建一个能够实时响应多种输入信号的实用系统,对现有方法而言仍具挑战性,这些方法往往面临高延迟、高计算成本和有限可控性的问题。在本研究中,我们引入了一种自回归视频生成框架,该框架支持交互式多模态控制,并能以流式方式进行低延迟外推。通过对标准大型语言模型(LLM)进行最小化修改,我们的框架能够接受包括音频、姿态和文本在内的多模态条件编码,并输出空间和语义上连贯的表示,以指导扩散头的去噪过程。为此,我们从多个来源构建了一个约20,000小时的大规模对话数据集,为训练提供了丰富的对话场景。我们进一步引入了一种深度压缩自编码器,其压缩比高达64倍,有效缓解了自回归模型在长序列推理上的负担。在双工对话、多语言人像合成及交互式世界模型上的大量实验,凸显了我们的方法在低延迟、高效率和细粒度多模态可控性方面的优势。
視覺-語言-動作(VLA)模型通過調整大型視覺-語言骨幹,將圖像和指令映射到機器人動作。然而,現有的VLA解碼器要麼以固定的從左到右順序自回歸生成動作,要麼在骨幹外部附加連續擴散或流匹配頭,這需要專門的訓練和迭代採樣,阻礙了統一且可擴展的架構。我們提出了離散擴散VLA,這是一種單一變壓器策略,通過離散擴散對離散化的動作塊進行建模,並使用與VLM骨幹相同的交叉熵目標進行訓練。該設計保留了擴散的漸進細化範式,同時與VLM的離散令牌接口保持原生兼容。我們的方法實現了自適應解碼順序,先解決簡單的動作元素,再處理較難的,並通過次級重掩碼在細化輪次中重新審視不確定的預測,從而提高一致性並實現穩健的錯誤修正。這種統一的解碼器保留了預訓練的視覺語言先驗,支持並行解碼,打破了自回歸瓶頸,並減少了函數評估次數。離散擴散VLA在LIBERO上達到了96.3%的平均成功率,在SimplerEnv Fractal上達到了71.2%的視覺匹配率,在SimplerEnv Bridge上達到了49.3%的總體表現,優於自回歸和連續擴散的基線。這些發現表明,離散擴散動作解碼器支持精確的動作建模和一致的訓練,為將VLA擴展到更大的模型和數據集奠定了基礎。
近期研究表明,在分析性和常識推理等軟性推理問題上,思維鏈(Chain-of-Thought, CoT)往往帶來的增益有限。此外,CoT可能與模型的實際推理過程不一致。我們探討了在指令微調模型、推理模型及推理蒸餾模型中,CoT在軟性推理任務中的動態特性與忠實性。我們的研究揭示了這些模型依賴CoT的方式存在差異,並表明CoT的影響力與其忠實性並非總是保持一致。
近期,文本到音频(TTA)生成技術在合成短音頻片段方面取得了顯著進展,但在處理長篇敘事音頻時仍面臨挑戰,這需要時間上的連貫性和組合推理能力。為填補這一空白,我們提出了AudioStory,這是一個整合大型語言模型(LLMs)與TTA系統的統一框架,用於生成結構化的長篇音頻敘事。AudioStory具備強大的指令遵循與推理生成能力,它利用LLMs將複雜的敘事查詢分解為帶有上下文提示的時間順序子任務,從而實現場景轉換的連貫性和情感基調的一致性。AudioStory擁有兩大亮點:(1)解耦橋接機制:AudioStory將LLM與擴散模型的協作分離為兩個專門組件,即用於事件內語義對齊的橋接查詢和用於跨事件連貫性保持的殘差查詢。(2)端到端訓練:通過在單一端到端框架內統一指令理解與音頻生成,AudioStory消除了模塊化訓練管道的需求,同時增強了組件間的協同效應。此外,我們建立了AudioStory-10K基準,涵蓋動畫音景和自然聲音敘事等多樣化領域。大量實驗表明,AudioStory在單音頻生成和敘事音頻生成上均表現優異,在指令遵循能力和音頻保真度上均超越了先前的TTA基線。我們的代碼已開源於https://github.com/TencentARC/AudioStory。
擴散語言模型(DLMs)近年來作為自迴歸方法的一種替代方案嶄露頭角,提供了並行序列生成和靈活的詞元順序。然而,其推理速度仍慢於自迴歸模型,主要歸因於雙向注意力的計算成本以及高質量輸出所需的大量精煉步驟。在本研究中,我們強調並利用了一個被忽視的DLM特性——早期答案收斂:在許多情況下,正確答案可以在最終解碼步驟之前,在半步階段內部識別,無論是在半自迴歸還是隨機重掩碼的調度下。例如,在GSM8K和MMLU數據集上,分別有高達97%和99%的實例僅需一半的精煉步驟即可正確解碼。基於這一觀察,我們引入了Prophet,一種無需訓練的快速解碼範式,實現了早期承諾解碼。具體而言,Prophet動態決定是繼續精煉還是“全押”(即一步解碼所有剩餘詞元),使用前兩個預測候選之間的置信度差距作為判斷標準。它無縫集成到現有的DLM實現中,引入的開銷可忽略不計,且無需額外訓練。對LLaDA-8B和Dream-7B在多個任務上的實證評估表明,Prophet在保持高生成質量的同時,將解碼步驟數量最多減少了3.4倍。這些結果將DLM解碼重新定義為何時停止採樣的問題,並證明了早期解碼收斂提供了一種簡單而強大的機制來加速DLM推理,與現有的加速技術相輔相成。我們的代碼已公開於https://github.com/pixeli99/Prophet。
多令牌預測(MTP)已被提出作為一種輔助目標,旨在改進語言模型訓練中的下一個令牌預測(NTP),但其改進效果不一致,在標準自然語言處理基準測試中表現不佳。我們認為,MTP精確預測未來令牌作為輔助損失過於困難。相反,我們提出了令牌順序預測(TOP),該方法訓練模型使用學習排序損失來根據其接近程度對即將到來的令牌進行排序。與MTP需要多個Transformer層相比,TOP僅需增加一個解嵌入層。我們使用NTP、MTP和TOP目標對340M、1.8B和7B參數的模型進行了預訓練。在八個標準自然語言處理基準測試上的結果表明,即使在大規模情況下,TOP總體上也優於NTP和MTP。我們的代碼可在https://github.com/zaydzuhri/token-order-prediction獲取。
隨著模型日益利用多步推理策略來解決複雜問題,監督這些中間步驟的邏輯有效性已成為一項關鍵的研究挑戰。過程獎勵模型通過提供逐步反饋來應對這一挑戰,但現有方法存在兩大缺陷:它們通常作為分類器運作而不提供解釋,且依賴於靜態數據集的監督微調限制了其泛化能力。受最新進展的啟發,我們將逐步獎勵建模從分類任務重新定義為推理任務本身。因此,我們提出了一種生成式評判者,它對策略模型的推理步驟(即元推理)進行推理,在給出最終判斷之前輸出思考標記。我們的模型StepWiser通過使用推演結果的相對比較進行強化學習訓練。我們展示了它在以下方面的優勢:(i) 在中間步驟上的判斷準確性優於現有方法;(ii) 可用於在訓練時改進策略模型;以及(iii) 提升了推理時的搜索效率。
遠程光電容積描記法(rPPG)的進展受到現有公開數據集關鍵問題的限制:規模小、面部視頻的隱私問題以及條件缺乏多樣性。本文介紹了一個新穎的、全面的、大規模的多視角視頻數據集,用於rPPG和健康生物標誌物的估計。我們的數據集包含來自600名受試者的3600段同步視頻記錄,這些記錄是在不同條件下(靜息和運動後)使用多個消費級相機從不同角度捕捉的。為了實現生理狀態的多模態分析,每段記錄都配備了100 Hz的PPG信號以及擴展的健康指標,如心電圖、動脈血壓、生物標誌物、溫度、血氧飽和度、呼吸頻率和壓力水平。利用這些數據,我們訓練了一個高效的rPPG模型,並在跨數據集場景中與現有方法進行質量比較。我們數據集和模型的公開發布應能顯著加快AI醫療助手開發的進程。
智能手机为用户带来了极大的便利,同时也使得设备能够广泛记录各类个人信息。现有基于多模态大语言模型(MLLMs)的智能手机代理在自动化执行不同任务方面已取得显著成效。然而,作为代价,这些代理在操作过程中被赋予了访问大量用户敏感个人信息的权限。为了深入理解这些代理的隐私意识,我们提出了首个大规模基准测试,涵盖7,138种场景,据我们所知,这是迄今为止最为全面的。此外,针对场景中的隐私内容,我们标注了其类型(如账户凭证)、敏感度等级及位置信息。随后,我们细致地对七款主流智能手机代理进行了基准测试。结果显示,几乎所有被测试的代理在隐私意识(RA)方面表现均不尽如人意,即便在明确提示下,其性能仍低于60%。总体而言,闭源代理在隐私保护能力上优于开源代理,其中Gemini 2.0-flash表现最佳,RA达到67%。我们还发现,代理的隐私检测能力与场景敏感度高度相关,即敏感度越高的场景通常越容易被识别。我们期望这些发现能启发研究界重新思考智能手机代理在效用与隐私之间不平衡的权衡问题。我们的代码与基准测试可在https://zhixin-l.github.io/SAPA-Bench获取。
評估視覺語言模型(VLMs)在不同表徵間是否具備一致的推理能力具有挑戰性,因為模態間的比較通常會受到任務差異和信息不對稱的干擾。我們引入了SEAM,這是一個在四個已有標準化文本和視覺符號的領域中配對語義等價輸入的基準。通過在模態間採用不同的符號系統,與基於光學字符識別(OCR)的圖像-文本配對形成對比,SEAM為VLMs的文本符號和視覺空間推理能力提供了嚴格的比較評估。在21個當代模型中,我們觀察到系統性的模態不平衡:儘管問題包含語義等價的信息,視覺在整體性能上常常落後於語言,且跨模態的一致性相對較低。我們的錯誤分析揭示了兩個主要驅動因素:領域符號中因分詞導致的文本感知失敗,以及引發幻覺的視覺感知失敗。我們還展示了我們的結果在視覺轉換下大體上是穩健的。SEAM建立了一個受控的、語義等價的環境,用於衡量和提升模態無關的推理能力。
動作生成對於虛擬角色和具身代理的動畫製作至關重要。儘管近期的文本驅動方法已取得顯著進展,但它們往往難以實現語言描述與動作語義的精確對齊,並且存在多步推理效率低下的問題。為解決這些問題,我們引入了TMR++對齊偏好優化(TAPO),這是一個創新框架,能夠將細微的動作變化與文本修飾符對齊,並通過迭代調整來強化語義基礎。為了進一步實現實時合成,我們提出了MotionFLUX,這是一個基於確定性校正流匹配的高速生成框架。與傳統的擴散模型需要數百步去噪不同,MotionFLUX構建了噪聲分佈與動作空間之間的最優傳輸路徑,從而實現實時合成。線性化的概率路徑減少了序列方法中典型的多步採樣需求,在不犧牲動作質量的情況下顯著加速了推理時間。實驗結果表明,TAPO和MotionFLUX共同構成了一個統一系統,在語義一致性和動作質量上均優於最先進的方法,同時還加快了生成速度。代碼和預訓練模型將被公開。
研究和綜合知識的能力是人類專業知識與進步的核心。一類新興系統通過生成式研究綜合,承諾提供這些令人興奮的能力,它們在實時網絡上進行檢索,並將發現的資料綜合成長篇、引用的摘要。然而,評估此類系統仍是一個開放性挑戰:現有的問答基準側重於短篇事實性回應,而專家策劃的數據集則面臨過時和數據污染的風險。兩者都未能捕捉到真實研究綜合任務的複雜性和演變性。在本研究中,我們引入了DeepScholar-bench,這是一個實時基準和全面的自動化評估框架,旨在評估生成式研究綜合。DeepScholar-bench從近期高質量的ArXiv論文中提取查詢,並專注於一個真實的研究綜合任務:通過檢索、綜合和引用先前研究,生成論文的相關工作部分。我們的評估框架全面評估了三個關鍵維度的表現:知識綜合、檢索質量和可驗證性。我們還開發了DeepScholar-base,這是一個使用LOTUS API高效實現的參考管道。利用DeepScholar-bench框架,我們對先前的開源系統、搜索AI、OpenAI的DeepResearch和DeepScholar-base進行了系統性評估。我們發現DeepScholar-base建立了一個強有力的基準,其表現與其他方法相比具有競爭力或更高。我們還發現DeepScholar-bench遠未飽和,沒有任何系統在所有指標上超過19%的分數。這些結果凸顯了DeepScholar-bench的難度,以及其對於推動具備生成式研究綜合能力的AI系統進步的重要性。我們的代碼可在https://github.com/guestrin-lab/deepscholar-bench 獲取。
服務大型語言模型(LLMs)是一項GPU密集型的任務,傳統的自動擴展機制在此顯得力不從心,尤其是在現代預填充-解碼(Prefill-Decode, P/D)分離架構中。這種架構轉變雖然強大,卻帶來了顯著的運營挑戰,包括對異構硬體的低效利用、網絡瓶頸,以及預填充與解碼階段之間關鍵的不平衡問題。我們提出了HeteroScale,這是一個協調的自動擴展框架,專門針對P/D分離架構服務中的核心挑戰。HeteroScale結合了一個能適應異構硬體和網絡限制的拓撲感知調度器,以及一項基於首次大規模生產環境中自動擴展信號實證研究的新穎指標驅動策略。通過利用單一、穩健的指標來聯合擴展預填充和解碼池,HeteroScale在確保高效、自適應資源管理的同時,保持了架構的平衡。在部署於數萬個GPU的大規模生產環境中,HeteroScale已證明其有效性,平均GPU利用率顯著提升了26.6個百分點,每日節省了數十萬GPU小時,同時嚴格遵守了服務水平目標。
材料建模的基礎模型正在快速發展,但其訓練成本仍然高昂,這使得許多研究團隊難以觸及最先進的方法。我們推出了Nequix,這是一種緊湊的E(3)等變勢能模型,它將簡化的NequIP設計與現代訓練實踐相結合,包括等變均方根層歸一化和Muon優化器,以在顯著降低計算需求的同時保持準確性。基於JAX構建的Nequix擁有70萬個參數,並在500個A100 GPU小時內完成訓練。在Matbench-Discovery和MDR Phonon基準測試中,Nequix總體排名第三,而其訓練成本不到大多數其他方法的四分之一,並且其推理速度比當前排名第一的模型快一個數量級。我們在https://github.com/atomicarchitects/nequix上發布了模型權重和完全可重現的代碼庫。
本文识别并分析了一类基于模型上下文协议(MCP)的智能体系统中的新型漏洞。通过攻击链的描述与演示,揭示了如何将原本无害且各自授权的任务编排起来,从而产生有害的涌现行为。利用MITRE ATLAS框架进行系统分析,我们展示了95个具备访问多种服务权限的智能体——包括浏览器自动化、财务分析、位置追踪及代码部署——如何将合法操作串联成复杂的攻击序列,这些攻击序列超越了任何单一服务的安全边界。这些红队演练调查了当前MCP架构是否缺乏跨域安全措施,以检测或阻止一大类组合攻击。我们提供了具体攻击链的实证证据,这些攻击链通过服务编排实现了目标伤害,包括数据外泄、财务操纵和基础设施破坏。这些发现表明,当智能体能够跨多个领域协调行动时,服务隔离的基本安全假设即告失效,从而创造出一个随每项新增能力呈指数增长的攻击面。本研究提供了一个基础实验框架,不仅评估智能体能否完成MCP基准任务,更探讨了当它们过于出色地完成任务,并在多个服务间进行优化,以至于违背人类预期和安全约束时会发生什么。我们提出了利用现有MCP基准套件进行的三项具体实验方向。