每日精選AI研究論文及翻譯
自主数据科学,从原始数据源到分析师级别的深度研究报告,长期以来一直是一项挑战,而随着强大大型语言模型(LLMs)的出现,这一目标正变得可行。近期基于工作流程的数据代理在特定数据任务上展现了令人鼓舞的成果,但由于其对预设工作流程的依赖,在实现完全自主数据科学方面仍存在根本性限制。本文中,我们介绍了DeepAnalyze-8B,首个专为自主数据科学设计的代理型LLM,能够自动完成从数据源到分析师级别深度研究报告的端到端流程。为应对高复杂度数据科学任务,我们提出了一种基于课程的代理训练范式,模拟人类数据科学家的学习轨迹,使LLMs能够在真实环境中逐步获取并整合多种能力。同时,我们引入了一种数据驱动的轨迹合成框架,用于构建高质量的训练数据。通过代理训练,DeepAnalyze学会了执行广泛的数据任务,包括数据问答、专业分析任务以及开放式数据研究。实验表明,仅拥有80亿参数的DeepAnalyze,其表现超越了以往基于最先进专有LLMs构建的工作流程代理。DeepAnalyze的模型、代码及训练数据均已开源,为迈向自主数据科学铺平了道路。
近期,圖像編輯技術取得了顯著進展。現代編輯模型已能遵循複雜指令對原始內容進行操作。然而,在完成編輯指令之外,伴隨的物理效應是生成真實感的關鍵。例如,移除一個物體時,其陰影、反射及與周圍物體的互動也應一併消除。遺憾的是,現有模型與基準主要聚焦於指令的完成,而忽視了這些物理效應。因此,當下我們距離實現物理真實的圖像編輯還有多遠?為解答此問題,我們引入了PICABench,它系統地評估了大多數常見編輯操作(添加、移除、屬性變更等)在八個子維度(涵蓋光學、力學及狀態轉變)上的物理真實性。我們進一步提出了PICAEval,這是一種可靠的評估協議,採用VLM作為評判工具,並結合逐案例、區域級別的人工標註與問題。除了基準測試外,我們還探索了從視頻中學習物理的有效解決方案,並構建了訓練數據集PICA-100K。在評估了大多數主流模型後,我們觀察到物理真實性仍是一個具有廣闊探索空間的挑戰性問題。我們希望我們的基準及提出的解決方案能為未來從簡單內容編輯邁向物理一致真實感的工作奠定基礎。
大型语言模型(LLMs)在处理文档理解、代码分析及多步推理等任务时,日益依赖于长上下文建模。然而,将上下文窗口扩展至百万标记级别,带来了难以承受的计算与内存成本,限制了长上下文LLMs的实际应用。本研究另辟蹊径,采用视觉上下文扩展策略以应对这一挑战。我们提出Glyph框架,该框架将长文本渲染为图像,并利用视觉-语言模型(VLMs)进行处理,而非单纯延长基于标记的序列。此方法在保留语义信息的同时,大幅压缩了文本输入,并进一步设计了一种由LLM驱动的遗传搜索算法,以识别最佳视觉渲染配置,实现准确性与压缩率之间的平衡。通过大量实验,我们验证了该方法在多种长上下文基准测试中,实现了3至4倍的标记压缩,同时保持了与Qwen3-8B等领先LLMs相当的准确性。这种压缩还带来了约4倍的预填充与解码速度提升,以及约2倍的SFT训练加速。此外,在极端压缩条件下,一个128K上下文的VLM能够扩展至处理百万标记级别的文本任务。同时,渲染后的文本数据对现实世界中的多模态任务,如文档理解,亦大有裨益。我们的代码与模型已发布于https://github.com/thu-coai/Glyph。
視覺語言模型(VLMs)的發展受到公共數據集碎片化、不一致和污染問題的阻礙。我們推出了FineVision,這是一個精心收集、整理和統一的包含2400萬個樣本的語料庫,是該領域最大的開放資源。我們通過半自動化、人機協作的流程,將200多個來源統一為185個子集:自動化處理批量數據攝取和模式映射,而審查人員則審核映射並抽樣檢查輸出,以確保註釋的準確使用、適當的格式和多樣性,以及安全性;發現問題時會觸發針對性修復和重新運行。該工作流程還對數據源內部和跨數據源進行嚴格的去重處理,並針對66個公共基準進行去污染。FineVision還涵蓋了代理/GUI任務,並提供統一的動作空間;審查人員驗證模式並檢查部分軌跡樣本,以確認可執行性保真度。在FineVision上訓練的模型在廣泛的評估套件中始終優於在現有開放混合數據集上訓練的模型,這凸顯了規模、數據衛生以及人機協作平衡自動化的優勢。我們發布了該語料庫和整理工具,以加速以數據為中心的VLM研究。
在多模态语言模型(MLLM)研究中,一个主导性假设认为其性能主要继承自大型语言模型(LLM)骨干,这归因于其庞大的参数规模和卓越的能力。这一假设导致了对视觉编码器理解的空白,而视觉编码器决定了MLLM如何感知图像。最近,MLLM训练范式从监督微调(SFT)向强化学习(RL)的转变,放大了这一忽视——即对这类训练如何重塑视觉编码器及MLLM本身的显著缺乏分析。为应对此问题,我们首先探究了训练策略对MLLM的影响,发现RL在强视觉相关的视觉问答(VQA)基准测试中明显优于SFT。受此启发,我们通过一系列多样且深入的实验,从ImageNet分类与分割到梯度可视化,对MLLM的视觉编码器进行了关键却未充分探索的分析。我们的结果表明,MLLM的训练后策略(即SFT或RL)不仅导致MLLM下游任务的不同结果,还从根本上重塑了MLLM的底层视觉表征。具体而言,我们研究的关键发现是,与SFT相比,RL能产生更强且定位更精确的视觉表征,从而提升了MLLM视觉编码器的能力。随后,我们将这些发现提炼为构建MLLM强视觉编码器的简单方案——偏好指导视觉优化(PIVOT)。当PIVOT训练的视觉编码器整合进MLLM时,尽管其计算成本不到标准视觉预训练的1%,却能超越更大规模、训练更充分的对手。这一结果为推进MLLM视觉骨干的发展开辟了一条高效且有效的路径。项目页面详见https://june-page.github.io/pivot/。
大型語言模型(LLMs)在複雜推理任務中展現了顯著的進步,這主要得益於推理時擴展(TTS)範式,該範式在推理過程中分配額外的計算資源。其中,外部TTS(尤其是最佳N選取範式)通過從多個獨立生成的推理軌跡中進行選擇,實現了可擴展的性能提升。然而,這種方法面臨著關鍵限制:(i)部署過程獎勵模型的高計算開銷,(ii)未能充分利用LLM的內在潛在表示。我們引入了TrajSelector,這是一個高效且有效的最佳N框架,它利用採樣LLM中的隱藏狀態進行過程級評分。一個輕量級的驗證器(僅有0.6B參數)評估逐步軌跡的質量,然後聚合這些分數以識別最佳推理軌跡。我們的框架採用完全數據驅動、端到端的訓練方案,消除了對大量步驟級註釋的依賴。在五個基準測試中的實驗結果表明,TrajSelector提供了持續的性能提升。在最佳32設置中,其準確率超過多數投票4.61%,並在現有過程獎勵模型上提升了4.31%至12.21%,同時保持了較低的推理成本。
檢索增強生成(Retrieval-Augmented Generation, RAG)已成為一種強大的範式,通過從外部語料庫中檢索相關文檔來增強大型語言模型(LLMs)的能力。然而,現有的RAG系統主要專注於單一模態的文本文檔,在現實場景中,當查詢和文檔可能包含混合模態(如文本和圖像)時,這些系統往往表現不足。本文針對通用檢索增強生成(Universal Retrieval-Augmented Generation, URAG)的挑戰,該挑戰涉及檢索和推理混合模態信息以提升視覺語言生成。為此,我們提出了Nyx,一種專為URAG場景設計的統一混合模態到混合模態檢索器。為緩解現實混合模態數據的稀缺性,我們引入了一個四階段的自動化生成與過濾流程,利用網絡文檔構建了NyxQA,這是一個包含多樣化混合模態問答對的數據集,更好地反映了現實世界的信息需求。基於這一高質量數據集,我們為Nyx採用了兩階段訓練框架:首先在NyxQA及多種開源檢索數據集上進行預訓練,隨後利用下游視覺語言模型(VLMs)的反饋進行監督微調,以對齊檢索輸出與生成偏好。實驗結果表明,Nyx不僅在標準的僅文本RAG基準測試中表現出色,而且在更為通用和現實的URAG設置中表現卓越,顯著提升了視覺語言任務中的生成質量。
大型語言模型在推理任務上展現了卓越的性能,能夠解決競賽級別的編程與數學問題。然而,其可擴展性受限於人工標註數據集以及缺乏大規模、高難度的編程問題訓練數據。現有的競賽編程數據集僅包含數千至數萬個問題。先前的合成數據生成方法依賴於擴展現有的指令數據集或從人工標註數據中挑選難題。本文提出QueST,一個新穎的框架,結合了難度感知的圖採樣與難度感知的拒絕微調,直接優化專用生成器以創造高難度的編程問題。我們訓練的生成器在創造有益於下游性能的難題方面,展現出甚至超越GPT-4o的卓越能力。我們利用QueST生成大規模的合成編程問題,隨後用於從具有長思維鏈的強教師模型進行知識蒸餾,或對較小模型進行強化學習,在兩種情境下均證明了其有效性。我們的蒸餾實驗顯示了顯著的性能提升。具體而言,在QueST生成的10萬個難題上微調Qwen3-8B-base後,我們在LiveCodeBench上的表現超越了原始Qwen3-8B。通過額外增加11.2萬個樣本(即2.8萬個人類編寫的問題配以多個合成解決方案),我們的8B模型達到了遠大於其的DeepSeek-R1-671B的性能水平。這些發現表明,通過QueST生成複雜問題,為推進大型語言模型在競賽編程與推理領域的前沿提供了一種有效且可擴展的方法。
集成大型語言模型(LLMs)作為一種超越單一模型性能的潛在方法,因其能夠利用各模型的互補優勢而受到關注。特別地,通過聚合模型的下一個詞元概率分佈來選擇下一個詞元,已在多種任務中顯示出有效性。然而,儘管在短篇回答生成中取得了成功,其在長篇生成中的應用仍未被充分探索。本文指出,在長篇生成中使用現有的集成方法需要謹慎選擇集成位置,因為在每個詞元處進行集成的標準做法往往會降低性能。我們確定了決定這些位置的兩個關鍵因素:模型間的詞元化不匹配以及它們在下一個詞元概率分佈上的共識。基於此,我們提出了SAFE(穩定且快速的LLM集成框架),該框架通過綜合考慮這些因素來進行選擇性集成。為了進一步提升穩定性,我們引入了一種概率銳化策略,該策略將分散在代表同一詞的多個子詞詞元上的概率合併到一個代表性詞元中。我們在包括MATH500和BBH在內的多樣化基準測試中的實驗表明,SAFE在準確性和效率上均優於現有方法,即使在集成少於1%的詞元時也能實現性能提升。
尽管基础模型已在多个领域展现出潜力,天文学仍缺乏一个统一的框架来对其高度多样化的数据模态进行联合建模。本文介绍了AION-1,一个面向天文学的大规模多模态基础模型家族。AION-1采用两阶段架构整合了异构的成像、光谱和标量数据:首先进行模态特定的标记化,随后基于Transformer对跨模态标记序列进行掩码建模。该模型在五大巡天数据集上进行了预训练,包括Legacy Survey、Hyper Suprime-Cam (HSC)、Sloan Digital Sky Survey (SDSS)、Dark Energy Spectroscopic Instrument (DESI)和Gaia,涵盖了超过2亿颗恒星、星系和类星体的观测数据。仅使用一个冻结的编码器,AION-1在多种下游任务中均取得了优异表现,包括星系和恒星属性估计、星系形态分类、基于相似性的检索、星系图像分割以及光谱超分辨率。我们发布了参数规模从3亿到31亿不等的AION-1模型变体。超越天文学领域,AION-1为多模态科学基础模型提供了一个可扩展的蓝图,能够无缝整合带有噪声、仪器特定的观测数据。所有代码、标记器、预训练权重及轻量级评估套件均已开源发布。
儘管通過搜索實現的推理時縮放已徹底改變了大型語言模型,但將這些成果轉化至圖像生成領域卻顯得困難重重。近期嘗試將搜索策略應用於連續擴散模型的研究顯示,其效益有限,簡單的隨機抽樣往往表現最佳。我們證明了視覺自迴歸模型的離散、序列特性能夠有效支持圖像生成中的搜索。研究表明,束搜索顯著提升了文本到圖像的生成質量,使得一個擁有20億參數的自迴歸模型在多項基準測試中超越了120億參數的擴散模型。系統性的消融實驗揭示,這一優勢源自於離散的標記空間,它允許早期剪枝和計算資源的重複利用,而我們的驗證器分析則凸顯了速度與推理能力之間的權衡。這些發現表明,在視覺生成的推理時優化中,模型架構而非僅僅規模,起著至關重要的作用。
誠實對齊——大型語言模型(LLMs)識別其知識邊界並表達校準信心的能力——對於可信賴的部署至關重要。現有方法要么依賴於無訓練的信心估計(例如,詞元概率、自我一致性),要么依賴於基於訓練的校準與正確性註釋。雖然有效,但實現基於訓練校準的普遍誠實對齊需要昂貴的大規模標註。為了支持高效註釋的訓練,我們引入了Elicitation-Then-Calibration(EliCal),這是一個兩階段框架,首先利用廉價的自我一致性監督引出內部信心,然後用一小組正確性註釋校準這一信心。為了支持大規模研究,我們發布了HonestyBench,這是一個涵蓋十個自由形式問答數據集的基準,包含560k訓練和70k評估實例,並附有正確性和自我一致性信號的註釋。實驗表明,EliCal僅需1k正確性註釋(全監督的0.18%)即可實現接近最優的對齊,並在未見的MMLU任務上比僅校準的基線表現出更好的對齊性能,為LLMs中的普遍誠實對齊提供了一個可擴展的解決方案。
基于指令的图像编辑已取得显著进展;然而,仅通过监督微调训练的模型往往会对标注模式过拟合,阻碍其在训练分布之外进行探索和泛化的能力。为此,我们提出了Edit-R1,一种基于策略优化的新型后训练框架,用于基于指令的图像编辑。具体而言,我们采用扩散负感知微调(Diffusion Negative-aware Finetuning, DiffusionNFT),这是一种与流匹配前向过程一致的无似然策略优化方法,从而能够使用高阶采样器并实现更高效的训练。另一个关键挑战在于缺乏统一的奖励模型,这是由于编辑指令和任务的多样性所致。为弥合这一差距,我们采用多模态大语言模型(Multimodal Large Language Model, MLLM)作为统一的、无需训练的奖励模型,利用其输出逻辑提供细粒度反馈。此外,我们精心设计了一种低方差组过滤机制,以减少MLLM评分噪声并稳定优化过程。采用此框架训练的UniWorld-V2在ImgEdit和GEdit-Bench基准测试中取得了最先进的成绩,分别获得4.49和7.83的评分。重要的是,我们的框架与模型无关,当应用于如Qwen-Image-Edit和FLUX-Kontext等多样化基础模型时,均能带来显著的性能提升,展示了其广泛的适用性。代码和模型已在https://github.com/PKU-YuanGroup/UniWorld-V2公开提供。
近期,無需訓練的注意力控制方法取得了顯著進展,使得現有生成模型具備了靈活且高效的文本引導編輯能力。然而,當前方法在實現強編輯力度的同時,難以保持與源內容的一致性。這一限制在多輪編輯和視頻編輯中尤為關鍵,因為視覺誤差會隨時間累積。此外,大多數現有方法強制實施全局一致性,這限制了它們在修改如紋理等個別屬性時保持其他屬性的能力,從而阻礙了細粒度編輯的實現。最近,從U-Net到MM-DiT的架構轉變,不僅在生成性能上帶來了顯著提升,還引入了一種整合文本與視覺模態的新機制。這些進步為克服以往方法未能解決的挑戰鋪平了道路。通過對MM-DiT的深入分析,我們識別出其注意力機制中的三個關鍵見解。基於這些見解,我們提出了ConsistEdit,這是一種專為MM-DiT設計的新型注意力控制方法。ConsistEdit融合了僅視覺的注意力控制、掩碼引導的前注意力融合,以及對查詢、鍵和值令牌的差異化操作,以產生一致且與提示對齊的編輯結果。大量實驗證明,ConsistEdit在廣泛的圖像和視頻編輯任務中,包括結構一致與不一致的場景,均達到了最先進的性能。與以往方法不同,它是首個能在所有推理步驟和注意力層中無需手工干預進行編輯的方法,極大增強了可靠性和一致性,從而支持了穩健的多輪和多區域編輯。此外,它還支持結構一致性的漸進調整,實現了更精細的控制。
複製人工智慧研究對於大型語言模型(LLM)代理而言是一項至關重要卻又充滿挑戰的任務。現有方法往往難以生成可執行的程式碼,主要原因在於背景知識的不足以及檢索增強生成(RAG)方法的侷限性,這些方法未能捕捉到參考文獻中隱藏的技術細節。此外,先前的方法傾向於忽略有價值的實作層面程式碼信號,並缺乏支持多粒度檢索與重用的結構化知識表示。為克服這些挑戰,我們提出了可執行知識圖譜(xKG),這是一個模組化且可插拔的知識庫,能自動整合從科學文獻中提取的技術見解、程式碼片段及領域特定知識。當xKG被整合到採用兩種不同LLM的三種代理框架中時,在PaperBench上展現了顯著的性能提升(使用o3-mini時提升10.9%),證明了其作為自動化AI研究複製的通用且可擴展解決方案的有效性。程式碼將於https://github.com/zjunlp/xKG發布。
長鏈式思維推理已成為大型語言模型中高級推理的基石。儘管近期的驗證-精煉框架使專有模型能夠解決奧林匹克競賽級別的難題,但其有效性依賴於強大且可靠的驗證與修正能力,這在開放權重、小規模模型中仍顯脆弱。本研究證明,即使在面對困難任務時僅具備較弱的驗證與精煉能力,通過我們稱之為深度自我演化推理(DSER)的概率範式,此類模型的推理極限仍可被大幅拓展。我們將迭代推理概念化為馬爾可夫鏈,其中每一步代表解空間中的隨機轉移。關鍵洞見在於,只要改進的概率略微超過退化的概率,收斂至正確解便得到保證。通過並行運行多個長時程、自我演化的過程,DSER放大了這些微小的正向趨勢,使模型能夠漸進地逼近正確答案。實證上,我們將DSER應用於DeepSeek-R1-0528-Qwen3-8B模型。在具有挑戰性的AIME 2024-2025基準測試中,DSER解決了9個先前無法解決的問題中的5個,並提升了整體表現,使這一緊湊模型通過多數表決超越了其600B參數教師的單次推理準確率。除了在測試時擴展的即時效用外,DSER框架還用於診斷當前開放權重推理器的根本限制。通過清晰界定它們在自我驗證、精煉和穩定性方面的不足,我們的研究為開發具備強大內在自我演化能力的下一代模型確立了明確的研究議程。
預訓練時間序列模型已實現了僅需推理的預測系統,這些系統無需針對特定任務進行訓練即可生成精確預測。然而,現有方法主要集中於單變量預測,限制了其在現實世界場景中的適用性,這些場景中多變量數據和協變量起著至關重要的作用。我們提出了Chronos-2,這是一種能夠以零樣本方式處理單變量、多變量及協變量驅動預測任務的預訓練模型。Chronos-2採用了一種群組注意力機制,通過在群組內多個時間序列之間高效共享信息來促進上下文學習(ICL),這些群組可能代表相關序列集、多變量序列的變量或預測任務中的目標與協變量。這些通用能力是通過在對單變量序列施加多樣多變量結構的合成數據集上訓練而實現的。Chronos-2在三個綜合基準測試中展現了頂尖性能:fev-bench、GIFT-Eval和Chronos Benchmark II。在強調多變量和協變量驅動預測的fev-bench上,Chronos-2的通用ICL能力相較於現有模型帶來了顯著提升。在涉及協變量的任務中,它始終以較大優勢超越基線模型。能源和零售領域的案例研究進一步凸顯了其實際優勢。Chronos-2的上下文學習能力使其成為一種通用預測模型,可在現實世界的預測流程中“即插即用”。
智能代理AI的快速發展標誌著人工智慧進入了一個新階段,在這個階段,大型語言模型(LLMs)不再僅僅是回應,而是能夠行動、推理和適應。本調查追溯了構建智能代理AI的範式轉變:從基於管線的系統——其中規劃、工具使用和記憶由外部邏輯協調——到新興的模型原生範式,這些能力被內化於模型的參數之中。我們首先將強化學習(RL)定位為推動這一範式轉變的算法引擎。通過將學習從模仿靜態數據重新定義為結果驅動的探索,RL支撐了跨語言、視覺和具身領域的LLM + RL + 任務的統一解決方案。基於此,本調查系統性地回顧了每項能力——規劃、工具使用和記憶——如何從外部編寫的模塊演變為端到端學習的行為。此外,它探討了這一範式轉變如何重塑了主要的代理應用,特別是強調長遠推理的深度研究代理和強調具身交互的GUI代理。最後,我們討論了智能代理能力的持續內化,如多代理協作和反思,以及系統層和模型層在未來智能代理AI中角色的演變。這些發展共同勾勒出模型原生智能代理AI作為一個整合學習與交互框架的連貫軌跡,標誌著從構建應用智能的系統向開發通過經驗增長智能的模型的轉變。
Meta公司的Codec Avatars實驗室推出了Embody 3D,這是一個多模態數據集,包含了來自439名參與者在多攝像頭採集階段收集的500個小時的3D運動數據,總計超過5400萬幀追蹤的3D運動。該數據集涵蓋了廣泛的單人運動數據,包括提示動作、手勢和移動;以及多人行為和對話數據,如討論、不同情緒狀態下的對話、協作活動,以及在類似公寓空間中的共同生活場景。我們提供了追蹤的人體運動數據,包括手部追蹤和體型、文本註釋,以及每位參與者的獨立音軌。
近期,由GPT-4o图像生成等专有系统推动的图像生成技术不断取得新进展,这些进展重塑了用户与这些模型的互动方式。现有的基准测试往往滞后,未能捕捉到这些新兴应用场景,导致社区对进展的认知与正式评估之间出现脱节。为解决这一问题,我们提出了ECHO框架,该框架直接从模型使用的现实证据中构建基准测试:即展示新颖提示和用户定性判断的社交媒体帖子。应用此框架于GPT-4o图像生成,我们构建了一个包含超过31,000条提示的数据集,这些提示均源自此类帖子。我们的分析表明,ECHO(1)发现了现有基准测试中缺失的创意与复杂任务,如跨语言重新渲染产品标签或生成指定总额的收据;(2)更清晰地区分了最先进模型与其他替代方案;(3)汇集了社区反馈,我们利用这些反馈来指导模型质量指标的设计(例如,测量观察到的颜色、身份和结构的变化)。我们的网站地址为https://echo-bench.github.io。
代理強化學習(Agentic Reinforcement Learning, RL)訓練大型語言模型在推理過程中自主調用工具,其中搜索是最常見的應用。這些模型在多步驟推理任務中表現出色,但其安全性特性尚未得到充分理解。在本研究中,我們發現經過RL訓練的搜索模型繼承了指令微調中的拒絕行為,並經常通過將有害請求轉化為安全查詢來規避風險。然而,這種安全性是脆弱的。兩種簡單的攻擊——一種強制模型以搜索開始回應(搜索攻擊),另一種鼓勵模型重複搜索(多重搜索攻擊)——會引發一系列有害搜索和答案的連鎖反應。在兩個模型家族(Qwen, Llama)中,無論是本地搜索還是網絡搜索,這些攻擊使拒絕率降低最多達60.0%,答案安全性降低82.5%,搜索查詢安全性降低82.4%。攻擊之所以成功,是因為它們觸發模型在生成繼承的拒絕令牌之前,先產生有害且反映請求的搜索查詢。這暴露了當前RL訓練的核心弱點:它獎勵持續生成有效的查詢,而不考慮其危害性。因此,RL搜索模型存在用戶易於利用的漏洞,迫切需要開發以安全為導向的代理RL流程,以優化安全搜索。
多模态计算机使用代理(CUAs)完全依赖于需要精确视觉定位和冗长执行链的原始操作(点击、键入、滚动),这导致了级联故障和性能瓶颈。尽管其他代理利用丰富的编程接口(API、MCP服务器、工具),计算机使用代理却与这些能力隔绝。我们提出了UltraCUA,一个通过混合操作——无缝整合图形用户界面(GUI)原始操作与高级编程工具调用——来弥合这一差距的基础模型。为实现这一目标,我们的方法包含四个关键组成部分:(1)一个自动化流程,从软件文档、开源仓库和代码生成中扩展编程工具;(2)一个合成数据引擎,生成超过17,000个可验证任务,覆盖现实世界中的计算机使用场景;(3)一个大规模高质量混合操作轨迹收集,包含低级GUI操作和高级编程工具调用;(4)一个两阶段训练流程,结合监督微调与在线强化学习,实现低级与高级操作之间的策略性交替。我们通过7B和32B模型的实验展示了相对于最先进代理的显著改进。在OSWorld上,UltraCUA模型相较于基础模型实现了平均22%的相对提升,同时步骤执行速度提高了11%。在WindowsAgentArena的域外评估中,我们的模型达到了21.7%的成功率,优于基于Windows数据训练的基线模型。混合操作机制被证明至关重要,它在保持执行效率的同时减少了错误传播。
隨著資訊呈指數級增長,企業面臨著將非結構化數據轉化為連貫、可操作洞察的日益增大的壓力。雖然自主代理展現出潛力,但它們往往在領域特定的細微差別、意圖對齊及企業整合方面遇到困難。我們提出了企業深度研究(EDR),這是一個多代理系統,整合了(1)用於自適應查詢分解的主規劃代理,(2)四個專業搜索代理(通用、學術、GitHub、LinkedIn),(3)一個基於MCP的可擴展工具生態系統,支持NL2SQL、文件分析和企業工作流程,(4)一個用於數據驅動洞察的可視化代理,以及(5)一個檢測知識差距並更新研究方向的反思機制,可選地加入人類在環的指導。這些組件實現了自動化報告生成、實時流式處理和無縫企業部署,並在內部數據集上得到驗證。在包括DeepResearch Bench和DeepConsult在內的開放式基準測試中,EDR在無人指導的情況下超越了最先進的代理系統。我們發布了EDR框架和基準軌跡,以推動多代理推理應用的研究進展。 代碼位於 https://github.com/SalesforceAIResearch/enterprise-deep-research, 數據集位於 https://huggingface.co/datasets/Salesforce/EDR-200。
基於知識的視覺問答(KB-VQA)要求視覺語言模型(VLMs)將視覺理解與外部知識檢索相結合。儘管檢索增強生成(RAG)通過結合知識庫查詢在該任務中取得了顯著進展,但在多模態查詢的質量和檢索結果的相關性方面仍存在挑戰。為克服這些難題,我們提出了一種新穎的三階段方法,稱為Wiki-PRF,包括處理、檢索和過濾階段。處理階段動態調用視覺工具以提取精確的多模態信息進行檢索。檢索階段整合視覺與文本特徵,實現多模態知識檢索。過濾階段則對檢索結果進行相關性過濾與集中處理。為此,我們引入了一種視覺語言模型,該模型通過強化學習方式,以答案準確性和格式一致性作為獎勵信號進行訓練。這增強了模型的推理能力、精確查詢的工具調用能力以及無關內容的過濾能力。在基準數據集(E-VQA和InfoSeek)上的實驗顯示,答案質量顯著提升(36.0和42.8),達到了最先進的性能。代碼可在https://github.com/cqu-student/Wiki-PRF獲取。
大型語言模型(LLMs),如OpenAI-o1和DeepSeek-R1,已展現出強大的推理能力。為了進一步提升LLM的能力,近期的代理系統,如Deep Research,將網絡互動整合到LLM的推理過程中,以減少不確定性並降低潛在錯誤。然而,現有研究主要集中於推理性能,往往忽視了代理系統的效率。在本研究中,我們進行了一項全面的實證研究,識別了網絡互動代理系統中的效率瓶頸。我們將端到端延遲分解為兩個主要部分:LLM API延遲和網絡環境延遲。我們對15個模型和5個供應商進行了全面的實證研究,展示了基於API的代理系統中存在的高度變異性。我們觀察到,在基於網絡的代理系統中,網絡環境延遲可佔總延遲的53.7%。為了改善延遲,我們提出了SpecCache,這是一個結合了推測執行的緩存框架,能夠減少網絡環境的開銷。在兩個標準基準上的廣泛評估顯示,與隨機緩存策略相比,我們的方法將緩存命中率提高了最多58倍,同時將網絡環境開銷降低了最多3.2倍,且未降低代理系統的性能。
視覺與語言模型(VLMs)在單輪基準測試中展現了令人矚目的能力,然而現實世界的應用往往需要更為複雜的多輪對話。現有的多輪對話數據集(如MMDU、ConvBench)僅部分捕捉了用戶所遭遇的對話場景的廣度與深度。在本研究中,我們引入了MultiVerse,這是一個新穎的多輪對話基準測試,包含647個對話——每個對話平均四輪——源自12個流行的VLM評估基準測試的多樣化集合。MultiVerse涵蓋了484個任務和484個互動目標,主題範圍廣泛,從事實知識與感知到數學與編碼等高級推理任務。為了促進穩健的評估,我們提出了一種基於清單的評估方法,利用GPT-4o作為自動評估器,測量包括感知準確性、語言清晰度和事實正確性在內的37個關鍵方面的表現。我們在MultiVerse上評估了18個VLMs,結果顯示,即便是最強的模型(如GPT-4o)在複雜的多輪對話中也僅能達到50%的成功率,凸顯了該數據集的挑戰性。值得注意的是,我們發現提供完整的對話上下文能顯著提升較小或較弱模型的表現,強調了上下文學習的重要性。我們相信MultiVerse是評估VLMs多輪互動能力的一個重要里程碑。
大型推理模型(LRMs)的最新進展,通過生成長鏈的思維鏈(CoT)軌跡,在數學和編碼等複雜任務上展現了卓越的性能。本文中,我們識別並系統性地分析了一種關鍵的脆弱性,我們稱之為推理分心,即LRMs被惡意嵌入提示中的無關卻複雜的任務所干擾,偏離其主要目標。通過對多種模型和基準的全面研究,我們發現即使是頂尖的LRMs也極易受此影響,注入的干擾因素可使任務準確率下降高達60%。我們進一步揭示,某些對齊技術可能加劇這一弱點,且模型可能表現出隱蔽的順從,在推理過程中遵循隱藏的對抗性指令,同時在最終輸出中隱藏這些指令。為減輕這些風險,我們提出了一種基於訓練的防禦方法,結合了對合成對抗數據的監督微調(SFT)和強化學習(RL),在面對挑戰性的干擾攻擊時,將魯棒性提升了超過50個百分點。我們的研究成果確立了推理分心作為對LRM可靠性的一種獨特且迫切的威脅,並為構建更安全、更可信的推理系統提供了實用的一步。
精調專業生成評估器已成為一種流行範式,以滿足訓練和測試期間對可擴展評估日益增長的需求。然而,近期研究主要集中在應用新方法(如強化學習,RL)來訓練評估器,而避開了大規模、數據驅動的開發。在本研究中,我們專注於數據擴展,策劃了一組包含250萬個樣本的數據集,涵蓋五種獨特的評估任務(成對、步驟級、無參考和基於參考的驗證,以及單一評分)以及多個專注於推理評估的領域。利用這些數據,我們訓練了基礎自動推理評估器(FARE),這是一系列擁有80億和200億(其中36億為活躍)參數的評估器,採用了一種簡單的迭代拒絕採樣監督精調(SFT)方法。FARE-8B挑戰了更大的專用RL訓練評估器,而FARE-20B則為開源評估器設定了新標準,超越了專用的700億+參數評估器。除了靜態基準測試外,我們還在實際任務中評估了FARE:作為推理時的重排序器,FARE-20B在MATH上達到了近乎預言機的性能。作為RL訓練中的驗證器,FARE相比字符串匹配驗證器,將下游RL訓練模型的性能提升了高達14.1%。當從FARE初始化時,持續精調的FARE-Code在評估測試用例質量方面,比gpt-oss-20B高出65%。
假設你擁有一款鯨語至英語的AI翻譯器,如何驗證其是否有效運作?是否需要與動物互動,或是依賴如溫度等具象觀測數據?我們提供的理論與概念驗證實驗表明,對於足夠複雜的語言,互動乃至觀察可能並非必要。人們或許能夠僅憑翻譯器的英語輸出來評估其性能,這在安全性、倫理及成本方面具有潛在優勢。這是一種無需參考譯文的機器翻譯質量評估(MTQE)實例。關鍵挑戰在於識別「幻覺」,即那些流暢且看似合理的錯誤翻譯。我們提出採用逐段翻譯結合經典的自然語言處理(NLP)亂序測試來評估翻譯器。其核心思想是逐句翻譯動物交流,並評估所得翻譯在順序上比隨機排列更為合理的頻率。在數據稀缺的人類語言及構建語言上進行的概念驗證實驗,展示了這一評估方法的潛在效用。這些人類語言實驗僅用於在數據稀缺條件下驗證我們的無參考指標,發現其與基於參考譯文的標準評估高度相關,而參考譯文在我們的實驗中是可獲取的。我們還進行了理論分析,表明在學習翻譯的初期階段,互動可能既非必要也不高效。
本研究系統性地探討了針對衛星土地利用分類任務定制的卷積神經網絡架構,在不依賴預訓練模型的情況下,於EuroSAT數據集上達到了97.23%的測試準確率。通過三個逐步迭代的架構設計(基準模型:94.30%,CBAM增強型:95.98%,以及平衡多任務注意力機制:97.23%),我們識別並解決了衛星影像分類中的特定失效模式。本研究的核心貢獻在於提出了一種新穎的平衡多任務注意力機制,該機制結合了用於空間特徵提取的坐標注意力模塊與用於光譜特徵提取的壓縮激勵模塊,並通過一個可學習的融合參數實現了二者的統一。實驗結果表明,該可學習參數自主收斂至α≈0.57,這表明空間與光譜模態在衛星影像分類中具有近乎同等的重要性。我們採用了漸進式DropBlock正則化(按網絡深度從5%至20%)與類別平衡損失加權策略,以應對過擬合與混淆模式不平衡問題。最終的12層網絡架構實現了Cohen's Kappa值0.9692,所有類別的準確率均超過94.46%,且正確與錯誤預測之間存在24.25%的置信度差距,展現了良好的校準性能。我們的方法在無需外部數據的情況下,達到了與微調ResNet-50(98.57%)僅相差1.34%的性能,驗證了系統性架構設計在特定領域應用中的有效性。完整的代碼、訓練模型及評估腳本均已公開。
設計有效的代理系統需要在動態且不確定的環境中無縫地組合和整合代理、工具和模型。現有方法大多依賴於靜態的語義檢索方法來發現工具或代理。然而,由於能力描述的不完整性和檢索方法的局限性,現有組件的有效重用和組合仍然具有挑戰性。組件選擇的問題在於決策並未基於能力、成本和實時效用。為解決這些挑戰,我們引入了一個受背包問題啟發的結構化、自動化框架,用於代理系統的組合。該框架使組合代理能夠系統地識別、選擇並組裝一組最佳的代理組件,同時考慮性能、預算限制和兼容性。通過動態測試候選組件並實時建模其效用,我們的方法簡化了代理系統的組裝,並促進了資源的可擴展重用。使用Claude 3.5 Sonnet在五個基準數據集上的實證評估表明,基於在線背包的組合器始終位於帕累托前沿,與基線相比,在顯著降低組件成本的情況下實現了更高的成功率。在單代理設置中,在線背包組合器的成功率相比檢索基線提高了高達31.6%。在多代理系統中,當從包含100多個代理的代理庫中選擇代理時,在線背包組合器的成功率從37%提升至87%。顯著的性能差距證實了我們的方法在不同領域和預算限制下的強大適應性。
利用外觀物體的不同表徵——如圖像或文本——將外觀轉移至三維資產上,因其在遊戲、增強現實及數字內容創作等行業的廣泛應用而受到關注。然而,當輸入與外觀物體之間的幾何結構存在顯著差異時,現有的尖端方法仍難以應對。一種直觀的策略是直接應用三維生成模型,但我們證明這最終無法產生令人滿意的結果。相反,我們提出了一種受通用指導啟發的原則性方法。基於預訓練的、以圖像或文本為條件的校正流模型,我們無需訓練的方法通過定期添加指導來與採樣過程互動。此指導可建模為可微分的損失函數,我們嘗試了兩種不同類型的指導,包括針對外觀的部分感知損失和自相似性。實驗表明,我們的方法成功將紋理和幾何細節轉移至輸入的三維資產上,在質量和數量上均超越了基準方法。我們還指出,由於傳統指標無法聚焦於局部細節且在缺乏真實數據的情況下比較不同輸入,它們並不適合評估此任務。因此,我們採用基於GPT的系統客觀地對輸出進行排名,以評估外觀轉移的質量,確保評估的穩健性和人性化,這一點在我們的用戶研究中得到了進一步證實。除了展示的場景外,我們的方法具有通用性,可擴展至不同類型的擴散模型和指導函數。
在複雜推理任務上實現有效的人機協作,要求使用者不僅能接收模型的輸出,更要能理解並與模型的推理過程互動。然而,像思維鏈(Chain-of-Thought, CoT)這類方法產生的單一文本阻礙了這一點,因為現有的介面缺乏即時語音化功能以及強大的使用者中斷機制。我們提出了AsyncVoice Agent,這是一個採用異步架構的系統,它將流式大型語言模型(LLM)後端與對話式語音前端解耦。這種設計使得敘述與推理能夠並行運行,讓使用者能夠隨時中斷、查詢並引導模型的推理過程。客觀基準測試表明,與單一基線相比,這種方法將互動延遲降低了超過600倍,同時確保了高保真度和競爭性的任務準確率。通過實現與模型思維過程的雙向對話,AsyncVoice Agent為構建更高效、可引導且可信賴的高風險任務人機系統提供了一種新範式。
大型語言模型在真實性與諂媚奉承之間內化了一種結構性的權衡,這種權衡源自於獎勵優化過程,該過程將助益性與禮貌順從混為一談。這種潛在的偏見,被稱為諂媚性,表現為對用戶同意的偏好勝過基於原則的推理。我們引入了Beacon,這是一個單輪強制選擇的基準測試,它能夠獨立於對話語境來孤立這種偏見,從而精確測量事實準確性與順從偏見之間的張力。對十二個最先進模型的評估顯示,諂媚性可分解為穩定的語言和情感子偏見,每一種子偏見都隨著模型能力的提升而增強。我們進一步提出了提示層面和激活層面的干預措施,這些措施能夠以相反的方向調節這些偏見,揭示了對齊的內部幾何結構作為真實性與社會順從判斷之間的動態流形。Beacon將諂媚性重新定義為一種可測量的規範性錯誤泛化,為研究和減輕大規模生成系統中的對齊漂移提供了可重複的基礎。
測試時擴展(TTS)已提升了推理模型(RMs)在數學和編程等多種任務上的表現,然而其在機器翻譯(MT)中的效能仍未被充分探討。本文探討了增加推理時計算是否能夠提升翻譯質量。我們評估了12個RMs在多個領域的MT基準測試套件中的表現,考察了三種情境:直接翻譯、強制推理外推以及後編輯。我們的研究發現,對於通用RMs而言,TTS在直接翻譯中提供的效益有限且不一致,性能迅速達到瓶頸。然而,通過領域特定的微調,TTS的有效性得以釋放,這使得模型的推理過程與任務需求對齊,從而帶來直至最佳自我確定推理深度的持續改進。我們還發現,強制模型超越其自然停止點進行推理,會持續降低翻譯質量。相比之下,TTS在後編輯情境中表現出極高的效能,可靠地將自我修正轉化為有益的過程。這些結果表明,推理時計算在MT中的價值不在於用通用模型增強單次翻譯,而在於多步驟自我修正工作流程等目標應用,以及與任務專用模型結合使用。
隨著人工智慧系統的進步,我們越來越依賴它們與我們共同或代替我們做出決策。為了確保這些決策與人類價值觀一致,我們不僅需要理解它們做出了什麼決策,還需要了解它們是如何得出這些決策的。推理語言模型不僅提供最終回應,還展示(部分透明的)中間思考軌跡,這為研究AI的程序性推理提供了及時的機會。與數學和編碼問題通常有客觀正確答案不同,道德困境是進行過程導向評估的絕佳測試平台,因為它們允許多種可辯護的結論。為此,我們提出了MoReBench:包含1,000個道德情境,每個情境都配備了一組專家認為在推理這些情境時必須包含(或避免)的評分標準。MoReBench涵蓋了超過23,000條標準,包括識別道德考量、權衡利弊以及提供可操作的建議,以覆蓋AI在為人類提供道德決策建議以及自主做出道德決策的各種情況。此外,我們還整理了MoReBench-Theory:150個示例,用於測試AI是否能在規範倫理學的五大主要框架下進行推理。我們的結果表明,規模定律以及現有的數學、編碼和科學推理任務基準無法預測模型執行道德推理的能力。模型還表現出對特定道德框架(如邊沁的行為功利主義和康德的義務論)的偏愛,這可能是流行訓練範式的副作用。這些基準共同推動了過程導向的推理評估,朝著更安全、更透明的AI邁進。