每日精選AI研究論文及翻譯
本文提出了一種新穎的學習範式,稱為模型鏈(Chain-of-Model, CoM),該範式將因果關係以鏈式結構融入每一層的隱藏狀態中,從而在模型訓練中引入顯著的擴展效率,並在部署時提供推理的靈活性。我們引入了表示鏈(Chain-of-Representation, CoR)的概念,該概念將每一層的隱藏狀態表述為隱藏維度層面上多個子表示(即鏈)的組合。在每一層中,輸出表示中的每個鏈只能查看輸入表示中所有先前的鏈。因此,基於CoM框架構建的模型可以通過基於先前模型(即鏈)增加鏈來逐步擴展模型規模,並通過使用不同數量的鏈來提供多種不同規模的子模型以實現彈性推理。基於這一原理,我們設計了語言模型鏈(Chain-of-Language-Model, CoLM),將CoM的思想融入Transformer架構的每一層中。基於CoLM,我們進一步引入了CoLM-Air,通過引入鍵值共享機制,該機制在第一個鏈中計算所有鍵和值,然後在所有鏈之間共享。這一設計展示了額外的可擴展性,例如實現無縫語言模型切換、預填充加速等。實驗結果表明,我們的CoLM系列能夠實現與標準Transformer相當的性能,同時提供更大的靈活性,例如通過逐步擴展來提高訓練效率,並提供多種不同規模的模型以實現彈性推理,為構建語言模型開闢了一條新途徑。我們的代碼將在未來發佈於:https://github.com/microsoft/CoLM。
近期,大型推理模型通过采用类人的深度思考方式,在多种任务上取得了令人瞩目的表现。然而,冗长的思考过程显著增加了推理开销,使得效率成为关键瓶颈。在本研究中,我们首先证明,对于相对简单的任务,NoThinking(即提示推理模型跳过思考直接生成最终解决方案)在性能和效率上都是更优的选择。受此启发,我们提出了AdaptThink,一种新颖的强化学习算法,旨在教导推理模型根据问题难度自适应选择最优的思考模式。具体而言,AdaptThink包含两个核心组件:(1) 一个约束优化目标,鼓励模型选择NoThinking同时保持整体性能;(2) 一种重要性采样策略,在策略训练期间平衡Thinking和NoThinking样本,从而实现冷启动,并让模型在整个训练过程中探索和利用两种思考模式。我们的实验表明,AdaptThink显著降低了推理成本,同时进一步提升了性能。值得注意的是,在三个数学数据集上,AdaptThink将DeepSeek-R1-Distill-Qwen-1.5B的平均响应长度减少了53%,并使其准确率提高了2.4%,凸显了自适应思考模式选择在优化推理质量与效率平衡方面的潜力。我们的代码和模型可在https://github.com/THU-KEG/AdaptThink获取。
大型語言模型(LLMs)展現了卓越的能力,但在處理需要複雜推理的任務時常面臨挑戰。儘管思維鏈(Chain-of-Thought, CoT)提示顯著增強了推理能力,它卻不加區別地為所有查詢生成冗長的推理步驟,導致顯著的計算成本和效率低下,尤其是對於較簡單的輸入。為解決這一關鍵問題,我們引入了AdaCoT(自適應思維鏈),這是一種新穎的框架,使LLMs能夠自適應地決定何時調用CoT。AdaCoT將自適應推理框架為一個帕累托優化問題,旨在平衡模型性能與CoT調用相關的成本(包括頻率和計算開銷)。我們提出了一種基於強化學習(RL)的方法,特別是利用近端策略優化(PPO),通過調整懲罰係數來動態控制CoT觸發的決策邊界,從而讓模型能夠根據隱含的查詢複雜度來確定CoT的必要性。一個關鍵的技術貢獻是選擇性損失掩碼(Selective Loss Masking, SLM),旨在對抗多階段RL訓練期間決策邊界的崩潰,確保自適應觸發的穩健性和穩定性。實驗結果表明,AdaCoT成功地在帕累托前沿上導航,對於不需要精細推理的查詢,大幅減少了CoT的使用。例如,在我們的生產流量測試集上,AdaCoT將CoT觸發率降低至3.18%,並將平均回應詞數減少69.06%,同時在複雜任務上保持高性能。
推理語言模型,具備延展性思維鏈推理能力,在需要複雜邏輯推斷的任務上展現了卓越性能。然而,對所有查詢均採用精細推理往往導致顯著的計算效率低下,尤其當許多問題存在直接解決方案時。這引發了一個開放性問題:大型語言模型能否學會何時思考?為此,我們提出了“無需思考”(Thinkless),這是一個可學習的框架,使大型語言模型能根據任務複雜度及模型自身能力,自適應地選擇簡短或長篇推理模式。Thinkless在強化學習範式下訓練,並採用兩個控制標記:<short>用於簡潔回應,<long>則用於詳細推理。我們方法的核心在於解耦群體相對策略優化(DeGRPO)算法,該算法將混合推理的學習目標分解為兩部分:(1) 控制標記損失,負責推理模式的選擇;(2) 回應損失,提升生成答案的準確性。這種解耦形式實現了對各目標貢獻的細粒度控制,穩定訓練過程,有效防止了基礎GRPO中觀察到的崩潰現象。實證研究顯示,在Minerva代數、MATH-500及GSM8K等多個基準測試中,Thinkless能將長鏈思維的使用減少50%至90%,顯著提升了推理語言模型的效率。相關代碼已公開於https://github.com/VainF/Thinkless。
變壓器中的注意力機制具有二次方複雜度,這導致在處理長序列時產生高昂的推理成本和延遲。然而,注意力矩陣大多是稀疏的,這意味著許多條目可以從計算中省略,以實現高效的推理。稀疏注意力推理方法旨在減輕這一計算負擔;然而,它們也伴隨著令人困擾的性能下降。我們發現,這種性能下降的一個原因是稀疏計算導致了注意力輸出的分佈偏移。這種分佈偏移使得解碼階段的查詢無法與預填充階段的適當鍵良好對齊,從而導致性能下降。我們提出了一種簡單、新穎且有效的方法來校正這種分佈偏移,使稀疏注意力輸出的分佈更接近於二次方注意力的分佈。我們的方法可以應用於任何稀疏注意力方法之上,並在131K RULER基準測試中,當應用於帶有下沉標記的滑動窗口注意力之上時,平均提升了36%的性能,恢復了88%的二次方注意力準確率,同時僅增加了少量的開銷。我們的方法能夠保持約98.5%的稀疏度,相較於完整的二次方注意力,使我們的模型在處理1M標記預填充時比Flash Attention 2快32倍。
圖形用戶界面(GUI)基礎能力,即能將自然語言指令映射至圖形用戶界面上的具體操作,仍是計算機使用代理開發中的關鍵瓶頸。現有基準測試過於簡化基礎任務為簡短的指代表達,未能捕捉到現實交互中所需的軟件常識、佈局理解及精細操作能力的複雜性。為解決這些局限,我們引入了OSWorld-G,這是一個包含564個精細註釋樣本的綜合基準,涵蓋文本匹配、元素識別、佈局理解及精確操作等多樣化任務類型。此外,我們合成並發布了最大的計算機使用基礎數據集Jedi,通過任務的多視角解耦,該數據集包含400萬個示例。基於Jedi訓練的多尺度模型在ScreenSpot-v2、ScreenSpot-Pro及我們的OSWorld-G上均超越了現有方法,證明了其有效性。進一步地,我們展示了利用Jedi提升的基礎能力直接增強了通用基礎模型在複雜計算機任務上的代理性能,在OSWorld上的表現從5%提升至27%。通過詳細的消融研究,我們識別了影響基礎性能的關鍵因素,並驗證了結合針對不同界面元素的專業數據能夠實現對新界面的組合泛化。所有基準、數據、檢查點及代碼均已開源,並可於https://osworld-grounding.github.io獲取。
模型融合已成為增強大型語言模型的一項前景廣闊的技術,儘管其在大規模預訓練中的應用仍相對未被充分探索。本文中,我們對預訓練過程中的模型融合技術進行了全面研究。通過對從數百萬到超過1000億參數的密集架構和專家混合(MoE)架構進行廣泛實驗,我們證明,融合使用恆定學習率訓練的檢查點不僅能顯著提升性能,還能準確預測退火行為。這些改進既提高了模型開發的效率,也大幅降低了訓練成本。我們對融合策略和超參數的詳細消融研究提供了對底層機制的新見解,同時揭示了新的應用場景。通過全面的實驗分析,我們為開源社區提供了有效的模型融合預訓練實用指南。
擴展視頻擴散變換器(DiTs)受到其二次方三維注意力機制的限制,儘管大部分注意力質量集中在少數位置上。我們將這一觀察轉化為VSA,一種可訓練且硬件高效的稀疏注意力機制,在訓練和推理階段均取代了全注意力機制。在VSA中,一個輕量級的粗粒度階段將令牌池化為瓦片並識別出高權重的關鍵令牌;細粒度階段僅在這些瓦片內部計算令牌級別的注意力,並遵循塊計算佈局以確保硬件效率。這形成了一個單一的可微分內核,能夠端到端訓練,無需事後分析,並維持了FlashAttention3 85%的MFU(矩陣浮點運算利用率)。我們通過從6000萬到14億參數預訓練DiTs,進行了大範圍的消融研究和擴展定律實驗。VSA達到了一個帕累托點,將訓練FLOPS減少了2.53倍,而擴散損失沒有下降。對開源的Wan-2.1模型進行改造後,注意力時間加快了6倍,端到端生成時間從31秒降至18秒,且質量相當。這些結果確立了可訓練稀疏注意力作為全注意力機制的實用替代方案,並成為進一步擴展視頻擴散模型的關鍵推動力。
衡量真实图像的观感在人工智能研究中是一项复杂的任务。例如,一张描绘男孩在沙漠中手持吸尘器的图片便违背了常识。我们引入了一种新颖的方法,称之为“透过镜子看”(Through the Looking Glass, TLG),该方法利用大型视觉-语言模型(Large Vision-Language Models, LVLMs)和基于Transformer的编码器来评估图像的常识一致性。通过运用LVLMs从这些图像中提取原子事实,我们获得了一系列准确事实的混合体。随后,我们在编码后的原子事实上微调了一个紧凑的注意力池化分类器。我们的TLG方法在WHOOPS!和WEIRD数据集上实现了新的最先进性能,同时充分利用了紧凑的微调组件。
近期在動態3D場景重建領域的進展展現了令人鼓舞的成果,使得高保真度的3D新視角合成在時間一致性上得到了提升。其中,4D高斯潑濺(4DGS)因其能夠精確建模空間與時間變化的能力而成為一種引人注目的方法。然而,現有方法由於在靜態區域冗餘分配4D高斯而面臨顯著的計算與記憶體開銷,這也可能降低影像品質。在本研究中,我們提出了混合3D-4D高斯潑濺(3D-4DGS),這是一種新穎的框架,它自適應地使用3D高斯來表示靜態區域,同時保留4D高斯用於動態元素。我們的方法始於一個完全的4D高斯表示,並迭代地將時間不變的高斯轉換為3D,從而顯著減少參數數量並提升計算效率。與此同時,動態高斯保持其完整的4D表示,以高保真度捕捉複雜運動。與基準的4D高斯潑濺方法相比,我們的方法實現了顯著更快的訓練時間,同時保持或提升了視覺品質。
推理能力作為人類智能的核心組成部分,在追求通用人工智能(AGI)的過程中,對大型語言模型(LLMs)而言仍是一大挑戰。儘管模型性能在訓練規模法則下有所提升,但諸如災難性遺忘等訓練算法問題以及新穎訓練數據的有限可用性,仍構成顯著挑戰。作為替代方案,測試時規模化通過增加測試時計算而不更新參數來提升推理性能。與以往專注於令牌空間的此類方法不同,我們提出利用潛在空間以實現更有效的推理並更好地遵循測試時規模化法則。我們引入了LatentSeek,這是一個新穎的框架,通過在模型潛在空間內進行測試時實例級適應(TTIA)來增強LLM的推理能力。具體而言,LatentSeek利用策略梯度,在自我生成獎勵信號的引導下,迭代更新潛在表示。LatentSeek在多種LLM架構上,針對包括GSM8K、MATH-500和AIME2024在內的一系列推理基準進行了評估。結果顯示,LatentSeek在諸如思維鏈提示和基於微調的方法等強基線之上,持續表現優異。此外,我們的分析表明,LatentSeek效率極高,對於中等複雜度的問題通常能在幾次迭代內收斂,同時也能從額外迭代中獲益,從而凸顯了潛在空間中測試時規模化的潛力。這些發現將LatentSeek定位為一種輕量級、可擴展且有效的解決方案,用於增強LLM的推理能力。
儘管多模態大型語言模型(MLLMs)在視覺-語言理解方面取得了顯著進展,它們在處理複雜的多步驟推理時仍面臨挑戰,常常產生邏輯不一致或部分正確的解決方案。這一限制主要源於對中間推理步驟缺乏細粒度的監督。為此,我們提出了MM-PRM,這是一個在全自動、可擴展框架內訓練的過程獎勵模型。我們首先構建了MM-Policy,這是一個在多樣化數學推理數據上訓練的強大多模態模型。接著,我們構建了MM-K12,這是一個包含10,000道多模態數學問題的精心策劃數據集,這些問題均具有可驗證的答案,作為種子數據。利用基於蒙特卡羅樹搜索(MCTS)的流程,我們生成了超過70萬條步驟級別的註釋,無需人工標註。由此產生的PRM用於在Best-of-N推理設置中對候選推理路徑進行評分,並在域內(MM-K12測試集)和域外(OlympiadBench、MathVista等)基準測試中均取得了顯著提升。進一步分析證實了軟標籤、較小的學習率以及路徑多樣性在優化PRM性能方面的有效性。MM-PRM展示了過程監督是增強多模態推理系統邏輯魯棒性的有力工具。我們在https://github.com/ModalMinds/MM-PRM上公開了所有代碼和數據。
基於規則的強化學習(RL)近期進展顯著提升了語言模型(LM)在規則獎勵下的推理能力。然而,現有的RL方法——如GRPO、REINFORCE++和RLOO——常面臨訓練不穩定的問題,其中大幅度的策略更新及不當的裁剪可能導致訓練崩潰。為解決此問題,我們提出了帶有策略漂移約束的裁剪策略梯度優化(CPGD),這是一種新穎的算法,旨在穩定LM中的策略學習。CPGD引入了基於KL散度的策略漂移約束,以動態正則化策略更新,並利用對數比率的裁剪機制來防止過度的策略更新。我們為CPGD提供了理論依據,並通過實證分析證明其能夠緩解先前方法中觀察到的不穩定性。此外,我們展示了CPGD在保持訓練穩定性的同時,顯著提升了性能。我們的實現平衡了理論嚴謹性與實際可用性,為LM的後訓練提供了一種穩健的RL替代方案。我們在https://github.com/ModalMinds/MM-EUREKA上發布了代碼。
大型语言模型(LLMs)已推动显著进展,然而其不断增长的参数规模与上下文窗口导致了计算、能源及经济成本的急剧上升。本文提出EfficientLLM,一个创新基准及首次大规模评估LLM效率技术的全面实证研究。研究在一生产级集群(48xGH200,8xH200 GPU)上进行,系统探索了三大关键维度:(1) 架构预训练(高效注意力变体:MQA、GQA、MLA、NSA;稀疏专家混合模型MoE),(2) 微调(参数高效方法:LoRA、RSLoRA、DoRA),以及(3) 推理(量化方法:int4、float16)。我们定义了六项细粒度指标(内存利用率、计算利用率、延迟、吞吐量、能耗、压缩率)以捕捉硬件饱和度、延迟-吞吐平衡及碳成本。通过评估超过100种模型-技术组合(0.5B至72B参数),得出三项核心发现:(i) 效率涉及可量化的权衡:无单一方法普遍最优;例如,MoE减少浮点运算并提升精度,但VRAM增加40%,而int4量化在精度下降3-5%的情况下,内存/能耗最多减少3.9倍。(ii) 最优选择依赖于任务与规模:MQA为受限设备提供最佳内存-延迟权衡,MLA在质量关键任务中达到最低困惑度,而RSLoRA仅在超过14B参数时超越LoRA效率。(iii) 技术跨模态通用:我们将评估扩展至大型视觉模型(Stable Diffusion 3.5、Wan 2.1)及视觉-语言模型(Qwen2.5-VL),证实了有效迁移性。通过开源数据集、评估流程及排行榜,EfficientLLM为研究人员与工程师在下一代基础模型的效率-性能探索中提供了关键指导。
低秩適應(LoRA)通過在凍結的預訓練權重中引入兩個可訓練的低秩矩陣的乘積,被廣泛用於聯邦學習(FL)中語言模型的高效微調。然而,當與差分隱私隨機梯度下降(DP-SGD)結合時,LoRA面臨顯著的噪聲放大問題:DP-SGD擾動每個樣本的梯度,而LoRA更新(BA)的矩陣乘法加劇了這一效應。凍結其中一個矩陣(例如A)可以減少噪聲,但限制了模型的表達能力,通常導致次優的適應。為解決這一問題,我們提出了FedSVD,這是一種簡單而有效的方法,基於奇異值分解(SVD)引入全局重參數化。在我們的方法中,每個客戶端僅優化B矩陣並將其傳輸到服務器。服務器聚合B矩陣,使用先前的A計算乘積BA,並通過SVD對結果進行重構。這產生了一個由BA的正交右奇異向量組成的新適應性A,以及包含剩餘SVD分量的更新後的B。這種重參數化避免了二次噪聲放大,同時使A能夠更好地捕捉聚合更新的主方向。此外,A的正交結構限制了B的梯度範數,並在DP-SGD下保留了更多信號,這在我們的理論分析中得到了證實。因此,FedSVD在各種隱私設置和基準測試中始終提高了穩定性和性能,在隱私和非隱私環境下均優於相關基線。
推理時期的縮放技術,通過在無需重新訓練的情況下,於推理階段投入額外的計算資源,顯著增強了大規模語言模型(LLMs)的推理能力。同樣地,思維鏈(Chain-of-Thought, CoT)提示及其延伸——長思維鏈(Long CoT),通過生成豐富的中間推理軌跡來提升準確性,但這些方法伴隨著高昂的令牌成本,阻礙了其在對延遲敏感的場景中的部署。本研究中,我們首先展示了截斷式思維鏈(truncated CoT),即在推理完成前停止並直接生成最終答案,往往能與完整思維鏈採樣相媲美,同時大幅減少令牌使用。基於這一發現,我們提出了分層採樣(Fractured Sampling),這是一種統一的推理時期策略,它在完整思維鏈與僅解答採樣之間沿著三個正交維度進行插值:(1)推理軌跡的數量,(2)每條軌跡最終解答的數量,以及(3)推理痕跡被截斷的深度。通過在五個多樣化的推理基準測試及多個模型規模上的廣泛實驗,我們證明了分層採樣在準確性與成本之間始終能達成更優的平衡,在Pass@k對令牌預算的關係中展現出陡峭的對數線性縮放增益。我們的分析揭示了如何在這幾個維度上分配計算資源以最大化性能,為實現更高效、可擴展的LLM推理鋪平了道路。
大型語言模型(LLMs)在面對不同輸入提示(問題)時展現出不同程度的信心:有些提示會導致一致且語義相似的答案,而其他則產生多樣或矛盾的輸出。這種變化反映了LLM對輸入提示的不確定性,這是一個信號,表明模型對特定問題的理解有多自信。然而,原始的群體相對策略優化(GRPO)在策略更新時平等對待所有提示,忽略了這一關於模型知識邊界的重要信息。為解決這一限制,我們提出了SEED-GRPO(語義熵增強型GRPO),它明確測量LLMs對輸入提示語義熵的不確定性。語義熵衡量給定提示下多個生成答案的語義多樣性,並利用這一點來調節策略更新的幅度。這種基於不確定性的訓練機制能夠根據問題的不確定性動態調整策略更新的幅度。它允許對高不確定性問題進行更保守的更新,同時在自信問題上保持原有的學習信號。在五個數學推理基準(AIME24 56.7、AMC 68.7、MATH 83.4、Minerva 34.2和OlympiadBench 48.0)上的實驗結果表明,SEED-GRPO在平均準確率上達到了新的最先進水平,驗證了基於不確定性的策略優化的有效性。
大型視覺語言模型展現出處理多樣視覺感知任務的內在能力。本文中,我們介紹了VisionReasoner,這是一個能夠在單一模型內進行推理並解決多種視覺感知任務的統一框架。具體而言,通過設計新穎的多目標認知學習策略和系統化的任務重構,VisionReasoner增強了其分析視覺輸入的推理能力,並在統一框架下應對多樣的感知任務。該模型在響應使用者查詢並輸出所需結果之前,會生成結構化的推理過程。為了嚴格評估統一的視覺感知能力,我們在涵蓋檢測、分割和計數這三個關鍵領域的十項多樣任務上對VisionReasoner進行了評估。實驗結果顯示,VisionReasoner作為統一模型展現出卓越性能,在COCO(檢測)上相對Qwen2.5VL提升了29.1%,在ReasonSeg(分割)上提升了22.1%,在CountBench(計數)上提升了15.3%。
圖表理解對大型視覺語言模型(LVLMs)提出了獨特的挑戰,因為它需要整合複雜的文本和視覺推理能力。然而,當前的LVLMs在這些技能之間表現出顯著的不平衡,特別是在難以通過文本進行的視覺推理方面表現不足。我們使用一個僅能通過視覺推理解決的合成數據集進行案例研究,結果顯示,隨著視覺複雜性的增加,模型性能顯著下降,而人類的表現則保持穩健。接著,我們介紹了ChartMuseum,這是一個新的圖表問答(QA)基準,包含1,162個專家註釋的問題,涵蓋多種推理類型,這些問題來自184個來源的真實世界圖表,專門用於評估複雜的視覺和文本推理。與之前的圖表理解基準不同——在這些基準上,前沿模型的表現相似且接近飽和——我們的基準揭示了模型與人類表現之間的顯著差距,同時有效區分了模型的能力:儘管人類的準確率達到93%,但表現最佳的模型Gemini-2.5-Pro僅達到63.0%,而領先的開源LVLM Qwen2.5-VL-72B-Instruct僅達到38.5%。此外,在主要需要視覺推理的問題上,所有模型的表現比文本推理為主的問題下降了35%-55%。最後,我們的定性錯誤分析揭示了當前LVLMs在特定類別的視覺推理上面臨的挑戰。
在检索增强生成(RAG)系统中,精确识别搜索意图仍是一个具有挑战性的目标,尤其是在资源受限及面对具有嵌套结构和依赖关系的复杂查询时。本文提出了QCompiler,一个受语言学语法规则和编译器设计启发的神经符号框架,以弥合这一差距。该框架理论上设计了一种最小化但充分的巴科斯-诺尔范式(BNF)语法G[q],用于形式化复杂查询。与以往方法不同,此语法在保持完整性的同时,最大限度地减少了冗余。基于此,QCompiler包含了一个查询表达式翻译器、一个词法语法解析器和一个递归下降处理器,将查询编译成抽象语法树(ASTs)以供执行。叶子节点中子查询的原子性确保了更精确的文档检索和响应生成,显著提升了RAG系统处理复杂查询的能力。
將大型語言模型與符號規劃器相結合,相較於自然語言規劃,是獲取可驗證且具基礎性計劃的一個有前景的方向。近期研究已將這一理念延伸至視覺領域,利用視覺-語言模型(VLMs)進行探索。然而,由於缺乏統一的環境、評估協議和模型覆蓋範圍,VLM基礎的符號方法與直接使用VLM進行規劃的方法之間嚴謹的比較一直受到阻礙。我們推出了ViPlan,這是首個針對視覺規劃的開源基準測試,涵蓋符號謂詞與VLMs。ViPlan包含兩個領域中一系列難度遞增的任務:經典Blocksworld規劃問題的視覺變體以及一個模擬家庭機器人環境。我們對九個開源VLM家族進行了多種規模的基準測試,並選取了部分閉源模型,既評估了基於VLM的符號規劃,也評估了直接使用模型提出行動方案的效果。我們發現,在Blocksworld任務中,符號規劃優於直接VLM規劃,這其中精確的圖像基礎至關重要;而在家庭機器人任務中,情況則相反,常識知識和從錯誤中恢復的能力更為有利。最後,我們展示出,在大多數模型和方法中,使用思維鏈提示並未帶來顯著益處,這表明當前的VLMs在視覺推理方面仍面臨挑戰。
獎勵模型對於使語言模型輸出與人類偏好保持一致至關重要,然而現有方法往往缺乏可控性和可解釋性。這些模型通常針對狹窄的目標進行優化,限制了其在更廣泛下游任務中的通用性。此外,其標量輸出若無上下文推理則難以解讀。為解決這些限制,我們引入了R3,這是一種新穎的獎勵建模框架,它不受評分標準限制,可跨評估維度通用,並提供可解釋、有理有據的評分分配。R3使得語言模型的評估更加透明和靈活,支持與多樣化的人類價值觀和應用場景的穩健對齊。我們的模型、數據和代碼已在https://github.com/rubricreward/r3上開源提供。
我们提出了SLED,一种替代性的语音语言建模方法,该方法通过将语音波形编码为连续潜在表示序列,并利用能量距离目标自回归地建模这些序列。能量距离通过对比模拟样本与目标样本,提供了一种分析分布差距的度量,从而实现了对潜在连续自回归分布的有效捕捉。SLED绕过了对残差向量量化的依赖,避免了离散化误差,并消除了现有语音语言模型中常见的复杂层次架构需求。它在简化整体建模流程的同时,保留了语音信息的丰富性,并保持了推理效率。实证结果表明,SLED在零样本和流式语音合成中均展现出强劲性能,显示了其在通用语音语言模型中更广泛应用潜力。
近期大型語言模型(LLMs)的進展激發了自動化科學發現的願景,常被稱為AI共同科學家。迄今為止,先前的研究將這些系統定位為生成性共同作者,負責構建假設、合成代碼或起草手稿。在本研究中,我們探索了一種互補的應用:利用LLMs作為驗證者,自動化科學手稿的學術驗證。為此,我們引入了SPOT,這是一個包含83篇已發表論文與91個足以引發勘誤或撤稿的重大錯誤的數據集,並與實際作者和人類註釋者進行了交叉驗證。在SPOT上評估最先進的LLMs,我們發現沒有一個模型的召回率超過21.1%或精確度超過6.1%(o3表現最佳,其餘模型接近零)。此外,信心估計普遍偏低,且在八次獨立運行中,模型很少重新發現相同的錯誤,這削弱了其可靠性。最後,與領域專家進行的定性分析顯示,即使是最強的模型也會犯下類似學生級別的誤解所導致的錯誤。這些發現凸顯了當前LLMs能力與可靠AI輔助學術驗證需求之間的巨大差距。
人體圖像動畫因其在數字人領域的廣泛應用而受到越來越多的關注並迅速發展。然而,現有方法主要依賴於二維渲染的姿態圖像進行運動引導,這限制了泛化能力並丟棄了開放世界動畫中至關重要的三維信息。為解決這一問題,我們提出了MTVCrafter(運動標記化視頻生成器),這是首個直接建模原始三維運動序列(即四維運動)的人體圖像動畫框架。具體而言,我們引入了4DMoT(四維運動標記器)來將三維運動序列量化為四維運動標記。與二維渲染的姿態圖像相比,四維運動標記提供了更為魯棒的時空線索,並避免了姿態圖像與角色之間嚴格的像素級對齊,從而實現了更靈活和分離的控制。接著,我們引入了MV-DiT(運動感知視頻DiT)。通過設計獨特的運動注意力機制與四維位置編碼,MV-DiT能夠有效地利用運動標記作為四維緊湊且富有表現力的上下文,在複雜的三維世界中進行人體圖像動畫。因此,這標誌著該領域的重大進步,並為姿態引導的人體視頻生成開闢了新的方向。實驗表明,我們的MTVCrafter以6.98的FID-VID達到了最先進的水平,超越了第二佳方法65%。得益於魯棒的運動標記,MTVCrafter在各種風格和場景下的多樣化開放世界角色(單個/多個,全身/半身)上也表現出良好的泛化能力。我們的視頻演示和代碼位於:https://github.com/DINGYANB/MTVCrafter。
影像生成模型已獲得廣泛應用。以TarFlow模型為例,其結合了Transformer架構與正規化流模型,在多項基準測試中達到了頂尖水準。然而,由於注意力機制的因果形式需要序列計算,TarFlow的採樣過程極為緩慢。本文展示,通過一系列優化策略,利用高斯-賽德爾-雅可比(簡稱GS-Jacobi)迭代法,可大幅加速TarFlow的採樣過程。具體而言,我們發現TarFlow模型中的各區塊具有不同的重要性:少數區塊在影像生成任務中扮演主要角色,而其他區塊貢獻相對較小;部分區塊對初始值敏感且易於數值溢出,而另一些則相對穩健。基於這兩大特性,我們提出了收斂排名指標(CRM)與初始猜測指標(IGM):CRM用於判斷TarFlow區塊是“簡單”(在少數迭代內收斂)還是“困難”(需要更多迭代);IGM則用於評估迭代初始值的好壞。在四個TarFlow模型上的實驗表明,GS-Jacobi採樣在保持生成影像質量(以FID衡量)的同時,能顯著提升採樣效率,於Img128cond、AFHQ、Img64uncond及Img64cond中分別實現了4.53倍、5.32倍、2.96倍及2.51倍的加速,且未降低FID分數或樣本質量。相關代碼與檢查點可於https://github.com/encoreus/GS-Jacobi_for_TarFlow獲取。
Tiny QA Benchmark++(TQB++)提供了一套超輕量級、多語言的冒煙測試套件,旨在為大型語言模型(LLM)管道提供一個單元測試風格的安全網數據集,該數據集能在幾秒內運行且成本極低。該套件源於開發Comet Opik提示優化SDK時對緊密反饋循環的需求,因為等待重量級基準測試會打斷開發流程。TQB++結合了一個包含52個項目的英文黃金集(小於20 kB)和一個基於提供商無關的LiteLLM構建的微型合成數據生成器pypi包。該生成器允許從業者根據任何語言、領域或難度創建自己的微型數據包,同時已準備好的十個數據包涵蓋了阿拉伯語、中文、法語、德語、日語、韓語、葡萄牙語、俄語、西班牙語和土耳其語。每個數據集都附帶Croissant元數據和即插即用文件,適用於OpenAI-Evals、LangChain和標準的CI工具,使團隊能夠將確定性的微基準測試直接集成到拉取請求門控、提示工程循環和生產儀表板中,而無需觸及GPU預算。完整的TQB++運行僅增加管道延遲幾秒鐘,但能可靠地標記出提示模板錯誤、分詞器漂移和微調副作用,遠在MMLU或BIG-Bench等全面套件完成配置之前。整個框架的發布旨在加速生成式AI生態系統中持續且資源高效的質量保證。
医生与患者日益频繁地采用大型语言模型(LLMs)来辅助临床病例的诊断。然而,与数学或编程等领域不同,这些领域中的正确性可通过最终答案客观界定,而医学诊断则要求结果与推理过程均需准确无误。当前,广泛应用的医学基准测试如MedQA和MMLU仅评估最终答案的准确性,忽视了临床推理过程的质量与忠实度。为弥补这一不足,我们推出了MedCaseReasoning,这是首个开放获取的数据集,旨在评估LLMs与临床医生撰写的诊断推理相契合的能力。该数据集包含14,489个诊断问答案例,每个案例均配有源自开放获取医学病例报告的详细推理陈述。我们在MedCaseReasoning上对顶尖的推理型LLMs进行了评估,发现其在诊断与推理方面存在显著不足:例如,表现最佳的开源模型DeepSeek-R1,其10-shot诊断准确率仅为48%,且仅提及了64%的临床医生推理陈述(召回率)。然而,我们证明,基于MedCaseReasoning推理轨迹对LLMs进行微调,能显著提升诊断准确率与临床推理召回率,平均相对增益分别达到29%和41%。开源数据集、代码及模型可访问https://github.com/kevinwu23/Stanford-MedCaseReasoning获取。
儘管視頻生成技術取得了顯著進展,但合成物理上合理的人類動作仍是一個持續存在的挑戰,尤其是在建模細粒度語義和複雜時間動態方面。例如,生成如“0.5轉換腿跳躍”這樣的體操動作,對現有方法提出了重大難題,往往導致不盡人意的結果。為彌合這一差距,我們提出了FinePhys,這是一個細粒度的人類動作生成框架,它結合了物理學以獲得有效的骨骼引導。具體而言,FinePhys首先以在線方式估計2D姿態,然後通過上下文學習進行2D到3D的維度提升。為緩解純數據驅動的3D姿態的不穩定性和有限的可解釋性,我們進一步引入了一個基於物理的運動重新估計模塊,該模塊由歐拉-拉格朗日方程控制,通過雙向時間更新計算關節加速度。物理預測的3D姿態隨後與數據驅動的姿態融合,為擴散過程提供多尺度的2D熱圖引導。在FineGym的三個細粒度動作子集(FX-JUMP、FX-TURN和FX-SALTO)上進行評估,FinePhys顯著優於競爭基線。全面的定性結果進一步證明了FinePhys生成更自然、更合理的細粒度人類動作的能力。
測試時擴展(Test-Time Scaling, TTS)指的是在推理過程中通過分配額外計算來提升推理性能的方法,而無需改變模型的參數。現有的TTS方法在離散的token空間中操作,通過生成更多的中間步驟來實現,而最近在Coconut和SoftCoT中的研究表明,在連續的潛在空間中進行思考可以進一步提升推理性能。這種潛在思考編碼了信息豐富的思維,避免了與自迴歸token生成相關的信息損失,從而激發了對連續空間推理的更大興趣。與離散解碼不同,在離散解碼中,重複採樣可以探索多樣的推理路徑,而在連續空間中的潛在表示對於給定輸入是固定的,這限制了多樣化的探索,因為所有解碼路徑都源自同一個潛在思考。為克服這一限制,我們引入了SoftCoT++,將SoftCoT擴展到測試時擴展範式,通過實現多樣化的思考路徑探索。具體來說,我們通過多個專用初始token擾動潛在思考,並應用對比學習來促進軟思考表示之間的多樣性。在五個推理基準和兩種不同的LLM架構上的實驗表明,SoftCoT++顯著提升了SoftCoT的性能,並且也優於使用自一致性擴展的SoftCoT。此外,它與自一致性等傳統擴展技術表現出良好的兼容性。源代碼可在https://github.com/xuyige/SoftCoT獲取。
視頻擴散模型(DMs)已實現了高質量的視頻合成。然而,其巨大的計算和記憶體需求對實際部署構成了嚴峻挑戰,即使在高階GPU上也是如此。作為一種普遍採用的解決方案,量化在降低圖像DMs成本方面取得了顯著成功,但其直接應用於視頻DMs卻效果不佳。本文中,我們提出了QVGen,這是一種專為在極低比特量化(例如4比特或以下)下實現高性能和推理效率的視頻DMs而設計的新型量化感知訓練(QAT)框架。我們首先進行理論分析,證明降低梯度範數對於促進QAT的收斂至關重要。為此,我們引入了輔助模塊(Phi)來減少量化誤差,從而顯著增強收斂性。為了消除Phi的推理開銷,我們提出了一種秩衰減策略,逐步消除Phi。具體而言,我們反覆使用奇異值分解(SVD)和提出的基於秩的正則化gamma來識別並衰減低貢獻組件。該策略在保持性能的同時,消除了推理開銷。在參數規模從1.3B到14B的四種最先進(SOTA)視頻DMs上進行的廣泛實驗表明,QVGen是首個在4比特設置下達到與全精度相當質量的方法。此外,它顯著優於現有方法。例如,我們的3比特CogVideoX-2B在VBench上的動態度和場景一致性分別提升了+25.28和+8.43。
近年來,大型推理模型(LRMs)的出現,如OpenAI-o1與DeepSeek-R1,在處理複雜問題如數學與編碼方面展現了令人矚目的能力。一些先驅性研究嘗試將LRMs在神經機器翻譯(MT)領域的成功加以應用,透過強化學習(RL)構建具備深度推理MT能力的LRMs。儘管已取得一定進展,這些嘗試普遍集中於幾種高資源語言,如英語與中文,而對其他語言的表現尚不明確。此外,先前工作中的獎勵建模方法並未充分釋放強化學習在MT中的潛力。在本研究中,我們首先設計了一種新的獎勵建模方法,該方法將策略MT模型的翻譯結果與一個強大的LRM(即DeepSeek-R1-671B)進行比較,並量化這些比較以提供獎勵。實驗結果證明了該獎勵建模方法的優越性。以Qwen2.5-7B-Instruct為基礎,訓練後的模型在文學翻譯中達到了新的頂尖水平,並超越了包括OpenAI-o1與DeepSeek-R1在內的強大LRMs。進一步地,我們將該方法擴展至包含11種語言的多語種設定中。通過精心設計的輕量級RL獎勵建模,我們能夠簡單地將強大的MT能力從單一方向轉移至多個(即90個)翻譯方向,並實現了令人印象深刻的多語種MT性能。
數位病理學(DP)領域的最新進展,特別是透過人工智慧和基礎模型的應用,凸顯了大規模、多樣化且富含註解資料集的重要性。儘管這些資料集扮演著關鍵角色,但公開可用的全切片影像(WSI)資料集往往在規模、組織多樣性以及全面的臨床元數據方面存在不足,這限制了AI模型的穩健性和泛化能力。為此,我們推出了HISTAI資料集,這是一個大型、多模態、開放存取的WSI集合,包含來自多種組織類型的超過60,000張切片。HISTAI資料集中的每個病例都配備了詳盡的臨床元數據,包括診斷、人口統計資訊、詳細的病理註解以及標準化的診斷編碼。該資料集旨在填補現有資源中的空白,促進創新、可重複性以及臨床相關的計算病理學解決方案的開發。該資料集可透過https://github.com/HistAI/HISTAI訪問。
偏好數據集對於訓練基於人類反饋強化學習(RLHF)的通用領域指令遵循語言模型至關重要。每一次後續的數據發布都提升了對未來數據收集的期望,這意味著不斷提升公開可用偏好數據的質量與多樣性成為持續需求。為應對這一需求,我們推出了HelpSteer3-Preference,這是一個採用寬鬆許可(CC-BY-4.0)的高質量、人工標註的偏好數據集,包含超過40,000個樣本。這些樣本涵蓋了大語言模型(LLMs)在現實世界中的多樣化應用,包括與STEM、編程及多語言場景相關的任務。利用HelpSteer3-Preference,我們訓練了獎勵模型(RMs),其在RM-Bench(82.4%)和JudgeBench(73.7%)上均取得了頂尖性能,相較於現有RMs先前報告的最佳結果,實現了顯著提升(約10%的絕對值)。我們展示了HelpSteer3-Preference同樣可用於訓練生成式RMs,並闡述了如何利用我們的RMs通過RLHF對策略模型進行對齊。數據集(CC-BY-4.0)鏈接:https://huggingface.co/datasets/nvidia/HelpSteer3#preference
人機互動領域長期以來一直設想技術能夠理解我們——從我們的偏好和習慣,到日常行為的時機和目的。然而,當前的用戶模型仍然支離破碎,僅針對特定應用程式量身定制,無法實現實現這些願景所需的靈活推理。本文提出了一種通用用戶模型(GUM)的架構,該模型通過觀察用戶與計算機的任何互動來了解用戶。GUM 以用戶的任何非結構化觀察(例如,設備截圖)作為輸入,並構建捕捉該用戶知識和偏好的置信度加權命題。GUM 可以從與朋友的訊息中推斷出用戶正在為他們參加的婚禮做準備。或者通過觀察多次停滯的編輯和轉向閱讀相關工作,識別出用戶正在努力應對合作者對草稿的反饋。GUM 引入了一種架構,該架構從多模態觀察中推斷出關於用戶的新命題,檢索相關命題以獲取上下文,並不斷修訂現有命題。為了展示 GUM 所支持的廣泛應用,我們展示了它們如何通過上下文增強基於聊天的助手,管理操作系統通知以選擇性地呈現重要信息,並啟用能夠適應跨應用程式偏好的互動代理。我們還實例化了主動助手(GUMBO),這些助手利用其 GUM 發現並代表用戶執行有用的建議。在我們的評估中,我們發現 GUM 對用戶做出了校準且準確的推斷,並且基於 GUM 構建的助手能夠主動識別並執行用戶不會明確請求的操作。總而言之,GUM 引入了利用多模態模型來理解非結構化上下文的方法,實現了人機互動的長期願景,並催生了能夠預測用戶需求的完全新型互動系統。
同形異義詞消歧在字素到音素(G2P)轉換中仍是一大挑戰,尤其對於資源匱乏的語言而言。此挑戰具有雙重性:(1)構建平衡且全面的同形異義詞數據集既耗時又成本高昂;(2)特定的消歧策略會引入額外的延遲,使其不適用於屏幕閱讀器等實時輔助技術應用。本文針對這兩大問題提出解決方案。首先,我們提出了一種半自動化的流程來構建以同形異義詞為核心的數據集,介紹了通過此流程生成的HomoRich數據集,並通過將其應用於提升波斯語最先進的深度學習G2P系統,展示了其有效性。其次,我們倡導一種範式轉變——利用豐富的離線數據集來指導開發適合延遲敏感輔助應用(如屏幕閱讀器)的快速、基於規則的方法。為此,我們將最著名的基於規則的G2P系統之一eSpeak改進為快速識別同形異義詞的版本,即HomoFast eSpeak。實驗結果表明,深度學習系統與eSpeak系統在同形異義詞消歧準確率上均提升了約30%。
早期穴居人依賴手勢、發聲和簡單信號來協調、規劃、躲避捕食者並共享資源。如今,人類則運用複雜的語言進行合作,以達成非凡的成就。是什麼推動了這種交流方式的演變?語言是如何產生、適應並成為團隊合作不可或缺的要素的?理解語言的起源仍是一大挑戰。語言學和人類學中的一個主流假設認為,語言是為滿足早期人類合作的生態與社會需求而演化的。語言的出現並非孤立事件,而是源於共同的生存目標。受此觀點啟發,我們在多智能體覓食遊戲中探討語言的湧現。這些環境設計旨在反映被認為影響了交流演化的認知與生態約束。智能體在一個共享的網格世界中運作,僅對其他智能體和環境擁有部分知識,必須協調完成諸如拾取高價值目標或執行時間順序行動等遊戲任務。通過端到端的深度強化學習,智能體從零開始學習行動與交流策略。我們發現,智能體發展出的交流協議具有自然語言的標誌性特徵:任意性、互換性、位移性、文化傳播性和組合性。我們量化了每一特性,並分析了不同因素(如群體規模和時間依賴性)如何塑造湧現語言的特定方面。我們的框架為研究語言如何在具身多智能體環境中從部分可觀測性、時間推理和合作目標中演化提供了一個平臺。我們將公開所有數據、代碼和模型。
訓練高性能的小型語言模型(SLMs)成本依然高昂,即便採用知識蒸餾和從大型教師模型中剪枝的方法。現有研究常面臨三大挑戰:(1)硬剪枝導致的信息損失,(2)表示對齊效率低下,以及(3)信息性激活,尤其是前饋網絡(FFNs)激活的利用不足。為應對這些挑戰,我們提出了低秩克隆(Low-Rank Clone, LRC),這是一種高效的預訓練方法,旨在構建行為上與強力教師模型等效的SLMs。LRC通過訓練一組低秩投影矩陣,實現了軟剪枝——通過壓縮教師模型權重,以及激活克隆——通過對齊學生模型與教師模型的激活,包括FFN信號。這一統一設計在最大化知識轉移的同時,省去了顯式對齊模塊的需求。利用開源教師模型(如Llama-3.2-3B-Instruct、Qwen2.5-3B/7B-Instruct)進行的廣泛實驗表明,LRC在僅使用200億令牌的情況下,匹配甚至超越了基於數萬億令牌訓練的最新模型,實現了超過1000倍的訓練效率。我們的代碼和模型檢查點可於https://github.com/CURRENTF/LowRankClone 和 https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf 獲取。
在安全文本中精確識別對抗技術對於有效的網路防禦至關重要。然而,現有方法面臨一個根本性的權衡:它們要么依賴於具有有限領域精度的通用模型,要么需要資源密集型的處理流程,這些流程依賴於大量標記數據集和任務特定的優化,如自定義的硬負樣本挖掘和去噪,這些資源在專業領域中往往難以獲得。 我們提出了TechniqueRAG,這是一個特定領域的檢索增強生成(RAG)框架,通過整合現成的檢索器、指令調優的大型語言模型(LLM)以及少量的文本-技術對,來彌合這一差距。我們的方法通過僅在有限的領域內示例上微調生成組件,解決了數據稀缺的問題,從而避免了資源密集型的檢索訓練需求。雖然傳統的RAG通過結合檢索和生成來減輕幻覺問題,但其對通用檢索器的依賴往往會引入噪聲候選,限制了領域特定的精度。為了解決這一問題,我們通過零樣本LLM重新排序來提升檢索質量和領域特異性,這使得檢索到的候選與對抗技術明確對齊。 在多個安全基準測試上的實驗表明,TechniqueRAG在無需大量任務特定優化或標記數據的情況下,達到了最先進的性能,而全面的分析則提供了進一步的洞察。
图像信号处理器(ISP)是现代智能手机相机中的核心组件,负责将RAW传感器图像数据转换为RGB图像,并着重于提升感知质量。近期研究强调了深度学习方法在捕捉细节方面的潜力,其质量日益接近专业相机水平。开发学习型ISP时,一个既困难又昂贵的步骤是获取像素级对齐的配对数据,这些数据将智能手机相机传感器捕获的原始图像映射到高质量参考图像。在本研究中,我们通过提出一种新颖的学习型ISP训练方法来解决这一挑战,该方法无需原始图像与内容匹配的真实数据之间的直接对应关系。我们的非配对方法采用了一种多术语损失函数,通过对抗训练引导,利用多个判别器处理来自预训练网络的特征图,以在学习目标RGB数据集的颜色和纹理特征的同时保持内容结构。我们以适用于移动设备的轻量级神经网络架构为骨干,在苏黎世RAW到RGB和富士胶片UltraISP数据集上评估了我们的方法。与配对训练方法相比,我们的非配对学习策略展现了强大的潜力,并在多项评估指标上实现了高保真度。代码及预训练模型可在https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data 获取。
在複雜的科學與技術文檔中識別細微的技術錯誤,尤其是那些需要多模態解讀(例如圖像中的公式)的情況,對於大型語言模型(LLMs)而言是一個重大挑戰,因為其固有的錯誤修正傾向可能會掩蓋不準確之處。這項探索性的概念驗證(PoC)研究基於持續工作流程提示(PWP)原則,探討了結構化的LLM上下文條件設定作為一種方法論策略,以在推理時調節這種LLM行為。該方法旨在提升現成通用LLMs(特別是Gemini 2.5 Pro和ChatGPT Plus o3)在精確驗證任務中的可靠性,關鍵在於僅依賴其標準聊天界面,無需API訪問或模型修改。為探索此方法,我們專注於驗證一份包含已知文本和圖像錯誤的複雜測試論文中的化學公式。評估了多種提示策略:雖然基本提示被證明不可靠,但一種適應PWP結構以嚴格條件設定LLM分析思維的方法似乎提高了兩種模型的文本錯誤識別能力。值得注意的是,該方法還引導Gemini 2.5 Pro多次識別出先前在人工審查中被忽視的圖像公式錯誤,而ChatGPT Plus o3在我們的測試中未能完成此任務。這些初步發現揭示了阻礙細節導向驗證的特定LLM操作模式,並表明基於PWP的上下文條件設定提供了一種有前景且高度可訪問的技術,用於開發更穩健的LLM驅動分析工作流程,特別是需要對科學和技術文檔進行細緻錯誤檢測的任務。要確定其更廣泛的適用性,還需在這一有限的PoC之外進行廣泛驗證。
本研究探讨了大型语言模型(LLMs)作为自主代理执行现实世界任务的能力,包括自由职业软件开发。本工作提出了一种新的基准测试,该测试基于经济数据衍生的自由职业编程与数据分析任务来评估LLMs。我们利用从Kaggle自由职业者数据集中提取的职位发布信息构建了合成任务作为基准,所有职位价格均以美元标准化(固定项目价格中位数约为250美元,平均值为306美元)。每个任务均配备结构化输入输出测试用例及预估价格标签,从而支持自动化正确性检查及货币化绩效评估。此方法灵感源自OpenAI近期推出的SWE-Lancer基准(包含1400个总价值达100万美元的真实Upwork任务)。然而,我们的框架通过使用可编程测试的任务及预测价格值简化了评估流程,使其具备高度可扩展性和可重复性。在此基准上,我们评估了四款现代LLMs——Claude 3.5 Haiku、GPT-4o-mini、Qwen 2.5和Mistral。我们报告了各模型的准确率(任务成功率与测试用例通过率)及其实现的“自由职业收入”总额(已解决任务价格之和)。结果显示,Claude 3.5 Haiku表现最佳,收入约152万美元,紧随其后的是GPT-4o-mini,收入149万美元,然后是Qwen 2.5(133万美元)和Mistral(70万美元)。我们分析了每项任务的错误分布,发现最强模型能解决最多任务,且极少在任何项目上完全失败。我们讨论了这些结果对AI作为自由职业开发者可行性的启示,自动化基准测试方法的优势与局限性,以及在结构化任务上的表现与真实世界自由职业工作复杂性之间的差距。
對科學手稿進行同行評審,對於大型語言模型(LLMs)而言,是一項重大挑戰,這部分源於數據限制及專家推理的複雜性。本報告介紹了一種可能廣泛適用的提示工程方法——持續工作流程提示(Persistent Workflow Prompting, PWP),旨在利用標準的LLM聊天界面(無需編碼,無需API)來彌合這一差距。我們展示了一個針對實驗化學手稿批判性分析的概念驗證PWP提示,其採用分層、模塊化的架構(通過Markdown結構化),定義了詳細的分析工作流程。我們通過迭代應用元提示技術和元推理,開發了這一PWP提示,旨在系統地編碼專家評審工作流程,包括隱性知識。在會話開始時一次性提交的這一PWP提示,為LLM配備了由後續查詢觸發的持續工作流程,引導現代推理LLMs進行系統性、多模態的評估。演示表明,PWP引導下的LLM在測試案例中識別出主要方法論缺陷,同時減輕了LLM輸入偏見,並執行了包括區分主張與證據、整合文本/照片/圖表分析以推斷參數、執行定量可行性檢查、將估計值與主張進行比較以及評估先驗合理性在內的複雜任務。為確保透明度並促進複製,我們提供了完整的提示、詳細的演示分析以及互動聊天記錄作為補充資源。除了特定應用外,這項工作還深入探討了元開發過程本身,強調了PWP在詳細工作流程形式化的指導下,利用現成LLMs進行複雜科學任務的潛力,以實現精細分析。