每日精選AI研究論文及翻譯
當代大型語言模型主要透過顯性文本生成(如思維鏈)來實現「思考」功能,這種方式將推理過程延遲至訓練後階段,未能充分發揮預訓練數據的潛力。我們提出並開源了以遞迴符號「銜尾蛇」命名的Ouro模型系列——一種在預訓練階段就內建推理能力的循環語言模型,其核心創新包括:(i)潛空間中的迭代計算機制,(ii)基於熵正則化的自適應深度分配目標,以及(iii)7.7兆訓練詞元的規模化訓練。Ouro的1.4B與2.6B參數模型在廣泛基準測試中表現卓越,其性能可媲美當前最先進的120億參數模型。對照實驗表明,這種優勢並非源自知識容量的提升,而是來自更優越的知識操縱能力。我們同時驗證了循環語言模型產生的推理軌跡比顯性思維鏈更貼近最終輸出結果。本研究旨在展示循環語言模型作為推理時代新型規模化發展方向的潛力。模型獲取地址:http://ouro-llm.github.io。
神經程式智慧的研究範疇正迅速超越文字型原始碼,延伸至程式所生成的豐富視覺輸出。這種視覺維度對於進階應用至關重要,例如靈活的內容生成與精準的程式驅動視覺化編輯。然而,高品質多模態程式資料的匱乏阻礙了進展,此瓶頸源自於合成與品質評估方面的挑戰。為應對這些挑戰,我們從資料與建模雙重視角提出貢獻:首先推出完整的合成工具包,利用資料模態間的互補協同效應,高效產出從標準圖表到複雜互動式網頁介面及程式驅動動畫的大規模高品質語料庫。基於此工具,我們建構了迄今最大的多模態程式語料庫JanusCode-800K,並以此訓練JanusCoder與JanusCoderV模型,建立可從文字指令、視覺輸入或兩者結合生成程式碼的視覺-程式介面。我們的統一模型有別於現行針對孤立任務構建專用模型的方法,在文字導向與視覺導向的程式任務上的大量實驗表明,JanusCoder系列在7B至14B規模模型中展現卓越性能,甚至逼近或超越商業模型表現。此外,深入分析為協調程式邏輯與視覺表達提供了關鍵見解。我們的程式碼與檢查點已開源於:https://github.com/InternLM/JanusCoder。
近期圖像推理方法(特別是「以圖思考」技術)在多模態大型語言模型(MLLMs)中展現出顯著成效,然而這種動態推理範式尚未擴展至影片推理任務。本文提出Video-Thinker框架,通過自主調用模型內建的「定位」與「描述」能力,在推理過程中生成線索,使MLLMs具備以影片進行思考的能力。為激發此能力,我們構建了Video-Thinker-10K數據集,該精選數據集特點在於將自主工具使用融入思維鏈推理序列。我們的訓練策略首先採用監督微調(SFT)學習推理格式,再通過群組相對策略優化(GRPO)強化推理能力。藉由此方法,Video-Thinker使MLLMs能自主執行影片推理中的定位與描述任務,無需構建或調用外部工具。大量實驗表明,Video-Thinker在領域內任務及具挑戰性的領域外影片推理基準(包括Video-Holmes、CG-Bench-Reasoning與VRBench)上均實現顯著性能提升。我們的Video-Thinker-7B模型大幅超越Video-R1等現有基線,在7B規模的MLLMs中建立了最先進的性能標竿。
本專著闡述了驅動擴散模型發展的核心原理,追溯其理論淵源,並揭示不同數學表述如何源自共通的數學思想。擴散建模首先定義一個前向過程,將數據逐步擾動為噪聲,通過連續的中間分佈將數據分佈與簡單先驗分佈相聯繫。其目標是學習一個逆向過程,在恢復相同中間狀態的同時將噪聲轉化回數據。我們闡述了三種互補的視角:受變分自編碼器啟發的變分視角將擴散視為逐步學習去噪的過程;基於能量模型的得分匹配視角學習演變數據分佈的梯度,指示如何將樣本推向更高概率區域;與歸一化流相關的流視角將生成過程視為沿學習速度場從噪聲到數據的平滑路徑追蹤。這些視角共享共同框架:一個時間依賴的速度場,其流傳輸將簡單先驗轉化為數據。採樣即轉化為求解沿連續軌跡將噪聲演化為數據的微分方程。在此基礎上,專著探討了可控生成的引導技術、高效數值求解器,以及受擴散啟發的流映射模型——該模型可學習任意時間點間的直接映射關係。本書為具備深度學習基礎知識的讀者,提供對擴散模型概念性與數學基礎兼具的系統理解。
自動形式化技術能將自然語言數學轉換為機器可驗證的形式化陳述,對於運用形式化數學推理解決自然語言表述的數學問題至關重要。儘管大型語言模型能生成語法正確的形式化陳述,卻往往難以保持原始問題的語義意圖。這種侷限性源於現有方法將自動形式化簡單視為翻譯任務,缺乏人類專家自然採用的自我反思與迭代優化機制。為解決這些問題,我們提出ReForm——一種融合語義一致性評估的反思式自動形式化方法。該方法使模型能迭代生成形式化陳述、評估語義保真度,並通過漸進優化實現自我糾錯。為有效訓練此反思模型,我們提出前瞻有界序列優化(PBSO)算法,通過在序列不同位置施加差異化獎勵機制,確保模型同步提升自動形式化精度與語義驗證準確性,避免流於表面的批判損害反思本質。在四個自動形式化基準測試上的大量實驗表明,ReForm相較最強基線模型平均提升17.2個百分點。為進一步確保評估可靠性,我們構建包含859項專家標註數據的ConsistencyCheck基準集,不僅驗證了LLM作為評判者的有效性,更揭示出自動形式化本身的高難度:即使人類專家也會在最高38.5%的案例中產生語義錯誤。
現實世界中的語言智慧體必須能夠處理跨多種應用程式的複雜多步驟工作流程。例如,一個智慧體可能需要透過與日曆和檔案系統協調來管理電子郵件,或是監控生產資料庫以檢測異常情況,並依照操作手冊生成報告。然而,現有的語言智慧體基準測試往往聚焦於狹窄領域或簡化任務,缺乏評估智慧體真實世界表現所需的多樣性、真實性及長時程複雜性。為填補這一空白,我們推出工具十項全能(Toolathlon)基準測試,為語言智慧體提供多樣化的應用程式與工具、真實的環境設定,以及可靠的基於執行的評估機制。Toolathlon涵蓋32個軟體應用程式和604種工具,範圍從Google日曆和Notion等日常平台,到WooCommerce、Kubernetes和BigQuery等專業工具。大多數工具基於我們修訂或自行實現的高品質模型上下文協定(MCP)伺服器。有別於先前主要確保功能真實性但環境狀態多樣性有限的研究,我們從真實軟體中提供具現實意義的初始環境狀態,例如包含數十名學生的Canvas課程或真實財務電子表格。該基準測試共包含108項手動採集或精心設計的任務,平均需要約20次互動回合才能完成多應用程式協作。每項任務均可透過專用評估腳本進行嚴格驗證。對頂尖模型的綜合評估凸顯其明顯不足:表現最佳的Claude-4.5-Sonnet模型成功率僅達38.6%,平均工具呼叫次數為20.2次,而頂級開源權重模型DeepSeek-V3.2-Exp的成功率為20.1%。我們期待Toolathlon能推動建構更具實用價值的語言智慧體,以執行現實世界中的長時程任務。
基於強化學習(RL)的後訓練技術對於實現大型推理模型(LRMs)的多步驟推理能力至關重要,然而現有的獎勵機制通常僅側重於結果導向。我們提出PM4GRPO,這是一種具備推理感知能力的群組相對策略優化(GRPO)方法,通過在標準答案/格式獎勵基礎上融入對推理過程的評估信號。為實現這一目標,我們運用流程挖掘技術計算標量一致性獎勵,用以量化策略模型的推理過程與預訓練教師模型的吻合程度。在五個基準測試上的實證結果表明,PM4GRPO在基於GRPO的後訓練中顯著優於現有方法。這些成果凸顯了利用流程挖掘技術實現推理感知GRPO能有效增強策略模型的推理能力。
我們提出明瞬全向模型(Ming-Flash-Omni),作為明全向模型(Ming-Omni)的升級版本。該模型基於靈瞬2.0(Ling-Flash-2.0)的稀疏混合專家架構變體構建,總參數量達1000億,但每個令牌僅激活61億參數。此架構實現了高效擴展(在顯著提升計算效率的同時大幅擴展模型容量),並強化跨視覺、語音與語言的統一多模態智能,標誌著邁向人工通用智能(AGI)的關鍵一步。相較於前代模型,升級版在多模態理解與生成任務上均展現顯著提升:我們大幅推進語音識別能力,在上下文語音識別任務中達到最先進性能,並在方言感知語音識別中取得極具競爭力的結果;在圖像生成方面,明瞬全向模型實現高保真文字渲染,並在圖像編輯的場景一致性與身份特徵保持方面獲得明顯進步。此外,該模型創新性引入生成式分割技術,不僅具備強大的獨立分割性能,更可增強圖像生成的空間控制能力並提升編輯一致性。值得強調的是,明瞬全向模型在文本到圖像生成與生成式分割任務中均達到最先進水平,並在全部12項上下文語音識別基準測試中刷新紀錄,所有成果均通過單一統一架構實現。
視覺特效(VFX)是數位媒體表現力的核心要素,但其創作對生成式人工智慧仍是重大挑戰。現有方法多遵循「單一特效對應單一LoRA」的範式,不僅耗費資源,且本質上無法泛化至未見過的特效類型,從而限制了可擴展性與創作空間。為解決此難題,我們提出首個基於參考影片的統一框架VFXMaster,將特效生成重新定義為情境學習任務,使其能將參考影片中的多樣動態特效遷移至目標內容。該框架還展現出對未見過特效類別的卓越泛化能力。具體而言,我們設計了情境條件提示策略,透過參考樣本引導模型學習;並開發情境注意力遮罩機制,精確解耦與注入關鍵特效屬性,使單一統一模型能無訊息洩漏地掌握特效模仿。此外,我們提出高效單次特效適應機制,可基於使用者提供的單支影片快速提升對高難度未見過特效的泛化能力。大量實驗表明,本方法能有效模仿多類特效資訊,並對領域外特效表現出優異的泛化性能。為推動後續研究,我們將向學界公開程式碼、模型及完整資料集。
近期,基于指令的图像编辑技术受到广泛关注。实际应用中,该技术通常仅需修改图像的特定区域,而其余大部分区域保持不变。尽管这两类区域在生成难度和计算冗余度上存在显著差异,但现有模型并未考虑这种区别,而是对整个图像采用统一的生成流程。为此我们提出RegionE——一种自适应区域感知生成框架,无需额外训练即可加速图像编辑任务。该框架包含三个核心组件:1)自适应区域划分。通过观察发现未编辑区域的生成轨迹呈直线状,允许通过单步推理预测多步去噪结果。因此在去噪早期阶段,我们根据最终预估结果与参考图像的差异将图像划分为编辑区和未编辑区;2)区域感知生成。区分区域后,对未编辑区域用单步预测替代多步去噪;对于轨迹呈弯曲状的编辑区域,则采用局部迭代去噪。为提升局部迭代生成的效率与质量,我们提出区域指令键值缓存机制,在降低计算成本的同时融入全局信息;3)自适应速度衰减缓存。基于编辑区域相邻时间步间存在强速度相似性的观察,我们进一步设计自适应速度衰减缓存来加速局部去噪过程。将RegionE应用于Step1X-Edit、FLUX.1 Kontext和Qwen-Image-Edit等前沿模型后,分别实现了2.57倍、2.41倍和2.06倍的加速效果。GPT-4o评估证实该方法在保持语义连贯性与感知保真度方面表现优异。
生物分子相互作用支撑着几乎所有生物过程,而其理性设计是实现新型生物功能编程的核心。生成式人工智能模型已成为分子设计的重要工具,但多数仍局限于特定分子类型,且缺乏对相互作用细节的精细化调控。本文提出ODesign——一种面向全原子全相互作用生物分子设计的生成式世界模型。该模型允许科研人员指定任意靶标上的表位,并通过精细化调控生成多样化的结合配体类别。在蛋白质模态的实体级、令牌级和原子级基准测试中,ODesign展现出优于单模态基准模型的可控性与性能。该模型更可拓展至核酸与小分子设计领域,实现了以往难以企及的相互作用类型,如蛋白质结合RNA/DNA、RNA/DNA结合配体等。通过将多模态生物分子相互作用整合于统一生成框架,ODesign正向构建可编程通用分子世界模型迈进。ODesign平台现已开放访问:https://odesign.lglab.ac.cn。
在动态领域(如在线游戏)中,检索增强生成系统日益重要,但专用基准的缺失阻碍了该领域的标准化评估。核心难点在于双重动态性:游戏内容更新与玩家社群关注点转移之间的持续相互作用。此外,自动化基准构建需满足以玩家为中心的真实性要求,确保生成的问题符合实际场景。针对这一综合性挑战,我们提出ChronoPlay——一种用于自动化持续生成游戏RAG基准的创新框架。该框架采用双重动态更新机制追踪两类变化,并通过融合官方资源与玩家社群的双源合成引擎,同时保障事实准确性与查询模式真实性。我们在三款差异化游戏上实例化该框架,创建了游戏领域首个动态RAG基准,为复杂现实条件下模型性能评估提供了新视角。代码已开源:https://github.com/hly1998/ChronoPlay。
人类具备通过视觉与听觉等多模态观察来理解空间的空间推理能力。大型多模态推理模型通过感知与推理学习拓展了这些能力,在各类空间任务中展现出卓越性能。然而针对这些模型的系统性综述与公开基准测试仍显不足。本文对基于大模型的多模态空间推理任务进行全面综述,系统归类多模态大语言模型(MLLMs)的最新进展,并引入开放式基准评估体系。我们首先概述通用空间推理方法,重点关注后训练技术、可解释性及模型架构。除经典二维任务外,我们还探讨空间关系推理、场景与布局理解、三维空间中的视觉问答与定位,并综述具身人工智能领域的进展,包括视觉语言导航与动作模型。同时关注音频与第一人称视角视频等新兴模态,这些新技术通过新型传感器为空间理解开辟了新途径。本综述旨在为快速发展的多模态空间推理领域奠定坚实基础并提供前瞻视角。相关最新资料、代码及开放基准实现请访问:https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning。
大型语言模型及其驱动的智能体发展迅猛、部署广泛,其评估能力已滞后于技术发展。当前评估模型能力的主要工具是人工构建的静态基准测试,但这些测试会迅速达到性能饱和。相比之下,动态基准测试能随被测模型同步演进,但其创建和持续更新成本高昂。为解决这些挑战,我们开发了BeTaL(基于LLM循环调优的基准测试框架),该框架运用环境设计原理实现动态基准测试设计的自动化。BeTaL通过参数化基础基准模板中的关键设计选项,利用LLM对参数空间进行推理,从而以经济高效的方式获得目标属性(如难度和真实感)。我们通过创建具有预期难度等级的基准测试验证了该方法的有效性:运用BeTaL构建了两个全新基准测试,并扩展了流行的智能体基准tau-bench。针对这三项任务及多个目标难度级别的广泛评估表明,BeTaL生成的基准测试更贴近预期难度,平均偏差范围在5.3%至13.2%之间——较基线方法提升2至4倍。
我们正式发布Gaperon——一套完全开源的法语-英语-代码语言模型套件,旨在提升大规模模型训练的透明度与可复现性。该系列包含15亿、80亿及240亿参数模型,基于2-4万亿token训练而成,并完整公开训练流程所有要素:经神经质量分类器筛选的法英数据集、高效数据清洗与训练框架,以及数百个中间检查点。本研究深入探讨了数据过滤与数据污染如何共同影响基准测试与生成性能。我们发现:语言质量过滤能提升文本流畅度与连贯性,但会导致基准测试表现平庸;而后期刻意污染(在包含测试集的数据混合方案上继续训练)既可恢复竞争优势分数,又仅对生成质量产生可控损害。我们论证了常规神经过滤技术如何无意间加剧基准数据泄露。为支持深入研究,我们还在预训练阶段引入了无害数据投毒,为安全研究提供真实测试场景。通过全面公开模型、数据集、代码及检查点,Gaperon为探索多语言模型开发中数据清洗、评估、安全与开放性之间的权衡关系建立了可复现的研究基础。
大型語言模型(LLMs)雖然能力強大,但在實際推理應用中往往存在速度過慢、成本過高的問題。循環變壓器通過在多個計算步驟(即「循環」)中重複使用相同權重來節省參數,但這種方法存在一個重大缺陷:循環必須依次執行,導致每增加一次循環,推理延遲和記憶體需求都會相應增長,因而難以應用於需要快速響應的場景。為解決這一問題,我們提出並行循環變壓器(PLT)。這種新型架構既能保持深度循環模型的高性能,又能實現標準非循環模型的低延遲特性。PLT的核心運作依賴兩項關鍵技術:首先,跨循環並行(CLP)通過在同一前向傳播過程中為不同詞元同步計算不同循環,打破了順序依賴性;其次,為防止記憶體開銷增長,我們採用高效表徵增強策略——將首輪循環的記憶體(KV緩存)共享給所有後續循環,並通過門控滑窗注意力(G-SWA)將共享的全局信息與局部信息融合,從而保持高精度。實驗表明,PLT在達到傳統循環模型精確度的同時,其延遲和記憶體開銷與標準變壓器相比幾乎沒有增加。
统一视觉语言模型(UVLM)需在单一架构中同时完成理解与生成任务,但这两类任务依赖异构数据和监督信号,导致在强化学习(RL)过程中难以实现平衡。我们提出PairUni框架,通过将数据重组为理解-生成(UG)配对并相应调整优化策略来解决该问题。我们首先利用GPT-4o对单任务数据进行增强:为理解样本生成描述文本,为生成样本生成问答对,从而基于同一实例构建对齐配对。此外,针对每个生成样本,我们检索语义相关的理解样本构成检索配对,建立不同数据点间的关联。这种配对结构显式呈现跨任务语义关联,并支持一致性策略学习。基于此,我们提出Pair-GPRO——基于群体相对策略优化的配对感知变体,通过为每个配对分配相似度分数来调节优势函数,从而强化对齐良好样本的学习并减少任务干扰。我们精心构建了包含1.6万组UG配对的高质量数据集PairUG用于RL微调,并在强基准模型Janus-Pro UVLM上评估PairUni。实验表明该方法能在多种UVLM上实现均衡性能提升,显著优于现有UVLM强化学习基线。代码地址:https://github.com/Haochen-Wang409/PairUni{github.com/Haochen-Wang409/PairUni}
多智能体系统(MAS)的实际部署需要强大的测试时性能,这推动了引导推理时搜索并选择性分配计算资源以提升质量的方法发展。我们提出多智能体系统过程奖励模型(MASPRM),该模型能为部分智能体间交互记录分配逐动作、逐智能体的价值,并作为推理时控制器使用。MASPRM通过将回报传播至局部目标进行训练,无需步骤级人工标注数据,仅依赖多智能体蒙特卡洛树搜索(MCTS)推演。在推理阶段,MASPRM引导步骤级束搜索和MCTS,将计算资源聚焦于潜力分支并实现早期剪枝。在GSM8K和MATH数据集上,结合最终答案结果奖励模型(ORM)的MASPRM引导解码,其精确匹配率较单次直通式MAS处理分别提升30.7和22.9个百分点。在GSM8K上训练的MASPRM模型无需重新训练即可零样本迁移至MATH数据集,在相同计算预算下额外提升8.4个精确匹配点。MASPRM作为一种插件式价值模型,能评估单智能体进度并补充验证器式解码器,从而实现更可靠、具备计算意识的多智能体推理。代码地址:https://github.com/milad1378yz/MASPRM
本文提出了一种基于强化学习的大型语言模型诊断智能体训练框架,使模型能够管理多轮诊断流程、自适应选择检查项目并最终确定诊断结果。与基于静态病例摘要进行指令微调的模型不同,我们的方法通过交互式探索和结果反馈来获取诊断策略。我们的贡献包括四个方面:(一)开发DiagGym诊断世界模型,该模型基于电子健康记录训练,能够根据患者病史和推荐检查项目生成检查结果,为诊断训练与评估提供虚拟临床环境;(二)通过端到端多轮强化学习训练DiagAgent,使其掌握兼顾信息获取与诊断准确性的决策策略;(三)构建DiagBench诊断基准数据集,包含750个具有医师验证检查建议的病例,以及99个附有973条医师撰写诊断流程标注的病例;(四)在多样化诊断场景中展现卓越性能。DiagAgent显著超越10个前沿大型语言模型(包括DeepSeek-v3和GPT-4o)及两个提示工程优化的智能体。在单轮诊断场景中,诊断准确率提升9.34%,检查推荐命中率提高44.03%;在端到端场景中,诊断准确率提升15.12%,检查推荐F1分数提高23.09%;在基于量规的评估中,其加权量规得分较次优模型Claude-sonnet-4高出7.1%。这些发现表明,通过交互式临床环境学习策略,能赋予模型动态且具临床意义的诊断管理能力,这是被动训练无法实现的。
近期驾驶世界模型的技术突破,已能实现高质量RGB视频或多模态视频的可控生成。现有方法主要关注生成质量与可控性相关指标,却普遍忽视了对自动驾驶性能至关重要的下游感知任务评估。传统训练策略通常先在合成数据上预训练、再于真实数据上微调,导致训练周期达到基线方法(仅使用真实数据)的两倍。当我们将基线方法的训练周期加倍时,合成数据的优势便微乎其微。为充分验证合成数据的价值,我们提出了Dream4Drive——一个专为增强下游感知任务而设计的新型合成数据生成框架。该框架先将输入视频解构为多个3D感知引导图,随后将3D资源渲染至这些引导图,最后通过微调驾驶世界模型生成可用于训练下游感知模型的多视角逼真编辑视频。Dream4Drive实现了大规模生成多视角边缘案例的前所未有的灵活性,显著提升了自动驾驶中的边缘场景感知能力。为促进后续研究,我们还开源了名为DriveObj3D的大规模3D资源数据集,涵盖典型驾驶场景类别并支持多样化3D感知视频编辑。综合实验表明,Dream4Drive能在不同训练周期下有效提升下游感知模型的性能。 项目页面:https://wm-research.github.io/Dream4Drive/ 代码仓库:https://github.com/wm-research/Dream4Drive
基於可驗證獎勵的強化學習(RLVR)已成為增強大型語言模型(LLM)推理能力的重要範式。該方法通過探索推理軌跡,並將得出正確答案的推演過程作為策略優化的正向信號。然而,這些推演可能包含答案猜測和跳躍式推理等缺陷模式。這類存在缺陷的正向推演與完全正確的推演獲得相同獎勵,導致策略模型內化不可靠的推理模式。本研究首先系統性分析強化學習中的缺陷正向推演,發現其在優化初期能快速提升能力,但後期會因強化不可靠模式而限制推理能力。基於此,我們提出缺陷感知策略優化(FAPO),通過對缺陷正向推演實施無參數的獎勵懲罰,使策略在熱身階段將其作為有效捷徑以確保穩定收益,並在後期精煉階段逐步轉向可靠推理優化。為精準全面檢測缺陷正向推演,我們引入具備過程級獎勵的生成式獎勵模型(GenRM),可準確定位推理錯誤。實驗表明,FAPO在多領域均能有效提升結果正確性、過程可靠性及訓練穩定性,且無需增加標記預算。
近期纯文本大语言模型(LLMs,如DeepSeek-R1)的进展展现出卓越的推理能力,但这些模型在扩展至多模态任务时仍显脆弱或完全失效。现有方法主要依赖单一形式的描述文本,这类描述缺乏多样性且往往难以适配不同类型的视觉问答(VQA)基准测试,导致其无法提供传递细粒度视觉信息的规范化高效通道。我们提出Seeing Eye模块化框架,通过基于代理的小型视觉语言模型翻译器,解锁纯文本LLMs的多模态推理能力。该翻译器作为感知代理:可调用专用工具(如OCR与图像裁剪),并将多模态输入迭代提炼为契合问题的结构化中间表示(SIRs)。这些SIRs随后传递给作为推理代理的纯文本LLM。关键在于,翻译器与推理器通过多轮反馈交互,实现针对性视觉细节提取并生成更确信的答案。在知识密集型VQA基准(含MMMU与MIA-Bench)上的实验表明,Seeing Eye不仅降低推理成本,更超越了许多规模更大的端到端视觉语言模型。例如,结合30亿参数视觉翻译器与80亿参数语言推理器的实例,在挑战性知识型问题上优于单体320亿参数视觉语言模型。我们的结果证明,通过代理信息流将感知与推理解耦,为多模态推理提供了可扩展的即插即用路径,使强效纯文本LLMs能充分发挥其推理潜能。代码已开源于:https://github.com/ulab-uiuc/SeeingEye
推理大语言模型(RLLM)在解决数学、编程等复杂推理任务时已被证明相较于通用大语言模型具有竞争优势。然而,RLLM的服务性能与行为特征仍缺乏系统研究,这可能影响其在真实场景中的部署与应用。为填补这一空白,本文对RLLM服务展开全面研究。我们首先通过试点研究对比RLLM与传统LLM的服务性能,发现其服务行为存在若干显著差异:(1)内存占用显著且存在波动;(2)存在滞后请求现象;(3)运行时间具有自适应性;(4)呈现领域偏好特征。随后我们深入探究现有推理优化技术对RLLM的有效性,主要结论包括:模型量化方法和推测解码技术能以较小精度损失提升服务系统效率,而前缀缓存及KV缓存量化可能对小规模RLLM的精度或服务性能产生负面影响。最后,我们采用伽马分布模拟的真实工作负载进行验证,跨数据集的实证结果表明实际工作负载下的评估结果与RLLM服务核心发现一致。本研究旨在为学术界和工业界推进RLLM推理服务提供实践洞见。
人工智能(包括科学人工智能)的发展应遵循负责任人工智能的原则。负责任人工智能的进展常通过评估指标来量化,但针对指标本身稳健性与可靠性的研究仍较欠缺。本文回顾了先前关于推荐系统(作为人工智能应用的一种形式)公平性指标稳健性的研究,并将其核心发现总结为一套非穷尽性的指导原则,用于制定可靠的责任人工智能评估指标。这些指导原则适用于包括科学人工智能在内的广泛人工智能应用领域。
大型语言模型(LLMs)的快速发展加剧了对领域与文化特异性评估的需求。现有基准大多以英语为中心且缺乏领域针对性,限制了其在印度本土场景的适用性。为填补这一空白,我们推出首个面向关键印度知识体系的领域专用、多任务、双语基准——BhashaBench V1。该基准包含74,166个精心构建的问答对(其中52,494个为英文,21,672个为印地语),数据源自真实的政府及专业领域考试,涵盖农业、法律、金融与阿育吠陀四大核心领域,包含90余个子领域及500多个主题,支持细粒度评估。对29款LLMs的评估显示,模型在不同领域和语言间存在显著性能差距,尤其在低资源领域表现悬殊(例如GPT-4o在法律领域准确率达76.49%,而在阿育吠陀领域仅为59.74%)。所有领域内模型对英文内容的处理能力均优于印地语。子领域分析表明,网络法、国际金融等领域表现相对较好,而潘查卡尔玛疗法、种子科学、人权等领域仍明显薄弱。BhashaBench V1为评估LLMs在印度多元知识领域的表现提供了全面数据集,可检验模型融合领域知识与双语理解的能力。所有代码、基准及资源均已开源以支持开放研究。
随着集中式人工智能触及算力瓶颈且大规模训练带来的边际效益递减,满足需求需要一个能在容量与能力上横向扩展的推理层。本文提出Fortytwo协议——一种基于群体智能原理与分布式成对排序共识的新颖协议,可在AI推理中实现卓越性能。我们的方法通过"群体推理"重构AI节点间的协作机制:这是一种跨异构模型的同行评分、声誉加权的共识机制,能筛选出最高质量的响应。采用自定义布拉德利-特里模型进行成对排序聚合的实验表明,群体推理显著优于多数投票法,在GPQA Diamond数据集上达到85.90%准确率,相较同模型集合下多数投票法的68.69%提升17.21个百分点(相对提升约25.1%)。该协议引入链上声誉机制,使节点影响力随实际准确率动态调整,形成优胜劣汰的共识体系以过滤低质或恶意参与者。为抵御女巫攻击,Fortytwo在共识中采用能力证明机制:节点需成功完成校准/测试请求并质押声誉值才能进入排序环节,在保持开放性的同时使多身份攻击丧失经济吸引力。在GPQA Diamond、LiveCodeBench和AIME等六项高难度基准测试中,评估结果显示该系统兼具更高准确率与强抗干扰能力(例如面对对抗性提示注入时性能仅下降0.12%,而单体单模型基线下降6.20%),并保持实际可部署性。这些成果为去中心化AI系统奠定了基石,通过集体智能实现高质量推理的民主化,且无需牺牲可靠性或安全性。
自回归视频扩散模型能够生成稳定且与历史帧保持连贯的长序列,但其无法通过未来帧的引导信息来调控当前生成过程。在基于预设相机轨迹的摄像引导视频生成任务中,这一局限性会导致生成场景与轨迹发生碰撞,进而引发自回归过程的快速崩溃。为解决该问题,我们提出生成式视角缝合技术(GVS),通过并行采样整个序列确保生成场景精准契合预设相机轨迹的每个区段。我们的核心贡献是一种采样算法,该算法将机器人规划领域的扩散缝合技术拓展至视频生成领域。此类缝合方法通常需依赖专门训练的模型,而GVS兼容任何采用"扩散强制"框架训练的现成视频模型——我们证明这一主流序列扩散框架已具备缝合所需的支持能力。此外,我们提出全向引导技术,通过联合过去与未来帧的条件约束增强缝合时域一致性,并藉此实现闭环机制以保障长程连贯性。总体而言,GVS实现的摄像引导视频生成具有稳定性、无碰撞性、帧间连贯性及闭环特性,可适配多种预设相机路径(包括奥斯卡·路特斯瓦德的彭罗斯阶梯)。建议通过https://andrewsonga.github.io/gvs观看视频结果以获得最佳体验。
我们推出GraphNet数据集,该数据集包含2.7K个真实场景的深度学习计算图,涵盖六大任务类别并跨越多类深度学习框架,且配备丰富的元数据。为评估张量编译器在这些样本上的性能,我们提出基准指标加速比分数S(t),该指标在可调容错阈值下综合考量运行时加速效果与执行正确性,为通用优化能力提供可靠度量。进一步地,我们将S(t)扩展为误差感知加速比分数ES(t),通过融入误差信息帮助编译器开发者定位关键性能瓶颈。本报告以计算机视觉(CV)和自然语言处理(NLP)样本为例,对PaddlePaddle的默认张量编译器CINN和PyTorch的TorchInductor进行基准测试,验证GraphNet的实用性。包含计算图提取与编译器评估工具的完整构建流程已开源:https://github.com/PaddlePaddle/GraphNet。
虽然自回归建模近来已成为视觉生成领域的新范式,但其实际应用受限于逐令牌生成的缓慢推理速度——单样本生成往往需要数千步计算。为应对这一挑战,我们提出MC-SJD:一种基于耦合理论的无训练、无损并行解码框架,通过扩展新近提出的推测性雅可比解码来加速自回归视觉生成。尽管SJD在加速自回归生成方面展现出强大潜力,但我们发现迭代间的令牌不稳定性会显著降低接受率,这一局限主要源于草案令牌生成过程中采用的独立采样机制。为此,我们引入基于信息论耦合方法的MC-SJD,通过最大化连续迭代间采样相同草案令牌的概率,在保持无损特性的同时大幅提升标准SJD的效率。值得注意的是,该方法仅需对现有算法进行单行修改,即可实现显著性能提升:相较于标准自回归解码,图像生成速度提升约4.2倍,视频生成速度提升约13.3倍,且输出质量无损。
大型语言模型在心理咨询领域的应用日益受到关注。然而现有方法普遍缺乏情感理解能力、适应性策略以及跨多轮会话的长期记忆治疗手段,与真实临床实践存在较大差距。为解决这些关键问题,我们推出了TheraMind——一种具备策略性与自适应能力的纵向心理咨询智能体。该系统的核心创新在于新颖的双循环架构,将复杂咨询过程解耦为负责战术性对话管理的"会话内循环"与专注战略性治疗规划的"跨会话循环"。会话内循环通过感知患者情绪状态动态选择应答策略,并借助跨会话记忆确保连续性;而跨会话循环则通过评估每次会谈的治疗效果,动态调整后续干预方案,使智能体获得长期适应性。基于真实临床案例的高保真模拟环境验证表明,TheraMind在连贯性、灵活性和治疗协调性等多轮会话指标上显著优于现有方法,证实了双循环设计在模拟战略性、自适应及纵向治疗行为方面的有效性。相关代码已开源:https://0mwwm0.github.io/TheraMind/。