每日精選AI研究論文及翻譯
圖像地理定位任務旨在利用視覺線索預測圖像在地球上任意位置的拍攝地點。現有的大型視覺語言模型方法雖能運用世界知識、鏈式思考推理與智能體能力,卻忽略了人類常用的策略——使用地圖。本研究首創性地為模型賦予「地圖思維」能力,將其構建為「地圖內智能體循環」框架。我們為此開發了兩階段優化方案:先進行智能體強化學習,再實施平行測試時擴展。強化學習能增強模型的智能體能力以提升採樣效率,平行測試時擴展則使模型能在最終預測前探索多條候選路徑,這對地理定位至關重要。為使用最新真實世界圖像評估方法,我們進一步提出MAPBench——一個完全由真實圖像構成的綜合性地理定位訓練與評估基準。實驗結果表明,我們的方法在多數指標上超越現有開源與閉源模型,相較於具備谷歌搜索/地圖聯網功能的Gemini-3-Pro模型,更將Acc@500米精度從8.0%顯著提升至22.1%。
自動形式化技術旨在將自然語言數學轉換為形式化陳述以實現機器推理,但在現實世界中因物理世界的多模態特性面臨根本性挑戰——物理學常需從視覺元素推斷隱含約束(如質量或能量)。為此,我們提出MMFormalizer,通過整合現實世界數學與物理領域的實體自適應接地技術,將自動形式化擴展至文本之外。該方法通過遞歸接地與公理組合,從感知接地的基元遞歸構建形式化命題,並以自適應遞歸終止機制確保每個抽象概念均獲得視覺證據支持,並錨定於維度或公理基礎。我們在新型基準測試集PhyX-AF上評估MMFormalizer,該數據集包含從MathVerse、PhyX、合成幾何與解析幾何中精選的115個樣本,涵蓋多樣化多模態自動形式化任務。結果表明,GPT-5和Gemini-3-Pro等前沿模型在編譯與語義準確性上表現最佳,其中GPT-5在物理推理方面尤為突出,而幾何領域仍是最具挑戰性的方向。總體而言,MMFormalizer為統一多模態自動形式化提供了可擴展框架,橋接了感知與形式化推理。據我們所知,這是首個能處理經典力學(源自哈密頓量)以及相對論、量子力學和熱力學的多模態自動形式化方法。更多細節請訪問項目頁面:MMFormalizer.github.io
本文提出了一種具備照片級真實感且可控制的面部三維漫畫化框架。我們首先採用基於內在高斯曲率的表面誇張技術,該技術在結合紋理時容易產生過度平滑的渲染效果。為解決此問題,我們引入三維高斯潑濺技術(3DGS),該技術近期已被證實能生成逼真的自由視點虛擬形象。針對多視角序列,我們先提取FLAME網格,求解曲率加權泊松方程,獲得其誇張化形態。然而直接對高斯分佈進行變形會導致效果不佳,因此需通過局部仿射變換將每幀圖像扭曲至其誇張化的二維表徵,從而合成偽真實標註漫畫圖像。我們隨後設計了交替使用真實數據與合成數據監督的訓練方案,使單個高斯集合能同時表徵自然與誇張化的虛擬形象。該方案提升了保真度,支持局部編輯,並實現對漫畫化強度的連續控制。為實現實時變形,我們引入了原始表面與誇張表面之間的高效插值方法,並通過分析證明該方法與閉式解存在有界偏差。在定量與定性評估中,我們的成果均超越現有工作,能夠生成幾何可控的照片級真實感漫畫虛擬形象。
大型語言模型(LLMs)往往難以通過模仿人類或非長鏈思維(Long CoT)的LLMs來習得有效的長鏈推理能力。為理解此現象,我們提出:在統一視角下,有效且可習得的長鏈思維軌跡具有類似分子結構的穩定性,該結構由三種交互類型構成——深度推理(類共價鍵)、自我反思(類氫鍵)與自我探索(類范德華力)。對蒸餾軌跡的分析表明,這些結構源於長鏈思維微調過程,而非關鍵詞模仿。我們引入「有效語義異構體」概念,並證明僅有能促進快速熵收斂的鍵結才能支持穩定的長鏈思維學習,而結構競爭會損害訓練效果。基於這些發現,我們提出Mole-Syn方法,這是一種透過分佈轉移圖引導有效長鏈思維結構合成的技術,在多項基準測試中顯著提升模型性能與強化學習穩定性。
本報告介紹基於Qwen3-VL基礎模型構建的Qwen3-VL-Embedding與Qwen3-VL-Reranker模型系列,作為Qwen家族的最新擴展。這兩大模型系列通過將文本、圖像、文檔圖像及影片等多模態數據映射至統一表徵空間,構建了高精度多模態搜索的端到端管線。Qwen3-VL-Embedding模型採用從大規模對比預訓練到重排序模型蒸餾的多階段訓練範式,生成語義豐富的高維向量。其支持套娃表徵學習技術,可實現靈活的嵌入維度,並能處理長達32k標記的輸入。與之互補的Qwen3-VL-Reranker模型則基於交叉注意力機制的跨編碼器架構,對查詢-文檔對進行細粒度相關性評估。兩大系列均繼承Qwen3-VL的多語言能力,支持超過30種語言,並提供2B與8B兩種參數規模以適應不同部署需求。實證評估表明,Qwen3-VL-Embedding系列在多模態嵌入評測基準中全面達到業界頂尖水平,其中Qwen3-VL-Embedding-8B在MMEB-V2基準上以77.8的綜合得分位居榜首(截至2025年1月8日)。本報告詳述了該系列的架構設計、訓練方法與實用能力,並通過圖文檢索、視覺問答及影片-文本匹配等多模態檢索任務驗證其卓越效能。
強化學習(RL)已成為提升基於大型語言模型的深度搜尋代理之關鍵技術。然而,現有方法主要依賴二元結果獎勵,這類獎勵無法捕捉代理推理過程的全面性與事實依據,常導致捷徑利用和幻覺等不良行為。為解決這些侷限,我們提出「引用感知型評分量規獎勵」(CaRR),這是一種針對深度搜尋代理的細粒度獎勵框架,強調推理的全面性、事實基礎與證據連貫性。CaRR 將複雜問題分解為可驗證的單跳評分量規,要求代理通過明確識別隱藏實體、提供正確引用支持,並建構與預測答案相連結的完整證據鏈來滿足這些量規。我們進一步提出「引用感知型群組相對策略優化」(C-GRPO),結合 CaRR 與結果獎勵以訓練魯棒的深度搜尋代理。實驗顯示,C-GRPO 在多個深度搜尋基準測試中均穩定優於標準的基於結果之強化學習基線。分析結果也驗證了 C-GRPO 能有效抑制捷徑利用,促進全面且基於證據的推理,並在開放式深度研究任務中展現強泛化能力。相關程式碼與數據已公開於:https://github.com/THUDM/CaRR。
大型語言模型(LLMs)被期望能訓練成為各種現實環境中的智能代理,但此過程依賴於豐富多樣的工具互動沙箱。然而,真實系統的存取往往受限;LLM模擬環境容易出現幻覺與不一致性;手動建構的沙箱則難以擴展。本文提出EnvScaler——一個基於程式化合成的自動化框架,用於實現可擴展的工具互動環境。EnvScaler包含兩個核心組件:首先,SkelBuilder透過主題挖掘、邏輯建模與品質評估來建構多樣化的環境骨架;隨後,ScenGenerator為每個環境生成多個任務場景及基於規則的軌跡驗證函數。透過EnvScaler,我們合成了191個環境與約7,000個場景,並將其應用於Qwen3系列模型的監督式微調(SFT)與強化學習(RL)訓練。在三個基準測試上的結果表明,EnvScaler能顯著提升LLMs在涉及多輪次、多工具互動的複雜環境中解決任務的能力。我們已於https://github.com/RUC-NLPIR/EnvScaler開源相關程式碼與資料。
近期大型語言模型(LLM)的突破性進展,使得基於多輪互動軌跡進行強化學習(RL)訓練的智能體系統成為可能,但實際部署正面臨文本歷史記錄急遽增長所導致的標記預算與記憶體用量膨脹瓶頸。本文提出AgentOCR框架,透過將累積的觀測-行動歷史以緊湊渲染圖像呈現,充分利用視覺標記更高資訊密度的優勢。為實現可擴展的多輪推演,AgentOCR創新性地提出分段光學快取機制——透過將歷史分解為可雜湊的區段並維護視覺快取,徹底消除冗餘重複渲染。除了固定渲染模式,AgentOCR更引入智能體自適應壓縮技術:智能體主動輸出壓縮率參數,並透過壓縮感知獎勵函數進行訓練,實現任務成功率與標記效率的動態平衡。我們在ALFWorld與基於搜尋的問答系統等具挑戰性的智能體基準測試中展開廣泛實驗。結果顯示,AgentOCR在顯著降低標記消耗量(>50%)的同時,仍能保持超過95%的文本基礎智能體性能,實現了穩定的標記與記憶體效率提升。進一步分析驗證了分段光學快取帶來20倍渲染加速,以及自適應壓縮機制有效的策略平衡能力。
自主機器學習代理已徹底改變科學發現的範式,但其仍受制於「生成-執行-回饋」的固有框架。既有方法因嚴格依賴高成本的實體執行來驗證假設,存在嚴重的執行瓶頸。受世界模型啟發,我們通過內化執行先驗知識,以即時預測推理替代昂貴的運行時檢驗。本研究正式定義了「以數據為中心的解決方案偏好」任務,並構建包含18,438組對比數據的完整語料庫。實驗表明,大型語言模型在接收經過驗證的數據分析報告後,可展現顯著的預測能力,達成61.5%的準確率與穩健的置信度校準。最終,我們將此框架實現在FOREAGENT代理中,其採用「預測-驗證」循環機制,在收斂速度提升6倍的同時,以超越純執行基線方法+6%的表現達成突破。相關代碼與數據集將公開於:https://github.com/zjunlp/predict-before-execute。
近期视频生成领域主要由扩散模型和流匹配模型主导,这些模型虽能生成高质量结果,但存在计算密集且难以扩展的局限。本研究提出VideoAR——首个结合多尺度帧预测与自回归建模的大规模视觉自回归视频生成框架。VideoAR通过将帧内自回归建模与因果性下一帧预测相结合,并依托能高效编码时空动态特征的三维多尺度标记器,实现了空间与时间依赖关系的解耦。为提升长期一致性,我们提出多尺度时序旋转位置编码、跨帧误差校正和随机帧掩码技术,共同抑制误差传播并增强时序连贯性。我们的多阶段预训练流程能在递增的分辨率与时长中逐步对齐时空特征学习。实验表明,VideoAR在自回归模型中实现了最新最优性能:将UCF-101的FVD指标从99.5提升至88.6,同时减少超过10倍的推理步数,并获得81.74的VBench评分——这与体积大一个数量级的扩散模型性能相当。这些成果证明VideoAR显著缩小了自回归范式与扩散范式间的性能差距,为未来视频生成研究提供了可扩展、高效且具备时序一致性的基础框架。
偏好調校透過最佳化顯性偏好信號(而非僅依賴可能性),將預訓練語言模型對齊至人類對品質、協助性或安全性的判斷。先前研究顯示,當評估超出訓練領域時,偏好調校會降低模型效能並削弱協助性。然而,適應策略能在多大程度上緩解這種領域偏移仍屬未知。我們透過系統性研究領域偏移下的對齊泛化能力,針對此挑戰提出全面分析。我們比較五種主流對齊目標與多種從源領域到目標領域的適應策略(包括目標領域監督式微調與偽標註),並在摘要生成與問答協助性任務中進行驗證。研究結果顯示,不同對齊目標在領域偏移下的泛化能力存在系統性差異。我們證實基於偽標註的適應策略能顯著減緩領域偏移造成的效能衰退。
随着大型语言模型(LLMs)在现实场景中的日益普及,仅关注答案正确性已显不足。要实现可靠部署,必须确保模型在语境干扰下仍能保持真实信念。现有评估方法主要依赖自洽性等点状置信度指标,这可能掩盖信念的脆弱性。我们研究发现,即便是自洽性完美的知识事实,在轻微语境干扰下也会迅速崩溃。为弥补这一缺陷,我们提出邻域一致性信念(NCB)——一种通过评估概念邻域内响应连贯性来衡量信念稳健性的结构化指标。为验证NCB的有效性,我们设计了一套新型认知压力测试方案,用于探测语境干扰下的输出稳定性。在多类LLMs上的实验表明,高NCB值数据在干扰下的性能衰减相对更小。最后我们提出结构感知训练(SAT)方法,通过优化语境不变的信念结构,将长尾知识的脆弱性降低约30%。相关代码已在https://github.com/zjunlp/belief开源。
近期视频生成技术的进步催生了能够为机器人与规划领域模拟潜在未来的"世界模型"。然而,为这些模型设定精确目标仍存在挑战:文本指令往往过于抽象而难以捕捉物理细节,而目标图像对于动态任务又常常难以具体指定。为此,我们提出"目标作用力"这一创新框架,允许用户通过显式力向量和中间动力学过程来定义目标,这与人脑构思物理任务的方式高度契合。我们在精心构建的合成因果基元数据集(如弹性碰撞和多米诺骨牌倾倒)上训练视频生成模型,使其学会在时空维度传递作用力。尽管仅基于简单物理数据训练,我们的模型在复杂现实场景(包括工具操控和多物体因果链)中展现出卓越的零样本泛化能力。研究结果表明,通过将视频生成锚定于基础物理相互作用,模型可演化为隐式神经物理模拟器,无需依赖外部引擎即可实现精确的物理感知规划。我们已在项目页面开源全部数据集、代码、模型权重及交互式视频演示。
大型語言模型經歷了快速演進,已成為金融業務智能化的關鍵技術。然而,現有基準測試常受限於依賴模擬或通用樣本、聚焦單一離線靜態場景等缺陷,導致其難以契合金融服務對真實性與即時回應的要求,造成基準表現與實際業務效能存在顯著落差。為此,我們推出首個基於中美股市真實業務數據並融合線上評估的大規模評測基準BizFinBench.v2。透過對金融平台真實用戶查詢進行聚類分析,我們構建了覆蓋四大核心業務場景的八項基礎任務與兩項線上任務,共計29,578組專家級問答對。實驗結果表明:ChatGPT-5在主任務中以61.5%的準確率表現突出,但相較金融專家仍存明顯差距;在線上任務中,DeepSeek-R1則優於所有其他商業大模型。錯誤分析進一步揭示了現有模型在金融實務場景中的具體能力短板。BizFinBench.v2突破了現有基準的侷限性,實現了對大模型金融能力的業務級解構,為評估大模型在金融領域規模化應用的效能提供了精準依據。數據與程式碼已公開於https://github.com/HiThink-Research/BizFinBench.v2。
單目深度估計旨在從二維圖像恢復三維場景的深度信息。儘管近期研究取得顯著進展,但其對大規模數據集和複雜解碼器的依賴限制了效率與泛化能力。本文提出一種面向零樣本單目深度估計的輕量級數據中心化框架。我們首先採用DINOv3作為視覺編碼器以獲取高質量稠密特徵;其次針對DPT複雜結構的固有缺陷,設計了基於緊湊型Transformer的解碼器SDT。相較於DPT,該解碼器通過單路徑特徵融合與上採樣過程,降低跨尺度特徵融合的計算開銷,在減少85%-89%參數量的同時實現更高精度。此外,我們提出基於質量的篩選策略以過濾有害樣本,從而在縮減數據集規模的同時提升整體訓練質量。在五個基準數據集上的大量實驗表明,本框架在精度上超越DPT。本研究彰顯了平衡模型設計與數據質量對於實現高效可泛化零樣本深度估計的重要性。代碼與項目網站詳見正文鏈接。
大型语言模型(LLMs)已在金融领域的多个方面得到广泛应用。由于训练数据主要来源于人类撰写的语料库,这些模型可能继承各类人类认知偏差。行为偏差会导致决策过程中的不稳定性与不确定性,尤其在处理金融信息时更为明显。然而现有关于LLM偏差的研究多集中于直接问答或简化的通用场景,对复杂现实金融环境及高风险、强语境依赖的多语种金融虚假信息检测任务(\mfmd)的考量尚显不足。本研究提出\mfmdscen基准框架,用于系统评估LLMs在不同经济情境下执行\mfmd任务时表现出的行为偏差。通过与金融专家协作,我们构建了三类复杂金融场景:(i)基于角色与人格特质的场景;(ii)基于角色与地域特征的场景;(iii)融合族群与宗教信仰的角色型场景。此外,我们开发了涵盖英语、中文、希腊语和孟加拉语的多语种金融虚假信息数据集。通过将上述场景与虚假信息主张相结合,\mfscen实现了对22个主流LLMs的系统化评估。研究结果表明,无论是商业模型还是开源模型均存在显著的行为偏差。本项目代码与数据已在https://github.com/lzw108/FMD开源。
基于大语言模型(LLM)的搜索代理通过整合信息检索能力,已被证明在解决知识密集型问题方面具有潜力。现有研究主要聚焦于优化搜索代理的推理范式,但推理过程中中间搜索查询的质量仍被忽视。这导致生成的查询往往不够精确,引发非预期的检索结果,最终限制搜索代理的整体效能。为缓解该问题,我们提出SmartSearch框架,其核心机制包括:(1)过程奖励机制——通过双层级信用评估为每个中间搜索查询的质量提供细粒度监督;(2)查询优化机制——通过选择性优化低质量搜索查询,并基于优化结果重新生成后续搜索轮次,提升查询生成的优化效果。为使搜索代理在过程奖励引导下逐步内化提升查询质量的能力,我们设计了三阶段课程学习框架,引导代理经历从模仿、对齐到泛化的渐进过程。实验结果表明,SmartSearch持续超越现有基线模型,额外定量分析进一步验证其在搜索效率和查询质量方面的显著提升。代码已开源:https://github.com/MYVAE/SmartSearch。
本研究推出Orient Anything V2——一个增强型基础模型,能够通过单张或成对图像实现物体三维朝向与旋转的统一理解。该模型在Orient Anything V1(通过单一独特正面定义朝向)的基础上,拓展至处理具有不同旋转对称性的物体,并能直接估算相对旋转。这一提升得益于四项关键创新:1)利用生成模型合成可扩展的3D资产,确保广泛类别覆盖与均衡数据分布;2)采用高效的模型在环标注系统,鲁棒识别每个物体0到N个有效正面;3)提出感知对称性的周期性分布拟合目标,捕捉所有合理正面朝向,有效建模物体旋转对称性;4)设计可直接预测物体相对旋转的多帧架构。大量实验表明,Orient Anything V2在11个主流基准测试中,于朝向估计、六自由度姿态估计和物体对称性识别任务上实现了零样本状态最优性能。该模型展现出强大泛化能力,显著拓宽了朝向估计在多样化下游任务中的适用边界。
混合专家模型(MoE)已成为扩展大语言模型(LLM)的重要范式。参数高效微调技术(PEFT)(如LoRA)被广泛用于使预训练的MoE大语言模型适配下游任务。然而,现有方法为所有专家分配相同的LoRA秩,忽视了MoE大语言模型固有的功能专化特性。这种均质化分配导致资源错配:与任务相关的专家参数配置不足,而关联性较弱的专家却获得冗余参数。我们提出名为DR-LoRA的动态秩LoRA框架,该框架能根据任务特定需求在微调过程中动态调整专家LoRA秩。DR-LoRA采用专家显著性评分机制,综合考量专家路由频率和LoRA秩重要性来量化每个专家对额外容量的需求。具有较高显著性评分的专家将优先进行秩扩展,从而自动形成针对目标任务的异构秩分布。在多个基准测试上的实验表明,在相同参数预算下,DR-LoRA持续优于标准LoRA及静态分配策略,通过更高效的参数利用实现了更优的任务性能。
基于检索增强的大型语言模型(LLMs)通过整合外部检索信息,在知识密集型任务中表现卓越。然而,这类模型常出现过度搜索现象——即便无助于提升回答质量时仍不必要地调用搜索工具,导致计算效率低下,并因引入无关上下文而产生幻觉。本研究从查询类型、模型类别、检索条件及多轮对话等多个维度对过度搜索进行了系统性评估。主要发现包括:(一)搜索通常能提升可回答查询的答案准确率,但会削弱模型对不可回答查询的拒答能力;(二)过度搜索在复杂推理模型和深度研究系统中更为显著,会因噪声检索而加剧,并在多轮对话中随轮次增加而累积;(三)检索证据的构成至关重要,负面证据的存在能有效提升模型的拒答能力。为量化过度搜索,我们提出了"每正确率所需标记数"(TPC)这一评估指标,用以衡量检索增强型LLMs的性能与成本权衡。最后,我们探索了查询层面和检索层面的缓解策略,并发布OverSearchQA数据集以推动高效检索增强型LLMs的持续研究。
多智能体系统(MAS)已成为构建高性能智能应用的重要范式。在这些系统中,负责确定应由哪些专家智能体处理查询的路由器对整体性能起着关键作用。现有路由策略主要分为两类:性能路由(通过平衡不同规模模型间的延迟与成本)和任务路由(将查询分配给领域专家以提高准确性)。在企业实际应用中,任务路由更为适用;然而现有方案多依赖静态单标签决策,这会带来两大局限:(i)难以在业务领域扩展时无缝集成新智能体;(ii)因智能体能力重叠引发路由冲突,最终降低准确性与鲁棒性。 为解决这些挑战,我们提出TCAndon-Router(TCAR):一种面向多智能体协作的自适应推理路由器。与传统路由器不同,TCAR支持动态智能体接入,并会首先生成自然语言推理链,再预测能够处理查询的候选智能体集合。此外,我们设计了协作执行流程:被选中的智能体独立生成响应后,由专职优化智能体进行聚合提炼,最终形成高质量统一响应。 在公开数据集和企业真实数据上的实验表明,TCAR能显著提升路由精度、减少路由冲突,并在模糊场景中保持鲁棒性。我们已在https://huggingface.co/tencent/TCAndon-Router 发布TCAR,以支持可解释协作式多智能体路由的未来研究。
大型语言模型(LLMs)正日益作为能够推理、规划并与环境交互的智能体被部署。为有效适应长周期场景,此类智能体的关键能力在于具备可留存、组织并检索过往经验以支持下游决策的记忆机制。然而现有方法大多以扁平化方式组织存储记忆,并依赖简单的基于相似性的检索技术。即使引入结构化记忆,现有方法仍难以明确捕捉经验或记忆单元间的逻辑关系。此外,记忆访问过程大多与构建的结构脱节,仍依赖于浅层语义检索,导致智能体无法对长周期依赖关系进行逻辑推理。本研究受事件分割理论启发,提出以事件为中心的记忆框架CompassMem。该框架通过将经验渐进分割为事件并以显式逻辑关系链接,构建起事件图谱形式的记忆结构。该图谱作为逻辑地图,使智能体能够超越表层检索,在记忆空间中进行结构化、目标导向的导航,逐步收集有价值记忆以支持长周期推理。在LoCoMo和NarrativeQA数据集上的实验表明,CompassMem在多种骨干模型中持续提升了检索与推理性能。
随着生成模型日益普及,对生成过程进行细粒度控制的需求变得至关重要。然而,尽管从提示工程到微调等控制方法层出不穷,一个根本性问题始终悬而未决:这些模型本身是否真正具备可控性?本研究提出理论框架以系统回答该问题。通过将人机交互建模为控制过程,我们创新性地提出一种对话场景下模型可控集合的估计算法。值得注意的是,我们建立了估计误差与样本复杂度之间的形式化保证:推导出具有概率近似正确性的可控集合估计边界,该边界无需分布假设、仅需输出有界性条件,且适用于任何黑盒非线性控制系统(即任意生成模型)。我们在对话流程控制的多个任务中,针对语言模型与文生图模型进行了理论框架的实证验证。结果表明,模型可控性具有惊人的脆弱性,且高度依赖实验设置。这凸显了 rigorous 可控性分析的必要性,促使研究重心从单纯尝试控制转向首先理解其根本局限。
人工智能对齐(AI Alignment)包含两大核心问题:如何规范性地界定人工智能系统的行为准则,以及如何通过技术手段确保系统遵循这些准则。迄今为止,该领域普遍忽视了一个应对这些难题的重要知识源泉与实践宝库——法律。本文旨在填补这一空白,通过探讨如何运用法律规则、原则及方法来应对对齐难题,并为设计安全合规、符合伦理的人工智能系统提供启示。这一新兴领域——法律对齐——聚焦三个研究方向:(1)设计能够遵循经由合法制度与程序制定的法律规则内容的人工智能系统;(2)借鉴法律解释方法指导人工智能系统的推理与决策机制;(3)运用法律概念作为解决人工智能系统可靠性、信任度与合作性挑战的结构蓝图。这些研究方向催生了新的概念性、实证性与制度性问题,包括探究特定人工智能系统应遵循的具体法律规范,建立评估体系以检验其在真实场景中的合规性,以及构建支持法律对齐实践落地的治理框架。解决这些问题需要融合法学、计算机科学等多学科智慧,为不同学界提供了携手打造更美好人工智能未来的合作契机。
大型语言模型推理中可验证奖励强化学习的最新进展,始终受限于一个顽固挑战:探索坍缩。随机推演的语义同质性常使模型陷入狭隘的过优化行为。现有方法虽利用策略熵鼓励探索,却存在固有局限:全局熵正则化易受奖励破解影响,可能导致无意义的冗长输出;而局部令牌选择性更新则难以克服预训练模型的强归纳偏差。为此,我们提出基于迭代信息瓶颈的潜策略优化方法,该创新方案将探索机制从令牌分布的统计扰动转向推理轨迹的拓扑分岔。IIB-LPO在高熵状态触发潜空间分岔以多样化推理路径,并运用信息瓶颈原理同时作为轨迹过滤器与自奖励机制,确保探索过程的简洁性与信息量。在四个数学推理基准测试上的实证结果表明,IIB-LPO实现了最先进性能,在准确率上最高超越现有方法5.3%,在多样性指标上领先达7.4%。
近年来大型语言模型(LLM)的重大突破使其成为智能体的理想范式,其中长期规划与决策能力正逐渐成为适应多样化场景与任务的核心通用能力。实时策略(RTS)游戏因其需要宏观战略规划与微观战术调整的双重特性,成为评估这两种能力的理想测试平台。然而现有基于RTS游戏的测试环境存在计算需求较高或缺乏文本观察支持的问题,限制了其在LLM评估中的应用。基于此,我们推出了TowerMind——一个基于RTS游戏子类塔防(TD)的新型测试环境。该环境在保留RTS游戏核心评估优势的同时,具备低计算需求和多模态观察空间(包括像素级画面、文本化描述及结构化游戏状态表征)。此外,TowerMind支持模型幻觉评估并具有高度可定制性。我们设计了五个基准关卡,在多模态输入设置下对多种主流LLM进行测试。结果显示,LLM在能力维度与幻觉维度均与人类专家存在明显差距。实验还揭示了LLM行为的三大局限:规划验证不足、决策缺乏多终局性以及行动效率低下。我们还评估了Ape-X DQN和PPO两种经典强化学习算法。通过轻量化多模态设计,TowerMind既弥补了现有RTS测试环境的不足,也为AI智能体领域提供了新基准。项目源代码已公开于GitHub(https://github.com/tb6147877/TowerMind)。
人脸图像质量评估(FIQA)对于构建可靠的人脸识别系统至关重要。现有方法主要仅利用最终层表征,而免训练方法需要多次前向传播或反向传播。我们提出ViTNT-FIQA,这是一种免训练方法,通过度量视觉Transformer(ViT)中间层块间图像块嵌入演化的稳定性来实现质量评估。我们证明高质量人脸图像在跨层块间表现出稳定的特征优化轨迹,而质量退化图像则呈现无规律的变换。该方法计算连续Transformer层块间L2归一化图像块嵌入的欧氏距离,并将其聚合为图像级质量分数。我们在具有可控退化等级的质量标注合成数据集上实证验证了这种相关性。与现有免训练方法不同,ViTNT-FIQA仅需单次前向传播,无需反向传播或架构修改。通过对八个基准数据集(LFW、AgeDB-30、CFP-FP、CALFW、Adience、CPLFW、XQLFW、IJB-C)的广泛评估表明,ViTNT-FIQA在保持计算效率、可直接应用于任何预训练ViT人脸识别模型的同时,达到了与最先进方法相竞争的性能水平。
我們提出了一個框架,通過基於文件的存儲系統和智能體控制的工具調用,將瞬態評析轉化爲可檢索的指導原則,從而攤平推理階段思維過程的計算成本。我們在Rubric Feedback Bench(一個基於評分量表學習的新型數據集)上對該方法進行評估。實驗表明,經過增強的語言模型能快速達到測試時優化流程的性能水平,同時顯著降低推理成本。
实时多模态自动补全技术对于数字助手、聊天机器人、设计工具及医疗咨询等依赖共享视觉情境的用户输入场景至关重要。我们提出多模态自动补全(MAC)任务,该任务能根据实时对话中已输入的文字和视觉线索预测即将输入的字符。与传统纯文本自动补全(TAC)不同,MAC将预测基于多模态语境,从而更精准捕捉用户意图。为支持该任务,我们改造MMDialog和ImageChat构建基准数据集,评估主流视觉语言模型(VLM)与强文本基线的性能差异,揭示准确性与效率的权衡。我们提出Router-Suggest路由框架,可根据对话上下文动态选择文本模型或VLM,并推出适用于资源受限环境的轻量级变体。该框架相较性能最佳VLM实现了2.3至10倍的速度提升。用户研究表明,在多轮对话中VLM在用户满意度方面显著优于文本模型,尤其体现在节省用户输入成本与提升补全质量两方面。这些发现印证了多模态语境在自动补全中的必要性,为构建更智能、具用户感知能力的助手指明方向。
非洲拥有全球超过三分之一的语言,但在人工智能研究领域却长期处于代表性不足的状态。我们推出Afri-MCQA——首个覆盖12个国家15种非洲语言、包含7.5万个问答对的多文化问答基准数据集。该基准提供跨文本与语音模态的平行英非双语问答对,所有内容均由母语者创建。基于Afri-MCQA对大语言模型的测试表明:开源模型在不同文化场景中表现欠佳,当使用本土语言或语音进行开放式视觉问答时,准确率趋近于零。为评估语言能力,我们设置了旨在区分文化知识与语言能力的对照实验,观察到模型在文本和语音模态下,本土语言与英语表现存在显著差距。这些发现凸显了发展语音优先技术、文化本位预训练及跨语言文化迁移的必要性。为支持非洲语言多模态AI的包容性发展,我们将Afri-MCQA数据集以学术许可或CC BY-NC 4.0协议发布于HuggingFace平台(https://huggingface.co/datasets/Atnafu/Afri-MCQA)。
角色设定可视为大型语言模型(LLM)的行为先验,通常被假定能以单调递增的方式赋予专业能力并提升安全性。然而,其对高风险临床决策的影响仍缺乏系统研究。我们通过多维评估框架(涵盖任务准确性、校准度和安全相关风险行为),系统评估了临床LLM中基于角色的控制机制,探究专业角色(如急诊科医生、护士)和交互风格(果敢型vs谨慎型)如何影响不同模型在医疗任务中的行为表现。研究发现存在系统性、情境依赖性且非单调的效应:医疗角色能提升急危重症护理任务的表现(准确性和校准度最高增益达约+20%),但在初级诊疗场景中反而会使性能出现相当程度的下降。交互风格虽能调节风险倾向与敏感度,但其效果高度依赖模型特性。尽管LLM评判器的综合排名显示在安全关键案例中医疗角色优于非医疗角色,但人类临床医生在安全合规性上仅呈现中等一致性(平均科恩κ系数=0.43),且对其95.9%的推理质量回答表示低置信度。本研究证实角色设定作为行为先验会引发情境依赖的权衡,而非安全性与专业性的绝对保障。代码详见https://github.com/rsinghlab/Persona_Paradox。