每日精選AI研究論文及翻譯
在真實世界的影片問答場景中,影片通常僅提供局部視覺線索,而可驗證的答案則分散於開放網絡中;因此模型需要同時執行跨幀線索提取、迭代式檢索以及基於多跳推理的驗證。為彌合這一差距,我們構建了首個影片深度研究基準 VideoDR。該基準以影片條件下的開放領域影片問答為核心,要求進行跨幀視覺錨點提取、互動式網絡檢索,並對影片與網絡的聯合證據進行多跳推理;通過嚴格的人工標注與質量控制,我們獲得了涵蓋六個語義領域的高質量影片深度研究樣本。我們分別在工作流與智能體兩種範式下評估了多個閉源與開源多模態大語言模型,結果表明智能體模式並非始終優於工作流:其效能增益取決於模型在長檢索鏈中維持初始影片錨點的能力。進一步分析指出,目標漂移與長程一致性是核心瓶頸。總而言之,VideoDR 為開放網絡環境下的影片智能體研究提供了系統性基準,並揭示了下一代影片深度研究智能體的關鍵挑戰。
人類在掌握語言前早已發展出核心視覺能力,然而當代多模態大型語言模型仍嚴重依賴語言先驗來彌補其脆弱的視覺理解能力。我們發現一個關鍵事實:最先進的多模態大語言模型在人類(甚至三歲幼童)能輕鬆解決的基礎視覺任務上持續失敗。為系統性探究此差距,我們推出BabyVision基準測試,旨在評估多模態大語言模型獨立於語言知識的核心視覺能力。BabyVision涵蓋廣泛任務維度,包含4大關鍵類別下的22個子類別,共計388個測試項目。實證結果與人工評估顯示,主流多模態大語言模型表現顯著低於人類基準。Gemini3-Pro-Preview得分僅49.7分,落後於六歲兒童水準,與成人平均94.1分差距懸殊。這些結果表明,儘管現有多模態大語言模型在知識密集型評估中表現優異,其仍缺乏基礎的視覺原語能力。BabyVision的進展代表著向人類級視覺感知與推理能力邁出的重要一步。我們同時提出BabyVision-Gen生成模型框架與自動評估工具包來探索視覺推理的解決方案。相關程式碼與基準數據已開源於https://github.com/UniPat-AI/BabyVision 以供復現研究。
我們提出平行協同推理(PaCoRe),這是一個專為突破當代語言模型核心限制而設計的訓練與推論框架:現有模型無法在固定上下文窗口下,將測試時計算量(TTC)擴展至遠超序列推理的規模。PaCoRe 突破傳統序列範式,透過多輪訊息傳遞架構協調大規模平行探索來驅動 TTC。每輪啟動多條平行推理軌跡,將其發現壓縮為上下文受限的訊息,並整合這些訊息以指導下一輪推理,最終生成答案。透過大規模基於結果的強化學習進行端到端訓練,模型掌握了 PaCoRe 所需的整合能力,能將有效 TTC 擴展至數百萬詞元規模而不突破上下文限制。該方法在多領域實現顯著提升,尤其在數學推理上超越前沿系統:一個 80 億參數模型在 HMMT 2025 競賽中達到 94.5% 準確率,透過將有效 TTC 擴展至約兩百萬詞元,超越了 GPT-5 的 93.2%。我們開源了模型檢查點、訓練資料與完整推論流程,以加速後續研究。
儘管Transformer架構在多個領域佔據主導地位,但其二次方的自注意力計算複雜度限制了在大規模應用中的使用。線性注意力雖能提供高效替代方案,但直接應用往往導致性能下降,現有改進方法通常通過引入額外模組(如深度可分離卷積)重新帶來計算開銷,背離了初衷。本研究發現這類方法的關鍵缺陷在於全局上下文坍縮現象,即模型喪失表徵多樣性。為解決此問題,我們提出多頭線性注意力機制(MHLA),通過在詞元維度上劃分頭部並分別計算注意力來保持表徵多樣性。我們證明MHLA在維持線性複雜度的同時,能恢復softmax注意力的大部分表達能力,並在多個領域驗證其有效性:在相同時間複雜度下,ImageNet分類任務提升3.6%,自然語言處理任務提升6.3%,圖像生成任務提升12.6%,視頻生成任務更實現41%的性能飛躍。
由於競技程式設計對推理能力要求極高且邏輯複雜性強,其對程式碼大語言模型構成了重大挑戰。然而,現有程式碼大語言模型仍嚴重依賴現實世界數據,這限制了其可擴展性。本文探索一種完全合成的方法:通過使用完全生成的任務、解決方案和測試用例來訓練程式碼大語言模型,從而在不依賴現實數據的前提下增強程式碼推理能力。為實現此目標,我們基於特徵合成技術提出名為SynthSmith的新型數據合成流程。該流程展現出生成多樣化高難度任務的強大潛力,並能提供經過驗證的解決方案與測試用例,同時支持監督式微調和強化學習。基於所合成的SFT與RL數據集,我們推出X-Coder模型系列——該系列僅憑70億參數即在LiveCodeBench v5上取得62.9 avg@8的優異通過率,在v6版本達55.8分,性能超越DeepCoder-14B-Preview與AReal-boba2-14B等模型。深度分析表明,我們的合成數據集遵循尺度定律,並探討了哪些維度的擴展更具實效。我們進一步透過詳盡的消融實驗與分析,揭示以程式碼為核心的強化學習機制,並明確影響性能的關鍵因素。本研究證實:擴展高質量合成數據與採用分階段訓練能顯著推進程式碼推理能力發展,同時降低對現實世界程式碼數據的依賴。
近期推理模型與智能體AI系統的進展,使得系統對多元外部資訊的依賴度顯著提升。然而這種轉變引入了本質上帶有雜訊的輸入情境,這是當前經過淨化的基準測試所未能捕捉的現實。我們推出NoisyBench——一個全面性基準測試框架,系統化評估模型在RAG、推理、對齊及工具使用四大類任務中,針對隨機文檔、無關對話歷史、困難負樣本干擾等11種雜訊類型的魯棒性。實驗結果顯示,頂尖模型在面對情境干擾物時會出現災難性效能衰退,最高跌幅達80%。關鍵在於,我們發現智能體工作流常因過度信任含雜訊的工具輸出而放大錯誤,且干擾物即使非敵意設計也能觸發突發性失準現象。我們驗證提示工程、情境工程、監督微調及結果獎勵型強化學習均無法確保魯棒性;相比之下,我們提出的「理性感知獎勵機制」通過激勵模型識別雜訊中的有效資訊,顯著增強了系統韌性。最後,我們發現測試階段計算量增加會導致雜訊環境下的效能逆縮減現象,並透過注意力可視化證實模型會過度聚焦於干擾標記,這些發現為構建下一代具備魯棒性的推理智能體提供了關鍵洞見。
大型推理模型(LRMs)通過顯式生成多步驟思維鏈實現了卓越性能,但這種能力會帶來顯著的推理延遲和計算成本。協作推理通過在輕量級模型與大型模型之間選擇性分配工作提供了有前景的解決方案,然而核心挑戰依然存在:如何判斷某個推理步驟何時需要大型模型的容量,何時只需小型模型的效率。現有的路由策略要么依賴局部標記概率,要么採用事後驗證機制,都會引入顯著的推理開銷。本研究提出一種步驟式協作的新視角:推理步驟的難度可從其首個標記推斷出來。受大型推理模型中「頓悟時刻」現象的啟發,我們發現初始標記的熵能有效預測步驟難度。基於此洞見,我們提出無需訓練的步驟式協作框架GlimpRouter。該框架利用輕量級模型僅生成每個推理步驟的首個標記,並在初始標記熵超過閾值時將步驟路由至大型模型。在多個基準測試上的實驗表明,我們的方法在保持準確率的同時顯著降低了推理延遲。例如在AIME25數據集上,GlimpRouter相比單一大型模型在準確率提升10.7%的同時,推理延遲降低了25.9%。這些結果揭示了一種簡單有效的推理機制:基於思維片段的驚鴻一瞥而非完整步驟評估來分配計算資源。
儘管視覺語言模型(VLM)已顯著推動了計算機使用代理(CUA)的發展,現有框架在長時序工作流的穩健性與新領域的泛化能力方面仍存在不足。這些侷限性源於對歷史視覺上下文管理的細粒度控制不足,以及缺乏視覺感知的教程檢索機制。為解決這些問題,我們提出OS-Symphony——一個由協調器統籌兩大核心創新的整體框架,旨在實現穩健自動化:(1)反射記憶代理:通過里程碑驅動的長期記憶實現軌跡級自我修正,有效緩解長時序任務中的視覺上下文遺失問題;(2)多功能工具代理:配備採用SeeAct範式的多模態搜索器,可在基於瀏覽器的沙箱環境中合成即時視覺對齊教程,從而解決未見場景中的保真度問題。實驗結果表明,OS-Symphony在不同模型規模下均實現顯著性能提升,於三項線上基準測試中創下最新標竿成績,尤其在OSWorld上達到65.84%的優異表現。
擴散語言模型(DLMs)通過迭代優化實現平行解碼,為語言建模提供了極具前景的替代方案。然而,現有DLMs大多依賴硬二元遮罩與離散詞元分配,這既限制了早期決策的修正能力,也未能充分發揮中間概率表徵的潛力。本文提出EvoToken-DLM,一種創新型的基於擴散的語言建模方法,以演進式軟詞元分佈取代硬二元遮罩。該模型實現了從遮罩狀態到離散輸出的漸進式轉換,支援可修正的解碼過程。為有效支撐此演進機制,我們引入連續軌跡監督技術,使訓練目標與迭代概率更新保持一致。在多項基準測試中的廣泛實驗表明,EvoToken-DLM始終保持卓越性能,顯著優於現有的強擴散模型與遮罩DLM基線模型。項目頁面:https://aim-uofa.github.io/EvoTokenDLM。
隨著基於大型語言模型的智慧體日益廣泛應用於長期互動場景,累積記憶能力對於實現個人化服務與維持風格一致性至關重要。然而,現有系統大多採用「全有或全無」的記憶使用模式:若完整納入過往互動資訊,可能導致「記憶錨定」現象,使智慧體受困於歷史對話軌跡;反之若完全排除記憶,則會造成重要互動歷史的未充分運用與遺失。我們的研究表明,智慧體對記憶的依賴程度可被建模為一個可顯式調控的維度。我們首先提出記憶依賴性的行為度量指標,用以量化過往互動對當前輸出的影響程度。接著推出可調控記憶智慧體框架SteeM,該框架允許使用者動態調節記憶依賴強度,範圍涵蓋激發創新的「全新啟動」模式,到嚴格遵循互動歷史的「高保真」模式。跨場景實驗表明,我們的方法在個性化人機協作中,能持續優於傳統提示法與剛性記憶遮蔽策略,實現更細膩且高效的控制效果。
交互式与自主人工智能系统的迅猛发展标志着我们正步入智能体时代。在软件工程、计算机操作等复杂智能体任务上开展训练与评估,不仅需要高效的模型计算能力,更需能协调海量智能体-环境交互的精密基础设施。然而,目前尚无开源基础设施能有效支撑此类复杂智能体任务的大规模训练与评估。为应对这一挑战,我们推出MegaFlow——一个面向智能体-环境工作负载的大规模分布式编排系统,可实现高效的任务调度、资源分配与细粒度任务管理。MegaFlow将智能体训练基础设施抽象为三个通过统一接口交互的独立服务(模型服务、智能体服务与环境服务),支持在不同智能体-环境配置下实现独立扩展与灵活资源分配。在实际部署中,MegaFlow成功协调了数万个并发智能体任务,在保持系统高稳定性的同时实现了资源利用效率最大化。通过赋能如此大规模的智能体训练,MegaFlow填补了新兴智能体AI领域的关键基础设施空白。
随着高质量数据获取日益困难,无数据自进化已成为一种前景广阔的范式。该方法使大语言模型能够自主生成并解决复杂问题,从而提升其推理能力。然而在多轮搜索智能体中,由于问题多样性有限且多步推理与工具调用需要大量计算资源,无数据自进化面临挑战。本研究提出Dr. Zero框架,使搜索智能体能在无训练数据条件下实现有效自进化。我们特别设计了自进化反馈循环:提议者生成多样化问题来训练基于同一基础模型初始化的求解器,随着求解器进化,它会激励提议者产出难度递增且可解决的任务,从而建立自动化课程以同步优化双智能体。为提升训练效率,我们还提出跳步分组相对策略优化(HRPO)。该方法通过聚类结构相似的问题构建组级基线,有效降低了评估单个查询难度与可解性时的采样开销。因此HRPO能在保持性能与稳定性的同时,显著减少求解器训练的计算需求。大量实验结果表明,无数据的Dr. Zero达到或超越了全监督搜索智能体的性能,证明了复杂推理与搜索能力可仅通过自进化机制涌现。
视频生成模型作为世界模型的一种形式,已成为人工智能领域最令人兴奋的前沿之一,它通过建模复杂场景的时间演化,使智能体获得预见未来的能力。在自动驾驶领域,这一愿景催生了驾驶世界模型:这类生成式模拟器能够推演自车与其他交通参与者的未来轨迹,实现可扩展的仿真、边缘场景的安全测试以及丰富的合成数据生成。然而尽管研究活动快速增长,该领域仍缺乏严谨的基准来衡量进展并指引重点方向。现有评估存在明显局限:通用视频指标忽略了安全关键的成像因素;轨迹合理性鲜少被量化;时间一致性与智能体层级一致性遭忽视;基于自车条件的可控性亦未被考量。此外,当前数据集难以覆盖现实应用所需的多样化条件。 为弥补这些不足,我们推出首个面向生成式驾驶世界模型的综合基准DrivingGen。该基准整合了从驾驶数据集和互联网规模视频源中精选的多样化评估数据集,涵盖不同天气、昼夜时段、地理区域及复杂驾驶场景,并配套一套创新指标体系,从视觉真实感、轨迹合理性、时间连贯性和可控性四个维度进行联合评估。通过对14个前沿模型的测试,我们发现了明显的权衡关系:通用模型视觉效果更佳但违背物理规律,而驾驶专用模型能真实还原运动轨迹却视觉质量不足。DrivingGen通过提供统一评估框架,致力于推动可靠、可控、可部署的驾驶世界模型发展,为可扩展仿真、路径规划及数据驱动决策提供支撑。
潛在擴散模型(LDMs)通過在壓縮的潛在空間中操作來生成高質量圖像,該空間通常通過圖像標記器(如變分自編碼器VAEs)獲得。為構建更適合生成的VAE,近期研究探索藉助視覺基礎模型(VFMs)作為VAE的表徵對齊目標,這與LDMs常用策略相呼應。儘管此方法帶來一定性能提升,但對VAE和LDM使用相同對齊目標忽略了二者根本不同的表徵需求。我們主張:LDMs受益於保留高層語義概念的潛在表徵,而VAE應擅長語義解耦,能以結構化方式編碼屬性級信息。為此,我們提出語義解耦VAE(Send-VAE),通過將其潛在空間與預訓練VFMs的語義層次結構對齊,顯式優化解耦表徵學習。我們採用非線性映射網絡轉換VAE潛在變量,使其與VFMs對齊,以橋接屬性級解耦與高層語義的鴻溝,從而為VAE學習提供有效指導。我們通過屬性預測任務的線性探測評估語義解耦效果,顯示其與生成性能提升存在強關聯。最終,基於Send-VAE訓練流式變換器SiTs;實驗表明Send-VAE顯著加速訓練,在ImageNet 256×256數據集上使用/不使用無分類器引導時,分別達到1.21和1.75的最新FID指標。
當前視覺語言基準測試主要採用結構清晰、提示明確的問題。然而真實用戶查詢往往具有非正式性和資訊不完整性的特點,用戶會自然省略大量背景資訊,依賴圖像傳達語境。我們推出HAERAE-Vision基準數據集,包含從韓國網絡社區採集的653個真實視覺問題(從8.6萬候選問題中篩選留存率0.76%),每個問題均配備人工改寫的顯式版本,共計1,306個查詢變體。通過評估39個視覺語言模型發現,即便是尖端模型(GPT-5、Gemini 2.5 Pro)在原始查詢上的準確率也不足50%。關鍵在於,僅通過查詢顯式化處理就能帶來8至22個百分點的效能提升,其中小型模型受益最為顯著。我們進一步證明,即使結合網絡搜索,資訊不完整的查詢表現仍遜於未經搜索的顯式查詢,這表明現有檢索技術無法彌補用戶隱含的語境資訊。研究結果證實,視覺語言模型面臨的困難相當部分源於自然查詢的資訊不完整性,而非模型能力缺陷,這凸顯出基準測試與實際應用之間存在關鍵落差。
大型语言模型(LLMs)可通过采用工具集成推理(TIR)范式突破其参数知识限制。然而,现有基于LLM的智能体训练框架往往侧重于答案准确性,忽视了对行为模式的针对性对齐,导致智能体在执行TIR任务时频繁出现冗余调用工具、工具调用不足等低效行为。如何在校准TIR任务执行过程中的错误行为模式基础上探索有效轨迹,仍是悬而未决的难题。本文提出ET-Agent训练框架,通过自我演进数据飞轮与行为校准训练双重视角的协同作用,实现对智能体工具使用行为的校准。具体而言,我们引入自演进数据飞轮机制生成增强数据,用于微调LLM以提升其探索能力。在此基础上构建双阶段行为校准训练框架,逐步将错误行为模式校准至最优状态。深入实验证实,该框架在正确性、效率、推理简洁性和工具执行准确性等多维度均具显著优势。ET-Agent框架为TIR领域研究提供了实践启示,代码开源于https://github.com/asilverlight/ET-Agent。
旅行规划是一项复杂的决策过程,需要综合多维度信息以构建行程方案。然而现有方法面临三大挑战:(1)如何在保持高召回率的同时筛选候选兴趣点;(2)单一路径推理限制了方案空间的探索能力;(3)硬约束与软约束的协同优化仍是重大难题。为此,我们提出TourPlanner——一个融合多路径推理与约束门控强化学习的综合框架。具体而言,首先通过个性化召回与空间优化工作流构建空间感知的候选兴趣点集;继而提出竞争性共识思维链的多路径推理范式,增强可行解空间的探索能力;最后在强化学习阶段引入基于S型函数的门控机制,实现硬约束达标后软约束的动态优先优化。在旅行规划基准测试中,TourPlanner在方案可行性与用户偏好契合度上显著超越现有方法,达到最优性能。
尽管思维链技术赋予大型视觉语言模型多步推理能力,但显式文本推理过程存在信息带宽瓶颈——连续的视觉细节在离散化标记处理过程中被丢弃。近期潜在推理方法试图解决这一挑战,却常因僵化的自回归目标而陷入过早语义坍缩的困境。本文提出Laser这一新范式,通过动态窗口对齐学习重构视觉推理机制。该方法摒弃逐点预测的强制约束,将潜在状态与未来语义的动态有效窗口进行对齐。这种机制构建了"先见林后见木"的认知层级,使模型在聚焦局部细节前能保持全局特征的 probabilistic 叠加态。关键的是,Laser通过可解码轨迹保持可解释性,同时通过自优化叠加实现无约束学习的稳定化。在6个基准测试上的大量实验表明,Laser在潜在推理方法中实现了最先进的性能,较强势基线Monet平均提升5.03%。值得注意的是,该模型以极高效率达成这些提升,推理标记数量减少超97%,同时展现出对分布外领域强大的泛化能力。
随着大语言模型从静态对话接口演变为自主通用智能体,有效的记忆机制对于保障长期行为一致性至关重要。然而现有基准主要关注日常对话或任务导向型对话,未能捕捉智能体必须追踪动态目标的**"长期项目导向型"**交互场景。 为弥补这一空白,我们推出首个基于真实项目场景的基准**RealMem**。该基准涵盖11类场景下超过2000组跨会话对话,采用自然用户查询进行评估。我们提出融合项目基础构建、多智能体对话生成、记忆与进度管理的综合流程,以模拟记忆的动态演进过程。 实验表明,现有记忆系统在管理现实项目中的长期项目状态和动态上下文依赖关系方面面临重大挑战。我们的代码与数据集已开源:[https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench)
我们推出OpenTinker——一个围绕算法设计、执行与智能体-环境交互的职责分离原则构建的大语言模型智能体强化学习基础设施。该框架摒弃了单体式端到端强化学习流程,将智能体学习系统解耦为具有明确定义抽象边界的轻量级可组合模块。用户只需定义智能体、环境及交互协议,而推理与训练任务则交由托管执行运行时处理。OpenTinker创新性地引入了集中式调度器,用于在共享资源上统一管理基于LoRA和全参数的强化学习、监督微调及推理等训练负载。我们进一步探讨了将OpenTinker扩展至多智能体训练的架构设计原则。最后通过一系列强化学习应用案例,验证了该框架在实际智能体学习场景中的有效性。
当前大型语言模型(LLM)的记忆机制主要依赖静态检索增强生成(RAG)方法,这种方法往往导致检索内容碎片化,难以捕捉复杂推理所需的结构化依赖关系。对于自主智能体而言,这类被动且扁平化的架构缺乏对长期交互动态关联特性进行建模所需的认知组织能力。为此,我们提出结构化情景事件记忆(SEEM)框架——一种融合关系事实图谱记忆层与叙事演进动态情景记忆层的分层架构。该框架基于认知框架理论,将交互流转化为由精确溯源指针锚定的结构化情景事件框架(EEF)。此外,我们引入智能关联融合机制与反向溯源扩展(RPE)技术,从碎片化证据中重构连贯的叙事语境。在LoCoMo和LongMemEval基准测试上的实验结果表明,SEEM显著优于基线模型,使智能体能够保持卓越的叙事连贯性与逻辑一致性。
在人工智能创新加速发展的同时,突破性成果背后的智力过程——研究者如何识别研究空白、整合前人成果并产生洞见——仍鲜为人知。由于缺乏科学推理的结构化数据,AI研究智能体的系统性分析与开发受到制约。我们推出Sci-Reasoning数据集,首次系统捕捉高质量AI研究背后的智力合成过程。通过社区验证的质量信号与LLM加速、人工校验的流程,我们追溯NeurIPS、ICML和ICLR(2023-2025)的口头报告与焦点论文及其关键前驱研究,以结构化形式阐明具体推理链条。分析揭示15种独特思维模式,其中三种主导策略占比52.7%:空白驱动重构(24.2%)、跨领域融合(18.0%)与表征转换(10.5%)。最具影响力的创新配方融合多种模式:空白驱动重构+表征转换、跨领域融合+表征转换、空白驱动重构+跨领域融合。该数据集支持科学进展的量化研究,并为培养新一代AI研究智能体提供结构化推理轨迹。
人类主要通过概念(如"狗")来理解世界,这些抽象的心理表征构建了感知、推理和学习的基本框架。然而,大型语言模型在持续预训练过程中如何获取、保持及遗忘此类概念,目前仍不甚明晰。本研究系统探讨了单个概念的习得与遗忘规律,以及多概念间通过干扰与协同产生的相互作用。我们将这些行为动态与模型内部的"概念回路"(即与特定概念相关的计算子图)相关联,并引入图度量指标来刻画回路结构。研究发现:(1)概念回路能提供具有统计显著性的概念学习与遗忘信号;(2)持续预训练中概念回路呈现阶段性演化模式,早期活跃度上升后逐渐衰减并趋于稳定;(3)学习增益越大的概念在后续训练中更易出现显著遗忘;(4)语义相近概念比弱相关概念产生更强干扰;(5)概念知识存在迁移性差异,部分概念能显著促进其他概念的学习。这些发现为理解概念学习动态提供了回路层级的视角,并为设计更具可解释性与鲁棒性的概念感知训练策略奠定了理论基础。
大型语言模型(LLMs)能够生成令人惊讶的复杂自我不确定性评估。然而,这种表达出的置信度在多大程度上与模型的推理、知识或决策机制相关联,目前尚不明确。为验证这一点,我们推出RiskEval评估框架:该框架旨在检验模型是否会根据不同的错误惩罚力度调整其弃答策略。通过对多个前沿模型的评估,我们发现了关键性脱节现象:模型在表述语言置信度时不具备成本意识,在高惩罚条件下决定参与或弃答时也缺乏策略响应能力。即使极端惩罚使得频繁弃答成为数学上的最优策略,模型几乎从不选择弃答,导致效用崩溃。这表明,仅靠经过校准的语言置信度评分可能不足以构建可信赖且可解释的AI系统,因为现有模型缺乏将不确定性信号转化为最优且风险敏感决策的策略能动性。
现代信息系统通常涉及不同类型的项目,例如文本查询、图像、视频片段或音频片段。这推动了全模态嵌入模型的发展,该类模型将异构模态映射到共享空间以实现直接比较。然而,当前大多数全模态嵌入模型仍严重依赖预训练视觉语言模型(VLM)主干网络所继承的隐式对齐机制。实践中这会引发三个常见问题:(i)相似度对数具有模态依赖性锐度,导致评分缺乏统一尺度;(ii)混合模态批次会生成不平衡的难负例分布,使得批内负样本随时间推移逐渐失效——大量负样本迅速退化为简单负例,难以提供有效梯度;(iii)跨模态嵌入呈现不匹配的一阶与二阶统计量,导致排序稳定性下降。为解决这些问题,我们提出e5-omni——一种轻量级显式对齐方案,可将现有VLM适配为鲁棒的全模态嵌入模型。该方案融合三个核心组件:(1)通过模态感知温度校准实现相似度尺度对齐;(2)采用带偏差修正的可控负样本课程学习,聚焦混淆性负例同时降低假负例影响;(3)结合协方差正则化的批白化处理,以优化共享嵌入空间中的跨模态几何匹配。在MMEB-V2和AudioCaps数据集上的实验表明,该方法在强双模态与全模态基线上均取得稳定提升,且该方案能良好迁移至其他VLM主干网络。模型检查点已发布于https://huggingface.co/Haon-Chen/e5-omni-7B。
随着ChatGPT、Copilot、Claude和Gemini等大型语言模型(LLMs)逐渐融入软件开发工作流,开发者在其代码注释中留下的AI参与痕迹日益增多。其中部分注释不仅明确承认使用了生成式AI,还坦承存在技术缺陷。通过分析从公开的Python和JavaScript的GitHub代码库(2022年11月至2025年7月期间)中提取的6,540条涉及LLM的代码注释,我们识别出81条同时自承存在技术债务(SATD)的案例。开发者最常提及推迟测试、适配不完整以及对AI生成代码理解有限等问题,这表明AI辅助不仅影响技术债务产生的时间点,也改变了其形成原因。我们提出"生成式AI引发的自承技术债务"(GIST)这一概念框架,用以描述开发者在使用AI生成代码时,明确表达对其行为或正确性存在不确定性的反复出现的案例类型。
大型语言模型(LLM)可通过仅修改少量可训练参数的参数高效微调(PEFT)方法适应新任务,这类方法常采用低秩更新策略。本研究从量子信息视角切入,旨在解析其有效性机理。基于该视角,低秩参数化天然对应低维矩阵乘积态(MPS)表示,从而可通过纠缠理论表征参数结构。据此,我们提出并度量"人工纠缠"的概念,其定义为人工神经网络(特指LLM)参数体系的纠缠熵。我们首先以LLaMA模型的1B和8B参数规模为研究对象,结合Tulu3与OpenThoughts3数据集,对比分析了代表性PEFT方法低秩适应(LoRA)与全参数微调(FFT):(i)LoRA中查询与价值投影矩阵更新呈现的"内部人工纠缠"遵循具有中心抑制特征的体积律(称为"纠缠谷"),该现象对超参数敏感且区别于FFT;(ii)注意力矩阵中表征符号间相关性的"外部人工纠缠"遵循带对数修正的面积律,且对LoRA超参数与训练步数保持稳健。通过类比黑洞物理中的"无毛定理",我们提出:尽管LoRA与FFT会引发不同的内部纠缠特征,但这些差异不会显现在注意力输出中,这种"无毛"特性可能是低秩更新有效的内在原因。我们进一步基于随机矩阵理论提供理论支撑,并将分析拓展至MPS自适应PEFT方法,发现其具有定性相似的行为模式。
伏笔与照应作为普遍存在的叙事手段,作者通过其在故事早期埋下承诺,并通过具体可观测的结果予以兑现。然而,尽管故事生成技术不断进步,大语言模型在处理这类长程叙事依赖时仍时常失效,即使必要语境已然存在,"契科夫的枪"也往往未被击发。现有评估方法大多忽视这种结构性缺陷,更关注表层连贯性而非叙事铺垫的逻辑实现。本文提出编码化伏笔-照应生成框架,通过照应实现的全新视角重构叙事质量评估体系。针对大语言模型难以直观把握伏笔事件"触发机制"的问题,CFPG将叙事连续性转化为可执行的因果谓词集合。通过从BookSum语料库中挖掘并编码"伏笔-触发-照应"三元组,我们提供的结构化监督机制能确保伏笔承诺不仅被提及,更能实现时空与逻辑层面的圆满兑现。实验表明,CFPG在照应准确度与叙事一致性方面显著优于标准提示基线。我们的研究证明,对叙事机制进行显式编码对于推动大语言模型从表层流畅性迈向真正的叙事能力具有关键意义。
图形用户界面(GUI)是人机交互的核心,但自动化复杂GUI任务仍是自主智能体面临的主要挑战,这很大程度上源于缺乏可扩展的高质量训练数据。虽然人类操作记录提供了丰富的数据源,但这些记录通常冗长、非结构化且缺乏标注,使得智能体难以从中学习。为此,我们推出ShowUI-Aloha——一个将桌面环境中非结构化的真实人类屏幕录像转化为可执行结构化任务的完整流程。该框架包含四个核心组件:记录器精准捕捉屏幕视频及用户交互行为(如鼠标点击、键盘输入和滚动操作);学习器通过语义解析原始交互行为及视觉上下文,将其转化为描述性自然语言标注;规划器读取已解析的演示记录,维护任务状态,并基于情境推理动态制定高层级行动方案;执行器在操作系统层面忠实执行行动方案,通过安全校验和实时反馈实现精准点击、拖拽、文本输入及窗口操作。这些组件共同构成了收集与解析真实人类操作数据的可扩展解决方案,为构建能够通过观察人类行为有效学习的通用GUI智能体开辟了可行路径。
随着无人机在包裹投递、交通监控、灾害响应和基础设施检测等领域的广泛应用,其与人类近距离协同作业的场景日益增多。要确保这类人机共存环境下的安全可靠运行,必须实现从空中视角精准感知人体姿态与行为。这一视角对现有方法提出了三重挑战:图像分辨率低、拍摄角度陡峭以及(自)遮挡严重,特别是在需要实时模型的应用场景中。我们研发并部署了FlyPose——一种专用于航拍图像的轻量级自上而下人体姿态估计流程。通过多数据集联合训练,在Manipal-UAV、VisDrone、HIT-UAV及我们自定义数据集的测试集上,人物检测平均精度提升6.8 mAP;在极具挑战性的UAV-Human数据集上,二维人体姿态估计精度提升16.3 mAP。FlyPose在Jetson Orin AGX开发套件上(含预处理)的推理延迟约为20毫秒,并已在四旋翼无人机飞行实验中完成机载部署。同时我们发布了FlyPose-104数据集,这个小型但极具挑战性的航拍人体姿态数据集包含从困难航拍角度的手动标注:https://github.com/farooqhassaan/FlyPose。
确定性推理是经典软件中令人安心的理想范式:相同程序在相同输入下应始终产生相同输出。随着大语言模型进入实际部署阶段,这种理想被全盘照搬到推理架构中。思维机器实验室的最新研究详细分析了LLM推理中的非确定性,展示了批次不变核函数与确定性注意力机制如何确保比特级完全一致的输出,将确定性推理定位为可复现性和企业级可靠性的前提。 本文则持相反立场。我们认为,对于LLMs而言,确定性推理无异于扼杀生机。它扼杀了建模不确定性的能力,压制了涌现能力,使推理过程坍缩为单一脆弱路径,并通过隐藏尾部风险削弱安全对齐效果。LLMs实现的是基于输出的条件分布,而非固定函数。将这些分布坍缩为单一标准完成结果看似令人安心,实则系统性掩盖了人工认知的核心特性。我们主张采用"随机混沌"范式,将分布变异性视为可测量和可控的信号。 实证研究表明,确定性推理会产生系统性误判。单样本确定性评估会同时低估模型能力和脆弱性,掩盖其在语义改写和噪声下的失败概率。与涌现能力相关的类相变现象在贪心解码下消失殆尽。强制采用确定性主干网络会削弱多路径推理效果,降低准确率和诊断洞察力。最后,确定性评估通过隐藏仅在多样本评估中出现的罕见危险行为,导致安全风险被系统性低估。
系统日志对于监控和诊断现代计算基础设施至关重要,但其规模与复杂性需要可靠高效的自动化解析。由于严重性等级是系统日志消息中预定义的元数据,仅让模型对其进行分类的独立实用价值有限,难以揭示其底层日志解析能力。我们认为,将严重性分类作为探究运行时日志理解能力的基准测试,比将其作为最终任务更具参考价值。基于Linux生产服务器的真实journalctl数据,我们在零样本、少样本和检索增强生成(RAG)提示下评估了九款小型语言模型(SLM)与小规模推理语言模型(SRLM)。结果显示明显的性能分层:Qwen3-4B在RAG模式下以95.64%准确率居首,而Gemma3-1B从少样本提示的20.25%提升至RAG模式的85.28%。值得注意的是,微型模型Qwen3-0.6B在无检索时表现较弱,但通过RAG达到88.12%准确率。相反,包括Qwen3-1.7B和DeepSeek-R1-Distill-Qwen-1.5B在内的多款SRLM在与RAG结合时性能显著下降。效率测量进一步区分模型:多数Gemma和Llama变体单条日志推理耗时低于1.2秒,而Phi-4-Mini-Reasoning单条耗时超过228秒且准确率不足10%。这些发现表明:(1)架构设计、(2)训练目标、(3)在严格输出约束下整合检索上下文的能力共同决定模型性能。通过聚焦可部署的小型模型,该基准测试契合数字孪生(DT)系统的实时需求,并证明严重性分类可作为评估模型能力与实时部署性的观察窗口,对根本原因分析(RCA)及更广泛的DT集成具有启示意义。
设计一种能够高效、内在地处理任意长度序列数据的统一神经网络,是序列建模领域核心且具有挑战性的问题。Transformer架构中的设计选择(包括二次复杂度与弱长度外推能力)限制了其向长序列扩展的能力。本研究提出Gecko神经架构,该架构继承了MEGA和Megalodon的设计理念(采用带门控注意力机制的指数移动平均),并进一步引入多项技术组件以增强长程依赖关系捕获能力,包括时间步衰减归一化、滑动分块注意力机制和自适应工作记忆。在70亿参数规模、2万亿训练标记量的控制性预训练实验中,Gecko相较于Llama2和Megalodon展现出更优的效能和长上下文扩展性:其训练损失达到1.68,显著优于Llama2-7B(1.75)和Megalodon-7B(1.70),接近Llama2-13B(1.67)的表现。值得注意的是,在不依赖任何上下文扩展技术的情况下,Gecko展现出内生的长上下文处理与检索能力,可稳定处理长达400万标记的序列,并能从超出其注意力窗口4倍长度的上下文中检索信息。代码地址:https://github.com/XuezheMax/gecko-llm
自我一致性技术已成为提升大型语言模型在推理任务中准确性的常用方法。其实现方式直观明了:生成多条推理路径,通过多数表决选取最常见答案。虽然这种方法能稳定提升准确率,但其增益是否真正反映推理质量的提升仍不明确。我们针对一个尚未被研究的基础性问题展开探讨:推理规模扩展能否提升推理忠实度? 我们在100道GSM8K数学推理题上对四款前沿模型(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview和DeepSeek-v3.2)进行了全面实证研究。通过采用自助置信区间、配对比较的麦克尼马尔检验以及科恩d值效应量等统计方法,我们严谨量化了模型表现。研究结果揭示了各模型间的显著差异,这对关于自我一致性的普遍假设提出了挑战。 GPT-5.2呈现出预期模式:当N=5时准确率从78%提升至90%,而忠实度保持相对稳定(0.540至0.510)。Claude Opus 4.5则展现出完全不同的情况:其准确率从78%下降至74.3%,而忠实度在N=5时从0.270跃升至0.891。DeepSeek-v3.2因已达98%的准确率呈现天花板效应,忠实度仅小幅提升(0.440至0.541)。Gemini-3-flash准确率从81%提升至86%,但忠实度微降(0.260至0.212)。 难题难度分析显示,GPT-5.2能解决82%的难题,而仅对13%的简单题产生误判。相比之下,Claude模型在23%的简单题上出现错误,这解释了其准确率下降的原因。这些发现对实践者具有重要意义:自我一致性并非普遍有益,团队在部署前应针对具体模型进行测试。我们已公开研究代码,并就如何权衡这些指标提供了实用建议。
大型語言模型的後訓練流程通常會交替進行監督式微調(SFT)與強化學習(RL)。這兩種方法具有不同目標:SFT旨在最小化模型輸出與專家回答之間的交叉熵損失,而RL則專注於最大化來自人類偏好或規則驗證器的獎勵信號。現代推理模型已廣泛採納交替進行SFT與RL訓練的實踐方式,然而對於兩者能否解耦運作,迄今缺乏理論闡釋。我們證明無論以何種順序都無法實現解耦:(1) SFT後接RL的耦合:在SFT最優性條件下,RL會增加SFT損失;(2) RL後接SFT的耦合:SFT會降低RL已達成的獎勵值。在Qwen3-0.6B上的實驗證實了預測的性能衰退現象,驗證了在後訓練過程中若將SFT與RL分離,必然會導致先前已獲得的性能損失。
基於大規模原始音頻預訓練的生成式口語模型能夠在保持說話者與情感等屬性的前提下,延續語音提示的內容,成為口語對話的基礎模型。既有文獻常採用「全局標記困惑度」評估此類模型,該方法直接將文本困惑度的計算公式套用於語音標記。然而此做法忽略了語音與文本模態的根本差異,可能導致語音特徵的低估。本研究提出多種基於似然估計和生成能力的評估方法,以替代樸素的全局標記困惑度。實驗證明,新評估方法能更真實地反映生成語音的感知質量,其與人工評測平均意見分數(MOS)的相關性顯著增強。在新指標體系下,口語模型的性能排名格局被重塑,最佳模型與人類基準之間的差距大幅縮小。這些結果共同表明,採用恰當的評估方法對於準確衡量口語建模進展具有關鍵意義。
多模态大语言模型(MLLMs)展现出强大的通用能力,但在细粒度视觉分类(FGVC)任务上仍存在困难——这项核心感知任务需要细微的视觉辨别能力,对众多现实应用至关重要。针对数学、编程等高难度任务,思维链(CoT)推理是广泛采用的性能提升策略。然而已有研究表明,CoT反而可能损害视觉感知任务的性能。这些研究虽从特定角度探讨了该问题,但尚未揭示CoT削弱感知性能的根本原因。我们通过零样本评估与多训练范式的视角,系统性地重新审视了CoT在FGVC中的作用。在不同实验设置下,我们揭示了一个核心悖论:CoT引发的性能下降主要受推理长度驱动,即文本推理越长,分类准确率持续降低。我们将此现象命名为"思维代价"。基于此发现,我们做出两项关键贡献:(1)提出\alg方法——一种面向多奖励优化的简易通用即插即用归一化方案,可平衡异构奖励信号;(2)构建ReFine-RFT框架,结合集成奖励与\alg方法,在约束推理长度的同时提供密集的准确性反馈。大量实验验证了我们发现的普适性及ReFine-RFT框架的有效性,该框架在FGVC基准测试中实现了最先进性能。代码与模型已开源:https://github.com/jiezhu23/ReFine-RFT{项目链接}。
尽管多模态大语言模型(MLLMs)在视觉理解领域取得了显著进展,但在处理人类手绘草图的无结构性和模糊性时仍面临挑战。这一局限性在视觉评分这一尚未被充分探索的任务中尤为突出——该任务要求模型不仅要解决问题,还需对手绘图表中的错误进行诊断。此类诊断能力依赖于复杂的结构、语义及元认知推理。为弥补这一差距,我们推出了SketchJudge这一新型基准测试,专门用于评估MLLMs作为STEM学科手绘图表评分者的能力。SketchJudge涵盖几何、物理、图表和流程图四大领域共1,015份学生手绘答案,呈现出多样化的风格差异和典型错误类型。基于该基准的评估表明,即使是先进MLLMs的表现也显著落后于人类水平,验证了本基准在揭示当前视觉-语言对齐机制面对符号化及噪声语境时的脆弱性方面的有效性。所有数据、代码及评估脚本已公开于https://github.com/yuhangsu82/SketchJudge。
在金融等高專業性與高風險領域中,由於缺乏開放、高品質且具領域專屬性的數據集,語言模型的評估仍面臨重大挑戰。現有通用基準測試雖涵蓋範圍廣泛,但缺乏足夠的深度與領域真實性,難以評估語言模型在現實金融推理中所需的概念理解與定量分析能力。為解決此問題,我們提出FinForge——一個透過專家引導數據策展與受控式語言模型合成的混合方法,構建金融專屬評估基準的可擴展半合成流程。該流程結合從權威金融來源進行人工與程式化語料庫建構,並運用Gemini 2.5 Flash進行結構化問題生成與驗證。為驗證流程效能,我們發布FinForge-5k基準快照,包含經人工驗證的5,000餘組問答對,涵蓋11個金融子領域,其來源為從10萬份經過驗證的總計1.43億詞元的文件中精煉的語料庫。針對頂尖開源與閉源模型在FinForge-5k上的評估顯示,金融推理能力存在顯著差異,領先模型準確率接近80%。這些發現凸顯該框架能有效診斷現有模型局限,並引導未來金融領域能力的提升。所有程式碼與數據已公開於https://github.com/gtfintechlab/FinForge。
空间智能指在三维环境中感知、推理并描述物体及其相互关系的能力,是具身感知与场景理解的基础。三维描述生成技术旨在用自然语言描述三维场景,但由于点云的稀疏性与不规则性,以及现有描述器在差异显著的室内外三维场景中存在弱定位性和有限分布外泛化能力,该技术仍面临挑战。为此,我们提出可泛化三维描述框架3D CoCa v2,通过统一对比式视觉语言学习与三维描述生成,并采用不更新描述器参数的自适应测试时搜索机制提升鲁棒性。该框架基于冻结的CLIP语义先验、具备空间感知能力的几何三维场景编码器,以及通过对比学习和描述生成联合优化的多模态解码器,无需外部检测器或人工提案。推理时,测试时搜索机制生成多样化描述候选,并基于紧凑场景摘要进行奖励引导的选择。实验显示:在ScanRefer和Nr3D数据集上CIDEr@0.5IoU指标分别提升1.50和1.61分,在TOD3Cap的零样本分布外评估中CIDEr@0.25指标提升3.8分。代码将发布于https://github.com/AIGeeksGroup/3DCoCav2。
直接偏好优化(DPO)作为基于成对偏好对齐大语言模型的原理性可扩展方案,虽可替代RLHF,但其内部几何特征尚未明确,制约了模型审计、检查点比较与故障预测能力。我们提出SPINAL诊断法(神经对齐层的缩放律与偏好整合),通过逐层追踪局部结构变化,量化对齐过程如何重塑各深度的表征分布。跨模型族实验表明,DPO会产生集中于末段解码块(通常为21-30层)的分层校准效应——偏好梯度在此处对下一词元分布产生最直接影响。SPINAL将每个检查点编码为(层索引、收缩分数、传输分数)的深度轨迹:收缩分数通过谱分布尾端衰减速率(小微模态消失速度)衡量层表征压缩强度,数值越高表明表征越集中于少数有效方向;传输分数采用有界重叠度量相邻层间词元分布偏移程度,数值越低表征表征空间的转换路径越平滑。对齐模型呈现末层收缩强度跃升与传输值平稳下降的几何特征,对应策略质量的紧致化与稳定化;而未对齐模型则表现出高曲率、高熵值且几何不一致的深度路径。研究表明对齐操作具有几何局部性:末层网络主导偏好诱导的修正行为。SPINAL将此局部性转化为实用审计信号,可精准量化对齐操作的集中位置、强度表征及训练失稳临界点。
非组合式表达(如习语、谚语和隐喻)对神经机器翻译系统构成重大挑战,因为其含义无法仅从单个词汇推导得出。这类表达承载着丰富的文化内涵,兼具比喻义与字面义,导致准确翻译极为困难。鉴于现有模型在组合式文本翻译上表现良好,我们研究采用基于机器翻译质量评估模型的GRPO式微调方法,将其作为奖励函数来训练模型提升习语翻译能力。通过中印习语数据集的实验发现:习语翻译能力提升约14个百分点,普通非习语翻译能力隐性提升约8个百分点,跨语言翻译能力(单语言训练,多语言评估)提升约6个百分点。本研究首次量化了非组合式表达的翻译差距,为开发具有更强跨文化及比喻语言理解能力的大语言模型提供了新思路。