每日精選AI研究論文及翻譯
近期圖像生成與編輯技術的突破為虛擬試穿開闢了新可能,但現有方法仍難以滿足複雜的實際應用需求。我們推出商用級虛擬試穿系統Tstars-Tryon 1.0,該系統具備強韌性、真實性、多功能性與高效能四大特點。首先,系統在極端姿勢、劇烈光照變化、動態模糊等複雜真實場景下仍保持高成功率;其次,生成結果具有照片級真實感,能精細還原服裝紋理、材質屬性與結構特徵,同時有效規避常見的AI生成瑕疵;第三,除常規服飾試穿外,模型支援8大時尚品類的靈活多圖組合(最多6張參考圖),並可協調控制人物身份與背景元素;第四,針對商業部署的延遲瓶頸,系統進行深度推理優化,實現近乎即時的生成速度以保障用戶體驗。這些能力得益於端到端模型架構、可擴展數據引擎、穩健基礎設施與多階段訓練範式的系統化設計。大量評估與大規模產品部署表明,Tstars-Tryon 1.0在整體性能上處於領先地位。為推動後續研究,我們同步發布了綜合評估基準。該模型已在淘寶App實現工業化部署,日均服務數百萬用戶,處理千萬級請求。
合成人類-物體互動(HOI)影片在電子商務、數位廣告與虛擬行銷領域具有廣泛的實用價值。然而,當前擴散模型儘管具備照片級真實的渲染能力,仍經常在以下兩方面表現不佳:(i)手部與臉部等敏感區域的結構穩定性;(ii)符合物理規律的接觸關係(例如避免手部與物體的相互穿透)。我們提出CoInteract——一個端到端的HOI影片合成框架,可基於人物參考圖像、產品參考圖像、文字提示與語音音頻進行條件生成。CoInteract在Diffusion Transformer(DiT)骨幹網絡中嵌入兩種互補設計:首先,我們提出「人體感知專家混合模型」(Human-Aware MoE),透過空間監督路由機制將標記分配給輕量化的區域專家用模組,以最小參數開銷提升細粒度結構保真度;其次,我們設計「空間結構化協同生成」雙流訓練範式,聯合建模RGB外觀流與輔助HOI結構流,注入互動幾何先驗。訓練階段,HOI結構流會關注RGB標記並透過監督訊號正則化共享骨幹權重;推理階段則移除HOI分支,實現零開銷的RGB生成。實驗結果表明,CoInteract在結構穩定性、邏輯一致性與互動真實性方面均顯著優於現有方法。
語言模型代理系統通常依賴反應式提示技術,即通過單一指令引導模型執行開放式的推理與工具使用序列。這種方式將控制流和中間狀態隱式化,可能導致代理行為難以精準控制。雖然如LangGraph、DSPy和CrewAI等編排框架通過明確定義工作流程來增強結構性,但它們將工作流邏輯與Python代碼緊密耦合,使得代理的維護與修改變得困難。本文提出AgentSPEX——一種具備明確控制流與模組化結構的代理規約與執行語言,並配備可定制的代理運行框架。AgentSPEX支持類型化步驟、分支循環、並行執行、可複用子模組及顯式狀態管理,這些工作流可在提供工具調用、沙盒虛擬環境、檢查點、驗證與日誌功能的代理框架中執行。此外,我們開發了具備同步圖形化工作流視覺化編輯器,並內置面向深度研究與科學研究的即用型代理。我們在7項基準測試中評估AgentSPEX,並通過用戶研究證明:相較現有主流代理框架,AgentSPEX提供了更具可解釋性與易用性的工作流編寫範式。
稀疏視角三維重建對於從隨意拍攝的影像中建模場景至關重要,但對非生成式重建方法仍具挑戰性。現有基於擴散模型的方法通過合成新視角來緩解此問題,但這些方法通常僅基於一兩幀捕捉畫面進行條件生成,這不僅限制了幾何一致性,更制約了對大規模或多樣化場景的擴展能力。我們提出AnyRecon框架,能夠從任意無序稀疏輸入中實現可擴展重建,在保持顯式幾何控制的同時支持靈活的條件生成基數。為實現長程條件生成,本方法通過預置捕捉視角緩存構建持久化全局場景記憶,並取消時序壓縮以維持大視角變化下的幀級對應關係。我們發現,除了改進生成模型外,生成與重建過程的交互對大規模三維場景至關重要。為此,我們引入幾何感知條件生成策略,通過顯式三維幾何記憶與幾何驅動的捕捉視角檢索,實現生成與重建的耦合。為確保效率,我們結合四步擴散蒸餾與上下文窗口稀疏注意力機制,將計算複雜度從二次方降低。大量實驗證明,該方法能在不規則輸入、大視角差異及長軌跡等複雜條件下實現魯棒且可擴展的重建效果。
測試時訓練(TTT)在推理階段針對未標記測試樣本進行模型參數適應,持續擴展離線訓練無法觸及的能力。儘管初期成效顯著,現有大型推理模型(LRM)的TTT方法很快陷入瓶頸,且無法受益於額外的測試時計算資源。由於缺乏外部校準,隨著策略模型演化,自我生成的獎勵信號會逐漸偏離,導致性能停滯與多樣性崩潰。我們提出TEMPO框架,透過在未標記問題上交替執行策略優化與標記數據集上的定期評判器重校準。藉由期望最大化(EM)算法形式化此交替過程,我們揭示先前方法可被解讀為缺失關鍵重校準步驟的不完整變體。重新引入該步驟能緊密證據下界(ELBO),實現持續改進。在各類模型系列(Qwen3與OLMO3)與推理任務中,TEMPO將OLMO3-7B在AIME 2024的表現從33.0%提升至51.1%,Qwen3-14B從42.3%提升至65.8%,同時維持高多樣性。
大型語言模型在程式碼生成領域已取得顯著成果,但其生成圖形使用者介面應用程式(特別是遊戲)的能力仍缺乏系統性研究。現有基準主要透過測試案例評估正確性,這種方法對GUI應用存在侷限性——這類系統具有互動性、事件驅動特性,且需在使用者操作序列中維持正確的狀態轉換。因此其評估應考量互動流程與UI邏輯,而非僅關注通過/失敗結果。為研究此問題,我們提出PlayEval:一個基於43個多語言GUI應用程式(涵蓋Python、TypeScript和JavaScript)建構的儲存庫感知基準。有別於難以適配桌面環境的既有GUI基準,PlayEval覆蓋六大GUI應用類別,並直接支援程式碼生成評估。我們進一步提出Play@k指標,用於衡量生成的k個候選程式中是否至少有一個能從頭到尾無邏輯錯誤地執行。為實現可靠評估,我們開發了PlayTester——基於LLM的智慧代理,可執行任務導向的GUI流程測試並自動檢測邏輯違規。對10個前沿程式碼LLM的實驗表明,儘管編譯成功率很高,但其Play@3得分接近零,暴露出在生成邏輯正確的GUI應用方面存在重大缺陷。為解決此問題,我們提出PlayCoder:一個多智慧體、儲存庫感知的框架,能以閉環方式生成、評估並迭代修復GUI應用程式碼。PlayCoder顯著提升了開源與閉源模型的功能正確性與語義對齊能力,最高可達到38.1%的Exec@3與20.3%的Play@3。案例研究進一步表明,該框架能發現傳統指標遺漏的靜默邏輯錯誤,並透過定向編輯進行修復。
參數高效微調(PEFT)通過僅訓練少量任務特定參數並凍結預訓練主幹網絡,大幅降低了大型語言模型(LLM)全參數微調的訓練成本。然而現有方法(如低秩適應LoRA)通過向各權重矩陣直接插入獨立的低秩擾動來實現適應,導致適應過程呈現局部參數化特性。本文提出集中式PEFT框架ShadowPEFT,其通過深度共享的陰影模組進行層級精煉。在每個Transformer層中,ShadowPEPT維持並行陰影狀態,通過疊代演化逐步生成更豐富的隱藏表徵。該設計將適應機制從分散的權重空間擾動轉變為共享的層空間精煉過程。由於陰影模組與主幹網絡解耦,既可跨層重複使用、獨立預訓練,也能以分離模式部署,特別適用於邊緣計算場景。在生成與理解任務的實驗表明,ShadowPEFT在可訓練參數量相當的情況下達到或超越LoRA與DoRA的性能。針對陰影預訓練、跨數據集遷移、參數擴展、推理延遲及系統級評估的進一步分析證實:集中式層空間適應是傳統低秩PEFT具備競爭力與靈活性的替代方案。
目前,可執行的視覺化工作流程已成為工業實際部署的主流範式,具有高可靠性和可控性優勢。然而在現行實踐中,這類工作流程幾乎完全依賴人工構建:開發者需要精心設計流程架構,為每個環節編寫提示詞,並隨需求變更反覆調整邏輯——這導致開發成本高昂、耗時冗長且易出錯。為探究大語言模型能否自動化這類多輪交互過程,我們提出Chat2Workflow基準測試集,用於從自然語言直接生成可執行的視覺化工作流程,並設計了穩健的智能體框架以緩解重複性執行錯誤。Chat2Workflow基於大量真實業務流程構建,每個實例的生成結果均可轉換並直接部署至Dify、Coze等實際工作流平台。實驗結果表明,儘管現有頂尖語言模型能較好捕捉高層意圖,但在生成正確、穩定且可執行的工作流程方面仍存在困難,尤其在處理複雜或動態需求時更為明顯。雖然我們的智能體框架將解決率最高提升了5.34%,但殘留的現實差距使Chat2Workflow成為推進工業級自動化的重要基礎平台。程式碼已開源於:https://github.com/zjunlp/Chat2Workflow。
隨著強化學習持續擴大基於大型語言模型的智能體訓練規模,在複雜環境中可靠驗證智能體行為已變得日益困難。現有方法依賴基於規則的驗證器或「LLM即法官」模型,但這些方法難以突破狹窄領域的泛化能力。「智能體即法官」方法通過主動與環境及工具互動來獲取可驗證證據,從而解決此局限,然其能力仍待深入探索。 我們提出AJ-Bench基準測試,系統性評估「智能體即法官」在三大領域的表現——搜尋引擎、數據系統與圖形用戶界面,共包含155項任務與516條註解軌跡。該基準全面評估法官智能體在信息獲取、狀態驗證與流程驗證三方面的能力。實驗結果顯示相較於「LLM即法官」基線模型有穩定性能提升,同時揭示基於智能體驗證仍存在重大挑戰。我們的數據與程式碼公開於https://aj-bench.github.io/。
指令遵循式信息检索(IF-IR)研究聚焦于检索系统不仅需要查找与查询相关的文档,还必须遵循用户明确的约束条件,如必要属性、排除项或输出偏好。然而,大多数检索模型主要针对语义相关性进行训练,往往难以区分仅符合主题的文档与满足指令要求的文档。我们提出基于极性反转的双视角数据合成策略:给定查询、符合指令的相关文档以及匹配查询但违反指令的困难负样本,通过提示大语言模型生成能使两个文档相关性标签互换的互补指令。通过在同一文档对上呈现能反转其相关性标签的互补指令,训练信号迫使检索模型依据指令重新评估候选集,而非依赖固定的主题线索。在3.05亿参数的编码器上,我们的方法将FollowIR基准测试性能提升45%,超越同等或更大规模的通用嵌入模型。通过等量数据预算下的直接比较,我们进一步证明数据多样性与指令监督具有互补作用:前者保持通用检索质量,后者提升指令敏感度。这些结果凸显了针对性数据合成对于构建兼具广谱能力与指令感知的检索系统的重要价值。
代码切换作为全球交流中普遍存在的语言现象,却面临着现代信息检索系统仍主要基于单语环境设计与评估的现实困境。为弥合这一关键断层,我们开展了针对代码切换信息检索的系统性研究。通过人工标注构建的CSR-L(轻量版代码切换检索基准)数据集,有效捕捉了混合语言查询的真实自然度。我们在统计、稠密和延迟交互三大范式下的实验表明,代码切换构成了基础性的性能瓶颈,即使强大多语言模型的检索效能也会因此受损。研究揭示这种失效源于纯语言文本与代码切换文本在嵌入空间中存在的显著差异。为进一步拓展研究维度,我们提出覆盖11类任务的综合基准CS-MTEB,观察到最高达27%的性能下降。最后实验证明,词汇扩展等标准多语言技术仍无法完全弥补这些缺陷。这些发现既揭示了现有系统的脆弱性,也确立了代码切换作为未来信息检索优化关键前沿的重要地位。
任务算术为编辑预训练模型提供了一种高效且无需重新训练的方法,但其成功缺乏基础性的理论解释。现有“权重解缠”概念描述了任务组合互不干扰的理想结果,但未揭示其根本成因。关键在于:预训练模型(θ₀)或任务向量(τₜ)的何种内在特性促成了这种解缠机制,目前尚待深入探索。本文提出任务特征专化(TFS)——即模型为不同任务分配差异化内部特征的能力——作为核心原理。我们首先证明TFS是权重解缠的充分条件;更重要的是,发现TFS会引发可观测的几何结果:权重向量正交性。这确立了TFS作为功能性目标(解缠)与可度量几何特性(正交性)的共同成因。该关系为我们的方法提供了关键思路:由于抽象的TFS属性难以直接约束,我们可以通过塑造其具体的几何表征(正交性)来促进权重解缠。因此,我们提出OrthoReg——一种简单有效的正则化方法,在微调过程中主动对构成τₜ的权重更新量(ΔW)施加内部正交结构,并从理论上证明该方法能促进解缠。大量实验表明,OrthoReg能持续显著提升多种任务算术方法的性能。代码发布于https://github.com/RL-MIND/OrthoReg。
我们致力于解决生成具有空间锚定性的三维一致性可导航环境问题——即对真实场景的仿真模拟。现有视频生成模型虽能基于文本或图像提示生成合理的连贯序列,但在任意天气条件与动态物体配置下重建真实世界的能力,对于自动驾驶和机器人仿真等下游应用至关重要。为此,我们提出CityRAG模型,该视频生成系统利用海量地理配准数据作为上下文,将生成内容锚定于物理场景,同时保持对复杂运动与外观变化的先验学习能力。CityRAG采用时序非对齐训练数据,使模型能够从语义层面解耦静态场景与瞬态属性。实验表明,CityRAG可生成长达数分钟、物理场景连贯的视频序列,在数千帧中保持天气与光照条件的一致性,实现路径闭环,并能通过复杂轨迹导航重建真实地理环境。
自回归视频扩散模型正成为流媒体视频合成的新兴范式,其中步数蒸馏是加速推理的主要手段。然而,大语言模型的主流加速策略——推测解码能否有效适配自回归视频生成仍存疑问,因为视频块是连续时空张量,缺乏可用于精确拒绝采样的词元级分布。我们提出SDVG框架,通过用图像质量路由器替代词元验证,将推测解码引入基于块的自回归视频扩散。13亿参数的草稿模型通过四步去噪生成候选块;每个块经VAE解码后,由ImageReward采用最差帧聚合策略(取每帧奖励最小值以捕捉单帧伪影)进行评分。评分超过固定阈值τ的块被存入140亿参数目标模型的KV缓存,其余则由目标模型重新生成。两个关键设计被证明至关重要:首帧始终强制拒绝以锚定场景构图,而τ作为单一调控旋钮可勾勒出平滑的质量-速度帕累托边界。在1003个MovieGenVideoBench提示词(832x480分辨率)上的测试表明,当τ=-0.7时,SDVG在实现1.59倍加速的同时保持目标模型单独生成98.1%的VisionReward质量(0.0773 vs 0.0788);当加速比达2.09倍时仍保持95.7%的质量留存率,且始终优于纯草稿生成超过17%。该框架无需训练、不改变模型架构,可无缝集成到现有自回归视频生成流程中。
日常任务皆有其特定目标,而围绕该目标对模型进行预训练正是将其塑造成专家的关键。本文通过引入神经元激活图排序(NAG-based Ranking)框架,研究面向目标的语言模型预训练方法。该框架无需额外训练且具可解释性,专门用于目标导向的预训练数据筛选。与使用黑箱表征不同,我们的方法直接通过任意现成大语言模型中一组稀疏的高影响力神经元来刻画目标输入特征。具体而言,我们量化神经元影响力,将各层最具影响力的神经元筛选至紧凑的神经元激活图(NAG)中,并依据候选数据与目标示例的NAG相似度进行排序。我们在六个基准测试上的实验表明:基于NAG的排序方法相较随机采样将目标导向预训练效果平均提升4.9%,在HellaSwag任务上以5.3%的准确率优势超越现有最优基线。在更具实用性的多目标场景下,该方法依然保持有效性——我们最佳配置分别以1.1%和4.1%的优势超越两个基线模型。此外,我们深入分析了NAG的作用机制:实验发现禁用NAG筛选的神经元(仅占总数0.12%)会导致性能骤降23.5%,而将NAG限制在末层则引起平均4.1%的性能下滑,证明NAG能捕捉学习目标特征的稀疏"功能主干"。代码已发布于https://github.com/asillycat/NAG。
传统摄影图像编辑通常要求用户具备足够的美学理解能力,才能为调整图像质量和相机参数提供恰当指令。然而,这种范式依赖于人类对美学意图的显式指导,而这对非专业用户而言往往存在表述模糊、指令不完整或难以准确传达的问题。本研究提出SmartPhotoCrafter,一种自动化摄影图像编辑方法,将图像编辑构建为紧密耦合的推理到生成过程。该模型首先通过图像评审模块进行图像质量理解并识别缺陷,随后由摄影艺术家模块实现针对性编辑以提升图像吸引力,从而消除对显式人工指令的依赖。我们采用分阶段训练流程:(一)通过基础预训练建立基本美学理解与编辑能力;(二)通过推理引导的多重编辑监督进行适应性训练,融入丰富语义指导;(三)通过协调式推理到生成强化学习,联合优化推理与生成过程。训练过程中,SmartPhotoCrafter注重照片级真实感图像生成,同时支持图像修复与精修任务,并始终保持对色彩和影调相关语义的一致性遵循。我们还构建了分阶段专用数据集,逐步建立推理与可控生成能力、有效的跨模块协作机制,最终实现高质量的摄影增强效果。实验表明,在自动摄影增强任务中,SmartPhotoCrafter优于现有生成模型,既能实现照片级真实感效果,又对精修指令表现出更高的影调敏感度。项目页面:https://github.com/vivoCameraResearch/SmartPhotoCrafter。
近年来,三维视觉领域的进展催生了针对三维理解(如形状分类、分割、重建)或三维生成(如合成、补全与编辑)的专用模型。然而这些任务往往被孤立处理,导致架构与表征碎片化,阻碍了知识迁移与场景整体建模。为应对这些挑战,我们提出UniMesh——在单一架构内协同学习三维生成与理解的统一框架。首先,我们设计了一种新颖的网格头模块作为跨模型接口,将基于扩散的图像生成与隐式形状解码器相连接。其次,我们开发了网格链技术,通过潜在空间提示与再生成的闭环循环,实现用户驱动的语义网格编辑的迭代推理几何实例化。第三,我们引入基于"执行者-评估者-自省"三元组的自省机制,用于诊断并修正三维描述等高层级任务中的错误。实验结果表明,UniMesh不仅在标准基准测试中达到领先性能,更解锁了迭代编辑及生成与理解相互增强的新能力。代码地址:https://github.com/AIGeeksGroup/UniMesh 项目网站:https://aigeeksgroup.github.io/UniMesh
尽管存在低秩自适应(LoRA)等参数高效方法,大型语言模型(LLM)的微调机制仍存在结构不确定性。由于对内部表征的层级特异性作用认知不足,当前层适配决策多依赖启发式策略。我们将隐藏状态的演化建模为高维几何轨迹,并提出采用拉默-道格拉斯-普克(RDP)算法——一种无需参数且无需训练的多边形简化方法,在保留全局结构跃迁的同时剔除局部冗余变化,以此识别表征路径上的关键转折点。关键创新在于,这些几何枢轴不仅用于分析,更直接作为参数高效微调过程中确定适配层级的决策信号。通过将这种几何感知的层级选择策略集成至Qwen3-8B-Base模型的LoRA微调框架,仅使用RDP算法选定的13个层级即在MMLU-Math数据集上取得81.67%的优异表现,显著优于全36层适配(79.32%)、随机13层选择(75.56%)以及基线模型(74.25%)。结果表明,利用表征轨迹的内在几何特性可为模型适配过程中的层级选择提供鲁棒、可解释且无需训练的优化信号。
多模态大语言模型(MLLM)正日益被用作自动评估工具——这一范式被称为“MLLM即评委”。然而,其可靠性及对偏差的脆弱性仍未得到充分探索。我们发现许多MLLM评委难以可靠地整合关键视觉或文本线索,当证据缺失或失配时会产生不可靠的评估结果,并在语义无关的扰动下表现出不稳定性。针对此问题,我们系统性地定义了MLLM即评委系统中的组合偏差,并提出了用于评估该偏差的基准MM-JudgeBias。该基准通过对查询、图像和响应施加受控扰动,采用偏差偏离度(BD)和偏差一致性(BC)两个互补指标来评估模型行为:前者衡量敏感性,后者评估稳定性。我们从29个源基准中精心筛选并优化了1800余个多模态样本构建数据集,可对跨任务和跨领域的九种偏差类型进行细粒度诊断。对26个前沿MLLM的实验揭示了系统性的模态忽视和不对称评估倾向,凸显了对更可靠评估器的需求。
基于Transformer的点击率(CTR)预测模型通过堆叠更多参数实现规模化时,会带来持续增长的计算与存储开销,导致模型扩展雄心与严苛的工业部署约束之间的鸿沟日益扩大。我们提出LoopCTR模型,引入循环扩展范式,通过共享模型层的递归复用增强训练阶段计算量,实现计算量与参数增长的解耦。该模型采用超连接残差结构和专家混合机制增强的三明治架构,并在每个循环深度实施过程监督,将多循环优势编码至共享参数中。这种"训练多循环-推理零循环"策略使得单次前向传播(无需任何循环)即可超越所有基线模型。在三个公开基准和一个工业数据集上的实验表明,该模型实现了最先进的性能。预言机分析进一步揭示了0.02-0.04 AUC的未开发潜力空间,且训练循环次数较少的模型展现出更高的预言机上界,这为自适应推理指明了富有前景的发展方向。
均匀离散扩散模型(UDM)近期已成为离散生成建模领域的重要范式,但其与强化学习的结合仍鲜有研究。我们发现直接将GRPO应用于UDM会导致训练不稳定且性能提升有限。为此,我们提出\Ours——首个将UDM与强化学习融合的框架。该方法基于两个关键洞见:(1)将最终纯净样本作为动作可提供更精确稳定的优化信号;(2)通过扩散前向过程重构轨迹能使概率路径更好对齐预训练分布。此外,我们引入"降阶采样"和"无分类器引导"策略以进一步提升训练效率。\Ours在多项文生图任务中显著提升基础模型性能:GenEval准确率从69%提升至96%,PickScore从20.46增至23.81,在连续与离散设置下均实现最优性能。在OCR基准测试中,准确率从8%跃升至57%,进一步验证了方法的泛化能力。代码已开源:https://github.com/Yovecent/UDM-GRPO。
当前常见的图像编辑任务通常采用强大的生成式扩散模型作为现实内容编辑的主流范式。与此同时,尽管扩散模型优化策略(如Diffusion-DPO)和流式生成策略优化(如Flow-GRPO)等强化学习方法进一步提升了生成质量,但如何基于人类反馈的强化学习(RLHF)有效应用于扩散式编辑仍存在研究空白——这主要源于缺乏针对多样化编辑需求的可扩展人类偏好数据集及配套框架。为此,我们提出HP-Edit这一面向人类偏好对齐编辑的后训练框架,并发布包含8类常见任务、兼顾通用物体编辑平衡性的RealPref-50K真实场景数据集。具体而言,HP-Edit利用少量人工偏好评分数据与预训练视觉大语言模型(VLM),构建出HP-Scorer自动评估器来实现人类偏好对齐。该评估器既可高效构建大规模偏好数据集,又能作为奖励函数用于编辑模型的后训练。我们还建立了RealPref-Bench真实场景编辑评估基准。大量实验表明,该方法能显著提升Qwen-Image-Edit-2509等模型的性能,使其输出更贴合人类偏好。
密度泛函理论(DFT)是现代计算化学与材料科学的重要基石。然而,由于需要对未知的交换关联(XC)泛函进行近似处理,DFT对实验可测量性质的预测可靠性始终存在根本性局限。传统提升精度的方法依赖于日益复杂的手工构建泛函形式,这种范式长期面临计算效率与精度之间的权衡困境,至今仍无法实现对实验室实验的可靠预测建模。本文提出基于深度学习的Skala交换关联泛函,其在主族化学基准集GMTKN55上以2.8 kcal/mol的误差超越最先进的混合泛函精度,同时保持半局域DFT的低计算成本特性。这种突破历史性精度-效率权衡的关键在于直接从数据中学习电子结构的非局域表示,规避了成本日益高昂的人工设计特征。通过利用波函数方法产生的前所未有的大规模高精度参考数据,我们证实现代深度学习能够随着训练数据集的扩展实现系统性可改进的神经交换关联模型,使第一性原理模拟逐步具备更强的预测能力。
近期研究表明,在进化和代理优化系统中协调大语言模型(LLM)具有广阔前景,然而驱动这些优化增益的内在机制仍不明确。本研究对LLM引导的进化搜索展开大规模分析,收集了15种LLM在8项任务中的优化轨迹。尽管零样本问题解决能力与最终优化结果存在相关性,但其仅能解释部分差异:初始能力相近的模型往往会产生截然不同的搜索轨迹与结果。通过轨迹分析发现,强LLM优化器表现为局部优化器,能持续产生渐进式改进,同时逐步将搜索范围收敛至语义空间的特定区域;而弱优化器则出现显著语义漂移,表现为偶发性突破后陷入停滞。值得注意的是,多种解决方案新颖性指标均无法预测最终性能——只有当搜索过程充分聚焦于解空间的高性能区域时,新颖性才具有积极意义。本研究揭示了轨迹分析对于理解和改进基于LLM的优化系统的重要性,并为其设计与训练提供了可操作的见解。
可解释性工具正日益广泛用于分析大型语言模型(LLM)的故障成因,然而现有研究主要聚焦于短提示词或实验性场景,对其在常用基准测试中的行为模式探索不足。为填补这一空白,我们研究基于LRP的对比归因法,将其作为现实场景下LLM故障分析的实用工具。我们将故障分析定义为对比归因,通过追溯错误输出词元与正确替代项之间的逻辑差值,将其归因于输入词元及模型内部状态,并引入一种高效扩展方法以构建长上下文输入的跨层级归因图谱。基于该框架,我们跨多个基准测试展开系统性实证研究,比较不同数据集、模型规模及训练检查点下的归因模式。研究结果表明,尽管这种词元级对比归因在部分故障案例中能产生信息性信号,但其适用性并非普适,这既揭示了该方法在现实LLM故障分析中的实用性,也凸显了其局限性。相关代码已发布于:https://aka.ms/Debug-XAI。
语言模型在科学发现中的应用日益广泛,包括生成假设、提出候选解决方案、构建系统及迭代优化。这些试错循环的核心在于评估机制——通过验证器、模拟器或任务特定评分函数获取候选方案反馈的过程。尽管已有研究强调评估的重要性,但如何以原则性且有效的方式扩展评估驱动型发现循环以推动科学发现边界的问题尚未被系统阐述,这正是本文要解决的核心问题。我们提出"简易测试时评估驱动扩展框架"(SimpleTES),该通用框架通过策略性整合并行探索、反馈驱动优化与局部选择机制,揭示了沿正确维度扩展评估驱动发现循环所带来的显著增益。在涵盖六大领域的21项科学问题中,SimpleTES基于开源GPT模型发现了尖端解决方案,其表现持续超越前沿模型基线及复杂优化流程。特别值得关注的是,我们实现了广泛使用的LASSO算法2倍以上加速,设计了使量子电路门开销降低24.5%的路由策略,并发现了超越已知最优结果的埃尔德什最小重叠新构造。除新颖发现外,SimpleTES生成的轨迹级历史数据可自然监督反馈驱动学习。当基于成功轨迹进行后训练时,模型不仅能提升已知问题的解决效率,还可泛化至未见问题,发现基础模型无法揭示的解决方案。我们的研究成果确立了评估驱动循环扩展作为推进LLM驱动科学发现的核心路径,并提供了实现这些增益的简洁实用框架。
当前AI智能体框架在自动化独立任务方面取得了显著进展,但所有现有系统都服务于单一用户。人类生产力的基础在于社会与组织关系——人们通过这种关系进行协调、协商和授权。当智能体从为单用户执行任务转向代表用户与他人协作时,跨用户智能体协作的基础设施完全缺失,更不用说保障协作所需的治理机制。我们认为AI智能体的下一个前沿不在于增强个体能力,而在于对人类协作关系的数字化重构。为此,我们提出人机共生智能体范式:每个用户拥有永久绑定的智能体系统,这些系统代表所有者进行协作,形成以人为节点(而非以智能体为节点)的网络。该范式基于三大治理要素:分层身份架构将管理智能体与多个特定场景身份智能体分离,管理智能体掌握全局知识但在架构上隔离于外部通信;范围化授权实施基于身份的动态访问控制,并将越界行为上报所有者;操作级问责机制将所有操作关联到所有者身份与授权凭证,确保完整可审计性。我们在ClawNet中实现了该范式,这个身份治理型智能体协作框架通过中央协调器强制执行身份绑定与授权验证,使多用户能通过各自智能体进行安全协作。
大型视觉语言模型(LVLM)仍面临视觉幻觉问题,即生成内容与视觉输入不一致。现有方法要么依赖大规模标注数据进行微调(导致巨大计算开销),要么采用静态后处理策略(忽略了幻觉产生的动态特性)。为此,我们提出了一种新型自奖励框架,可在无需外部监督的情况下实现推理阶段的动态幻觉抑制。在实证研究中,我们发现视觉幻觉呈现阶段性动态模式,并在各语义阶段起始时达到峰值。基于此发现,我们提出了PSRD(阶段性自奖励解码)方法,通过阶段性自奖励信号实现在线幻觉校正。为降低解码过程中重复自评估的成本,我们将LVLM的幻觉引导信号蒸馏至轻量级奖励模型中。该奖励模型随后在解码过程中提供实时引导,实现精准的幻觉抑制。实验表明,PSRD将LLaVA-1.5-7B的幻觉率显著降低50.0%,并在针对四种LVLM的五项幻觉评估基准中持续优于现有后处理方法。进一步分析证实,PSRD能有效抑制幻觉传播,并在强性能与推理效率之间实现高度可控的平衡。
诸如智能手表和智能眼镜等边缘设备因受限于功耗与算力,甚至无法持续运行最小规模的1亿至10亿参数语言模型,而云端推理又会引入数秒延迟,破坏助手的即时响应体验。我们提出微型语言模型(μLM):这种超紧凑模型(800万至3000万参数)能在设备端即时生成基于上下文的前4-8个词响应,同时由云端模型完成后续内容,从而有效掩盖云端延迟。实验表明,在此极端规模下仍可实现实用语言生成——我们的模型性能可媲美多款现有7000万至2.56亿参数级模型。通过设计协同生成框架,将云端模型重新定义为续写者而非响应者,实现了语句中段的无缝衔接,并采用三种纠错机制在本地开场生成出错时进行结构化优雅恢复。实证结果表明,μLM能够启动由更大模型无缝接续的响应,验证了数量级不对称协同的可行性,为资源极度受限的设备开启了即时AI交互的新可能。模型检查点及演示详见https://github.com/Sensente/micro_language_model_swen_project。
我們研究數值標籤的預測問題,這類標籤被限制為整數或整數的子集。例如社交媒體帖子的點贊數,或公共租賃站點的可用自行車數量。雖然可以將其建模為連續值並應用傳統迴歸方法,但這種做法會將標籤的基礎分佈從離散型轉變為連續型。離散分佈具有特定優勢,這促使我們思考:能否通過離散分佈直接建模此類整數標籤,並根據實例特徵預測分佈參數?此外,我們聚焦神經網絡輸出分佈的應用場景,這要求分佈參數必須連續,以便通過反向傳播和梯度下降學習網絡權重。我們探究了若干符合要求的分佈方案(含既有方法與創新設計),並在表格學習、序列預測和圖像生成等任務中進行驗證。研究發現總體性能最優的分佈有兩種:位分佈(通過比特位表示目標整數並對每位採用伯努利分佈)與拉普拉斯分佈的離散類比(在連續均值周圍採用指數衰減尾部的分佈)。
当前语音到语音翻译系统虽在语义准确性上表现优异,却普遍过滤了传递语用意图的非语言发声(如笑声、哭声),这严重限制了实际应用价值。我们通过三项创新解决该问题:首先提出可扩展的表达性数据集合成流程,以克服数据稀缺限制;其次设计MoVE架构——采用表达性专属适配器的混合LoRA专家模型,通过软加权路由器融合专家能力以捕捉混合表达状态;最后证明预训练音频大模型可实现惊人数据效率:仅需30分钟精选数据即可达成强劲性能。在英汉语音翻译任务中,MoVE在强基线对比下能还原76%的目标非语言发声,获评最高人工标注自然度与情感保真度,而现有系统最多仅保留14%的非语言发声。
去中心化自治组织(DAO)正倾向于采用小型语言模型(SLM)作为边缘原生宪制防火墙,用以审查提案并防范语义社会工程攻击。虽然扩展推理时计算(系统2)能增强形式逻辑能力,但其在高对抗性的加密经济治理环境中的有效性仍待深入探究。为此,我们推出Sentinel-Bench——一个包含840次推理的实证框架,对Qwen-3.5-9B模型执行严格的模型内消融实验。通过控制冻结权重下的潜在推理过程,我们分离出推理时计算在对抗性Optimism DAO数据集上的独立影响。研究结果揭示了严重的计算精度倒挂现象:自回归基线(系统1)在13秒内实现了100%的对抗鲁棒性、100%司法一致性和状态终局性;相反地,系统2推理引发了灾难性不稳定,其根本原因在于26.7%的推理不收敛率(认知崩溃)。这种崩溃使试验间共识稳定性降至72.6%,并产生17倍的延迟开销,为治理可提取价值(GEV)和硬件中心化埋下重大隐患。尽管罕见(仅占对抗试验的1.5%),我们实证捕捉到"推理诱导的谄媚现象"——模型生成超长内部独白(平均25,750字符)以合理化其落入对抗陷阱的失败行为。我们得出结论:对于在拜占庭容错(BFT)约束下运行的边缘原生SLM,系统1的参数化直觉在架构效率与经济性上均优于系统2的迭代审议机制,更适用于去中心化共识场景。 代码与数据集:https://github.com/smarizvi110/sentinel-bench
基于思维链(CoT)的多模态推理模型(MRM)已彻底改变数学与逻辑问题的解决方式。然而,我们发现该范式在广义空间智能方面存在明显不足。通过对17个模型在13项空间基准测试中的全面评估,我们揭示了一个关键缺陷:CoT提示法会持续削弱视觉空间推理的表现。此外,通过创新的无图像++消融实验,我们证明MRM和采用CoT的MLM存在严重的捷径学习问题,即使图像缺失时也会基于文本先验幻觉出视觉细节。这些发现对纯文本CoT在空间任务中的有效性提出质疑,并凸显了构建以视觉为核心的推理范式的必要性。
多模态大语言模型(MLLMs)在视觉语言基准测试中取得了显著进展,但其视觉认知与空间推理能力仍待深入探究。我们推出“心灵之眼”——一个受经典人类智力测试启发、基于新型“A-R-T”分类法(抽象、关系与转换)构建的多选题基准,涵盖八项视觉认知任务。这些任务旨在探究流体智力的核心过程,包括模式归纳、类比关系映射和心理转换等。我们评估了多种闭源与开源MLLMs的表现,并将其与人类参与者进行对比。人类测试者达到80%的准确率,而表现最佳的MLLMs仍低于50%。错误分析揭示出模型存在三大缺陷:(1)视觉注意力分配不足;(2)内部感知操作能力缺失;(3)对底层视觉概念的抽象能力薄弱。研究表明,当前MLLMs在视觉空间推理能力上与人类存在显著差距,这凸显了建立更具认知科学依据的评估框架的必要性。
游戏界面实现需要将风格化设计稿转换为可交互的引擎实体。然而,当前"截图转代码"工具往往难以处理游戏界面典型的非常规几何形状和深层视觉层级结构。为填补这一空白,我们推出SPRITE技术方案——一种将静态截图转化为可编辑引擎资源的流程。通过融合视觉语言模型与结构化YAML中间表示,SPRITE能够精准捕捉复杂的容器关系和非矩形布局。我们在精选的游戏UI基准测试集上评估了SPRITE方案,并邀请专业开发者进行专家评审,以评估其重构保真度和原型制作效率。研究结果表明,SPRITE通过自动化繁琐的编码工作和解析复杂嵌套关系,有效优化了开发流程。通过促进引擎内的快速迭代,SPRITE成功模糊了游戏开发中艺术设计与技术实现之间的界限。项目页面:https://baiyunshu.github.io/sprite.github.io/