每日精选AI研究论文及翻译
近期图像生成与编辑技术的突破为虚拟试穿开辟了新机遇,但现有方法仍难以满足复杂的现实需求。我们推出Tstars-Tryon 1.0——一个具备鲁棒性、真实感、多功能性及高商用效能的虚拟试穿系统。首先,该系统在极端姿态、强烈光照变化、运动模糊等复杂场景下仍保持高成功率;其次,生成结果具有照片级真实感,能精细保留服装纹理、材质属性与结构特征,并显著规避常见AI生成伪影;第三,除服装试穿外,模型支持8大时尚品类、最多6张参考图的灵活多图组合,并实现人物身份与背景的协同控制;第四,通过深度推理优化突破商用延迟瓶颈,实现近乎实时的生成体验。这些能力得益于端到端模型架构、可扩展数据引擎、鲁棒基础设施与多阶段训练范式的系统化整合。大规模评估及产品部署表明,Tstars-Tryon 1.0在整体性能上处于领先地位。为促进后续研究,我们同步发布了完整评估基准。该模型已在淘宝APP实现工业级部署,为数百万用户处理上千万次请求。
合成人-物交互(HOI)视频在电子商务、数字广告和虚拟营销领域具有广泛实用价值。然而,当前扩散模型尽管具备照片级真实感渲染能力,仍存在两大瓶颈:(i) 手部、面部等敏感区域的结构稳定性不足;(ii) 物理合理的接触关系缺失(如避免手-物体相互穿透)。我们提出CoInteract——一个端到端的HOI视频生成框架,支持基于人物参考图像、产品参考图像、文本提示和语音音频的多模态条件输入。该框架在扩散Transformer(DiT)主干网络中嵌入两项互补设计:首先,我们提出人类感知混合专家模型,通过空间监督路由将令牌分配给轻量化的区域专属专家,以最小参数开销提升细粒度结构保真度;其次,我们设计空间结构化协同生成机制,采用双流训练范式联合建模RGB外观流与辅助HOI结构流,以此注入交互几何先验。训练阶段HOI流会对RGB令牌进行注意力交互,其监督信号可正则化共享主干权重;推理阶段则移除HOI分支以实现零开销的RGB生成。实验结果表明,CoInteract在结构稳定性、逻辑一致性和交互真实感方面显著超越现有方法。
语言模型智能体系统通常依赖反应式提示技术,即通过单一指令引导模型执行开放式推理与工具调用序列。这种方式将控制流与中间状态隐式化,可能导致智能体行为难以调控。虽然LangGraph、DSPy、CrewAI等编排框架通过显式工作流定义增强了结构性,但将工作流逻辑与Python代码紧密耦合,使得智能体的维护与修改变得困难。本文提出AgentSPEX(智能体规范与执行语言),该语言具备显式控制流与模块化结构,并配备可定制的智能体运行框架。AgentSPEX支持类型化步骤、分支循环、并行执行、可复用子模块以及显式状态管理,其工作流在提供工具调用、沙盒化虚拟环境、检查点、验证与日志功能的智能体框架中运行。此外,我们开发了具备同步图谱与工作流双视图的可视化编辑器用于流程编排与检查。我们提供了面向深度研究与科学研究的即用型智能体,并在7个基准测试上对AgentSPEX进行评估。最后通过用户研究表明,相较于现有主流智能体框架,AgentSPEX提供了更具可解释性与易用性的工作流编排范式。
稀疏视角三维重建对于从非专业拍摄中建模场景至关重要,但对非生成式重建方法仍具挑战性。现有基于扩散模型的方法通过合成新视图缓解此问题,但通常仅依赖一两帧捕捉画面进行条件生成,这既限制了几何一致性,也制约了其对大规模或多样化场景的扩展能力。我们提出AnyRecon框架,能够从任意无序稀疏输入中实现可扩展重建,在保持显式几何控制的同时支持灵活的条件基数。为实现长程条件建模,本方法通过预置捕捉视图缓存构建持久化全局场景记忆,并取消时序压缩以维持大视角变化下的帧级对应关系。除改进生成模型外,我们还发现生成与重建的交互对大规模三维场景至关重要。因此,我们引入几何感知条件策略,通过显式三维几何记忆和几何驱动的捕捉视图检索,将生成与重建过程耦合。为确保效率,我们结合四步扩散蒸馏与上下文窗口稀疏注意力机制,将二次复杂度降至线性。大量实验表明,该方法在非规则输入、大视角差异及长轨迹场景下均能实现鲁棒且可扩展的重建效果。
测试时训练(TTT)通过在推理阶段基于未标注测试样本自适应调整模型参数,持续拓展离线训练无法企及的能力边界。尽管初期成效显著,现有大型推理模型(LRM)的TTT方法很快会陷入性能平台期,且无法受益于额外的测试时计算资源。由于缺乏外部校准机制,随着策略模型的演化,其自生成奖励信号会逐渐偏离,最终导致性能停滞与多样性坍缩。我们提出TEMPO框架,通过交替执行未标注问题上的策略优化与标注数据集上的评判器周期性重校准,将这一交替过程形式化为期望最大化(EM)算法,揭示出先前方法可被视为缺失关键重校准步骤的不完整变体。重新引入该步骤能够收紧证据下界(ELBO),实现持续性能提升。在多样化模型家族(Qwen3与OLMO3)与推理任务上的实验表明,TEMPO将OLMO3-7B在AIME 2024上的表现从33.0%提升至51.1%,Qwen3-14B从42.3%提升至65.8%,同时保持高度多样性。
大型语言模型(LLMs)在代码生成方面已取得显著成果,但其生成图形用户界面(GUI)应用程序(尤其是游戏)的能力仍未得到充分研究。现有基准主要通过测试用例评估正确性,这种方法对GUI应用而言存在不足,因为这类系统具有交互性、事件驱动特性,且需要在用户操作序列中实现正确的状态转换。因此其评估应关注交互流程和UI逻辑,而非仅关注通过/失败结果。为研究该问题,我们推出PlayEval——一个基于43个多语言Python/TypeScript/JavaScript GUI应用构建的仓库感知基准。与先前难以适配桌面环境的GUI基准不同,PlayEval涵盖六大GUI应用类别,并直接支持代码生成评估。我们进一步提出Play@k指标,用于衡量在k个生成候选方案中是否至少有一个能无逻辑错误地完成端到端运行。为支持可靠评估,我们开发了基于LLM的智能体PlayTester,可执行任务导向的GUI流程测试并自动检测逻辑违规。对10个前沿代码LLM的实验表明,尽管编译通过率较高,但其Play@3得分接近零,暴露出在生成逻辑正确GUI应用方面的重大缺陷。针对此局限,我们提出多智能体仓库感知框架PlayCoder,通过闭环方式生成、评估并迭代修复GUI应用代码。该框架显著提升了开源与闭源模型的功能正确性和语义对齐度,最高可实现38.1%的Exec@3和20.3%的Play@3。案例研究进一步表明,该方法能发现传统指标遗漏的静默逻辑错误,并通过针对性修改实现修复。
参数高效微调(PEFT)通过仅训练少量任务特定参数并冻结预训练主干网络,显著降低了大型语言模型(LLM)全参数微调的训练成本。然而现有方法(如低秩自适应LoRA)通过向独立权重直接插入独立的低秩扰动来实现自适应,导致适配过程呈现局部参数化特性。我们提出ShadowPEPT——一种集中式PEFT框架,通过深度共享的阴影模块实现层级精调。该框架在每层Transformer中维护并行阴影状态,并通过循环演化逐步生成更丰富的隐状态。这一设计将适配机制从分布式权重空间扰动转变为共享的层空间精调过程。由于阴影模块与主干网络解耦,可实现跨层复用、独立预训练,并可选择分离部署模式,特别适用于边缘计算场景。在生成与理解基准测试中,ShadowPEFT在可训练参数量相当的情况下达到或超越了LoRA和DoRA的性能。针对阴影预训练、跨数据集迁移、参数扩展、推理延迟及系统级评估的进一步分析表明,集中式层空间适配是传统低秩PEFT的一种具有竞争力且灵活可扩展的替代方案。
目前,可执行可视化工作流已成为工业实际部署的主流范式,具有高可靠性与强可控性。然而在当前实践中,这类工作流几乎完全通过人工工程构建:开发者需精心设计流程、为每个步骤编写提示词,并随着需求变更反复修改逻辑——导致开发成本高、周期长且易出错。为研究大语言模型能否自动化这一多轮交互过程,我们提出Chat2Workflow基准测试集,支持从自然语言直接生成可执行可视化工作流,并设计了一种鲁棒的智能体框架以缓解循环执行错误。该基准基于大量真实业务工作流构建,每个实例均支持将生成的工作流转译并直接部署至Dify、Coze等实际工作流平台。实验表明,尽管前沿语言模型常能捕捉高层意图,但在生成正确、稳定且可执行的工作流方面仍存在困难,尤其面对复杂或动态变化的需求时。虽然我们的智能体框架将解决率最高提升5.34%,但现实场景中的剩余差距使Chat2Workflow成为推进工业级自动化研究的重要基石。代码已开源:https://github.com/zjunlp/Chat2Workflow。
随着强化学习不断扩展基于大语言模型的智能体训练规模,在复杂环境中可靠验证智能体行为已变得日益困难。现有方法依赖基于规则的验证器或"LLM即裁判"模型,这些方案难以突破狭窄领域的局限。"智能体即裁判"通过主动与环境及工具交互获取可验证证据来应对这一局限,但其能力仍有待深入探索。 我们提出基准测试AJ-Bench,系统化评估"智能体即裁判"在搜索、数据系统和图形用户界面三大领域的表现,包含155项任务和516条标注轨迹。该基准全面评估裁判智能体在信息获取、状态验证和流程验证三方面的能力。实验表明该方法相较"LLM即裁判"基线取得稳定性能提升,同时揭示了基于智能体的验证仍面临重大挑战。数据与代码已开源:https://aj-bench.github.io/。
指令遵循信息检索(IF-IR)研究聚焦于检索系统不仅需要查找与查询相关的文档,还必须遵循用户明确的约束条件,如必要属性、排除项或输出偏好。然而,大多数检索模型主要针对语义相关性进行训练,往往难以区分仅符合主题的文档与满足指令要求的文档。我们提出基于极性反转的双视角数据合成策略:给定查询、符合指令的相关文档以及匹配查询但违反指令的困难负样本,通过提示大语言模型生成互补指令,使两个文档在互补指令下互换相关性标签。通过在同一文档对上呈现能反转其相关性标签的互补指令,训练信号迫使检索模型依据指令重新评估候选集,而非依赖固定的主题线索。在3.05亿参数的编码器上,我们的方法将FollowIR基准测试性能提升45%,超越同等或更大规模的通用嵌入模型。通过匹配数据量下的直接比较,我们进一步证明数据多样性与指令监督具有互补作用:前者保持通用检索质量,后者提升指令敏感性。这些结果凸显了定向数据合成对于构建兼具广谱能力与指令感知的检索系统的重要价值。
语码转换是全球交流中普遍存在的语言现象,然而现代信息检索系统仍主要基于单语环境进行设计与评估。为弥合这一关键鸿沟,我们开展了针对语码转换信息检索的系统性研究。通过人工标注构建的CSR-L(轻量版语码转换检索基准)数据集,真实还原了混合语言查询的自然特性。我们在统计模型、稠密检索和延迟交互三大范式下的实验表明,语码转换构成了基础性性能瓶颈,即使强大多语言模型的检索效能也会因此衰减。研究揭示这种失效源于纯语言文本与语码转换文本在嵌入空间中存在的显著差异。为进一步拓展研究维度,我们提出覆盖11类任务的CS-MTEB综合基准,观察到系统性能最大降幅达27%。最后,我们验证了词汇扩展等标准多语言技术仍无法完全消除这些缺陷。这些发现揭示了现有系统的脆弱性,并将语码转换确立为未来信息检索优化的关键前沿领域。
任务算术为编辑预训练模型提供了一种高效、免训练的方法,但其成功缺乏基础的理论解释。现有“权重解缠”概念描述了任务组合互不干扰的理想结果,却未揭示其根本原因。关键在于,预训练模型(θ₀)或任务向量(τₜ)的何种内在特性促成这种解缠机制仍待探索。本文提出任务特征专化性(TFS)——即模型为不同任务分配差异化内部特征的能力——作为核心原理。我们首先证明TFS是权重解缠的充分条件;更重要的是,发现TFS还会引发可观测的几何结果:权重向量正交性。这确立了TFS作为功能目标(解缠)与可测量几何特性(正交性)的共同成因。该关系为我们的方法提供关键思路:由于抽象的TFS属性难以直接约束,我们可以通过塑造其具体的几何结果(正交性)来促进权重解缠。因此,我们提出OrthoReg,一种简单有效的正则化方法,在微调过程中主动对构成τₜ的权重更新(ΔW)施加内部正交结构,并从理论上证明OrthoReg能促进解缠。大量实验表明,OrthoReg能持续显著提升多种任务算术方法的性能。代码发布于https://github.com/RL-MIND/OrthoReg。
我们致力于解决生成具有空间锚定性的三维一致性可导航环境问题——即对真实场景进行仿真模拟。现有视频生成模型能够根据文本(T2V)或图像(I2V)提示生成符合逻辑的连续序列,但要在任意天气条件和动态物体配置下重建真实世界的能力,对于自动驾驶和机器人仿真等下游应用至关重要。为此,我们提出CityRAG视频生成模型,该模型利用海量地理注册数据作为上下文,将生成内容锚定于物理场景,同时保持对复杂运动与外观变化的先验学习能力。CityRAG基于时间非对齐的训练数据,使模型能够从语义上解耦静态场景与动态属性。实验表明,CityRAG可生成连贯的分钟级物理锚定视频序列,在数千帧画面中保持天气与光照条件一致性,实现路径闭环,并能通过复杂轨迹导航重建真实世界地理环境。
自回归视频扩散模型正成为流式视频合成的前沿范式,其中步数蒸馏是加速推理的主要手段。然而,大语言模型的主流加速策略——推测解码能否有效适配自回归视频生成仍存疑问,因为视频块是连续时空张量,缺乏可供精确拒绝采样的词元级分布。我们提出SDVG框架,通过用图像质量路由器替代词元验证机制,将推测解码引入基于块的自回归视频扩散模型。该框架采用13亿参数的草稿模型通过四步去噪生成候选块,每个块经VAE解码后由ImageReward采用最差帧聚合策略评分(取每帧奖励最小值以捕捉均值掩盖的单帧伪影)。评分超过固定阈值τ的块被存入140亿参数目标模型的KV缓存,其余则由目标模型重新生成。两个关键设计被证明至关重要:首帧块强制拒绝以锚定场景构图,而τ作为单一调控旋钮可勾勒出平滑的质量-速度帕累托边界。在1003个MovieGenVideoBench提示词(832x480分辨率)上的实验表明,当τ=-0.7时,SDVG在加速1.59倍的同时保持目标模型单独生成视觉质量的98.1%(0.0773 vs 0.0788),加速至2.09倍时仍保持95.7%的质量——且始终比纯草稿模型生成质量高出17%以上。该框架无需训练、不改变模型架构,可无缝集成到现有自回归视频生成流程中。
日常任务通常具有特定目标,围绕该目标对模型进行预训练可使其成为领域专家。本文通过提出神经元激活图排序(NAG-based Ranking)框架,研究面向目标的语言模型预训练方法。该框架无需额外训练且具有强可解释性,能够基于目标特征筛选预训练数据。与黑箱表征方法不同,我们的技术直接通过现成大语言模型中一组稀疏的高影响力神经元来刻画目标输入特征。具体而言,我们量化神经元影响力,将各层最具影响力的神经元整合为紧凑的神经元激活图(NAG),并通过计算候选数据与目标示例的NAG相似度进行排序。在六个基准测试上的实验表明,基于NAG的排序方法相比随机采样将目标导向的预训练效果平均提升4.9%,在HellaSwag任务上以5.3%的准确率优势超越现有最优基线。在多目标场景下该方法同样有效,最佳配置分别以1.1%和4.1%的优势超越两个基线模型。此外,我们深入分析了NAG的作用机制:当禁用NAG选中的神经元(仅占总数0.12%)时模型性能骤降23.5%,而将NAG限制在最终层会导致平均性能下降4.1%,证明NAG能捕捉学习目标特征的稀疏"功能主干"。代码已发布于https://github.com/asillycat/NAG。
传统摄影图像编辑通常要求用户具备足够的美学素养,才能为图像质量与相机参数的调整提供恰当指导。然而这种模式依赖于人类对美学意图的明确指示,而这类指示往往存在模糊性、不完整性,或非专业用户难以准确表达。本研究提出SmartPhotoCrafter——一种自动摄影图像编辑方法,将图像编辑构建为紧密耦合的推理到生成过程。该模型首先通过图像评审模块进行图像质量理解与缺陷识别,随后由摄影艺术家模块实现针对性编辑以提升图像吸引力,从而免除显式人工指导。我们采用分阶段训练流程:(一)通过基础预训练建立美学理解与编辑能力;(二)采用推理引导的多重编辑监督进行适应性训练,融入丰富语义指导;(三)通过协同式推理到生成的强化学习,联合优化推理与生成能力。训练过程中,SmartPhotoCrafter在实现照片级真实感图像生成的同时,兼顾图像修复与精修任务,并始终保持对色彩与影调语义的一致性遵循。我们还构建了分阶段专用数据集,逐步强化推理与可控生成能力、促进跨模块高效协作,最终实现高质量的摄影增强效果。实验表明,在自动摄影增强任务中,SmartPhotoCrafter优于现有生成模型,既能实现照片级真实效果,又对精修指令表现出更高的影调敏感度。项目页面:https://github.com/vivoCameraResearch/SmartPhotoCrafter。
近年来,三维视觉领域的进展催生了专注于三维理解(如形状分类、分割、重建)或三维生成(如合成、补全、编辑)的专用模型。然而,这些任务往往被孤立处理,导致架构与表征碎片化,阻碍了知识迁移与场景整体建模。为解决这些问题,我们提出UniMesh——在单一架构内协同学习三维生成与理解的统一框架。首先,我们设计了一种新颖的网格头部作为跨模型接口,将基于扩散的图像生成与隐式形状解码器相连接。其次,我们开发了网格链技术,通过潜在空间提示与再生成的闭环循环,实现用户驱动的语义网格编辑。第三,我们引入基于执行者-评估者-自省三元组的自反思机制,用于诊断并修正三维描述等高级任务中的错误。实验结果表明,UniMesh不仅在标准基准测试中达到领先性能,更解锁了迭代编辑及生成与理解相互增强的新能力。代码地址:https://github.com/AIGeeksGroup/UniMesh 项目网站:https://aigeeksgroup.github.io/UniMesh
尽管存在低秩自适应(LoRA)等参数高效方法,大型语言模型(LLM)的微调机制仍存在结构性认知空白。由于对内部表征的层级特异性作用理解不足,当前适配层选择多依赖启发式策略。我们将隐藏状态的演化建模为高维几何轨迹,并提出采用拉默-道格拉斯-普克算法——一种无需参数且无需训练的多边形简化方法,在保留全局结构跃迁的同时剔除局部冗余变化,以此识别表征路径上的关键转折点。创新性地,我们不仅将这些几何枢轴点用于分析,更将其作为直接决策信号来确定参数高效微调中需要适配的层级。通过将这种几何感知的层级选择策略集成至Qwen3-8B-Base模型的LoRA微调,在仅适配13个RDP选定层的情况下,于MMLU-Math基准测试取得81.67%的优异表现,显著优于全36层适配(79.32%)、随机13层选择(75.56%)及基线模型(74.25%)。这些结果表明,利用表征轨迹的固有几何特性可为模型适配中的层级优化提供鲁棒、可解释且无需训练的信号指导。
多模态大语言模型(MLLM)正日益被用作自动评估工具,这一范式被称为"MLLM即评委"。然而,其可靠性及易受偏见影响的脆弱性仍未得到充分探索。我们发现,许多MLLM评委难以稳定整合关键视觉或文本线索,当证据缺失或不匹配时会产生不可靠的评估结果,并在语义无关干扰下表现出不稳定性。为此,我们系统性地定义了MLLM即评委系统中的组合偏见,并推出评测基准MM-JudgeBias。该基准通过控制查询、图像和响应三个维度的扰动,采用偏差偏离度(BD)和偏差一致度(BC)两个互补指标分别衡量模型敏感度与稳定性。我们从29个源基准中精选并优化了1800余个多模态样本构建数据集,可对跨任务跨领域的九种偏见类型进行细粒度诊断。在26个前沿MLLM上的实验揭示了系统性的模态忽视和不对称评估倾向,凸显了开发更可靠评估工具的迫切性。
基于Transformer的点击率(CTR)预测模型通过堆叠更多参数实现扩展时,会带来持续增长的计算和存储开销,导致模型扩展目标与严苛的工业部署要求之间的差距日益扩大。我们提出LoopCTR模型,引入循环扩展范式:通过共享模型层的递归复用增加训练阶段计算量,实现计算开销与参数增长的解耦。该模型采用超连接残差结构和混合专家机制增强的三明治架构,并在每个循环深度实施过程监督,将多循环优势编码至共享参数中。由此实现"训练多循环-推理零循环"策略,即使不进行任何循环的单次前向传播也能超越所有基线模型。在三个公开基准和一个工业数据集上的实验表明,该方法达到了业界最优性能。潜力分析进一步揭示出0.02-0.04 AUC的未开发提升空间,且训练循环次数较少的模型展现出更高的潜力上限,这为自适应推理指明了富有前景的发展方向。
均匀离散扩散模型(UDM)作为离散生成建模的新兴范式展现出广阔前景,但其与强化学习的结合尚未得到充分探索。我们发现直接将GRPO应用于UDM会导致训练不稳定和性能提升有限。为此,我们提出\Ours——首个将UDM与强化学习融合的框架。该方法基于两个关键洞见:(i)将最终纯净样本作为动作可提供更精确稳定的优化信号;(ii)通过扩散前向过程重构轨迹能使概率路径更好对齐预训练分布。此外,我们引入缩减步数策略和无分类器指导策略以进一步提升训练效率。\Ours在多项文生图任务中显著提升基础模型性能:GenEval准确率从69%提升至96%,PickScore从20.46增至23.81,在连续与离散设置下均达到最优水平。在OCR基准测试中,准确率从8%跃升至57%,进一步验证了方法的泛化能力。代码已开源:https://github.com/Yovecent/UDM-GRPO。
当前主流图像编辑任务普遍采用强大的生成式扩散模型作为真实场景内容编辑的主导范式。与此同时,尽管扩散-DPO、Flow-GRPO等强化学习方法进一步提升了生成质量,但由于缺乏可扩展的人类偏好数据集及适应多样化编辑需求的框架,如何将基于人类反馈的强化学习高效应用于扩散模型编辑领域仍待探索。为填补这一空白,我们提出HP-Edit——一种面向人类偏好对齐编辑的后训练框架,并发布RealPref-50K真实场景数据集,涵盖八大常见任务并兼顾通用对象编辑的平衡性。具体而言,HP-Edit利用少量人工偏好评分数据与预训练视觉大语言模型,开发出自动化的偏好对齐评估器HP-Scorer。该评估器既能高效构建可扩展的偏好数据集,又可作为奖励函数用于编辑模型的后训练。我们还建立了RealPref-Bench基准测试体系,用于评估真实场景下的编辑性能。大量实验表明,我们的方法显著提升了如Qwen-Image-Edit-2509等模型的性能,使其输出结果与人类偏好更紧密对齐。
密度泛函理论(DFT)构成了现代计算化学与材料科学的重要基石。然而,由于需要近似未知的交换关联(XC)泛函,DFT对实验可测量性质的预测可靠性始终存在根本性局限。传统提升精度的范式依赖于日益复杂的手工构建泛函形式,这种方法长期面临计算效率与精度之间的权衡困境,至今仍难以实现对实验室实验的可靠预测建模。本文提出基于深度学习的Skala交换关联泛函,在主族化学基准测试集GMTKN55上以2.8 kcal/mol的误差超越最先进的混合泛函精度,同时保持半局域DFT的低计算成本特性。这种突破历史性精度-效率权衡的关键在于直接从数据中学习电子结构的非局域表示,规避了成本日益高昂的人工设计特征。通过利用波函数方法产生的前所未有的大规模高精度参考数据,我们证实现代深度学习能够随着训练数据集的扩展实现系统可改进的神经交换关联模型,使第一性原理模拟逐步具备更强的预测能力。
近期研究表明,在进化和代理优化系统中协调大语言模型(LLM)具有广阔前景,但驱动这些优化增益的机制仍不明确。本研究对LLM引导的进化搜索进行了大规模分析,收集了15个LLM在8项任务中的优化轨迹。尽管零样本问题解决能力与最终优化结果存在相关性,但其仅能解释部分差异:初始能力相近的模型常产生截然不同的搜索轨迹与结果。通过轨迹分析发现,强LLM优化器表现为局部优化器,能持续产生渐进式改进,同时在语义空间中逐步收敛搜索范围;而弱优化器则出现显著语义漂移,表现为偶发性突破后陷入停滞。值得注意的是,多种解决方案新颖性指标均无法预测最终性能——仅当搜索充分聚焦于解空间的高性能区域时,新颖性才具有积极作用。我们的研究结果凸显了轨迹分析对于理解和改进基于LLM的优化系统的重要性,并为其设计与训练提供了可操作的见解。
可解释性工具正日益广泛用于分析大型语言模型(LLM)的故障成因,然而现有研究多集中于短提示或实验性场景,对其在常用基准测试中的行为模式探索不足。为弥补这一空白,我们研究基于层间相关性传播(LRP)的对比归因法,将其作为现实场景下分析LLM故障的实用工具。我们将故障分析定义为对比归因问题,通过追溯错误输出词元与正确替代词元之间的逻辑差值,将其归因于输入词元及模型内部状态,并引入一种高效扩展方法以构建长上下文输入的跨层归因图谱。基于该框架,我们跨多个基准测试展开系统实证研究,对比不同数据集、模型规模和训练检查点下的归因模式。研究结果表明,尽管词元级对比归因在部分故障案例中能产生有效信号,但其适用性存在局限,这既揭示了该方法在现实LLM故障分析中的实用性,也凸显了其边界条件。代码已开源:https://aka.ms/Debug-XAI。
语言模型正日益广泛地应用于科学发现领域,用于生成假设、提出候选方案、构建系统并实现迭代优化。这些试错循环的核心在于评估机制——通过验证器、模拟器或任务特定评分函数获取候选方案反馈的过程。尽管已有研究强调了评估的重要性,但如何以原则性且有效的方式扩展评估驱动型发现循环以推动科学发现边界的问题尚未得到系统阐述,这正是本文要解决的核心问题。我们提出简单测试时评估驱动扩展框架(SimpleTES),该通用框架通过战略性地结合并行探索、反馈驱动优化与局部选择机制,揭示了沿正确维度扩展评估驱动发现循环所带来的显著增益。在涵盖六个领域的21项科学问题中,SimpleTES使用开源GPT模型发现了最先进的解决方案,其表现持续超越前沿模型基线及复杂优化流程。特别值得关注的是,我们成功将广泛使用的LASSO算法速度提升逾2倍,设计的量子电路布线策略使门开销降低24.5%,并发现了超越已知最佳结果的埃尔德什最小重叠新构造。除新颖发现外,SimpleTES生成的轨迹级历史数据可自然监督反馈驱动学习。基于成功轨迹进行后训练时,模型不仅能提升已见问题的解决效率,还可泛化至未见问题,发现基础模型无法揭示的解决方案。我们的研究成果确立了评估驱动循环扩展作为推进LLM驱动科学发现的核心轴线,并提供了实现这些增益的简洁实用框架。
当前AI智能体框架在自动化独立任务方面取得了显著进展,但所有现有系统都仅服务于单一用户。人类生产力的基础在于社会与组织关系,正是通过这些关系人们进行协调、协商和委派。当智能体从为单用户执行任务转向代表该用户与他人协作时,跨用户智能体协作的基础设施完全缺失,更不用说保障协作所需的治理机制。我们认为AI智能体的下一个前沿并非强化个体能力,而在于对人类协作关系的数字化重构。为此,我们提出人机共生智能体范式:每个用户拥有永久绑定的智能体系统,这些系统代表所有者进行协作,形成以人为节点(而非以智能体为节点)的协作网络。该范式基于三大治理要素:分层身份架构将管理型智能体与多个情境化身份智能体分离,管理型智能体掌握全局知识但在架构上与外部通信隔离;范围化授权实施基于身份的动态访问控制,并将越界行为上报所有者;操作级问责制将所有行为关联至所有者身份与授权记录,确保完整可审计性。我们在ClawNet中实现了该范式——这是一个身份治理型智能体协作框架,通过中央协调器强制实施身份绑定与授权验证,使多用户可通过各自智能体实现安全协作。
大型视觉语言模型(LVLM)仍面临视觉幻觉问题,其生成响应常与视觉输入不一致。现有方法或依赖大规模标注数据进行微调(导致巨大计算开销),或采用静态后处理策略(忽视幻觉产生的动态特性)。为此,我们提出新型自奖励框架,可在无外部监督情况下实现推理阶段的动态幻觉抑制。实证研究表明,视觉幻觉呈现阶段性动态模式,并在各语义阶段起始时达到峰值。基于此发现,我们提出PSRD(阶段性自奖励解码)方法,通过阶段性自奖励信号实现在线幻觉校正。为降低解码过程中重复自评估的成本,我们将LVLM的幻觉引导信号蒸馏至轻量级奖励模型,使其在解码过程中实时提供针对性干预,实现精准幻觉抑制。所提PSRD方法将LLaVA-1.5-7B的幻觉率显著降低50.0%,并在四种LVLM的五个幻觉评估基准上持续超越现有后处理方法。进一步分析证实,PSRD能有效抑制幻觉传播,并在强性能与推理效率之间实现高度可控的平衡。
针对智能手表、智能眼镜等边缘设备因算力与功耗限制难以持续运行百兆至十亿参数级语言模型,而云端推理又因数秒延迟破坏交互响应性的问题,我们提出微型语言模型(μLM)解决方案。这种超紧凑模型(8M-30M参数)可在设备端即时生成基于上下文的4-8词响应首段,由云端模型完成后续内容,从而有效掩盖云端延迟。实验表明,在此极端规模下仍能保持实用语言生成能力,我们的模型性能可媲美多个70M-256M参数级别的现有模型。通过将云端模型重新定义为续写者而非响应者,我们设计了协同生成框架:实现句子中段的无缝交接,并采用三种纠错机制在本地开场生成出错时实现结构化优雅恢复。实证结果显示,μLM能够启动由大模型无缝接续的响应,证明数量级不对称的协同生成具有可行性,为极度资源受限设备开启了实时AI交互新范式。模型检查点及演示见https://github.com/Sensente/micro_language_model_swen_project。
我们研究的是预测整数值或整数子区间数值标签的问题,例如社交媒体帖子的点赞数,或公共租赁站可用自行车数量。虽然可将此类问题建模为连续值并应用传统回归方法,但该做法会将标签的底层分布从离散型转为连续型。离散分布具有特定优势,这引出一个问题:能否通过离散分布直接建模此类整数标签,并基于给定实例的特征预测分布参数?此外,我们聚焦神经网络输出分布的应用场景,这要求分布参数必须连续,以便通过反向传播和梯度下降学习网络权重。我们探究了若干适用于该场景的分布方案(含现有方案与新方案),并在表格学习、序列预测和图像生成等任务中进行了测试。研究发现,总体性能最佳的是两种分布:一种是比特分布(通过比特位表示目标整数并对每位施加伯努利分布),另一种是拉普拉斯分布的离散模拟(采用在连续均值周围呈指数衰减尾部的分布)。
当前语音到语音翻译系统虽在语义准确性上表现优异,却普遍滤除传递语用意图的非语言发声(如笑声、哭泣),这严重限制了实际应用价值。我们通过三项创新解决该问题:首先提出可扩展的情感化数据集合成流程,以克服数据稀缺瓶颈;其次设计MoVE架构——采用混合LoRA专家模型,通过情感专用适配器和软加权路由网络融合专家能力以捕捉复合情感状态;最后证明预训练音频大模型可实现惊人数据效率:仅需30分钟精选数据即可达成强劲性能。在英汉语音翻译任务中,MoVE在强基线对比下能还原76%的目标非语言发声,获评最高自然度与情感保真度,而现有系统最多仅保留14%的非语言发声。
去中心化自治组织(DAO)正倾向于采用小型语言模型(SLM)作为边缘原生的宪制防火墙,用以审查提案并防范语义层面的社会工程攻击。虽然扩展推理时计算(系统2)能增强形式逻辑能力,但其在高对抗性的加密经济治理环境中的有效性尚未得到充分探索。为此,我们推出Sentinel-Bench——一个包含840次推理的实证框架,对Qwen-3.5-9B模型执行严格的模型内消融实验。通过冻结权重下切换潜在推理路径,我们分离出推理时计算在对抗性Optimism DAO数据集上的独立影响。研究结果揭示了严重的计算精度倒挂现象:自回归基线(系统1)在13秒内实现了100%的对抗鲁棒性、100%的司法一致性和状态终局性;相反,系统2推理引发了灾难性不稳定,其根本原因在于26.7%的推理不收敛率(认知崩溃)。这种崩溃使试验间共识稳定性降至72.6%,并产生17倍的延迟开销,为治理可提取价值(GEV)和硬件中心化埋下重大隐患。尽管罕见(仅占对抗试验的1.5%),我们实证捕捉到"推理诱导的谄媚现象":模型为合理化其落入对抗陷阱的失误,生成了显著延长的内部独白(平均25,750字符)。我们得出结论:在拜占庭容错(BFT)约束下运行的边缘原生SLM中,系统1的参数化直觉在架构效率和经济性上均优于系统2的迭代推演机制,更适用于去中心化共识场景。 代码与数据集:https://github.com/smarizvi110/sentinel-bench
基于思维链的多模态推理模型已彻底改变数学与逻辑问题的解决方式。然而,我们发现该范式在广义空间智能方面存在明显局限。通过对17个模型在13项空间基准测试中的综合评估,我们揭示了一个关键缺陷:思维链提示技术会持续削弱视觉空间推理能力。此外,通过创新的无图像++消融实验,我们证明多模态推理模型和经思维链提示的语言模型存在严重的捷径学习问题,即使图像缺失时也会基于文本先验幻觉出视觉细节。这些发现对纯文本思维链在空间任务中的有效性提出质疑,并凸显了构建以视觉为核心的新型推理范式的必要性。
多模态大语言模型(MLLMs)在视觉语言基准测试中取得了显著进展,但其视觉认知与空间推理能力仍待深入探究。我们推出“心灵之眼”——一个受经典人类智力测试启发、基于新型“A-R-T”分类体系(抽象、关系与变换)构建的多选题基准,涵盖八项视觉认知任务。这些任务旨在探究流体智力的核心过程,如模式归纳、类比关系映射和心理转换。我们评估了多种闭源与开源MLLMs,并将其表现与人类参与者对比。人类参与者准确率达到80%,而表现最佳的MLLMs仍低于50%。错误分析揭示了三大失败原因:(i)视觉注意力分配不足,(ii)内部感知操作能力缺失,(iii)对潜在视觉概念的抽象能力薄弱。研究结果表明,与人类相比,当前MLLMs的视觉空间推理能力存在明显局限,这凸显了建立更具认知科学依据的评估框架的必要性。
游戏用户界面的实现需要将风格化设计稿转化为交互式引擎实体。然而当前"截图转代码"工具往往难以处理游戏界面特有的不规则几何形状和深层视觉层级。为弥合这一鸿沟,我们提出SPRITE技术管线,能够将静态截图转换为可编辑的引擎资源。通过融合视觉语言模型与结构化YAML中间表示,SPRITE可精准捕捉复杂容器关系和非矩形布局。我们在精选的游戏UI基准测试中评估了SPRITE系统,并邀请专业开发者进行专家评审以评估重构保真度和原型制作效率。研究结果表明,SPRITE通过自动化繁琐编码和解析复杂嵌套关系,有效提升了开发效率。通过支持快速的引擎内迭代,SPRITE成功模糊了游戏开发中艺术设计与技术实现之间的界限。项目页面:https://baiyunshu.github.io/sprite.github.io/