每日精选AI研究论文及翻译
随着视频理解技术的快速发展,现有基准测试逐渐趋于饱和,暴露出排行榜分数虚高与模型实际能力之间的显著差距。为弥合这一鸿沟,我们推出Video-MME-v2——一个旨在严格评估视频理解鲁棒性与可信度的综合性基准。为系统化评估模型能力,我们设计了渐进式三级评估体系,逐级提升视频理解复杂度:从多点视觉信息聚合,到时序动态建模,最终延伸至复杂多模态推理。与传统每题准确率评估不同,我们提出基于分组的非线性评估策略,既强调相关查询间的一致性,又关注多步推理的连贯性。该策略将惩罚碎片化或猜测性正确回答,仅对具备有效推理支撑的答案给予认可。为确保数据质量,Video-MME-v2通过严格受控的人工标注流程构建,动员12名标注员与50名独立评审员,投入3300人工时并经过多达5轮质量审核,力求成为最具权威性的视频基准之一。大量实验表明,当前最佳模型Gemini-3-Pro与人类专家存在显著差距,并揭示出清晰的层级瓶颈:视觉信息聚合与时序建模的误差会传导至高层推理环节。我们还发现思维型推理高度依赖文本线索,字幕能提升性能但在纯视觉场景下可能适得其反。通过暴露这些局限,Video-MME-v2为下一代视频多模态大模型的研发建立了严苛的新测试标准。
大型语言模型正越来越多地作为自主代理,在现实软件环境中执行多步骤工作流。然而,现有智能体基准测试存在三个关键局限:(1)仅检查最终输出的轨迹不透明评分机制;(2)安全性及鲁棒性评估规范不足;(3)模态覆盖与交互范式单一。我们推出端到端评估套件Claw-Eval,通过三大创新解决上述缺陷:该套件包含经人工核验的300项任务,覆盖通用服务编排、多模态感知生成、多轮专业对话三大类共9个领域;通过执行轨迹、审计日志、环境快照三条独立证据链记录每个代理动作,实现基于2159个细粒度评分项的全轨迹评估;评分协议从完成度、安全性、鲁棒性三维度出发,采用平均分、Pass@k和Pass^k三项指标经三次试验统计,有效区分真实能力与偶然成功。对14个前沿模型的实验表明:(1)轨迹不透明评估系统性不可靠,会遗漏混合管道捕获的44%安全违规和13%鲁棒性故障;(2)受控错误注入主要影响稳定性而非峰值能力,Pass^3最多下降24%而Pass@3保持稳定;(3)多模态性能差异显著,多数模型视频处理弱于文档/图像,且无单一模型在所有模态领先。除基准测试外,Claw-Eval为智能体发展指明实践方向,揭示了构建既具备强大能力又值得信赖的可部署代理的关键路径。
传统信息检索系统主要面向人类用户设计训练,其学习排序方法严重依赖点击停留时长等大规模人机交互日志。然而随着大语言模型驱动的搜索智能体迅速崛起,检索过程正日益由智能体而非人类主导,并作为核心组件嵌入多轮推理与行动循环中。在此背景下,基于人类中心假设训练的检索模型与智能体发起查询和消化结果的方式存在根本性错位。本研究提出,面向智能体搜索的检索模型应直接基于智能体交互数据进行训练。我们开创了"从智能体轨迹学习检索"的新范式,其监督信号源自多步骤的智能体交互行为。通过对搜索智能体轨迹的系统分析,我们识别出揭示文档效用的关键行为信号,包括浏览动作、未浏览拒绝行为以及浏览后推理轨迹。基于这些发现,我们提出LRAT框架——通过加权优化融入相关性强度的简易高效方案,可从智能体轨迹中挖掘高质量检索监督信号。在领域内与领域外深度研究基准上的大量实验表明,经LRAT训练的检索模型能持续提升证据召回率、端到端任务成功率及执行效率,且适用于不同架构与规模的智能体。我们的研究成果证实智能体轨迹可作为实用且可扩展的监督源,为智能体搜索时代的检索技术指明了富有前景的发展方向。
利用LLM生成的测试来筛选LLM生成的代码候选方案具有挑战性,因为测试本身可能存在错误。现有方法要么对所有测试一视同仁,要么依赖临时启发式规则过滤不可靠测试。然而判断测试正确性需要预先知道哪些代码是正确的,这形成了循环依赖。我们的核心洞见在于:无需判定测试正确性,测试投票应当用于排序而非简单计数。关键不在于有多少代码能通过测试,而在于测试能否区分正确与错误代码。我们通过留一评估打破循环依赖:保留一个测试,根据代码在剩余测试中的综合得分进行排序,并评估被保留测试的通过/失败模式是否与该排序一致。我们将这种一致性形式化为留一法AUC(LOO-AUC),并证明其期望值与每个测试区分正确/错误代码的能力成正比。基于此,我们提出ACES(AUC一致性评分)的两种互补变体:ACES-C在平均测试质量满足温和假设时,提供闭式权重以可证明地逼近理论最优值;ACES-O摒弃该假设,通过迭代优化可微分的LOO-AUC目标函数。两种方法仅需二进制通过矩阵即可运行且计算开销可忽略,在多个代码生成基准测试中实现了最先进的Pass@k指标。
在现代软件开发中,自主发现程序错误仍是一项重大挑战。与代码生成相比,动态运行时环境的复杂性使得大型语言模型(LLM)在错误发现方面面临更大困难。本文以游戏开发为代表性领域,推出游戏质量保障基准(GBQA),该基准包含30款游戏和124个经人工验证的错误,分为三个难度等级,用于评估LLM能否自主检测软件错误。该基准通过多智能体系统以可扩展的方式开发游戏并注入错误,并由领域专家参与循环验证以确保正确性。此外,我们提供了配备多轮ReAct循环与记忆机制的交互式基线智能体,使其能够对游戏环境进行长程探索以实现跨LLM的错误检测。基于前沿LLM的大规模实验表明,自主错误发现仍极具挑战性:表现最佳的Claude-4.6-Opus思维模式仅能识别48.39%的已验证错误。我们相信GBQA提供了充分的测试平台与评估标准,其进一步突破将有助于缩小自主软件工程领域的现有差距。
我们提出ThinkTwice——一个基于群体相对策略优化(GRPO)的简易双阶段框架,通过联合优化大语言模型来解决推理问题并精炼答案。在每对训练步骤中,ThinkTwice首先优化模型解决推理问题的能力,随后针对同一问题集优化其自我答案精炼能力,两个阶段均使用相同的二元正确性奖励,且无需正确性信号或批判性标注。在涵盖五个数学推理基准测试及Qwen3-4B、Olmo3-7B两大模型系列的实验中,ThinkTwice在推理和精炼性能上均显著优于竞争性在线策略优化基线方法。具体而言,在Qwen3-4B模型上,ThinkTwice在AIME基准的pass@4指标上较GRPO方法提升5个百分点(精炼前),经过一次自我精炼后优势扩大至11.5个百分点。对ThinkTwice训练动态的分析揭示出一种隐式的“纠错-强化”课程机制:训练早期精炼过程主要修正错误,随着模型能力提升,会自然转向保持已正确解的完整性,从而产生更纯净的奖励信号。本研究确立了推理与自我精炼的联合训练作为强化学习与价值对齐(RLVR)的一种原则性高效方法论。
我们提出Vanast,这是一个统一框架,能够直接从单张人物图像、服装图像和姿态引导视频生成服装迁移的人类动画视频。传统的两阶段流程将基于图像的虚拟试穿和姿态驱动动画视为独立过程,这往往导致身份特征漂移、服装形变和前后不一致等问题。我们的模型通过单步统一完成整个流程来实现连贯合成,从而解决这些难题。为实现这一目标,我们构建了大规模三元组监督数据。我们的数据生成流程包括:生成与服装目录图像不同的替代着装的身份保持人物图像,采集完整上下装三元组以突破单服装-姿态视频对的限制,以及无需服装目录图像即可组装多样化的真实场景三元组。我们进一步引入了视频扩散变换器的双模块架构,该架构能稳定训练过程、保持预训练生成质量,并提升服装准确性、姿态遵循度和身份保持能力,同时支持零样本服装插值。这些创新共同使Vanast能够跨多种服装类型生成高保真、身份一致的运动视频。
在实际工具集成推理(TIR)场景中,大型语言模型需交替进行推理与外部工具调用,其效率低下的主要根源在于工具调用会导致LLM请求间出现停顿并引发KV缓存清空,从而迫使模型重新计算。此外,外部工具返回的冗长未过滤响应会膨胀KV缓存,使得每个解码步骤需花费更多时间加载不断增长的缓存,从而随着上下文长度增加持续减速。然而,现有效率指标(如令牌计数和工具调用次数)均无法真实反映模型推理延迟。为此,我们提出PTE(预填充令牌当量)——一种硬件感知的TIR效率度量标准,该指标通过显式考量不可复用KV缓存和长工具响应场景,将内部推理与外部工具使用成本统一量化。在高并发工业环境下的验证表明,PTE与实时延迟的吻合度显著优于标准令牌计数,且能在不同硬件配置下保持一致的效率排序。我们基于五大TIR基准开展大量实验,量化其PTE成本,并识别出TIR中存在的四类低效模式。同时发现PTE成本越高的推理轨迹往往正确率越低,这表明单纯增加工具使用量并不能提升答案质量。
我们推出MegaTrain——一种以内存为中心的系统,可在单GPU上以全精度高效训练参数量超过1000亿的大语言模型。与传统以GPU为中心的系统不同,MegaTrain将参数和优化器状态存储在主机内存(CPU内存)中,将GPU视为瞬时计算引擎。针对每个网络层,我们采用流式传输参数输入并计算梯度输出的方式,最大限度减少设备上的持久状态。为突破CPU-GPU带宽瓶颈,我们采用两项关键优化技术:1)引入流水线双缓冲执行引擎,通过多CUDA流实现参数预取、计算和梯度卸载的重叠执行,确保GPU持续运算;2)用无状态层模板替代持久自动求导图,在参数流入时动态绑定权重,既消除持久图元数据,又提供调度灵活性。在配备1.5TB主机内存的单个H200 GPU上,MegaTrain可稳定训练高达1200亿参数的模型。在训练140亿参数模型时,其训练吞吐量达到DeepSpeed ZeRO-3结合CPU卸载方案的1.84倍。该系统还支持在单个GH200上训练70亿参数模型并处理512k标记的上下文长度。
视觉语言模型(VLMs)能否全面理解视觉、时序与文本线索至关重要。然而尽管多模态建模进展迅速,视频理解性能仍落后于基于文本的推理。本研究发现,实际进展比既往认知更为滞后:常用长视频理解基准中40-60%的问题仅通过文本线索即可作答。此外,我们发现该问题在广泛使用的后训练数据集中普遍存在,这可能削弱后训练提升VLM视频理解能力的效能。基于此发现,我们提出VidGround这一简洁有效的解决方案:在后训练中仅使用真正需要视觉定位的问题,完全排除语言偏差。当与基于强化学习的后训练算法结合时,此方法仅需原后训练数据量的69.1%,即可实现比完整数据集高6.2个百分点的性能提升。更重要的是,我们证明采用简单后训练算法的数据优化策略可超越多种复杂后训练技术,凸显数据质量是提升VLM视频理解能力的主要瓶颈。这些结果强调,必须构建真正需要视觉定位的后训练数据与评估基准,才能推动更强VLMs的发展。项目页面:http://vidground.etuagi.com。
智能体技能作为可复用的领域特定知识单元,已成为扩展基于大语言模型智能体的主流机制,然而对其使用性能的系统性基准测试仍较为缺乏。现有技能评估研究多聚焦于过度理想化的场景:直接为每个任务提供手工定制的高度匹配技能。而实际应用中,智能体常需自主从海量技能库中检索筛选合适技能,且即使最接近的技能也可能与任务需求存在偏差。本文首次在渐进式挑战性现实场景下系统研究技能效用——要求智能体从包含3.4万个真实世界技能的大型库中自主检索,且不提供任何人工筛选技能。研究发现技能优势具有脆弱性:随着场景趋近现实,性能增益持续衰减,在最挑战性场景中通过率接近无技能基线。为缩小该差距,我们探索了包括查询相关与查询无关两种技能优化策略,证明当初始技能具备合理相关性与质量时,查询特异性优化可显著恢复性能损失。在Terminal-Bench 2.0上的进一步实验表明,检索优化策略将Claude Opus 4.6的通过率从57.7%提升至65.5%。跨模型一致性结果既揭示了技能机制的潜力,也凸显出现有局限性。代码已开源:https://github.com/UCSB-NLP-Chang/Skill-Usage。
科学文献的快速增长使得研究人员难以高效地发现、评估与整合相关研究成果。多智能体大语言模型的最新进展在理解用户意图方面展现出强大潜力,并正被训练以运用多种工具。本文提出Paper Circle——一个旨在降低学术文献查找、评估、整理及理解成本的多智能体研究发现与分析系统。该系统包含两条互补的流程链:(1)发现流程链,整合多源离线与在线检索、多标准评分、多样性感知排序及结构化输出;(2)分析流程链,将单篇论文转化为包含概念、方法、实验、图表等类型化节点的结构化知识图谱,支持基于图谱的智能问答与覆盖度验证。两条流程链均基于编码器LLM的多智能体协同框架实现,并在每个智能体步骤生成完全可复现的同步输出(包括JSON、CSV、BibTeX、Markdown和HTML格式)。本文详细阐述了系统架构、智能体角色、检索与评分方法、知识图谱模式及评估界面,这些要素共同构成了Paper Circle的研究工作流。我们在文献检索和论文综述生成任务上对系统进行基准测试,汇报了命中率、平均倒数排名和K值召回率等指标。实验结果表明,采用更强智能体模型能带来持续性能提升。我们已公开系统网站(https://papercircle.vercel.app/)与源代码(https://github.com/MAXNORM8650/papercircle)。
进化是产生酶多样性的非凡引擎,但其探索的化学反应范围仍远小于DNA所能编码的潜力。深度生成模型虽能设计结合配体的新蛋白质,但尚未实现不预设催化残基的酶创制。我们提出DISCO(基于扩散的序列结构协同设计模型),这种多模态模型能够围绕任意生物分子协同设计蛋白质序列与三维结构,并采用跨模态优化的推理时缩放方法。仅以反应中间体为条件,DISCO即可设计出具有新颖活性位点几何结构的多样化血红素酶。这些酶能催化自然界未曾报道的卡宾转移反应,包括烯烃环丙烷化、螺环丙烷化、B-H键及C(sp³)-H键插入等,其活性远超人工改造的天然酶。对选定设计的随机突变实验进一步证实,通过定向进化可提升酶活性。DISCO为可进化酶提供了可扩展的设计路径,从而拓宽了基因可编码转化的潜在边界。代码详见https://github.com/DISCO-design/DISCO。
扩散大语言模型(dLLMs)正逐渐成为主流自回归模型的有力替代方案,其通过迭代去噪和并行生成机制取代了严格的序列化标记生成。然而,当前开源生态在模型家族间存在割裂,特别是在后训练流程中,强化学习目标、推演实现和评估脚本往往以论文专用代码库形式发布。这种碎片化现象拖慢了研究迭代速度,增加了复现的工程负担,并导致算法间公平比较困难。我们提出DARE(dLLMs对齐与强化执行器),一个面向dLLMs后训练与评估的开放框架。基于verl~sheng2024hybridflow和OpenCompass~2023opencompass构建的DARE,将监督微调、参数高效微调、偏好优化以及dLLMs专属强化学习统一整合至适用于掩码与块扩散语言模型的共享执行栈中。在涵盖LLaDA、Dream、SDAR和LLaDA2.x等代表性模型家族的测试中,DARE展现出广泛的算法兼容性、可复现的基准评估及实际加速效果。大量实证结果表明,DARE可作为可复用的研究基底,用于开发和比较当前及新兴dLLMs的后训练方法,并推动其实际部署。
大型语言模型(LLM)智能体正被日益广泛地应用于自动化生产力任务(如邮件处理、日程安排、文档管理),但在真实服务环境中评估其性能存在风险,因其可能造成不可逆的变更。现有基准测试依赖简化环境,无法捕捉真实场景中具有状态管理的多服务工作流。我们推出ClawsBench基准测试平台,用于在真实生产力场景中评估和改进LLM智能体。该平台包含五个高保真模拟服务(Gmail、Slack、Google日历、Google文档、Google云端硬盘),具备完整的状态管理和确定性快照/恢复功能,并提供44项涵盖单服务、跨服务及安全关键场景的结构化任务。我们将智能体框架分解为两个独立控制维度(通过渐进式披露注入API知识的领域技能,以及协调跨服务行为的元提示),并通过调整这两个维度来测量其独立及协同效应。在6种模型、4种智能体框架和33种条件下的实验表明:配备完整框架的智能体任务达成率为39%-64%,但存在7%-33%的不安全操作率。在OpenClaw测试中,前五名模型的任务达成率集中在10个百分点区间(53%-63%),不安全操作率介于7%至23%,且两项指标未呈现稳定关联性。我们识别出八类不安全行为模式,包括多步骤沙箱权限提升和静默合约修改等。
传统的“先训练后部署”静态范式从根本上限制了大型语言模型根据现实任务中持续信息流动态调整权重的能力。测试时训练通过在前向推理阶段更新模型部分参数(快速权重)提供了创新解决方案,但该方法在当前LLM生态中的应用仍面临架构不兼容、计算效率低下以及与语言建模目标不匹配等关键障碍。本研究提出原位测试时训练框架,通过将普遍存在的MLP模块中的最终投影矩阵作为可调快速权重,无需从头进行昂贵重训练即可实现“即插即用”的模型增强。我们进一步将传统重建目标替换为与自回归语言建模核心任务——下一词预测对齐的理论化目标,结合基于文本块的高效更新机制,形成了支持上下文并行的高扩展性算法。大量实验验证了框架有效性:作为原位增强方案,它使40亿参数模型在12.8万长度上下文任务中表现卓越;当从头预训练时,其性能持续超越主流测试时训练方法。消融实验结果进一步揭示了设计决策的内在机理。这些成果共同标志着原位测试时训练向LLM持续学习新范式迈出了重要一步。
网络剪枝通过移除不重要的参数或架构,常被期望在保持性能的同时提升效率。然而这种预期在语言任务中并不总成立:剪枝后的模型在非生成任务上表现良好,但在生成场景中往往失效。为理解这种差异,我们从表征层级视角分析网络剪枝,将语言模型的内部计算分解为三个连续空间:嵌入空间(隐藏表征)、逻辑值空间(Softmax前输出)和概率空间(Softmax后分布)。研究发现,嵌入空间和逻辑值空间的表征对剪枝引起的扰动具有较强鲁棒性,但从逻辑值到概率的非线性变换会放大这些偏差,这些偏差随时间步累积最终导致生成性能显著下降。相比之下,分类标记概率子空间的稳定性与嵌入空间的鲁棒性共同支撑了剪枝在检索、多项选择等非生成任务中的有效性。我们的分析揭示了剪枝在不同任务中的差异化影响,并为其实际应用提供了指导。代码已开源:https://github.com/CASE-Lab-UMD/Pruning-on-Representations
我们推出MedGemma系列最新模型——MedGemma 1.5 4B。该版本在MedGemma 1基础上新增四大核心能力:高维医学影像(CT/MRI三维数据与病理全切片图像)、基于边界框的解剖定位、多时间点胸片分析以及增强的医疗文档理解能力(检验报告、电子健康记录)。我们详细阐述了在单一架构中实现多模态融合的技术创新,包括新型训练数据、长上下文三维体积切片技术和全切片病理采样方案。相较于MedGemma 1 4B,新版模型在新领域实现显著提升:3D MRI疾病分类准确率提升11%,3D CT疾病分类准确率提升3%(绝对增益);全切片病理影像分析中宏观F1分数提升47%。在胸片解剖定位任务中,交并比指标提升35%,多时间点胸片分析的宏观准确率达4%。除多模态能力增强外,MedGemma 1.5在临床知识推理方面也有突破:MedQA准确率提升5%,EHRQA准确率提升22%,在四个检验报告信息抽取数据集(EHR数据集2/3/4及Mendeley临床检验报告)上平均宏观F1分数达18%。综上所述,MedGemma 1.5作为社区开放的稳健资源,为开发者构建新一代医疗AI系统提供了增强基础平台。相关开发资源与教程详见https://goo.gle/MedGemma。
世界行动模型(WAMs)作为机器人策略学习的新兴方向,能够利用强大的视频骨干网络对未来状态进行建模。然而,现有方法通常依赖独立的行为模块,或采用非像素基础的行为表征,这既难以充分挖掘视频模型的预训练知识,也限制了跨视角与跨环境的迁移能力。本研究提出"行动图像"这一统一的世界行动模型,将策略学习构建为多视角视频生成任务。不同于将控制指令编码为低维标记,我们将7自由度机器人动作转化为可解释的行动图像:这种基于二维像素的多视角行动视频能显式追踪机械臂运动轨迹。这种像素基础的行为表征使得视频骨干网络本身即可作为零样本策略,无需额外的策略头或行为模块。除控制功能外,该统一模型还支持视频-行为联合生成、行为条件视频生成以及基于共享表征的行为标注任务。在RLBench仿真平台和真实环境测试中,我们的模型实现了最优的零样本成功率,并在视频-行为联合生成质量上超越先前的视频空间世界模型,表明可解释的行动图像是策略学习的一条有效路径。
多模态大语言模型虽已成功应用于多模态嵌入任务,但其生成式推理能力仍未得到充分利用。将思维链推理直接引入嵌入学习会面临两个根本性挑战:首先,实例级推理与 pairwise 对比监督的结构性错位可能导致模型产生捷径行为,仅学会推理的表面形式;其次,推理并非对所有嵌入任务都有益,强制所有输入进行推理不仅会带来不必要的计算开销和延迟,甚至可能掩盖简单案例中的显著语义信号。针对这些问题,我们提出MMEmb-R1——一种基于自适应推理的多模态嵌入框架。我们将推理建模为隐变量,并引入面向样本对的推理选择机制,通过反事实干预识别有益于查询-目标对齐的推理路径。此外,采用强化学习技术实现按需触发推理。在MMEB-V2基准测试中,我们的模型仅用40亿参数就取得了71.2分的成绩,在显著降低推理开销和推断延迟的同时,创造了新的性能纪录。
在复杂游戏环境中运行的多模态大语言模型智能体需持续复用过往经验以高效解决新任务。本研究提出Echo——一种面向迁移的记忆框架,使智能体能够从先验交互中提炼可操作知识,而非将记忆视为静态记录的被动存储库。为实现显式迁移,Echo将可复用知识解构为五个维度:结构、属性、过程、功能与交互。该框架使智能体能够识别跨任务共享的重复模式,并推断哪些先验经验适用于新情境。基于此框架,Echo利用情境类比学习技术检索相关经验,通过上下文示例将其适配至未知任务。在《我的世界》环境中的实验表明,在从零开始学习设定下,Echo在物体解锁任务上实现1.3至1.7倍的加速效果。此外,Echo展现出爆发式链式解锁现象——在获得可迁移经验后的短时间内快速解锁多个相似物品。这些结果表明,经验迁移是提升多模态大语言模型智能体在复杂交互环境中效率与适应性的有效路径。
机器学习领域的同行评审正面临投稿量激增与评审时间有限的双重压力。当前多数基于大语言模型的评审系统仅阅读稿件本身,从论文的自我陈述中生成意见。这种做法使其输出易受论文表述质量影响,且当评审所需证据存在于相关研究或开源代码时显得力不从心。我们提出FactReview——一个基于证据的评审系统,融合了主张提取、文献定位和基于执行的验证三大模块。该系统能够识别投稿论文的核心主张与报告结果,通过检索相关研究明确其技术定位,并在代码可用时通过有限资源执行开源库以验证关键实证主张。最终生成包含五级证据标签(完全支持、论文自证、部分支持、存在冲突、证据不足)的简明评审报告与证据清单。以CompGCN的案例研究为例,FactReview在链接预测和节点分类任务中成功复现了与论文高度吻合的结果,但同时发现论文关于跨任务性能的广义主张未能完全成立:在MUTAG图分类任务中,复现结果为88.4%,而论文报告的最强基线仍保持92.6%。该主张因此被判定为部分支持。更广泛而言,这一案例表明人工智能在同行评审中的最大价值并非充当最终决策者,而是作为证据收集工具,帮助评审者做出更基于实证的评估。代码已开源:https://github.com/DEFENSE-SEU/Review-Assistant。
编程智能体在处理工具输出时,往往需要反复读取冗长的观察结果,而实际上每个输出中仅有少量信息对下一步操作至关重要。我们研究任务导向型工具输出剪枝技术:针对特定查询和工具输出,返回智能体下一步需检查的最小原文证据块。基于SWE-bench仓库交互记录和跨生态系统的合成工具输出,我们构建了包含11,477个样本的基准数据集,其中包含人工标注的618个测试样本。通过LoRA微调Qwen 3.5 2B模型,并将其与大型零样本模型及启发式剪枝基线进行对比。实验表明,我们的模型在去除92%输入词元的同时,实现了0.86的召回率和0.80的F1值,较零样本Qwen 3.5 35B A3B模型召回率提升11个百分点,且显著优于所有启发式基线方法。
大型语言模型(LLMs)在程序修复任务中表现出色,但常存在过度编辑问题——过度修改会覆盖正确代码并阻碍错误定位。我们系统量化了该问题的影响,提出精准修复任务,其核心是在修复错误代码的同时最大化保留正确代码。基于此,我们开发了PRepair框架以缓解过度编辑并提升修复精度。PRepair包含两个组件:Self-Breaking通过可控错误注入和极小极大采样生成多样化错误程序;Self-Repairing采用具备编辑感知奖励的EA-GRPO优化策略(Edit-Aware Group Relative Policy Optimization)训练模型,激励最小化且正确的修改。实验表明,PRepair在综合考量修复正确性与修改范围的fix_1@1指标下将修复精度最高提升31.4%,结合推测编辑技术后显著提升解码吞吐量,展现了精准实用化代码修复的潜力。
图形程序合成技术对于解析和编辑视觉数据具有关键作用,能有效实现静态图像到可编辑TikZ代码的逆向工程。尽管TikZ因其编程灵活性成为科学示意图的事实标准,但其对空间精度的严苛要求对多模态大语言模型构成重大挑战。当前进展主要受限于两大瓶颈:(1)数据质量缺口:现有图像-TikZ语料库普遍缺乏严格可执行性与可靠视觉对齐;(2)评估体系缺口:缺乏同时衡量结构保真度与视觉保真度的基准。为此,我们提出闭环解决方案:首先推出SciTikZ-230K——通过我们自主研发的执行中心化数据引擎构建的大规模高质量数据集,覆盖11个跨学科领域;其次建立SciTikZ-Bench多维度基准,从基础几何构造到复杂层次化示意图全面评估视觉保真与结构逻辑。为拓展视觉代码优化方法边界,我们创新提出双重自洽强化学习优化范式,通过往返验证机制惩罚退化代码并提升整体自洽性。基于上述突破,我们训练的SciTikZer-8B模型实现最先进性能,在多项测试中持续超越Gemini-2.5-Pro等专有巨头模型及Qwen3-VL-235B-A22B-Instruct等超大规模模型。
大型语言模型(LLMs)在模拟人类行为方面展现出潜力,但现有智能体常表现出行为僵化问题,这一缺陷常被当前"以LLM为评判者"的自我指涉式评估偏差所掩盖。通过基于实证基准的评估,我们揭示了一个反直觉现象:增强提示驱动的推理强度不仅无法提升行为拟真度,反而会加剧价值极化,导致群体多样性崩塌。为解决此问题,我们提出基于刺激-机体-反应(S-O-R)模型和施瓦茨基本人类价值理论的语境-价值-行动(CVA)架构。与依赖自我验证的方法不同,CVA通过基于真实人类数据训练的新型价值验证器,将行动生成与认知推理解耦,显式建模动态价值激活机制。在包含110余万条真实交互轨迹的CVABench上的实验表明,CVA显著优于基线方法。我们的方法在有效缓解价值极化的同时,提供了更优的行为拟真度与可解释性。
专家混合架构(MoE)的大型语言模型是当前性能最优的模型体系之一。参数量达数千亿的最大规模模型在部署时面临显著的内存挑战。传统降低内存需求的方法包括权重剪枝和量化。受路由加权专家激活剪枝(REAP)方法的启发,我们提出了一种创新技术——路由加权专家激活合并(REAM)。该方法不再移除专家模块,而是对其进行分组并合并权重,从而更好地保持原始性能。我们在多种MoE大语言模型上,通过多样化选择题问答和生成式评测基准,将REAM与REAP及其他基线方法进行对比。研究结果揭示了模型性能在选择题与生成任务之间存在权衡关系,且这种关系取决于校准数据的构成比例。通过调控通用文本、数学和代码数据的混合比例,我们考察了该权衡的帕累托边界,结果表明REAM在多方面超越基线方法,且在多数情况下性能可与未压缩的原始模型相媲美。
随着语言模型从单次答案生成转向在推理过程中检索并利用证据的多步推理,评估单个检索项的作用变得愈发重要。现有的RAG评估通常关注最终答案质量、引证忠实度或答案级归因,但均未直接针对本文研究的基于干预的逐项证据效用视角。我们提出CUE-R——一个基于轻量级干预的框架,通过浅层可观测的检索使用轨迹来测量单次RAG中逐项证据的操作效用。CUE-R通过移除、替换和复制操作符对单个证据项进行扰动,随后沿三个效用维度(正确性、基于代理的接地忠实度、置信度误差)及轨迹差异信号测量变化。我们还构建了操作型证据角色分类法以解读干预结果。在HotpotQA和2WikiMultihopQA数据集上使用Qwen-3 8B和GPT-5.2的实验显示一致规律:移除和替换操作会显著损害正确性与接地性,同时引发大幅轨迹偏移;而复制操作虽常呈现答案冗余性,却未完全保持行为中性。零检索对照实验证实这些效应源于有效检索的退化。双支持项消融实验进一步表明多跳证据项可能产生非叠加式交互:同时移除两项支持造成的性能损失远超过单独移除任一项目。我们的结果表明,仅评估答案会遗漏重要证据效应,而基于干预的效用分析可作为RAG评估的有效补充手段。
由于四维功能磁共振成像(fMRI)信号的高维特性,对其长程时空动态进行建模始终是核心挑战。现有的基于体素的模型虽展现出优异的性能与可解释性,但受限于巨大的内存需求,仅能捕捉有限时间窗口内的信息。为此,我们提出TABLeT(二维自编码脑潜空间变换器),通过预训练的二维自然图像自编码器对fMRI体积数据进行标记化处理,将每个三维fMRI体积压缩为紧凑的连续标记集合。该方法可在有限显存条件下,利用简易的Transformer编码器实现长序列建模。在英国生物样本库(UKB)、人类连接组计划(HCP)及ADHD-200等大规模基准测试中,TABLeT在多项任务上超越现有模型,并在相同输入条件下较当前最先进的基于体素方法显著提升计算与内存效率。此外,我们开发了基于掩码标记建模的自监督预训练策略,进一步提升模型在下游任务中的表现。本研究为脑活动的大规模可解释时空建模提供了可行路径。代码已开源:https://github.com/beotborry/TABLeT。
扩散语言模型(DLMs)实现了并行非自回归文本生成,但现有DLM专家混合(MoE)模型沿用了自回归系统的令牌选择(TC)路由机制,导致负载不均与计算分配僵化。我们证明专家选择(EC)路由更适合DLMs:其通过设计实现确定性负载均衡,相比TC路由可获得更高吞吐量与更快收敛速度。基于EC容量可外部调控的特性,我们引入了时序相关专家容量机制,使专家分配随去噪步骤动态调整。研究发现,在固定浮点运算量条件下,为低掩码率步骤分配更多容量能持续获得最佳性能,并给出机制性解释:低掩码率语境中的令牌学习效率呈现数量级优势,因此将计算资源集中于这些步骤可产生最大边际收益。最后我们证明,仅需替换路由模块即可将现有预训练TC-DLM改造为EC架构,在多类下游任务中实现加速收敛与精度提升。这些成果共同确立了EC路由作为DLM-MoE模型的更优范式,并表明DLM中的计算可视为自适应策略而非固定架构常数。代码详见https://github.com/zhangshuibai/EC-DLM。