每日精选AI研究论文及翻译
在大型语言模型(LLMs)需要处理代码库中大量信息的背景下,长上下文代码生成变得日益关键。尽管近期进展使得代码LLMs能够处理长输入,但高昂的API成本和生成延迟仍是主要瓶颈。现有的上下文剪枝技术,如LLMLingua,在通用文本上取得了显著成果,却忽视了代码特有的结构和依赖关系,导致在编程任务中表现欠佳。本文提出LongCodeZip,一种专为代码LLMs设计的新型即插即用代码压缩框架。LongCodeZip采用双阶段策略:(1)粗粒度压缩,通过条件困惑度识别并排序函数级代码块,仅保留与指令最相关的函数;(2)细粒度压缩,将保留的函数基于困惑度分割成块,并在自适应令牌预算下选择最优子集以最大化相关性。在包括代码补全、摘要和问答在内的多项任务评估中,LongCodeZip均优于基线方法,实现了高达5.6倍的压缩比且不降低任务性能。通过有效缩减上下文规模同时保留关键信息,LongCodeZip使LLMs能更好地适应现实世界的大规模代码场景,提升了代码智能应用的效率和能力。
扩散模型在图像和视频生成领域掀起了一场革命,实现了前所未有的视觉质量。然而,其对Transformer架构的依赖带来了极高的计算成本,尤其是在生成长视频时更为显著。近期研究探索了自回归式长视频生成方法,通常通过从短时双向教师模型中蒸馏知识来实现。然而,由于教师模型无法生成长视频,学生模型在训练范围之外进行外推时,往往会导致质量显著下降,这源于连续潜在空间中错误的累积。本文提出了一种简单而有效的方法,旨在缓解长时视频生成中的质量退化问题,且无需依赖长视频教师模型的监督或对长视频数据集进行重新训练。我们的方法核心在于利用教师模型的丰富知识,通过从自生成的长视频中抽取片段,为学生模型提供指导。该方法在将视频长度扩展至教师模型能力的20倍时,仍能保持时间一致性,避免了过度曝光和错误累积等常见问题,且无需像先前方法那样重新计算重叠帧。在计算资源增加的情况下,我们的方法能够生成长达4分15秒的视频,这相当于基础模型位置嵌入支持的最大跨度的99.9%,比基线模型长50倍以上。在标准基准测试和我们提出的改进基准测试上的实验表明,我们的方法在保真度和一致性方面均显著优于基线方法。我们的长时视频演示可在https://self-forcing-plus-plus.github.io/查看。
基于可验证奖励的强化学习(RLVR)是一种新兴范式,旨在提升大型语言模型的推理能力。然而,标准的在线策略训练在单次更新后便舍弃了探索经验,导致计算效率低下和训练不稳定。尽管先前关于强化学习的研究已强调了重用过往经验的好处,但经验特征在塑造大型推理模型学习动态中的作用仍未得到充分探索。本文首次探讨了何种推理经验具有价值,并识别出探索正确性和熵作为经验价值的有效指标。基于这些洞见,我们提出了ExGRPO(经验分组相对策略优化)框架,该框架组织并优先处理有价值的经验,并采用混合策略目标来平衡探索与经验利用。在五个骨干模型(1.5B至8B参数)上的实验表明,ExGRPO在数学/通用基准测试上持续提升了推理性能,相较于在线策略RLVR平均提高了3.5/7.6分。此外,ExGRPO在在线策略方法失效的更强或更弱模型上均实现了稳定的训练。这些结果凸显了原则性的经验管理作为高效且可扩展RLVR的关键要素的重要性。
诸如神经辐射场(NeRF)和三维高斯泼溅(3DGS)等三维场景表示方法,在视角合成领域取得了显著进展。随着这些方法的广泛应用,解决其潜在脆弱性变得至关重要。我们分析了3DGS对图像级投毒攻击的鲁棒性,并提出了一种新颖的密度引导投毒策略。该方法通过核密度估计(KDE)识别低密度区域,策略性地注入高斯点,从而在受污染视角中嵌入视角依赖的虚幻物体,这些物体清晰可见,而对未受影响的视角影响甚微。此外,我们引入了一种自适应噪声策略,以破坏多视角一致性,进一步增强攻击效果。我们提出了一种基于KDE的评估协议,系统性地评估攻击难度,为未来研究提供客观的基准测试。大量实验证明,相较于现有技术,我们的方法展现出更优的性能。项目页面:https://hentci.github.io/stealthattack/
大型语言模型(LLMs)近期作为自主代理展现了强大的能力,在推理、工具使用及序列决策方面表现出潜力。尽管先前基准测试已在软件工程和科学发现等领域评估了LLM代理,但金融领域却鲜有探索,尽管其与经济价值和高风险决策直接相关。现有的金融基准主要通过问答测试静态知识,却未能捕捉交易的动态与迭代特性。为填补这一空白,我们推出了StockBench,一个无污染的基准测试,旨在评估LLM代理在真实、多月的股票交易环境中的表现。代理每日接收市场信号——包括价格、基本面数据和新闻——并需做出连续的买入、卖出或持有决策。性能通过累计收益、最大回撤和索提诺比率等金融指标进行评估。我们对顶尖专有模型(如GPT-5、Claude-4)和开源权重模型(如Qwen3、Kimi-K2、GLM-4.5)的评估显示,尽管多数LLM代理难以超越简单的买入持有基准,但部分模型展现出实现更高收益和更有效管理风险的潜力。这些发现既揭示了开发LLM驱动的金融代理的挑战,也指明了机遇,表明在静态金融知识任务上的优异表现未必能转化为成功的交易策略。我们开源StockBench,以支持可重复性并推动该领域未来的研究进展。
我们推出F2LLM——基础到特征的大规模语言模型套件,包含三种规模的先进嵌入模型:0.6B、1.7B和4B。与以往需要大规模对比预训练、复杂训练流程及昂贵合成训练数据的顶尖嵌入模型不同,F2LLM直接基于开源非合成数据集中的600万查询-文档-负样本三元组对基础模型进行微调,在训练成本、模型规模与嵌入性能之间实现了优异平衡。在MTEB英语排行榜上,F2LLM-4B在约4B参数模型中位列第二,整体排名第七;而F2LLM-1.7B则在1B至2B规模模型中拔得头筹。为推动该领域未来研究,我们公开了模型、训练数据集及代码,将F2LLM确立为一项强大、可复现且经济高效的基准,为后续工作提供坚实支撑。
传统神经网络训练通常遵循固定、预定义的优化方案,缺乏动态应对不稳定或训练中出现问题的灵活性。本文提出交互式训练(Interactive Training),这是一个开源框架,允许人类专家或自动化AI代理在神经网络训练过程中进行实时、反馈驱动的干预。其核心在于使用控制服务器来协调用户或代理与正在进行的训练过程之间的通信,使用户能够动态调整优化器超参数、训练数据和模型检查点。通过三个案例研究,我们展示了交互式训练在提升训练稳定性、降低对初始超参数的敏感性以及增强对用户需求变化的适应性方面的优势,为未来训练范式铺平了道路,即AI代理能够自主监控训练日志、主动解决不稳定性并优化训练动态。
当前训练大型推理模型的主流范式始于在大量数据上使用下一词预测损失进行预训练。尽管强化学习在扩展推理能力方面表现出强大潜力,但它仅作为训练后的最后阶段引入,且在此之前需进行监督微调。然而,这种主流方式是否最优?本文提出了RLP,一种信息驱动的强化预训练目标,它将强化学习的核心精神——探索——引入预训练的最后阶段。其核心思想是将思维链视为一种探索性动作,奖励则基于其对预测未来词汇所提供的信息增益来计算。这一训练目标实质上鼓励模型在预测下一词之前进行独立思考,从而在预训练早期就培养出独立思维行为。具体而言,奖励信号衡量了在同时考虑上下文和采样推理链时,下一词对数似然相较于仅考虑上下文时的提升。该方法生成了一种无需验证器的密集奖励信号,使得在预训练期间能够高效地处理完整文档流。特别地,RLP将推理的强化学习重新定义为普通文本上的预训练目标,弥合了下一词预测与有效思维链推理出现之间的鸿沟。在Qwen3-1.7B-Base模型上应用RLP进行预训练,使得在包含八个数学与科学基准测试套件上的整体平均提升了19%。在相同的训练后阶段,收益进一步累积,尤其是在推理密集型任务如AIME25和MMLU-Pro上提升最为显著。将RLP应用于混合模型Nemotron-Nano-12B-v2,其整体平均分从42.81%提升至61.32%,科学推理平均分提升了23%,展现了该方法在不同架构和模型规模上的可扩展性。
多模态嵌入模型正日益普及,尤其是在文档检索领域,作为纯文本流程的高效替代方案。这些模型通常通过在大规模视觉语言解码器(VLMs)上使用对比损失对文本-图像对进行微调来构建。在本研究中,我们表明,尽管这种再利用方法成本效益高,但往往会限制检索性能。通过对照实验,我们确立了一套改进视觉文档检索模型的原则性方案。我们特别评估了注意力掩码、图像分辨率、模态对齐数据策略以及以晚期交互为中心的对比目标的影响,这些因素被证明是影响性能的关键。基于这些洞见,我们发布了ModernVBERT,一个紧凑的2.5亿参数视觉语言编码器,在文档检索任务微调后,其性能超越了规模达其10倍的模型。模型与代码已发布于https://huggingface.co/ModernVBERT。
尽管人工智能安全领域近期取得了快速进展,当前的大型语言模型在多轮交互场景中仍易受对抗性攻击,攻击者会在对话轮次间策略性地调整提示,构成更为严峻且现实的挑战。现有发现安全漏洞的方法要么依赖人工红队测试与专家合作,要么采用基于预定义模板和人工整理的攻击数据的自动化方法,且大多聚焦于单轮攻击。然而,这些方法未能探索多轮攻击的广阔可能性空间,忽视了复杂对话动态和策略性对话规划中涌现的新型攻击轨迹。鉴于最新研究发现,与单轮攻击相比,大型语言模型对多轮攻击表现出显著更高的脆弱性,这一空白尤为关键。我们提出了DialTree-RPO,一种与树搜索相结合的在线策略强化学习框架,通过将对话视为序列决策问题,自主发现多样化的多轮攻击策略,无需人工整理数据即可实现系统化探索。通过大量实验,我们的方法不仅在10个目标模型上比之前最先进的方法实现了超过25.9%的攻击成功率提升,还通过学习最大化多轮攻击成功的最优对话策略,有效揭示了新的攻击策略。
音视频生成技术传统上依赖于复杂的多阶段架构或音画顺序合成。我们提出了Ovi,一种统一的音视频生成范式,将两种模态建模为单一的生成过程。通过采用双DiT模块的块状跨模态融合,Ovi实现了自然的同步效果,无需独立的处理流程或事后对齐。为了促进细粒度的多模态融合建模,我们初始化了一个音频塔,其架构与强大的预训练视频模型相同。该音频塔在数十万小时的原始音频数据上从头训练,学会了生成逼真的音效,以及传达丰富说话者身份和情感的语音。融合是通过在庞大的视频语料库上,通过块状交换时间信息(通过缩放RoPE嵌入)和语义信息(通过双向交叉注意力)联合训练相同的视频和音频塔实现的。我们的模型能够实现带有自然语音和精准、情境匹配音效的电影级叙事,生成电影品质的视频片段。所有演示、代码及模型权重均已发布于https://aaxwaz.github.io/Ovi。
大型语言模型(LLM)代理正迅速成为跨领域任务自动化的强大系统。然而,开源社区的进展因缺乏高质量、宽松许可的工具代理训练数据而受限。现有数据集在多样性、真实性和复杂性方面往往不足,尤其是在多工具和多轮交互方面。为填补这一空白,我们推出了迄今为止最大的公开可用工具代理数据集——Toucan,包含从近500个真实世界模型上下文协议(MCP)中合成的150万条轨迹。与以往工作不同,Toucan利用真实的MCP环境生成多样、真实且具有挑战性的任务,其轨迹涉及真实工具的执行。我们的流程首先使用五种不同模型生成广泛的工具使用查询,应用基于模型的质量过滤,然后使用两个代理框架通过三个教师模型生成代理轨迹。严格的基于规则和基于模型的验证确保了高质量输出。我们还引入了三种扩展机制,以进一步多样化任务并模拟多轮对话。在Toucan上微调的模型在BFCL V3基准测试中超越了更大的闭源模型,并在MCP-Universe Bench上推动了帕累托前沿的进步。
计算机使用代理(CUAs)在自动化日常数字任务方面展现出巨大潜力,但其不可靠性和高变异性阻碍了其在长期复杂任务中的应用。我们提出了行为最优N选(bBoN)方法,该方法通过生成多个执行轨迹并利用描述代理执行过程的行为叙述进行选择,实现了对代理的规模化扩展。bBoN既支持广泛探索,又实现了有原则的轨迹选择,显著提升了鲁棒性和成功率。在OSWorld平台上,我们的bBoN扩展方法以69.9%的成绩刷新了当前最佳水平(SoTA),大幅超越先前方法,并接近72%的人类水平表现,全面的消融实验验证了关键设计选择的有效性。我们进一步展示了在WindowsAgentArena和AndroidWorld平台上对不同操作系统的强大泛化能力。重要的是,我们的研究结果凸显了在正确实施时,扩展CUAs的惊人效果:有效的扩展需要结构化的轨迹理解与选择,而bBoN为实现这一目标提供了一个实用框架。
评估大型语言模型(LLM)输出的质量面临着一项关键挑战。以往的方法要么依赖于文本层面的信息(如奖励模型、多数投票),这些方法可能过度拟合表面线索;要么依赖于基于标记概率校准的置信度,这在未充分校准的模型上会失效。然而,这两类信号实际上都是对更丰富信息来源的部分映射:模型内部的隐藏状态。靠近标记嵌入的早期层保留了支撑文本判断的语义和词汇特征,而后期层则逐渐与输出逻辑值对齐,蕴含了与置信度相关的信息。本文直接探索隐藏状态,将其作为验证的统一基础。我们证明,解决方案的正确性被编码为隐藏激活轨迹中几何上可分离的特征。为验证这一点,我们提出了CLUE(基于聚类与经验的验证),一个刻意保持简约、非参数化的验证器。CLUE无需可训练参数,仅通过隐藏状态变化总结每个推理轨迹,并依据与由过往经验形成的“成功”和“失败”集群的最近质心距离来分类正确性。此方法的简洁性凸显了基础信号的强大。实证表明,CLUE在重新排序候选答案时,持续超越LLM作为评判基准的表现,与现代基于置信度的方法相当或更优,在AIME 24/25和GPQA数据集上均提升了Top-1和多数投票的准确率。尤为突出的是,在AIME 24数据集上,使用1.5B模型时,CLUE将准确率从56.7%(多数@64)提升至70.0%(Top-maj@16)。
激活导向是一种通过直接向模型隐藏状态注入语义向量来控制大语言模型行为的前沿技术。它常被视为一种比微调更为精确、可解释且潜在更安全的方法。然而,我们揭示了相反的事实:导向技术系统性破坏了模型的对齐防护机制,使其更容易响应有害请求。通过对不同模型系列的大量实验,我们发现,即便是随机方向的导向,也能将有害请求的遵从概率从0%提升至2-27%。更为令人警觉的是,利用稀疏自编码器(SAE)——一种常见的可解释方向来源——对良性特征进行导向,会进一步将这一概率提升2-4%。最后,我们证明,结合20个针对单一提示的越狱向量,可以构建出通用攻击,显著提高模型对未见请求的有害遵从率。这些发现挑战了“通过可解释性确保安全”的范式,表明对模型内部精确控制并不等同于对模型行为的精确掌控。
基于可验证奖励的强化学习(RLVR)提升了大型语言模型(LLMs)的推理能力,但在探索方面仍存在挑战,这一问题同样困扰着多模态大型语言模型(MLLMs)。现有方法将视觉输入视为固定且确定的条件,忽视了模糊性的关键来源,难以构建对合理视觉变化具有鲁棒性的策略。我们提出了VOGUE(视觉不确定性引导探索),这一新方法将探索从输出(文本)空间转向输入(视觉)空间。通过将图像视为随机上下文,VOGUE利用“原始”与“噪声”分支间的对称KL散度量化策略对视觉扰动的敏感性,为不确定性感知探索提供直接信号。该信号通过一个与不确定性成比例的奖励项塑造学习目标,结合令牌熵奖励和退火采样调度,有效平衡了探索与利用。在GRPO框架下,针对两种模型规模(Qwen2.5-VL-3B/7B)实施VOGUE,其在三个视觉数学基准测试中平均提升了2.6%的pass@1准确率,在三个通用领域推理基准测试中提升了3.7%,同时提高了pass@4性能,并缓解了RL微调中常见的探索衰减现象。我们的研究表明,将探索建立在视觉输入固有的不确定性基础上,是提升多模态推理能力的有效策略。
人工智能正经历从封闭语言模型向具备外部感知与信息整合能力的互联代理系统的范式转变。作为代表性体现,深度研究代理(DRAs)系统性地展示了任务分解、跨源检索、多阶段推理及结构化输出的能力,显著提升了在复杂开放任务上的表现。然而,现有基准在评估维度、响应格式及评分机制方面仍显不足,限制了其有效评估此类系统的能力。本文引入了一套严谨的基准及多维评价框架,专为DRAs及报告式响应量身定制。该基准包含214个专家精心策划的挑战性查询,分布于10大主题领域,每个查询均配有手工构建的参考包,以支持复合评估。该框架能够全面评估DRAs生成的长篇报告,整合了语义质量、主题聚焦及检索可信度等综合评分指标。大量实验证实,主流DRAs在性能上优于增强型网络搜索工具推理模型,但也揭示出巨大的改进空间。本研究为DRAs系统的能力评估、架构优化及范式推进奠定了坚实基础。
大型语言模型(LLMs)常产生幻觉——即缺乏依据的内容,这削弱了其可靠性。尽管多数先前研究将幻觉检测视为二元任务,但许多实际应用需要识别幻觉片段,这是一个多步骤的决策过程。这自然引发了一个问题:显式推理是否有助于完成检测幻觉片段这一复杂任务。为解答此问题,我们首先评估了带有与不带有链式思维(CoT)推理的预训练模型,结果表明,CoT推理在多次采样时具备生成至少一个正确答案的潜力。受此启发,我们提出了RL4HS,一个通过片段级奖励函数激励推理的强化学习框架。RL4HS基于群体相对策略优化,并引入了类感知策略优化以缓解奖励不平衡问题。在RAGTruth基准测试(摘要生成、问答、数据到文本转换)上的实验显示,RL4HS超越了预训练推理模型及监督微调,证明了采用片段级奖励的强化学习对于检测幻觉片段的必要性。
细粒度视觉推理仍然是多模态大语言模型(MLLMs)面临的核心挑战。近期提出的ReasonMap凸显了这一差距,表明即使是先进的MLLMs在如交通地图等结构化且信息丰富的环境中进行空间推理时也显得力不从心,而这一任务具有明确的实践与科学意义。然而,针对此类任务的标准强化学习(RL)因奖励稀疏和优化不稳定而受阻。为解决这一问题,我们首先构建了ReasonMap-Plus,这是一个通过视觉问答(VQA)任务引入密集奖励信号的扩展数据集,从而有效启动细粒度视觉理解技能的冷启动训练。接着,我们提出了RewardMap,一个旨在提升MLLMs视觉理解与推理能力的多阶段RL框架。RewardMap包含两项关键设计:其一,我们引入了难度感知的奖励设计,融入细节奖励,直接应对奖励稀疏问题,同时提供更丰富的监督信息;其二,我们提出了一种多阶段RL方案,从简单感知任务逐步引导至复杂推理任务,相比传统的监督微调(SFT)提供了更有效的冷启动策略。在ReasonMap和ReasonMap-Plus上的实验表明,RewardMap的每个组件均能带来持续的性能提升,而它们的组合则实现了最佳效果。此外,采用RewardMap训练的模型在涵盖空间推理、细粒度视觉推理及超越交通地图的通用任务等6个基准测试中平均提升了3.47%,显著增强了视觉理解与推理能力。
我们推出Aristotle,这是一个将形式化验证与非形式推理相结合的AI系统,在2025年国际数学奥林匹克竞赛题目上达到了金牌级别的表现。Aristotle集成了三大核心组件:一个Lean证明搜索系统、一个能够生成并形式化引理的非形式推理系统,以及一个专用的几何求解器。我们的系统展示了自动定理证明领域的最先进性能,并具备良好的扩展特性。
基于拖拽的图像编辑长期以来一直受限于目标区域的失真问题,这主要归因于早期基础模型(如Stable Diffusion)的先验知识不足以将优化后的潜在空间映射回自然图像流形。随着从基于UNet的DDPM向更具可扩展性的DiT结合流匹配(例如SD3.5、FLUX)的转变,生成先验显著增强,推动了多样化编辑任务的进步。然而,基于拖拽的编辑尚未从这些更强的先验中获益。本研究提出了首个有效利用FLUX丰富先验进行拖拽编辑的框架,命名为DragFlow,相较于基线方法取得了显著提升。我们首先指出,直接将基于点的拖拽编辑应用于DiT效果不佳:与UNet高度压缩的特征不同,DiT的特征结构不够完善,无法为点级运动监督提供可靠指导。为克服这一局限,DragFlow引入了基于区域的编辑范式,通过仿射变换实现更丰富且一致的特征监督。此外,我们整合了预训练的开域个性化适配器(如IP-Adapter),以增强主体一致性,同时通过基于梯度掩码的硬约束保持背景保真度。多模态大语言模型(MLLMs)进一步用于解决任务歧义。为评估性能,我们构建了一个新颖的基于区域的拖拽基准(ReD Bench),包含区域级拖拽指令。在DragBench-DR和ReD Bench上的大量实验表明,DragFlow超越了基于点和基于区域的基线方法,确立了基于拖拽图像编辑的新标杆。代码与数据集将在论文发表后公开。
基于多头注意力机制(Multi-Head Attention, MHA)的Transformer架构,已成为人工智能领域顶尖模型的实际标准。然而,MHA相对于序列长度的二次计算复杂度,在涉及长上下文的应用中构成了显著的扩展障碍。当前的主流解决方案,如多查询注意力(Multi-Query Attention, MQA)和分组查询注意力(Grouped-Query Attention, GQA),通过共享键(Key)和值(Value)投影,有效缓解了自回归推理延迟中占据主导地位的内存带宽瓶颈。尽管这些方法取得了显著成效,但它们并未减少注意力得分计算所需的基本浮点运算次数(FLOPs),这仍是训练和全序列处理的关键瓶颈。本文提出了一种新颖的注意力架构——稀疏查询注意力(Sparse Query Attention, SQA),它探索了一条替代且互补的优化路径。不同于减少键/值头,SQA减少了查询头的数量。这一架构修改直接按查询头减少的比例降低了注意力机制的计算复杂度,从而减少了总体FLOPs。本研究阐述了SQA的理论基础、数学公式化表达及一系列架构变体。在长序列(32k至200k个标记)上的实证基准测试表明,在模型预训练、微调和基于编码器的任务等计算受限场景中,SQA能实现高达3倍的吞吐量提升,而在初步的小规模实验中,对模型质量的影响微乎其微。SQA是在开发即将问世的反应式Transformer架构过程中偶然发现的,这暗示了其作为构建更高效、可扩展模型的强大工具的潜力。
尽管当前的大型视觉-语言模型(VLMs)在多模态理解和推理方面取得了进展,但其基本的感知和推理能力仍显不足。具体而言,即使在简单的拼图任务上,现有VLMs的表现也近乎随机,揭示了其在核心感知和推理能力上的缺陷。虽然高质量的视觉-语言数据能够提升这些能力,但其稀缺性和有限的可扩展性带来了显著的限制。为解决这一问题,我们提出了AGILE,即一种用于增强VLMs视觉感知和推理能力的交互式拼图学习代理。AGILE将拼图解决过程构建为一个交互式流程,使模型能够逐步与环境互动。在每一步中,模型根据当前状态生成可执行代码以执行动作,而环境则提供细粒度的视觉反馈以指导任务完成。通过这种观察与交互的迭代循环,模型通过探索和反馈逐步提升其感知和推理能力。实验结果表明,AGILE不仅在复杂度各异的拼图任务上大幅提升了性能(例如,在2×2设置下将准确率从9.5%提升至82.8%),还在9项通用视觉任务上展现出强大的泛化能力,平均提升了3.1%。这些结果标志着感知和推理能力的显著增强。本工作为推进多模态模型的推理和泛化能力开辟了新途径,并为多模态强化学习数据的稀缺性提供了一个高效、可扩展的解决方案。代码和数据集可在https://github.com/yuzeng0-0/AGILE 获取。
基于上下文的幻觉现象指的是模型输出中包含无法从源文本验证的信息。我们研究了大型语言模型(LLMs)在定位此类幻觉上的适用性,作为现有复杂评估流程的一种更实用的替代方案。鉴于目前缺乏用于幻觉定位元评估的基准测试,我们构建了一个专门针对LLMs的基准,涉及对1000多个示例进行具有挑战性的人工标注。我们为该基准补充了一套基于LLM的评估协议,并通过人工评估验证了其质量。由于现有的幻觉表示方式限制了可表达的错误类型,我们提出了一种基于自由文本描述的新表示方法,以捕捉所有可能的错误范围。我们开展了一项全面研究,评估了四个大规模LLM,结果显示该基准难度较高,最佳模型的F1分数仅为0.67。通过细致分析,我们为任务提供了最优提示策略的洞见,并识别出使LLM面临挑战的主要因素:(1)模型倾向于错误地将缺失细节标记为不一致,尽管已指示其仅检查输出中的事实;(2)对于包含源文本中未出现、因而无法验证但符合模型参数知识的正确信息的输出,模型处理起来存在困难。
在多模态语言模型中,视频理解能力仍受限于上下文长度:模型常遗漏关键过渡帧,难以在长时间尺度上保持连贯性。为此,我们将原生稀疏注意力机制(NSA)适配于视频-语言模型。我们的方法VideoNSA,通过在216K视频指令数据集上的端到端训练,对Qwen2.5-VL进行了调整。我们采用了一种硬件感知的混合注意力策略,对文本保留密集注意力,而对视频则应用NSA。与基于令牌压缩和无训练稀疏基线相比,VideoNSA在长视频理解、时序推理及空间基准测试上均取得了性能提升。进一步的消融分析揭示了四个关键发现:(1) 可稳定扩展至128K令牌;(2) 在固定预算下,全局-局部注意力的最优分配;(3) 任务依赖的分支使用模式;以及(4) 可学习的组合稀疏注意力有助于诱导动态注意力汇聚点。
由视觉语言模型(VLMs)驱动的多智能体系统(MAS)能够执行复杂任务,但面临一种新型故障现象——多智能体视觉幻觉雪球效应,即单个智能体产生的幻觉因过度依赖文本流传递视觉信息而被后续智能体放大。通过回合、层级和词元层面的注意力分析,我们深入揭示了幻觉雪球效应的本质,即视觉注意力分配的减少。这使我们识别出一组在中间层具有单峰注意力峰值的视觉词元,这些词元最能保留视觉证据,但在更深层的智能体回合中逐渐减弱,导致MAS中的视觉幻觉雪球效应。因此,我们提出了ViF,一种轻量级、即插即用的缓解范式,它利用选定的视觉中继词元通过视觉流传递智能体间消息,并应用注意力重分配来强化这一模式。实验结果表明,我们的方法显著减少了幻觉雪球效应,在基于四种常见MAS结构和十种基础模型的八个基准测试中持续提升了性能。源代码将发布于:https://github.com/YU-deep/ViF.git。
测试时缩放(TTS)在提升大型语言模型方面已展现出显著成效,然而其在基于下一令牌预测(NTP)的自回归(AR)图像生成中的应用仍鲜有探索。现有的视觉自回归(VAR)TTS方法,依赖于频繁的部分解码和外部奖励模型,由于中间解码结果固有的不完整性,并不适用于基于NTP的图像生成。为填补这一空白,我们提出了ScalingAR,这是首个专为基于NTP的AR图像生成设计的TTS框架,无需早期解码或辅助奖励。ScalingAR创新性地利用令牌熵作为视觉令牌生成的新信号,并在两个互补的缩放层级上运作:(i)轮廓层级,通过融合内在与条件信号,流式传输校准后的置信状态;(ii)策略层级,利用此状态自适应地终止低置信度轨迹,并动态调度指导以适应当前阶段的调节强度。在通用与组合基准上的实验表明,ScalingAR(1)在GenEval上使基础模型提升了12.5%,在TIIF-Bench上提升了15.2%;(2)高效地减少了62.0%的视觉令牌消耗,同时性能超越基线;(3)显著增强了鲁棒性,在挑战性场景下将性能下降减少了26.0%。
推理需要超越模式匹配或解决方案的记忆,识别并实施能够推导出难题答案的“算法流程”。这要求认识到最相关的原语、中间结果或共享流程,并在此基础上进行构建。尽管通过强化学习(RL)对长链思维进行后训练最终旨在揭示此类算法行为,但大型模型学习到的多数推理轨迹未能持续捕捉或重用流程,反而陷入冗长且退化的探索。为提升推理效率,我们引入了推理抽象:即对流程性和事实性知识的简洁自然语言描述,引导模型学习成功的推理。我们训练模型使其能够针对问题提出多种抽象,随后通过强化学习激励在利用这些抽象提供的信息基础上构建解决方案。这形成了一种双玩家RL训练范式,简称RLAD,它联合训练一个抽象生成器和一个解决方案生成器。该设置有效实现了结构化探索,解耦了抽象提议与解决方案生成的学习信号,并提升了对更难题目的泛化能力。我们还证明,在较大的测试预算下,将更多测试时计算资源用于生成抽象比生成更多解决方案更有利于性能提升,这体现了抽象在引导有意义探索中的重要作用。
视觉-语言-行动(VLA)模型旨在统一感知、语言理解与行动生成,展现出强大的跨任务与跨场景泛化能力,对具身智能领域具有广泛影响。然而,当前的VLA模型往往缺乏明确的逐步推理过程,直接输出最终行动而忽视了可供性约束与几何关系。其训练后流程也鲜少强化推理质量,主要依赖于监督微调与弱奖励设计。为应对这些挑战,我们提出了VLA-R1,一种增强推理的VLA模型,它结合了可验证奖励的强化学习(RLVR)与群体相对策略优化(GRPO),系统性地优化推理与执行。具体而言,我们设计了一种基于RLVR的训练后策略,通过区域对齐、轨迹一致性和输出格式化的可验证奖励,从而增强推理的鲁棒性与执行的准确性。此外,我们开发了VLA-CoT-13K,一个高质量数据集,提供了与可供性和轨迹注释明确对齐的思维链监督。进一步地,在领域内、领域外、仿真及真实机器人平台上的广泛评估表明,VLA-R1相较于先前的VLA方法,实现了更优的泛化能力与真实世界性能。我们计划在本文发表后公开模型、代码及数据集。代码:https://github.com/GigaAI-research/VLA-R1。网站:https://gigaai-research.github.io/VLA-R1。
基于胸部X光图像的自动化结构化放射报告生成(SRRG)具有显著潜力,能够通过生成符合临床报告标准、确保清晰度和一致性的结构化报告,减轻放射科医生的工作负担。尽管放射科医生在诊断推理中有效利用了可用的临床背景,但现有的SRRG系统却忽视了这些关键要素。这一根本性差距导致了诸如在引用不存在的临床背景时出现时间幻觉等严重问题。为解决这些局限,我们提出了情境化SRRG(C-SRRG),全面整合丰富的临床背景以支持SRRG。我们通过整合涵盖1)多视角X光图像、2)临床指征、3)成像技术及4)基于患者病史的既往研究与相应比较的全面临床背景,精心构建了C-SRRG数据集。通过对最先进的多模态大语言模型进行广泛基准测试,我们证明了结合所提出的C-SRRG融入临床背景能显著提升报告生成质量。我们公开了数据集、代码及检查点,以促进未来面向临床对齐的自动化RRG研究,访问地址为https://github.com/vuno/contextualized-srrg。
图神经网络(GNNs)是分子机器学习的主导架构,尤其在分子性质预测和机器学习原子间势能(MLIPs)方面表现突出。GNNs在预定义的图上执行消息传递,这些图通常由固定半径截断或k近邻方案生成。尽管这种设计契合了许多分子任务中的局部性特征,但硬编码的图由于固定的感受野可能限制表达能力,并通过稀疏图操作减缓推理速度。在本研究中,我们探讨了未经修改的纯Transformer模型,直接基于笛卡尔坐标训练——无需预定义图或物理先验——是否能够近似分子能量和力。作为分析的起点,我们展示了如何在匹配的训练计算预算下,使Transformer在OMol25数据集上达到与最先进的等变GNN相竞争的能量和力平均绝对误差。我们发现,Transformer学习到了物理上一致的规律——例如注意力权重随原子间距离的倒数衰减——并且由于缺乏硬编码的偏置,能够灵活适应不同的分子环境。使用标准Transformer还带来了训练资源扩展时预测性的改进,这与在其他领域观察到的经验扩展定律一致。我们的结果表明,GNNs的许多优良特性可以在Transformer中自适应地涌现,挑战了硬编码图归纳偏置的必要性,并指向了标准化、可扩展的分子建模架构。
计算机使用代理(CUAs)是一类日益普及的代理,它们通过图形用户界面(GUI)执行操作以实现用户目标。本文揭示,CUAs普遍表现出“盲目目标导向性”(BGD):一种不顾可行性、安全性、可靠性或上下文环境,执着追求目标的倾向。我们归纳了BGD的三种常见模式:(i) 缺乏上下文推理,(ii) 在模糊性下的假设与决策,以及(iii) 矛盾或不可行的目标。为此,我们开发了BLIND-ACT基准测试,包含90项任务,涵盖上述三种模式。基于OSWorld构建的BLIND-ACT提供了逼真的环境,并采用基于大语言模型(LLM)的评判者来评估代理行为,其与人工标注的一致性达到93.75%。我们利用BLIND-ACT评估了包括Claude Sonnet、Opus 4、Computer-Use-Preview及GPT-5在内的九款前沿模型,发现它们平均BGD率高达80.8%。研究表明,BGD揭示了即便输入非直接有害时仍存在的微妙风险。尽管基于提示的干预措施降低了BGD水平,但显著风险依然存在,这凸显了加强训练或推理阶段干预的必要性。定性分析揭示了观察到的失败模式:执行优先偏差(关注如何行动而非是否应行动)、思维与行动脱节(执行偏离推理)、以及请求至上(因用户请求而合理化行动)。识别BGD并引入BLIND-ACT为未来研究这一基础风险及其缓解措施,确保CUAs的安全部署奠定了基础。
多模态表示学习模型已在复杂任务中展现出卓越性能,而视觉-语言模型(VLMs)的整合进一步赋予了嵌入模型指令跟随能力。然而,现有嵌入模型缺乏视觉交互能力,无法根据用户指定兴趣区域(如点选、边界框、掩码)进行操作,这一特性在生成模型中已被探索,以拓宽其人机交互适用性。为嵌入模型配备视觉交互能力,不仅能够解锁基于用户意图局部定位的新应用领域——这一方向尚未被充分探索,还能使模型学习图像中的实体级信息,从而补充其在传统嵌入任务中的全局表示。本文提出了一种新颖的视觉交互式文本-图像通用嵌入器(VIRTUE),它将分割模型与视觉-语言模型的能力扩展至表示学习领域。在VIRTUE中,分割模型能够处理精确定位图像特定区域的视觉提示,从而使嵌入器能够更精确地处理复杂和模糊的场景。为评估VIRTUE的视觉交互能力,我们引入了一个大规模分割与场景描述检索(SCaR)基准,包含100万样本,旨在通过联合考虑特定对象实体与图像场景来检索文本描述。VIRTUE在36项通用MMEB任务(提升3.1%-8.5%)及五项视觉交互SCaR任务(提升15.2%-20.3%)中均实现了显著的性能提升,持续保持领先水平。
面向大规模语言模型(LLMs)的离策略强化学习(RL)正日益受到关注,这一趋势源于实际应用中的现实约束、LLM-RL基础设施的复杂性,以及对RL方法论进一步创新的需求。尽管经典的REINFORCE及其现代变体如群体相对策略优化(GRPO)通常被视为对离策略性容忍度有限的在策略算法,但本工作从基本原理出发,推导了不依赖特定训练数据分布的群体相对REINFORCE,揭示了其天然具备的离策略解释性。这一视角提炼出两条将REINFORCE适配至离策略环境的一般原则:策略更新的正则化与数据分布的主动塑造。我们的分析澄清了关于GRPO中重要性采样与裁剪作用的一些误解,将近期两种算法——在线策略镜像下降(OPMD)与非对称REINFORCE(AsymRE)——统一并重新解释为REINFORCE损失的正则化形式,并为看似启发式的数据加权策略提供了理论依据。这些发现不仅通过大量实证研究得到验证,提供了可操作的洞见,而且为LLMs离策略RL中的原则性算法设计开辟了新途径。本工作的源代码可在https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k 获取。
文本到图像(T2I)模型在处理单一实体提示时表现出色,但在面对多主体描述时却常显乏力,往往出现属性泄露、身份混淆以及主体遗漏等问题。我们首次提出了一套理论框架,其核心在于确立了一个可优化的原则性目标,旨在引导采样动态向多主体保真度靠拢。通过将流匹配(FM)置于随机最优控制(SOC)视角下,我们将主体解耦问题转化为对已训练FM采样器的控制任务。这一思路催生了两种架构无关的算法:(一)一种无需训练的测试时控制器,它通过单次更新扰动基础速度场;(二)伴随匹配,一种轻量级微调规则,它通过回归控制网络至反向伴随信号,同时保留基础模型的能力。该框架不仅统一了先前的注意力启发式方法,还通过流-扩散对应关系扩展至扩散模型,并首次提供了专为多主体保真度设计的微调路径。实证表明,在Stable Diffusion 3.5、FLUX及Stable Diffusion XL上,这两种算法均能持续提升多主体对齐效果,同时保持基础模型风格。测试时控制器能在普通GPU上高效运行,而基于有限提示训练的微调控制器还能泛化至未见过的提示。我们进一步展示了FOCUS(面向无纠缠主体的流最优控制),它在各模型中实现了最先进的多主体保真度。
时间序列预测在能源、金融、气候和公共卫生等多个领域的决策中占据核心地位。实践中,预测者面临成千上万条短而嘈杂的序列,这些序列在频率、质量和预测周期上各不相同,其中主要成本不在于模型拟合,而在于为获得可靠预测所需的劳动密集型预处理、验证和集成工作。现有的统计和深度学习模型通常针对特定数据集或领域定制,泛化能力较差。因此,亟需一种通用的、领域无关的框架,以最大限度地减少人为干预。本文介绍了TimeSeriesScientist(TSci),这是首个基于大语言模型(LLM)驱动的通用时间序列预测框架。该框架包含四个专门化的智能体:Curator通过LLM引导的诊断,结合外部工具对数据统计进行推理,以选择有针对性的预处理方法;Planner利用多模态诊断和自我规划,缩小模型选择的假设空间;Forecaster执行模型拟合与验证,并根据结果自适应地选择最佳模型配置及集成策略,以生成最终预测;Reporter则将整个过程综合成一份全面、透明的报告。通过透明的自然语言推理和详尽的报告,TSci将预测工作流转化为一个可解释且可跨任务扩展的白盒系统。在八个公认基准测试上的实证结果表明,TSci在统计模型和基于LLM的基线模型上均表现优异,平均分别减少了10.4%和38.2%的预测误差。此外,TSci生成的清晰严谨的报告,使得预测工作流更加透明和易于理解。
并行大语言模型推理扩展涉及为单一输入提示采样一组N>1的响应。然而,这些N个并行响应往往彼此独立生成,分割了计算资源,导致一次生成中潜在的有用信息未被其他生成所利用。这与响应长度扩展形成对比,后者在所有后续步骤中均利用了过去的计算。为了获得更高质量的响应及响应集,我们提出了Bridge方法,通过将批量大语言模型的隐藏状态重新构想为整体张量而非独立切片,来生成相互依赖的并行响应。仅需引入少量(2.8%-5.1%)新参数,Bridge便可将基于可验证奖励的强化学习的相对平均准确率提升高达50%,并增强正确响应的一致性。一经训练,Bridge可扩展至任意生成宽度,其性能均优于独立生成,开启了一种更通用的并行扩展模式,有效利用序列间的信息,兼容任何后生成聚合技术。
推理训练激励大型语言模型(LLMs)生成长链思维(长CoT),这使它们能够通过自我检查探索解决策略。虽然这提高了准确性,但也增加了上下文长度、令牌/计算成本和答案延迟。我们提出疑问:当前模型能否利用其元认知能力,在这帕累托前沿上提供其他组合,例如在降低上下文长度和/或延迟的同时获得更好的准确性?抽象地看,我们将模型视为对其自身“思维”的改进算子,拥有连续的可能策略。我们识别出一个有趣的推理家族——并行蒸馏精炼(PDR),其执行以下步骤:(i) 并行生成多样化的草稿;(ii) 将它们蒸馏到一个有界的文本工作空间;(iii) 基于此工作空间进行精炼,产生一个输出作为下一轮的种子。重要的是,上下文长度(因此计算成本)可通过并行度控制,不再与生成的令牌总数混淆。我们报告了当前模型的PDR实例,在降低延迟的同时,其准确性优于长CoT。将并行度设置为1,则得到一个有趣的子案例——顺序精炼(SR)(迭代改进单个候选答案),其性能优于长CoT。此类模型编排的成功引发了一个问题:进一步训练是否能够移动帕累托前沿。为此,我们使用强化学习(RL)训练了一个80亿参数的思维模型,使其与PDR作为推理方法保持一致。在具有可验证答案的数学任务上,迭代管道在匹配的顺序预算下超越了单次基线,其中PDR带来了最大的增益(例如,在AIME 2024上提升11%,在AIME 2025上提升9%)。
监督微调(SFT)是调整大型语言模型(LLMs)的主流方法,但与强化学习(RL)相比,其在泛化能力上常显不足。本研究提出,这种性能差异不仅源于损失函数,更源于一个根本性区别:SFT依赖于固定、预先收集的数据集学习,而RL则利用从当前策略中采样的在线数据。基于这一假设,我们引入了一种新颖的微调算法——单步展开(OTR),它通过策略梯度方法指导SFT。OTR将自回归学习过程重构,视每个令牌生成为单步强化学习轨迹。每一步,它通过从当前策略分布中采样多个候选令牌,执行蒙特卡洛“展开”。随后,利用监督数据中的真实令牌为这些样本提供奖励信号。在策略梯度的引导下,我们的算法将静态、离线的监督数据转化为令牌级别的动态、在线信号,既捕捉了在线学习的泛化优势,又避免了完整句子生成的高昂开销。通过在一系列涵盖数学推理、代码生成及通用领域推理的挑战性基准测试中的广泛实验,我们证明OTR始终优于标准SFT。我们的研究确立了OTR作为微调LLMs的强大且实用的替代方案,并有力证明了数据的在线性质是推动泛化的关键因素,为LLMs微调开辟了一条充满前景的新方向。
尽管大型视觉语言模型(LVLMs)在视频理解方面取得了显著进展,但其在长视频推理中的应用却因统一的帧采样和静态文本推理而受限,这些方法效率低下且难以处理视觉密集型的视频任务。为克服这些挑战,本文提出了“长视频思维”的概念,并设计了一个新颖的框架——FrameThinker。在该框架下,LVLMs能够迭代式地探究视频内容。然而,在LVLMs中开发此类视频推理能力面临显著挑战,特别是在使模型适应新的视频动作(如选择帧)以及设计奖励函数以引导LVLMs采纳新引入的动作方面。为解决这些问题,我们提出了一种两阶段训练策略:首先通过监督微调(SFT)赋予模型基本动作能力,随后采用强化学习(RL)优化策略决策制定。值得注意的是,在RL阶段,我们对每个动作的奖励设计及格式奖励进行了深入全面的探索。在Video-Holmes、LongVideo-Reason等推理基准,以及LongVideoBench、MLVU、VideoMME和LVBench等长视频理解基准上的大量实验表明,FrameThinker相较于基线模型实现了平均+10.4%的显著提升,同时大幅减少了处理的帧数。尤为突出的是,我们的7B模型FrameThinker在LongVideo-Reason上创下了新的最先进水平,仅使用平均20.6帧便达到了76.1%的准确率。这不仅超越了竞争模型LongVILA-R1(72.0%),而且所用帧数减少了超过20倍(对比512帧),展现了无与伦比的效率与效能。
在大型语言模型(LLMs)的竞技场式评估中,两个LLMs对用户查询作出响应,用户选择获胜的响应或判定“对决”为平局,从而调整两个模型的评分。当前主流的方法是将这些对决视为双人游戏比赛,如国际象棋,并应用Elo评分系统及其衍生方法。本文对这一范式进行了批判性审视。具体而言,我们质疑平局是否真的意味着两个模型实力相当,因而它们的评分是否应当持平。相反,我们推测平局更多反映了查询的难度:如果查询过于简单,那么两个模型更可能同样成功。在三个真实世界的竞技场数据集上,我们发现,忽略平局时的评分更新,对于所研究的全部四种评分系统,对决结果预测准确率(包括平局)相对提升了1-3%。进一步分析表明,平局更常出现在被评定为非常容易和高度客观的查询中,风险比分别为1.37和1.35。我们建议未来的评分系统重新考虑现有的平局语义,并在评分更新中考虑查询属性。
近期,强化后训练(Reinforcement Post-Training, RPT)的进展显著提升了大规模推理模型(Large Reasoning Models, LRMs)的能力,激发了人们对基于强化学习的推理泛化能力的浓厚兴趣。尽管现有研究主要集中于探讨其跨任务或跨模态的泛化性,本研究提出了一种新颖的跨语言视角来探究推理泛化。这引发了一个关键问题:通过英语RPT获得的推理能力能否有效迁移至其他语言?我们通过系统评估以英语为中心的LRMs在多语言推理基准上的表现,并引入一个量化跨语言迁移性的指标来解答这一问题。研究发现,跨语言迁移性在初始模型、目标语言及训练范式间存在显著差异。通过干预性研究,我们发现初始英语能力更强的模型往往过度依赖英语特有的模式,导致跨语言泛化能力下降。为解决这一问题,我们进行了深入的并行训练研究。实验结果揭示了三个关键发现:首先是“首次并行飞跃”,即从单语言训练转向仅增加一种并行语言时性能的显著提升;其次是可预测的“并行扩展定律”,表明跨语言推理迁移遵循训练并行语言数量的幂律关系;此外,我们识别出实际单语言性能与幂律预测之间的差异为“单语言泛化鸿沟”,表明以英语为中心的LRMs未能完全实现跨语言泛化。本研究挑战了LRM推理模拟人类认知的假设,为开发更具语言通用性的LRMs提供了重要洞见。
传统的多层感知机(MLPs)通常采用窄-宽-窄的设计模式,其中跳跃连接在输入/输出维度上运作,而处理过程则在扩展的隐藏空间中进行。我们对此传统提出挑战,提出了一种宽-窄-宽(沙漏型)MLP模块,其中跳跃连接在扩展维度上运作,而残差计算则通过狭窄的瓶颈流动。这种反转利用高维空间进行增量优化,同时通过参数匹配设计保持计算效率。实现沙漏型MLPs需要初始投影将输入信号提升至扩展维度。我们提出,这一投影可以在整个训练过程中保持随机初始化不变,从而实现高效的训练和推理实施。我们在流行图像数据集上的生成任务中评估了这两种架构,通过系统性的架构搜索描绘了性能-参数的帕累托前沿。结果显示,沙漏型架构在帕累托前沿上始终优于传统设计。随着参数预算的增加,最优的沙漏型配置倾向于更深的网络、更宽的跳跃连接和更窄的瓶颈——这一扩展模式与传统MLPs截然不同。我们的研究结果表明,在现代架构中重新考虑跳跃连接的布局具有潜力,其应用可能扩展到Transformer及其他残差网络。
大型语言模型(LLMs)当前在众多公开数学测试集上表现优异,然而数学领域内的前沿区分度正日益受到天花板效应的制约。我们推出了两项互补的基准测试:SKYLENAGE-ReasoningMATH,一个包含100道题目的结构化诊断集,每道题均附有关于长度、数字密度及符号复杂度的元数据;以及SKYLENAGE-MATH,一个涵盖从高中至博士四个阶段、按七大学科分类的150道竞赛风格测试集。我们在统一设置下评估了十五种当代LLM变体,并分析了学科与模型、年级与模型间的表现差异。在竞赛测试集中,最强模型达到44%的准确率,次优模型为37%;从高中到博士阶段,准确率呈下降趋势,顶级系统在博士至高中阶段的保持率接近79%。在推理测试集中,最佳模型整体准确率为81%,最难子集的结果揭示了领先者与中游模型间显著的鲁棒性差距。总之,我们发布了SKYLENAGE-ReasoningMATH并报告了SKYLENAGE-MATH的汇总结果;SKYLENAGE共同构成了一套难度校准、元数据丰富、以推理为核心且覆盖广泛的数学基准,为未来数学推理评估提供了参考标准。
医学图像质量评估(IQA)作为临床AI的第一道安全关卡,现有方法仍受限于基于标量评分的指标,无法反映专家评估中核心的描述性、类人推理过程。为填补这一空白,我们推出了MedQ-Bench,一个全面的基准测试,它通过多模态大语言模型(MLLMs)建立了基于语言的医学图像质量评估的感知-推理范式。MedQ-Bench定义了两项互补任务:(1) MedQ-感知,通过人类精心策划的关于基础视觉属性的问题,探究低层次感知能力;(2) MedQ-推理,包含无参考和比较推理任务,使模型评估与人类对图像质量的推理方式对齐。该基准覆盖五种成像模态及超过四十项质量属性,总计2600个感知查询和708项推理评估,涵盖多样化的图像来源,包括真实临床采集、基于物理重建的模拟退化图像及AI生成图像。为评估推理能力,我们提出了一套多维度评判协议,从四个互补维度评估模型输出。我们进一步通过比较基于LLM的评判与放射科医生的判断,进行了严格的人机一致性验证。对14种最先进MLLMs的评估显示,模型展现出初步但不稳定的感知与推理能力,其准确性尚不足以可靠地应用于临床。这些发现强调了在医学IQA领域对MLLMs进行针对性优化的必要性。我们期望MedQ-Bench能激发更多探索,释放MLLMs在医学图像质量评估中的未开发潜力。
双编码器检索模型依赖于一个基本原则:对于给定查询,相关文档的得分应高于不相关文档。然而,主导性的噪声对比估计(NCE)目标函数,作为对比损失的基础,优化的是一个软化的排序替代指标。我们严格证明,该指标从根本上忽视了得分分离质量,且与AUC(曲线下面积)无关。这种不匹配导致了在下游任务(如检索增强生成,RAG)中的校准不佳和性能次优。为应对这一根本性局限,我们引入了MW损失,一种新的训练目标,旨在最大化曼-惠特尼U统计量,该统计量在数学上等同于ROC曲线下的面积(AUC)。MW损失通过最小化得分差异上的二元交叉熵,激励每一对正负样本正确排序。我们提供了理论保证,证明MW损失直接上界于AoC,从而更好地将优化目标与检索任务对齐。我们进一步提倡将ROC曲线和AUC作为评估检索器校准和排序质量的自然无阈值诊断工具。实证表明,采用MW损失训练的检索模型在AUC和标准检索指标上持续超越对比损失模型。我们的实验证实,MW损失是对比损失的一个实证上更优的替代方案,为诸如RAG等高风险应用提供了校准更佳、区分能力更强的检索模型。
文本匿名化对于在医疗、社会服务及法律等高风险领域负责任地开发与部署人工智能至关重要。本研究提出了一种新颖的隐私保护合成文本生成方法,该方法结合了去标识化原则与“隐于市”(HIPS)理论。我们的方法引入了实体感知控制码,通过上下文学习(ICL)或前缀调优来引导可控生成。其中,ICL变体确保了与底层去标识系统一致的隐私级别,而前缀调优变体则采用定制掩码策略和损失函数,以支持可扩展的高质量生成。在司法和临床数据集上的实验表明,我们的方法在隐私保护与实用性之间实现了良好平衡,为敏感领域的合成文本生成提供了一个实用且有效的解决方案。
将大型语言模型(LLMs)与物联网(IoT)系统集成面临硬件异构性和控制复杂性的重大挑战。模型上下文协议(MCP)作为关键推动因素应运而生,为LLMs与物理设备之间的通信提供了标准化支持。我们提出了IoT-MCP,这一新颖框架通过边缘部署的服务器实现MCP,以桥接LLMs与IoT生态系统。为了支持严谨的评估,我们引入了IoT-MCP Bench,这是首个包含114项基础任务(例如,“当前温度是多少?”)和1,140项复杂任务(例如,“我感觉很热,你有什么建议吗?”)的基准测试,专为支持IoT的LLMs设计。在22种传感器类型和6种微控制器单元上的实验验证表明,IoT-MCP在生成完全符合预期的工具调用并获取完全准确结果方面实现了100%的任务成功率,平均响应时间为205毫秒,峰值内存占用为74KB。本工作不仅提供了一个开源集成框架(https://github.com/Duke-CEI-Center/IoT-MCP-Servers),还为LLM-IoT系统提供了标准化的评估方法。
随着大型语言模型(LLMs)规模的扩大,问题不仅在于它们变得多大,更在于其容量被有效利用的程度。现有的扩展法则将模型规模与损失相关联,却忽视了各组件如何利用其潜在空间。我们研究了前馈网络(FFNs),并将宽度选择重新定义为频谱利用问题。通过一套轻量级诊断工具——硬秩(参与率)、软秩(香农秩)、频谱集中度以及综合的频谱利用指数(SUI)——我们量化了在LLaMA、GPT-2和nGPT系列中,有多少潜在方向被有意义地激活。我们的关键发现是一条非对称的频谱扩展法则:软秩随FFN宽度几乎完美地遵循幂律增长,而硬秩仅呈次线性增长且方差较大。这种非对称性表明,增加FFN宽度主要添加了低能量的尾部方向,而主导模式的子空间则较早饱和。此外,在更大宽度下,方差进一步坍缩至狭窄的子空间,导致大部分潜在空间未被充分利用。这些发现将FFN宽度选择重新定义为尾部容量与主导模式容量之间的原则性权衡,为推理高效的大型语言模型设计提供了具体指导。
组合图像检索(Composed Image Retrieval, CIR)旨在检索出既保留参考图像视觉内容,又融入用户指定文本修改的目标图像。无需特定任务训练或标注数据的零样本CIR(ZS-CIR)方法极具吸引力,但准确捕捉用户意图仍面临挑战。本文提出SQUARE,一种新颖的两阶段无训练框架,利用多模态大语言模型(MLLMs)增强ZS-CIR。在语义查询增强融合(SQAF)阶段,我们通过MLLM生成的目标图像描述,丰富了源自视觉语言模型(如CLIP)的查询嵌入。这些描述提供高层次语义指导,使查询更好地捕捉用户意图,提升全局检索质量。在高效批量重排序(EBR)阶段,将排名靠前的候选图像以带有视觉标记的网格形式呈现给MLLM,后者对所有候选进行联合视觉-语义推理。我们的重排序策略单次执行即可,产生更准确的排序结果。实验表明,SQUARE凭借其简洁高效,在四个标准CIR基准测试中展现出强劲性能。值得注意的是,即使使用轻量级预训练模型,它仍保持高性能,彰显了其潜在的应用价值。
近期思维模型通过扩展测试时计算能力来解决复杂推理任务,但这种扩展必须与任务难度相匹配。一方面,过短的推理(欠思考)会导致在需要多步推理的难题上出错;而另一方面,过长的推理(过度思考)则可能造成令牌效率低下,即便在得出正确中间解后仍生成不必要的步骤。我们将此现象称为适应性不足,即模型无法根据问题难度适当调整其响应长度。为解决适应性不足并在欠思考与过度思考之间取得平衡,我们提出了TRAAC(通过自适应、注意力压缩实现正确思考),这是一种在线后训练强化学习方法,它利用模型在长推理轨迹上的自注意力机制来识别关键步骤并剪除冗余部分。TRAAC还估计任务难度,并将其融入训练奖励中,从而学会根据示例难度分配相应的推理资源。相较于基础模型及其他强化学习基线,我们的方法提升了准确性,减少了推理步骤,并实现了自适应思考。在多项任务(AIME、AMC、GPQA-D、BBEH)中,TRAAC(基于Qwen3-4B)相比基础模型平均绝对准确率提升8.4%,推理长度相对减少36.8%;与最佳强化学习基线相比,准确率提升7.9%,推理长度减少29.4%。TRAAC还展现出强大的泛化能力:尽管模型在数学数据集上训练,但在分布外的非数学数据集如GPQA-D、BBEH及OptimalThinkingBench上也实现了准确率和效率的提升。我们的分析进一步证实,TRAAC能基于难度对思考资源进行细粒度调整,且任务难度校准与基于注意力的压缩相结合,能在多样任务中带来收益。
设计满足多重且常相互冲突目标的序列,是治疗与生物分子工程中的核心挑战。现有的生成框架大多在连续空间内运作,依赖单一目标指导,而离散方法则缺乏对多目标帕累托最优性的保证。我们提出了AReUReDi(用于精炼离散流的退火校正更新),这是一种具有理论保证能收敛至帕累托前沿的离散优化算法。基于校正离散流(ReDi),AReUReDi结合了切比雪夫标量化、局部平衡提议以及退火Metropolis-Hastings更新,以偏向于帕累托最优状态进行采样,同时保持分布不变性。应用于肽和SMILES序列设计时,AReUReDi能同时优化多达五种治疗特性(包括亲和力、溶解性、溶血性、半衰期及抗污性),并超越了基于进化和扩散的基线方法。这些成果确立了AReUReDi作为一个强大的、基于序列的多属性生物分子生成框架的地位。