每日精选AI研究论文及翻译
诸如深度研究(Deep Research)等网络智能体已展现出超越人类的认知能力,能够解决极具挑战性的信息检索问题。然而,大多数研究仍主要聚焦于文本,忽视了现实世界中的视觉信息。这使得多模态深度研究面临巨大挑战,因为这类智能体在感知、逻辑、知识运用及使用更复杂工具方面,相较于纯文本智能体,需要具备更强大的推理能力。为克服这一局限,我们推出了WebWatcher,一款具备增强视觉-语言推理能力的多模态深度研究智能体。它利用高质量合成多模态轨迹进行高效的冷启动训练,借助多种工具进行深度推理,并通过强化学习进一步提升泛化能力。为了更好地评估多模态智能体的能力,我们提出了BrowseComp-VL,一个BrowseComp风格的基准测试,要求进行涉及视觉与文本信息的复杂信息检索。实验结果表明,WebWatcher在四项具有挑战性的视觉问答(VQA)基准测试中显著优于专有基线、RAG工作流及开源智能体,为解决复杂的多模态信息检索任务开辟了道路。
从单张图像或文本提示生成可探索的三维世界构成了空间智能的基石。近期研究利用视频模型实现了广域且可泛化的三维世界生成。然而,现有方法在生成场景时往往存在范围受限的问题。本研究中,我们提出了Matrix-3D框架,该框架采用全景表示法,结合条件视频生成与全景三维重建技术,实现了广覆盖、全向可探索的三维世界生成。我们首先训练了一个轨迹引导的全景视频扩散模型,该模型以场景网格渲染为条件,确保生成高质量且几何一致的场景视频。为了将全景场景视频提升至三维世界,我们提出了两种独立的方法:(1) 一种前馈式大型全景重建模型,用于快速三维场景重建;(2) 一种基于优化的流程,用于精确且细致的三维场景重建。为了支持有效训练,我们还引入了Matrix-Pano数据集,这是首个大规模合成集合,包含11.6万条高质量静态全景视频序列,附带深度与轨迹标注。大量实验证明,我们提出的框架在全景视频生成和三维世界生成方面均达到了业界领先水平。更多详情请访问https://matrix-3d.github.io。
近期,基于大语言模型(LLM)的智能体在整合外部工具处理复杂、知识密集型任务方面展现了显著能力。在众多工具选择中,搜索工具在获取海量外部知识方面扮演着关键角色。然而,开源智能体在实现专家级搜索智能——即解决模糊查询、生成精准搜索、分析结果及进行深入探索的能力上仍有不足。现有方法在可扩展性、效率及数据质量方面存在局限。例如,现有在线强化学习(RL)方法中较小的回合限制(如≤10)制约了复杂策略的学习。本文介绍了ASearcher,一个用于大规模搜索智能体RL训练的开源项目。我们的主要贡献包括:(1)可扩展的全异步RL训练,支持长周期搜索的同时保持高训练效率;(2)基于提示的LLM智能体,自主合成高质量且具挑战性的问答对,构建大规模QA数据集。通过RL训练,我们的基于提示的QwQ-32B智能体在xBench和GAIA上分别实现了46.7%和20.8%的Avg@4提升。值得注意的是,我们的智能体展现了极长的搜索周期,训练期间工具调用超过40回合,输出标记数超过15万。凭借简洁的智能体设计且无需外部LLM,ASearcher-Web-QwQ在xBench和GAIA上的Avg@4得分分别达到42.1和52.8,超越了现有的开源32B智能体。我们在https://github.com/inclusionAI/ASearcher开源了模型、训练数据及代码。
指令遵循能力推动了大规模语言模型(LLMs)的新时代,并构成了诸如推理和代理行为等更高级能力的基础技能。随着任务难度增加,自然语言指令中嵌入的逻辑结构变得愈发复杂。然而,LLMs在此类富含逻辑的指令上的表现仍未被充分探索。我们提出了LogicIFGen和LogicIFEval。LogicIFGen是一个可扩展的自动化框架,用于从代码函数生成可验证的指令,这些指令能自然表达丰富的逻辑,如条件语句、嵌套、递归和函数调用。我们进一步精选了一系列复杂代码函数,并利用LogicIFGen构建了LogicIFEval,这是一个包含426条可验证的富含逻辑指令的基准测试集。我们的实验表明,当前最先进的LLMs在正确遵循LogicIFEval中的指令方面仍存在困难。大多数LLMs只能遵循不到60%的指令,揭示了其在指令遵循能力上的显著不足。代码与基准测试集:https://github.com/mianzhang/LogicIF
本文提出CharacterShot,一个可控且一致的4D角色动画框架,使任何设计师都能从单一参考角色图像和2D姿态序列中创建动态3D角色(即4D角色动画)。我们首先基于前沿的DiT图像到视频模型预训练一个强大的2D角色动画模型,该模型允许任何2D姿态序列作为可控信号。随后,通过引入双注意力模块并结合相机先验,我们将动画模型从2D提升至3D,生成具有时空一致性和空间视角一致性的多视角视频。最后,我们对这些多视角视频采用新颖的邻域约束4D高斯溅射优化,得到连续稳定的4D角色表示。此外,为提升角色中心性能,我们构建了一个大规模数据集Character4D,包含13,115个具有多样外观和动作的独特角色,从多个视角渲染而成。在我们新构建的基准测试CharacterBench上的大量实验表明,我们的方法优于当前最先进的技术。代码、模型和数据集将在https://github.com/Jeoyal/CharacterShot 公开提供。
扩散大语言模型(dLLMs)通过迭代去噪生成文本,然而当前的解码策略舍弃了丰富的中间预测,仅保留最终输出。我们的研究揭示了一个关键现象——时间振荡,即正确答案常在中间过程出现,但在后续去噪步骤中被覆盖。为解决这一问题,我们提出了两种利用时间一致性的互补方法:1)时间自一致性投票,一种无需训练、在测试时应用的解码策略,通过聚合去噪步骤中的预测来选择最一致的输出;2)一种称为时间一致性强化的训练后方法,它使用时间语义熵(TSE)——衡量中间预测间语义稳定性的指标——作为奖励信号,以促进生成稳定性。多项基准测试的实证结果验证了我们方法的有效性。仅使用负TSE奖励,我们在Countdown数据集上观察到现有dLLM平均提升了24.7%。结合准确率奖励,我们分别在GSM8K、MATH500、SVAMP和Countdown上实现了2.0%、4.3%、6.6%和25.3%的绝对提升。我们的发现强调了dLLMs中时间动态的未开发潜力,并提供了两种简单而有效的工具来利用它们。
近期,大型推理模型在数学与编程能力上展现出强大实力,而深度搜索则利用其推理能力应对复杂的信息检索任务。现有的深度搜索工作通常局限于单一知识源,无论是本地还是网络。然而,企业往往需要能够同时利用本地和网络语料库搜索工具的私有深度搜索系统。简单地通过平面强化学习(RL)训练一个配备多种搜索工具的代理,虽是一个直观的想法,却存在训练数据效率低下及对复杂工具掌握不足等问题。为解决上述问题,我们提出了一种采用分层RL训练的层次化代理深度搜索框架——HierSearch。在底层,分别训练一个本地深度搜索代理和一个网络深度搜索代理,以从各自领域检索证据。在高层,一个规划代理协调底层代理并提供最终答案。此外,为防止直接复制答案及错误传播,我们设计了一个知识精炼器,用于过滤掉底层代理返回的幻觉及无关证据。实验表明,与平面RL相比,HierSearch在性能上表现更优,并在涵盖通用、金融及医疗领域的六个基准测试中,超越了多种深度搜索及多源检索增强生成基线方法。
我们提出了VertexRegen,一种新颖的网格生成框架,能够在连续细节层次上进行生成。现有的自回归方法以部分到完整的方式生成网格,因此生成过程中的中间步骤代表的是不完整的结构。VertexRegen从渐进式网格中汲取灵感,将生成过程重新表述为边折叠的逆过程,即顶点分割,并通过生成模型进行学习。实验结果表明,VertexRegen生成的网格质量与最先进的方法相当,同时独特地提供了随时生成的能力,能够在任何步骤灵活停止,从而产生具有不同细节层次的有效网格。
视觉语言模型已展现出作为计算机使用代理(CUA)的卓越能力,能够自动化执行多样化的计算机任务。随着其商业潜力的增长,最先进的CUA系统的关键细节仍处于封闭状态。鉴于这些代理将越来越多地调解数字交互并代表我们执行重要决策,研究界需要开放CUA框架来深入探究其能力、局限及风险。为填补这一空白,我们提出了OpenCUA,一个全面的开源框架,旨在扩展CUA数据与基础模型。该框架包含:(1)一套无缝捕捉人类计算机使用示范的标注基础设施;(2)AgentNet,首个跨3个操作系统、覆盖200多个应用与网站的大规模计算机使用任务数据集;(3)一个可扩展的流程,将示范转化为状态-动作对,并融入反思性长链思维推理,确保随着数据规模扩大,性能持续稳健提升。我们的端到端代理模型在CUA基准测试中表现强劲,特别是OpenCUA-32B在OSWorld-Verified上平均成功率达到了34.8%,在开源模型中树立了新的技术标杆(SOTA),超越了OpenAI的CUA(GPT-4o)。进一步分析证实,我们的方法跨领域泛化能力强,且显著受益于测试时计算资源的增加。我们公开了标注工具、数据集、代码及模型,为CUA的进一步研究构建开放基础。
图形用户界面(GUI)定位任务,即将自然语言指令映射到精确的屏幕坐标,是自主GUI代理的基础。尽管现有方法通过大量监督训练或带有标注奖励的强化学习取得了强劲性能,但它们仍受限于像素级标注的成本和可用性。我们观察到,当模型对同一GUI元素生成多个预测时,空间重叠模式揭示了可引导更精准定位的隐含置信度信号。基于这一洞察,我们提出了GUI-RC(区域一致性),一种测试时扩展方法,通过从多个采样预测构建空间投票网格,以识别模型表现出最高一致性的共识区域。无需任何训练,GUI-RC在ScreenSpot基准测试上,将多种架构的准确率提升了2-3%。我们进一步引入了GUI-RCPO(区域一致性策略优化),将这些一致性模式转化为测试时强化学习的奖励。通过计算每个预测与集体共识的契合度,GUI-RCPO使模型能够在推理过程中对未标注数据迭代优化其输出。大量实验证明了我们方法的普适性:GUI-RC将Qwen2.5-VL-3B-Instruct在ScreenSpot-v2上的准确率从80.11%提升至83.57%,而GUI-RCPO通过自监督优化进一步将其提升至85.14%。我们的方法揭示了测试时扩展和测试时强化学习在GUI定位中未被开发的潜力,为构建更健壮、数据效率更高的GUI代理开辟了一条有前景的道路。
近期在提升大型语言模型(LLMs)推理能力的研究中,引入了显式长度控制作为在保持准确性的同时约束计算成本的手段。然而,现有方法依赖于固定长度的训练预算,未能充分利用学习过程中从探索到压缩的自然进程。在本研究中,我们提出了一种基于课程学习的长度控制推理策略,采用组相对策略优化(GRPO)。该方法从宽松的令牌预算开始,并在训练过程中逐步收紧,鼓励模型首先发现有效的解决策略,随后将其提炼为更简洁的推理轨迹。我们通过一个奖励函数增强了GRPO,该函数平衡了三个信号:任务正确性(通过验证器反馈)、长度效率以及格式遵循(通过结构标签)。在GSM8K、MATH500、SVAMP、大学数学及GSM+数据集上的实验表明,基于课程学习的训练在相同最终预算下持续优于固定预算基线,实现了更高的准确性和显著提升的令牌效率。我们进一步分析了奖励权重和衰减调度设计的影响,证明渐进约束作为训练高效推理模型的强大归纳偏置。我们的代码和检查点已发布于:https://github.com/hammoudhasan/curriculum_grpo。
当前基于音频驱动的虚拟形象视频生成扩散模型在合成自然音频同步且身份一致的长视频方面面临挑战。本文提出了StableAvatar,这是首个无需后处理即可合成无限长度高质量视频的端到端视频扩散Transformer模型。StableAvatar以参考图像和音频为条件,集成了定制化的训练与推理模块,实现了无限长度视频的生成。我们发现,现有模型难以生成长视频的主要原因在于其音频建模方式。这些模型通常依赖第三方现成的提取器获取音频嵌入,随后通过交叉注意力直接注入扩散模型。由于当前扩散模型骨干缺乏与音频相关的先验知识,这种方法会导致视频片段间潜在分布误差的严重累积,使得后续片段的潜在分布逐渐偏离最优分布。为解决这一问题,StableAvatar引入了一种新颖的时间步感知音频适配器,通过时间步感知调制防止误差累积。在推理阶段,我们提出了一种音频原生引导机制,利用扩散模型自身演进的联合音频-潜在预测作为动态引导信号,进一步增强了音频同步性。为提升无限长度视频的流畅度,我们引入了动态加权滑动窗口策略,随时间融合潜在表示。基准测试实验从定性和定量两方面验证了StableAvatar的有效性。
文本到图像(T2I)生成技术已通过扩散模型和自回归模型得到了深入研究。近期,掩码生成式Transformer作为一种替代自回归模型的方法,因其双向注意力机制与并行解码能力,有效克服了因果注意力及自回归解码的固有局限,实现了高效且高质量的图像生成。然而,组合式T2I生成仍面临挑战,即便是最先进的扩散模型也常难以精确绑定属性并确保文本与图像的准确对齐。尽管扩散模型在此问题上已得到广泛探讨,掩码生成式Transformer虽表现出相似局限,却尚未在此背景下被深入探究。为此,我们提出了“对比注意力引导下的解掩码”(UNCAGE),一种无需额外训练的新方法,它通过利用注意力图优先解掩那些明确代表单个对象的标记,从而提升组合保真度。UNCAGE在多个基准测试和评价指标上均展现出性能的持续提升,且推理开销微乎其微。我们的代码已公开于https://github.com/furiosa-ai/uncage。
我们推出Aryabhata 1.0,这是一款专为印度学术考试——联合入学考试(JEE)优化的紧凑型7B参数数学推理模型。尽管大型语言模型(LLMs)发展迅速,现有模型往往仍不适用于教育场景。Aryabhata 1.0通过融合多个强大的开源推理模型构建而成,随后采用课程学习策略,在精选的链式思维(CoT)轨迹上进行监督微调(SFT),这些轨迹通过最佳n次拒绝采样法验证。为进一步提升性能,我们应用了基于可验证奖励的强化学习(RLVR),采用A2C目标配合群体相对优势估计,并引入自适应群体大小调整和温度缩放等新颖探索策略。 在分布内(JEE Main 2025)和分布外(MATH, GSM8K)基准测试中,Aryabhata在准确性和效率上均超越现有模型,同时提供具有教学价值的逐步推理过程。我们将Aryabhata作为基础模型发布,旨在推动以考试为中心的开源小型语言模型的发展。这是我们首次公开发布,旨在收集社区反馈(访问https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0在Hugging Face上的页面});PW正积极训练未来模型,以进一步提升学生的学习成效。
高效的工具使用对于大型语言模型(LLMs)与环境进行有意义的交互至关重要。然而,由于构建稳定的训练环境和设计可验证的奖励机制存在挑战,专门针对工具使用的强化学习(RL)框架的进展受到限制。为解决这一问题,我们提出了一种自动化的环境构建流程,该流程融合了场景分解、文档生成、功能集成、复杂度调节以及本地化部署。这一流程能够创建高质量的训练环境,提供详细且可量化的反馈,而无需依赖外部工具。此外,我们引入了一种可验证的奖励机制,该机制不仅评估工具使用的精确性,还考量任务执行的完整性。当与从构建环境中收集的轨迹数据相结合时,此机制能够无缝集成到标准的RL算法中,促进基于反馈的模型训练。在不同规模的LLMs上进行的实验表明,无论推理模式或训练算法如何,我们的方法均显著提升了模型使用工具的性能,且未削弱其通用能力。我们的分析指出,这些性能提升源于模型底层MLP参数的更新,从而推动了上下文理解与推理能力的增强。
高效的多镜头生成需要具备目的性、电影般的转场效果以及严格的镜头连续性。然而,当前的方法往往仅注重基础的视觉一致性,忽视了推动叙事流畅的关键剪辑模式(如正反打镜头、插入镜头等),这些模式对于引人入胜的故事讲述至关重要。这导致生成的输出可能在视觉上连贯,却缺乏叙事的复杂性和真正的电影完整性。为弥补这一差距,我们提出了“下一镜头生成”(Next Shot Generation, NSG):合成一个后续的高质量镜头,该镜头不仅严格遵循专业剪辑模式,还保持了严谨的镜头连续性。我们的框架Cut2Next,基于扩散变换器(Diffusion Transformer, DiT),采用了一种新颖的层次化多提示策略进行上下文调优。该策略通过关系提示(Relational Prompts)定义整体上下文及镜头间的剪辑风格,而个体提示(Individual Prompts)则具体指定每个镜头的内容和摄影属性。这些提示共同引导Cut2Next生成符合电影艺术要求的下一镜头。架构上的创新,包括上下文感知条件注入(Context-Aware Condition Injection, CACI)和层次化注意力掩码(Hierarchical Attention Mask, HAM),进一步整合了这些多样化的信号,且无需引入额外参数。我们构建了RawCuts(大规模)和CuratedCuts(精炼)两个数据集,均配备层次化提示,并引入了CutBench用于评估。实验表明,Cut2Next在视觉一致性和文本忠实度方面表现卓越。尤为重要的是,用户研究显示,用户对Cut2Next有强烈偏好,特别是对其遵循既定剪辑模式和整体镜头连续性的认可,验证了其生成高质量、叙事表达力强且电影连贯的后续镜头的能力。
一只能够实现通用抓取的灵巧手,是发展通用型具身人工智能的基础。然而,现有方法大多局限于低层次的抓取稳定性指标,忽视了对于下游操作至关重要的功能感知定位与类人姿态。为解决这些局限,我们提出了AffordDex,一个采用两阶段训练的新颖框架,旨在学习一种兼具运动先验与物体功能理解的通用抓取策略。在第一阶段,通过在大规模人类手部运动数据上预训练轨迹模仿器,为自然运动注入强先验知识。第二阶段,训练一个残差模块,将这些通用的类人运动适配到特定物体实例上。这一精炼过程由两个关键组件引导:我们的负功能感知分割(NAA)模块,用于识别功能不恰当的接触区域;以及一个特权师生蒸馏过程,确保最终基于视觉的策略高度成功。大量实验表明,AffordDex不仅实现了通用的灵巧抓取,还在姿态上保持高度类人化,在接触位置上功能适宜。因此,AffordDex在已知物体、未见实例乃至全新类别上均显著超越了现有最先进的基线方法。
我们首次提出了一种评估框架,使得任何未经微调或专门训练的本地大型语言模型(LLMs)能够完整参与《外交》游戏的全压模式。以往的研究因《外交》游戏状态的高度复杂性与信息密度,需依赖前沿LLMs或进行模型微调。加之比赛结果的高变异性,这些因素使得《外交》成为难以深入研究的对象。在本研究中,我们采用数据驱动迭代方法,优化了文本游戏状态表示,使得一个240亿参数的模型无需任何微调即可稳定完成比赛。我们开发了工具以促进假设检验与统计分析,并展示了关于说服力、激进玩法风格及不同模型性能的案例研究。我们对多种流行LLMs进行了广泛实验,发现较大模型表现最佳,但较小模型仍能胜任游戏。此外,我们引入了关键状态分析:一种快速迭代并深入分析游戏中关键时刻的实验协议。我们的评估框架通过消除微调需求,实现了对LLMs战略推理能力的民主化评估,并揭示了这些能力如何从广泛使用的LLMs中自然涌现。我们的代码已随附提供,并将开源。
得益于跨模态模型的发展,文本到视频检索(T2VR)技术正迅速进步,但其鲁棒性尚未得到充分检验。现有的T2VR攻击主要旨在将视频推离查询,即降低视频的排名,而将视频拉向特定查询,即提升视频排名的攻击方式则鲜有研究。这类攻击可能更具影响力,因为攻击者可通过增加观看/点击量获取经济利益并广泛传播(错误)信息。为此,我们率先提出了一种针对T2VR的视频提升攻击,命名为视频推广攻击(ViPro)。我们进一步提出了模态精炼(MoRe)方法,以捕捉视觉与文本模态间更细粒度、复杂的交互,从而增强黑盒迁移能力。全面的实验涵盖了2个现有基线、3个领先的T2VR模型、3个主流数据集中的超过1万条视频,并在3种场景下进行评估。所有实验均在多目标设置下进行,以反映攻击者同时针对多个查询提升视频排名的现实场景。我们还评估了攻击的防御性和不可察觉性。总体而言,在白盒/灰盒/黑盒设置下,ViPro平均超越其他基线超过30%/10%/4%。我们的工作揭示了一个被忽视的漏洞,提供了攻击上下界的定性分析,并为潜在的对策提供了见解。代码将公开于https://github.com/michaeltian108/ViPro。
本文提出了一种简单而有效的正则化方法,用于优化编码器-解码器自动语音识别(ASR)模型中解码器所诱导的内部语言模型,从而提升模型在域内和域外场景下的鲁棒性与泛化能力。所提出的方法称为解码器中心正则化(DeCRED),通过在解码器中添加辅助分类器,利用中间逻辑值实现下一词元预测。实验表明,DeCRED在11个测试集上相对降低了内部语言模型的BPE困惑度达36.6%。此外,该方法在7个域内测试集中的5个以及4个域外测试集中的3个上,均实现了相对于基线的词错误率(WER)改进,将宏平均WER分别从6.4%降至6.3%和从18.2%降至16.2%。在TEDLIUM3数据集上,DeCRED取得了7.0%的WER,较基线和编码器中心的InterCTC正则化分别提升了0.6%和0.5%。最后,我们将DeCRED与OWSM v3.1及Whisper-medium进行了对比,结果显示尽管DeCRED在训练数据量和参数规模上远小于后者,仍能取得具有竞争力的WER表现。
诸如GitHub Copilot等AI编程助手正迅速改变软件开发的面貌,但其安全性仍存在极大不确定性,尤其是在网络安全等高风险领域。现有的红队测试工具多依赖固定基准或不切实际的提示,往往遗漏了许多现实世界中的漏洞。我们推出了ASTRA,一个旨在系统性揭示AI驱动代码生成与安全指导系统安全缺陷的自动化代理系统。ASTRA通过三个阶段运作:(1)构建结构化的领域知识图谱,以建模复杂的软件任务及已知弱点;(2)在知识图谱的引导下,对每个目标模型进行在线漏洞探索,自适应地探测其输入空间(即空间探索)及推理过程(即时间探索);(3)生成高质量违规诱导案例,以提升模型的对齐度。与以往方法不同,ASTRA专注于开发者实际可能提出的真实输入请求,并利用离线抽象引导的领域建模与在线领域知识图谱适应,揭示边缘案例漏洞。在两大评估领域中,ASTRA发现的漏洞比现有技术多出11%至66%,其生成的测试案例使对齐训练效果提升17%,彰显了其在构建更安全AI系统中的实用价值。
本文提出了一种轻量级视觉增强技术——AimBot,通过提供明确的空间线索来提升机器人操作中的视觉运动策略学习。AimBot在多个视角的RGB图像上叠加射击线和瞄准镜十字线,为末端执行器状态编码提供辅助视觉引导。这些叠加信息由深度图像、相机外参及当前末端执行器姿态计算得出,明确传达了夹爪与场景中物体间的空间关系。AimBot引入的计算开销极低(小于1毫秒),且无需改变模型架构,仅需将原始RGB图像替换为增强后的版本。尽管方法简单,实验结果表明,无论是在仿真还是真实环境中,AimBot均能持续提升多种视觉运动策略的性能,凸显了基于空间定位的视觉反馈的优势。
大型语言模型(LLMs)在多个领域展现了卓越的能力,其中代码生成已成为一个关键研究方向。尽管已有众多基准测试被提出以评估其代码生成能力,但这些基准测试面临几项关键局限。首先,它们往往依赖人工标注,这不仅耗时,且难以在不同编程语言和问题复杂度间扩展。其次,现有基准测试大多集中于Python,而少数多语言基准测试则存在难度有限和语言分布不均的问题。为应对这些挑战,我们提出了AutoCodeGen,一种无需人工标注即可自动生成高难度多语言代码生成数据集的方法。AutoCodeGen通过利用LLMs生成测试输入,并通过多语言沙箱获取测试输出,确保了测试用例的正确性和完整性,同时通过逆向问题生成和多步过滤实现了高质量数据。基于这一创新方法,我们推出了AutoCodeBench,一个包含3,920个问题、均匀分布于20种编程语言的大规模代码生成基准测试,专为评估LLMs在具有挑战性、多样性和实用性的多语言任务上的表现而设计。我们对超过30个领先的开源和专有LLMs在AutoCodeBench及其简化版AutoCodeBench-Lite上进行了评估,结果显示,即便是最先进的LLMs在面对这些任务的复杂性、多样性和多语言特性时也显得力不从心。此外,我们还推出了专为基础模型设计的AutoCodeBench-Complete,用以评估其少样本代码生成能力。我们期望AutoCodeBench系列能成为宝贵的资源,激励社区关注更具挑战性和实用性的多语言代码生成场景。
大型语言模型(LLMs)在机器翻译(MT)任务中,通过上下文学习(ICL)展现了优异性能,尤其是在翻译至高资源语言(HRLs)时,其表现可与监督模型相媲美。然而,在翻译至低资源语言(LRLs)时,LLMs的表现则相对滞后。通过相似性搜索进行示例选择及监督微调虽能带来一定改善,但这些改进受限于现有平行语料库的规模、质量及多样性。低资源机器翻译中常用的一种技术是合成平行数据生成,其中最为普遍的是回译法,即将已有的目标语言文本自动翻译回源语言。然而,这种方法依赖于高质量且相关的目标语言文本的存在,而这对许多低资源语言而言并不易得。本文提出了TopXGen,一种基于LLM的方法,用于在多种低资源语言中生成高质量且主题多样的数据,随后通过回译产生适用于ICL和微调的有用且多样化的平行文本。我们的直觉是,尽管LLMs在翻译至低资源语言时面临挑战,但它们在高资源语言翻译上的出色表现及其多语言能力,使其能够生成高质量、自然流畅的目标语言文本,这些文本能够被良好地翻译回高资源源语言。我们展示了TopXGen在微调和上下文学习过程中显著提升了LLM的翻译性能。代码及输出结果可在https://github.com/ArmelRandy/topxgen获取。
尽管大型语言模型的能力日益增强,但期望它们在互联网上代表性不足的任务中表现出色仍是不切实际的。利用LLMs进行专门应用,特别是在小众编程语言和私有领域,依然充满挑战且大多未得到解决。本研究中,我们通过提出一种全面的开源方法,针对Q编程语言(量化金融中广泛使用但相较于Python、C、Java等“主流”语言在互联网上存在感较弱的工具)适配LLMs,填补了这一空白。我们引入了一个新的LeetCode风格Q语言评估数据集,对主要前沿模型进行了基准测试,随后通过预训练、监督微调和强化学习,基于Qwen-2.5系列训练了一系列推理与非推理模型,涵盖五个参数规模(1.5B、3B、7B、14B、32B)。我们的最佳模型在Q基准测试中实现了59%的pass@1准确率,超越了表现最优的前沿模型Claude Opus-4达29.5个百分点。此外,所有模型,即便是我们的1.5B模型,在此任务上也均优于GPT-4.1。除了发布模型、代码和数据外,我们还提供了数据集构建、模型预训练、监督微调及强化学习的详细蓝图。我们的方法具有广泛适用性,并探讨了这些技术如何扩展到其他任务,包括那些评估可能依赖于软性或主观信号的任务。
针对3D高斯溅射的风格迁移任务,已有诸多研究探索,但这些方法通常需要在融入风格信息的同时重建或微调溅射,或是在溅射表示上优化特征提取网络。我们提出了一种无需重建与优化的3D高斯溅射风格化方法。该方法通过在溅射表示的隐式表面上构建图结构来实现。随后,采用一种基于表面的前馈式风格化技术,并将其插值回场景中的各个溅射。这一过程使得任何风格图像与3D高斯溅射都能直接应用,无需额外训练或优化。此外,该方法还能实现溅射的快速风格化,即便在消费级硬件上也能在2分钟内完成。我们展示了该途径所达到的高质量成果,并与其他3D高斯溅射风格迁移方法进行了对比。相关代码已公开于https://github.com/davidmhart/FastSplatStyler。
在真实硬件上实现量子博弈论面临噪声、退相干和量子比特连接性有限等挑战,然而此类实验验证对于理论预测的确认至关重要。我们首次在IBM Quantum的ibm sherbrooke超导处理器上,基于Eisert-Wilkens-Lewenstein(EWL)框架,完整实验实现了“性别之战”博弈。通过评估四种量子策略(I、H、R(π/4)、R(π))在31个纠缠参数γ∈[0, π]下的表现,每个配置采用2048次采样,实现了理论预测与硬件执行之间的直接对比。为减轻噪声和变异性,我们引入了一种引导式电路映射(GCM)方法,该方法根据实时拓扑和校准数据动态选择量子比特对并优化路由。理论模型预测相较于经典均衡策略的收益提升可达108%,尽管存在硬件引入的偏差,采用GCM的实验结果仍将预期收益趋势保持在3.5%-12%的相对误差范围内。这些发现表明,在现实的NISQ(噪声中尺度量子)条件下,战略协调中的量子优势依然能够持续,为量子博弈论在多智能体、经济及分布式决策系统中的实际应用开辟了道路。
理解大型语言模型(LLMs)权重中编码的偏见和刻板印象,对于制定有效的缓解策略至关重要。偏见行为往往微妙且难以孤立,即便刻意引发,也使得系统性分析和去偏特别具有挑战性。为此,我们引入了BiasGym,一个简单、经济且可推广的框架,用于在LLMs中可靠地注入、分析和缓解概念性关联。BiasGym包含两个组件:BiasInject,通过基于标记的微调将特定偏见注入模型,同时保持模型冻结;以及BiasScope,利用这些注入的信号识别并引导负责偏见行为的组件。我们的方法能够为机制分析提供一致的偏见引发,支持在不降低下游任务性能的情况下进行针对性去偏,并能泛化至训练期间未见过的偏见。我们展示了BiasGym在减少现实世界刻板印象(如某国人民是“鲁莽司机”)和探索虚构关联(如某国人民拥有“蓝色皮肤”)方面的有效性,证明了其在安全干预和可解释性研究中的实用性。
红细胞(RBCs)对人体健康至关重要,其精确的形态学分析对于诊断血液系统疾病具有重要意义。尽管基础模型在医学诊断中展现出巨大潜力,但针对红细胞分析的全面AI解决方案仍然稀缺。我们提出了RedDino,这是一种专为红细胞图像分析设计的自监督基础模型。RedDino采用了DINOv2自监督学习框架的RBC特定适配版本,并在一个包含125万张来自不同采集方式和来源的红细胞图像的精选数据集上进行了训练。广泛的评估表明,RedDino在红细胞形状分类任务上超越了现有的最先进模型。通过包括线性探测和最近邻分类在内的多种评估方法,我们验证了其强大的特征表示能力和泛化性能。我们的主要贡献包括:(1)一个专为红细胞分析定制的基础模型,(2)探索DINOv2配置用于红细胞建模的消融研究,以及(3)对泛化性能的详细评估。RedDino通过捕捉细微的形态特征,解决了计算血液学中的关键挑战,推动了可靠诊断工具的发展。RedDino的源代码和预训练模型可在https://github.com/Snarci/RedDino获取,预训练模型也可从我们的Hugging Face集合中下载,地址为https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc。
城市化、气候变化和农业压力正日益提升对精准及时环境监测的需求。地表温度(LST)作为这一背景下的关键变量,通常通过遥感卫星获取。然而,这些系统在空间与时间分辨率之间面临权衡。尽管时空融合方法提供了有前景的解决方案,但鲜有研究致力于实现每日10米分辨率的LST估算。本研究提出了WGAST,一种基于Terra MODIS、Landsat 8和Sentinel-2数据时空融合的弱监督生成网络,用于每日10米LST估算。WGAST是首个专为此任务设计的端到端深度学习框架,采用条件生成对抗网络架构,其生成器包含四个阶段:特征提取、融合、LST重建及噪声抑制。第一阶段通过一组编码器从输入中提取多层次潜在表示,随后在第二阶段利用余弦相似度、归一化及时间注意力机制进行融合。第三阶段将融合特征解码为高分辨率LST,并通过高斯滤波器抑制高频噪声。训练采用基于物理平均原理的弱监督策略,并辅以PatchGAN判别器强化。实验表明,WGAST在定量与定性评估上均优于现有方法。相较于表现最佳的基线模型,WGAST平均将RMSE降低了17.18%,SSIM提升了11.00%。此外,WGAST对云层导致的LST变化具有鲁棒性,并能有效捕捉细微热力模式,这一能力已通过33个地面传感器验证。代码公开于https://github.com/Sofianebouaziz1/WGAST.git。
大型语言模型(LLMs)的持续学习能力对于推进通用人工智能至关重要。然而,跨多个领域对LLMs进行持续微调常常遭遇灾难性遗忘问题,表现为:1)其通用能力显著遗忘;2)在先前学习任务上的性能急剧下降。为了以简单而稳定的方式同时解决这两个问题,我们提出了通用样本回放(GeRe)框架,该框架利用常规预训练文本实现高效抗遗忘。在GeRe框架下,我们不仅重新审视了最主流的基于回放的实践,还进一步利用神经状态引入了一种基于阈值边际(TM)损失的增强激活状态约束优化方法,该方法在回放学习过程中保持激活状态的一致性。我们首次验证,一小部分预先收集的通用回放样本足以解决上述两个问题——既保留通用能力,又提升在序列任务中的整体性能。事实上,前者本质上能促进后者。通过控制实验,我们系统性地比较了GeRe框架下TM与不同回放策略的效果,包括基础的标签拟合、通过KL散度实现的logit模仿以及通过L1/L2损失实现的特征模仿。结果表明,TM持续提升性能并展现出更好的鲁棒性。我们的工作为未来LLMs的高效回放铺平了道路。代码与数据可在https://github.com/Qznan/GeRe获取。
当前针对大型语言模型(LLMs)的数学推理基准测试正趋于饱和,部分测试准确率已超过90%,且日益受到训练集污染的干扰。为此,我们推出了Putnam-AXIOM基准,该基准包含522道源自享有盛誉的威廉·洛厄尔·普特南数学竞赛的大学级别竞赛题目,以及Putnam-AXIOM变体集,后者由程序化扰动变量和常数生成的100道功能变体组成,确保测试实例的难度相当且未被模型见过,从而构建了一个抗污染测试平台。在原始集上,OpenAI的o1-preview模型——评估中表现最强者——取得了41.9%的准确率,但在配对的变体集上,其准确率下降了19.6%(相对减少46.8%)。其余十八个模型也呈现出相同的下降趋势,其中十个模型的95%置信区间无重叠。这些差距暗示了模型存在记忆现象,并凸显了动态基准测试的必要性。我们不仅采用“盒装”准确率,还引入了教师强制准确率(TFA),这是一种轻量级指标,直接对推理轨迹评分并自动化自然语言证明的评估。因此,Putnam-AXIOM为评估LLMs的高级数学推理能力提供了一个严谨且抗污染的评估框架。相关数据与评估代码已公开于https://github.com/brando90/putnam-axiom。
地球表面持续变化,探测这些变化为人类社会诸多领域提供了宝贵的洞见。尽管传统的变化检测方法已被用于从双时相图像中识别变化,但这些方法通常需要专业知识才能准确解读。为了让非专业用户更广泛、更灵活地获取变化信息,变化检测视觉问答(CDVQA)任务应运而生。然而,现有的CDVQA方法均建立在训练与测试数据集分布相似的假设之上,这一假设在现实应用中往往不成立,因为领域偏移频繁发生。本文重新审视CDVQA任务,着重解决领域偏移问题。为此,引入了一个新的多模态、多领域数据集——BrightVQA,以促进CDVQA领域泛化研究。此外,提出了一种新颖的状态空间模型,称为文本条件状态空间模型(TCSSM)。TCSSM框架旨在统一利用双时相图像与地理灾害相关文本信息,跨领域提取领域不变特征。TCSSM中存在的输入依赖参数通过双时相图像和地理灾害描述动态预测,从而促进双时相视觉数据与相关文本描述之间的对齐。通过大量实验,将所提方法与现有最先进模型进行对比评估,均展现出优越性能。代码与数据集将在论文被接受后公开于https://github.com/Elman295/TCSSM。
随着卷积神经网络和基于Transformer的神经网络的发展,艺术风格迁移技术早已成为可能。大多数算法将艺术风格迁移应用于整幅图像,但个别用户可能仅需对图像中的特定区域进行风格迁移。标准做法是在风格化后简单地使用遮罩处理图像。本研究表明,这种方法往往无法准确捕捉感兴趣区域的风格特征。我们提出了一种基于部分卷积的风格迁移网络,能够精确地将风格特征仅应用于感兴趣区域。此外,我们还引入了网络内部融合技术,以应对区域选择中的不完美之处。通过SA-1B数据集中的示例,我们证明了这种方法在视觉和量化指标上均提升了风格化效果。代码已公开于https://github.com/davidmhart/StyleTransferMasked。
副语言发声——包括笑声、呼吸等非语言声音,以及“嗯”、“哦”等词汇化感叹词——是自然口语交流中不可或缺的组成部分。尽管这些提示在传达情感、意图和互动线索方面至关重要,但在传统的自动语音识别(ASR)和文本转语音(TTS)系统中,这些线索大多被忽视。我们提出了NVSpeech,一个集成且可扩展的管道,它桥接了副语言发声的识别与合成,涵盖了数据集构建、ASR建模和可控TTS。(1)我们引入了一个包含48,430条人类语音、标注有18个词级副语言类别的手工标注数据集。(2)我们开发了副语言感知的ASR模型,该模型将副语言线索视为可解码的内联标记(例如,“你真有趣[笑声]”),实现了词汇与非语言转录的联合处理。此模型随后用于自动标注一个大规模语料库,这是首个包含174,179条话语(573小时)、具有词级对齐和副语言提示的大规模中文数据集。(3)我们在人工标注和自动标注的数据上微调零样本TTS模型,以实现对副语言发声的显式控制,允许在任意标记位置进行上下文感知的插入,以生成拟人化的语音合成。通过统一副语言发声的识别与生成,NVSpeech为普通话表达性语音建模提供了首个开放、大规模、词级标注的管道,以可扩展且可控的方式整合了识别与合成。数据集及音频演示可在https://nvspeech170k.github.io/获取。