每日精选AI研究论文及翻译
我们推出了Hala系列,这是一组以阿拉伯语为核心的指令与翻译模型,采用我们独特的翻译调优流程构建。首先,我们将一个强大的阿拉伯语-英语双向教师模型压缩至FP8精度(实现约两倍的吞吐量提升且无质量损失),并利用其生成高保真的双语监督数据。随后,一个轻量级语言模型LFM2-1.2B在此数据上进行微调,用于将高质量的英文指令集翻译成阿拉伯语,从而生成一个百万量级、专为指令跟随定制的语料库。我们训练了参数规模分别为350M、700M、1.2B和9B的Hala模型,并应用球面线性插值(slerp)融合技术,以平衡阿拉伯语特性与基础模型优势。在以阿拉伯语为核心的基准测试中,Hala在“纳米级”(≤2B)和“小型”(7-9B)类别中均取得了最先进的成果,超越了其基础模型。我们公开了模型、数据、评估方法及训练配方,以加速阿拉伯语自然语言处理领域的研究进展。
我们推出SAIL-VL2,这是一款开放套件的视觉-语言基础模型(LVM),旨在实现全面的多模态理解与推理。作为SAIL-VL的继任者,SAIL-VL2在2B和8B参数规模上,在多样化的图像与视频基准测试中均达到了业界领先水平,展现了从细粒度感知到复杂推理的强大能力。其高效性源于三大核心创新。首先,通过大规模数据筛选管道,结合评分与过滤策略,提升了标注、OCR、问答及视频数据的质量与分布均衡性,从而提高了训练效率。其次,采用渐进式训练框架,从强大的预训练视觉编码器(SAIL-ViT)起步,经过多模态预训练,最终达到思维融合的SFT-RL混合范式,系统性地增强了模型能力。第三,架构创新不仅限于密集大语言模型,还扩展至高效的稀疏专家混合(MoE)设计。凭借这些贡献,SAIL-VL2在106个数据集上展现了竞争力,并在MMMU和MathVista等挑战性推理基准上取得了顶尖成绩。此外,在OpenCompass排行榜上,SAIL-VL2-2B在4B参数规模以下的官方开源模型中名列前茅,同时为开源多模态社区提供了一个高效且可扩展的基础平台。
全方位视觉,即利用360度视角理解环境,在机器人、工业检测和环境监测等领域变得日益重要。与传统针孔视觉相比,全方位视觉提供了全面的环境感知能力,显著提升了场景感知的完整性和决策的可靠性。然而,该领域的基础研究长期以来落后于传统针孔视觉。本次演讲揭示了具身智能时代的一个新兴趋势:在日益增长的工业需求和学术兴趣推动下,全方位视觉正迅速发展。我们重点介绍了在全方位生成、全方位感知、全方位理解及相关数据集方面取得的最新突破。结合学术界与工业界的洞见,我们提出了具身智能时代理想的环视系统架构——PANORAMA,它由四个关键子系统构成。此外,我们深入探讨了环视视觉与具身智能交叉领域的新兴趋势及其跨社区影响,并展望了未来路线图与开放挑战。本综述整合了最前沿的进展,为在具身智能时代构建鲁棒、通用的全方位智能系统,勾勒了未来研究的挑战与机遇。
考试是检验专家级智能的核心手段,要求综合理解、推理与生成能力。现有的考试类基准主要聚焦于理解与推理任务,而当前的生成基准则侧重于展现世界知识与视觉概念,忽视了对严格绘图考试的评估。我们推出了GenExam,这是首个面向多学科文本到图像考试的基准,包含10个学科的1000个样本,采用考试风格提示,并按四级分类体系组织。每个问题均配有真实图像与细粒度评分点,以实现对语义准确性与视觉合理性的精确评估。实验表明,即便是GPT-Image-1和Gemini-2.5-Flash-Image等顶尖模型,其严格得分也低于15%,多数模型几乎得分为0%,凸显了我们基准的巨大挑战。通过将图像生成视为考试,GenExam为模型整合知识、推理与生成的能力提供了严格评估,为通向通用人工智能(AGI)的道路提供了洞见。
尽管代码语言模型(CLMs)在代码生成和摘要等软件工程任务中展现了卓越性能,但近期实证研究揭示了一个关键隐私漏洞:这些模型对敏感训练数据存在非预期的记忆,能够在特定提示下逐字重现机密信息。为解决这一问题,已提出多种方法,包括训练数据去重和差分隐私增强。然而,这些方法要求对已部署的CLMs进行全模型重训练,导致巨大的计算成本。本文旨在回答以下研究问题:能否有效且高效地消除CLMs中记忆的敏感信息? 我们率先探索了通过机器遗忘(machine unlearning)——一种无需全模型重训练即可从已训练模型中移除特定信息的后处理修改方法——来消除CLMs中的敏感记忆。具体而言,我们首先量化了CLM训练数据集中敏感数据的记忆风险,并精选了一个包含50,000个高风险记忆样本的数据集作为遗忘目标。我们研究了两种广泛使用的基于梯度上升的遗忘方法:基础版和约束版,并引入了CodeEraser,一种高级变体,它选择性地遗忘代码中的敏感记忆片段,同时保持周围代码的结构完整性和功能正确性。在CodeParrot、CodeGen-Mono和Qwen2.5-Coder三个CLM家族上的大量实验验证了CodeEraser在消除目标敏感记忆的同时保持模型效用的有效性和效率。
近期,基于大型语言模型(LLM)的智能体在多个领域展现出了令人瞩目的能力,尤其是在深度研究系统中,这些系统在复杂的信息检索与综合任务上表现出色。尽管通用型深度研究智能体展现了强大的能力,但在医学领域却面临显著挑战,这一点从主流专有系统在复杂医学基准测试中有限的准确率可见一斑。主要限制因素包括:(1)模型缺乏足够的密集医学知识以支持临床推理;(2)框架受限于缺少专为医学场景设计的检索工具。我们提出了一种医学深度研究智能体,通过两项核心创新应对这些挑战。首先,我们开发了一种新颖的数据合成框架,利用医学知识图谱,围绕罕见医学实体提取子图中的最长链,以生成复杂的多跳问答对。其次,我们整合了一个定制构建的私有医学检索引擎与通用工具,实现了精准的医学信息综合。我们的方法在12个医学专科中生成超过2100条多样化轨迹,每条轨迹平均涉及4.2次工具交互。通过结合监督微调与在线强化学习及复合奖励的两阶段训练范式,我们的MedResearcher-R1-32B模型展现了卓越性能,在医学基准测试中创下新纪录,同时在通用深度研究任务上保持竞争力。我们的工作表明,在架构、工具设计及训练数据构建方面实施针对特定领域的战略创新,能够使规模较小的开源模型在专业领域超越规模更大的专有系统。
本文回顾了2025年MARS2多模态推理挑战赛。我们旨在通过一个大型基准测试,将多模态机器学习与大型语言模型(LLMs)的不同方法汇聚一堂,以期让研究者们更好地跟进这一快速发展的前沿领域。与此同时,日益增多的测试平台推动了通用大型语言模型的演进。因此,今年的MARS2聚焦于现实世界及特定场景,以拓宽多模态大模型(MLLMs)在推理应用中的边界。我们的组织团队发布了两个定制数据集——Lens和AdsQA作为测试集,分别支持12种日常场景中的通用推理以及广告视频中的领域特定推理。我们评估了包含通用MLLMs和任务专用模型在内的40多个基线模型,并开设了三个竞赛赛道:现实场景中的视觉定位(VG-RS)、具备空间意识的视觉问答(VQA-SA)以及创意广告视频中的视觉推理(VR-Ads)。最终,来自知名学术机构与企业的76支队伍报名参赛,超过40份有效提交(总计1200+)被纳入我们的排行榜。我们的数据集、代码集(40+基线模型与15+参赛者方法)及排名已在MARS2研讨会官网及我们的GitHub组织页面https://github.com/mars2workshop/上公开,我们将持续提供更新及未来活动的公告。
我们推出了Wan-Animate,一个统一的角色动画与替换框架。给定一张角色图像和一段参考视频,Wan-Animate能够通过精确复制视频中角色的表情和动作,生成高保真的角色动画视频。此外,它还能将动画角色无缝融入参考视频中,替换原角色,并复制场景的光照和色调,实现环境的自然融合。Wan-Animate基于Wan模型构建。为了适应角色动画任务,我们采用了一种改进的输入范式,以区分参考条件与生成区域。这一设计将多种任务统一为共同的符号表示。我们利用空间对齐的骨骼信号来复制身体动作,并从源图像中提取隐含的面部特征来重现表情,从而生成具有高度可控性和表现力的角色视频。进一步地,为了增强角色替换时的环境融合效果,我们开发了一个辅助的Relighting LoRA模块。该模块在保持角色外观一致性的同时,应用适当的环境光照和色调。实验结果表明,Wan-Animate达到了业界领先的性能。我们承诺将开源模型权重及其源代码。
大型语言模型(LLMs)在数学推理方面取得了显著进展,但在高精度任务如数值计算和形式符号操作上仍面临挑战。整合外部工具已成为弥补这一差距的有前景的方法。尽管近期有所进展,现有方法在构建工具集成的推理数据、进行细粒度优化以及增强推理能力这三个关键挑战上仍显不足。为克服这些局限,我们提出了THOR(通过强化学习实现工具集成的层次优化)。首先,我们引入了TIRGen,一个基于多智能体演员-评论家框架的流程,用于构建高质量的工具集成推理路径数据集,该流程与策略对齐,并能很好地泛化到多种模型。其次,为实现细粒度的层次优化,我们提出了一种强化学习策略,该策略联合优化轨迹级问题解决与步骤级代码生成。这一策略源于我们的关键洞察:中间工具调用的成功是最终答案正确性的强预测指标。最后,THOR整合了一种自我修正机制,该机制利用即时工具反馈在推理过程中动态修正错误的推理路径。我们的方法展示了在多种模型上的强大泛化能力,在推理与非推理模型上均表现优异。此外,它在多个数学基准测试上达到了同规模模型的领先性能,同时在代码基准测试上也实现了持续改进。我们的代码将公开于https://github.com/JingMog/THOR。
大型语言模型(LLMs)在处理上下文一致性时常常面临挑战,在基于提供信息回答问题时,往往会产生不一致的答案。现有方法要么依赖昂贵的监督微调来在生成答案后提供证据,要么训练模型执行网络搜索,却未必能有效利用给定的上下文。我们提出了CARE,一种新颖的原生检索增强推理框架,它教导LLMs在推理过程中明确整合上下文证据,并利用模型自身的检索能力。我们的方法仅需少量标注的证据数据,通过策略性地在推理链中检索上下文标记,显著提升了检索准确性和答案生成性能。在多个现实世界和反事实问答基准上的广泛实验表明,我们的方法大幅超越了监督微调、传统的检索增强生成方法以及外部检索解决方案。这一工作标志着在使LLMs更准确、可靠且高效地执行知识密集型任务方面取得了根本性进展。
生成式机器学习为深入理解复杂地球系统动力学提供了新的机遇。近期基于扩散模型的方法在天气预测中解决了光谱偏差问题,并相较于确定性方法提升了集合校准效果,然而这些方法在高分辨率下的稳定扩展仍面临挑战。我们提出了AERIS,一个参数规模从1.3B到80B的像素级Swin扩散变换器,以填补这一空白;同时,SWiPe作为一种通用技术,通过将窗口并行与序列及管道并行相结合,实现了基于窗口的变换器分片,无需额外通信成本或增加全局批量大小。在Aurora(10,080个节点)上,AERIS在0.25° ERA5数据集上以1×1的补丁尺寸维持了10.21 ExaFLOPS(混合精度)的运算速度,峰值性能达到11.21 ExaFLOPS,弱扩展效率为95.5%,强扩展效率为81.6%。AERIS在性能上超越了IFS ENS,并在长达90天的季节尺度上保持稳定,彰显了十亿参数扩散模型在天气与气候预测领域的巨大潜力。
我们推出了SteeringControl,这是一个用于评估表征导向方法在核心对齐目标——偏见、有害生成和幻觉——及其对次要行为(如奉承和常识道德)影响的基准。尽管以往的对齐工作常以真实性或推理能力来展示表征导向的副作用,但我们发现仍有许多未系统理解的权衡关系未被探索。我们收集了一个与安全相关的主要及次要行为数据集,围绕五种流行的导向方法评估导向效果及行为间的纠缠性。为此,我们构建了一个基于独特组件的模块化导向框架,这些组件作为众多现有方法的基础构件。在Qwen-2.5-7B和Llama-3.1-8B上的实验结果表明,强劲的导向性能依赖于导向方法、模型及目标行为的具体组合,而这三者搭配不当也可能导致严重的概念纠缠。我们在此发布代码:https://github.com/wang-research-lab/SteeringControl.git。
变分量子电路(VQCs)是量子机器学习中的核心,而近期在Kolmogorov-Arnold网络(KANs)上的进展凸显了可学习激活函数的强大能力。我们通过引入量子变分激活函数(QVAFs)统一了这两个方向,这些函数通过称为数据重上传激活网络(DARUANs)的单量子比特数据重上传电路实现。我们展示了在数据预处理中具有可训练权重的DARUAN随着数据重复次数增加,其频率谱呈指数增长,从而在不损失表达能力的前提下,相比基于傅里叶的激活函数实现了参数规模的指数级缩减。将DARUAN嵌入KANs中,形成了量子启发的KANs(QKANs),它们在保持KANs可解释性的同时,提升了参数效率、表达能力和泛化性能。我们进一步引入了两种新技术以增强可扩展性、可行性和计算效率,例如层扩展和作为多层感知机(MLPs)即插即用替代的混合QKANs(HQKANs),适用于大规模模型中的前馈网络。我们提供了理论分析,并在函数回归、图像分类和自回归生成语言建模上进行了广泛实验,证明了QKANs的效率和可扩展性。DARUANs和QKANs为在噪声中等规模量子(NISQ)硬件和经典量子模拟器上推进量子机器学习提供了一个有前景的方向。
本研究系统对比了混合量子-经典神经网络与纯经典模型在三个基准数据集(MNIST、CIFAR100和STL10)上的性能、效率和鲁棒性。混合模型将参数化量子电路与经典深度学习架构相结合,而经典模型则采用传统的卷积神经网络(CNN)。每个数据集均进行了50个训练周期的实验,评估指标包括验证准确率、测试准确率、训练时间、计算资源使用情况以及对抗鲁棒性(以epsilon=0.1的扰动进行测试)。关键发现表明,混合模型在最终准确率上持续超越经典模型,分别达到{99.38%(MNIST)、41.69%(CIFAR100)和74.05%(STL10)的验证准确率,相比之下,经典模型的基准分别为98.21%、32.25%和63.76%。值得注意的是,混合模型的优势随数据集复杂度增加而放大,在CIFAR100(+9.44%)和STL10(+10.29%)上表现最为显著。此外,混合模型的训练速度提高了5至12倍(例如,MNIST上每周期21.23秒对比108.44秒),参数数量减少了6%至32%,同时保持了更好的测试数据泛化能力。对抗鲁棒性测试显示,混合模型在简单数据集上显著更稳健(如MNIST上45.27%的鲁棒准确率对比经典的10.80%),但在复杂数据集如CIFAR100上两者鲁棒性相当(均约为1%)。资源效率分析指出,混合模型内存消耗更低(4-5GB对比经典的5-6GB),CPU利用率也更低(平均9.5%对比23.2%)。这些结果表明,混合量子-经典架构在准确率、训练效率和参数可扩展性方面提供了显著优势,尤其适用于复杂的视觉任务。