每日精选AI研究论文及翻译
阿拉伯文本的标音处理因其语言的形态丰富性,始终是自然语言处理领域的一大难题。本文提出了一种名为Sadeed的创新方法,该方法基于从Kuwain 1.5B(Hennara等人,2025年)调整而来的仅解码器语言模型,该紧凑模型最初在多样化的阿拉伯语语料库上训练。Sadeed通过严格的数据清洗和标准化流程构建的高质量标音数据集进行微调。尽管计算资源有限,Sadeed在性能上仍能与专有的大型语言模型相媲美,并超越在相似领域训练的传统模型。此外,我们指出了当前阿拉伯语标音基准测试中的关键局限。为解决这些问题,我们推出了SadeedDiac-25,这是一个旨在实现跨多种文本类型和复杂度水平更公平、更全面评估的新基准。Sadeed与SadeedDiac-25共同为推进阿拉伯语自然语言处理应用,包括机器翻译、文本转语音及语言学习工具,奠定了坚实的基础。
大型推理模型(LRMs),如OpenAI-o1和DeepSeek-R1,展现了卓越的长程推理能力。然而,它们对静态内部知识的依赖限制了其在复杂、知识密集型任务上的表现,并阻碍了其生成需要综合多样网络信息的全面研究报告的能力。为解决这一问题,我们提出了WebThinker,一个深度研究代理,它赋予LRMs在推理过程中自主搜索网络、浏览网页并起草研究报告的能力。WebThinker集成了一个深度网络探索模块,使LRMs在遇到知识缺口时能够动态搜索、导航并从网络中提取信息。它还采用了自主“思考-搜索-撰写”策略,允许模型实时无缝地交替进行推理、信息收集和报告撰写。为进一步提升研究工具的利用效率,我们通过迭代在线直接偏好优化(DPO)引入了一种基于强化学习的训练策略。在复杂推理基准测试(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上的大量实验表明,WebThinker显著优于现有方法和强大的专有系统。我们的方法增强了LRM在复杂场景中的可靠性和适用性,为构建更强大、更通用的深度研究系统铺平了道路。代码可在https://github.com/RUC-NLPIR/WebThinker获取。
我们推出了Phi-4-reasoning,这是一个拥有140亿参数的推理模型,在复杂推理任务上展现出强劲性能。该模型通过对Phi-4进行监督微调训练而成,训练数据包括精心挑选的“可教学”提示集——这些提示在复杂度和多样性上恰到好处——以及利用o3-mini生成的推理示范。Phi-4-reasoning能够生成详细的推理链条,有效利用推理时的计算资源。我们还开发了Phi-4-reasoning-plus,这一变体通过短期基于结果的强化学习得到增强,通过生成更长的推理轨迹来提供更高性能。在广泛的推理任务中,这两个模型均显著超越了如DeepSeek-R1-Distill-Llama-70B等更大规模的开放权重模型,并接近完整版DeepSeek-R1模型的性能水平。我们的全面评估涵盖了数学与科学推理、编码、算法问题解决、规划以及空间理解等多个基准测试。有趣的是,我们还观察到这些改进对通用基准测试也有非平凡的迁移效果。在本报告中,我们深入探讨了训练数据、训练方法及评估过程。我们证明,对于推理语言模型而言,精心策划的数据用于监督微调(SFT)带来的益处是显著的,并且可以通过强化学习(RL)进一步放大。最后,我们的评估指出了在如何评估推理模型的性能与鲁棒性方面存在的改进空间。
思维链(CoT)通过训练大型语言模型(LLMs)显式生成中间推理步骤,显著提升了其形式推理能力。尽管LLMs能轻松受益于此类技术,但由于模型容量有限,提升小型语言模型(SLMs)的推理能力仍具挑战性。近期,Deepseek-R1的研究表明,利用LLM生成的合成数据进行蒸馏可大幅增强SLM的推理能力,但具体的建模方法尚未公开。在本研究中,我们提出了一套系统化的SLM训练方案,包含四个步骤:(1)在大规模多样化的蒸馏长CoT数据上进行中期训练,(2)在高质量长CoT数据上进行监督微调,(3)利用精心筛选的偏好数据集进行Rollout DPO,(4)结合可验证奖励的强化学习(RL)。我们将此方法应用于Phi-4-Mini,一个紧凑的3.8B参数模型。最终得到的Phi-4-Mini-Reasoning模型在数学推理任务上超越了规模更大的推理模型,例如在Math-500测试中,分别以3.2分和7.7分的优势超过了DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B。我们的结果验证了,通过精心设计的训练方案,结合大规模高质量的CoT数据,即使在资源受限的小型模型中也能有效解锁强大的推理能力。
近期,推理语言模型(RLMs)的发展标志着大型语言模型领域的一次新突破。特别是DeepSeek-R1的发布,在社会上产生了广泛影响,并激发了研究界探索语言模型显式推理范式的热情。然而,DeepSeek并未完全开源其发布模型的实现细节,包括DeepSeek-R1-Zero、DeepSeek-R1以及蒸馏后的小型模型。因此,众多复现研究应运而生,旨在通过类似的训练流程和完全开源的数据资源,重现DeepSeek-R1所展现的卓越性能,达到与之相当的水平。这些研究深入探讨了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)的可行策略,聚焦于数据准备与方法设计,得出了诸多有价值的见解。本报告汇总了近期复现研究的主要成果,以期启发未来研究。我们重点围绕SFT与RLVR两大方向,介绍了当前复现研究在数据构建、方法设计及训练流程上的具体细节。此外,我们总结了这些研究在实现细节与实验结果中揭示的关键发现,期待为未来研究提供启示。我们还讨论了增强RLMs的其他技术,强调了拓展这些模型应用范围的潜力,并探讨了发展过程中面临的挑战。通过本次综述,我们旨在帮助RLMs的研究者与开发者紧跟最新进展,并激发新思路,进一步推动RLMs的优化与提升。
我们提出了softpick,一种经过修正、非归一化的替代方案,用于替换Transformer注意力机制中的softmax,有效消除了注意力汇聚点和大规模激活现象。在340M参数模型的实验中,softpick在标准基准测试上保持了与softmax相当的性能,同时实现了0%的汇聚率。采用softpick的Transformer生成的隐藏状态具有显著更低的峰度(340对比33,510),并创建了稀疏的注意力图(46.97%的稀疏度)。量化后,使用softpick的模型持续超越softmax,尤其在低比特精度下优势更为明显。我们的分析与讨论表明,softpick有望为量化、低精度训练、稀疏优化、剪枝及可解释性等领域开辟新的可能性。相关代码已发布于https://github.com/zaydzuhri/softpick-attention。
多模态大语言模型(MLLMs)在简单的视觉-语言任务上表现出色,但在面对需要多种能力的复杂任务时却显得力不从心,例如同时识别物体、计数并理解它们的空间关系。这在一定程度上可能是由于视觉指令调优(VIT)——MLLMs关键训练步骤——传统上侧重于扩大数据规模,而非提升训练样本的组合复杂性所致。我们提出了COMPACT(组合式原子到复杂视觉能力调优),它生成一个明确控制训练样本组合复杂性的训练数据集。COMPACT提供的数据使MLLMs能够通过原子能力的组合来更高效地学习复杂能力。在所有基准测试中,COMPACT在使用不到LLaVA-665k VIT 10%数据预算的情况下,实现了与其相当的性能,并在多个任务上超越之,尤其是在涉及复杂多能力任务时。例如,在需要四个或更多原子能力的特别复杂问题上,COMPACT相较于全规模VIT,在MMStar上实现了83.3%的显著提升,在MM-Vet上提升了94.0%。COMPACT提供了一种可扩展、数据高效的视觉组合调优方案,以改进复杂视觉-语言任务的表现。
大型语言模型(LLMs)通过逐步推理来解决复杂问题。标准的评估实践通常涉及生成完整的推理轨迹,并评估其最终结论中给出的答案的正确性。在本文中,我们质疑这种对最终答案的依赖,提出以下两个问题:最终答案是否可靠地代表了模型的最优结论?不同的推理路径能否产生不同的结果?为了回答这些问题,我们分析了中间推理步骤,称为“子思维”,并基于我们的发现提出了一种方法。我们的方法包括根据语言线索将推理轨迹分割成连续的子思维。我们首先提示模型从每个中间子思维的终点生成延续。我们从源自不同子思维的每个完整延续中提取潜在答案。我们发现,通过选择最频繁出现的答案(众数)来聚合这些答案,往往比仅依赖原始完整轨迹得出的答案显著提高准确性。分析来自不同子思维的答案之间的一致性,揭示了与模型信心和正确性相关的特征,这表明了识别不太可靠答案的潜力。我们在各种LLMs和具有挑战性的数学推理数据集(AIME2024和AIME2025)上的实验显示了一致的准确性提升,分别达到了13%和10%的增益。实现代码可在以下网址获取:https://github.com/hammoudhasan/SubthoughtReasoner。
生成式人工智能正在重塑艺术、游戏,尤其是动画领域。近期在基础模型和扩散模型方面的突破,显著降低了动画内容的制作时间和成本。角色作为动画的核心元素,涉及动作、情感、手势及面部表情的呈现。近几个月来,该领域进展的速度与广度使得保持对该领域的整体认知变得困难,这促使我们有必要进行一项整合性综述。与以往分别探讨虚拟形象、手势或面部动画的综述不同,本次调查提供了一个统一的、全面的视角,涵盖了角色动画中所有主要的生成式AI应用。我们首先审视了面部动画、表情渲染、图像合成、虚拟形象创建、手势建模、动作合成、物体生成及纹理合成等领域的最新技术。我们为每个领域重点介绍了领先的研究成果、实际应用、常用数据集以及新兴趋势。为了帮助初学者,我们还提供了一个全面的背景介绍部分,介绍了基础模型和评估指标,为读者提供了进入该领域所需的知识储备。我们探讨了当前面临的开放挑战,并规划了未来的研究方向,为推进AI驱动的角色动画技术提供了路线图。本综述旨在为进入生成式AI动画或相关领域的研究人员和开发者提供参考资源。相关资源可通过以下链接获取:https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey。
随着基于Transformer架构的大型语言模型(LLMs)日益深入社会,它们已在软件工程、创意写作和数字艺术等领域引发革命。然而,在网络安全领域的应用却因专业训练数据稀缺及网络安全知识表示复杂等挑战而受限。为填补这些空白,我们推出了Foundation-Sec-8B,这是一款专注于网络安全的大型语言模型,基于Llama 3.1架构,并通过在精心筛选的网络安全语料库上持续预训练得以增强。我们评估了Foundation-Sec-8B在传统及新兴网络安全基准测试中的表现,结果显示其在特定网络安全任务上可与Llama 3.1-70B和GPT-4o-mini相媲美。通过公开我们的模型,我们旨在加速人工智能驱动工具在公共和私营网络安全环境中的进步与采纳。
近年来,视频生成技术取得了显著进展。然而,在生成复杂运动和交互方面仍存在挑战。为应对这些挑战,我们提出了ReVision,一个即插即用的框架,它将参数化的三维物理知识显式地整合到预训练的条件视频生成模型中,显著提升了其生成高质量复杂运动和交互视频的能力。具体而言,ReVision包含三个阶段。首先,利用视频扩散模型生成粗略视频;接着,从该粗略视频中提取一组二维和三维特征,构建以对象为中心的三维表示,并通过我们提出的参数化物理先验模型进行优化,生成精确的三维运动序列;最后,将这一优化后的运动序列作为额外条件反馈至同一视频扩散模型,从而即使在涉及复杂动作和交互的场景下,也能生成运动一致性的视频。我们在Stable Video Diffusion上验证了该方法的有效性,ReVision显著提高了运动的真实性和连贯性。值得注意的是,仅拥有15亿参数的ReVision,在复杂视频生成任务上,大幅超越了拥有超过130亿参数的最先进视频生成模型。我们的结果表明,通过融入三维物理知识,即便是相对较小的视频扩散模型,也能以更高的真实感和可控性生成复杂的运动和交互,为物理可信的视频生成提供了一个有前景的解决方案。
生成式人工智能领域的大型语言模型(LLMs)已取得显著进展,演变为复杂且多功能的工具,广泛应用于各个领域和应用场景。然而,其庞大的参数量带来的巨大内存开销,加之注意力机制的高计算需求,在实现LLM推理服务的低延迟与高吞吐量方面构成了重大挑战。近期,在突破性研究的推动下,这一领域的进展显著加速。本文全面综述了这些方法,涵盖基础实例级策略、深入集群级方案、新兴场景方向及其他重要但小众的领域。在实例层面,我们回顾了模型部署、请求调度、解码长度预测、存储管理及解耦范式。在集群层面,探讨了GPU集群部署、多实例负载均衡及云服务解决方案。针对新兴场景,围绕特定任务、模块及辅助方法进行了系统梳理。为确保全面性,我们还特别强调了几项虽小众却至关重要的领域。最后,本文展望了未来可能的研究方向,以进一步推动LLM推理服务领域的发展。
数据规模化和标准化评估基准推动了自然语言处理和计算机视觉领域的显著进步。然而,在机器人学领域,数据规模化与评估协议的建立面临独特挑战。现实世界数据的收集既耗费资源又效率低下,而在真实场景中进行基准测试则极为复杂。合成数据与仿真提供了有前景的替代方案,但现有努力在数据质量、多样性和基准标准化方面往往不足。为应对这些挑战,我们推出了RoboVerse,一个包含仿真平台、合成数据集及统一基准的综合框架。我们的仿真平台支持多种模拟器和机器人实体,实现不同环境间的无缝切换。该合成数据集通过多种方法构建,具备高保真物理特性和照片级真实感渲染。此外,我们提出了适用于模仿学习与强化学习的统一基准,支持跨不同泛化层次的评估。仿真平台的核心是MetaSim,这一基础设施将多样化的仿真环境抽象为统一接口。它重构现有仿真环境,形成模拟器无关的配置系统,以及一个对齐不同模拟器功能的API,如启动仿真环境、加载带有初始状态的资产、推进物理引擎等。这种抽象确保了互操作性和可扩展性。全面的实验表明,RoboVerse提升了模仿学习、强化学习、世界模型学习及仿真到现实迁移的性能。这些结果验证了我们数据集和基准的可靠性,确立了RoboVerse作为推动机器人学习发展的坚实解决方案。
生物医学图像的多模态解读为生物医学图像分析开辟了新的机遇。传统的AI方法通常依赖于分离式训练,即使用大型语言模型(LLMs)生成临床文本,以及使用分割模型进行目标提取,这导致了实际应用中的不灵活性和无法充分利用整体生物医学信息。为此,我们推出了UniBiomed,首个用于生物医学图像解读的通用基础模型。UniBiomed基于多模态大型语言模型(MLLM)与“分割一切模型”(SAM)的创新整合,有效统一了临床文本生成与相应生物医学对象的分割,实现了有依据的解读。通过这种方式,UniBiomed能够处理跨越十种不同生物医学成像模式的广泛任务。为开发UniBiomed,我们构建了一个大规模数据集,包含超过2700万组图像、注释及文本描述,覆盖十种成像模式。在84个内部和外部数据集上的广泛验证表明,UniBiomed在分割、疾病识别、区域感知诊断、视觉问答及报告生成等方面均达到了最先进的性能。此外,与以往依赖临床专家预先诊断图像并手动制作精确文本或视觉提示的模型不同,UniBiomed能够为生物医学图像分析提供自动化、端到端的有依据解读。这标志着临床工作流程的一次新颖范式转变,将显著提升诊断效率。总之,UniBiomed代表了生物医学AI领域的一项新突破,解锁了强大的有依据解读能力,为更准确、高效的生物医学图像分析铺平了道路。
联合分析作为因子实验设计的一种应用,是社会科学研究中用于探讨多维偏好的常用工具。在政治分析背景下的此类实验中,受访者需在两位具有随机选取特征(可能包括党派归属、政策立场、性别及种族)的假设政治候选人之间做出选择。我们探讨了识别最优候选人特征组合的问题。由于独特特征组合的数量远超典型联合实验中的观测总数,精确确定最优组合实属不可能。为应对这一识别难题,我们推导出一种最优随机干预策略,该策略表现为旨在实现最有利平均结果的各种属性概率分布。我们首先考察单一政党优化其候选人选择的情境,随后转向更为现实的双政党同时且相互对立地优化各自候选人选择的情形。我们将所提出的方法应用于一项关于美国总统选举投票选择的现有候选人选择联合实验。研究发现,与非对抗性方法相比,对抗性机制下的预期结果落在历史选举结果范围内,且该方法建议的最优策略相较于非对抗性方法得出的策略,更可能与实际观察到的候选人特征相符。这些发现表明,将对抗性动态纳入联合分析,可能为从实验中获取的社会科学数据提供独特洞见。