每日精选AI研究论文及翻译
我们推出BitNet b1.58 2B4T,这是首个开源的、原生1比特的大型语言模型(LLM),参数规模达20亿。该模型在4万亿token的语料库上训练完成,并经过严格评估,涵盖语言理解、数学推理、编程能力及对话表现等多个基准测试。结果表明,BitNet b1.58 2B4T在性能上与同规模领先的开源全精度LLM相当,同时在计算效率上展现出显著优势,包括大幅降低的内存占用、能耗和解码延迟。为促进进一步研究与采用,模型权重已通过Hugging Face发布,并提供了适用于GPU和CPU架构的开源推理实现。
尽管通过强化学习(RL)训练出的推理模型(如DeepSeek R1)在文本推理方面表现出色,但在需要结构化问题解决的场景中,如几何推理、简洁计算或复杂方程求解,它们却显得力不从心——这些领域正是代码解释器(CI)等计算工具展现独特优势之处。为弥合这一差距,我们提出了ReTool,它通过工具集成学习增强了长形式推理能力,具备两大核心特性:(1)在自然语言推理过程中动态交织实时代码执行;(2)一种自动化的RL范式,支持多轮实时代码执行的政策推演,并基于结果反馈教导模型何时及如何调用工具。ReTool采用系统化的训练框架,首先生成合成冷启动数据以产出代码增强的长形式推理轨迹,用于微调基础模型。随后的RL训练利用任务结果作为奖励,迭代优化模型的工具使用策略,使其无需人类先验知识即可自主发现最佳工具调用模式。在极具挑战性的数学奥林匹克竞赛基准AIME上的实验验证了ReTool的优越性:我们的32B模型仅需400步训练即达到67%的准确率,在效率和性能上均超越了基于文本的RL基线(40%准确率,1080步)。尤为引人注目的是,ReTool-32B在扩展设置下实现了72.5%的准确率,较OpenAI的o1-preview高出27.9%。进一步分析揭示了诸如代码自我修正等涌现行为,标志着模型自主掌握适应性工具使用的“顿悟时刻”。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面的潜力,并为混合神经符号系统提供了新的洞见。
色彩在人类感知中扮演着重要角色,通常为视觉推理提供关键线索。然而,视觉-语言模型(VLMs)是否以及如何像人类一样感知、理解并利用色彩,尚不明确。本文介绍了ColorBench,一个精心设计的创新基准,旨在评估VLMs在色彩理解方面的能力,包括色彩感知、推理及鲁棒性。通过构建一系列基于实际应用的多样化测试场景,ColorBench评估了这些模型如何感知色彩、从色彩线索中推断意义,并在不同色彩变换下保持性能一致性。通过对32个采用不同语言模型和视觉编码器的VLMs进行广泛评估,本文揭示了一些未被发现的发现:(i)在ColorBench上,规模法则(模型越大表现越好)依然成立,但语言模型的作用比视觉编码器更为关键。(ii)然而,各模型间的性能差距相对较小,表明现有VLMs在很大程度上忽视了色彩理解。(iii)尽管是视觉中心任务,链式思维(CoT)推理提升了色彩理解的准确性和鲁棒性。(iv)在ColorBench上,VLMs确实利用了色彩线索,但在某些任务中,色彩线索也可能误导模型。这些发现凸显了当前VLMs的关键局限,并强调了增强色彩理解的必要性。我们的ColorBench可作为推动多模态AI实现人类级别色彩理解研究的基础工具。
漫画制作行业对基于参考的线稿上色提出了高精度、高效率、上下文一致性及灵活控制的要求。一幅漫画页面通常包含多样化的角色、物体和背景,这使上色过程变得复杂。尽管扩散模型在图像生成领域取得了进展,但其在线稿上色中的应用仍受限,面临处理大量参考图像、耗时的推理过程及灵活控制等挑战。我们探讨了广泛上下文图像指导对线稿上色质量的重要性。为应对这些挑战,我们提出了Cobra,一种高效且多功能的方法,支持颜色提示并利用超过200张参考图像,同时保持低延迟。Cobra的核心是因果稀疏DiT架构,它利用特别设计的位置编码、因果稀疏注意力机制及键值缓存,有效管理长上下文参考并确保色彩一致性。结果表明,Cobra通过广泛的上下文参考实现了精确的线稿上色,显著提升了推理速度与交互性,从而满足了行业的关键需求。我们在项目页面发布了代码与模型:https://zhuang2002.github.io/Cobra/。
本研究重新审视了当前主流的训练大型视觉语言模型(LVLMs)的范式——先进行监督微调(SFT),再进行强化学习(RL),并揭示了一个关键发现:SFT可能会通过引入从专家模型模仿而来的“伪推理路径”严重削弱后续的RL效果。尽管这些路径可能与RL模型的原生推理路径相似,但它们往往包含冗长、犹豫、信息量不足的步骤以及错误的推理过程。为了系统研究这一现象,我们引入了VLAA-Thinking,这是一个专为支持LVLMs推理而设计的新型多模态数据集。通过包含标注、推理蒸馏、答案重写和验证的六步流程构建,VLAA-Thinking提供了高质量的、分步的视觉推理轨迹用于SFT,以及来自同一数据源的更具挑战性的RL分割。利用该数据集,我们进行了广泛的实验,比较了SFT、RL及其组合的效果。结果表明,虽然SFT有助于模型学习推理格式,但它常常使对齐模型陷入模仿性、僵化的推理模式,阻碍进一步学习。相比之下,基于群体相对策略优化(GRPO)并结合感知与认知信号的新型混合奖励模块,我们的RL方法促进了更真实、适应性更强的推理行为。值得注意的是,基于Qwen2.5VL 3B的模型VLAA-Thinker在Open LMM推理排行榜(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)上,在4B规模的LVLMs中取得了Top-1的成绩,较之前的最先进水平提升了1.8%。我们希望这些发现能为开发具备推理能力的LVLMs提供有价值的见解,并启发该领域的未来研究。
AlayaDB 是一款前沿的向量数据库系统,专为 AlayaDB AI 中大型语言模型(LLMs)的高效长上下文推理而原生设计。具体而言,它将键值缓存(KV cache)与注意力计算从 LLM 推理系统中解耦,并将其封装进一个创新的向量数据库系统。相较于现有替代方案(如键值缓存分离、基于检索的稀疏注意力),对于模型即服务(MaaS)提供商而言,AlayaDB 在满足各类服务级别目标(SLOs)的多样化工作负载时,消耗更少的硬件资源,同时提供更高的生成质量。AlayaDB 的核心在于,它将 LLM 推理中的注意力计算与缓存管理抽象为查询处理流程,并通过原生查询优化器实现性能优化。在本研究中,我们通过(i)来自行业合作伙伴的三个应用案例,以及(ii)在 LLM 推理基准测试上的广泛实验结果,展示了 AlayaDB 的有效性。
本文探讨了一个根本性问题:“我们能否以端到端的方式联合训练潜在扩散模型与变分自编码器(VAE)分词器?”传统深度学习智慧认为,在可能的情况下,端到端训练往往更为可取。然而,对于潜在扩散变换器而言,观察到使用标准扩散损失同时端到端训练VAE和扩散模型效果不佳,甚至导致最终性能下降。我们证明,尽管扩散损失无效,但通过表示对齐(REPA)损失可以解锁端到端训练——允许在训练过程中同时调整VAE和扩散模型。尽管方法简单,所提出的训练方案(REPA-E)展现了显著性能;相较于REPA和基础训练方案,分别加速扩散模型训练超过17倍和45倍。有趣的是,我们注意到使用REPA-E进行端到端调优还能提升VAE本身;带来改进的潜在空间结构及下游生成性能。就最终性能而言,我们的方法确立了新的技术标杆;在ImageNet 256×256数据集上,无论是否使用无分类器指导,均实现了1.26和1.83的FID分数。代码发布于https://end2end-diffusion.github.io。
现有对大型语言模型(LLM)代理在科学发现领域的评估,缺乏客观的基准和指标来衡量其提出方法的可行性。为解决这一问题,我们引入了MLRC-Bench,这是一个旨在量化语言代理应对具有挑战性的机器学习(ML)研究竞赛能力的基准。我们的基准突出了需要新方法解决的开放研究问题,与近期如OpenAI的MLE-Bench(Chan等,2024)和METR的RE-Bench(Wijk等,2024)等专注于可通过充分工程努力解决的老牌研究任务的基准形成对比。不同于以往工作,例如AI Scientist(Lu等,2024b)通过使用LLM作为评判者来评估端到端代理流程,MLRC-Bench则着重于提出与实施新颖研究方法的关键步骤,并采用新提出的严格协议和客观指标进行评估。我们精选的7项竞赛任务揭示了LLM代理面临的重大挑战。即便表现最佳的测试代理(在MLAB框架下的gemini-exp-1206,Huang等,2024a)也仅缩小了基线得分与顶尖人类参与者得分之间差距的9.3%。此外,我们的分析揭示了LLM评判的创新性与其在尖端ML研究问题上的实际表现之间的不一致。MLRC-Bench是一个动态基准,旨在随着新ML竞赛的加入不断扩展,以促进对AI研究能力进行严格且客观的评估。
我们推出了SIFT(语音指令微调)数据集,这是一个包含5000万样本的数据集,专为语音-文本大语言模型(LLMs)的指令微调与预训练而设计。SIFT-50M基于公开可用的语音语料库构建,这些语料库总计包含14,000小时的语音数据,并利用了大语言模型及现成的专家模型。该数据集覆盖五种语言,囊括了多样化的语音理解任务以及可控的语音生成指令。借助SIFT-50M,我们训练了SIFT-LLM模型,该模型在指令跟随基准测试中超越了现有的语音-文本大语言模型,同时在基础语音任务上展现了竞争力。为了促进进一步研究,我们还引入了EvalSIFT,这是一个专门用于评估语音-文本大语言模型指令跟随能力的基准数据集。
理想的机器生成内容检测系统应能有效应对各类生成器,尤其是随着日益先进的大型语言模型(LLMs)不断涌现。现有系统在准确识别较短文本中的AI生成内容方面常显乏力。此外,并非所有文本皆纯由人类或LLM独立创作,因此我们更关注于部分由人类与LLM共同创作的文本案例。本文提出了一套专为标记分类任务构建的模型,这些模型在大量人机协作创作的文本上进行训练,并在未见过的领域、生成器、非母语者文本及对抗性输入文本上均表现出色。我们还引入了一个包含超过240万条此类文本的新数据集,这些文本主要由多个知名专有LLMs在23种语言中协作完成。此外,我们展示了模型在各领域及各生成器文本上的性能表现。其他发现包括模型针对不同对抗方法的性能对比、输入文本长度的影响,以及生成文本相较于原始人类创作文本的特征分析。
我们提出了CAL(Complete Anything in Lidar)方法,用于基于激光雷达的野外形状补全。这与基于激光雷达的语义/全景场景补全密切相关。然而,现有方法仅能从已有激光雷达数据集中标注的封闭词汇表中补全和识别物体。与之不同,我们的零样本方法利用多模态传感器序列中的时间上下文,挖掘观测物体的形状和语义特征。这些特征随后被提炼为一个仅依赖激光雷达的实例级补全与识别模型。尽管我们仅挖掘了部分形状补全,但我们发现,通过数据集中的多个此类部分观测,我们的提炼模型能够学习推断出完整的物体形状。我们展示了该模型可在语义和全景场景补全的标准基准上进行提示,将物体定位为(非模态)三维边界框,并识别超出固定类别词汇表的物体。项目页面请访问:https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar。
从随意拍摄的单目视频中重建4D动态场景具有重要价值,但也极具挑战性,因为每个时间戳仅从单一视角进行观察。我们提出了Vivid4D,一种创新方法,通过增强观察视角——从单目输入合成多视角视频,来提升4D单目视频的合成效果。与现有方法不同,这些方法要么仅依赖几何先验进行监督,要么在利用生成先验时忽视了几何信息,我们则将两者结合。这一方法将视角增强重新定义为视频修复任务,其中观察到的视图基于单目深度先验被扭曲至新的视角。为此,我们在未定位的网络视频上训练了一个视频修复模型,使用模拟扭曲遮挡的合成掩码,确保缺失区域在空间和时间上的一致性补全。为了进一步减轻单目深度先验的不准确性,我们引入了迭代视角增强策略和鲁棒的重建损失函数。实验证明,我们的方法有效改进了单目4D场景的重建与补全效果。
思维链(CoT)提示通过将问题分解为连续步骤,模拟人类逻辑并减少错误,从而增强了大语言模型(LLMs)的推理能力。然而,面对具有广阔解空间和模糊约束的复杂任务,单一推理链往往难以胜任。受交换代数和代数几何中最小自由分解(MFR)的启发,我们提出了思维合系(SoT)——一种通过引入辅助且相互关联的推理路径来扩展CoT的新框架。SoT能够捕捉更深层次的逻辑依赖,实现更稳健和结构化的问题解决。MFR将模块分解为一系列具有最小秩的自由模块,为复杂系统提供了结构化的分析方法。该方法引入了“模块”、“贝蒂数”、“自由性”、“映射”、“精确性”和“最小性”等概念,使得原始复杂问题能够被系统地分解为逻辑完备的最小子问题,同时保留关键问题特征并缩短推理长度。我们在多个数据集(如GSM8K、MATH)和模型(如GPT-4o-mini、Qwen2.5)上测试了SoT,其推理精度达到或超越了主流CoT标准。此外,通过将采样过程与代数约束对齐,我们的方法提升了LLMs推理时间的可扩展性,确保了推理的透明性和高性能。我们的代码将公开发布于https://github.com/dlMARiA/Syzygy-of-thoughts。
近期,3D高斯溅射(3DGS)技术的突破在新视角合成任务中展现了显著潜力。尽管分而治之的策略已实现大规模场景重建,但在场景划分、优化与合并过程中仍面临重大挑战。本文提出BlockGaussian,一种创新框架,通过引入内容感知的场景分割策略与可见性感知的区块优化,实现了高效且高质量的大规模场景重建。具体而言,我们的方法考量了不同区域间的内容复杂度差异,在场景划分时平衡计算负载,从而提升重建效率。针对独立区块优化中的监督失配问题,我们在单个区块优化过程中引入辅助点,以对齐真实监督,进而提升重建质量。此外,我们提出了一种伪视图几何约束,有效缓解了区块合并时因空中漂浮物导致的渲染退化问题。在大规模场景上的广泛实验表明,我们的方法在重建效率与渲染质量上均达到了业界领先水平,优化速度提升5倍,并在多个基准测试中平均PSNR提高了1.21 dB。尤为值得一提的是,BlockGaussian大幅降低了计算需求,使得在单块24GB显存设备上完成大规模场景重建成为可能。项目页面详见https://github.com/SunshineWYC/BlockGaussian。
我们推出FreshStack,一个可复用的框架,用于自动构建基于社区提问与回答的信息检索(IR)评估基准。FreshStack执行以下步骤:(1) 从代码和技术文档中自动收集语料库,(2) 根据社区提问与回答生成信息片段,(3) 在信息片段层面提供支持,通过融合多种检索技术和混合架构来检索文档。我们利用FreshStack构建了五个数据集,涵盖快速发展的、近期的及小众主题,以确保任务具有足够的挑战性。在FreshStack上,现有检索模型直接应用时,在所有五个主题上均显著落后于理想方法,表明提升IR质量仍有很大空间。此外,我们发现重排序器在某些情况下并未明显提升第一阶段的检索准确率(五个主题中有两个)。我们希望FreshStack能促进未来工作,构建现实、可扩展且无污染的IR及RAG评估基准。FreshStack数据集可通过以下网址获取:https://fresh-stack.github.io。
人工智能(AI)语音生成与声音克隆技术的最新进展已能产生自然流畅的语音和精准的声音复制,然而这些技术在不同口音和语言特征的社会技术系统中的影响尚未被充分理解。本研究通过混合方法,结合问卷调查与访谈,评估了两款合成AI语音服务(Speechify和ElevenLabs),旨在衡量其技术性能,并揭示用户的生活经历如何影响他们对这些语音技术中口音变化的感知。我们的研究结果揭示了五种地区性英语口音在技术性能上的差异,并展示了当前语音生成技术可能无意中强化了语言特权与基于口音的歧视,潜在地催生了新型的数字排斥现象。总体而言,本研究通过为开发者、政策制定者及组织提供可操作的见解,强调了包容性设计与监管的必要性,以确保AI语音技术的公平性与社会责任。