每日精选AI研究论文及翻译
大型语言模型(LLMs)卓越的零样本能力,推动了自然语言处理从任务专用模型向统一、通用的基础模型转变。这一变革源于简单的构建模块:基于网络规模数据训练的大型生成模型。有趣的是,同样的构建原则也适用于当今的生成式视频模型。视频模型是否正沿着通向通用视觉理解的道路发展,正如LLMs发展出通用语言理解能力那样?我们展示了Veo 3能够解决一系列它未专门训练的任务:物体分割、边缘检测、图像编辑、理解物理属性、识别物体功能、模拟工具使用等。这些感知、建模和操控视觉世界的能力,使其具备了解决迷宫和对称性等早期视觉推理任务的能力。Veo涌现的零样本能力表明,视频模型正朝着成为统一、通用的视觉基础模型迈进。
隐式思维链(CoT)方法为大型语言模型(LLMs)中的显式CoT推理提供了一种极具前景且高效的替代方案,但其持续存在的性能差距限制了隐式CoT的应用。通过扩展隐式CoT方法的计算预算,我们发现了一个核心的潜在不稳定性问题:随着增加隐式推理标记以提升性能,训练过程往往变得不稳定并崩溃。我们的分析表明,这种不稳定性源于潜在表征趋于同质化并丧失语义多样性,这是现有隐式CoT方法中步骤级监督不足导致的失败。为解决这一问题,我们提出了SIM-CoT,一个即插即用的训练模块,通过引入步骤级监督来稳定并丰富潜在推理空间。具体而言,SIM-CoT在训练期间采用辅助解码器,将每个隐式标记与其对应的显式推理步骤对齐,确保潜在状态捕捉到独特且有意义的信息。所提出的辅助解码器在推理阶段被移除,保持了隐式CoT方法的计算效率,无额外开销。此外,辅助解码器通过将每个潜在标记投射到显式推理词汇表上,提供了隐式推理的可解释性,实现了语义角色的逐步骤可视化和诊断。SIM-CoT显著提升了多种隐式CoT方法的域内准确性和域外稳定性,在GPT-2上将Coconut基线提升了+8.2%,在LLaMA-3.1 8B上将CODI提升了+3.0%。展示了强大的可扩展性,SIM-CoT在GPT-2上以2.3倍的标记效率超越了显式CoT基线2.1%,同时在LLaMA-3.1 8B等更大模型上大幅缩小了性能差距。
我们推出EmbeddingGemma,这是一款基于Gemma 3语言模型家族的新型轻量级开放文本嵌入模型。通过创新的训练方案,我们策略性地利用编码器-解码器初始化和几何嵌入蒸馏技术,从更大模型中汲取知识。采用分散正则化器增强了模型的鲁棒性与表达能力,并通过融合来自不同优化混合的检查点确保了泛化能力。在跨多语言、英语及代码领域的大规模文本嵌入基准测试(MTEB)中,EmbeddingGemma(300M)取得了业界领先的成绩。尤为突出的是,它在参数少于500M的情况下,超越了以往无论是专有还是开放的所有顶尖模型,并提供了与两倍大小模型相媲美的性能,展现出卓越的性价比。值得注意的是,即便在量化模型权重或截断嵌入输出时,这一优势依然保持,使得EmbeddingGemma特别适合低延迟、高吞吐量的应用场景,如设备端应用。我们提供了消融研究,深入探讨了关键设计决策。为了推动进一步研究,我们向社区发布了EmbeddingGemma。
近期基础模型的进展突显了一个明确的趋势:统一化与规模化,展现了跨领域的涌现能力。尽管图像生成与编辑已迅速从任务专用转向统一框架,视频生成与编辑仍因架构限制和数据稀缺而处于碎片化状态。本研究中,我们提出了EditVerse,一个在单一模型内实现图像与视频生成及编辑的统一框架。通过将文本、图像和视频等所有模态表示为统一的token序列,EditVerse利用自注意力机制实现了强大的上下文学习、自然的跨模态知识迁移,以及对任意分辨率和时长的输入输出进行灵活处理。针对视频编辑训练数据的不足,我们设计了一个可扩展的数据管道,精心筛选了232K个视频编辑样本,并将其与大规模图像和视频数据集结合进行联合训练。此外,我们推出了EditVerseBench,这是首个涵盖多样化任务和分辨率的基于指令的视频编辑基准。大量实验和用户研究表明,EditVerse实现了最先进的性能,超越了现有的开源和商业模型,同时在跨模态的编辑与生成能力上展现出涌现特性。
本文提出了一种基于群体相对策略优化(GRPO)的方法,用于训练面向开放格式语音理解任务(如口语问答和自动语音翻译)的语音感知大语言模型(SALLMs)。SALLMs在语音理解任务中已展现出显著成效。GRPO因其在大语言模型训练中的高效性而受到关注,先前研究已探讨了其在SALLMs上的应用,主要集中在多项选择题型上。在此基础上,我们聚焦于更能体现模型生成能力的开放格式任务。该方法利用GRPO结合BLEU作为奖励信号来优化SALLMs,并通过实验证明其在多项关键指标上超越了标准的监督微调(SFT)。最后,我们探索了在这些任务中引入离策略样本的潜力,为未来改进和研究指明了方向。
尖端人工智能(AI)技术持续重塑我们对世界的认知。例如,基于大型语言模型(LLMs)的应用,如ChatGPT,已展现出在广泛话题上生成类人对话的能力。鉴于其在多种语言相关任务(如开放域问答、翻译和文档摘要)上的卓越表现,人们可以预见LLMs在更广泛的实际应用领域(如客户服务、教育与无障碍服务、科学发现)将带来的深远影响。受其成功启发,本文将对最先进的LLMs及其融入多学科领域的情况进行概述,包括:(1)人文、文学与法律(如历史、哲学、政治学、艺术与建筑、法律),(2)经济与商业(如金融、经济学、会计、市场营销),以及(3)科学与工程(如数学、物理与机械工程、化学与化工、生命科学与生物工程、地球科学与土木工程、计算机科学与电气工程)。本文融合人文与技术,探讨LLMs如何塑造这些领域的研究与实践,同时讨论生成式AI时代的关键局限、开放挑战及未来方向。通过跨学科视角审视LLMs的应用,结合关键观察与洞见,本文旨在帮助有意利用LLMs推动多样化实际应用的研究者与实践者,促进其工作进展。
现有的视频生成模型在从文本或图像生成逼真视频方面表现出色,但往往缺乏物理合理性和三维可控性。为克服这些局限,我们提出了PhysCtrl,一个基于物理参数和力控制的新型图像到视频生成框架。其核心是一个生成物理网络,该网络通过扩散模型学习四种材料(弹性体、沙子、橡皮泥和刚性体)在物理参数和施加力条件下的动态分布。我们将物理动态表示为三维点轨迹,并在由物理模拟器生成的大规模合成数据集(包含55万条动画)上进行训练。我们通过一种新颖的时空注意力模块增强扩散模型,该模块模拟粒子相互作用,并在训练过程中融入基于物理的约束,以确保物理合理性。实验表明,PhysCtrl生成的物理基础运动轨迹真实可信,当用于驱动图像到视频模型时,能够产生高保真、可控的视频,在视觉质量和物理合理性上均优于现有方法。项目页面:https://cwchenwang.github.io/physctrl
我们提出了Lavida-O,一个统一的掩码扩散模型(MDM),用于多模态理解与生成。与现有的多模态MDM如MMaDa和Muddit仅支持简单的图像级理解任务及低分辨率图像生成不同,Lavida-O提供了一个单一框架,能够实现图像级理解、对象定位、图像编辑以及高分辨率(1024像素)文本到图像合成。Lavida-O引入了一种新颖的弹性混合变换器(Elastic-MoT)架构,该架构将轻量级的生成分支与更大的理解分支相结合,并通过令牌压缩、通用文本条件化和分层采样来支持高效且高质量的生成。此外,Lavida-O在图像生成和编辑任务中融入了规划与迭代自我反思机制,无缝地利用其理解能力提升生成质量。Lavida-O在包括RefCOCO对象定位、GenEval文本到图像生成和ImgEdit图像编辑在内的广泛基准测试中均达到了最先进的性能,超越了现有的自回归模型和连续扩散模型如Qwen2.5-VL和FluxKontext-dev,同时在推理时提供了显著的加速。这些进展确立了Lavida-O作为可扩展多模态推理与生成的新范式。
蛋白质折叠模型通常通过将领域知识融入架构模块和训练流程中取得了突破性成果。然而,鉴于生成模型在不同但相关问题上取得的成功,人们自然会质疑这些架构设计是否是构建高性能模型的必要条件。本文中,我们提出了SimpleFold,这是首个基于流匹配的蛋白质折叠模型,仅使用通用Transformer模块。传统的蛋白质折叠模型通常采用计算成本高昂的模块,包括三角更新、显式配对表示或为该特定领域定制的多重训练目标。相比之下,SimpleFold采用带有自适应层的标准Transformer模块,并通过生成流匹配目标及附加的结构项进行训练。我们将SimpleFold扩展至30亿参数,并在约900万蒸馏蛋白质结构及实验PDB数据上进行训练。在标准折叠基准测试中,SimpleFold-3B相较于最先进的基线模型展现出竞争力,此外,SimpleFold在集成预测中表现优异,这对于通过确定性重建目标训练的模型通常较为困难。得益于其通用架构,SimpleFold在消费级硬件上的部署和推理效率显著。SimpleFold挑战了蛋白质折叠中对复杂领域特定架构设计的依赖,为未来的进展开辟了新的设计空间。
开源大型语言模型(LLMs)正日益向特定领域(如数学、编程、通用推理)专业化发展,这促使了利用各模型互补优势的系统设计。以往的多LLM方法要么(i)将查询路由至一个或少数专家模型并独立生成结果,要么(ii)通过成本高昂的多轮交流聚合各模型输出,或者(iii)将权重融合进单一模型——通常要求架构同质性。我们提出了“思维混合”(Mixture of Thoughts, MoT),这是一种在全局路由机制下实现异构专家间潜在层面协作的简便方法。针对每个查询,一个轻量级路由器选出前K个专家并指定一个主专家;均匀分布的交互层将隐藏状态投射至共享潜在空间,在此主专家对其活跃(被选中)的同伴执行交叉注意力。预训练专家模型保持冻结状态;仅路由器和轻量级交互层通过新颖的联合训练目标进行训练,该目标同时优化专家选择与专家间协作。在五个分布内(ID)和三个分布外(OOD)基准测试中,MoT分别以+0.38%和+2.92%的优势超越了当前基于路由和聚合的最先进方法Avengers。此外,MoT显著优于表现最佳的单模型。它通过单次推理实现这一成就,运行时间与路由基线相当,且无需迭代聚合的额外开销。MoT提供了一种在潜在空间内结合异构LLMs的简单机制,是迈向更广泛多LLM协作的实用一步。我们的代码已公开于https://github.com/jacobfa/mot。
近期,大规模视觉语言模型(LVLM)的进展推动了文档解析任务的重要突破。相较于传统的基于流水线的方法,端到端范式在将PDF图像转换为结构化输出方面展现了卓越性能,这得益于其集成了光学字符识别(OCR)、表格识别、数学公式识别等多种功能。然而,由于缺乏对文档布局和阅读顺序的显式分析阶段,LVLM在处理多栏报纸或海报等复杂文档类型时能力受限。为解决这一局限,本报告提出Logics-Parsing:一种基于LVLM并增强强化学习的端到端模型。我们的模型通过精心设计的奖励机制,优化了复杂布局分析和阅读顺序推理。此外,通过将化学公式和手写汉字等多种数据类型纳入监督微调,我们进一步扩展了模型的通用性。最后,为严谨评估我们的方法,我们引入了LogicsParsingBench,这是一个精心策划的包含1,078页PDF图像的数据集,涵盖九大类别及二十多个子类别,该数据集将于后续发布。在LogicsParsingBench上进行的全面实验验证了所提模型在多样化文档分析场景中的有效性和最先进(SOTA)性能。项目页面:https://github.com/alibaba/Logics-Parsing
大型语言模型(LLMs)正日益融入软件开发流程。通过使用自主AI代理,以最小化人工干预的方式生成代码并提交拉取请求,有望成为标准实践。然而,关于这些拉取请求的实际效用及其在现实项目中的接受程度,目前知之甚少。本文中,我们实证研究了使用Claude Code这一代理编码工具生成的567个GitHub拉取请求(PRs),这些请求分布于157个多样化的开源项目中。我们的分析显示,开发者倾向于依赖代理完成诸如重构、文档编写和测试等任务。结果表明,83.8%的代理辅助PRs最终被项目维护者接受并合并,其中54.9%的合并PRs未经进一步修改即被集成。剩余的45.1%则需要额外修改,特别是针对错误修复、文档完善及遵循项目特定标准等方面,这些修改得益于人工审阅。这些发现表明,尽管代理辅助的PRs大体上可被接受,但仍需人类监督与精炼以提升其质量。
在《商品名称及编码协调制度》(HTS)下对产品进行准确分类是全球贸易中的关键瓶颈,然而这一领域却鲜少受到机器学习社区的关注。分类错误可能导致货物运输完全停滞,主要邮政运营商因海关文件不完整而暂停向美国发货。我们首次推出了基于美国海关在线裁决搜索系统(CROSS)的HTS编码分类基准。通过评估领先的大型语言模型,我们发现经过微调的Atlas模型(LLaMA-3.3-70B)在10位编码分类上实现了40%的完全正确率,在6位编码分类上达到了57.5%的正确率,分别比GPT-5-Thinking提高了15个百分点,比Gemini-2.5-Pro-Thinking提高了27.5个百分点。除了准确性之外,Atlas的成本大约仅为GPT-5-Thinking的五分之一,Gemini-2.5-Pro-Thinking的八分之一,并且可以自托管,以确保高风险贸易和合规工作流程中的数据隐私。尽管Atlas设定了强有力的基准,但该任务仍极具挑战性,10位编码的准确率仅为40%。通过发布数据集和模型,我们旨在将HTS分类定位为社区新的基准任务,并鼓励未来在检索、推理和对齐方面的研究。
我们推出了一款开源Python库,用于模拟分层剪切流中的二维不可压缩开尔文-亥姆霍兹不稳定性。该求解器采用分数步投影法,通过快速正弦变换实现谱泊松求解,达到了二阶空间精度。实现过程中充分利用了NumPy、SciPy及Numba的即时编译功能,以确保计算效率。通过四个经典测试案例,我们探索了雷诺数1000至5000及理查森数0.1至0.3范围内的流动特性:经典剪切层、双剪切配置、旋转流及受迫湍流。利用香农熵与复杂度指数的统计分析表明,尽管雷诺数较低,双剪切层的混合速率仍比受迫湍流高出2.8倍。该求解器在标准桌面硬件上运行高效,384×192网格的模拟约在31分钟内完成。研究结果表明,混合效率取决于不稳定性生成路径而非仅强度指标,这对基于理查森数的参数化方法提出了挑战,并为气候模型中的亚网格尺度表征提供了改进方向。