每日精选AI研究论文及翻译
本研究探讨了在生物医学资源有限的俄语环境中实现临床编码自动化的可行性。我们提出了一个用于ICD编码的新数据集,该数据集包含来自电子健康记录(EHRs)的诊断字段,标注了超过10,000个实体和1,500多个独特的ICD编码。此数据集作为多个先进模型的基准,包括BERT、采用LoRA的LLaMA以及RAG,并进行了跨领域(从PubMed摘要到医疗诊断)和跨术语(从UMLS概念到ICD编码)的迁移学习实验。随后,我们将表现最佳的模型应用于标注一个内部EHR数据集,该数据集涵盖了2017年至2021年的患者病史。在精心挑选的测试集上进行的实验表明,与医生手动标注的数据相比,使用自动化预测编码进行训练显著提高了准确性。我们相信,这些发现为在资源有限的语言(如俄语)中自动化临床编码的潜力提供了宝贵见解,有望提升此类环境下的临床效率和数据准确性。
人类偏好对齐领域的最新进展显著提升了多模态生成与理解能力。其中,训练奖励模型以指导偏好优化是关键方法。然而,现有模型往往局限于特定任务,限制了其在多样化视觉应用中的适应性。我们认为,联合学习评估多项任务可能产生协同效应:图像理解的提升有助于图像生成评估的改进,而精细化的图像评估则通过更优的帧分析促进视频评估。为此,本文提出了UnifiedReward,首个用于多模态理解与生成评估的统一奖励模型,支持成对排序与逐点评分,可应用于视觉模型的偏好对齐。具体而言:(1)我们首先在构建的大规模人类偏好数据集上开发UnifiedReward,涵盖图像与视频的生成/理解任务;(2)随后,基于视觉模型自动构建高质量偏好对数据,通过成对排序与逐点筛选逐步精炼其输出;(3)最后,利用这些数据通过直接偏好优化(DPO)进行偏好对齐。实验结果表明,联合学习评估多样视觉任务能带来显著的相互增益,我们将此流程应用于图像与视频的理解/生成任务,显著提升了各领域的性能。
通用多语言向量表示,广泛应用于检索、回归和分类任务,传统上源自双向编码器模型。尽管其应用广泛,编码器近来在生成式仅解码器模型的进展面前略显失色。然而,推动这一进步的诸多创新并非解码器所独有。本文中,我们借助这些进展的视角,重新审视多语言编码器的发展,并推出EuroBERT系列,这是一组覆盖欧洲及全球广泛使用语言的多语言编码器。我们的模型在包括多语言能力、数学及编程在内的多样化任务中均超越现有替代方案,并原生支持长达8,192个标记的序列。同时,我们深入探讨了EuroBERT背后的设计决策,分享了数据集构建与训练流程的洞见。我们公开了EuroBERT模型,包括中间训练检查点,以及我们的训练框架。
近期,DeepSeek R1展示了如何通过结合简单规则激励的强化学习,促使大型语言模型自主发展出复杂推理能力,其标志性特征为“顿悟时刻”,即模型在训练过程中展现出自我反思及回答长度的显著增加。然而,将这一成功扩展至多模态推理领域的尝试,往往难以重现这些关键特性。本报告中,我们首次成功在仅基于非监督微调(SFT)的20亿参数模型上,复现了多模态推理中的这些涌现特性。以Qwen2-VL-2B为起点,直接在SAT数据集上应用强化学习,我们的模型在CVBench上达到了59.47%的准确率,较基础模型提升约30%,并超越所有SFT设置约2%。此外,我们分享了在尝试使用强化学习结合指令模型实现类似R1推理能力过程中的失败案例与洞见,旨在揭示其中面临的挑战。我们的主要观察包括:(1)在指令模型上应用强化学习常导致推理路径趋于简单化;(2)单纯的长度奖励机制难以有效激发推理能力。项目代码已公开于https://github.com/turningpoint-ai/VisualThinker-R1-Zero。
大型语言模型(LLMs)的快速发展,使得语音模型尤其是支持语音输入输出的speech2speech协议近期进展备受瞩目。然而,现有基准测试采用基于文本的自动评估器来评价这些模型的指令跟随能力,却忽视了语音理解与生成过程中副语言信息的考量。为解决这些问题,我们引入了S2S-Arena,一个创新的竞技场式S2S基准测试,它通过真实世界任务中的语音输入与输出,结合副语言信息来评估指令跟随能力。我们设计了154个样本,融合了TTS与现场录音,覆盖四个领域的21项任务,并以竞技场方式手动评估了现有热门语音模型。实验结果表明:(1)除GPT-4o表现卓越外,在speech2speech协议中,级联ASR、LLM与TTS的语音模型在文本-语音对齐后,其性能优于联合训练模型;(2)考虑到副语言信息,语音模型的知识性主要依赖于LLM主干,而其多语言支持则受限于语音模块;(3)优秀的语音模型已能理解语音输入中的副语言信息,但生成包含恰当副语言信息的音频仍是一大挑战。
近期大型语言模型的进展通过思维链(Chain of Thought, CoT)提示展现了卓越的推理能力,但往往伴随着中间输出过于冗长的问题,这增加了计算开销。我们提出了思维草图(Sketch-of-Thought, SoT),一种新颖的提示框架,它结合了认知启发的推理范式与语言约束,旨在最小化标记使用的同时保持推理准确性。SoT被设计为一个灵活的框架,能够整合任何基于认知科学的自定义推理范式,并通过三种具体范式——概念链(Conceptual Chaining)、块状符号(Chunked Symbolism)和专家词汇(Expert Lexicons)——进行实例化,每种范式针对不同的推理任务,并通过轻量级路由模型动态选择。在涵盖15个推理数据集、多种语言及多模态场景的综合评估中,我们展示了SoT实现了76%的标记减少,且对准确性的影响微乎其微。在数学推理和多跳推理等特定领域,它甚至在使用显著更少标记的同时提升了准确性。我们的代码已公开:https://www.github.com/SimonAytes/SoT。
在本研究中,我们首次将可验证奖励强化学习(RLVR)应用于全模态大语言模型,聚焦于情感识别这一视觉与听觉模态均起关键作用的任务。通过RLVR优化全模态模型,我们显著提升了其在三个核心方面的性能:推理能力、情感识别准确率以及泛化能力。RLVR的引入不仅提高了模型在分布内数据上的整体表现,还在分布外数据集评估中展现出卓越的鲁棒性。更重要的是,增强后的推理能力使得我们能够清晰分析不同模态,特别是视觉与听觉信息,在情感识别过程中的贡献度。这为多模态大语言模型的优化提供了宝贵的洞见。
现代循环序列模型的核心组件之一是遗忘门。尽管Transformer模型并不具备显式的循环结构,但我们证明,通过以数据依赖的方式对未归一化的注意力分数进行降权,可以自然地将遗忘门融入Transformer中。我们将这种注意力机制命名为遗忘注意力(Forgetting Attention),并将由此产生的模型称为遗忘Transformer(FoX)。实验表明,FoX在长上下文语言建模、长度外推以及短上下文下游任务上均优于Transformer,而在长上下文下游任务上则与Transformer表现相当。此外,FoX与FlashAttention算法兼容,且无需任何位置嵌入。多项分析,包括“大海捞针”测试,证实FoX同样保持了Transformer在长上下文处理能力上相对于Mamba-2、HGRN2和DeltaNet等循环序列模型的优势。我们还引入了一种“Pro”块设计,该设计整合了循环序列模型中的一些常见架构组件,发现它显著提升了FoX和Transformer的性能。我们的代码已发布于https://github.com/zhixuan-lin/forgetting-transformer。
现有的大型推理模型(LRMs)已展现出强化学习(RL)在提升大型语言模型(LLMs)复杂推理能力方面的潜力。尽管这些模型在数学和编程等挑战性任务上取得了显著成绩,但它们往往依赖内部知识解决问题,这在处理时效性强或知识密集的问题时可能力不从心,导致不准确和幻觉现象。为此,我们提出了R1-Searcher,一种新颖的两阶段基于结果的RL方法,旨在增强LLMs的搜索能力。该方法使LLMs能够在推理过程中自主调用外部搜索系统,以获取额外知识。我们的框架完全依赖RL,无需过程奖励或蒸馏进行冷启动。实验表明,我们的方法显著超越了以往强大的RAG方法,甚至在与闭源的GPT-4o-mini对比时也表现出色。
视频修复技术旨在恢复受损的视频内容,已取得显著进展。然而,现有方法,无论是通过光流和感受野先验传播未掩码区域像素,还是将图像修复模型在时间维度上扩展,均面临生成完全掩码对象或在一个模型中平衡背景上下文保留与前景生成这两大竞争目标的挑战。为克服这些局限,我们提出了一种新颖的双流范式VideoPainter,它包含一个高效的上下文编码器(仅占骨干网络参数的6%),用于处理掩码视频,并将骨干网络感知的背景上下文线索注入任何预训练的视频DiT中,以即插即用的方式生成语义一致的内容。这种架构分离显著降低了模型的学习复杂度,同时实现了关键背景上下文的精细整合。我们还引入了一种新颖的目标区域ID重采样技术,支持任意长度视频的修复,极大提升了实际应用价值。此外,我们建立了一个可扩展的数据集管道,利用当前视觉理解模型,贡献了VPData和VPBench,以促进基于分割的修复训练与评估,这是迄今为止最大的视频修复数据集和基准,包含超过39万个多样化的视频片段。以修复为管道基础,我们还探索了包括视频编辑和视频编辑对数据生成在内的下游应用,展示了竞争性的性能和巨大的实用潜力。大量实验证明,VideoPainter在任意长度视频修复和编辑方面均表现出色,在视频质量、掩码区域保持及文本连贯性等八项关键指标上均领先。
基于大语言模型(LLM)的代理在解决网络任务方面正变得日益熟练。然而,这种能力的提升也伴随着更大的滥用风险,例如在在线论坛发布虚假信息或在网站上销售违禁品。为评估这些风险,我们提出了SafeArena,这是首个专注于网络代理故意滥用的基准测试。SafeArena包含来自四个网站的250项安全任务和250项有害任务。我们将有害任务划分为五大类别——虚假信息、非法活动、骚扰、网络犯罪和社会偏见,旨在评估网络代理的实际滥用情况。我们在该基准上评估了包括GPT-4o、Claude-3.5 Sonnet、Qwen-2-VL 72B和Llama-3.2 90B在内的领先LLM网络代理。为系统评估其对有害任务的易感性,我们引入了代理风险评估框架,该框架将代理行为划分为四个风险等级。我们发现,代理对恶意请求的顺从程度令人惊讶,GPT-4o和Qwen-2分别完成了34.7%和27.3%的有害请求。我们的研究结果凸显了对网络代理进行安全对齐程序的迫切需求。我们的基准测试可在此处获取:https://safearena.github.io
我们提出了TrajectoryCrafter,一种针对单目视频重定向相机轨迹的新颖方法。通过将确定性视角变换与随机内容生成解耦,我们的方法实现了对用户指定相机轨迹的精确控制。我们提出了一种新颖的双流条件视频扩散模型,该模型同时整合点云渲染和源视频作为条件,确保了准确的视角变换和连贯的四维内容生成。我们没有依赖稀缺的多视角视频,而是通过创新的双重重投影策略,构建了一个结合网络规模单目视频与静态多视角数据集的混合训练数据集,显著提升了模型在多样化场景中的泛化能力。在多视角和大规模单目视频上的广泛评估验证了我们方法的卓越性能。
近期,针对大规模语言模型(LLMs)的强化学习(RL)研究取得了显著进展,以DeepSeek R1为例,研究表明即便是简单的问答任务也能大幅提升LLM的推理能力。在本研究中,我们通过将任务调整为多轮尝试设置,进一步拓展了这一方法。模型不再对每个问题仅生成单一回答,而是获得多次尝试机会,并在错误回答后提供反馈。这种多轮尝试任务促使模型优化其先前尝试,并提高搜索效率。实验结果显示,即便是小型LLM,在多轮尝试任务上训练后,在评估时给予更多尝试机会也能显著提升准确率,在数学基准测试中,从单次尝试的45.6%提升至两次尝试的52.5%。相比之下,同一LLM在标准单轮任务上训练后,在评估时给予更多尝试机会仅表现出微小的改进,从42.3%增至43.2%。这些结果表明,与标准单轮任务相比,经过多轮尝试任务训练的LLM在数学基准测试上表现略优,同时还能更有效地基于用户反馈精炼其回答。完整代码已发布于https://github.com/DualityRL/multi-attempt。
在保持性能的同时缩小大型语言模型(LLMs)的规模已成为一个备受关注的挑战。然而,现有方法如模型蒸馏和迁移学习往往难以实现高精度。为解决这一局限,我们引入了分支-合并蒸馏方法,该方法通过两个阶段增强模型压缩:(1)分支阶段,通过领域特定的监督微调(SFT),将大型教师模型的知识有选择地蒸馏到专门的学生模型中;(2)合并阶段,将这些学生模型合并,以实现跨领域知识转移并提升泛化能力。我们以DeepSeek-R1作为教师模型,DeepSeek-R1-Distill-Qwen-32B作为学生模型,验证了我们的蒸馏方法。最终合并的模型TinyR1-32B-Preview在多个基准测试中均优于其对应模型DeepSeek-R1-Distill-Qwen-32B,包括数学(+5.5分)、编程(+4.4分)和科学(+2.9分),同时在AIME 2024上实现了与DeepSeek-R1近乎相当的性能。分支-合并蒸馏方法为创建计算成本和时间更少、性能更优的小型LLMs提供了一种可扩展的解决方案。
代码嵌入对于语义代码搜索至关重要;然而,现有方法往往难以精准捕捉代码中固有的语法和上下文细微差别。开源模型如CodeBERT和UniXcoder在可扩展性和效率方面存在局限,而高性能的专有系统则需承担巨大的计算成本。我们提出了一种基于低秩适应(LoRA)的参数高效微调方法,用于构建面向代码检索的任务特定适配器。该方法将可训练参数数量减少至基础模型的不足百分之二,从而能在海量代码语料库上实现快速微调(在两块H100 GPU上,25分钟内处理200万样本)。实验表明,在跨多种编程语言的Code2Code搜索任务中,平均倒数排名(MRR)提升高达9.1%,而在Text2Code搜索任务中,提升幅度更达86.69%。通过任务间和语言间适应性的区分,有助于探索代码检索对语法和语言变异的敏感性。
现实世界中的家务任务对移动操作机器人提出了重大挑战。通过对现有机器人基准测试的分析发现,成功完成任务依赖于三项关键的整体控制能力:双手协调、稳定且精确的导航以及广泛的末端执行器可达性。实现这些能力需要精心的硬件设计,但由此带来的系统复杂性进一步增加了视觉运动策略学习的难度。为应对这些挑战,我们推出了BEHAVIOR机器人套件(BRS),这是一个面向多样化家务任务中整体操作的综合性框架。BRS基于一款配备4自由度躯干的双手机器人,集成了一套经济高效的整体遥操作接口用于数据收集,以及一种新颖的学习整体视觉运动策略的算法。我们在五项具有挑战性的家务任务上对BRS进行了评估,这些任务不仅强调了上述三项核心能力,还引入了额外的复杂性,如长距离导航、与铰接和可变形物体的交互以及在狭小空间内的操作。我们相信,BRS集成的机器人实体、数据收集接口及学习框架,标志着在实现日常家务任务中整体操作方面迈出了重要一步。BRS已在https://behavior-robot-suite.github.io/开源。
扩散模型在图像和视频生成领域取得了显著进展,但仍面临巨大的计算成本问题。作为一种有效解决方案,流匹配旨在将扩散模型的扩散过程重新调整为直线路径,以实现少步甚至一步生成。然而,本文指出,流匹配的原始训练流程并非最优,并引入了两种技术加以改进。首先,我们提出了渐进式回流,通过在局部时间步长上逐步回流扩散模型,直至整个扩散过程完成,从而降低了流匹配的难度。其次,我们引入了对齐的v预测,强调了流匹配中方向匹配相较于幅度匹配的重要性。在SDv1.5和SDXL上的实验结果表明了我们方法的有效性,例如,在SDv1.5上仅用4个采样步骤就在MSCOCO2014验证集上达到了10.70的FID,接近我们的教师模型(32步DDIM,FID = 10.05)。
线性序列建模(Linear Sequence Modeling, LSM),如线性注意力机制、状态空间模型和线性循环神经网络(RNN),以及专家混合模型(Mixture-of-Experts, MoE)近期作为重要的架构创新崭露头角。本文中,我们介绍了Linear-MoE,一个将LSM与MoE相结合,用于大规模模型建模与训练的生产级系统。Linear-MoE充分利用了LSM模块在线性复杂度序列建模上的优势,以及MoE层在稀疏激活上的特性,旨在实现高效训练的同时提供卓越性能。Linear-MoE系统包含两大核心部分:1)建模子系统,它提供了一个统一框架,支持所有LSM实例;2)训练子系统,通过集成多种先进的并行技术,特别是为Linear-MoE模型设计的序列并行(Sequence Parallelism),以促进高效训练。此外,我们还探索了将Linear-MoE层与标准Transformer-MoE层及其序列并行技术相结合的混合模型,以进一步提升模型的灵活性和性能。通过对A0.3B-2B和A1B-7B两个模型系列的评估,Linear-MoE在保持各项基准测试中竞争力的同时,展现了显著的效率提升,证明了其作为下一代基础模型架构的潜力。代码地址:https://github.com/OpenSparseLLMs/Linear-MoE。
在本报告中,我们发布了STILL项目中关于慢思考模型开发的第三份技术报告。随着技术路径的日益明晰,强化学习(RL)训练的规模化已成为实现此类推理模型的核心技术。我们系统性地实验并记录了影响RL训练的各种因素,对基础模型和微调模型均进行了实验。具体而言,我们展示了RL训练方法持续提升了Qwen2.5-32B基础模型的表现,不仅增加了响应长度,还提高了测试准确率。此外,即便如DeepSeek-R1-Distill-Qwen-1.5B这样已具备高水平的模型,通过RL训练仍能进一步优化,在AIME 2024上达到了39.33%的准确率。除了RL训练,我们还探索了工具操作的应用,发现其显著提升了大型推理模型的推理性能。该方法在AIME 2024上采用贪心搜索策略,取得了86.67%的惊人准确率,充分证明了其在增强模型能力方面的有效性。我们已在STILL项目网站发布相关资源:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs。
检索增强生成(RAG)在特定语料库内执行问答(QA)任务时展现出了显著的能力。然而,RAG在QA中的失败案例依然众多。这些失败并非仅归因于大型语言模型(LLMs)的局限,而主要是由于检索为LLMs提供的信息不准确,这源于两大限制:(1)当前RAG方法在分割语料库时未考虑语义,导致因问题与片段间关联受损而难以找到相关上下文。(2)在检索较少上下文时遗漏关键信息与检索更多上下文时引入无关信息之间存在权衡。 本文提出了一种名为SAGE的RAG框架,以克服上述限制。首先,针对未考虑语义的分割问题,我们提出训练一个语义分割模型,该模型旨在将语料库分割成语义完整的片段。其次,为确保仅检索最相关的片段而忽略无关内容,我们设计了一种基于相关性分数下降速度动态选择片段的算法,从而实现更精准的选择。第三,为进一步确保检索片段的精确性,我们建议让LLMs评估检索到的片段是否过多或不足,并据此调整上下文的数量。实验表明,SAGE在QA质量上平均优于基线方法61.25%。此外,通过避免检索噪声上下文,SAGE降低了LLM推理中消耗的token成本,平均提升了49.41%的成本效率。我们的工作还为提升RAG提供了宝贵的洞见。
当前先进的长上下文语言模型为现实世界的软件工程应用提供了巨大潜力。然而,这一关键领域的发展仍受到一个根本性限制的阻碍:缺乏针对长代码理解的严格评估框架。为填补这一空白,我们提出了一个长代码理解基准LONGCODEU,从四个方面(8项任务)评估长上下文语言模型在实际应用中所需的长代码理解能力,包括代码单元感知、代码单元内部理解、代码单元间关系理解以及长代码文档理解。我们在LONGCODEU上评估了9种流行的长上下文语言模型(即6种通用模型和3种代码模型)。实验结果表明,当前长上下文语言模型在长代码理解能力上存在关键局限。特别是,当长代码长度超过32K时,这些模型的性能急剧下降,远未达到其宣称的128K-1M上下文窗口。在四个方面中,代码单元间关系理解对长上下文语言模型最具挑战性。我们的研究为优化长上下文语言模型和推动软件工程进步提供了宝贵见解。
现代大型语言模型(LLM)的序列化特性使其成本高昂且运行缓慢,而推测采样已被证明是解决这一问题的有效方案。诸如EAGLE等方法在特征层面执行自回归,通过复用目标模型的顶层特征,取得了优于传统推测采样的效果。LLM领域的一个日益增长的趋势是扩大训练数据规模,以在不增加推理成本的前提下提升模型智能。然而,我们观察到,数据规模的扩大对EAGLE的改进效果有限。我们发现,这一限制源于EAGLE的特征预测约束。本文中,我们提出了EAGLE-3,它摒弃了特征预测,转而直接进行令牌预测,并通过一种名为“训练时测试”的技术,用多层特征融合取代了对顶层特征的依赖。这些改进显著提升了性能,使草稿模型能够充分利用扩大后的训练数据。我们的实验涵盖了聊天模型和推理模型,并在五项任务上进行了评估。结果显示,EAGLE-3实现了最高6.5倍的加速比,相比EAGLE-2提升了约1.4倍。代码已发布于https://github.com/SafeAILab/EAGLE。
视频异常检测(VAD)在计算机视觉的视频分析与监控中至关重要。然而,现有的VAD模型依赖于学习到的正常模式,这使其难以适应多样化的环境。因此,用户需要针对新环境重新训练模型或开发独立的AI模型,这不仅需要机器学习专业知识、高性能硬件,还需大量数据收集,限制了VAD的实际应用。为解决这些挑战,本研究提出了可定制视频异常检测(C-VAD)技术及AnyAnomaly模型。C-VAD将用户定义的文本视为异常事件,并检测视频中包含指定事件的帧。我们通过上下文感知的视觉问答有效实现了AnyAnomaly,无需对大型视觉语言模型进行微调。为验证所提模型的有效性,我们构建了C-VAD数据集,并展示了AnyAnomaly的优越性。此外,我们的方法在VAD基准数据集上表现出竞争力,在UBnormal数据集上取得了最先进的成果,并在所有数据集上的泛化能力优于其他方法。我们的代码已在线发布,地址为github.com/SkiddieAhn/Paper-AnyAnomaly。
用户模拟器对于复现人类与对话系统的交互至关重要,它既支持协作训练,也支持自动评估,尤其是在大型语言模型(LLMs)的应用中。然而,现有的模拟器往往仅依赖于文本话语,忽视了诸如个性、说话风格和目标等隐含的用户特质。相比之下,基于人物角色的方法因依赖预定义的名人或原型档案而缺乏普适性。为应对这些挑战,我们提出了带有隐含用户档案的用户模拟器(USP),该框架能够从人机对话中推断出隐含的用户档案,并利用这些档案生成更加个性化和真实的对话。我们首先开发了一个基于LLM的提取器,配备了一套全面的档案模式。随后,通过条件监督微调和循环一致性的强化学习,我们在话语和对话两个层面上对模拟器进行了优化。最后,我们采用多样化的档案采样器来捕捉现实世界用户档案的分布。实验结果表明,USP在真实性和多样性方面均优于强基线,同时在一致性方面也达到了可比的表现。此外,基于USP的动态多轮评估与主流基准高度一致,证明了其在现实应用中的有效性。