每日精选AI研究论文及翻译
我们推出了CameraBench,这是一个大规模数据集与基准测试平台,旨在评估并提升对摄像机运动的理解。CameraBench包含约3,000段多样化的网络视频,这些视频经过专家严格的多阶段质量控制流程进行标注。我们的贡献之一是与电影摄影师合作设计了一套摄像机运动基本动作的分类体系。例如,我们发现诸如“跟随”(或追踪)这样的动作需要理解场景内容,如移动的主体。我们开展了一项大规模的人类研究,以量化人类标注的表现,结果表明领域专业知识及基于教程的培训能显著提高准确性。举例来说,新手可能会混淆“拉近”(内在参数变化)与“前移”(外在参数变化),但通过培训可以区分二者。利用CameraBench,我们评估了结构光运动(SfM)模型和视频-语言模型(VLMs),发现SfM模型难以捕捉依赖场景内容的语义基本动作,而VLMs则在需要精确估计轨迹的几何基本动作上表现欠佳。随后,我们在CameraBench上微调了一个生成式VLM,以融合两者优势,并展示了其应用,包括运动增强的标题生成、视频问答及视频-文本检索。我们期望我们的分类体系、基准测试及教程能推动未来研究,朝着理解任何视频中摄像机运动的终极目标迈进。
我们推出Skywork R1V2,这是一款新一代多模态推理模型,相较于前代Skywork R1V实现了重大跨越。R1V2的核心在于引入了一种混合强化学习范式,该范式巧妙地将奖励模型指导与基于规则的策略相融合,从而解决了长期以来在复杂推理能力与广泛泛化之间寻求平衡的难题。为进一步提升训练效率,我们提出了选择性样本缓冲(SSB)机制,该机制通过在整个优化过程中优先处理高价值样本,有效应对了群体相对策略优化(GRPO)中固有的“优势消失”困境。值得注意的是,我们发现过度的强化信号可能诱发视觉幻觉现象——我们通过在整个训练过程中校准奖励阈值,系统地监控并缓解了这一现象。实证结果证实了R1V2的卓越能力,其在多项基准测试中均取得领先成绩,如OlympiadBench上的62.6分、AIME2024上的79.0分、LiveCodeBench上的63.6分以及MMMU上的74.0分。这些成果不仅彰显了R1V2相对于现有开源模型的优越性,也展示了其在缩小与顶尖专有系统(如Gemini 2.5和OpenAI o4-mini)性能差距方面的显著进展。Skywork R1V2的模型权重已公开发布,以促进开放性和可复现性,访问地址为https://huggingface.co/Skywork/Skywork-R1V2-38B。
1位大语言模型(LLMs)的高效部署受到激活值异常点的阻碍,这些异常点使得向低位宽量化变得复杂。我们推出了BitNet v2,这是一个创新框架,能够为1位LLMs实现原生4位激活量化。针对注意力机制和前馈网络中激活值的异常点问题,我们提出了H-BitLinear模块,该模块在激活量化前应用在线哈达玛变换。这一变换将尖锐的激活分布平滑为更接近高斯分布的形式,适合低位表示。实验表明,使用8位激活从头训练的BitNet v2与BitNet b1.58性能相当。重要的是,BitNet v2在采用原生4位激活训练时,性能下降极小,显著降低了批量推理的内存占用和计算成本。
评估多模态AI系统的视频理解能力,能有效衡量其理解与推理水平。当前多数视频评估基准仅限于单一语言,通常为英语,且视频内容多植根于西方文化背景。本文中,我们推出了VideoVista-CulturalLingo,这是首个旨在跨越文化、语言及领域鸿沟的视频理解评估基准。我们的工作与现有基准相比具有以下特点:1)文化多样性,涵盖中国、北美及欧洲文化;2)多语言性,问题以中文和英文呈现,这两种全球使用最广泛的语言;3)领域广泛,视频素材来自数百个人工创建的领域。VideoVista-CulturalLingo包含1,389个视频和3,134个问答对,并对24个近期开源或专有的视频大模型进行了评估。实验结果表明:1)现有模型在处理以中国为中心的问题时表现逊色于西方中心问题,尤其是涉及中国历史的内容;2)当前开源模型在时间理解上仍显不足,特别是在事件定位任务中,最高得分仅为45.2%;3)主流模型在一般科学问题上表现强劲,而开源模型在数学领域则表现较弱。
我们推出Kimi-Audio,这是一款开源的音频基础模型,在音频理解、生成及对话方面表现卓越。本文详细阐述了构建Kimi-Audio的实践过程,涵盖模型架构、数据整理、训练方案、推理部署及评估方法。具体而言,我们采用12.5Hz的音频分词器,设计了一种新颖的基于大语言模型(LLM)的架构,该架构以连续特征为输入、离散标记为输出,并开发了基于流匹配的分块流式解码器。我们精心策划了一个预训练数据集,包含超过1300万小时的音频数据,覆盖语音、声音和音乐等多种模态,并构建了高质量、多样化的后训练数据管道。Kimi-Audio从预训练的LLM初始化,通过一系列精心设计的任务在音频和文本数据上进行持续预训练,随后微调以支持多种音频相关任务。广泛的评估表明,Kimi-Audio在包括语音识别、音频理解、音频问答及语音对话等一系列音频基准测试中均达到了业界领先水平。我们已在https://github.com/MoonshotAI/Kimi-Audio上发布了代码、模型检查点及评估工具包。
多模态语言分析是一个快速发展的领域,它通过整合多种模态来深化对人类对话话语中高层语义的理解。尽管其重要性不言而喻,但针对多模态大语言模型(MLLMs)在认知层面语义理解能力的研究却相对匮乏。本文中,我们推出了MMLA,一个专门为解决这一空白而设计的全面基准测试。MMLA包含了超过61,000条来自模拟及真实场景的多模态话语,涵盖了意图、情感、对话行为、情绪、说话风格和沟通行为这六大核心多模态语义维度。我们采用零样本推理、监督微调和指令调优三种方法,对八大主流LLMs及MLLMs分支进行了评估。大量实验表明,即便是经过微调的模型,其准确率也仅达到约60%~70%,凸显了当前MLLMs在理解复杂人类语言方面的局限性。我们坚信,MMLA将为探索大语言模型在多模态语言分析中的潜力奠定坚实基础,并为推动该领域发展提供宝贵资源。数据集与代码已开源,访问地址为https://github.com/thuiar/MMLA。
预训练大语言模型(LLMs)的数量正稳步增长,然而其中大多数主要针对英语设计。尽管最先进的LLMs能够处理其他语言,这得益于语言混杂或一定程度的多语言预训练数据,但它们并未针对非英语语言进行优化,导致编码效率低下(高“token生育率”)和推理速度较慢。在本研究中,我们深入比较了多种词汇适应技术,旨在优化英语LLMs以适应意大利语,并提出了一种新颖的方法——语义对齐词汇适应(SAVA),该方法利用神经映射进行词汇替换。SAVA在多项下游任务中展现出竞争力,强化了基础对齐策略。我们适配了两款LLM:Mistral-7b-v0.1,将token生育率降低了25%;以及Llama-3.1-8B,优化了词汇并减少了10亿参数。我们证明,在完成词汇适应后,这些模型通过目标语言上相对有限的持续训练阶段即可恢复性能。最后,我们在多项选择题和生成任务上测试了适配后模型的能力。
稀疏注意力为扩展Transformer大语言模型(LLMs)的长上下文处理能力提供了一种有前景的策略,然而其可行性、效率与准确性的权衡以及系统性的扩展研究仍待探索。为填补这一空白,我们在不同模型规模、序列长度和稀疏度水平上,对无需训练的稀疏注意力方法进行了细致比较,测试范围涵盖了一系列多样化的长序列任务——包括那些依赖自然语言但仍可控且易于评估的新任务。基于实验,我们得出了以下关键发现:1)通过isoFLOPS分析发现,对于极长序列,更大且高度稀疏的模型优于较小且密集的模型。2)在解码阶段,能在统计上保证准确性的稀疏度水平高于预填充阶段,且前者与模型大小相关。3)不存在一种策略在所有任务和阶段均表现最佳,不同场景需要不同的稀疏化单元或预算适应性。即便是中等稀疏度,也常常导致至少一项任务上的显著性能下降,这表明稀疏注意力并非万能解决方案。4)我们提出并验证了专门针对稀疏注意力的新缩放定律,证明我们的发现很可能超越实验范围依然成立。通过这些洞见,我们证明了稀疏注意力是增强Transformer LLMs处理更长序列能力的关键工具,但在性能敏感的应用中需谨慎评估其权衡。
我们推出了一代新型小型推理模型,专为RAG(检索增强生成)、搜索及源摘要任务设计。Pleias-RAG-350m与Pleias-RAG-1B在模拟从Common Corpus检索多种多语言开放资源的大型合成数据集上进行了中期训练。这些模型原生支持引用与基于直接引文的论据支撑,并整合了与RAG工作流相关的多项功能,如查询路由、查询重构及源重排序。在标准化RAG基准测试(如HotPotQA、2wiki)中,Pleias-RAG-350m与Pleias-RAG-1B的表现超越了参数规模低于40亿的SLM(小型语言模型),并与包括Qwen-2.5-7B、Llama-3.1-8B及Gemma-3-4B在内的流行大型模型相媲美。它们是迄今为止唯一能在主要欧洲语言间保持稳定RAG性能,并确保陈述系统引用基础的SLM。得益于其小巧的体积、在受限基础设施上的易部署性,以及设计上更高的真实性,这些模型为生成式AI开辟了一系列新的应用场景。
我们提出了一种无需额外调优即可训练主题驱动的定制视频生成模型的方法,通过将特定主题的学习与时间动态解耦来实现零样本学习。传统的免调优视频定制方法通常依赖于大规模标注的视频数据集,这些数据集计算成本高昂且需要大量标注。与以往方法不同,我们直接利用图像定制数据集来训练视频定制模型,将视频定制分解为两个层面:(1) 通过图像定制数据集进行身份注入,(2) 通过图像到视频的训练方法,利用少量未标注视频保持时间建模。此外,在图像到视频的微调过程中,我们采用随机图像令牌丢弃与随机图像初始化相结合的策略,以缓解复制粘贴问题。为了进一步增强学习效果,我们在特定主题特征与时间特征的联合优化中引入了随机切换机制,有效避免了灾难性遗忘。我们的方法在零样本设置下实现了优异的主体一致性和可扩展性,超越了现有的视频定制模型,充分证明了该框架的有效性。
在金融领域,有效推理仍然是大型语言模型(LLMs)面临的核心挑战,该领域的任务通常需要特定领域的知识、精确的数值计算以及严格遵守合规规则。我们提出了DianJin-R1,一个推理增强框架,旨在通过推理增强监督和强化学习来应对这些挑战。我们方法的核心是DianJin-R1-Data,这是一个从CFLUE、FinQA和专有合规语料库(中文合规检查,CCC)构建的高质量数据集,结合了多样化的金融推理场景和经过验证的注释。我们的模型DianJin-R1-7B和DianJin-R1-32B,是从Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct微调而来,采用了一种结构化格式,既生成推理步骤也生成最终答案。为了进一步提升推理质量,我们应用了群体相对策略优化(GRPO),这是一种强化学习方法,结合了双重奖励信号:一个鼓励结构化输出,另一个奖励答案的正确性。我们在五个基准上评估了我们的模型:三个金融数据集(CFLUE、FinQA和CCC)和两个通用推理基准(MATH-500和GPQA-Diamond)。实验结果表明,DianJin-R1模型在复杂金融任务上持续优于非推理模型。此外,在现实世界的CCC数据集上,我们的单次调用推理模型匹配甚至超越了需要显著更多计算成本的多代理系统的性能。这些发现证明了DianJin-R1通过结构化监督和奖励对齐学习在增强金融推理方面的有效性,为现实世界应用提供了一个可扩展且实用的解决方案。
给定单个标注样本,上下文分割旨在分割对应的目标物体。这一设定在少样本学习中被称为一次性分割,它探索了分割模型的泛化能力,并已应用于多种视觉任务,包括场景理解与图像/视频编辑。尽管最近的“分割一切模型”(Segment Anything Models,SAM)在交互式分割中取得了最先进的成果,但这些方法并不直接适用于上下文分割。在本研究中,我们提出了基于提示调优的双一致性SAM(Dual Consistency SAM,DC-SAM)方法,以适配SAM及SAM2进行图像和视频的上下文分割。我们的核心洞见在于通过提供高质量的视觉提示来增强SAM提示编码器在分割中的特征表现。在生成掩码先验时,我们融合SAM特征以更好地对齐提示编码器。随后,我们在融合特征与初始视觉提示上设计了循环一致性交叉注意力机制。接着,通过使用提示编码器中的判别性正负提示,我们提供了双分支设计。此外,我们设计了一种简单的掩码管训练策略,将所提出的双一致性方法应用于掩码管。尽管DC-SAM主要针对图像设计,但在SAM2的支持下,它能无缝扩展至视频领域。鉴于视频领域缺乏上下文分割基准,我们手动整理并构建了首个基于现有视频分割数据集的基准,命名为“上下文视频目标分割”(In-Context Video Object Segmentation,IC-VOS),以更好地评估模型的上下文能力。大量实验表明,我们的方法在COCO-20i上达到了55.5(+1.4)的mIoU,在PASCAL-5i上达到了73.0(+1.1)的mIoU,并在提出的IC-VOS基准上获得了71.52的J&F分数。我们的源代码及基准数据集可在https://github.com/zaplm/DC-SAM获取。