每日精选AI研究论文及翻译
In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.
我们介绍了Qwen2-VL系列,这是对之前的Qwen-VL模型的先进升级,重新定义了视觉处理中传统的预设分辨率方法。Qwen2-VL引入了朴素动态分辨率机制,使模型能够动态处理不同分辨率的图像,将其转换为不同数量的视觉令牌。这种方法使模型能够生成更高效和准确的视觉表示,与人类感知过程密切相关。该模型还整合了多模态旋转位置嵌入(M-RoPE),有助于有效融合文本、图像和视频之间的位置信息。我们采用统一的范式来处理图像和视频,增强了模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL研究了大视觉语言模型(LVLMs)的规模定律。通过扩展模型大小(2B、8B和72B参数版本)和训练数据量,Qwen2-VL系列取得了极具竞争力的性能。值得注意的是,Qwen2-VL-72B模型在各种多模态基准测试中取得了与领先模型(如GPT-4o和Claude3.5-Sonnet)可比的结果,胜过其他通用模型。代码可在https://github.com/QwenLM/Qwen2-VL找到。
广泛的文本理解和上下文学习需要利用完整的文档上下文的语言模型。由于直接训练长上下文模型所涉及的实施挑战,已经提出了许多方法来扩展模型以处理长上下文。然而,由于数据和模型类之间的差异,比较这些方法一直是具有挑战性的,导致如何评估长上下文性能以及它是否与标准评估有所不同存在不确定性。我们采用了一个受控的扩展方法协议,配合标准化评估,利用一致的基础模型和扩展数据。我们的研究为长上下文行为提供了几个见解。首先,我们重新确认了困惑度作为一种通用性能指标的关键作用,即使在更长的上下文任务中也是如此。其次,我们发现当前的近似注意力方法在长上下文任务中普遍表现不佳。最后,我们证实了基于精细调整的方法通常在其扩展范围内是有效的,而外推仍然具有挑战性。所有的代码库、模型和检查点都将开源,促进透明度并促进在这一关键的AI发展领域进行进一步研究。
通过提示的思维链(CoT)是从大型语言模型(LLMs)中引出推理能力的事实方法。但这种额外的“思考”对哪种类型的任务真正有帮助呢?为了分析这一点,我们进行了一项定量的元分析,涵盖了100多篇使用CoT的论文,并对14个模型中的20个数据集进行了我们自己的评估。我们的结果显示,CoT主要在涉及数学或逻辑的任务上带来了显著的性能优势,在其他类型的任务上获得的收益要小得多。在MMLU上,如果问题或模型的回答中包含等号,表明涉及符号操作和推理,那么直接生成答案而不使用CoT的准确率几乎与使用CoT相同。根据这一发现,我们通过将规划和执行分开,并与工具增强的LLMs进行比较,分析了CoT在这些问题上的行为。CoT的许多收益来自于改进符号执行,但相对于使用符号求解器,它表现不佳。我们的结果表明,CoT可以有选择地应用,保持性能的同时节省推理成本。此外,它们表明需要超越基于提示的CoT,转向更好地利用整个LLM应用范围内的中间计算的新范式。
个性化在许多语言任务和应用中起着关键作用,因为具有相同需求的用户可能基于其个人兴趣而偏好不同的输出。这导致了各种个性化方法的发展,旨在调整大型语言模型(LLMs)以生成与用户偏好一致的定制输出。其中一些方法涉及为每个用户微调独特的个性化LLM,这对广泛应用来说成本太高。替代方法以即插即用的方式引入个性化信息,通过检索用户的相关历史文本作为示例。然而,这种基于检索的策略可能会打破用户历史的连续性,无法捕捉用户的整体风格和模式,从而导致性能不佳。为了解决这些挑战,我们提出了一种新颖的个性化LLM模型。通过模拟所有用户的历史上下文,它为每个个体构建了一个用户特定的嵌入,通过轻量级即插即用用户嵌入模块。通过将这个嵌入附加到任务输入,LLMs可以更好地理解和捕捉用户习惯和偏好,从而生成更个性化的输出,而无需调整自己的参数。在语言模型个性化(LaMP)基准测试中进行的大量实验表明,所提出的模型明显优于现有的个性化LLM方法。
偏好调整是将深度生成模型与人类偏好对齐的关键过程。本调查全面概述了偏好调整和整合人类反馈的最新进展。本文分为三个主要部分:1)介绍和基础知识:介绍了强化学习框架、偏好调整任务、模型和跨不同模态的数据集:语言、语音和视觉,以及不同的策略方法;2)对每种偏好调整方法进行深入研究:详细分析了偏好调整中使用的方法;3)应用、讨论和未来方向:探讨了偏好调整在下游任务中的应用,包括不同模态的评估方法,以及未来研究方向的展望。我们的目标是呈现偏好调整和模型对齐的最新方法,增进研究人员和从业者对这一领域的理解。我们希望鼓励在这一领域进一步参与和创新。
混合专家(MoE)模型由于通过专家路由进行稀疏计算,仅选择激活少量专家模块,因此比密集模型更有效地扩展。然而,稀疏计算挑战传统训练方法,因为离散的专家路由阻碍了标准反向传播,从而阻碍了基于梯度的优化,这是深度学习的基石。为了更好地追求MoE的扩展能力,我们引入了GRIN(GRadient-INformed MoE training),它结合了专家路由的稀疏梯度估计,并配置模型并行性以避免标记丢失。将GRIN应用于自回归语言建模,我们开发了一个顶级16times3.8B MoE模型。我们的模型仅激活了6.6B个参数,胜过了一个7B的密集模型,并与在相同数据上训练的14B密集模型的性能相匹配。对各种任务进行广泛评估显示了GRIN显著增强MoE效果的潜力,实现了MMLU 79.4,HellaSwag 83.7,HumanEval 74.4和MATH 58.9。
随着大数据和大型语言模型时代的到来,零-shot 个性化快速定制已经成为一个重要趋势。在本报告中,我们介绍了Takin AudioLLM,这是一系列主要包括 Takin TTS、Takin VC 和 Takin Morphing 等技术和模型,专为有声读物制作而设计。这些模型能够进行零-shot 语音生成,生成几乎无法与真实人类语音区分的高质量语音,并帮助个人根据自己的需求定制语音内容。具体来说,我们首先介绍了 Takin TTS,这是一个神经编解码器语言模型,基于增强型神经语音编解码器和多任务训练框架,能够以零-shot 方式生成高保真自然语音。对于 Takin VC,我们提倡一种有效的内容和音色联合建模方法来提高说话者相似度,同时提倡基于条件流匹配的解码器来进一步增强其自然性和表现力。最后,我们提出了 Takin Morphing 系统,采用高度解耦和先进的音色和韵律建模方法,使个人能够以精确可控的方式定制其偏好的音色和韵律进行语音生成。大量实验证实了我们的 Takin AudioLLM 系列模型的有效性和鲁棒性。有关详细演示,请参阅 https://takinaudiollm.github.io。
我们踏上古老的探索之旅:从仅仅一瞥可见部分揭示物体的隐藏维度。为了解决这一问题,我们提出了Vista3D,这是一个能够在短短5分钟内快速且一致地生成3D图像的框架。Vista3D的核心是一个两阶段方法:粗略阶段和精细阶段。在粗略阶段,我们通过从单个图像快速生成初始几何结构,采用高斯散点法。在精细阶段,我们直接从学习到的高斯散点法中提取有符号距离函数(SDF),并通过可微的等值面表示进行优化。此外,它通过使用两个独立的隐式函数来捕捉物体的可见和隐藏部分,提升了生成质量。此外,它通过角度扩散先验组合将2D扩散先验的梯度与3D感知扩散先验进行协调。通过广泛的评估,我们展示了Vista3D有效地在生成的3D物体之间保持了一致性和多样性的平衡。演示和代码将在https://github.com/florinshen/Vista3D 上提供。
本文介绍了SoloAudio,一种用于目标声音提取(TSE)的基于扩散的生成模型。我们的方法在音频上训练潜在扩散模型,将先前的U-Net骨干网络替换为在潜在特征上操作的跳跃连接Transformer。SoloAudio通过利用CLAP模型作为目标声音的特征提取器,支持面向音频和面向语言的TSE。此外,SoloAudio利用由最先进的文本转音频模型生成的合成音频进行训练,展示了对领域外数据和未见过的声音事件的强大泛化能力。我们在FSD Kaggle 2018混合数据集和来自AudioSet的真实数据上评估了这一方法,在领域内和领域外数据上,SoloAudio均取得了最先进的结果,并展现了令人印象深刻的零样本和少样本能力。源代码和演示已发布。
我们介绍了基于扩散的音频字幕生成(DAC),这是一种专为多样化和高效的音频字幕生成定制的非自回归扩散模型。尽管现有依赖于语言骨干的字幕生成模型在各种字幕生成任务中取得了显著成功,但它们在生成速度和多样性方面的表现不足阻碍了音频理解和多媒体应用的进展。我们基于扩散的框架提供了独特优势,源自于其固有的随机性和在字幕生成中的整体上下文建模。通过严格的评估,我们证明DAC不仅在字幕质量方面实现了与现有基准相比的最先进性能水平,而且在生成速度和多样性方面显著优于它们。DAC的成功表明,使用扩散骨干,文本生成也可以与音频和视觉生成任务无缝集成,为跨不同模态的统一音频相关生成模型铺平道路。
离线多智体强化学习(MARL)是一个令人兴奋的研究方向,利用静态数据集为多智体系统寻找最优控制策略。虽然这一领域从本质上是数据驱动的,但迄今为止的努力忽视了数据,而专注于实现最先进的结果。我们首先通过调查文献来证实这一观点,展示大多数作品如何生成自己的数据集,缺乏一致的方法论,并提供有关这些数据集特征的稀缺信息。然后,我们展示忽视数据性质为何是有问题的,通过突出示例说明算法性能与使用的数据集密切相关,需要在该领域进行实验的共同基础。作为回应,我们迈出了一大步,以改善离线MARL中的数据使用和数据意识,具体包括三个关键贡献:(1)明确生成新数据集的指南;(2)对80多个现有数据集进行标准化,存储在一个公开可用的存储库中,使用一致的存储格式和易于使用的API;以及(3)一套分析工具,让我们更好地了解这些数据集,促进进一步发展。
数学长期以来主要通过自然语言传达,以便人类理解。随着机械化数学和证明助手的兴起,人们越来越需要理解非正式的数学文本,然而大多数现有基准测试仅关注英语,忽视了其他语言。本文介绍了RoMath,一个罗马尼亚数学推理基准套件,包括三个数据集:RoMath-文凭、RoMath-竞赛和RoMath-合成,涵盖了各种数学领域和难度级别,旨在改进非英语语言模型并促进多语言人工智能发展。通过专注于罗马尼亚语,一种资源稀缺且具有独特语言特征的语言,RoMath解决了以英语为中心的模型的局限性,并强调了超越简单自动翻译的需求。我们对几个开放权重语言模型进行基准测试,突出了为代表性不足的语言创建资源的重要性。我们提供代码和数据集。
AI代理有潜力帮助用户完成各种重要任务,包括进行科学研究。为了推动有用代理的发展,我们需要具有挑战性的基准,更重要的是,这些基准直接对应于感兴趣的真实世界任务。本文介绍了这样一个基准,旨在衡量AI代理在处理科学研究中一个至关重要但令人意外具有挑战性的方面的准确性:计算可重现性。这一任务对科学过程至关重要,涉及使用提供的代码和数据重现研究结果。我们介绍了CORE-Bench(计算可重现性代理基准),这是一个基准,包含了270个任务,基于三个学科领域(计算机科学、社会科学和医学)中的90篇科学论文。CORE-Bench中的任务包括三个难度级别,包括仅语言和视觉-语言任务。我们提供了一个评估系统,以快速且可并行化的方式衡量代理的准确性,相较于顺序实现,每次运行节省数天的评估时间。我们评估了两个基准代理:通用的AutoGPT和一个特定任务的代理称为CORE-Agent。我们使用了两个基础语言模型对这两个变体进行了测试:GPT-4o和GPT-4o-mini。最佳代理在最困难的任务上实现了21%的准确性,显示了在自动化常规科学任务方面有巨大改进的空间。拥有能够重现现有工作的代理是构建能够进行新颖研究并验证和改进其他研究代理性能的必要步骤。我们希望CORE-Bench能够改善可重现性状况并推动未来研究代理的发展。
从功能性磁共振成像(fMRI)数据重建3D视觉,我们在会议工作中提出的Recon3DMind,对认知神经科学和计算机视觉都具有重要意义。为推进这一任务,我们介绍了fMRI-3D数据集,包括来自15名参与者的数据,展示了总共4768个3D对象。该数据集包括两个组成部分:fMRI-Shape,此前已介绍并可在https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape获取,以及本文提出的fMRI-Objaverse,可在https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse获取。fMRI-Objaverse包括来自5名受试者的数据,其中4名也是fMRI-Shape中核心集的一部分,每名受试者查看了117个类别中的3142个3D对象,所有对象都附带文本说明。这显著增强了数据集的多样性和潜在应用。此外,我们提出了MinD-3D,这是一个新颖的框架,旨在从fMRI信号中解码3D视觉信息。该框架首先使用神经融合编码器从fMRI数据中提取和聚合特征,然后利用特征桥扩散模型生成视觉特征,最后使用生成式变换器解码器重建3D对象。我们通过设计语义和结构层面的指标来建立新的基准,以评估模型性能。此外,我们评估了我们的模型在分布外设置中的有效性,并分析了从fMRI信号中提取特征和视觉ROI的归因。我们的实验表明,MinD-3D不仅能以高语义和空间准确性重建3D对象,还能加深我们对人脑如何处理3D视觉信息的理解。项目页面:https://jianxgao.github.io/MinD-3D。
在应对多文档摘要(MDS)的挑战时,已经提出了许多方法,涵盖了抽取式和生成式摘要技术。然而,每种方法都有其局限性,仅依赖其中一种方法往往效果不佳。一种新兴且有前景的策略涉及将抽取式和生成式摘要方法融合起来。尽管在这一领域有大量研究,但关于结合方法的研究仍然很少,特别是在越南语处理的背景下。本文提出了一个新颖的越南语MDS框架,利用了一个包含两个组件的流水线架构,集成了抽取式和生成式技术。第一个组件采用抽取式方法来识别每个文档中的关键句。这是通过修改预训练的BERT网络实现的,该网络使用siamese和triplet网络结构来生成语义上有意义的短语嵌入。第二个组件利用VBD-LLaMA2-7B-50b模型进行生成式摘要,最终生成最终摘要文档。我们提出的框架表现出良好性能,VN-MDS数据集上达到了39.6%的ROUGE-2分数,优于现有技术基线。
人类价值观及其衡量是一个长期的跨学科探讨课题。人工智能的最新进展引发了对这一领域的新一轮兴趣,大型语言模型(LLMs)作为价值衡量的工具和对象崭露头角。本研究引入了基于生成心理测量的价值观(GPV),这是一个基于LLM的数据驱动价值观测量范式,理论基础是文本揭示的选择性认知。我们首先对LLM进行微调,以实现准确的感知级别价值衡量,并验证LLMs将文本解析为认知的能力,构成GPV管道的核心。将GPV应用于人类撰写的博客,我们展示了其稳定性、有效性,并证明其优于先前的心理学工具。然后,将GPV扩展到LLM价值测量,我们通过以下方式推进了当前技术:1)一种心理测量方法,根据LLM的可扩展和自由形式输出来衡量LLM的价值,实现了特定上下文的测量;2)对测量范式进行比较分析,指出了先前方法的响应偏差;3)尝试将LLM的价值与安全性联系起来,揭示了不同价值体系的预测能力以及各种价值对LLM安全性的影响。通过跨学科的努力,我们旨在利用人工智能实现下一代心理测量,并利用心理测量实现与价值一致的人工智能。