每日精选AI研究论文及翻译
扩大大型语言模型在测试时的计算规模,已在推理基准测试中展现出卓越性能。然而,现有对测试时扩展的评估基于一个强假设,即推理系统应对任何提出的问题始终给出答案。这忽视了模型对其答案是否自信,以及是否总是适宜提供回应的考量。为解决这些问题,我们在推理过程中提取置信度分数,用于对模型响应进行阈值筛选。研究发现,增加推理时的计算预算不仅有助于模型更准确地回答问题,还能提升对正确答案的置信度。随后,我们通过考虑非零响应风险的情境,扩展了当前评估中零风险响应的范式,并提出了在此类情境下报告评估结果的方法建议。
现有的端到端语音大语言模型(LLMs)通常依赖于大规模标注数据进行训练,而数据高效训练的问题尚未得到深入探讨。我们聚焦于语音与文本之间的两个基本问题:表示空间差异和序列长度不一致性。为此,我们提出了Soundwave,它采用了一种高效的训练策略和一种新颖的架构来解决这些问题。实验结果表明,Soundwave在语音翻译和AIR-Bench语音任务上超越了先进的Qwen2-Audio模型,且仅使用了五十分之一的训练数据。进一步分析显示,Soundwave在对话过程中仍能保持其智能性。该项目已发布于https://github.com/FreedomIntelligence/Soundwave。
近期一系列研究致力于解决将符号序列压缩为更短的实值向量序列的问题,这些向量序列可替代符号嵌入或键值缓存作为模型输入。此类方法能够有效减少现有语言模型中的计算量。尽管这些方法依赖于强大的编码器模型,但可达到的最大无损压缩比通常不超过10倍。这一现象尤为引人深思,因为理论上,即便采用16位精度和适中的向量尺寸,大型实值向量的最大信息容量也远超当前所展示的压缩率。在本研究中,我们通过将编码器替换为逐样本优化程序,探索了压缩的极限。我们展示了压缩比高达1500倍的向量存在,这揭示了现有方案与实际上可达到的解决方案之间存在两个数量级的差距。此外,我们通过实验证明,压缩极限并非由输入长度决定,而是由需要减少的不确定性量决定,即该序列在无任何条件作用下的交叉熵损失。所获得的极限值凸显了输入嵌入的理论容量与其实际应用之间的显著差距,表明在模型设计上存在巨大的优化空间。
视频生成基础模型的持续发展正逐步拓展至多样化应用领域,其中主体一致性视频生成仍处于探索阶段。我们将其称为“主体到视频”(Subject-to-Video),该技术从参考图像中提取主体元素,并通过文本指令生成与主体保持一致的视频。我们认为,主体到视频的核心在于平衡文本与图像的双模态提示,从而深度且同步地对齐文本与视觉内容。为此,我们提出了Phantom,一个适用于单主体及多主体参考的统一视频生成框架。在现有文本到视频和图像到视频架构的基础上,我们重新设计了联合文本-图像注入模型,并通过文本-图像-视频三元组数据驱动其学习跨模态对齐。特别地,我们在人物生成中强调主体一致性,不仅涵盖了现有的身份保持视频生成,还提供了更优的性能表现。项目主页请访问:https://phantom-video.github.io/Phantom/。
我们推出Magma,一个面向数字与物理世界的多模态AI代理任务的基础模型。Magma在视觉-语言(VL)模型基础上实现了重大扩展,不仅保留了后者对视觉语言的理解能力(言语智能),还赋予了在视觉-空间世界中规划与行动(时空智能)的能力,能够完成从用户界面导航到机器人操控等一系列代理任务。为了赋予这些代理能力,Magma在大量异构数据集上进行了预训练,涵盖图像、视频乃至机器人数据,其中图像中的可操作视觉对象(如GUI中的可点击按钮)通过标记集(SoM)进行标注以实现动作定位,而视频中物体运动(如人手或机械臂的轨迹)则通过轨迹标记(ToM)进行标注以支持动作规划。大量实验表明,SoM与ToM达到了极佳的协同效应,促进了Magma模型时空智能的习得,这对于图1所示的一系列任务至关重要。特别地,Magma在用户界面导航和机器人操控任务上创造了新的最佳成绩,超越了以往专门针对这些任务设计的模型。在图像和视频相关的多模态任务上,Magma同样表现优异,与那些在更大规模数据集上训练的大型多模态模型相比毫不逊色。我们公开了模型及代码以促进可复现性,详情请访问https://microsoft.github.io/Magma。
扩散模型已成为建模离散类别数据时自回归模型的有力替代方案。然而,直接在离散数据空间上操作的扩散模型并未充分利用迭代优化的优势,因为信号在离散状态间的转换过程中会丢失。现有的针对离散数据的连续扩散模型与离散方法相比性能有限,且两者间不明确的联系制约了离散数据扩散模型的发展。本研究提出了一种用于语言建模的连续扩散模型,该模型融入了底层类别分布的几何特性。我们建立了离散扩散与统计流形上连续流动之间的联系,并基于这一类比,引入了一种扩散过程的简洁设计,该设计推广了先前的离散扩散模型。此外,我们提出了一种基于径向对称性的免模拟训练框架,以及一种应对流形高维度的简单技术。在语言建模基准测试及其他模态上的全面实验表明,我们的方法超越了现有的离散扩散模型,并接近自回归模型的性能。代码可在https://github.com/harryjo97/RDLM获取。
近期,多模态大语言模型(MLLMs)虽取得了显著成效,却因二次方计算复杂度、不断增长的键值缓存需求及对独立视觉编码器的依赖,面临部署难题。为此,我们提出了mmMamba框架,旨在通过适度学术计算资源,从现有MLLMs逐步蒸馏,开发出线性复杂度的原生多模态状态空间模型。该方法无需预训练的基于RNN的LLM或视觉编码器,即可将已训练的仅解码器MLLMs直接转换为线性复杂度架构。我们提出了一种从训练好的Transformer中雕刻Mamba的种子策略及三阶段蒸馏方案,能有效传递Transformer知识至Mamba,同时保留多模态能力。此外,我们的方法支持灵活的混合架构,结合Transformer与Mamba层,实现可定制的效率-性能权衡。基于Transformer的仅解码器HoVLE蒸馏而来,mmMamba-linear在性能上与现有线性和二次方复杂度视觉语言模型(VLMs)相当,而mmMamba-hybrid则大幅提升性能,接近HoVLE的水平。在处理103K令牌时,mmMamba-linear相比HoVLE实现了20.6倍的加速和75.8%的GPU内存节省,mmMamba-hybrid则达到了13.5倍的加速和60.2%的内存节约。代码与模型已发布于https://github.com/hustvl/mmMamba。
理解人类偏好对于改进基础模型和构建个性化AI系统至关重要。然而,偏好本质上是多样且复杂的,这使得传统奖励模型难以全面捕捉其范围。虽然细粒度的偏好数据有所帮助,但收集这些数据成本高昂且难以扩展。本文提出了一种新颖的方法——分解奖励模型(DRMs),它能够从二元比较中提取多样的人类偏好,而无需细粒度的标注。我们的核心洞见是将人类偏好表示为向量,并通过主成分分析(PCA)对其进行解析。通过构建一个包含偏好与拒绝响应之间嵌入差异的数据集,DRMs识别出捕捉偏好不同方面的正交基向量。这些分解后的奖励可以灵活组合,以符合不同用户的需求,为传统奖励模型提供了一个可解释且可扩展的替代方案。我们证明,DRMs能有效提取有意义的偏好维度(如帮助性、安全性、幽默感),并能在无需额外训练的情况下适应新用户。我们的研究结果凸显了DRMs作为个性化和可解释大语言模型对齐的强大框架。
与将先前标记压缩为单一隐藏状态的RNN不同,Transformer能够直接关注所有先前的标记。然而,标准的Transformer仅使用紧邻前一层的表示。本文中,我们揭示了这一设计选择会导致表示坍缩,进而影响模型性能。为解决此问题,我们提出了层集成记忆(LIMe),这是一种简洁而强大的方法,它在保持模型整体内存占用的同时,通过允许访问更早层的隐藏状态,扩展了模型的表示能力。通过在不同架构和多种查找机制上的广泛实验,我们在多种任务上展示了持续的性能提升。此外,我们对学习到的表示动态的分析以及对深度方向电路的探索,揭示了LIMe如何跨层整合信息,为未来研究指明了有前景的方向。
基于多模态金融数据微调的大型语言模型(LLMs)已在多种金融任务中展现出卓越的推理能力。然而,在交互式金融市场中,如交易这类需要复杂代理策略以优化决策的多步骤、目标导向场景中,它们往往表现欠佳。为此,我们提出了FLAG-Trader,一种统一架构,它将语言处理(通过LLMs)与梯度驱动的强化学习(RL)策略优化相结合。在此架构中,部分微调的LLM充当策略网络,既利用预训练知识,又通过参数高效微调适应金融领域。通过交易奖励驱动的策略梯度优化,我们的框架不仅提升了LLM在交易中的表现,还改善了其在其他金融领域任务上的成果。我们提供了详尽的实证证据来验证这些改进。
空间智能是具身人工智能的关键组成部分,它推动机器人理解并与其环境进行交互。尽管近期进展提升了视觉语言模型(VLMs)感知物体位置及位置关系的能力,但它们仍无法精确理解物体朝向——这是涉及精细操作任务的一项核心需求。解决这一局限不仅需要几何推理,还需一种表达力强且直观的朝向表示方法。在此背景下,我们提出自然语言相较于标准坐标系提供了更为灵活的表示空间,使其特别适合指令跟随型机器人系统。本文中,我们引入了语义朝向的概念,它利用自然语言以无参考框架的方式定义物体朝向(例如,USB的“插入”方向或刀具的“握柄”方向)。为支持此概念,我们构建了OrienText300K,一个大规模的三维模型数据集,其中标注了将几何理解与功能语义相连接的语义朝向。通过将语义朝向整合到VLM系统中,我们使机器人能够生成同时满足位置和朝向约束的操作动作。大量的仿真与真实世界实验表明,我们的方法显著增强了机器人操作能力,例如在Open6DOR上达到48.7%的准确率,在SIMPLER上达到74.9%的准确率。
在实际应用中部署大型语言模型(LLMs)时,需要配备强大的安全防护模型来检测并阻止有害的用户提示。虽然大型安全防护模型表现出色,但其计算成本高昂。为缓解这一问题,通常采用较小的蒸馏模型,但这些模型在处理“困难”样本时往往表现不佳,而大型模型却能准确预测。我们观察到,许多输入可以由较小模型可靠处理,只有少数样本需要大型模型的能力。基于此,我们提出了SafeRoute,一种二元路由机制,用于区分困难样本与简单样本。该方法选择性地将大型安全防护模型应用于路由机制判定为困难的样本,在保持准确性的同时提升了效率,相较于单独使用大型安全防护模型具有优势。在多个基准数据集上的实验结果表明,我们的自适应模型选择显著优化了计算成本与安全性能之间的平衡,超越了相关基线方法。
大型语言模型(LLMs)通过训练时的规模扩展实现了卓越性能,而测试时的规模扩展则通过在推理过程中进行有效推理进一步提升了其能力。然而,随着推理规模的增加,现有的测试时扩展方法因累积的历史信息而受到影响,这不仅浪费了计算资源,还干扰了有效推理。为解决这一问题,我们观察到复杂的推理过程通常通过解决一系列独立的子问题来实现,每个子问题都是自包含且可验证的。这些子问题本质上是原子问题,主要依赖于其当前状态而非累积的历史,类似于马尔可夫过程中的无记忆转移。基于这一观察,我们提出了“思维原子”(Atom of Thoughts, AoT),其中推理过程中的每个状态转移包括将当前问题分解为基于依赖的有向无环图,并压缩其子问题,形成一个新的原子问题状态。这一迭代的分解-压缩过程持续进行,直至达到可直接解决的原子问题,自然实现了问题状态间的马尔可夫转移。此外,这些原子问题可以无缝集成到现有的测试时扩展方法中,使AoT能够作为插件增强,提升推理能力。在六个基准测试上的实验证明了AoT作为独立框架和插件增强的有效性。特别是在HotpotQA上,当应用于gpt-4o-mini时,AoT实现了80.6%的F1分数,分别超越了o3-mini 3.4%和DeepSeek-R1 10.6%。代码将在https://github.com/qixucen/atom 上提供。
解决复杂的推理任务可能涉及视觉理解、领域知识检索、数值计算以及多步推理。现有方法通过为大型语言模型(LLMs)配备外部工具进行增强,但这些方法通常局限于特定领域、工具类型有限或需要额外的训练数据。本文提出了OctoTools,一个无需训练、用户友好且易于扩展的开源代理框架,旨在跨多个领域处理复杂推理任务。OctoTools引入了标准化的工具卡片来封装工具功能,一个用于高层和底层规划的规划器,以及一个执行工具使用的执行器。我们在16项多样化任务(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上验证了OctoTools的通用性,相较于GPT-4o实现了平均准确率9.3%的显著提升。此外,在提供相同工具集的情况下,OctoTools的表现优于AutoGen、GPT-Functions和LangChain,最高提升达10.6%。通过全面的分析和消融实验,OctoTools在任务规划、有效工具使用和多步问题解决方面展现了其优势。
在大量图文对上进行预训练后,对比语言-图像预训练(CLIP)在多种基准测试中展现出优异性能。然而,仍有大量非配对数据,如多模态交错文档,在视觉-语言表征学习领域未被充分利用。为全面挖掘这些未配对文档的潜力,我们首先构建了一个现实世界数据提取管道,用于抽取高质量的图像和文本。随后,我们设计了一种层次化检索方法,高效地将每张图像与多条语义相关的真实文本关联起来。为进一步增强细粒度视觉信息,我们提出了一个图像语义增强生成模块,用于生成合成文本。此外,我们采用语义平衡采样策略提升数据集多样性,从而更好地学习长尾概念。基于这些创新,我们构建了RealSyn数据集,它融合了真实与合成文本,提供15M、30M和100M三种规模。大量实验证明,RealSyn有效推动了视觉-语言表征学习,并展现出强大的扩展性。在RealSyn上预训练的模型在多个下游任务中达到了最先进的性能。为促进未来研究,RealSyn数据集及预训练模型权重已发布于https://github.com/deepglint/RealSyn。
大型语言模型(LLMs)中测试时缩放技术的出现,以OpenAI的o1系列为代表,通过推理过程中计算资源分配的动态调整,显著提升了模型的推理能力。尽管后续模型如QwQ、Deepseek-R1(R1)和LIMO复现了这些进步,但这些模型是否真正具备测试时缩放能力仍待深入探究。本研究发现,这些类o1模型生成的较长思维链(CoTs)并不总能提高准确性;事实上,对于同一问题,正确的解答往往比错误的更短。进一步研究表明,这一现象与模型的自我修正能力密切相关——较长的CoTs包含更多自我修正,而这些修正往往导致性能下降。随后,我们对比了QwQ、R1和LIMO上的串行与并行缩放策略,发现并行缩放能实现更好的覆盖范围和可扩展性。基于这些发现,我们提出了“最短多数投票法”,该方法结合了并行缩放策略与CoT长度特征,相较于传统的多数投票方法,显著提升了模型的测试时缩放能力。
尽管大型语言模型(LLMs)在微调后能很好地适应下游任务,但这种适应性往往以牺牲提示的鲁棒性为代价,即便是微小的提示变化也可能显著降低模型性能。为解决这一问题,我们提出了提示无关微调(Prompt-Agnostic Fine-Tuning, PAFT),这是一种简单而有效的方法,在微调过程中动态调整提示。该方法促使模型学习任务的基本原理,而非过度拟合特定的提示表述。PAFT分两个阶段进行:首先,构建一组多样且有意义的人工合成候选提示;其次,在微调过程中,从该集合中随机抽取提示以生成动态的训练输入。跨多种数据集和LLMs的广泛实验表明,采用PAFT训练的模型在包括未见过的提示在内的广泛提示范围内展现出强大的鲁棒性和泛化能力。这种增强的鲁棒性不仅提升了模型性能,还加快了推理速度,同时保持了训练效率。消融研究进一步验证了PAFT的有效性。
近来,利用大型语言模型(LLMs)从文本描述中生成符号化世界模型的研究兴趣日益增长。尽管LLMs在世界建模领域已被广泛探索,先前的研究仍面临诸多挑战,如评估的随机性、对间接指标的依赖以及领域范围的局限性。为克服这些不足,我们引入了一个基于规划领域定义语言(PDDL)的新基准——Text2World,该基准包含数百个多样化领域,并采用多标准、基于执行的评估指标,以实现更为稳健的评估。我们利用Text2World对现有LLMs进行了基准测试,发现通过大规模强化学习训练得到的推理模型表现优于其他模型。然而,即便是表现最佳的模型,在世界建模方面仍显示出能力有限。基于这些发现,我们探讨了多种提升LLMs世界建模能力的潜在策略,包括测试时扩展、智能体训练等。我们期望Text2World能成为一项关键资源,为未来研究LLMs作为世界模型的应用奠定基础。项目页面详见https://text-to-world.github.io/。
基于Transformer的大型语言模型(LLMs)在长上下文生成任务中展现了卓越的性能。随着上下文长度的扩展,LLMs在推理过程中内存占用的重心显著转移到了键值缓存(KV缓存)上。本文提出HEADINFER方法,它将KV缓存卸载至CPU内存,同时避免了在GPU上完整存储任何Transformer层的KV缓存。HEADINFER采用细粒度的、按注意力头卸载的策略,仅在GPU上保留部分关键注意力头的KV缓存,并动态计算注意力输出。通过屋顶线分析,我们证明HEADINFER在保持计算效率的同时,显著降低了内存占用。我们在Llama-3-8B模型上对HEADINFER进行了评估,处理100万token的序列时,将KV缓存的GPU内存占用从128GB降至1GB,总GPU内存使用量从207GB减少到17GB,相比BF16基线推理实现了92%的降幅。尤为突出的是,HEADINFER使得在单块24GB显存的消费级GPU(如NVIDIA RTX 4090)上,无需近似方法即可进行8B模型的400万token推理。
我们提出了多路动态密集连接(MUDD),这是一种简单而有效的方法,旨在解决残差连接的局限性并增强Transformer中的跨层信息流动。与现有采用静态共享连接权重的密集连接方法不同,MUDD根据每个序列位置的隐藏状态以及Transformer模块中解耦的输入流(查询、键、值或残差)动态生成连接权重。MUDD连接可以无缝集成到任何Transformer架构中,形成MUDDFormer。大量实验表明,MUDDFormer在语言建模任务中显著优于各种模型架构和规模的Transformer,达到了使用1.8倍至2.4倍计算资源训练的Transformer的性能。值得注意的是,MUDDPythia-2.8B在预训练的困惑度(ppl)和下游任务中与Pythia-6.9B相当,甚至在五次射击设置中与Pythia-12B相媲美,而仅增加了0.23%的参数和0.4%的计算量。JAX和PyTorch代码及预训练模型可在https://github.com/Caiyun-AI/MUDDFormer 获取。
我们推出HealthGPT,一款强大的医疗大型视觉-语言模型(Med-LVLM),它将医疗视觉理解与生成能力整合于统一的自回归框架中。我们的引导理念是逐步将异质的理解与生成知识适配至预训练的大型语言模型(LLMs),这一过程通过创新的异质低秩适配(H-LoRA)技术实现,并辅以定制化的层次视觉感知方法和三阶段学习策略。为了高效训练HealthGPT,我们构建了一个全面的医疗领域专用理解与生成数据集,命名为VL-Health。实验结果表明,HealthGPT在医疗视觉统一任务中展现出卓越的性能与可扩展性。本项目可通过https://github.com/DCDmllm/HealthGPT访问。
长期以来,提升YOLO框架的网络架构一直至关重要,但改进主要集中在基于CNN的优化上,尽管注意力机制在建模能力上已展现出显著优势。这主要是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架,即YOLOv12,它在保持与先前基于CNN模型相当速度的同时,充分利用了注意力机制带来的性能优势。YOLOv12在准确率上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。例如,YOLOv12-N在T4 GPU上实现了40.6%的mAP,推理延迟仅为1.64毫秒,相较于先进的YOLOv10-N/YOLOv11-N,在速度相近的情况下,mAP分别提升了2.1%和1.2%。这一优势同样体现在其他模型规模上。YOLOv12还超越了改进DETR的端到端实时检测器,如RT-DETR/RT-DETRv2:YOLOv12-S在运行速度上比RT-DETR-R18/RT-DETRv2-R18快42%,仅使用了36%的计算量和45%的参数。更多对比详见图1。
诸如DiLoCo之类的分布式优化方法已被证明在跨多个分布式工作节点(如数据中心)训练超大规模模型时效果显著。这些方法将更新过程分为两部分:内部优化阶段,各工作节点在其本地数据上独立执行多步优化;外部优化步骤,对内部更新进行同步。尽管此类方法相比标准的数据并行训练所需的通信量减少了数个数量级,但在工作节点为数据中心的场景下,这些方法即便有限的通信需求仍可能因每次外部优化步骤所需的阻塞而导致显著的性能下降。本文探讨了通过将通信与计算重叠的技术来缓解这一问题,使得外部优化步骤能够完全与内部优化阶段重叠。我们展示了一种特定变体,称为“急切更新”,在节点间带宽较低的环境中,其性能与标准DiLoCo相当。
我们提出了一种名为“选项流”(Flow-of-Options, FoO)的创新推理方法,旨在解决大型语言模型(LLMs)中的固有偏差。FoO使LLMs能够在推理过程中系统地探索多种可能性,这一点通过一个基于FoO的自主解决机器学习任务(AutoML)的代理系统得到了验证。我们的框架在标准数据科学任务上实现了38.2%至69.2%的性能提升,在治疗化学任务上提升了37.4%至47.9%,超越了现有最先进的基线模型。每项任务的总操作成本低于1美元,我们的框架非常适合成本敏感型应用。除了分类和回归任务,我们还展示了基于FoO的代理系统在强化学习和图像生成等任务中的广泛适用性。与当前最先进的AutoML代理系统相比,我们的框架取得了显著进步,这得益于FoO通过压缩、可解释的表示强制LLM解决方案的多样性,并结合基于案例的推理支持长期记忆。
大型推理模型,如OpenAI-o3和DeepSeek-R1的快速发展,显著提升了复杂推理能力,超越了非推理型大语言模型(LLMs)。然而,这些模型增强的能力,加之DeepSeek-R1等模型的开源获取,引发了严重的安全担忧,尤其是其潜在滥用风险。本研究针对这些推理模型进行了全面的安全评估,利用既有的安全基准测试其合规性。此外,我们探究了它们对对抗性攻击(如越狱和提示注入)的易感性,以评估其在实际应用中的鲁棒性。通过多维度分析,我们揭示了四个关键发现:(1)开源R1模型与o3-mini模型在安全基准和攻击测试上存在显著安全差距,表明R1模型需加强安全措施。(2)蒸馏后的推理模型相较于其安全对齐的基础模型,表现出更差的安全性能。(3)模型的推理能力越强,回答不安全问题时可能造成的危害越大。(4)R1模型的思考过程比其最终答案带来更大的安全隐患。本研究为推理模型的安全影响提供了洞见,并强调了在R1模型安全性上进一步推进以缩小差距的必要性。
基于海量无标签数据预训练的基础模型已在自然语言处理和计算机视觉领域引发革命,展现出卓越的泛化能力,从而突显了预训练的重要性。然而,在机器人领域,类似成就的取得却面临挑战,主要受限于昂贵的机器人标注需求或缺乏能有效模拟物理世界的表示方法。本文提出ARM4R,一种自回归机器人模型,它利用从人类视频数据中学习的低层次四维表示,以构建更优的预训练机器人模型。具体而言,我们专注于利用通过单目深度估计随时间将二维表示提升至三维空间而获得的视频中的三维点追踪表示。这些四维表示在点与机器人状态表示之间保持共享的几何结构,直至线性变换,从而实现了从人类视频数据到低层次机器人控制的高效迁移学习。实验表明,ARM4R能够高效地从人类视频数据迁移至机器人应用,并在多种机器人环境和配置的任务上持续提升性能。
LLM-as-a-Judge作为一种生成链式思维(CoT)评判的自动评估方法,已被广泛采用。然而,其可靠性因CoT推理无法捕捉全面且深入的细节而受到损害,往往导致不完整的结果。现有方法主要依赖于多数投票或标准扩展,这不足以解决CoT的局限性。我们提出了基于众包的比较评估方法,通过引入额外的众包响应与候选响应进行比较,从而揭示候选响应中更深层次和更全面的细节。这一过程有效引导LLM-as-a-Judge提供更详细的CoT评判。大量实验表明,我们的方法提高了评估的可靠性,在五个基准测试中平均准确率提升了6.7%。此外,我们的方法生成了更高质量的CoT,有助于评判蒸馏,并在监督微调(SFT)的拒绝采样(称为众包拒绝采样)中表现出更优的性能,从而实现更高效的SFT。我们的分析证实,由我们生成的CoT更为全面且质量更高,且随着推理规模的扩大,评估准确率也随之提升。
大型语言模型(LLMs)在自然语言理解、文本摘要和机器翻译等多种任务中展现了显著的成功。然而,其通用性往往限制了它们在需要专业知识的特定领域应用中的效能,如医疗、化学或法律分析。为解决这一问题,研究者们探索了多种方法,通过整合领域特定知识来增强LLMs。本综述全面概述了这些方法,并将其归纳为四大关键策略:动态知识注入、静态知识嵌入、模块化适配器及提示优化。每种策略均提供了独特的机制,使LLMs具备领域专长,同时平衡了灵活性、可扩展性与效率之间的权衡。我们探讨了这些方法如何助力LLMs应对专业任务,比较了它们的优缺点,评估了领域特定LLMs与通用LLMs的表现,并指出了这一新兴领域面临的挑战与机遇。对于有意深入此领域的研究者,我们还总结了常用的数据集与基准测试。为保持研究者对最新研究的了解,我们维护了一个开源项目,地址为:https://github.com/abilliyb/Knowledge_Injection_Survey_Papers,致力于记录专业LLM领域的研究进展。
嵌入模型在各类自然语言处理(NLP)应用中扮演着至关重要的角色,用于信息的表示与检索。随着大语言模型(LLMs)的近期进展,嵌入模型的性能得到了进一步提升。尽管这些模型通常在通用数据集上进行基准测试,但实际应用场景要求针对特定领域进行评估。本研究中,我们引入了金融大规模文本嵌入基准(FinMTEB),作为MTEB在金融领域的专门对应版本。FinMTEB包含64个金融领域特定的嵌入数据集,涵盖7项任务,涉及中英文两种语言的多种文本类型,如金融新闻文章、公司年报、ESG报告、监管文件及财报电话会议记录。此外,我们采用基于人物角色的数据合成方法,开发了一款金融适配模型——FinPersona-E5,以覆盖多样化的金融嵌入任务进行训练。通过对包括FinPersona-E5在内的15种嵌入模型进行广泛评估,我们揭示了三个关键发现:(1)在通用基准上的表现与金融领域任务的相关性有限;(2)领域适配模型持续优于其通用版本;(3)令人意外的是,在金融语义文本相似性(STS)任务中,简单的词袋(BoW)方法超越了复杂的密集嵌入技术,凸显了当前密集嵌入方法的局限性。本研究为金融NLP应用建立了一个坚实的评估框架,并为开发领域特定的嵌入模型提供了重要洞见。
钙钛矿太阳能电池(PSCs)的快速发展引发了研究文献的指数级增长,这迫切要求在该领域建立高效的知识管理与推理系统。我们提出了一套全面的知识增强系统,专为PSCs设计,整合了三大核心组件。首先,我们构建了Perovskite-KG,这是一个基于1,517篇研究论文构建的领域知识图谱,包含23,789个实体和22,272条关系。其次,我们创建了两个互补的数据集:Perovskite-Chat,包含通过新型多智能体框架生成的55,101对高质量问答对;以及Perovskite-Reasoning,收录了2,217个精心筛选的材料科学问题。第三,我们引入了两个专门的大型语言模型:Perovskite-Chat-LLM,用于提供领域知识辅助;Perovskite-Reasoning-LLM,专注于科学推理任务。实验结果表明,我们的系统在领域知识检索与科学推理任务上均显著超越现有模型,为PSC研究中的文献综述、实验设计及复杂问题解决提供了强有力的工具支持。
大型语言模型(LLMs)在一系列文本生成任务中展现了卓越的能力。然而,面对需要多步决策和环境反馈的问题,如在线购物、科学推理和数学解题,LLMs仍显不足。与纯文本数据不同,大规模决策数据的收集颇具挑战。此外,许多强大的LLMs仅通过API访问,这因成本和复杂性阻碍了其在代理任务中的微调。为克服LLM代理的局限,我们提出了一种框架,能够自动从环境中学习奖励模型,无需人工标注。该模型可用于评估LLM代理的行为轨迹,并为任务规划提供启发。具体而言,我们的方法包括:利用一个基于LLM的代理在环境中随机导航,生成多样化的行为轨迹;随后,借助另一个LLM为每条轨迹分配任务意图,并合成一个错误响应与正确响应配对。这些三元组(任务意图、正确响应和错误响应)随后被用作训练数据,以优化能够为行为轨迹打分的奖励模型。通过在不同代理基准上的评估,我们证明了该框架的有效性和普适性。总之,我们提出的框架在提升LLM代理决策能力方面迈出了重要一步。通过自动化奖励模型的学习,我们克服了数据稀缺和API限制的挑战,有望革新LLMs在复杂交互环境中的应用。这项研究为开发能够应对现实世界中多步决策问题的更高级AI代理铺平了道路。
尽管如XLM-R等多语言模型在推动NLP领域多语言处理方面取得了进展,但在极度低资源语言上的表现仍不尽如人意。这一状况因现代大语言模型(如LLaMA和Qwen)支持的语言远少于XLM-R而进一步恶化,导致全球众多语言的文本生成模型几乎空白。为应对这一挑战,我们提出了一种创新框架,旨在将多语言编码器适配至极度低资源语言的文本生成任务中。通过复用编码器与解码器间的权重,该框架使模型能够利用编码器已习得的语义空间,从而在低资源语言中实现高效学习与有效泛化。我们将此框架应用于四种中国少数民族语言,推出了XLM-SWCM,并展示了其在多项下游任务上的卓越性能,即便与规模更大的模型相比也毫不逊色。
时间序列分析领域经历了从传统自回归模型、深度学习模型,到近期Transformer及大型语言模型(LLMs)的鼓舞人心的发展历程。在此过程中,利用视觉模型进行时间序列分析的尝试虽已展开,但由于该领域内序列建模研究的主导地位,这些努力在学术界相对鲜为人知。然而,连续时间序列与LLMs离散令牌空间之间的差异,以及在多元时间序列中明确建模变量相关性所面临的挑战,已促使部分研究目光转向同样取得巨大成功的大型视觉模型(LVMs)和视觉语言模型(VLMs)。为填补现有文献的空白,本综述探讨了视觉模型在时间序列分析中相较于LLMs的优势,提供了现有方法的全面深入概览,通过双重视角的详细分类体系解答了关键研究问题,包括如何将时间序列编码为图像以及如何为各类任务建模图像化时间序列。此外,我们还探讨了该框架中预处理与后处理步骤所面临的挑战,并展望了未来利用视觉模型进一步推进时间序列分析的研究方向。