每日精选AI研究论文及翻译
最近大型语言模型(LLMs)的进展展示出强大的一般推理能力,然而它们在金融推理方面的有效性尚未得到充分探讨。在本研究中,我们全面评估了16个强大的推理和通用LLMs在涉及金融文本、表格数据和方程的三个复杂金融任务上的表现,评估了数字推理、表格解释、金融术语理解、长文本处理和基于方程的问题解决能力。我们的结果表明,尽管更好的数据集和预训练可以改善金融推理,但像CoT微调这样的通用增强并不总是带来一致的收益。此外,所有推理策略在提高长文本和多表任务的性能方面都面临挑战。为了解决这些限制,我们基于Llama-3.1-8B-Instruct开发了一个金融推理增强模型,通过CoT微调和强化学习与特定领域推理路径相结合。即使只是对一个金融数据集进行简单微调,我们的模型在各项任务上都实现了一致的10%性能提升,超越了所有8B模型,甚至在平均水平上超过了Llama3-70B-Instruct和Llama3.1-70B-Instruct。我们的结果突显了金融任务中领域特定适应性的必要性,强调未来方向,如多表推理、长文本处理和金融术语理解。我们所有的数据集、模型和代码都是公开可用的。此外,我们引入了一个用于基准测试未来数据集和模型的排行榜。
现代大型语言模型(LLMs)通常在当前硬件上遇到通信瓶颈,而不仅仅是计算约束。多头潜在注意力(MLA)通过在键-值(KV)层中使用低秩矩阵来解决这一挑战,从而允许缓存压缩的潜在KV状态。这种方法相对于传统的多头注意力显著减少了KV缓存大小,从而实现更快的推理。此外,MLA采用上投影矩阵来增加表达能力,以交换额外的计算以减少通信开销。尽管MLA在Deepseek V2/V3/R1中表现出效率和有效性,许多主要模型提供商仍依赖于组查询注意力(GQA),并且尚未宣布采用MLA的任何计划。在本文中,我们展示了GQA始终可以通过MLA来表示,同时保持相同的KV缓存开销,但反之则不成立。为了鼓励更广泛地使用MLA,我们引入了**TransMLA**,这是一种后训练方法,将广泛使用基于GQA的预训练模型(例如LLaMA、Qwen、Mixtral)转换为基于MLA的模型。转换后,模型可以进行额外训练以提升表达能力,而不增加KV缓存大小。此外,我们计划开发MLA特定的推理加速技术,以保持转换模型的低延迟,从而实现更有效地提取Deepseek R1。
以往的多语言基准主要专注于简单的理解任务,但对于大型语言模型(LLMs),我们强调在指令跟随、推理、长文本理解、代码生成等方面的熟练程度。然而,跨语言测量这些高级能力是未被充分探索的。为了解决这种差异,我们引入了BenchMAX,一个多向多语言评估基准,允许在各种语言之间进行这些重要能力的公平比较。为了保持高质量,三位母语标注者在数据从英语机器翻译成其他16种语言后,独立地对每个任务中的样本进行标注。此外,我们提出了一个源自数据集构建的新型翻译挑战。对BenchMAX的广泛实验揭示了核心能力在不同语言之间的效果差异,突出了不能仅通过扩大模型规模来弥合的性能差距。BenchMAX作为一个全面的多语言评估平台,提供了一个有前途的测试平台,促进多语言语言模型的发展。数据集和代码可公开获取。
我们提供了一种蒸馏规模定律,该定律根据计算预算及其在学生和教师之间的分配来估计蒸馏模型的性能。我们的研究结果降低了在大规模应用蒸馏时的风险;现在可以对教师和学生模型的计算分配进行优化,以最大化学生的性能。我们为以下情况提供了计算最优的蒸馏配方:1)存在教师,或者2)需要对教师进行训练。如果需要对多个学生进行蒸馏,或者已经存在教师,蒸馏会优于监督预训练,直到一个与学生规模增长可预测的计算水平。如果只需要对一个学生进行蒸馏且教师也需要训练,则应改为进行监督学习。此外,我们通过大规模研究蒸馏提供了一些见解,这些见解增进了我们对蒸馏的理解,并为实验设计提供了信息。
最近,基于文本的图像生成引起了广泛关注,并且正在处理越来越长和全面的文本提示。在日常生活中,密集和复杂的文本出现在广告、信息图表和标识等环境中,其中文本和视觉的整合对传达复杂信息至关重要。然而,尽管取得了这些进展,生成包含长篇文本的图像仍然是一个持久性挑战,主要是由于现有数据集的限制,这些数据集通常侧重于较短和较简单的文本。为了填补这一空白,我们引入了TextAtlas5M,这是一个专门设计用于评估文本条件下图像生成中长文本渲染的新数据集。我们的数据集包含跨多种数据类型的500万个长文本生成和收集的图像,可以全面评估大规模生成模型在长文本图像生成上的表现。我们进一步策划了3000个人工改进的测试集TextAtlasEval,涵盖3个数据领域,建立了一个最为广泛的文本条件生成基准之一。评估表明,TextAtlasEval基准即使对于最先进的专有模型(如搭配DallE-3的GPT4o)也提出了重大挑战,而它们的开源对应模型表现出更大的性能差距。这些证据将TextAtlas5M定位为一个有价值的数据集,用于训练和评估未来一代文本条件图像生成模型。
最近,受大规模数据集和预训练扩散模型推动,图像照明模型取得了显著进展,实现了一致的照明效果。然而,视频照明仍然滞后,主要是由于训练成本过高以及多样性和高质量视频照明数据集的稀缺。将图像照明模型简单应用于逐帧基础会导致几个问题:照明源不一致和照明效果不一致,从而在生成的视频中出现闪烁。在这项工作中,我们提出了Light-A-Video,这是一种无需训练的方法,可实现视频照明的时间平滑处理。Light-A-Video从图像照明模型中演变出来,引入了两个关键技术来增强照明的一致性。首先,我们设计了一个一致照明注意(CLA)模块,它增强了自注意力层内的跨帧交互,以稳定生成背景照明源。其次,利用光传输独立的物理原理,我们在源视频外观和照明后的外观之间应用线性混合,使用渐进式光融合(PLF)策略,以确保照明的平滑时间过渡。实验证明,Light-A-Video提高了照明视频的时间一致性,同时保持图像质量,确保帧间照明过渡连贯。项目页面:https://bujiazi.github.io/light-a-video.github.io/。
在这项工作中,我们提出了CineMaster,这是一个用于三维感知和可控文本到视频生成的新框架。我们的目标是赋予用户与专业电影导演可比的可控性:在场景中精确放置物体、在三维空间中灵活操纵物体和摄像机,以及直观控制渲染帧的布局。为实现这一目标,CineMaster分为两个阶段。在第一阶段,我们设计了一个交互式工作流程,允许用户通过在三维空间中放置物体边界框和定义摄像机移动来直观构建三维感知的条件信号。在第二阶段,这些控制信号——包括渲染的深度图、摄像机轨迹和物体类别标签——作为文本到视频扩散模型的指导,确保生成用户期望的视频内容。此外,为了克服野外数据集中缺乏带有三维物体运动和摄像机姿势注释的问题,我们精心建立了一个自动化数据注释流水线,从大规模视频数据中提取三维边界框和摄像机轨迹。广泛的定性和定量实验表明,CineMaster明显优于现有方法,并实现了显著的三维感知文本到视频生成。项目页面:https://cinemaster-dev.github.io/。
下一个标记预测一直是大型语言模型预训练中使用的标准训练目标。表示是通过优化标记级困惑度而学习的。我们提出了连续概念混合(CoCoMix),这是一种将离散的下一个标记预测与连续概念相结合的新型预训练框架。具体来说,CoCoMix 预测从预训练的稀疏自动编码器中学习的连续概念,并将它们与模型的隐藏状态混合,通过与标记隐藏表示交替进行。通过在多个基准测试上进行实验,包括语言建模和下游推理任务,我们展示了 CoCoMix 比标准的下一个标记预测、知识蒸馏和插入暂停标记更具样本效率,并且始终表现更好。我们发现将概念学习和交替相结合在端到端框架中对性能提升至关重要。此外,CoCoMix 通过允许直接检查和修改预测的概念来增强可解释性和可操控性,为引导模型的内部推理过程提供了一种透明的方式。
当前的GUI代理在GUI元素定位方面取得了出色的表现。然而,规划仍然具有极高的挑战性,特别是由于对环境初始状态的敏感性。具体来说,初始状态的轻微差异,比如目标软件未打开或界面不处于默认状态,通常会导致规划错误。这个问题在真实用户场景中普遍存在,但现有的基准测试未能对其进行评估。在本文中,我们提出了WorldGUI,一个新颖的GUI基准测试,设计了具有各种初始状态的GUI任务,以模拟真实的计算机用户交互。该基准测试涵盖了10个流行软件应用程序的各种任务,包括PowerPoint、VSCode和Adobe Acrobat。此外,为了解决动态GUI自动化任务的挑战,我们提出了GUI-Thinker,一个综合框架,利用批判性机制,有效管理GUI交互的不可预测性和复杂性。实验结果表明,GUI-Thinker在WorldGUI任务的成功率上比Claude-3.5(计算机使用)提高了14.9%。这一改进突显了我们基于批判性思维的框架在增强GUI自动化方面的有效性。
线性序列建模方法,如线性注意力,相比于序列长度,提供了线性时间训练和常数内存推理等优势。然而,现有的序列并行(SP)方法要么未针对线性注意力的右乘优先特性进行优化,要么采用环形通信策略,导致较低的计算并行性,限制了它们在分布式系统中处理更长序列的可扩展性。本文介绍了LASP-2,一种新的SP方法,用于增强训练具有非常长输入序列的线性注意力变换器模型时的通信和计算并行性。与之前的工作LASP相比,LASP-2重新思考了线性注意力层上SP的最小通信需求,重新组织了LASP的整个通信-计算工作流程。通过这种方式,只需要在中间内存状态上进行一次AllGather集体通信,其大小与序列长度无关,从而显著改善了通信和计算并行性,以及它们的重叠。此外,我们将LASP-2扩展为LASP-2H,通过类似的通信重新设计应用于标准注意力模块,为混合模型提供了高效的SP解决方案,这些模型融合了线性和标准注意力层。我们在Linear-Llama3模型上进行评估,该模型是Llama3的一个变体,其中线性注意力取代了标准注意力,证明了LASP-2和LASP-2H的有效性。具体而言,LASP-2在64个GPU上处理2048K长度序列时,训练速度比LASP提高了15.2%,比Ring Attention提高了36.6%。代码已发布在:https://github.com/OpenSparseLLMs/Linear-MoE。
在当前大型语言模型(LLMs)的发展中,实现长期目标的能力是一个关键挑战。为了解决这个问题,可以利用强化学习(RL)对预训练的LLMs进行微调,以探索优化给定目标的解决方案。然而,LLMs的探索是困难的,因为需要在发现新解决方案和保持足够接近预训练模型之间取得平衡,以避免降低基本能力。通常会使用Kullback-Leibler(KL)惩罚来控制这一点。在本文中,我们研究了一个简单算术任务上小型语言模型的探索动态。我们展示了不同程度的预训练如何影响探索,并展示了“关键标记”的重要性,对最终结果产生了显著影响。因此,我们引入了对KL惩罚的简单修改,有利于在关键标记上进行探索,提高了RL微调阶段的效率。
基于扩散模型的最新角色形象动画方法,如Animate Anyone,已在生成一致且可泛化的角色动画方面取得了显著进展。然而,这些方法未能产生角色与其环境之间合理的关联。为解决这一局限性,我们引入了Animate Anyone 2,旨在为角色赋予环境可负担性。除了从源视频中提取运动信号外,我们还将环境表示形式作为条件输入进行捕捉。环境被构建为除角色外的区域,我们的模型生成角色以填充这些区域,同时与环境背景保持一致性。我们提出了一种形状不可知的遮罩策略,更有效地描述了角色与环境之间的关系。此外,为增强物体交互的保真度,我们利用物体引导器提取相互作用物体的特征,并采用空间混合进行特征注入。我们还引入了一种姿势调制策略,使模型能够处理更多样化的运动模式。实验结果表明了所提方法的卓越性能。
尽管最近的数学人工智能取得了纯数学方面的进展,但应用数学领域,特别是偏微分方程(PDEs),尽管在现实世界中具有重要应用,仍然未被充分探索。我们提出了PDE-Controller,这是一个框架,使得大型语言模型(LLMs)能够控制由偏微分方程(PDEs)管理的系统。我们的方法使LLMs能够将非正式的自然语言指令转换为正式规范,然后执行推理和规划步骤,以提高PDE控制的效用。我们构建了一个全面的解决方案,包括数据集(人工编写的案例和200万个合成样本)、数学推理模型和新颖的评估指标,所有这些都需要大量的工作。我们的PDE-Controller在推理、自动形式化和程序合成方面明显优于提示最新的开源和GPT模型,为PDE控制实现了高达62%的效用增益。通过弥合语言生成和PDE系统之间的差距,我们展示了LLMs在解决复杂科学和工程挑战方面的潜力。我们将在https://pde-controller.github.io/发布所有数据、模型检查点和代码。
直接偏好优化(Direct Preference Optimization,DPO)及其变体已日益流行,用于使语言模型与人类偏好保持一致。这些方法旨在教导模型更好地区分所选(或偏好)和被拒绝(或不偏好)的响应。然而,先前的研究发现,在训练过程中,所选响应的概率通常会下降,这一现象被称为概率位移。为了解决这一挑战,在本研究中,我们引入了\method,以可控方式转移所选概率的分布。然后,我们展示\method在提高所选概率和牺牲奖励边际之间存在根本的权衡,这得到了理论分析和实验证实的支持。此外,我们展示了\method在下游任务(如MT-Bench和设计的胜率实验)中优于DPO的优越性。我们相信这项研究表明,DPO的概率位移问题可以通过一个简单、理论上基础的解决方案得到有效缓解。我们的代码可在https://github.com/Meaquadddd/DPO-Shift找到。
最近的大型语言模型(LLMs)支持从128K到1M个标记的长上下文。评估这些能力的一种流行方法是“草堆中的针”(NIAH)测试,涉及从“草堆”(长无关上下文)中检索“针”(相关信息)。这种方法的扩展包括增加干扰项、事实链接和上下文推理。然而,在这些基准测试中,模型可以利用针和草堆之间的现有文字匹配来简化任务。为解决这个问题,我们引入了NoLiMa,这是一个通过精心设计的针集扩展了NIAH的基准测试,其中问题和针之间的词汇重叠最小,需要模型推断潜在关联以定位草堆中的针。我们评估了声称支持至少128K标记上下文的12个流行LLMs。虽然它们在短上下文(<1K)中表现良好,但随着上下文长度的增加,性能明显下降。例如,在32K时,有10个模型的表现低于其强短长度基线的50%。即使是表现最佳的例外之一GPT-4o,也从几乎完美的99.3%基线降至69.7%。我们的分析表明,这些下降源于当长上下文中不存在文字匹配时,注意力机制面临的困难增加,使得检索相关信息变得更加困难。
在合成孔径雷达(SAR)遥感图像解释领域,虽然视觉语言模型(VLMs)在自然语言处理和图像理解方面取得了显著进展,但由于领域专业知识不足,它们在专业领域的应用仍然受到限制。本文首次提出了用于SAR图像的大规模多模态对话数据集SARChat-2M,包含约200万个高质量图像文本对,涵盖了各种场景并具有详细的目标注释。该数据集不仅支持视觉理解和目标检测等几个关键任务,还具有独特的创新方面:本研究开发了一个用于SAR领域的视觉语言数据集和基准,评估VLMs在SAR图像解释中的能力,为构建各种遥感垂直领域的多模态数据集提供了范例框架。通过对16种主流VLMs的实验,数据集的有效性得到了充分验证,并成功建立了SAR领域的第一个多任务对话基准。该项目将在https://github.com/JimmyMa99/SARChat 上发布,旨在推动SAR视觉语言模型的深入发展和广泛应用。
下一个标记预测(NTP)是自回归(AR)视频生成的事实上方法,但存在不佳的单向依赖性和缓慢的推理速度。在这项工作中,我们提出了一种半自回归(semi-AR)框架,称为下一个块预测(NBP),用于视频生成。通过将视频内容均匀分解为相等大小的块(例如,行或帧),我们将生成单元从单个标记转移到块,使当前块中的每个标记能够同时预测下一个块中对应的标记。与传统的AR建模不同,我们的框架在每个块内使用双向注意力,使标记能够捕获更强大的空间依赖关系。通过并行预测多个标记,NBP模型显著减少了生成步骤的数量,从而实现更快速和更高效的推理。我们的模型在UCF101上实现了103.3的FVD分数,在K600上实现了25.5的FVD分数,比普通的NTP模型平均提高了4.4。此外,由于推理步骤的减少,NBP模型每秒生成8.89帧(128x128分辨率),实现了11倍的加速。我们还探索了从700M到3B参数的模型规模,观察到生成质量显著提高,UCF101的FVD分数从103.3降至55.3,K600的FVD分数从25.5降至19.5,展示了我们方法的可扩展性。
检索增强生成(RAG)是一种先进技术,旨在解决人工智能生成内容(AIGC)所面临的挑战。通过将上下文检索整合到内容生成中,RAG提供可靠和最新的外部知识,减少幻觉,并确保在各种任务中具有相关上下文。然而,尽管RAG取得了成功并展现了潜力,最近的研究表明,RAG范式也带来了新的风险,包括鲁棒性问题、隐私问题、对抗性攻击和问责问题。解决这些风险对于未来RAG系统的应用至关重要,因为它们直接影响其可信度。尽管已经开发了各种方法来提高RAG方法的可信度,但在这一主题的研究中缺乏统一的视角和框架。因此,在本文中,我们旨在通过提供全面的发展值得信赖的RAG系统的路线图来填补这一空白。我们将讨论围绕五个关键视角展开:可靠性、隐私、安全性、公平性、可解释性和问责性。针对每个视角,我们提出一个通用框架和分类法,提供了一种结构化方法来理解当前挑战,评估现有解决方案,并确定有前景的未来研究方向。为了鼓励更广泛的采用和创新,我们还强调了值得信赖的RAG系统具有重大影响的下游应用。
在这项工作中,我们提出了一种LLM模块的架构,通过增强型交叉注意机制实现了从大型预训练模型向较小模型的知识传输。在提出的方案中,Qwen2-1.5B模型被冻结,其表示经过特别设计的注意层传递到在有限计算资源上训练的GPT-Neo-125M模型。在Bespoke-Stratos-17k数据集上的实验结果表明,在经过15个时期的训练后,组合模型生成的响应质量与蒸馏获得的响应相当。我们讨论了模块化方法的优势,提供了输入查询和比较分析的示例,并概述了该方法进一步扩展的前景。
模型合并将在不同任务上微调的大型语言模型(LLMs)聚合成一个更强大的模型。然而,模型之间的参数冲突会导致平均性能下降。模型路由通过在推断过程中选择个别模型来解决这一问题,但会带来过多的存储和计算成本,并且无法充分利用不同模型的共同知识。在这项工作中,我们观察到不同层次的参数冲突程度各不相同。基于这一观察,我们对具有最小参数冲突的层进行平均处理,并针对存在显著冲突的层使用一种新颖的任务级专家路由。为了进一步降低存储成本,受任务算术稀疏性的启发,我们将多个微调专家分解为一个密集专家和几个稀疏专家。考虑到分布之外的样本,我们根据输入数据的任务不确定性选择并合并适当的专家。我们在参数规模不同的LLaMA和Qwen上进行了大量实验,并在真实推理任务上进行了评估。结果表明,与现有方法相比,我们的方法始终实现了显著的性能改进,同时系统成本更低。
我们提出了一种新颖的动态安全框架,可以在推理时优化语言模型(LM)的安全推理,而无需修改模型权重。借鉴最近自我批评方法的进展,我们的方法利用元批评机制,通过迭代更新安全提示(称为规范)来驱动自我批评和修订过程,实现自适应性。这种测试时优化不仅提高了对抗性越狱请求的性能,还在各种一般安全相关任务中表现出色,如避免道德伤害或追求诚实回应。我们对多个语言模型进行的实证评估表明,动态优化的安全提示相比固定系统提示和静态自我批评防御能够显著提高安全评分。代码将在 https://github.com/vicgalle/meta-self-critique.git 上发布。
密集对比表示学习(DCRL)极大地提高了图像密集预测任务的学习效率,展现了减少医学图像收集和密集标注成本的巨大潜力。然而,医学图像的特性使得不可靠的对应发现,带来了DCRL中大规模假阳性和假阴性(FP&N)对的一个开放问题。本文提出了嵌入同胚先验到DCRL中的GEoMetric vIsual deNse sImilarity(GEMINI)学习,实现了可靠的对应发现以进行有效的密集对比。我们提出了一种可变同胚学习(DHL),该方法对医学图像的同胚性进行建模,并学习估计可变形映射以预测像素的对应关系,同时保持拓扑性质。它有效地减少了配对的搜索空间,并通过梯度隐式地、柔性地学习负对。我们还提出了几何语义相似性(GSS),用于提取特征中的语义信息,以衡量对应关系学习的对齐程度。这将提升学习效率和变形性能,可靠地构建正对。我们在实验中对两个典型的表示学习任务实现了两种实用的变体。在七个数据集上取得的有希望的结果超过了现有方法,展示了我们的巨大优势。我们将在以下伴随链接上发布我们的代码:https://github.com/YutingHe-list/GEMINI。