每日精选AI研究论文及翻译
大型语言模型(LLM)的性能严重依赖于其预训练数据集的质量和大小。然而,像Llama 3和Mixtral这样的最先进的开放式LLM的预训练数据集并不公开,并且对它们的创建方式了解甚少。在这项工作中,我们介绍了FineWeb,这是一个从96个Common Crawl快照中衍生出的包含1.5万亿标记的数据集,能够产生比其他开放式预训练数据集表现更好的LLM。为了推动对如何筛选高质量预训练数据集的最佳方法的理解,我们仔细记录并剔除了FineWeb中使用的所有设计选择,包括对去重和过滤策略的深入研究。此外,我们还推出了FineWeb-Edu,这是从FineWeb中筛选出的包含1.3万亿标记的教育文本集合。在FineWeb-Edu上预训练的LLM在类似MMLU和ARC这样的知识和推理密集型基准测试中表现出明显更好的性能。除了我们的数据集外,我们还公开发布了我们的数据筛选代码库以及在我们的剔除实验期间训练的所有模型。
由文本到图像扩散模型引导的3D生成使得创作出视觉上引人注目的资产成为可能。然而,先前的方法探索基于图像或文本的生成。创造力的边界受限于通过文字表达或可获取的图像。我们提出了YouDream,一种生成高质量解剖可控动物的方法。YouDream受2D视图控制的3D姿势先验引导文本到图像扩散模型。我们的方法生成了以往文本到3D生成方法无法创造的3D动物。此外,我们的方法能够在生成的动物中保持解剖一致性,这是先前文本到3D方法经常面临困难的领域。此外,我们设计了一个用于生成常见动物的完全自动化流程。为了避免需要人工干预来创建3D姿势,我们提出了一个多智能体LLM,从有限的动物3D姿势库中调整姿势以代表所需的动物。对YouDream结果的用户研究表明,我们方法生成的动物模型优于其他方法。旋转展示结果和代码发布在https://youdream3d.github.io/。
语言模型(LMs)展现出令人印象深刻的性能和泛化能力。然而,LMs在持续学习(CL)中面临灾难性遗忘的挑战,这削弱了它们的长期可持续性。现有方法通常通过将旧任务数据或任务相关的归纳偏差纳入LMs来解决这一问题。然而,旧数据和准确的任务信息通常难以获取或成本高昂,这阻碍了当前CL方法对LMs的可用性。为了解决这一局限性,我们引入了MIGU(基于幅度的梯度更新用于持续学习),这是一种无需复习和无需任务标签的方法,仅通过更新LMs线性层中输出幅度较大的模型参数。MIGU基于我们的观察,即LMs线性层输出的L1归一化幅度分布在LM处理不同任务数据时是不同的。通过在梯度更新过程中施加这一简单约束,我们可以利用LMs的固有行为,从而释放其内在的CL能力。我们的实验表明,MIGU可普遍适用于所有三种LM架构(T5、RoBERTa和Llama2),在四个CL基准测试中持续微调和持续预训练设置中提供最先进或与之相当的性能。例如,在一个包含15个任务的CL基准测试中,MIGU相比传统的参数高效微调基线带来了15.2%的平均准确率提升。MIGU还可以与所有三种现有的CL类型无缝集成,以进一步提升性能。代码可在https://github.com/wenyudu/MIGU{此处为https链接}找到。
最近在人类偏好优化方面取得的进展,最初是为了语言模型(LMs)而开发的,已经显示出在文本到图像扩散模型中具有潜力,增强了提示对齐、视觉吸引力和用户偏好。与LMs不同,扩散模型通常在像素或VAE空间中进行优化,这与人类感知不太一致,导致在偏好对齐阶段训练速度较慢且效率较低。我们提出在扩散模型的U-Net嵌入空间中使用感知目标来解决这些问题。我们的方法涉及在这个嵌入空间内使用直接偏好优化(DPO)、对比偏好优化(CPO)和监督微调(SFT)来微调稳定扩散1.5和XL。该方法在各种指标上显著优于标准潜在空间实现,包括质量和计算成本。对于SDXL,我们的方法在PartiPrompts数据集上相较于原始开源的SDXL-DPO,提供了60.8\%的一般偏好、62.2\%的视觉吸引力和52.1\%的提示跟随,并显著减少了计算量。我们的方法不仅提高了扩散模型人类偏好对齐的效率和质量,而且还很容易与其他优化技术集成。训练代码和LoRA权重将在此处提供:https://huggingface.co/alexgambashidze/SDXL_NCP-DPO_v0.1
功能调用代理模型的进展需要多样化、可靠和高质量的数据集。本文介绍了APIGen,这是一个自动化数据生成管道,旨在为功能调用应用程序合成可验证的高质量数据集。我们利用APIGen,收集了21个不同类别中的3,673个可执行API,以便以可扩展和结构化的方式生成多样化的功能调用数据集。我们的数据集中的每个数据都经过三个分层阶段的验证:格式检查、实际函数执行和语义验证,确保其可靠性和正确性。我们展示了使用我们精心策划的数据集训练的模型,即使只有70亿参数,也能在伯克利功能调用基准测试中取得最先进的性能,胜过多个GPT-4模型。此外,我们的10亿参数模型表现出色,超越了GPT-3.5-Turbo和Claude-3 Haiku。我们发布了一个包含60,000个高质量条目的数据集,旨在推动功能调用代理领域的发展。该数据集可在Huggingface上获取:https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k,项目主页:https://apigen-pipeline.github.io/
我们引入了一个通用框架,使用生成扩散模型来解决偏微分方程(PDEs)。特别是,我们关注的是在没有足够了解场景的完整知识以应用经典求解器的情况下。大多数现有的正向或反向PDE方法在观测数据或基础系数不完整时表现不佳,这是对真实世界测量的常见假设。在这项工作中,我们提出了DiffusionPDE,它可以同时填补缺失信息并通过对解空间和系数空间的联合分布建模来解决PDE。我们展示了学习到的生成先验可以导致一个多才多艺的框架,可以准确解决在部分观测下的广泛PDE范围,显著优于现有技术方法,无论是正向还是反向方向。
近年来,大型语言模型(LLMs)的长文本能力一直是热门话题。为了评估LLMs在不同场景下的性能,出现了各种评估基准。然而,由于大多数这些基准侧重于识别关键信息以回答问题,主要需要LLMs的检索能力,这些基准只能部分代表LLMs在大量信息中的推理性能。同时,尽管LLMs经常声称具有32k、128k、200k甚至更长的上下文窗口,但这些基准未能揭示这些LLMs实际支持的长度。为了解决这些问题,我们提出了LongIns基准数据集,这是一个具有挑战性的基于指令的长文本考试,专为LLMs设计,建立在现有指令数据集的基础上。具体来说,在我们的LongIns中,我们引入了三种评估设置:全局指令和单一任务(GIST)、局部指令和单一任务(LIST)以及局部指令和多任务(LIMT)。基于LongIns,我们对现有LLMs进行全面评估,并得出以下重要发现:(1)性能最佳的GPT-4在128k上下文长度下在我们的LongIns中的评估上下文窗口为16k时表现不佳。 (2)对于许多现有LLMs的多跳推理能力,在短上下文窗口(小于4k)下仍需要大量努力。
多模态大型语言模型(MLLMs)在各种视觉理解任务中取得了显著进展。然而,大多数这些模型受限于处理低分辨率图像,这限制了它们在需要详细视觉信息的感知任务中的有效性。在我们的研究中,我们提出了MG-LLaVA,这是一种创新的MLLM,通过整合多粒度视觉流来增强模型的视觉处理能力,其中包括低分辨率、高分辨率和以对象为中心的特征。我们提出了整合额外高分辨率视觉编码器以捕获细粒度细节,然后通过Conv-Gate融合网络将其与基础视觉特征融合。为了进一步提升模型的对象识别能力,我们还整合了由离线检测器识别的边界框导出的对象级特征。通过仅在公开可用的多模态数据上进行指导调整训练,MG-LLaVA展示了出色的感知能力。我们使用范围从3.8B到34B的多种语言编码器实例化MG-LLaVA,以全面评估模型的性能。在多个基准测试中进行的广泛评估表明,MG-LLaVA在参数大小相当的现有MLLMs上表现出色,展示了其显著的有效性。代码将在https://github.com/PhoenixZ810/MG-LLaVA 上提供。
在这项工作中,我们提出了MotionBooth,这是一个创新性框架,旨在为定制主题的动画提供精确控制,涵盖对象和摄像机运动。通过利用特定对象的少量图像,我们有效地微调文本到视频模型,以准确捕捉对象的形状和属性。我们的方法提出了主题区域损失和视频保留损失,以增强主题的学习性能,同时引入主题标记交叉注意力损失,将定制主题与运动控制信号整合。此外,我们提出了训练无关的技术,用于在推断期间管理主题和摄像机运动。具体而言,我们利用交叉注意力地图操作来控制主题运动,并引入了一种新颖的潜在偏移模块,用于摄像机运动控制。MotionBooth在保留主题外观的同时,同时控制生成视频中的运动方面表现出色。广泛的定量和定性评估证明了我们方法的优越性和有效性。我们的项目页面位于https://jianzongwu.github.io/projects/motionbooth。
长文本建模能力引起了广泛关注,导致了具有超长上下文窗口的大型语言模型(LLMs)的出现。与此同时,用于评估长上下文LLMs的基准逐渐在迎头赶上。然而,现有的基准采用无关的噪声文本来人为延长测试用例的长度,与长上下文应用的真实场景背道而驰。为了弥合这一差距,我们提出了一个新颖的长上下文基准Loong,通过扩展的多文档问答(QA)与现实场景保持一致。与典型的文档问答不同,在Loong的测试用例中,每个文档都与最终答案相关,忽略任何文档都将导致答案失败。此外,Loong引入了四种任务类型,涵盖一系列上下文长度:焦点定位、比较、聚类和推理链,以促进对长上下文理解的更加真实和全面的评估。大量实验证明,现有的长上下文语言模型仍具有相当大的增强潜力。检索增强生成(RAG)表现不佳,表明Loong能够可靠地评估模型的长上下文建模能力。
在许多自然语言处理系统中,将文本分割成句子起着早期且至关重要的作用。通常通过使用基于规则或统计方法来实现,依赖于诸如标点符号之类的词汇特征。尽管一些最近的研究不再仅仅依赖于标点符号,但我们发现以往的方法都无法同时实现以下三点:(i) 对缺失标点的鲁棒性,(ii) 对新领域的有效适应性,以及(iii) 高效性。我们引入了一个新模型 - Segment any Text (SaT) - 来解决这个问题。为了增强鲁棒性,我们提出了一种新的预训练方案,确保更少地依赖于标点符号。为了解决适应性问题,我们引入了一个额外的参数高效微调阶段,在诸如歌词和法律文件等不同领域确立了最先进的性能。在此过程中,我们引入了架构修改,使速度比之前的最新技术提高了三倍,并解决了对未来很远的上下文的错误依赖。最后,我们介绍了我们模型的一个变体,通过在多样化、多语言混合的句子分割数据上进行微调,作为现有分割工具的即插即用替代和增强。总的来说,我们的贡献提供了一个通用的文本分割方法。我们的方法在涵盖不同领域和语言的8个语料库中表现优异,尤其在文本格式混乱的实际相关情境中,胜过所有基线模型 - 包括强大的LLMs。我们的模型和代码,包括文档,可在MIT许可下的https://huggingface.co/segment-any-text找到。
尽管预训练大型语言模型(LLMs)具有一般的能力,但它们仍需要进一步适应以更好地服务于实际应用。在本文中,我们展示了三种流行且独特的适应工具:参数更新、奖励建模和上下文提示的互换性。这种互换性建立了一个三角形框架,具有六个转换方向,每个方向都促进了各种应用。我们的工作提供了一个统一众多现有研究的整体视角,并提出了潜在的研究方向。我们设想我们的工作将成为未来LLMs研究的有用路线图。
扩散模型在视频生成方面展现出了显著的能力,进一步引发了在生成过程中引入轨迹控制的兴趣。虽然现有研究主要集中在基于训练的方法(例如,条件适配器),但我们认为扩散模型本身可以在不需要任何训练的情况下对生成的内容进行相当好的控制。在这项研究中,我们介绍了一个无需调整的框架,通过对噪声构建和注意力计算施加指导,实现了可控轨迹的视频生成。具体来说,1)我们首先展示了几个有启发性的现象,并分析了初始噪声如何影响生成内容的运动轨迹。2)随后,我们提出了FreeTraj,这是一种无需调整的方法,通过修改噪声采样和注意力机制实现轨迹控制。3)此外,我们将FreeTraj扩展到支持更长、更大的视频生成,同时保持可控的轨迹。凭借这些设计,用户可以灵活地手动提供轨迹,或选择由LLM轨迹规划器自动生成的轨迹。大量实验证实了我们的方法在增强视频扩散模型轨迹可控性方面的有效性。
最近大型语言模型(LLMs)的进展显著增强了会话代理的能力,使它们适用于各个领域(例如教育)。尽管取得了进展,但对代理的评估经常忽视了真实世界对话的复杂性,如实时互动、多方对话和延伸的语境依赖。为了弥合这一差距,我们引入了 DialSim,一个实时对话模拟器。在这个模拟器中,一个代理被分配成为流行电视节目中的角色,需要利用过去的对话信息回答即兴问题,并区分已知和未知信息。DialSim 的关键特点包括评估代理在合理时间限制内作出回应的能力,处理长期多方对话,并管理对抗设置(例如交换角色名称)以挑战代理对预训练知识的依赖。我们利用这个模拟器来评估最新的会话代理并分析它们的局限性。我们的实验突出了这些代理的优势和劣势,为未来改进会话人工智能领域提供了宝贵的见解。DialSim 可在 https://github.com/jiho283/Simulator 获取。
电影制作和动画制作通常需要复杂的技术来协调摄像机转换和物体移动,通常涉及劳动密集型的现实世界捕捉。尽管在视频创作方面取得了进展,但实现对交互式视频资产生成的运动的精确控制仍具有挑战性。为此,我们提出了图像导向器(Image Conductor),这是一种用于精确控制摄像机转换和物体移动以从单个图像生成视频资产的方法。我们提出了一种经过精心培养的训练策略,通过摄像机 LoRA 权重和物体 LoRA 权重来分离不同的摄像机和物体运动。为了进一步解决由于不适当的轨迹而产生的电影变化,我们在推断过程中引入了一种无摄像机指导技术,增强物体移动同时消除摄像机转换。此外,我们开发了一个以轨迹为导向的视频运动数据筛选管道用于训练。定量和定性实验展示了我们的方法在从图像生成可控运动视频方面的精度和细粒度控制,推动了交互式视频合成的实际应用。项目网页链接:https://liyaowei-stu.github.io/project/ImageConductor/
大型语言模型(LLM)的训练和微调通常受限于有限的GPU内存。现有的基于投影的优化方法通过将梯度投影到较低维度的子空间中以减少优化器状态内存来解决这一问题,但它们通常依赖于密集投影矩阵,这可能会引入计算和内存开销。在这项工作中,我们提出了Grass(GRAdient Stuctured Sparsification),这是一种利用稀疏投影将梯度转换为结构化稀疏更新的新方法。这种设计不仅显著减少了优化器状态的内存使用,还最小化了梯度内存占用量、计算和通信成本,从而实现了大幅的吞吐量改进。在预训练和微调任务上进行的大量实验表明,Grass实现了与全秩训练和现有基于投影的方法相媲美的性能。值得注意的是,Grass使得在单个40GB A100 GPU上进行13B参数LLaMA模型的半精度预训练成为可能,这是以前方法无法实现的壮举,并在8-GPU系统上实现了高达2倍的吞吐量改进。代码可在https://github.com/aashiqmuhamed/GRASS 找到。
激活引导方法已被证明能够通过对模型的中间表示进行加性干预,有效地调节语言模型的生成。然而,迄今为止,对这些技术的评估仅限于单一调节属性和合成环境。在本研究中,我们对各种激活引导策略进行了全面评估,突出了最佳参数的属性相关性,以确保在整个生成过程中产生稳健效果。为解决这一问题,我们提出了动态激活组合,这是一种信息论方法,用于调节一个或多个属性在生成过程中的引导强度。我们在多属性引导上的实验表明,我们的方法成功地保持了高度的调节性,同时最大程度地减少了调节对生成流畅性的影响。
为了使人工智能系统能够有效地与人类沟通,它们必须理解我们做决策的方式。然而,人类的决策并非总是理性的,因此大型语言模型(LLMs)中的隐含内部人类决策模型必须考虑到这一点。先前的实证证据似乎表明这些隐含模型是准确的 -- LLMs提供了人类行为的可信代理,表现出我们在日常互动中对人类的期望。然而,通过将LLM的行为和预测与大量人类决策数据集进行比较,我们发现实际情况并非如此:在模拟和预测人们的选择时,一系列尖端LLMs(如GPT-4o和4-Turbo,Llama-3-8B和70B,Claude 3 Opus)假设人们比实际更理性。具体而言,这些模型偏离了人类行为,更接近于经典的理性选择模型 -- 预期价值理论。有趣的是,人们在解释他人行为时也倾向于假设他人是理性的。因此,当我们使用另一个心理数据集比较LLMs和人们从他人决策中得出的推断时,我们发现这些推断高度相关。因此,LLMs的隐含决策模型似乎与人类期望他人会理性行事的预期一致,而不是与人们实际行为一致。
随着人工通用智能(AGI)越来越多地融入人类生活的各个方面,确保这些系统的安全性和道德对齐至关重要。先前的研究主要集中在单模态威胁上,这可能不足以应对跨模态交互的综合复杂性。我们引入了一个名为“安全输入但不安全输出”(SIUO)的新型安全对齐挑战,以评估跨模态安全对齐。具体而言,它考虑了单一模态在独立情况下是安全的,但在组合时可能导致不安全或不道德的输出的情况。为了从经验上研究这个问题,我们开发了SIUO,这是一个跨模态基准,涵盖了自残、非法活动和侵犯隐私等9个关键安全领域。我们的研究结果揭示了封闭和开源LVLMs(如GPT-4V和LLaVA)中存在重大的安全漏洞,突显了当前模型无法可靠地解释和应对复杂的现实场景的不足。