每日精选AI研究论文及翻译
表格在其广泛的二维网格、各种布局和多样的格式选项中,对大型语言模型(LLMs)提出了显著挑战。作为回应,我们引入了SpreadsheetLLM,开创了一种高效的编码方法,旨在释放和优化LLMs在电子表格上强大的理解和推理能力。最初,我们提出了一种基本的序列化方法,其中包括单元格地址、数值和格式。然而,这种方法受到了LLMs的标记限制,使其在大多数应用中变得不切实际。为了解决这一挑战,我们开发了SheetCompressor,这是一种创新的编码框架,可以有效地压缩电子表格以适应LLMs。它包括三个模块:基于结构锚点的压缩、逆向索引转换和数据格式感知聚合。在电子表格表格检测任务中,它显著提高了性能,在GPT4的上下文学习环境中,比基本方法提高了25.6%。此外,使用SheetCompressor进行微调的LLM具有平均25倍的压缩比,但实现了78.9%的F1得分,超过了现有最佳模型12.3%。最后,我们提出了Chain of Spreadsheet,用于电子表格理解的下游任务,并在一个新的、要求严格的电子表格问答任务中进行验证。我们系统地利用电子表格的固有布局和结构,证明了SpreadsheetLLM在各种电子表格任务中都非常有效。
大型语言模型(LLMs)展示了显著的能力,但仍然在处理广泛上下文方面存在困难,限制了它们在长序列上保持连贯性和准确性的能力。相比之下,人类大脑擅长组织和检索跨越终生的广阔时间尺度的情节性经历。在这项工作中,我们引入了EM-LLM,一种新颖的方法,将人类情节性记忆和事件认知的关键方面整合到LLMs中,使它们能够有效处理几乎无限的上下文长度,同时保持计算效率。EM-LLM使用贝叶斯惊奇和图论边界细化的组合以在线方式将标记序列组织成连贯的情节事件。在需要时,通过两阶段记忆过程检索这些事件,结合基于相似性和时间连续性的检索,实现对相关信息的高效且类似人类的访问。对LongBench数据集的实验表明,EM-LLM表现出卓越的性能,在各种任务中相对于最先进的InfLLM模型有4.3%的整体相对改进,包括在PassageRetrieval任务上有33%的改进。此外,我们的分析揭示了EM-LLM的事件分割与人类感知事件之间的强相关性,表明这一人工系统与其生物对应物之间存在联系。这项工作不仅推进了LLM在处理扩展上下文方面的能力,还为探索人类记忆机制提供了计算框架,为人工智能和认知科学的跨学科研究开辟了新途径。
本技术报告描述了时间序列优化Transformer for Observability(Toto),这是由Datadog开发的用于时间序列预测的新一代基础模型。除了在诸如电力和天气等领域的广义时间序列基准上推进技术水平外,该模型是第一个专门针对可观测性指标进行调整的通用时间序列预测基础模型。 Toto是在一万亿时间序列数据点的数据集上进行训练的,这是目前所有已发布的时间序列基础模型中最大的数据集。除了公开可用的时间序列数据集外,用于训练Toto的数据中,有75%是来自Datadog平台的完全匿名的数值度量数据点。 在我们的实验中,Toto在可观测性数据上优于现有的时间序列基础模型。它不仅在通用预测任务上表现出色,而且在多个公开基准数据集上实现了最先进的零-shot性能。
大型语言模型(LLMs)经常因数据或架构变化而进行更新,以提高性能。在更新模型时,开发人员通常专注于提高整体性能指标,对与之前模型版本兼容性的重视较少。然而,用户经常会建立与特定机器学习模型的功能和能力相关的心理模型。他们必须随着每次更新调整自己的心理模型,这是一项耗费精力的任务,可能导致用户不满。在实践中,微调的下游任务适配器依赖于预训练的LLM基础模型。当这些基础模型更新时,这些面向用户的下游任务模型会出现实例回归或负翻转 -- 先前正确的实例现在被错误预测。即使下游任务的训练过程保持不变,这种情况仍会发生。我们的工作旨在以两种方式为用户提供无缝的模型更新。首先,我们为先前模型版本的兼容性概念提供评估指标,特别适用于生成任务,也适用于判别任务。我们观察到在各种任务和模型更新中不同模型版本之间的回归和不一致性。其次,我们提出了一种训练策略,以最小化模型更新中不一致性的数量,包括训练一个可以增强任务微调语言模型的兼容性模型。我们将负翻转 -- 先前模型版本正确的实例,但新模型错误的实例 -- 从Llama 1降低了高达40% 到Llama 2。
大型语言模型(LLMs)展示了作为通用助手的巨大潜力,展示了强大的任务理解和问题解决能力。要将LLMs部署为人工智能助手,这些模型展现出理想的行为特征至关重要,如无毒性和抗越狱攻击的弹性。目前用于解毒或防止越狱的方法通常涉及监督微调(SFT)或从人类反馈中进行强化学习(RLHF),需要通过梯度下降对数十亿参数进行微调,计算成本相当高。此外,通过SFT和RLHF修改的模型可能偏离预训练模型,潜在导致LLM基本能力下降。在本文中,我们观察到令人惊讶的是,直接编辑一小部分参数可以有效调节LLMs的特定行为,如解毒和抗越狱。具体来说,对于我们希望避免的行为,我们使用线性分类器,称之为行为探针,来在LLMs的隐藏状态空间内对二进制行为标签进行分类。利用这个探针,我们引入了一种算法来识别显著影响目标行为的LLMs参数的关键子集。然后,我们通过将这些选定的参数直接向行为探针移动来直接编辑这些参数。这种直接参数编辑方法仅需要推理级别的计算资源。实验证明,在代表性的解毒任务中,我们的方法在RealToxicityPrompts数据集上实现了高达90.0\%的毒性降低,以及在ToxiGen上的49.2%,同时保持了LLMs在常识、问答和数学等领域的通用能力。我们的代码可在https://github.com/lucywang720/model-surgery找到。
我们提出了H2O-Danube3,这是一系列小型语言模型,包括H2O-Danube3-4B,训练数据为6T tokens,以及H2O-Danube3-500M,训练数据为4T tokens。我们的模型在高质量Web数据上进行了预训练,主要包括英文 tokens,在最终监督调整为聊天版本之前,经过三个不同数据混合阶段。这些模型在多个学术、聊天和微调基准测试中表现出色。由于其紧凑的架构,H2O-Danube3 可以在现代智能手机上高效运行,实现本地推理和快速处理能力,甚至可以在移动设备上快速处理。我们在Apache 2.0许可下公开提供所有模型,进一步使更广泛的受众在经济上获得对大型语言模型的使用权。
自动生成新颖有趣的游戏是一项复杂的任务。挑战包括以计算上可行的形式表示游戏规则,搜索在大多数这种表示下潜在游戏空间中的游戏,并准确评估以前未见游戏的独创性和质量。自动生成游戏的先前工作主要集中在相对受限制的规则表示上,并依赖于特定领域的启发式方法。在这项工作中,我们探讨了在相对广泛的Ludii游戏描述语言中生成新颖游戏的方法,该语言编码了1000多种棋盘游戏的规则,以各种风格和玩法模式。我们从最近在大型语言模型和进化计算方面取得的进展中汲取灵感,以训练一个能够智能地变异和重组以代码形式表达的游戏和机制的模型。我们定量和定性地证明,我们的方法能够生成新颖有趣的游戏,包括在Ludii数据集中现有游戏未涵盖的潜在规则空间中。一些生成的游戏样本可通过Ludii门户网站在线游玩。
尽管大型语言模型普遍采用transformer,但其内部运作机制并不为人熟知。我们旨在更好地理解在预训练transformer的各层中移除或重新组织信息的影响。这种理解既可以更好地利用现有模型,也可以进行架构改进以生成新的变体。我们提出了一系列关于冻结模型的实证研究,表明预训练transformer的较低和最终层与中间层不同,但中间层具有令人惊讶的一致性。我们进一步展示,某些问题类别对跳过层、以不同于训练方式的顺序运行层或并行运行层具有鲁棒性。我们的观察表明,即使是冻结的预训练模型也可以通过跳过层或并行运行层来优雅地在准确性和延迟之间进行权衡。
最近在光辐场方面的进展为创建高质量的3D资产和场景开辟了新途径。风格迁移可以利用不同的艺术风格增强这些3D资产,从而转变创意表达。然而,现有技术通常速度较慢,或无法将风格迁移局限于特定对象。我们引入了StyleSplat,一种轻量级方法,用于通过来自参考风格图像的3D高斯函数对场景中的3D对象进行样式化。我们的方法首先使用3D高斯函数喷洒学习场景的照片级表示,同时分割单个3D对象。然后,我们使用最近邻特征匹配损失来微调所选对象的高斯函数,将它们的球谐系数与风格图像对齐,以确保一致性和视觉吸引力。StyleSplat允许快速、可定制的风格迁移,并在场景中局部实现多个对象的样式化,每个对象具有不同的风格。我们展示了它在各种3D场景和风格中的有效性,展示了在3D创作中增强的控制和定制能力。
在长篇科学研究文章中寻找问题的答案是一个重要的研究领域,可以帮助读者快速解决他们的疑问。然而,现有基于科学论文的问答(QA)数据集在规模上存在局限,并且仅关注文本内容。为了解决这一局限,我们引入了SPIQA(Scientific Paper Image Question Answering),这是第一个专门设计用于解释计算机科学各个领域科学研究文章中复杂图表的大规模QA数据集。利用多模态大型语言模型(MLLMs)的广泛专业知识和能力来理解图表,我们采用自动和手动策划来创建数据集。我们设计了一个信息搜索任务,涉及多个图像,涵盖各种绘图、图表、表格、示意图和结果可视化。SPIQA包含27万个问题,分为训练、验证和三个不同的评估部分。通过与12个著名基础模型的广泛实验,我们评估了当前多模态系统理解研究文章细微方面的能力。此外,我们提出了一种Chain-of-Thought(CoT)评估策略,采用上下文检索,允许进行细粒度、逐步评估并提高模型性能。我们进一步探讨了通过额外文本信息提高性能的上限,并突出其对未来研究的潜力以及对改变我们与科学文献互动方式的数据集影响。
过去,大型语言模型通常依赖某种形式的强化学习与人类反馈(RLHF)来更好地使模型响应与人类偏好相一致。然而,由于在实施这些RLHF流程时经常观察到的不稳定性,最近引入了各种重新参数化技术,以避开单独学习RL奖励模型的需要。相反,通过最小化一个闭合形式的训练目标直接微调人类偏好,这个过程最初被称为直接偏好优化(DPO),并得到了几个显著后继方法的跟随。尽管在某些现实世界环境中有效,我们引入了新的评估标准,以突显现有DPO方法在插值预训练参考模型和人类偏好的实证度量之间存在未解决的缺陷,以及在如何正则化低质量和高质量响应以及处理约束方面的不可避免的权衡。我们的见解随后激发了一种替代的类DPO损失,可以明显减轻这些限制。实证结果证实了我们分析的显著方面。
长上下文推理在系统层面上带来挑战,增加了计算和内存需求,并且从准确性的角度来看,能够对长上下文进行推理也是具有挑战性的。最近,已经提出了几种方法来压缩提示以减少上下文长度。然而,对比不同提出的方法在不同任务中进行标准化分析的工作很少。这导致了矛盾的结果。为了解决这个问题,我们在这里对不同的提示压缩方法进行了全面的表征和评估。具体来说,我们分析了抽取式压缩、基于摘要的生成式压缩和标记修剪方法。令人惊讶的是,我们发现抽取式压缩通常优于所有其他方法,并且能够实现高达10倍的压缩,准确性下降最小。有趣的是,我们还发现尽管最近有几项声称,标记修剪方法通常落后于抽取式压缩。我们在摘要任务上只发现了轻微的改进。
在将Mamba与变压器在多个与语音相关的任务中的性能和效率进行比较之前,现在得出Mamba是变压器的更好替代品还为时过早。为了得出这个结论,我们提出并评估了三个任务的三个模型:用于语音分离的Mamba-TasNet,用于语音识别的ConMamba,以及用于语音合成的VALL-M。我们将它们与相似规模的变压器在性能、内存和速度上进行比较。我们的Mamba或Mamba-变压器混合模型在性能上显示出与它们的变压器对应物Sepformer、Conformer和VALL-E相当或更高的表现:它们在内存和速度上比变压器更有效,适用于超过某一阈值持续时间的语音,与语音令牌的分辨率成反比。Mamba用于分离是最有效的,用于识别的最不有效。此外,我们展示了Mamba在短于阈值持续时间的语音中并不比变压器更有效,并且在需要联合建模文本和语音的模型中表现更差,比如两个输入的交叉或掩蔽注意力。因此,我们认为Mamba或变压器的优越性取决于特定的问题和模型。代码可在https://github.com/xi-j/Mamba-TasNet 和 https://github.com/xi-j/Mamba-ASR找到。
基于姿势驱动的人体图像动画扩散模型在逼真人体视频合成方面展现出卓越能力。尽管先前方法取得了令人期待的成果,但在实现时间上连贯的动画和确保与现成姿势检测器的稳健性方面仍存在挑战。本文提出了TCAN,一种姿势驱动的人体图像动画方法,对错误姿势具有稳健性,并能保持时间上的一致性。与先前方法不同,我们利用预训练的ControlNet而无需微调,以利用其从众多姿势-图像-标题三元组中预先获取的丰富知识。为了保持ControlNet的冻结状态,我们将LoRA调整到UNet层,使网络能够对齐姿势和外观特征之间的潜在空间。此外,通过向ControlNet引入额外的时间层,增强了对姿势检测器异常值的稳健性。通过分析沿时间轴的注意力图,我们还设计了一种利用姿势信息的新型温度图,实现更静态的背景。大量实验证明,所提出的方法在涵盖各种姿势(如卡通)的视频合成任务中取得了令人期待的结果。项目页面:https://eccv2024tcan.github.io/
最近在图像字幕检索增强模型方面取得的进展突显了通过检索相关字幕来实现高效、轻量级模型以及强大领域迁移能力的好处。虽然这些模型展示了检索增强的成功,但实际中检索模型仍然存在不足:检索到的信息有时会误导模型,导致生成不正确和性能较差。本文分析了一种名为SmallCap的检索增强字幕模型的鲁棒性。我们的分析显示,该模型对出现在大多数检索到的字幕中的标记敏感,输入归因显示这些标记很可能被复制到生成的输出中。基于这些发现,我们建议通过从更多不同集合中对检索到的字幕进行抽样来训练模型。这降低了模型学习复制大多数标记的可能性,并提高了领域内和跨领域性能。
本研究解决了大型语言模型(LLMs)安全调整实践中的一个关键问题,即识别和解决拒绝位置偏见,该偏见存在于安全调整数据中,影响模型拒绝生成不安全内容的能力。我们引入了一种新方法,称为解耦拒绝训练(DeRTa),旨在赋予LLMs拒绝在任何响应位置生成有害提示的能力,从而显著增强其安全性能。DeRTa包括两个新颖组件:(1)带有有害响应前缀的最大似然估计(MLE),通过在安全响应开头附加一段有害响应来训练模型识别和避免不安全内容;(2)强化过渡优化(RTO),使模型能够在整个有害响应序列中始终从潜在危害过渡到安全拒绝。我们进行了实证评估,使用LLaMA3和Mistral模型系列在六种攻击场景中进行,结果表明我们的方法不仅提高了模型的安全性而且没有牺牲性能,还超过了诸如GPT-4等知名模型在抵御攻击方面的表现。重要的是,我们的方法成功抵御了最近的高级攻击方法(例如CodeAttack),这些方法已经破解了GPT-4和LLaMA3-70B-Instruct。我们的代码和数据可在https://github.com/RobustNLP/DeRTa 找到。
在过去几年中,在任意光照下合成神经辐射场(NeRFs)已成为一个重要问题。最近的研究通过提取基于物理的参数来解决这个问题,然后可以在任意光照下渲染,但它们在能处理的场景范围上受到限制,通常对光泽场景处理不当。我们提出了RRM,一种方法,即使在存在高反射物体的情况下,也可以提取场景的材质、几何和环境光照。我们的方法包括一个具有物理感知的辐射场表示,该表示指导基于物理的参数,以及基于拉普拉斯金字塔的富有表现力的环境光结构。我们证明了我们的贡献在参数检索任务上优于最先进技术,从而实现了在表面场景上高保真的重照和新视角合成。