每日精选AI研究论文及翻译
随着大型语言模型在金融领域日益普及,迫切需要一种标准化方法来全面评估它们的性能。然而,现有的金融基准往往存在语言和任务覆盖范围有限,以及数据集质量低和不适合LLM评估等挑战。为了解决这些限制,我们提出了“Golden Touchstone”,这是第一个针对金融LLM的全面双语基准,涵盖了来自中英文的代表性数据集,涵盖了八个核心金融自然语言处理任务。该基准是从广泛的开源数据收集和行业特定需求中开发而来,包括各种金融任务,旨在全面评估模型的语言理解和生成能力。通过对基准上主要模型(如GPT-4o Llama3、FinGPT和FinMA)的比较分析,我们揭示了它们在处理复杂金融信息方面的优势和局限性。此外,我们开源了Touchstone-GPT,这是通过持续预训练和金融指导调整训练的金融LLM,在双语基准上表现出色,但在特定任务上仍存在局限性。这项研究不仅为金融大型语言模型提供了实用的评估工具,还指导了未来研究的发展和优化。Golden Touchstone的源代码和Touchstone-GPT的模型权重已公开在https://github.com/IDEA-FinAI/Golden-Touchstone,有助于金融LLM的持续发展,并促进这一关键领域的进一步研究。
根据文本指令在图像中添加物体是语义图像编辑中的一项具有挑战性的任务,需要在保留原始场景和将新物体无缝整合到合适位置之间取得平衡。尽管已经做出了大量努力,现有模型通常在这种平衡上存在困难,特别是在复杂场景中寻找自然位置以添加物体时。我们引入了Add-it,这是一种无需训练的方法,它通过扩展扩散模型的注意机制来整合来自三个关键来源的信息:场景图像、文本提示和生成的图像本身。我们的加权扩展注意机制保持结构一致性和细节,同时确保自然物体放置。在没有特定任务微调的情况下,Add-it 在真实和生成的图像插入基准测试中取得了最先进的结果,包括我们新构建的“添加功能基准测试”,用于评估物体放置的合理性,优于监督方法。人类评估显示,在超过80%的情况下,人们更喜欢使用Add-it,并且它还在各种自动化指标上展现出改进。
指导性图像编辑方法通过在自动合成或手动注释的图像编辑对上训练扩散模型,展现出显著的潜力。然而,这些方法离实际应用仍有一定距离。我们确定了导致这一差距的三个主要挑战。首先,由于偏倚的合成过程,现有模型的编辑能力有限。其次,这些方法是通过具有大量噪声和伪影的数据集进行训练的。这是由于应用了像CLIP-score这样的简单滤波方法。第三,所有这些数据集都限制在单一低分辨率和固定长宽比,限制了处理真实世界用例的多样性。在本文中,我们提出了\omniedit,这是一个全能编辑器,可以无缝处理七种不同的图像编辑任务,适用于任何长宽比。我们的贡献有四个方面:(1) \omniedit通过利用来自七种不同专家模型的监督来确保任务覆盖。 (2) 我们利用基于大型多模型(如GPT-4o)提供的分数的重要性抽样,而不是CLIP-score来提高数据质量。 (3) 我们提出了一种名为EditNet的新编辑架构,极大地提高了编辑成功率。 (4) 我们提供具有不同长宽比的图像,以确保我们的模型可以处理野外的任何图像。我们精心策划了一个测试集,其中包含具有不同长宽比的图像,配有多样的指导,以涵盖不同任务。自动评估和人工评估均表明,\omniedit可以显著优于所有现有模型。我们的代码、数据集和模型将在以下网址提供:https://tiger-ai-lab.github.io/OmniEdit/
理解并回答文件中的问题的能力在许多商业和实际应用中可能很有用。然而,文件通常包含大量多模态内容,如文本、图形和表格,对人类来说要彻底阅读这些内容非常耗时。因此,迫切需要开发有效的自动化方法来帮助人类完成这项任务。在这项工作中,我们介绍了M-LongDoc,一个包含851个样本的基准测试,并提出了一个自动化框架来评估大型多模态模型的性能。我们进一步提出了一种基于检索意识的调优方法,用于高效和有效地阅读多模态文档。与现有作品相比,我们的基准测试包含了更近期和更长的文档,有数百页,同时需要开放式解决方案,而不仅仅是抽取式答案。据我们所知,我们的训练框架是第一个直接针对多模态长文档的检索设置的。为了调整开源模型,我们以完全自动的方式构建了一个用于在此类文档上进行问答任务的训练语料库。实验表明,与基线开源模型相比,我们的调优方法使模型响应的正确性相对提高了4.6%。我们的数据、代码和模型可在https://multimodal-documents.github.io 上获得。
新的LLM评估基准对齐与大型语言模型(LLMs)的快速发展至关重要。在这项工作中,我们提出了Chinese SimpleQA,这是第一个全面的中文基准,用于评估语言模型回答简短问题的事实能力,Chinese SimpleQA主要具有五个特性(即中文、多样性、高质量、静态、易评估)。具体来说,首先,我们专注于涵盖6个主要主题和99个多样化子主题的中文语言。其次,我们进行全面的质量控制过程,以获得高质量的问题和答案,其中参考答案是静态的,随时间不变。第三,遵循SimpleQA,问题和答案非常简短,评分过程基于OpenAI API易于评估。基于Chinese SimpleQA,我们对现有LLMs的事实能力进行了全面评估。最后,我们希望Chinese SimpleQA能指导开发人员更好地了解其模型的中文事实能力,并促进基础模型的发展。
我们介绍Edify Image,这是一系列扩散模型,能够以像素级准确度生成逼真的图像内容。Edify Image利用级联像素空间扩散模型,这些模型是使用一种新颖的拉普拉斯扩散过程进行训练的,该过程中不同频率带的图像信号以不同速率衰减。Edify Image支持广泛的应用,包括文本到图像合成、4K上采样、ControlNets、360高动态范围全景生成以及图像定制的微调。
图像水印方法并未针对处理小水印区域进行定制。这限制了在现实场景中的应用,其中图像的部分可能来自不同来源或已经被编辑。我们引入了一种用于定位图像水印的深度学习模型,命名为Watermark Anything Model(WAM)。WAM嵌入器在不引人注意地修改输入图像的同时,提取器将接收到的图像分割为带水印和无水印区域,并从发现为带水印的区域中恢复一个或多个隐藏信息。这些模型在低分辨率下联合训练,没有感知约束,然后进行后期训练以实现不可察觉性和多水印。实验证明,WAM在不可察觉性和鲁棒性方面与最先进的方法相媲美,尤其是对抗修补和拼接,即使在高分辨率图像上也是如此。此外,它还提供了新的功能:WAM能够定位拼接图像中的带水印区域,并从多个小区域(不超过图像表面的10%)中提取不同的32位信息,即使是对于小尺寸的256x256图像,也能保证少于1比特的错误。
软件库的快速演进对代码生成模型构成重大挑战,这些模型必须适应频繁的版本更新,同时保持与先前版本的兼容性。现有的代码补全基准往往忽视这种动态方面,唯一考虑到这一点的基准依赖于静态代码预测任务,没有执行评估,这提供了对模型实际可用性的有限视角。为了填补这一空白,我们引入了\GitChameleon{},这是一个新颖的、手工策划的数据集,包括116个Python代码补全问题,每个问题都取决于特定的库版本,并附带可执行的单元测试。旨在严格评估现代大型语言模型(LLMs)生成特定版本代码的能力,这些代码不仅在语法上正确,而且在执行时也具有功能准确性。我们的全面评估显示,最先进的LLMs在这项任务上面临困难;例如,GPT-4o仅实现了39.9\%的pass@10(在提供错误反馈时为43.7\%),突显了问题的复杂性和当前模型的局限性。通过提供一个强调代码库动态性质的基于执行的基准,\GitChameleon{}作为推动更具适应性和可靠性的代码生成模型发展的关键工具。为了促进对版本条件代码生成的进一步探索,我们将我们的代码存储库公开放置在https://github.com/NizarIslah/GitChameleon。
在大型语言模型(LLMs)领域,模型准确遵循指令的能力至关重要,因为越来越多的代理和应用程序利用LLMs进行构建,其中指令的复杂性正在迅速增加。然而,一方面,复杂指令评估数据是有限的;另一方面,目前没有专门的算法来提高遵循复杂指令的能力。因此,本文介绍了TRACE,一个用于改进和评估复杂指令遵循能力的基准,包括12万个训练数据和1千个评估数据。此外,我们提出了IOPO(输入-输出偏好优化)对齐方法,该方法考虑了输入和输出偏好对,使得LLMs不仅能够快速与响应偏好对齐,而且能够细致地探索指令偏好。对领域内外数据集进行的大量实验证实了IOPO的有效性,相较于SFT和DPO,分别在领域内数据上提高了8.15%和2.18%,在领域外数据上提高了6.29%和3.13%。
自回归建模在自然语言处理(NLP)领域取得了巨大成功。最近,自回归模型已经成为计算机视觉中一个重要的研究领域,它在生成高质量视觉内容方面表现出色。NLP中的自回归模型通常操作于子词标记。然而,在计算机视觉中,表示策略可以在不同层次上变化,即像素级、标记级或尺度级,反映了视觉数据的多样性和分层性质,与语言的序列结构相比。本调查全面审视了应用于视觉的自回归模型文献。为了提高来自不同研究背景的研究人员的可读性,我们从视觉中的序列表示和建模开始。接下来,我们将视觉自回归模型的基本框架分为三个一般子类别,包括基于像素、基于标记和基于尺度的模型,根据表示策略。然后,我们探讨自回归模型与其他生成模型之间的相互关系。此外,我们提出了计算机视觉中自回归模型的多方面分类,包括图像生成、视频生成、3D生成和多模态生成。我们还详细阐述了它们在各种领域中的应用,包括新兴领域,如具身人工智能和3D医疗人工智能,涉及约250个相关参考文献。最后,我们强调了视觉中自回归模型面临的当前挑战,并提出了潜在的研究方向建议。我们还建立了一个Github存储库,以整理本调查中包含的论文:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey。
本文研究了大型语言模型(LLMs)在战略决策背景下的合理性,特别是在博弈论框架内。我们评估了几种最先进的LLMs在完全信息和不完全信息博弈的一系列情境中的表现。我们的研究发现,LLMs经常偏离理性策略,特别是在游戏复杂度随着更大的收益矩阵或更深的顺序树而增加时。 为了解决这些局限性,我们设计了多个博弈论工作流程,指导LLMs的推理和决策过程。这些工作流程旨在增强模型计算纳什均衡和做出理性选择的能力,即使在不确定性和不完全信息的情况下也能如此。实验结果表明,采用这些工作流程显著改善了LLMs在博弈任务中的理性和鲁棒性。具体而言,通过工作流程,LLMs在确定最佳策略、在谈判场景中实现接近最佳分配以及减少在谈判过程中易受剥削方面表现出明显改进。此外,我们探讨了关于是否对代理采用这些工作流程是理性的元战略考虑,认识到使用或放弃工作流程的决定本身构成一个博弈论问题。 我们的研究深入探讨了LLMs在战略背景下的决策能力,并提供了通过结构化工作流程增强它们理性的见解。这些发现对于开发更加强大和战略上可靠的人工智能代理,能够在复杂互动环境中进行导航具有重要意义。支持本研究的代码和数据可在https://github.com/Wenyueh/game_theory找到。
理解和操纵语言模型中的因果生成机制对于控制其行为至关重要。先前的研究主要依赖于诸如表示手术之类的技术,例如模型消融或与特定概念相关的线性子空间的操纵,以干预这些模型。为了准确理解干预的影响,检查反事实是有用的,例如,如果一个给定的句子是通过在特定干预后由模型生成的,它会呈现什么样子。我们强调,反事实推理在概念上与干预是有区别的,正如Pearl的因果层次所阐述的。基于这一观察,我们提出了一个框架,将语言模型重新构建为广义结构方程模型,使用Gumbel-max技巧。这使我们能够对原始字符串和由相同采样噪声实例产生的反事实之间的联合分布进行建模。我们开发了一种基于事后Gumbel采样的算法,使我们能够推断潜在的噪声变量并生成观察到的字符串的反事实。我们的实验表明,这种方法产生了有意义的反事实,同时显示出常用的干预技术具有相当大的不良副作用。
人类动作生成是生成式计算机视觉研究的前沿领域,具有在视频创作、游戏开发和机器人操作等方面的应用前景。最近的曼巴架构在高效建模长且复杂序列方面表现出有希望的结果,但仍存在两个重要挑战:首先,直接将曼巴应用于扩展动作生成是无效的,因为隐式记忆的有限容量导致记忆衰减。其次,与变压器相比,曼巴在多模态融合方面存在困难,并且缺乏与文本查询的对齐,经常混淆方向(左或右)或省略较长文本查询的部分。为了解决这些挑战,本文提出了三个关键贡献:首先,我们引入了KMM,这是一种新颖的架构,具有关键帧遮罩建模,旨在增强曼巴对动作片段中关键动作的关注。这种方法解决了记忆衰减问题,并代表了在SSM中定制战略帧级遮罩的开创性方法。此外,我们设计了一种对比学习范式,以解决曼巴中的多模态融合问题,并改善动作-文本对齐。最后,我们在常用数据集BABEL上进行了大量实验,实现了与先前最先进方法相比,FID减少超过57%,参数减少70%的最新性能。请查看项目网站:https://steve-zeyu-zhang.github.io/KMM
安全微调算法通常用于微调语言模型以减少有害输出,但这些模型实现这一目标的确切内部机制仍不清楚。在研究直接偏好优化(DPO)用于减少毒性时,目前的解释声称DPO通过减弱最有毒的MLP神经元来学习一个偏移量,以避免毒性区域在剩余流中。然而,通过去除最有毒的神经元并应用激活修补,我们发现这一解释并不完整。通过将神经元激活变化投影到毒性探测器上,我们发现仅有31.8\%的毒性减少来自减弱的有毒神经元。相反,DPO通过在多个神经元组中累积效应来减少毒性,既减少了沿着有毒方向的写作,又促进了剩余流中的抗毒性。此外,DPO对神经元激活进行了嘈杂的调整,许多神经元实际上增加了毒性。这表明DPO是在对立神经元效应之间进行平衡以实现毒性减少的过程。
大型语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著成功,并在蛋白质序列生成等其他领域展现出了有希望的结果。然而,用于NLP的LLMs与蛋白质语言模型之间仍存在显著差异。NLP中的LLMs能够有效处理多个任务,并且有小尺寸版本可用,而蛋白质语言模型通常专门针对特定任务,并且只存在较大尺寸版本。在本研究中,我们介绍了两个基于Llama-3-8B和Phi-3-mini的小型蛋白质语言模型,能够进行无控制和可控制的蛋白质生成。对于无控制生成任务,我们的最佳模型实现了平均pLDDT得分为69.75,表明在生成可行蛋白质结构方面表现出了稳健性。对于可控制生成任务,模型根据提示中指定的属性生成蛋白质,在这方面,我们实现了显著的平均TM-Score为0.84,表明与目标蛋白质具有高结构相似性。我们选择了10个属性,包括六类酶,以扩展先前蛋白质语言模型的能力。我们的方法利用了低秩适配器(LoRA)技术,将可训练参数减少到原始模型尺寸的仅4%,降低了计算需求。通过使用UniRef50数据集的子集和小型模型,我们将整体训练时间减少了70%,而不影响性能。值得注意的是,Phi-3-mini将可训练参数减少了60%,将训练成本降低了30%,与Llama 3相比,Phi-3实现了可比的TM-Score为0.81,表明较小的模型可以匹配较大的模型性能。我们还展示了将我们的模型部署在能效高的ET-SoC-1芯片上,将TPS/W显著提高了3倍。
构建一个通用的后识别错误校正器提出了一个关键问题:如何能够在大量领域数据集的混合中最有效地训练模型?答案在于学习数据集特定的特征,并将它们的知识融合到单个模型中。先前的方法通过拥有单独的校正语言模型来实现这一点,导致参数显著增加。在这项工作中,我们提出了专家混合模型作为解决方案,强调MoE远不止是一个可扩展性工具。我们提出了一种多任务校正MoE,通过训练专家成为语音到文本、语言到文本和视觉到文本数据集的“专家”,学会将每个数据集的标记路由到其映射的专家。在Open ASR排行榜上的实验表明,我们通过实现平均相对5.0%的WER降低和语音和翻译任务的BLEU分数显著提高,探索了一个新的最先进性能。在零-shot评估中,NeKo在Hyporadise基准测试中相对WER降低15.5%至27.6%,超过了GPT-3.5和Claude-Opus。NeKo作为一个多任务模型在语法和后OCR校正方面表现出竞争力。