每日精选AI研究论文及翻译
本文介绍了UCFE:用户中心金融专业基准,这是一个创新框架,旨在评估大型语言模型(LLMs)处理复杂现实世界金融任务的能力。UCFE基准采用混合方法,将人类专家评估与动态、任务特定的交互相结合,以模拟不断发展的金融情景的复杂性。首先,我们进行了涉及804名参与者的用户研究,收集了他们对金融任务的反馈。其次,基于这些反馈,我们创建了涵盖广泛用户意图和交互的数据集。该数据集为使用LLM作为评判者方法对12个LLM服务进行基准测试奠定了基础。我们的结果显示,基准分数与人类偏好之间存在显著一致性,皮尔逊相关系数为0.78,证实了UCFE数据集和我们的评估方法的有效性。UCFE基准不仅揭示了LLMs在金融领域的潜力,还为评估它们的表现和用户满意度提供了一个强大的框架。基准数据集和评估代码可供使用。
近来,大型语言模型(LLMs)在构建自主代理方面引起了广泛关注。然而,目前基于LLM的网络代理在长期任务中的表现远非最佳,经常出现诸如重复购买不可退票的飞机票等错误。相比之下,人类能够避免这种不可逆转的错误,因为我们意识到我们的行为可能带来的结果(例如,损失金钱),这也被称为“世界模型”。受此启发,我们的研究首先进行了初步分析,确认了当前LLMs(例如GPT-4o、Claude-3.5-Sonnet等)中缺乏世界模型。然后,我们提出了一种增强世界模型(WMA)的网络代理,通过模拟其行为的结果来实现更好的决策制定。为了克服将LLMs训练为预测下一观察结果的世界模型所面临的挑战,例如观察结果中的重复元素和长HTML输入,我们提出了一种以转换为重点的观察抽象,其中预测目标是自由形式的自然语言描述,专门突出了时间步之间的重要状态差异。在WebArena和Mind2Web上的实验表明,我们的世界模型改善了代理的策略选择而无需训练,并展示了我们的代理相比最近基于树搜索的代理在成本和时间效率上的优势。
视觉语言模型(VLMs)在最近的视觉问题回答(VQA)基准中取得了显著进展,评估了复杂的视觉-语言推理。然而,这些模型是否真正有效呢?在这项研究中,我们展示了VLMs在处理人类可以轻松回答的自然图像和问题时仍然存在困难,我们将其称为自然对抗样本。我们还发现使用像CLIP和ChatGPT这样的现成模型非常容易生成这些VQA样本,这些样本来自自然图像-文本语料库。我们提出了一种半自动化方法来收集一个新的基准,NaturalBench,用于可靠地评估VLMs,其中包括10,000个经过人工验证的VQA样本。至关重要的是,我们采用了以视觉为中心的设计,将每个问题与两幅产生不同答案的图像配对,防止盲目解决方案在不使用图像的情况下回答。这使得NaturalBench比以往可以通过常识先验解决的基准更具挑战性。我们在NaturalBench上评估了53种最先进的VLMs,结果显示像LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL甚至GPT-4o这样的模型在性能上落后于人类(超过90%),差距在50%-70%之间。我们从两个角度分析了为什么NaturalBench很难:(1)组合性:解决NaturalBench需要多样的视觉-语言技能,包括理解属性绑定、物体关系以及像逻辑和计数这样的高级推理。为此,与之前使用每个样本一个标签的方法不同,我们为每个NaturalBench样本打上1到8个技能标签,进行细粒度评估。(2)偏见:NaturalBench暴露了VLMs中的严重偏见,因为模型经常选择相同的答案,而不考虑图像。最后,我们将我们的基准策划方法应用于不同的数据来源,包括长标题(超过100个字)和中文、印地语等非英语语言,突显了其对VLMs进行动态评估的潜力。
最近文本到图像(T2I)扩散模型的进展使得可以从文本提示中创建高质量图像,但仍然难以精确控制特定视觉概念的生成。现有方法可以通过学习参考图像来复制给定概念,但缺乏对概念内个体组件进行精细定制的灵活性。本文介绍了组件可控个性化,这是一个新颖的任务,通过允许用户在个性化视觉概念时重新配置特定组件,推动了T2I模型的边界。这个任务特别具有挑战性,主要有两个障碍:语义污染,即不需要的视觉元素破坏了个性化概念,以及语义不平衡,导致概念和组件的学习不成比例。为了克服这些挑战,我们设计了MagicTailor,这是一个创新框架,利用动态遮罩退化(DM-Deg)动态扰动不需要的视觉语义,以及双流平衡(DS-Bal)建立了一个平衡的学习范式,用于所需的视觉语义。广泛的比较、消融和分析表明,MagicTailor不仅在这一具有挑战性的任务中表现出色,而且在实际应用中具有重要的潜力,为更加细致和创造性的图像生成铺平了道路。
关注是现代大型语言模型(LLMs)的基石。然而,其二次复杂度限制了LLMs的效率和可扩展性,特别是对于具有长上下文窗口的模型而言。解决这一限制的一种有前途的方法是利用关注中的稀疏性。然而,现有的基于稀疏性的解决方案主要依赖于预定义的模式或启发式方法来近似稀疏性。这种做法无法充分捕捉语言任务中关注稀疏性的动态特性。本文认为,应该学习而不是预定义关注稀疏性。为此,我们设计了SeerAttention,这是一种新的关注机制,通过一个可学习的门控机制来增强传统关注,自适应地选择关注图中的重要块,并将其余块视为稀疏。这种块级稀疏性有效地平衡了准确性和加速度。为了实现门控网络的高效学习,我们开发了一种定制的FlashAttention实现,以最小的开销提取关注图的块级真值。SeerAttention不仅适用于后训练,而且在长上下文微调中表现出色。我们的结果表明,在后训练阶段,SeerAttention明显优于最先进的基于静态或启发式的稀疏关注方法,同时更具通用性和灵活性,适应不同的上下文长度和稀疏比率。当应用于使用YaRN进行长上下文微调时,SeerAttention可以在32k上下文长度下实现显著的90%稀疏比率,几乎没有困惑度损失,比FlashAttention-2提供了5.67倍的加速度。
自然是无限分辨率的。在这个现实背景下,现有的扩散模型,如扩散Transformer,在处理超出其训练领域的图像分辨率时通常面临挑战。为了解决这一局限性,我们将图像概念化为具有动态尺寸的令牌序列,而不是传统方法将图像视为固定分辨率的网格。这种视角实现了一种灵活的训练策略,可以在训练和推断过程中无缝地适应各种长宽比,从而促进分辨率泛化并消除图像裁剪引入的偏差。基于此,我们提出了灵活视觉Transformer(FiT),这是一种专门设计用于生成具有无限制分辨率和长宽比的图像的Transformer架构。我们进一步升级了FiT为FiTv2,具有几个创新设计,包括查询-键向量归一化、AdaLN-LoRA模块、矫正流调度器和Logit-Normal采样器。通过精心调整的网络结构增强,FiTv2表现出FiT的2倍收敛速度。当结合先进的无训练外推技术时,FiTv2在分辨率外推和多样分辨率生成方面表现出卓越的适应性。此外,我们对FiTv2模型的可扩展性进行的探索显示,更大的模型表现出更好的计算效率。此外,我们引入了一种高分辨率生成的高效后训练策略,以适应预训练模型。全面的实验表明FiTv2在广泛分辨率范围内表现出卓越的性能。我们已经在https://github.com/whlzy/FiT发布了所有代码和模型,以促进对于任意分辨率图像生成的扩散Transformer模型的探索。
蛋白质是由其氨基酸序列定义的基本大分子,这些序列决定了它们的三维结构,进而决定了在所有生物体中的功能。因此,生成式蛋白建模需要采用一种多模态方法,同时对序列和结构进行建模、理解和生成。然而,现有方法通常使用各自的模型来处理每种模态,从而限制了它们捕捉序列和结构之间复杂关系的能力。这导致在需要联合理解和生成两种模态的任务中性能不佳。在本文中,我们介绍了DPLM-2,这是一种多模态蛋白基础模型,它将离散扩散蛋白语言模型(DPLM)扩展到适应序列和结构。为了让语言模型学习结构,我们使用基于量化的无查找标记化分词器将3D坐标转换为离散标记。通过在实验和高质量合成结构上进行训练,DPLM-2学习了序列和结构的联合分布,以及它们的边缘分布和条件分布。我们还实现了一种有效的预热策略,以利用大规模进化数据与预训练基于序列的蛋白语言模型的结构归纳偏好之间的联系。实证评估表明,DPLM-2能够同时生成高度兼容的氨基酸序列及其对应的3D结构,无需两阶段生成方法。此外,DPLM-2在各种条件生成任务中表现出竞争性能,包括折叠、逆向折叠和使用多模态基序进行支架搭建,同时为预测任务提供了结构感知表示。
GPT-4o是一个全面的模型,代表了大型多模态语言模型发展中的一个里程碑。它能够理解视觉、听觉和文本模态,直接输出音频,并支持灵活的双工交互。开源社区的模型通常可以实现GPT-4o的一些功能,比如视觉理解和语音聊天。然而,由于多模态数据的复杂性、复杂的模型架构和训练过程,训练一个融合所有模态的统一模型是具有挑战性的。在本文中,我们介绍了Mini-Omni2,这是一个视听助手,能够实时提供端到端的语音响应以回答视觉和音频查询。通过集成预训练的视觉和听觉编码器,Mini-Omni2在各个模态中保持性能。我们提出了一个三阶段的训练过程来对齐模态,使语言模型能够在有限数据集上训练后处理多模态输入和输出。为了实现交互,我们引入了基于命令的中断机制,可以让用户更灵活地进行交互。据我们所知,Mini-Omni2是对GPT-4o最接近的复制品之一,具有类似的功能形式,我们希望它能为后续研究提供有价值的见解。
我们介绍了混合自回归Transformer(HART),这是一种自回归(AR)视觉生成模型,能够直接生成1024x1024像素的图像,与扩散模型在图像生成质量上相媲美。现有的AR模型面临限制,因为它们的离散标记器在图像重建质量上表现不佳,并且生成1024像素图像的训练成本高昂。为了解决这些挑战,我们提出了混合标记器,将自动编码器中的连续潜变量分解为两个部分:表示整体图像的离散标记和表示离散标记无法表示的残差部分的连续标记。离散部分由可扩展分辨率的离散AR模型建模,而连续部分则通过仅具有3700万参数的轻量级残差扩散模块进行学习。与仅离散VAR标记器相比,我们的混合方法将MJHQ-30K上的重建FID从2.11提高到0.30,导致生成FID从7.85提高到5.38,改善了31%。HART在FID和CLIP分数上均优于最先进的扩散模型,具有4.5-7.7倍的更高吞吐量和6.9-13.4倍的更低MACs。我们的代码在https://github.com/mit-han-lab/hart上开源。
在实践中,低质量或稀缺数据给深度神经网络的训练带来了重大挑战。虽然经典数据增强无法提供非常不同的新数据,扩散模型为通过文本引导提示生成高质量和多样化的合成数据打开了一扇新的大门,从而构建了自我演进的人工智能。然而,仅凭文本指导无法控制合成图像与原始图像的接近程度,导致对模型性能有害的超出分布数据。为了克服这一限制,我们研究了图像指导,以实现合成图像和真实图像之间的一系列插值。通过更强的图像指导,生成的图像与训练数据相似但难以学习。而通过较弱的图像指导,合成图像对模型更容易,但会导致与原始数据之间更大的分布差距。生成的完整数据范围使我们能够构建一种新颖的“扩散课程(DisCL)”。DisCL调整了每个训练阶段的图像合成的图像指导水平:它识别并专注于模型的困难样本,并评估合成图像的最有效指导水平,以改善困难数据的学习。我们将DisCL应用于两项具有挑战性的任务:长尾(LT)分类和从低质量数据中学习。它专注于高质量的低指导图像,以学习原型特征,作为学习可能在多样性或质量上较弱的高指导图像的热身。大量实验证明,将DisCL应用于iWildCam数据集时,OOD和ID宏准确率分别提高了2.7%和2.1%。在ImageNet-LT上,DisCL将基础模型的尾部类别准确率从4.4%提高到23.64%,并使所有类别准确率提高了4.02%。
自回归大型语言模型(LLMs)的快速发展显著提高了生成文本的质量,这需要可靠的机器生成文本检测器。大量带有人工智能片段的检测器和数据集已经出现,根据这些数据集中的目标指标,一些检测方法甚至展现出高达99.9%的识别质量。然而,这类检测器的质量在实际应用中往往急剧下降,引发一个问题:这些检测器实际上是否非常可信,还是它们的高基准分数来自于评估数据集的质量较差?本文强调了对生成数据进行稳健和定性评估方法的需求,以抵御未来模型的偏见和低泛化能力。我们对专门用于检测人工智能生成内容的竞赛数据集进行了系统性审查,并提出了评估包含人工智能生成片段的数据集质量的方法。此外,我们讨论了利用高质量生成数据实现两个目标的可能性:改善检测模型的训练以及改善训练数据集本身。我们的贡献旨在促进更好地理解人类和机器文本之间的动态关系,从而最终支持在日益自动化的世界中信息的完整性。
头部生成旨在从单个肖像和语音音频剪辑中生成生动逼真的说话头部视频。尽管扩散式头部生成取得了显著进展,但几乎所有方法都依赖自回归策略,这些策略存在于当前生成步骤之外有限的上下文利用、误差累积和较慢的生成速度。为了解决这些挑战,我们提出了DAWN(具有非自回归扩散的动态帧头像),这是一个框架,可以实现动态长度视频序列的一次生成。具体而言,它包括两个主要组件:(1)在潜在运动空间中生成由音频驱动的整体面部动态,以及(2)由音频驱动的头部姿势和眨眼生成。大量实验证明,我们的方法生成具有精确嘴唇运动和自然姿势/眨眼动作的真实生动视频。此外,DAWN具有较高的生成速度,并具有强大的外推能力,确保稳定生成高质量的长视频。这些结果突显了DAWN在说话头部视频生成领域的巨大潜力和潜在影响。此外,我们希望DAWN能激发对扩散模型中非自回归方法的进一步探索。我们的代码将在 https://github.com/Hanbo-Cheng/DAWN-pytorch 上公开。
我们介绍了一种新颖的条件图像生成模型BiGR,该模型使用紧凑的二进制潜在代码进行生成式训练,旨在增强生成和表示能力。BiGR是第一个将生成和判别统一在同一框架内的条件生成模型。BiGR具有二进制标记器、掩码建模机制和用于二进制代码预测的二进制转码器。此外,我们引入了一种新颖的熵排序抽样方法,以实现高效的图像生成。大量实验证实了BiGR在生成质量(以FID-50k衡量)和表示能力(通过线性探测准确度证明)方面的卓越表现。此外,BiGR展示了在各种视觉任务中的零样本泛化能力,实现了图像修补、外延、编辑、插值和丰富化等应用,无需进行结构修改。我们的研究结果表明,BiGR有效地统一了生成和判别任务,为该领域的进一步发展铺平了道路。
人类通过观察外部世界以及内省来获取知识。内省使一个人能够特权地了解自己当前的心理状态(例如思维和情感),这是外部观察者无法获取的。语言模型是否具有内省能力?我们将内省定义为获取不包含在或源自训练数据中的知识,而是源自内部状态。这种能力可以增强模型的可解释性。我们可以简单地询问模型关于其信念、世界模型和目标,而不是费力地分析模型的内部运作。更具推测性的是,一个具有内省能力的模型可能会自我报告是否具有某些内部状态,如主观感受或欲望,这可以告诉我们这些状态的道德地位。这些自我报告不会完全受模型的训练数据支配。 我们通过微调大型语言模型(LLMs)来研究内省,以预测其在假设情景中的行为特性。例如,“给定输入P,你的输出更倾向于短期还是长期选项?”如果模型M1具有内省能力,它应该在预测自己的行为方面胜过另一个模型M2,即使M2是在M1的真实行为上进行训练的。这个想法是,M1能够特权地了解自己的行为倾向,从而使其比M2更好地预测自己(即使M2通常更强大)。 在对GPT-4、GPT-4o和Llama-3模型进行实验(每个模型都被微调以预测自身)后,我们发现模型M1在预测自己方面胜过M2,为内省提供了证据。值得注意的是,即使我们有意修改其真实行为,M1仍然能够准确预测其行为。然而,尽管我们成功地引发了在简单任务上的内省,但在更复杂的任务或需要超出分布范围的泛化的任务上,我们并未取得成功。
我们介绍Shakti,这是一个专门针对资源受限环境(如边缘设备,包括智能手机、可穿戴设备和物联网系统)进行优化的25亿参数语言模型。Shakti将高性能自然语言处理与优化的效率和精度相结合,使其非常适用于计算资源和内存有限的实时人工智能应用。Shakti支持方言语言和领域特定任务,在医疗保健、金融和客户服务等行业表现出色。基准评估表明,Shakti在维持低延迟和设备效率的同时,与更大的模型竞争力强,使其成为边缘人工智能领域的领先解决方案。
并非所有可学习参数(例如权重)对神经网络的决策函数贡献相同。事实上,有时整个层的参数被重置为随机值对模型的决策几乎没有影响。我们重新审视早期研究,探讨架构和任务复杂性如何影响这一现象,并提出问题:这一现象是否也受我们训练模型的方式影响?我们对多个ImageNet-1k分类模型进行实验评估,探讨这一问题,保持架构和训练数据恒定,但变化训练流程。我们的研究结果显示,训练方法强烈影响哪些层对给定任务的决策函数至关重要。例如,改进的训练方案和自监督训练增加了早期层的重要性,同时显著地未充分利用更深层。相反,对抗训练等方法显示出相反的趋势。我们的初步结果扩展了先前的发现,提供了对神经网络内部机制更加细致的理解。 代码:https://github.com/paulgavrikov/layer_criticality
中国是否通过华人侨民媒体干预欧洲选举?这个问题是一个正在进行的研究项目的基础,该项目探讨了中国对欧洲选举的叙事在华人侨民媒体中的呈现,以及中国新闻媒体操纵的目标。为了高效且规模化地研究侨民媒体,有必要使用源自定量文本分析的技术,比如主题建模。在本文中,我们提出了一个用于研究中国媒体信息动态的流程。首先,我们介绍了KeyNMF,这是一种使用基于转换器的上下文嵌入模型进行静态和动态主题建模的新方法。我们提供了基准评估,以证明我们的方法在多个中国数据集和指标上具有竞争力。其次,我们将KeyNMF与现有方法整合,用于描述复杂系统中的信息动态。我们将这一流程应用于来自五家新闻网站的数据,重点关注2024年欧洲议会选举前的时间段。我们的方法和结果展示了KeyNMF在研究中国媒体信息动态方面的有效性,并为进一步解决更广泛的研究问题奠定了基础。
从人类反馈中进行强化学习(RLHF)已成为语言模型(LM)对齐的主要方法。在其核心,RLHF 使用基于边际的损失进行偏好优化,仅通过首选和次选响应之间的差异来指定理想的 LM 行为。在本文中,我们确定了基于边际方法的一个常见陷阱 -- 对首选和次选响应的理想 LM 行为的不充分规定,这会导致两个意外后果随着边际的增加而出现:(1)次选(例如,不安全)响应的概率可能增加,导致潜在的安全对齐失败。 (2)即使那些响应是理想的,首选响应的概率也可能降低。我们揭示了这些问题行为背后的原因:基于边际的损失将首选概率的变化与次选概率的梯度耦合在一起,反之亦然,通常会阻止首选概率增加,而次选概率降低,从而导致两个概率同时增加或减少。我们将这种在基于边际目标中固有的效应称为梯度缠结。在形式上,我们推导了一般基于边际对齐目标的条件,其中梯度缠结变得令人担忧:首选和次选对数概率的梯度的内积相对于各自梯度范数较大。我们从理论上探讨了在对齐语言模型时为什么这样的内积可能很大,并从经验上验证了我们的发现。我们框架的经验影响延伸到解释各种偏好优化算法的训练动态中的重要差异,并建议潜在的算法设计以减轻基于边际方法的不充分规定问题,从而改善语言模型对齐。
大型语言模型(LLMs)容易受到说服,当模型面对对抗性对话者时可能会带来风险。我们迈出了保护模型免受说服影响的第一步,同时主张对抗负面说服只是问题的一半:模型还应该能够接受有益的(即正面的)说服以改进其答案。我们展示了仅优化模型一侧会导致在另一侧表现不佳。为了平衡正面和负面说服,我们引入了平衡说服训练(Persuasion-Balanced Training,PBT),利用多智能体递归对话树创建数据,并通过偏好优化训练模型在适当时接受说服。PBT不断提高对错误信息的抵抗力和对挑战的弹性,同时在包含正面和负面说服的整体数据上表现最佳。至关重要的是,我们展示了PBT模型在多智能体辩论中是更好的队友。我们发现,没有PBT,强弱模型对的性能不稳定,模型呈现答案的顺序决定了团队获得强模型还是弱模型的性能。PBT导致更好和更稳定的结果,减少了顺序依赖性,强模型始终稳定地提升弱模型。
合成数据被广泛用于训练大型语言模型,但其生成性质不可避免地引入了嘈杂、非信息性和误导性的学习信号。本文提出了蒙特梭利教导(Montessori-Instruct), 一种新颖的数据合成框架,该框架调整了教师语言模型的数据合成能力,以适应学生语言模型的学习过程。具体而言,我们利用合成训练数据点对学生的本地数据影响来表征学生的学习偏好。然后,我们使用直接偏好优化(DPO)来训练教师模型,生成符合学生学习偏好的合成数据。在Alpaca Eval和MT-Bench上使用Llama3-8B-Instruct(教师)和Llama3-8B(学生)进行实验表明,蒙特梭利教导相对于标准合成方法分别提高了18.35%和46.24%。我们的方法还击败了由更强大的教师模型GPT-4o合成的数据。进一步分析证实了教师学习的好处,即生成更具影响力的训练数据,有助于学生的改善学习,以及本地数据影响在准确衡量学生偏好方面的优势,以及蒙特梭利教导在不同学生模型中的稳健性。我们的代码和数据在 https://github.com/cxcscmu/Montessori-Instruct 上开源。