每日精选AI研究论文及翻译
信息以多种形式呈现。多模态本地人工智能模型对于整合现实世界信息并提供全面理解至关重要。虽然存在专有的多模态本地模型,但它们缺乏开放性,这给采用乃至适应带来了障碍。为填补这一空白,我们介绍了 Aria,一种开放的多模态本地模型,在各种多模态、语言和编码任务中表现出色。Aria 是一种专家混合模型,每个视觉令牌和文本令牌分别具有 39 亿和 35 亿激活参数。它的性能优于 Pixtral-12B 和 Llama3.2-11B,并在各种多模态任务上与最佳专有模型竞争。我们从头开始预训练 Aria,采用 4 阶段流水线,逐步赋予模型在语言理解、多模态理解、长上下文窗口和遵循指令等方面强大能力。我们开源模型权重,并提供一个代码库,便于在现实应用中轻松采用和适应 Aria。
大型语言模型(LLMs)在经济和战略互动中展现出显著潜力,其中通过自然语言进行沟通往往很普遍。这引发了一些关键问题:LLMs是否表现理性?它们能够模仿人类行为吗?它们是否倾向于达到有效和公平的结果?自然语言在战略互动中的作用是什么?经济环境的特征如何影响这些动态?这些问题在将基于LLM的代理程序整合到现实世界的数据驱动系统(如在线零售平台和推荐系统)的经济和社会影响方面变得至关重要。虽然机器学习社区一直在探索LLMs在这种多代理设置中的潜力,但研究中不同的假设、设计选择和评估标准使得很难得出稳健且有意义的结论。为了解决这个问题,我们引入了一个基准,用于规范研究双人、顺序、基于语言的游戏。受经济文献启发,我们定义了三类具有一致参数化、自由度和经济度量的基础游戏家族,以评估代理程序的性能(自身收益)以及游戏结果(效率和公平性)。我们开发了一个开源框架用于交互模拟和分析,并利用它收集了一个LLM与LLM在多种游戏配置下的交互数据集,以及一个人类与LLM交互的额外数据集。通过广泛实验,我们展示了我们的框架和数据集如何用于:(i)比较LLM代理程序在不同经济背景下与人类玩家的行为;(ii)评估代理程序在个体和集体绩效指标上的表现;以及(iii)量化环境的经济特征对代理程序行为的影响。
最近在多模态大型语言模型(MLLMs)方面取得了显著进展;然而,这些模型存在一个显著的限制,我们称之为“面孔失认”。具体来说,它们可以参与一般性对话,但无法进行针对特定个体的个性化对话。这一缺陷阻碍了在个性化环境中应用MLLMs,比如在移动设备上定制的视觉助手,或者需要识别家庭成员的家用机器人。在本文中,我们介绍了个性化视觉指导调整(PVIT),这是一个新颖的数据整理和训练框架,旨在使MLLMs能够识别图像中的目标个体,并进行个性化和连贯的对话。我们的方法涉及开发一个复杂的流程,自动生成包含个性化对话的训练数据。这个流程利用各种视觉专家、图像生成模型和(多模态)大型语言模型的能力。为了评估MLLMs的个性化潜力,我们提出了一个名为P-Bench的基准,其中包含不同难度级别的各种问题类型。实验表明,在使用我们策划的数据集进行微调后,个性化性能得到了显著提升。
我们介绍了Pixtral-12B,一个拥有120亿参数的多模态语言模型。Pixtral-12B经过训练,能够理解自然图像和文档,在各种多模态基准测试中取得领先表现,超过许多更大的模型。与许多开源模型不同,Pixtral也是一款尺寸上的尖端文本模型,并且在多模态任务中表现出色并不会牺牲自然语言性能。Pixtral使用了一个从头开始训练的新视觉编码器,使其能够以自然分辨率和宽高比处理图像。这使用户可以灵活地选择处理图像所需的令牌数量。Pixtral还能够在其长上下文窗口(128K令牌)中处理任意数量的图像。Pixtral 12B在性能上远远超过了其他尺寸相似的开源模型(如Llama-3.2 11B和Qwen-2-VL 7B)。它还在性能上超越了尺寸大得多的开源模型,如Llama-3.2 90B,同时体积却小了7倍。我们进一步贡献了一个开源基准测试,MM-MT-Bench,用于评估视觉-语言模型在实际场景中的表现,并提供了详细的分析和用于多模态LLM的标准化评估协议的代码。Pixtral-12B采用Apache 2.0许可发布。
本文介绍了F5-TTS,这是一种基于扩散变压器(DiT)的完全非自回归文本转语音系统。无需复杂的设计,如持续时间模型、文本编码器和音素对齐,文本输入只需用填充标记填充到与输入语音相同的长度,然后进行去噪以进行语音生成,这一方法最初由E2 TTS证明是可行的。然而,E2 TTS的原始设计由于收敛速度慢和鲁棒性低而难以跟进。为解决这些问题,我们首先使用ConvNeXt对输入进行建模以优化文本表示,使其易于与语音对齐。我们进一步提出了一种推断时的Sway Sampling策略,显著提高了我们模型的性能和效率。这种用于流步骤的采样策略可以轻松应用于现有基于流匹配的模型而无需重新训练。我们的设计实现了更快的训练,并实现了0.15的推断实时因子(RTF),与最先进的基于扩散的TTS模型相比有了很大的改进。在公共的100K小时多语种数据集上训练,我们的Fairytaler Fakes Fluent and Faithful speech with Flow matching(F5-TTS)展现出高度自然和富有表现力的零翻译能力、无缝的代码切换能力和速度控制效率。演示样本可在https://SWivid.github.io/F5-TTS找到。我们发布所有代码和检查点以促进社区发展。
像Sora这样的文本到视频(T2V)模型在可视化复杂提示方面取得了重大进展,这被越来越多地视为通向构建通用世界模拟器的有前途的途径。认知心理学家认为,实现这一目标的基础是理解直觉物理。然而,这些模型准确表示直觉物理的能力仍然大部分未被探索。为了弥合这一差距,我们引入了PhyGenBench,一个旨在评估T2V生成中物理常识正确性的综合物理生成基准。PhyGenBench包括160个精心设计的提示,涵盖27个不同的物理定律,涵盖四个基本领域,可以全面评估模型对物理常识的理解。除了PhyGenBench,我们提出了一个名为PhyGenEval的新颖评估框架。该框架采用分层评估结构,利用适当的先进视觉-语言模型和大型语言模型来评估物理常识。通过PhyGenBench和PhyGenEval,我们可以进行大规模的自动评估,评估T2V模型对物理常识的理解,这与人类反馈密切相关。我们的评估结果和深入分析表明,当前模型难以生成符合物理常识的视频。此外,仅仅扩大模型规模或使用提示工程技术是不足以完全解决PhyGenBench(例如,动态场景)提出的挑战的。我们希望这项研究能激励社区将物理常识的学习置于这些模型的重要位置,超越娱乐应用。我们将在https://github.com/OpenGVLab/PhyGenBench发布数据和代码。
先进的扩散模型,如RPG、稳定扩散3和FLUX,在组合文本到图像生成方面取得了显著进展。然而,这些方法通常在组合生成方面表现出不同的优势,有些擅长处理属性绑定,而另一些擅长处理空间关系。这种差异突显了需要一种方法,能够利用各种模型的互补优势,全面提高组合能力。为此,我们引入了IterComp,这是一个新颖的框架,它汇集了来自多个模型的具有组合意识的模型偏好,并采用迭代反馈学习方法来增强组合生成。具体而言,我们策划了一个包含六个强大的开源扩散模型的画廊,并评估它们的三个关键组合度量:属性绑定、空间关系和非空间关系。基于这些度量,我们开发了一个包含大量图像-排名对的具有组合意识的模型偏好数据集,用于训练组合意识奖励模型。然后,我们提出了一种迭代反馈学习方法,以闭环方式增强组合性,实现基于多次迭代的基础扩散模型和奖励模型的逐步自我完善。理论证明了其有效性,广泛实验显示了我们在以往最先进方法(如Omost和FLUX)方面的显著优势,特别是在多类别对象组合和复杂语义对齐方面。IterComp为扩散模型和组合生成中的奖励反馈学习开辟了新的研究途径。代码:https://github.com/YangLing0818/IterComp
视频生成需要对广阔的时空空间进行建模,这需要大量的计算资源和数据使用。为了降低复杂性,目前的方法采用级联架构,避免直接使用完整分辨率进行训练。尽管降低了计算需求,但每个子阶段的单独优化阻碍了知识共享并牺牲了灵活性。本文介绍了一种统一的金字塔流匹配算法。它重新解释了原始去噪轨迹为一系列金字塔阶段,其中只有最终阶段在完整分辨率下运行,从而实现更高效的视频生成建模。通过我们精心设计,不同金字塔阶段的流可以相互关联以保持连续性。此外,我们通过使用时间金字塔来压缩完整分辨率历史,实现了自回归视频生成。整个框架可以以端到端的方式进行优化,并使用单一统一的扩散Transformer(DiT)。大量实验证明,我们的方法支持在20.7k A100 GPU训练小时内生成768p分辨率、24 FPS的高质量5秒(最多10秒)视频。所有代码和模型将在https://pyramid-flow.github.io 开源。
我们提出了模态集成率(MIR),这是一个有效、稳健且通用的度量标准,用于指示大规模视觉语言模型(LVLMs)的多模态预训练质量。大规模预训练在构建功能强大的LVLMs中起着关键作用,然而在没有昂贵的监督微调阶段的情况下评估其训练质量尚未得到充分探讨。Loss、困惑度和上下文评估结果通常用于大型语言模型(LLMs)的预训练度量标准,但我们观察到当将训练良好的LLM与新的模态对齐时,这些度量标准的指示性较低。由于缺乏适当的度量标准,LVLMs在关键的预训练阶段的研究受到极大阻碍,包括训练数据选择、高效模块设计等。在本文中,我们提出从跨模态分布距离的角度评估预训练质量,并提出模态集成率MIR,该指标具有以下特点:1)有效地表示预训练质量,并与监督微调后的基准性能呈正相关。2)对不同的训练/评估数据具有稳健性。3)在不同训练配置和架构选择中具有泛化性。我们进行了一系列预训练实验,探索了MIR的有效性,并观察到令人满意的结果,表明MIR对于训练数据选择、训练策略安排和模型架构设计以获得更好的预训练结果具有指示意义。我们希望MIR可以成为构建功能强大的LVLMs的有用度量标准,并激发关于不同领域中模态对齐的后续研究。我们的代码位于:https://github.com/shikiw/Modality-Integration-Rate。
在这份技术报告中,我们介绍了Falcon Mamba 7B,这是基于新颖的Mamba架构的一种新型大型语言模型。Falcon Mamba 7B是在精心挑选的数据混合物上训练的,共有5800亿个标记。作为一种纯Mamba架构的模型,Falcon Mamba 7B超越了基于Transformer的领先开放权重模型,如Mistral 7B、Llama3.1 8B和Falcon2 11B。它与Gemma 7B不相上下,并且胜过了具有不同架构设计的模型,比如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B。目前,根据Open LLM Leaderboard,Falcon Mamba 7B是文献中在这一规模上表现最佳的Mamba模型,超越了现有的Mamba和混合Mamba-Transformer模型。由于其架构,Falcon Mamba 7B在推理速度上显著更快,并且在长序列生成时需要的内存大大减少。尽管最近的研究表明混合Mamba-Transformer模型胜过纯架构设计,我们证明即使是纯Mamba设计也能够实现类似甚至更优越的结果,相较于Transformer和混合设计。我们公开了Falcon Mamba 7B实现的权重,可在https://huggingface.co/tiiuae/falcon-mamba-7b 上以宽松许可证获取。
本文探讨了视觉主干网络和优化器之间的相互作用,揭示了一种相互依赖的现象,称为\textbf{主干网络-优化器耦合偏差}(BOCB)。我们观察到经典的卷积神经网络,如VGG和ResNet,与SGD系列表现出明显的相互依赖关系,而最近的架构如ViTs和ConvNeXt与自适应学习率的优化器紧密耦合。我们进一步展示了BOCB可以由优化器和特定主干设计引入,可能会显著影响视觉模型的预训练和下游微调。通过深入的实证分析,我们总结了关于推荐优化器和强大视觉主干架构的见解。我们希望这项工作能激发社区对主干网络和优化器长期以来的假设进行质疑,促进进一步探索,从而为更强大的视觉系统做出贡献。源代码和模型可在https://bocb-ai.github.io/ 上公开获取。
本研究旨在全面探索构建用于自我中心视频理解的多模态基础模型。为实现这一目标,我们从三个方面着手。首先,由于自我中心视频理解的问答数据匮乏,我们开发了一个数据引擎,基于人工注释数据,高效生成了700万个高质量的自我中心视频问答样本,视频长度从30秒到一小时不等。这是目前规模最大的自我中心问答数据集。其次,我们贡献了一个具有挑战性的自我中心问答基准,包含629个视频和7,026个问题,用于评估模型在识别和记忆不同长度视频中的视觉细节方面的能力。我们引入了一种新的去偏差评估方法,以帮助减轻模型评估中存在的不可避免的语言偏差。第三,我们提出了一种专门的多模态架构,采用了一种新颖的“记忆指针提示”机制。该设计包括一个全局窥视步骤,以获得对整个视频的总体理解并识别关键视觉信息,然后是一个回退步骤,利用关键视觉信息生成响应。这使模型能够更有效地理解扩展视频内容。凭借数据、基准和模型,我们成功构建了MM-Ego,一种自我中心多模态LLM,在自我中心视频理解方面表现出强大的性能。
故事可视化是根据叙事生成连贯图像的任务,在文本到图像模型特别是扩散模型的出现下取得了显著进展。然而,在长篇故事可视化(即长达100帧)中,保持语义一致性、生成高质量细粒度交互以及确保计算可行性仍然具有挑战性。在这项工作中,我们提出了一个无需训练且计算高效的框架,称为Story-Adapter,以增强长篇故事的生成能力。具体而言,我们提出了一种迭代范式来完善每个生成的图像,利用文本提示和前一次迭代中的所有生成图像。我们框架的核心是一个无需训练的全局参考交叉注意力模块,它汇聚了前一次迭代中的所有生成图像,以保持整个故事的语义一致性,同时通过全局嵌入降低计算成本。这种迭代过程通过反复整合文本约束逐渐优化图像生成,从而实现更精确和细致的交互。大量实验证实了Story-Adapter在提高语义一致性和生成能力方面的优越性,特别是在长篇故事情景中的细粒度交互。项目页面和相关代码可通过https://jwmao1.github.io/storyadapter访问。
通过与人类偏好的对齐,大型语言模型(LLMs)在生成真实、无害和有帮助的回复方面取得了显著进展。然而,收集高质量的偏好数据是一项资源密集且需要创造力的过程,特别是为了持续改进LLMs。我们引入了SynPO,这是一种利用合成偏好数据进行模型对齐的自我增强范式。SynPO采用迭代机制,其中自我提示生成器创建多样化提示,而响应改进器逐步完善模型回复。这种方法训练LLMs自主学习其输出的生成奖励,消除了大规模注释提示和人类偏好的需求。经过四次SynPO迭代,Llama3-8B和Mistral-7B在AlpacaEval 2.0和ArenaHard上的指令遵循能力显著提升,获得超过22.1%的胜率提升。同时,SynPO提高了LLMs在各种任务上的整体性能,通过公认的Open LLM排行榜,平均得分提高了3.2到5.0分。
基础模型(FMs)是在大规模数据集上进行预训练,然后针对特定应用的下游任务进行微调。最成功和最常用的微调方法是通过低秩适应(LoRA)更新预训练权重。LoRA引入新的权重矩阵,通常以均匀秩分布随机初始化模型权重。最近的研究集中在权重驱动的初始化或学习自适应秩的训练过程中。这两种方法只被单独研究,导致收敛速度较慢或者产生均匀秩分布,从而导致次优性能。我们提出通过在激活向量的小批量上计算奇异值分解来以数据驱动的方式初始化新权重。然后,我们使用获得的右奇异向量初始化LoRA矩阵,并在所有权重矩阵之间重新分配秩,以解释最大数量的方差,并继续标准的LoRA微调过程。这导致我们的新方法解释方差适应(EVA)。我们将EVA应用于各种微调任务,从语言生成和理解到图像分类和强化学习。EVA比竞争对手表现出更快的收敛速度,并在每个领域的多项任务中获得最高平均分数。
本文关注在后期训练阶段通过从预训练的文本到视频(T2V)模型中提炼出一个高度可靠的一致性模型,以增强基于扩散的文本到视频模型。我们提出的方法,T2V-Turbo-v2,通过将各种监督信号(包括高质量训练数据、奖励模型反馈和条件指导)整合到一致性提炼过程中,引入了重大进展。通过全面的消融研究,我们强调了根据具体学习目标定制数据集的至关重要性,以及从不同奖励模型中学习以增强视觉质量和文本-视频对齐的有效性。此外,我们突出了条件指导策略的广泛设计空间,重点在于设计一个有效的能量函数来增强教师ODE求解器。我们通过从训练数据集中提取运动指导并将其纳入ODE求解器,展示了这种方法的潜力,表明它在改善生成视频的运动质量方面的有效性,从VBench和T2V-CompBench的改进运动相关指标中得到证明。从经验上看,我们的T2V-Turbo-v2在VBench上取得了新的最先进结果,总分为85.13,超过了专有系统如Gen-3和Kling。
大型语言模型已成功应用于编程辅助任务,如代码补全、代码插入和指导性代码编辑。然而,这些应用仍然不够自动化,并且在编程过程中有效整合各种类型的信息方面存在困难,包括编码历史、当前代码和用户指令。在这项工作中,我们提出了一个新的对话框架,全面整合这些信息源,收集数据来训练我们的模型并评估它们的性能。首先,为了全面评估模型与不同类型信息的对齐程度以及其输出质量,我们引入了一个新的基准,名为 APEval(辅助编程评估),以全面评估模型在编程辅助任务中的性能。然后,为了数据收集,我们开发了一个数据生成管道 Programming-Instruct,从各种来源(如 GitHub 和在线评判平台)综合合成训练数据。该管道可以自动生成编程过程中的各种类型消息。最后,利用这个管道,我们生成了 219K 个样本,微调多个模型,并开发了 CursorCore 系列。我们展示了 CursorCore 在性能上优于其他相同规模的模型。这个框架统一了内联聊天和自动化编辑等应用,有助于编程助手的进步。代码、模型和数据可在 https://github.com/TechxGenus/CursorCore 免费获取。
视频大型语言模型(Video LLMs)在视频理解方面表现出有希望的能力,但在跟踪时间变化和推理时间关系方面存在困难。先前的研究认为这一限制是由于视觉输入的时间编码不够有效,然而我们的诊断研究揭示了视频表示包含足够信息,即使是小型探测分类器也能实现完美准确度。令人惊讶的是,我们发现视频LLMs在时间推理能力上的关键瓶颈源自基础LLM对时间概念的固有困难,这一点在文本时间问答任务的表现不佳中得到证明。基于这一发现,我们引入了文本时间推理转移(T3)。T3从现有的图像-文本数据集中合成纯文本格式的多样化时间推理任务,解决了视频样本中复杂时间场景的稀缺性。值得注意的是,不使用任何视频数据,T3增强了LongVA-7B的时间理解能力,在具有挑战性的TempCompass基准测试中取得了5.3个绝对准确度的提升,使我们的模型能够胜过在28,000个视频样本上训练的ShareGPT4Video-8B。此外,增强的LongVA-7B模型在全面的视频基准测试中表现出竞争力。例如,在Video-MME的时间推理任务中取得了49.7的准确度,超过了InternVL-Chat-V1.5-20B和VILA1.5-40B等强大的大规模模型。进一步分析揭示了文本和视频时间任务表现之间的强相关性,验证了从文本到视频领域转移时间推理能力的有效性。
最近在大规模文本到视频(T2V)和图像到视频(I2V)扩散模型方面取得的进展极大地增强了视频生成,特别是在关键帧插值方面。然而,当前的图像到视频扩散模型虽然在从单个条件帧生成视频方面很强大,但需要针对两帧(起始和结束)条件生成进行调整,这对于有效的有界插值至关重要。不幸的是,现有的将时间正向和反向路径并行融合的方法经常出现离开流形的问题,导致伪影或需要多次迭代重新加噪。在这项工作中,我们引入了一种新颖的双向采样策略,以解决这些离开流形的问题,而无需进行大量重新加噪或微调。我们的方法沿着正向和反向路径进行顺序采样,分别以起始和结束帧为条件,确保更连贯和在流形上生成中间帧。此外,我们还结合了先进的引导技术CFG++和DDS,进一步增强插值过程。通过整合这些技术,我们的方法实现了最先进的性能,在关键帧之间高效生成高质量、流畅的视频。在单个3090 GPU上,我们的方法可以在仅195秒内以1024 x 576分辨率插值25帧,使其成为关键帧插值的领先解决方案。
尽管在定制文本到图像和视频生成模型方面取得了显著进展,但生成有效整合多个个性化概念的图像和视频仍然是一项具有挑战性的任务。为了解决这一问题,我们提出了 TweedieMix,一种在推断阶段组合定制扩散模型的新方法。通过分析逆扩散抽样的特性,我们的方法将抽样过程分为两个阶段。在初始步骤中,我们应用多对象感知抽样技术,以确保包含所需的目标对象。在后续步骤中,我们使用 Tweedie 的公式在去噪图像空间中混合自定义概念的外观。我们的结果表明,TweedieMix 可以比现有方法生成具有更高保真度的多个个性化概念。此外,我们的框架可以轻松扩展到图像到视频扩散模型,实现生成具有多个个性化概念的视频。结果和源代码位于我们的匿名项目页面上。
指导调优-使用指导-响应对进行监督微调-是将预训练的大型语言模型(LLMs)转变为有用且安全的聊天助手的基础步骤。我们的假设是,在预训练LLMs固有能力的基础上,建立一个足够的输出空间可以实现这种转变。为了验证这一点,我们提出了响应调优(RT),它消除了指导调优中的指导调节步骤,仅专注于响应空间的监督。我们的实验表明,仅使用响应训练的RT模型可以有效地回应各种指令,并表现出与其经过指导调优的对应物相当的帮助性。此外,我们观察到,控制训练响应分布可以显著改善它们的用户偏好或引发目标行为,如拒绝对不安全查询提供帮助。我们的发现阐明了在对齐中建立一个足够的输出空间的作用,突显了预训练LLMs广泛固有能力的潜力。
本文提出了AutoDAN-Turbo,这是一种黑盒越狱方法,可以自动发现尽可能多的越狱策略,无需任何人工干预或预定义范围(例如指定的候选策略),并将其用于红队行动。结果表明,AutoDAN-Turbo可以显著优于基线方法,在公共基准测试中实现了74.3%更高的平均攻击成功率。值得注意的是,AutoDAN-Turbo在GPT-4-1106-turbo上实现了88.5%的攻击成功率。此外,AutoDAN-Turbo是一个统一的框架,可以以即插即用的方式整合现有的人工设计的越狱策略。通过整合人工设计的策略,AutoDAN-Turbo甚至可以在GPT-4-1106-turbo上实现更高的攻击成功率,达到93.4%。
最近扩散模型的最新进展展示了在图像和视频生成方面的卓越能力,进一步提高了4D合成的效果。现有的4D生成方法可以基于用户友好的条件生成高质量的4D对象或场景,使得游戏和视频行业受益。然而,这些方法在合成复杂的4D过渡中的显著对象变形和场景内交互方面存在困难。为了解决这一挑战,我们提出了Trans4D,这是一个新颖的文本到4D合成框架,可以实现逼真的复杂场景过渡。具体地,我们首先使用多模态大语言模型(MLLMs)生成物理感知场景描述,用于4D场景初始化和有效的过渡时机规划。然后,我们提出了一个几何感知的4D过渡网络,根据计划实现基于表达性几何对象变形的复杂场景级4D过渡。大量实验证明,Trans4D在生成准确且高质量过渡的4D场景方面始终优于现有的最先进方法,验证了其有效性。源代码:https://github.com/YangLing0818/Trans4D
多模态大型语言模型(MLLMs)正在迅速发展,展示出作为多模态助手与人类及其环境互动的令人印象深刻的能力。然而,这种增强的复杂性引入了重大的安全问题。在本文中,我们提出了一项名为多模态情境安全(Multimodal Situational Safety)的新型安全挑战的首次评估和分析,该挑战探讨了基于用户或代理人所参与的具体情境而变化的安全考虑。我们认为,为了安全地回应,无论是通过语言还是行动,MLLM通常需要评估语言查询在其相应的视觉背景中的安全含义。为了评估这种能力,我们开发了多模态情境安全基准(MSSBench)来评估当前MLLM的情境安全性能。该数据集包含1,820个语言查询-图像对,其中一半图像背景是安全的,另一半是不安全的。我们还开发了一个评估框架,分析关键的安全方面,包括显式安全推理、视觉理解以及至关重要的情境安全推理。我们的研究结果显示,当前的MLLM在遵循指示的情境中遇到了这种微妙的安全问题,并且难以一次性解决这些情境安全挑战,突出了未来研究的一个关键领域。此外,我们开发了多代理管道来协同解决安全挑战,这显示出相对于原始MLLM响应的安全性持续改进。代码和数据:mssbench.github.io。
最近,文本到视频(T2V)生成模型备受关注,为视觉创作提供了便利。尽管具有巨大潜力,生成的视频可能存在缺陷,包括结构不合理、时间不一致和缺乏动态,通常导致几乎静态的视频。在这项工作中,我们发现不同块之间时间注意力图的差异与时间不一致的发生之间存在相关性。此外,我们观察到时间注意力图中包含的能量与生成视频中运动幅度的大小直接相关。基于这些观察,我们提出了BroadWay,一种无需训练的方法,可提高文本到视频生成的质量,而无需引入额外参数、增加内存或采样时间。具体而言,BroadWay由两个主要组件组成:1)时间自我引导通过减少不同解码器块之间时间注意力图的差异,改善生成视频的结构合理性和时间一致性。2)基于傅立叶的运动增强通过放大地图的能量,增强运动的幅度和丰富度。大量实验证明,BroadWay显著提高了文本到视频生成的质量,且附加成本微乎其微。
生成模型正在改变音乐生成等创意领域,推理时策略如无分类器引导(CFG)发挥着至关重要的作用。然而,CFG会使推理成本翻倍,同时限制生成内容的原创性和多样性。在本文中,我们介绍了奖励多样性的CFG蒸馏,这是一种新颖的微调过程,旨在蒸馏CFG的优势同时解决其局限性。我们的方法优化了两个训练目标:(1)蒸馏目标,鼓励模型(无CFG参与)模仿CFG增强的预测,以及(2)带有多样性奖励的强化学习目标,促进对给定提示生成多样化输出。通过微调,我们学习到具有生成高质量和多样化输出能力的模型权重,而无需进行任何推理开销。这也释放了基于权重的模型合并策略的潜力:通过在两个模型的权重之间插值(第一个专注于质量,第二个专注于多样性),我们可以在部署时控制质量-多样性权衡,并进一步提升性能。我们在MusicLM(Agostinelli等人,2023)文本到音乐生成模型上进行了大量实验,证明我们的方法在质量-多样性帕累托最优性方面超越了CFG。根据人类评估者的评价,我们的微调后合并模型生成的样本在质量-多样性方面优于基础模型与CFG增强的模型。请访问https://google-research.github.io/seanet/musiclm/diverse_music/ 探索我们的生成物。
本研究调查了从大规模语料库中选择高质量预训练数据以增强语言模型在下游任务中的能力。我们将数据选择问题形式化为广义最优控制问题,可以通过庞特里亚金最大值原理(PMP)在理论上解决,得到一组表征最优数据选择与语言模型训练动态关系的必要条件。基于这些理论结果,我们引入了基于PMP的数据选择(PDS)框架,通过解决PMP条件来近似最优数据选择。在我们的实验中,我们采用PDS从CommmonCrawl中选择数据,并展示PDS选择的语料库加速了语言模型的学习,并在各种模型规模下持续提升了它们在各种下游任务上的性能。此外,根据缩放定律,PDS的好处延伸到了训练了约400B模型的约10T标记的情况,通过测试损失曲线的外推加以证明。当预训练数据有限时,PDS还通过将数据需求减少1.8倍来改善数据利用,从而减轻了可用网络爬取语料库迅速耗尽的问题。我们的代码、数据和模型检查点可在https://github.com/microsoft/LMOps/tree/main/data_selection 找到。
视频时间定位(VTG)是视频理解模型的关键能力,在视频浏览和编辑等下游任务中发挥着重要作用。为了有效地同时处理各种任务并实现零样本预测,目前越来越多地采用视频LLMs来进行VTG任务。然而,目前基于视频LLM的方法仅依赖自然语言生成,缺乏对视频固有结构的建模能力,这限制了它们在处理VTG任务中的有效性。为了解决这个问题,本文首先正式引入因果事件建模框架,将视频表示为事件序列,并利用先前事件、视频输入和文本指令来预测当前事件。每个事件包括三个组成部分:时间戳、显著分数和文本说明。然后,我们提出了一种新颖的任务交织视频LLM,称为TRACE,以有效地实现因果事件建模框架。TRACE将视觉帧、时间戳、显著分数和文本作为不同任务进行处理,为每个任务使用各种编码器和解码头。任务令牌根据因果事件建模框架的公式排列成交织序列。对各种VTG任务和数据集的大量实验证明了TRACE相对于最先进的视频LLMs具有卓越的性能。我们的模型和代码可在https://github.com/gyxxyg/TRACE找到。
随着多模态大型语言模型(MLLMs)在各种任务中展现出越来越具竞争力的表现,为了评估这些尖端模型,已经开发出了更为复杂和全面的基准。这些基准引入了新的挑战,涉及感知、推理和规划等核心能力。然而,现有的多模态基准在提供基于图像空间关系的多步规划的专注评估方面存在不足。为了弥补这一缺口,我们提出了ING-VP,第一个专门设计用于评估MLLMs空间想象和多步推理能力的基于互动游戏的视觉规划基准。ING-VP包括6个独特的游戏,涵盖300个关卡,每个关卡有6种独特配置。单个模型参与超过60,000轮的互动。该基准框架支持多种比较设置,包括图像-文本对比文本输入、单步对比多步推理、有历史对比无历史条件,为了深入了解模型的能力提供了宝贵的见解。我们评估了众多最先进的MLLMs,表现最佳的模型Claude-3.5 Sonnet的平均准确率仅为3.37%,远低于预期标准。本研究旨在提供一个专门评估框架,推动MLLMs在复杂空间推理和规划能力方面的发展。代码可在https://github.com/Thisisus7/ING-VP.git 上公开获取。
指令遵循是LLM的关键能力。然而,最近的研究表明,LLM经常在包含多个约束的指令(例如,要求以“幽默的口吻”创建社交媒体帖子,并“不使用标签”)方面遇到困难。尽管如此,大多数评估仅关注合成数据。为了解决这一问题,我们引入了RealInstruct,这是第一个旨在评估LLM遵循现实世界多重约束指令能力的基准,利用了真实用户向AI助手提出的查询。我们还研究了基于模型的评估作为这一任务的一种经济有效的人工标注替代方案。我们的研究结果显示,即使专有的GPT-4模型在超过21%的指令中至少无法满足一个约束,突显了现有模型的局限性。为了解决开源和专有模型之间的性能差距,我们提出了“分解、批判和完善”(DeCRIM)自我校正流程,该流程增强了LLM遵循约束的能力。DeCRIM通过将原始指令分解为约束列表,并使用批评模型来决定LLM响应何时何地需要完善。我们的结果显示,即使在弱反馈情况下,DeCRIM也使Mistral在RealInstruct上的性能提高了7.3%,在IFEval上提高了8.0%。此外,我们证明,在强反馈的情况下,具有DeCRIM的开源LLM可以在两个基准测试中均胜过GPT-4。
随着文本到图像扩散模型的进步足以用于商业应用,人们也越来越担心其潜在的恶意和有害用途。模型遗忘被提出来缓解这些担忧,通过从预训练模型中删除不需要的和潜在有害的信息。到目前为止,遗忘的成功主要通过未遗忘的模型是否能生成目标概念并保持图像质量来衡量。然而,遗忘通常在有限的场景下进行测试,目前文献中对遗忘的副作用几乎没有研究。在这项工作中,我们通过五个关键方面全面分析了在不同场景下的遗忘。我们的研究揭示了每种方法都存在副作用或限制,尤其是在更复杂和现实情况下。通过发布我们的全面评估框架以及源代码和工件,我们希望激发这一领域的进一步研究,从而推动更可靠和有效的遗忘方法的发展。
尽管大型语言模型(LLMs)已经整合了图像,但将其适应图形仍然具有挑战性,这限制了它们在材料和药物设计中的应用。这一困难源于需要在文本和图形之间实现连贯的自回归生成。为了解决这个问题,我们引入了Llamole,这是第一个能够交替生成文本和图形的多模态LLM,实现了具有逆合成规划的分子设计。Llamole将基础LLM与图扩散变压器和图神经网络相结合,用于在文本中进行多条件分子生成和反应推断,同时增强了对分子的理解,灵活地控制不同图模块之间的激活。此外,Llamole将A*搜索与基于LLM的成本函数相结合,实现了高效的逆合成规划。我们创建了基准数据集,并进行了大量实验,评估了Llamole与上下文学习和监督微调的性能。在可控分子设计和逆合成规划的12个指标中,Llamole在14个改进的LLM模型中显著优于其他模型。
最近推出的对话系统展示了很高的可用性。然而,它们仍然无法反映现实世界中的对话场景。当前的对话系统表现出无法复制动态、连续、长期涉及多个参与者的互动的能力。这种不足是由于对现实世界对话的两个方面的考虑努力有限而产生的:长期对话中深层次的互动以及涉及多个参与者的广泛扩展的对话网络。随着结合这些方面的努力,我们引入了混合会话(Mixed-Session Conversation),这是一个旨在在多个对话环境中与不同伙伴构建对话的对话系统。我们提出了一个名为MiSC的新数据集来实现这个系统。MiSC的对话情节包括6个连续的会话,每个情节中有四名发言者(一个主发言者和三名伙伴)。此外,我们提出了一种新的对话模型,具有一种新颖的记忆管理机制,称为自我中心记忆增强混合会话代理(EMMA)。EMMA在与伙伴对话时从主发言者的视角收集和保留记忆,从而在随后的互动中实现无缝连续性。广泛的人类评估验证了MiSC中的对话展示了无缝的对话流程,即使在每个会话中伙伴发生变化。经过MiSC训练的EMMA也被评估为在整个对话过程中保持高的可记忆性而没有矛盾。
利用大型语言模型(LLMs)生成几千字长的具有叙事连贯性的故事一直是一项具有挑战性的任务。先前的研究通过提出不同的框架来解决这一挑战,这些框架创建故事计划并基于该计划生成长篇故事。然而,这些框架主要关注于在故事中保持叙事连贯性,往往忽视了故事规划中的创造力以及从这些计划中生成的故事的表现力,这些是吸引读者兴趣的理想特性。在本文中,我们提出了用于创造性故事生成的集体评论者框架(CritiCS),该框架由计划细化阶段(CrPlan)和故事生成阶段(CrText)组成,以整合促进这些特性的集体修订机制到长篇故事生成过程中。具体而言,在每个阶段,一组LLM评论者和一位领导者合作,通过多轮逐渐完善计划和故事草稿。广泛的人类评估显示,CritiCS能够显著增强故事的创造力和读者参与度,同时保持叙事连贯性。此外,该框架的设计允许人类作者在评论过程中的任何角色中积极参与,实现了人机互动合作进行故事创作。
我们提出了TextToon,一种生成可驾驶的卡通化头像的方法。给定一个短的单目视频序列和有关头像风格的书面指令,我们的模型可以生成一个高保真度的卡通化头像,可以通过另一个具有任意身份的视频实时驾驶。现有的相关工作严重依赖于多视角建模,通过纹理嵌入来恢复几何形状,以静态方式呈现,导致控制限制。多视角视频输入也使得难以将这些模型部署到现实世界的应用中。为了解决这些问题,我们采用了条件嵌入Tri-plane来学习高逼真度和风格化的面部表示,位于高斯变形场中。此外,我们通过引入自适应像素平移神经网络和利用面向补丁的对比学习来扩展3D高斯飞溅的风格化能力,从而实现高质量图像。为了将我们的工作推向消费者应用,我们开发了一个实时系统,可以在GPU机器上以48 FPS运行,而在移动设备上可以达到15-18 FPS。大量实验证明了我们的方法在生成文本头像方面相对于现有方法在质量和实时动画方面的有效性。更多详情请参阅我们的项目页面:https://songluchuan.github.io/TextToon/。
在上下文学习(ICL)中,模型通过观察一些示例在其上下文中学习新任务的能力。虽然在自然语言处理中很常见,但最近也在强化学习(RL)环境中观察到了这种能力。然而,先前的上下文RL方法需要整个代理的上下文中的完整情节。鉴于复杂环境通常导致具有稀疏奖励的长情节,这些方法受限于具有短情节的简单环境。为了解决这些挑战,我们引入了检索增强决策Transformer(RA-DT)。RA-DT采用外部存储器机制来存储过去的经验,从中检索出仅与当前情况相关的子轨迹。RA-DT中的检索组件不需要训练,完全可以是与领域无关的。我们在网格世界环境、机器人模拟和程序生成的视频游戏上评估了RA-DT的能力。在网格世界中,RA-DT优于基线方法,同时仅使用了它们上下文长度的一小部分。此外,我们阐明了当前上下文RL方法在复杂环境中的局限性,并讨论了未来的方向。为了促进未来的研究,我们为考虑的四个环境发布了数据集。
该研究构建并评估了对流行代码存储库中的恶意代码引入复制代码或虚构的人工智能建议的对抗潜力。虽然来自OpenAI、Google和Anthropic的基础大型语言模型(LLMs)可以防范有害行为和有毒字符串,但之前关于嵌入有害提示的数学解决方案的工作表明,在专家背景下,防护栏可能存在差异。当问题的背景发生变化时,这些漏洞可能会出现在专家模型的混合中,并且可能提供较少的恶意训练示例以过滤有毒评论或推荐的攻击性行为。本研究表明,当直接提出破坏性行为时,基础模型可能会拒绝正确的建议,但当面临突如其来的背景变化时,例如解决计算机编程挑战时,它们可能会不慎放松警惕。我们展示了包含木马主机存储库(如GitHub、NPM、NuGet)和流行内容传送网络(CDN)如jsDelivr的实证示例,这些示例扩大了攻击面。在LLM的指导下,为了提供帮助,示例建议提供应用程序编程接口(API)端点,一个决心的域抢注者可以获取并设置攻击移动基础设施,从而触发从天真复制的代码中的攻击。我们将这种攻击与先前关于上下文转移的工作进行了比较,并将攻击面对比为恶意软件文献中“利用现有资源”攻击的新版本。在后一种情况下,基础语言模型可以劫持本来无辜的用户提示,推荐违反其所有者安全政策的行为,当直接提出时,没有伴随编码支持请求。
钢琴演奏需要灵活、精准、协调的手部控制,这超越了灵巧的极限。具备足够复杂性的手部运动模型能够准确再现钢琴演奏,在角色动画、体验型人工智能、生物力学以及虚拟/增强现实等领域有广泛应用。本文构建了一个独一无二的大规模数据集,包含约10小时的来自15名顶尖钢琴家演奏153首古典音乐作品的3D手部运动和音频。为了捕捉自然的表演,我们设计了一个无需标记的设置,通过多视角视频重建运动,使用最先进的姿势估计模型。运动数据进一步通过逆向运动学进行优化,使用从专用Yamaha Disklavier钢琴传感器获取的高分辨率MIDI按键数据。利用收集的数据集,我们开发了一个流程,可以为数据集之外的乐谱合成出物理上合理的手部运动。我们的方法结合了模仿学习和强化学习,获得了涉及手部和钢琴键之间互动的基于物理的双手控制策略。为了解决大规模运动数据集的采样效率问题,我们使用扩散模型生成自然参考运动,提供高级轨迹和指法(手指顺序和位置)信息。然而,仅凭生成的参考运动并不能为钢琴演奏建模提供足够的准确性。然后,我们通过使用音乐相似性进一步增强数据,从捕获的数据集中检索类似运动,以提高强化学习策略的精确性。通过提出的方法,我们的模型生成自然、灵巧的运动,可以泛化到训练数据集之外的音乐。
我们介绍了 MLE-bench,这是一个用于衡量AI代理在机器学习工程中表现如何的基准。为此,我们从Kaggle中整理了75个与机器学习工程相关的竞赛,创建了一组多样化的具有挑战性的任务,测试现实世界的机器学习工程技能,如训练模型、准备数据集和运行实验。我们利用Kaggle公开可用的排行榜为每个竞赛建立了人类基线。我们使用开源代理支架来评估我们的基准测试中的几种前沿语言模型,发现表现最佳的设置——OpenAI的o1-preview与AIDE支架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。除了我们的主要结果,我们还研究了AI代理的各种资源缩放形式以及来自预训练的污染的影响。我们开源了我们的基准测试代码(github.com/openai/mle-bench/),以促进未来研究理解AI代理的机器学习工程能力。
在现实世界的软件开发中,不当或缺失的异常处理可能严重影响代码的健壮性和可靠性。异常处理机制要求开发人员根据高标准检测、捕获和管理异常,但许多开发人员在这些任务上遇到困难,导致代码脆弱。这个问题在开源项目中尤为明显,并影响了软件生态系统的整体质量。为了解决这一挑战,我们探讨了使用大型语言模型(LLMs)来改善代码中的异常处理。通过广泛分析,我们确定了三个关键问题:对脆弱代码的不敏感检测、异常类型捕获不准确以及处理方案扭曲。这些问题在现实世界的代码库中普遍存在,表明健壮的异常处理实践经常被忽视或处理不当。作为回应,我们提出了Seeker,这是一个受到专业开发人员异常处理策略启发的多代理框架。Seeker 使用代理:Scanner、Detector、Predator、Ranker 和 Handler 来协助LLMs更有效地检测、捕获和解决异常。我们的工作是第一个系统研究如何利用LLMs来增强异常处理实践的研究,为未来改进代码可靠性提供了宝贵的见解。
图像扩散模型中的多视图一致性仍然是一个挑战。即使在已知先验几何对应关系的文本到纹理问题中,许多方法也无法产生跨视图对齐的预测,需要使用非平凡的融合方法将结果合并到原始网格上。我们特别探讨了在基于物理的渲染(PBR)文本到纹理中的协作控制工作流中的这个问题。协作控制直接对PBR图像概率分布进行建模,包括法线凹凸贴图;据我们所知,这是唯一直接输出完整PBR堆栈的扩散模型。我们讨论了设计决策,使该模型实现多视图一致,并通过消融研究以及实际应用展示了我们方法的有效性。
心理健康障碍是世界上最严重的疾病之一。大多数患有此类疾病的人缺乏获得充分护理的途径,这凸显了为心理健康障碍的诊断和治疗训练模型的重要性。然而,在心理健康领域,隐私问题限制了个性化治疗数据的获取,使得构建强大模型具有挑战性。在本文中,我们介绍了MentalArena,这是一个自我对弈框架,通过生成特定领域的个性化数据来训练语言模型,从而获得一个能够进行个性化诊断和治疗(作为治疗师)以及提供信息(作为患者)的更好模型。为了准确建模类似人类的心理健康患者,我们设计了症状编码器,从认知和行为角度模拟真实患者。为了解决患者-治疗师互动过程中的意图偏差,我们提出了症状解码器,用于比较诊断症状与编码症状,并根据识别的偏差动态管理患者和治疗师之间的对话。我们对MentalArena进行了评估,包括对生物医学问答和心理健康任务的6项基准测试,与6个先进模型进行了比较。我们的模型在经过GPT-3.5和Llama-3-8b的微调后,明显优于其对应的模型,包括GPT-4o。我们希望我们的工作能激发未来个性化护理研究。代码可在https://github.com/Scarelette/MentalArena/tree/main找到。
本文介绍了TinyEmo,这是一组用于情感推理和分类的小型多模态语言模型。我们的方法包括:(1) 用于预训练和微调阶段的合成情感指导数据集,(2) 度量投影器,将分类从语言模型中分离出来,从而实现更高效的训练和推理,(3) 用于情感推理的多模态大型语言模型(MM-LLM),以及(4) 用于偏见检测的半自动化框架。TinyEmo能够进行情感分类和情感推理,同时使用的参数比可比模型要少得多。这种高效性使我们能够自由地整合更多不同的情感数据集,在分类任务上表现出色,即使是我们最小的模型(700M参数)也能胜过基于拥有超过7B参数的通用MM-LLM的更大型先进模型。此外,度量投影器允许在大型模型中进行解释和间接偏见检测,无需额外训练,提供了一种理解和改进AI系统的方法。 我们在https://github.com/ggcr/TinyEmo发布了代码、模型和数据集。
最近大型语言模型(LLMs)的进展导致了声称人工智能在自然语言处理(NLP)任务中超越人类,如文本理解和推理。本研究通过引入CAIMIRA,这是一个根植于项目反应理论(IRT)的新框架,能够定量评估和比较问题解决能力,包括问答(QA)代理:人类和人工智能系统。通过分析来自约70个人工智能系统和155名人类对数千道测验问题的超过30万次响应,CAIMIRA揭示了知识领域和推理技能中的不同熟练模式。人类在知识基础的演绎和概念推理方面表现优于人工智能系统,而像GPT-4和LLaMA这样的最新LLMs在有针对性的信息检索和基于事实的推理方面表现更优秀,特别是当信息缺失被明确定义并可通过模式匹配或数据检索解决时。这些发现突显了未来问答任务需要专注于挑战不仅是高阶推理和科学思维,还需要要求细致的语言解释和跨语境知识应用的问题,从而推动更好地模拟或补充人类认知能力的真实世界问题解决的人工智能发展。
嵌入模型在实现语义相似性、信息检索和聚类等各种下游任务方面发挥了关键作用。最近,人们对开发能够跨任务泛化的通用文本嵌入模型表现出了极大的兴趣(例如MTEB)。然而,尽管它们的重要性,学习通用多模态嵌入模型的进展相对较慢。在这项工作中,我们旨在探索构建能够处理各种下游任务的通用嵌入的潜力。我们的贡献有两个方面:(1)MMEB(大规模多模态嵌入基准),涵盖4个元任务(即分类、视觉问答、多模态检索和视觉定位)和36个数据集,包括20个训练数据集和16个评估数据集;(2)VLM2Vec(视觉-语言模型到向量),这是一个对比训练框架,通过在MMEB上进行训练,将任何最先进的视觉-语言模型转换为嵌入模型。与之前的模型(如CLIP和BLIP)不同,VLM2Vec可以处理任何图像和文本的组合,根据任务说明生成固定维度的向量。我们在Phi-3.5-V上构建了一系列VLM2Vec模型,并在MMEB的评估集上进行评估。我们的结果表明,该模型在MMEB的分布内和分布外数据集上相对于现有的多模态嵌入模型实现了10%到20%的绝对平均改进。
目前用于评估视觉语言模型(VLMs)的基准通常侧重于它们的感知或问题解决能力,而忽视了其他关键方面,如公平性、多语言性或毒性。此外,它们在评估程序和评估范围上存在差异,使得模型之间难以比较。为了解决这些问题,我们将HELM框架扩展到VLMs,提出了视觉语言模型的整体评估(VHELM)。VHELM整合了各种数据集,涵盖了9个方面中的一个或多个:视觉感知、知识、推理、偏见、公平性、多语言性、鲁棒性、毒性和安全性。通过这样做,我们为VLMs在这些重要因素上的能力提供了全面的多维视图。此外,我们标准化了标准推理参数、提示方法和评估指标,以便在模型之间进行公平比较。我们的框架旨在轻量且自动化,使评估运行廉价且快速。我们的初步运行评估了22个VLMs在21个现有数据集上,以提供模型的整体快照。我们发现了一些新的关键发现,例如,以效率为重点的模型(例如Claude 3 Haiku或Gemini 1.5 Flash)在偏见基准测试中表现明显较差,但在其他方面评估时并非如此。为了透明度,我们在我们的网站上发布了原始模型生成和完整结果(https://crfm.stanford.edu/helm/vhelm/v2.0.1)。VHELM旨在成为一个活跃的基准测试,并希望随着时间的推移继续添加新的数据集和模型。
以英语为中心的大型语言模型(LLMs)通常展现出强大的多语言能力。然而,这些模型的多语言性能仍不清楚,并且对许多语言没有进行彻底评估。大多数用于多语言性能评估的基准测试侧重于经典自然语言处理任务,或者涵盖了少量语言。我们引入了MEXA,一种用于评估预训练的以英语为中心的LLMs多语言能力的方法,该方法使用平行句子进行评估,这些句子比现有的下游任务涵盖的语言更多。MEXA利用了以英语为中间语言的事实,英语为中心的LLMs在其中间层中使用英语作为一种枢纽语言。它通过使用平行句子计算英语和非英语语言之间的对齐来评估从英语到其他语言的语言理解转移。这种对齐可以用来估计模型在其他语言中的性能。我们使用各种平行数据集(FLORES-200和Bible)、模型(Llama家族、Gemma家族、Mistral和OLMo)以及已建立的下游任务(Belebele、m-MMLU和m-ARC)进行研究。我们探索了在仅解码器模型中计算嵌入的不同方法。我们的结果显示,在其默认设置下,MEXA在九个模型和两个平行数据集上与三个已建立的下游任务实现了具有统计显著性的平均皮尔逊相关系数0.90。这表明MEXA是一种可靠的方法,用于估计以英语为中心的LLMs的多语言能力,从而更清晰地了解它们的多语言潜力和LLMs的内部运作。排行榜:https://huggingface.co/spaces/cis-lmu/Mexa,代码:https://github.com/cisnlp/Mexa。
相对于基于Transformer的语言模型,循环神经网络(RNNs)的一个重要优势是其在序列长度方面具有线性计算复杂度,这使得它们在推断过程中处理长序列时要快得多。然而,大多数公开可用的RNNs(例如Mamba和RWKV)是在少于10K个标记的序列上训练的,迄今为止它们在更长上下文中的有效性仍然令人不满。在本文中,我们研究了RNN无法处理长上下文的原因,并提出了关键的缓解方法。我们在将最先进的RNNs应用于长上下文时考虑了两个实际问题:(1)无法外推到超出训练长度的输入和(2)内存容量的上限。针对第一个问题,我们首先调查了*状态崩溃*(SC),这是一种现象,导致在训练期间未遇到的序列长度严重性能下降。通过受控实验,我们将这归因于由于循环状态对于训练长度而言过度参数化而导致的过拟合。对于第二个问题,我们在长文档上训练了一系列Mamba-2模型,以经验估计语言建模和密钥检索中的循环状态容量。然后,提出了三种SC缓解方法,以提高Mamba-2的长度泛化能力,使模型能够处理超过1M个标记而无SC。我们还发现,在密钥检索中,循环状态容量与状态大小呈指数关系,我们经验性地训练了一个具有接近完美密钥检索准确率的Mamba-2 370M模型,其上下文长度为256K。这表明了基于RNN的长上下文建模有着光明的未来。
我们提出了SPACE,一个系统评估前沿模型中空间认知的基准。我们的基准建立在几十年的认知科学研究基础之上。它评估了大规模地图绘制能力,这种能力在生物体穿越物理环境时发挥作用,以及关于物体形状和布局的小规模推理,以及空间注意力和记忆等认知基础设施。对于许多任务,我们通过文本和图像实例化并行呈现,使我们能够评估大型语言模型和大型多模型模型。结果表明,当代前沿模型在动物的空间智能方面表现不佳,在许多经典动物认知测试中表现接近机会水平。