每日精选AI研究论文及翻译
我们介绍了Cambrian-1,这是一系列采用以视觉为中心的方法设计的多模态语言模型(MLLMs)。尽管更强大的语言模型可以增强多模态能力,但对于视觉组件的设计选择往往未经充分探讨,与视觉表示学习研究脱节。这种差距阻碍了在现实场景中准确的感官基础。我们的研究利用LLMs和视觉指导调整作为接口,评估各种视觉表示,为不同模型和架构提供新的见解,这些模型和架构可以是自监督的、强监督的,或者二者的组合,基于对超过20个视觉编码器进行的实验。我们对现有的MLLM基准进行了批判性审查,解决了整合和解释来自各种任务结果的困难,并引入了一个新的以视觉为中心的基准,CV-Bench。为了进一步改善视觉基础,我们提出了空间视觉聚合器(SVA),这是一个动态的、具有空间意识的连接器,将高分辨率视觉特征与LLMs集成在一起,同时减少了令牌的数量。此外,我们讨论了从公开来源获取高质量视觉指导调整数据的策划,强调了数据来源平衡和分布比例的重要性。总的来说,Cambrian-1不仅实现了最先进的性能,还作为一本全面的、开放的指导调整MLLMs的食谱。我们提供模型权重、代码、支持工具、数据集以及详细的指导调整和评估方法。我们希望我们的发布能激发并加速多模态系统和视觉表示学习的进展。
个性化图像生成在辅助人类日常工作和生活方面具有巨大潜力,因为它在创造性生成个性化内容方面具有令人印象深刻的功能。然而,当前的评估要么是自动化的但与人类不一致,要么需要耗时且昂贵的人类评估。在这项工作中,我们提出了DreamBench++,这是一个由先进的多模态GPT模型自动化的与人类一致的基准。具体来说,我们系统地设计提示,让GPT既与人类一致又自我一致,并赋予其任务强化能力。此外,我们构建了一个包含多样化图像和提示的全面数据集。通过对7种现代生成模型进行基准测试,我们证明DreamBench++导致了显著更多与人类一致的评估结果,有助于推动社区获得创新性发现。
近年来,大型语言模型(LLMs)在编程方面取得的进展极大地推动了自动化软件工程。尽管当前的基准测试显示LLMs能够像人类开发人员一样执行各种软件工程任务,但它们的评估大多局限于简短且自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用各种函数调用作为工具,以高效地实现诸如数据分析和Web开发等功能。此外,使用多个工具解决一个任务需要通过准确理解复杂指令进行组合推理。满足这两个特征对LLMs来说可能是一个巨大挑战。为了评估LLMs在解决具有挑战性和实际意义的编程任务方面的表现,我们引入了Bench,一个基准测试,挑战LLMs从139个库和7个领域中调用多个函数调用作为工具来完成1,140个细粒度编程任务。为了严格评估LLMs,每个编程任务包含5.6个测试用例,平均分支覆盖率达到99%。此外,我们提出了Bench的自然语言导向变体Benchi,它会自动将原始文档字符串转换为仅包含基本信息的简短指令。我们对60个LLMs进行了广泛评估,结果显示LLMs尚无法准确遵循复杂指令来精确使用函数调用,得分最高仅为60%,远低于人类的97%。这些结果突显了在这一领域需要进一步的发展。
检索模型通常在部分注释的数据集上进行评估。每个查询被映射到几个相关文本,其余语料库被假定为不相关。因此,在评估中,成功检索到假阴性的模型会受到惩罚。不幸的是,为每个查询完全注释所有文本在资源上并不高效。在这项工作中,我们展示了在评估中使用部分注释的数据集可能会呈现扭曲的画面。我们精心策划了D-MERIT,这是一个从维基百科中提取的段落检索评估集,旨在包含每个查询的所有相关段落。查询描述了一个群体(例如,“关于语言学的期刊”),相关段落是表明实体属于该群体的证据(例如,一段表明《语言》是一本关于语言学的期刊的段落)。我们展示了在仅包含部分相关段落注释的数据集上进行评估可能导致检索系统排名的误导,并且随着在评估集中包含更多相关文本,排名会趋于一致。我们提出我们的数据集作为评估资源,并将我们的研究作为在为文本检索注释评估集时在资源效率和可靠评估之间取得平衡的建议。
视频序列提供了宝贵的时间信息,但现有的大型多模态模型(LMMs)在理解极长视频方面存在不足。许多研究通过使用视觉重采样器来减少视觉标记的数量来解决这个问题。相反,在本文中,我们从语言模型的角度来解决这个问题。通过简单地推断语言主干的上下文长度,我们使LMMs能够理解数量级更多的视觉标记,而无需进行任何视频训练。我们将这种现象称为长上下文转移,并仔细剔除其属性。为了有效衡量LMMs在视觉模态中泛化到长上下文的能力,我们开发了V-NIAH(Visual Needle-In-A-Haystack),这是一个纯合成的长视觉基准,受到语言模型的NIAH测试的启发。我们提出的长视频助手(LongVA)可以处理2000帧或超过200K个视觉标记,而无需额外的复杂性。凭借其扩展的上下文长度,LongVA通过密集采样更多输入帧,在7B规模模型中在Video-MME上实现了最先进的性能。我们的工作在https://github.com/EvolvingLMMs-Lab/LongVA 上开源。
扩散模型最近在视频生成方面取得了显著的成果。尽管表现令人鼓舞,但生成的视频通常受限于少量帧数,导致片段仅持续几秒钟。在生成更长视频方面的主要挑战包括巨大的内存需求和在单个 GPU 上需要的延长处理时间。一个直接的解决方案是将工作负载分配到多个 GPU 上,然而这会引发两个问题:(1) 确保所有 GPU 有效通信以共享时间和上下文信息,以及 (2) 修改现有视频扩散模型,通常是在短序列上训练的,以在无需额外训练的情况下生成更长的视频。为了解决这些问题,在本文中我们引入了 Video-Infinity,这是一个分布式推理流水线,可以实现跨多个 GPU 的并行处理,用于生成长格式视频。具体来说,我们提出了两个一致的机制:片段并行和双范围注意力。片段并行优化了跨 GPU 收集和共享上下文信息,从而最小化通信开销,而双范围注意力调节了时间自注意力,以在设备之间有效平衡局部和全局上下文。这两个机制共同发挥作用,分担工作负载,实现快速生成长视频。在 8 x Nvidia 6000 Ada GPU (48G) 设置下,我们的方法可以在大约 5 分钟内生成长达 2,300 帧的视频,使得长视频的生成速度比先前方法快 100 倍。
最近,多模态大型语言模型(MLLMs)的进展已将其能力扩展到视频理解领域。然而,这些模型经常受到“幻觉”的困扰,即生成与实际视频内容偏离的无关或荒谬内容。本研究引入了VideoHallucer,这是第一个针对大型视频-语言模型(LVLMs)中幻觉检测的全面基准。VideoHallucer将幻觉分为两种主要类型:内在和外在,并提供进一步的子类别进行详细分析,包括对象关系、时间、语义细节、外在事实和外在非事实幻觉。我们采用对抗性二元VideoQA方法进行全面评估,其中精心设计了基本问题和幻觉问题的配对。通过在VideoHallucer上评估十一种LVLMs,我们揭示了:i)目前大多数模型存在幻觉方面的重大问题;ii)尽管扩展数据集和参数可以改善模型检测基本视觉线索和反事实的能力,但对于检测外在事实幻觉的效果有限;iii)现有模型更擅长检测事实而非识别幻觉。作为副产品,这些分析进一步指导了我们的自我PEP框架的发展,使所有模型架构的幻觉抵抗力平均提高了5.38%。
人类反馈强化学习(RLHF)通过鼓励大型语言模型(LLMs)生成高奖励来对齐它们,使用在人类偏好上训练的奖励模型。为了防止预训练知识的遗忘,RLHF通常会包含KL正则化;这迫使策略保持接近其监督微调初始化,尽管这会阻碍奖励优化。为了解决KL和奖励之间的权衡,本文介绍了一种名为加权平均奖励策略(WARP)的新对齐策略。WARP在三个不同阶段在权重空间中合并策略。首先,它使用策略的指数移动平均作为KL正则化中的动态锚点。其次,它应用球面插值将独立微调的策略合并为一个新的增强策略。第三,它在这个合并模型和初始化之间进行线性插值,以恢复来自预训练的特征。然后,这个过程被迭代应用,每次迭代的最终模型被用作下一个迭代的高级初始化,逐渐优化KL-奖励帕累托前沿,实现在固定KL下的卓越奖励。使用GEMMA策略的实验验证了WARP改善了它们的质量和对齐,优于其他开源LLMs。
对于大型语言模型,人们对线性复杂度模型的兴趣正在增加,尽管它们的扩展能力仍然不确定。在这项研究中,我们提出了线性复杂度语言模型的扩展定律,以建立它们可扩展性的基础。具体而言,我们研究了三种高效的线性架构的扩展行为。这些包括TNL,一个具有数据独立衰减的线性注意力模型;HGRN2,一个具有数据相关衰减的线性RNN;以及cosFormer2,一个没有衰减的线性注意力模型。我们还将LLaMA作为基线架构,用于softmax注意力的比较。这些模型在一个300B标记语料库上训练了从70M到7B参数的六个变体,并在各种下游任务上评估了总共1,376个中间检查点。这些任务包括验证损失、常识推理、信息检索和生成。研究表明,现有的线性复杂度语言模型表现出与传统基于Transformer的模型类似的扩展能力,同时还展示出更高的语言能力和知识保留能力。
大型语言模型(LLMs)已经彻底改变了自然语言处理,并扩展了它们在各种商业应用中的适用性。然而,在多语言环境中,这些模型的部署受到推理时间较长的限制。为了缓解这一挑战,本文探讨了一种助理模型在推测解码中的训练方法,这些方法被用来起草,然后其未来的标记由目标LLM验证。我们展示了通过有针对性的预训练和微调策略优化的特定语言起草模型,与先前方法相比,显著加快了推理时间。我们验证了这些模型在各种语言中的推理时间、领域外加速和GPT-4o评估。
持续预训练已日益成为适应新领域的大型语言模型(LLMs)的主要方法。这一过程涉及使用新领域的语料库更新预训练的LLM,导致训练分布发生变化。为了研究LLMs在这一转变过程中的行为,我们测量了模型在持续预训练过程中的性能。我们观察到在开始阶段存在临时性能下降,随后是一个恢复阶段,这一现象被称为“稳定性差距”,之前在对新类别进行分类的视觉模型中已有所记录。为了解决这一问题并提升LLM在固定计算预算内的性能,我们提出了三种有效策略:(1)在适当大小的子集上持续预训练LLM多个时期,使性能恢复比在单个时期内在大语料库上预训练LLM更快;(2)仅在高质量子语料库上预训练LLM,快速提升领域性能;以及(3)使用类似于预训练数据的数据混合以减少分布差距。我们对Llama系列模型进行了各种实验,验证了我们策略在医学持续预训练和指导调整中的有效性。例如,我们的策略将OpenLlama-3B模型的平均医学任务性能从36.2%提高到40.7%,仅使用原始训练预算的40%,并提升了平均通用任务性能而不会导致遗忘。此外,我们将我们的策略应用于Llama-3-8B模型。由此产生的模型Llama-3-Physician,在当前开源模型中取得了最佳的医学性能,并在几个医学基准测试中表现出与甚至优于GPT-4的性能。我们在https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct上发布了我们的模型。
在自回归Transformer中高效地处理长序列,尤其是在扩展上下文窗口内,由于自注意机制中固有的二次计算复杂度和大量KV内存需求,面临着重大挑战。在这项工作中,我们引入了SPARSEK注意力机制,这是一种新颖的稀疏注意力机制,旨在克服这些计算和内存障碍,同时保持性能。我们的方法整合了一个评分网络和一个可微的top-k掩码运算符SPARSEK,以选择每个查询的恒定数量的KV对,从而实现基于梯度的优化。因此,SPARSEK注意力在生成过程中提供了线性时间复杂度和恒定内存占用。实验结果显示,SPARSEK注意力优于先前的稀疏注意力方法,并在训练和推断过程中提供了显著的速度改进,特别是在语言建模和下游任务中。此外,我们的方法可以无缝集成到预训练的大型语言模型(LLMs)中,只需进行最少的微调,为有效处理各种应用中的长距离依赖关系提供了实用解决方案。
我们提出了语义熵探针(SEPs),这是一种廉价且可靠的方法,用于对大型语言模型(LLMs)中的不确定性进行量化。幻觉是指听起来合理但事实不正确且任意的模型生成物,它们对LLMs的实际应用构成了重大挑战。Farquhar等人(2024)最近的研究提出了语义熵(SE),它可以通过估计一组模型生成物中语义含义空间的不确定性来检测幻觉。然而,与SE计算相关的计算成本增加了5到10倍,这阻碍了实际应用。为了解决这个问题,我们提出了SEPs,它们直接从单个生成物的隐藏状态近似SE。SEPs易于训练,不需要在测试时对多个模型生成物进行采样,将语义不确定性量化的额外开销几乎降低到零。我们展示了SEPs在幻觉检测方面保持了高性能,并且比直接预测模型准确性的先前探测方法更好地推广到了分布之外的数据。我们在各种模型和任务上的结果表明,模型的隐藏状态捕获了SE,并且我们的消融研究进一步揭示了这种情况适用的令牌位置和模型层。
随着大型语言模型(LLMs)日益渗透到日常生活中,对模拟人类对话的实时交互需求不断增长。传统的基于轮次的聊天系统由LLMs驱动,阻止用户在系统生成响应时进行口头交互。为了克服这些限制,我们将现有的LLMs调整为双工模型,使这些LLMs能够在生成输出的同时倾听用户,并动态调整以为用户提供即时反馈,例如对中断的响应。具体而言,我们将对话的查询和响应划分为多个时间片段,然后采用时分复用(TDM)编码-解码策略来伪同时处理这些片段。此外,为了使LLMs能够熟练处理实时对话,我们构建了一个微调数据集,其中包含交替的查询和响应时间片段,以及覆盖瞬时交互中典型反馈类型。我们的实验表明,尽管对话的查询和响应被划分为不完整的片段进行处理,但LLMs在我们的数据集上经过少量微调步骤后可以保持其在标准基准上的原始性能。自动化和人工评估表明,双工模型使用户与AI的交互更加自然和类人,与普通LLMs相比,大大提高了用户满意度。我们的双工模型和数据集将会发布。
由于多语言大型语言模型(LLMs)的全球使用不断增加,对其进行去毒化处理变得至关重要。在这项工作中,我们探讨了在去毒化LLMs过程中的零-shot跨语言泛化偏好调整。与先前研究表明其他安全任务的跨语言泛化有限不同,我们展示了仅使用英语数据进行的直接偏好优化(DPO)训练可以显著降低多语言开放生成中的有害性。例如,在训练后,mGPT-1.3B生成有害延续的概率从46.8%降至3.9%,跨17种不同语言。我们的结果还适用于其他多语言LLMs,如BLOOM、Llama3和Aya-23。通过使用因果干预和激活分析等机械解释工具,我们确定了LLMs中MLP层的双语言特性,解释了DPO的跨语言泛化。最后,我们展示了双语句子检索可以预测DPO偏好调整的跨语言可转移性。
尽管大型语言模型(LLMs)变得日益强大,但仍然存在显著但微妙的弱点,比如在遵循指令或编码任务中出现错误。由于这些意外错误可能导致实际部署中的严重后果,因此有必要系统地调查LLMs中的局限性。传统的基准测试方法无法全面准确地指出特定模型的缺陷,而手动检查成本高且不可扩展。在本文中,我们介绍了一个统一的框架AutoDetect,用于自动揭示LLMs在各种任务中的弱点。受到衡量学生学习成果的教育评估过程的启发,AutoDetect包括三个由LLM驱动的代理:审查员、提问者和评估员。这三个代理之间的协作旨在实现全面和深入的弱点识别。我们的框架在揭示缺陷方面取得了显著成功,在ChatGPT和Claude等知名模型中的识别成功率超过30%。更重要的是,这些确定的弱点可以指导特定模型改进,证明比像Self-Instruct这样的非定向数据增强方法更有效。我们的方法已经显著增强了流行的LLMs,包括Llama系列和Mistral-7b,在多个基准测试中将它们的性能提高了超过10%。代码和数据可在https://github.com/thu-coai/AutoDetect 上公开获取。
尽管大型语言模型(LLMs)被广泛使用,但其表示和调节下一个标记预测中的不确定性的机制仍然鲜为人知。本研究调查了两个被认为影响这种不确定性的关键组件:最近发现的熵神经元和我们称之为标记频率神经元的一组新组件。熵神经元的特点是具有异常高的权重范数,并影响最终层归一化(LayerNorm)尺度,以有效地降低对数。我们的工作表明,熵神经元通过写入未嵌入的空间来运作,使它们能够对残差流范数产生最小的直接影响,而对对数本身的影响很小。我们观察到熵神经元存在于一系列模型中,包括高达70亿参数的模型。另一方面,我们首次发现并描述的标记频率神经元根据其对数频率成比例地增强或抑制每个标记的对数,从而将输出分布朝向或远离单字分布。最后,我们提供了一个详细的案例研究,其中熵神经元在感应设置中积极管理信心,即检测和继续重复的子序列。
什么是一个优秀的大型语言模型(LLM)?它在相关基准测试中表现良好,这些测试希望能够以某种有效的方式衡量模型具备的能力,这些能力在实际应用中也会受到挑战。但是,是什么让模型表现良好?是什么赋予了模型其能力?我们采用了一种最近引入的基准测试类型,旨在通过对话游戏的自我对弈挑战目标导向、主动性背景下的能力,并分析了性能如何随着模型特征(如参数数量或训练类型)的变化而发展。我们发现,虽然参数数量和性能之间存在明显关系,但在给定大小范围内仍然存在广泛的性能点分布,这需要通过训练参数(如微调数据质量和方法)来解释。从更实际的角度来看,我们还发现在不同访问方法下性能存在一定程度的不可预测性,可能是由于未暴露的采样参数,而且在推理过程中至少对中等权重量化表现出了非常受欢迎的性能稳定性。
从文本生成高保真度的3D服装对数字化角色创建非常理想,但也具有挑战性。最近基于扩散的方法通过得分蒸馏采样(SDS)已经开启了新的可能性,但要么与人体复杂地耦合,要么难以重复利用。我们介绍了ClotheDreamer,这是一种基于3D高斯的方法,可以从文本提示生成可穿戴的、适用于生产的3D服装资产。我们提出了一种新颖的表示方法,即解耦服装高斯飞溅(DCGS),以实现分开优化。DCGS将穿着的角色表示为一个高斯模型,但冻结了身体高斯飞溅。为了提高质量和完整性,我们结合了双向SDS,分别监督穿着的角色和服装的RGBD渲染,同时考虑姿势条件,并提出了一种新的松散服装修剪策略。我们的方法还可以支持自定义服装模板作为输入。由于我们的设计,合成的3D服装可以轻松应用于虚拟试穿,并支持物理精确的动画。大量实验证明了我们方法卓越且具有竞争力的性能。我们的项目页面位于https://ggxxii.github.io/clothedreamer。
大型语言模型(LLMs),即使经过专门训练以处理长输入上下文,仍然难以捕捉位于其输入中间位置的相关信息。这种现象被称为“中间丢失”问题。在这项工作中,我们做出了三方面贡献。首先,我们致力于理解导致这一现象的因素。在这样做的过程中,我们建立了“中间丢失”与LLMs固有的注意偏差之间的联系:LLMs表现出U形的注意偏差,即其输入开头和结尾的标记会受到更高的关注,而不考虑它们的相关性。其次,我们通过一种校准机制“中间发现”来减轻这种位置偏差,使模型能够根据其相关性忠实地关注上下文,即使它们位于中间位置。第三,我们展示“中间发现”不仅在定位长上下文中的相关信息方面实现了更好的性能,而且最终导致在各种任务中改进了检索增强生成(RAG)的性能,超过现有方法高达15个百分点。这些发现为理解LLM注意偏差及其潜在后果打开了未来方向。
在现实世界中,可扩展的机器人学习受到真实机器人的成本和安全问题的限制。此外,在现实世界中推出机器人轨迹可能耗时且劳动密集。本文提出了学习交互式真实机器人动作模拟器作为一种替代方案。我们引入了一种新方法,即IRASim,它利用生成模型的能力生成一个机器人手臂执行给定动作轨迹的极其逼真的视频,从一个初始给定帧开始。为了验证我们方法的有效性,我们创建了一个新的基准,即IRASim基准,基于三个真实机器人数据集,并在该基准上进行了大量实验。结果显示,IRASim优于所有基线方法,并在人类评估中更受青睐。我们希望IRASim能够作为增强现实世界中机器人学习的有效和可扩展方法。为了促进生成式真实机器人动作模拟器的研究,我们在https://gen-irasim.github.io开源代码、基准和检查点。
语音理解作为更通用的视频理解的一个要素,利用音频-视觉大型语言模型(av-LLMs)是一个至关重要但鲜为人知的方面。本文提出了视频-SALMONN,这是一个端到端的av-LLM,用于视频处理,不仅可以理解视觉帧序列、音频事件和音乐,还可以理解语音。为了获得语音理解所需的细粒度时间信息,同时保持对其他视频元素的高效处理,本文提出了一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,用于连接预训练的音频-视觉编码器和骨干大型语言模型。此外,提出了专门的训练方法,包括多样性损失和非配对的音频-视觉混合训练方案,以避免帧或模态的主导。在引入的语音-音频-视觉评估基准上,视频-SALMONN在视频问答任务上实现了超过25\%的绝对准确度改进,并在带有人类语音的音频-视觉问答任务上实现了超过30\%的绝对准确度改进。此外,视频-SALMONN展示了在其他音频-视觉大型语言模型无法实现的任务上出色的视频理解和推理能力。我们的训练代码和模型检查点可在\url{https://github.com/bytedance/SALMONN/}上获得。
尽管大型语言模型(LLMs)近年来取得了进展,但它们在涉及长文本的任务中的表现仍然不理想。在上下文学习(ICL)中,利用少量示例可能是增强LLM在这种情况下性能的一个吸引人的解决方案;然而,简单地添加具有长上下文的ICL示例会带来挑战,包括为每个少量示例增加大量标记开销以及演示和目标查询之间的上下文不匹配。在本研究中,我们提出通过回收上下文来自动生成长上下文问答任务的少量示例。具体而言,给定一个长输入上下文(1-3k个标记)和一个查询,我们从给定上下文中生成额外的查询-输出对作为少量示例,同时只引入上下文一次。这确保了演示利用与目标查询相同的上下文,同时仅向提示添加少量标记。我们进一步通过指导模型明确识别回答之前相关段落来增强每个演示,从而提高性能,同时为回答来源提供细粒度的归因。我们将我们的方法应用于多个LLMs,并在多个具有长上下文的问答数据集上获得了实质性的改进(在各种模型上平均提高了+23%),特别是当答案位于上下文的中间时。令人惊讶的是,尽管只引入单跳ICL示例,LLMs也成功地利用我们的方法推广到多跳长上下文问答。
得分蒸馏采样对于将扩散模型整合到复杂视觉生成中至关重要。尽管取得了令人印象深刻的结果,但存在模式崩溃和缺乏多样性的问题。为了应对这一挑战,我们利用得分蒸馏的梯度流解释提出了排斥式得分蒸馏(RSD)。具体而言,我们提出了一个基于粒子集合的排斥变分框架,促进多样性。通过包含粒子之间耦合的变分近似,排斥表现为一种简单的正则化,允许基于它们的相对成对相似性进行粒子交互,例如通过径向基核进行测量。我们设计了适用于无约束和约束采样场景的RSD。对于约束采样,我们专注于潜空间中的反问题,导致增广变分公式,实现了在计算、质量和多样性之间的良好平衡。我们进行了大量实验,针对文本到图像生成和反问题,证明了RSD相对于最先进的替代方案在多样性和质量之间实现了卓越的权衡。
在本报告中,我们提出以下问题:截至目前,根据奥林匹克竞技场(一项奥林匹克级别的、多学科、多模态的超智能AI基准测试),谁是最智能的AI模型?我们特别关注最近发布的模型:Claude-3.5-Sonnet、Gemini-1.5-Pro和GPT-4o。我们首次提出使用奥运奖牌榜方法来根据AI模型在各个学科的综合表现对其进行排名。实证结果显示:(1)Claude-3.5-Sonnet在整体表现上与GPT-4o具有很高的竞争力,甚至在一些学科(即物理、化学和生物)上超越了GPT-4o。(2)Gemini-1.5-Pro和GPT-4V分别排在GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。(3)开源社区的AI模型表现明显落后于这些专有模型。(4)这些模型在这一基准测试上的表现令人不满,表明在实现超智能之前我们还有很长的路要走。我们将继续跟踪和评估最新强大模型在该基准测试上的表现(可在https://github.com/GAIR-NLP/OlympicArena找到)。