每日精选AI研究论文及翻译
我们介绍了EXAONE 3.0指令调整语言模型,这是LG AI Research开发的大语言模型(LLMs)系列中的第一个开放模型。在不同的模型尺寸中,我们公开发布了78亿个指令调整模型,以促进开放研究和创新。通过在各种公共和内部基准测试中进行广泛评估,EXAONE 3.0展示了与其他同等大小最先进开放模型相比具有高度竞争力的真实世界性能,具有遵循指令的能力。我们的比较分析显示,EXAONE 3.0在韩语方面表现出色,同时在一般任务和复杂推理方面取得了引人注目的表现。凭借其强大的真实世界有效性和双语能力,我们希望EXAONE继续为专家AI的进步做出贡献。我们的EXAONE 3.0指令调整模型可在以下网址获得:https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct
在人工智能领域,构建通用智能体一直是一个久远的愿景。现有的智能体在许多领域取得了显著进展,但仍然难以完成开放世界中的长视野任务。我们将这归因于缺乏必要的世界知识和多模态经验,这些知识和经验可以指导智能体完成各种长视野任务。在本文中,我们提出了一种混合多模态记忆模块来解决上述挑战。它 1) 将知识转化为分层有向知识图,使智能体能够明确表示和学习世界知识,以及 2) 将历史信息总结为抽象的多模态经验池,为智能体提供丰富的上下文学习参考。在混合多模态记忆模块的基础上,构建了一个多模态智能体 Optimus-1,配备了专用的知识引导规划器和经验驱动反射器,在面对 Minecraft 中的长视野任务时有更好的规划和反思。大量实验结果显示,Optimus-1 在具有挑战性的长视野任务基准上明显优于所有现有的智能体,并在许多任务上表现出接近人类水平的性能。此外,我们引入了各种多模态大型语言模型(MLLMs)作为 Optimus-1 的支柱。实验结果显示,Optimus-1 在混合多模态记忆模块的帮助下表现出强大的泛化能力,在许多任务上优于 GPT-4V 基线。
在现实世界任务中实现人类水平的速度和表现是机器人研究社区的一个目标。这项工作迈出了实现这一目标的一步,并展示了第一个在竞技乒乓球比赛中达到业余人类水平表现的学习机器人代理。乒乓球是一项需要人类运动员经过多年训练才能达到高级熟练水平的体育运动。在本文中,我们贡献了:(1) 一个包括(i) 低层控制器及其详细技能描述符的分层模块化策略架构,用于建模代理的能力并有助于弥合模拟到真实世界的差距,以及(ii) 选择低层技能的高层控制器;(2) 实现零样本模拟到真实的技术,包括迭代方法来定义基于真实世界的任务分布并定义自动课程;以及(3) 对未知对手进行实时调整。通过29场机器人对人类的比赛评估了策略表现,其中机器人赢得了45%的比赛(13/29)。所有人类选手都是未知的,并且他们的技能水平从初学者到比赛水平不等。虽然机器人在与最高级别选手的比赛中全部失败,但在与初学者的比赛中赢得了100%的比赛,在与中级选手的比赛中赢得了55%的比赛,展示了扎实的业余人类水平表现。比赛视频可在以下网址观看:https://sites.google.com/view/competitive-robot-table-tennis
大型语言模型(LLMs)在像HumanEval和MBPP这样的独立代码任务中表现出色,但在处理整个代码库方面表现不佳。这一挑战促使研究人员致力于增强LLM-代码库交互的规模。目前的解决方案依赖于基于相似度的检索或手动工具和API,每种方法都有显著的缺点。基于相似度的检索在复杂任务中通常召回率低,而手动工具和API通常是针对特定任务的,需要专业知识,降低了它们在不同代码任务和实际应用中的泛化能力。为了缓解这些限制,我们引入了\framework,这是一个系统,将从代码库中提取的图数据库接口与LLM代理集成。通过利用图数据库的结构特性和图查询语言的灵活性,\framework使LLM代理能够构建和执行查询,实现精确的、了解代码结构的上下文检索和代码导航。我们使用三个基准测试评估了\framework:CrossCodeEval、SWE-bench和EvoCodeBench。此外,我们开发了五个真实世界的编码应用程序。通过统一的图数据库模式,\framework展示了在学术和实际环境中的竞争性表现和潜力,展示了它在软件工程中的多功能性和有效性。我们的应用演示: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval是一个全面的人工智能安全测试工具包,旨在评估大型语言模型(LLMs)。它适用于各种模型,包括开放权重和基于API的模型,并涵盖超过35个安全基准,涵盖多语言安全、夸张安全和提示注入等领域。该框架支持LLM和评测基准,并整合了自定义变异器,用于针对各种文本风格变异(如将来时和释义)测试安全性。此外,WalledEval引入了WalledGuard,一个新的、小巧且高效的内容管理工具,以及SGXSTest,一个用于评估文化背景下夸张安全性的基准。我们将WalledEval公开发布在https://github.com/walledai/walledevalA。
最近,3D高斯喷洒(3DGS)作为一种新兴的表示形式出现,利用基于3D高斯的表示并引入了近似体积渲染,实现了非常快速的渲染速度和有前景的图像质量。此外,随后的研究成功地将3DGS扩展到动态3D场景,展示了其广泛的应用范围。然而,一个重要的缺点是,3DGS及其后续方法需要大量的高斯点来保持渲染图像的高保真度,这需要大量的内存和存储空间。为了解决这一关键问题,我们特别强调两个关键目标:减少高斯点的数量而不牺牲性能,并压缩高斯属性,如视角相关颜色和协方差。为此,我们提出了一种可学习的掩模策略,显著减少了高斯点的数量,同时保持了高性能。此外,我们提出了一种紧凑而有效的视角相关颜色表示,采用基于网格的神经场,而不是依赖于球谐函数。最后,我们通过残差向量量化学习码书,紧凑地表示几何和时间属性。通过模型压缩技术,如量化和熵编码,我们相对于静态场景的3DGS一直展示了超过25倍的存储减少和增强的渲染速度,同时保持了场景表示的质量。对于动态场景,我们的方法实现了超过12倍的存储效率,并与现有的最先进方法相比保持了高质量的重建。我们的工作为3D场景表示提供了一个全面的框架,实现了高性能、快速训练、紧凑性和实时渲染。我们的项目页面位于https://maincold2.github.io/c3dgs/。
最近的图像生成模型擅长根据简短描述创建高质量图像。然而,在遇到长篇上下文时,它们未能保持多个实例在图像间的一致性。这种不一致主要是由于现有训练数据集中缺乏实例特征标注。为了解决这些问题,我们引入了Openstory++,这是一个大规模数据集,结合了额外的实例级注释、图像和文本。此外,我们开发了一种训练方法,强调实体为中心的图像-文本生成,确保模型学会有效地交织视觉和文本信息。具体来说,Openstory++简化了从开放域视频中提取关键帧的过程,利用视觉-语言模型生成标题,然后由大型语言模型进行润色以保持叙事连贯性。它通过提供更广泛的开放域资源,包括自动字幕生成、针对实例计数量身定制的高分辨率图像以及用于时间一致性的广泛帧序列,超越了先前的数据集。此外,我们提出了Cohere-Bench,一个开创性的基准框架,用于评估在提供长多模态上下文时的图像生成任务,包括保持给定上下文中背景、风格和实例的连贯性能力。与现有基准相比,我们的工作填补了多模态生成中的关键空白,推动了能够熟练生成和解释开放域环境中复杂叙事的模型的发展。在Cohere-Bench中进行的实验证实了Openstory++在培养高质量视觉叙事模型方面的优越性,增强了它们解决开放域生成任务的能力。更多详细信息请访问https://openstorypp.github.io/。
我们介绍了Speech-MASSIVE,这是一个多语言口语语言理解(SLU)数据集,包括MASSIVE文本语料库的语音对应部分。Speech-MASSIVE涵盖了来自不同语系的12种语言,并继承了MASSIVE的意图预测和槽填充任务的注释。我们的扩展是由于极度多语言SLU数据集的稀缺性以及对评估跨语言和任务的基础模型(LLMs、语音编码器)所需的多功能语音数据集的增长需求。我们提供了一个多模态、多任务、多语言数据集,并在各种训练场景(零-shot、少-shot和完全微调)中使用级联和端到端架构报告了SLU基线。此外,我们展示了Speech-MASSIVE适用于对其他任务进行基准测试,如语音转录、语言识别和语音翻译。该数据集、模型和代码可在以下网址公开获取:https://github.com/hlt-mt/Speech-MASSIVE
基于可微体积渲染的方法在新视角合成方面取得了显著进展。一方面,创新方法已经用局部参数化结构取代了神经辐射场(NeRF)网络,使得在合理时间内能够实现高质量渲染。另一方面,一些方法采用了可微喷洒技术,而不是NeRF的光线投射,通过高斯核快速优化辐射场,实现对场景的精细适应。然而,尽管喷洒技术能够实现快速渲染,但对明显可见的伪影很敏感,而对于不规则间隔核的可微光线投射研究却鲜有涉及。 我们的工作通过提供发射辐射c和密度σ的物理一致性公式,将其分解为与球面高斯/谐波相关的高斯函数,实现全频色度表示。我们还引入了一种方法,通过一种集成辐射场的分块逐层进行的算法,并利用BVH结构,实现了对不规则分布高斯的可微光线投射。这使得我们的方法能够在避免喷洒技术伪影的同时,对场景进行精细调整。因此,我们在保持合理训练时间的同时,实现了比现有技术更优越的渲染质量,并在Blender数据集上实现了每秒25帧的推理速度。项目页面包含视频和代码:https://raygauss.github.io/
本文提出了一种将动画图形分解为精灵(sprites)的方法,精灵是一组基本元素或层。我们的方法建立在优化精灵参数以适应光栅视频的基础上。为了提高效率,我们假设精灵的静态纹理,以减少搜索空间,同时利用纹理先验模型来防止伪影。为了进一步加快优化过程,我们引入了利用预训练视频对象分割模型和用户输入的单帧注释初始化精灵参数的方法。为了进行研究,我们从在线设计服务构建了Crello Animation数据集,并定义了用于衡量提取精灵质量的定量指标。实验证明,我们的方法在质量/效率权衡方面明显优于类似分解任务的基准方法。
电影音频源分离(CASS)是音频源分离的一个相对较新的子任务。CASS的典型设置是一个三音频源问题,旨在将混合音频分离为对话音频源(DX)、音乐音频源(MX)和效果音频源(FX)。然而,在实践中存在一些边缘情况,因为一些声音源无法清晰地归类为这三种音频源之一,需要在制作中使用额外的辅助音频源。一个非常常见的边缘情况是电影音频中的歌声,它可能属于DX或MX,这取决于电影背景。在这项工作中,我们展示了专用解码器Bandit和基于查询的单解码器Banquet模型对四音频源问题的非常直接的扩展,将非音乐对话、器乐音乐、歌声和效果分别作为独立的音频源进行处理。有趣的是,基于查询的Banquet模型表现优于专用解码器Bandit模型。我们假设这是由于由泛音频FiLM层强制执行的更好的特征对齐在瓶颈处。数据集和模型实现将在https://github.com/kwatcharasupat/source-separation-landing 上提供。