每日精选AI研究论文及翻译
我们引入了一个新颖的基准测试,用于评估语言模型的角色扮演能力。我们的方法利用语言模型本身来模拟用户在动态的多轮对话中的表现,并评估生成的对话。该框架包括三个主要组件:扮演特定角色的玩家模型、模拟用户行为的询问者模型,以及评估对话质量的评判者模型。我们进行了实验,将自动化评估与人类注释进行比较,以验证我们的方法,结果显示在多个标准上存在很强的相关性。这项工作为在互动场景中对模型能力进行稳健而动态的评估奠定了基础。
大型语言模型(LLMs)在医疗应用领域的快速发展引发了对综合评估的呼吁,超越了像USMLE这样经常引用的基准,以更好地反映现实世界的性能。虽然现实世界的评估是有价值的效用指标,但它们往往落后于LLM演进的速度,可能导致部署后的发现过时。这种时间上的脱节要求进行全面的前期评估,以指导特定临床应用的模型选择。我们介绍了MEDIC,这是一个评估LLMs在临床能力的五个关键维度上的框架:医学推理、伦理和偏见、数据和语言理解、上下文学习以及临床安全性。MEDIC采用了一种新颖的交叉检验框架,量化LLM在覆盖范围和幻觉检测等领域的表现,而无需参考输出。我们应用MEDIC来评估LLMs在医学问答、安全性、摘要、笔记生成和其他任务上的表现。我们的结果显示了模型规模、基线与医学微调模型之间的性能差异,并对需要特定模型优势的应用的模型选择产生影响,例如低幻觉或较低推理成本。MEDIC的多方面评估揭示了这些性能权衡,弥合了理论能力与在医疗设置中的实际实施之间的差距,确保最有前途的模型被确定并为各种医疗应用所采用。
尽管基于语言模型的代理人在解决诸如网络导航等现实世界任务方面具有潜力,但目前的方法仍然在处理具有复杂动作轨迹的长视野任务时存在困难。相比之下,人类可以通过从过去经验中学习可重复使用的任务工作流程并利用它们指导未来行动来灵活解决复杂任务。为了构建能够从这一过程中获益的代理人,我们引入了代理人工作流记忆(AWM),这是一种诱导常被重复使用的例行程序,即工作流程,并有选择地向代理人提供工作流程以指导后续生成的方法。AWM灵活地适用于离线和在线场景,代理人可以事先从训练示例中诱导工作流程,或者在测试查询中即时生成。我们在两个主要的网络导航基准测试上进行了实验——Mind2Web和WebArena——涵盖了来自旅行、购物、社交媒体等200多个领域的1000多个任务。AWM显著提高了基线结果,在Mind2Web和WebArena上相对成功率分别提高了24.6%和51.1%,同时减少了成功解决WebArena任务所需的步骤数。此外,在线AWM在跨任务、网站和领域评估中具有稳健的泛化能力,在训练-测试任务分布差距扩大时,超过基线8.9至14.0个绝对点。
尽管在图像到3D生成方面取得了巨大进展,现有方法仍然难以生成具有高分辨率纹理细节的多视角一致图像,特别是在缺乏3D意识的2D扩散范式中。在这项工作中,我们提出了高分辨率图像到3D模型(Hi3D),这是一种基于视频扩散的新范式,将单个图像重新定义为多视角图像,作为具有3D意识的顺序图像生成(即轨道视频生成)。该方法深入研究了视频扩散模型中的基础时间一致性知识,这种知识在3D生成中能够很好地推广到多视角的几何一致性。从技术上讲,Hi3D首先通过3D意识先验(摄像机姿态条件)增强预训练的视频扩散模型,生成具有低分辨率纹理细节的多视角图像。然后学习了一种具有3D意识的视频到视频细化器,进一步扩大多视角图像的高分辨率纹理细节。这些高分辨率多视角图像通过3D高斯喷洒增加新颖视角,最终通过3D重建获得高保真度的网格。对新颖视角合成和单视角重建的大量实验表明,我们的Hi3D能够生成具有高度详细纹理的优质多视角一致图像。源代码和数据可在https://github.com/yanghb22-fdu/Hi3D-Official获取。
线性注意力变换器及其门控变体因实现并行训练和高效的循环推断而备受赞誉,但在与传统变换器相比的召回密集型任务中仍然表现不佳,并且需要大量资源从头开始训练。本文介绍了门控槽注意力(GSA),通过结合受门控线性注意力(GLA)启发的门控机制,将注意力与有界记忆控制(ABC)相结合,从而增强了注意力。基本上,GSA由两层GLA组成,通过softmax连接,利用上下文感知记忆读取和自适应遗忘来提高记忆容量,同时保持紧凑的循环状态大小。这种设计通过GLA的硬件高效训练算法和减小状态大小极大地提升了训练和推断效率。此外,保留softmax操作在“微调预训练的变换器到循环神经网络”(T2R)设置中特别有益,减少了需要从头开始广泛训练的需求。大量实验证实了GSA在需要上下文召回和T2R设置中的卓越性能。
思维链(Chain-of-Thought,CoT)提示显示,大型语言模型能够通过中间步骤进行复杂推理。CoT提示主要分为三种方法。第一种方法使用直接提示,如“让我们逐步思考”,以在给出答案之前生成顺序思维过程。第二种方法利用人工制作的逐步演示来引导模型的推理过程。第三种方法自动生成推理演示,采用“让我们逐步思考”。这种方法有时会导致推理错误,突显了多样化演示以减轻其误导效果的必要性。然而,多样化演示对于有效表示提出了挑战。在这项工作中,我们提出了ECHO,一种自我协调的思维链提示方法。它将多样的解决路径整合为统一且有效的解决方案模式。ECHO在三个推理领域中展示了最佳的整体性能。
gsplat是一个开源库,旨在用于训练和开发高斯光斑方法。它具有一个前端,具有与PyTorch库兼容的Python绑定,以及一个具有高度优化的CUDA核心的后端。gsplat提供了许多功能,可增强高斯光斑模型的优化,包括针对速度、内存和收敛时间的优化改进。实验结果表明,gsplat的训练时间比原始实现缩短了高达10%,内存使用减少了4倍。gsplat已被应用于多个研究项目,并在GitHub上得到积极维护。源代码可在https://github.com/nerfstudio-project/gsplat 下载,遵循Apache License 2.0。我们欢迎开源社区的贡献。
“一个想法无非是旧元素的新组合”(Young, J.W.)。大型语言模型(LLMs)的广泛应用和公开可用的ChatGPT标志着人工智能(AI)融入人们日常生活的重要转折点。本研究探讨了LLMs在基于研究论文信息生成新颖研究想法方面的能力。我们对化学、计算机、经济学、医学和物理等五个领域中的4个LLMs进行了彻底检查。我们发现,Claude-2和GPT-4生成的未来研究想法与作者观点更为一致,而GPT-3.5和Gemini则相对不太一致。此外,我们发现Claude-2生成的未来研究想法比GPT-4、GPT-3.5和Gemini 1.0更为多样化。我们进一步对生成的未来研究想法的新颖性、相关性和可行性进行了人类评估。这项研究揭示了LLMs在想法生成中不断演变的作用,突显了其能力和局限性。我们的工作有助于评估和利用语言模型生成未来研究想法的持续努力。我们公开提供我们的数据集和代码。
我们提出了GauFace,一种新颖的高斯飞溅表示法,专为高效动画和渲染基于物理的面部资产而设计。利用强大的几何先验和受限优化,GauFace确保了整洁和结构化的高斯表示,提供了高保真度和实时面部交互,可在骁龙8 Gen 2移动平台上以30fps@1440p的速度运行。 然后,我们介绍了TransGS,一种扩散变换器,可以即时将基于物理的面部资产转换为相应的GauFace表示。具体来说,我们采用基于补丁的流水线来有效处理大量的高斯函数。我们还引入了一种新颖的像素对齐采样方案,结合UV位置编码,以确保由我们的TransGS生成的GauFace资产的吞吐量和渲染质量。一经训练,TransGS可以即时将带有光照条件的面部资产转换为GauFace表示。通过丰富的调节模式,它还能够实现类似传统CG流水线的编辑和动画功能。 我们进行了广泛的评估和用户研究,与传统的离线和在线渲染器以及最近的神经渲染方法进行了比较,结果显示我们的方法在面部资产渲染方面表现出卓越的性能。我们还展示了使用我们的TransGS方法和GauFace表示的面部资产在各种平台上的多样沉浸式应用,包括PC、手机甚至VR头显。
我们提出了一个学习从视频输入生成背景音乐的框架。与现有依赖于符号音乐注释的作品不同,这些注释在数量和多样性上存在局限,我们的方法利用大规模网络视频及其背景音乐。这使得我们的模型能够学习生成逼真且多样化的音乐。为实现这一目标,我们开发了一个生成式视频音乐Transformer,其中包含一种新颖的语义视频音乐对齐方案。我们的模型采用联合自回归和对比学习目标,鼓励生成与高级视频内容对齐的音乐。我们还引入了一种新颖的视频-节拍对齐方案,以将生成的音乐节拍与视频中的低级运动匹配。最后,为捕捉生成逼真背景音乐所需的视频中的细粒度视觉线索,我们引入了一种新的时间视频编码器架构,使我们能够高效处理包含许多密集采样帧的视频。我们在我们新策划的DISCO-MV数据集上训练我们的框架,该数据集包含220万个视频音乐样本,比用于视频音乐生成的任何先前数据集都大得多。根据各种音乐生成评估指标,包括人类评估,我们的方法在DISCO-MV和MusicCaps数据集上优于现有方法。结果可在https://genjib.github.io/project_page/VMAs/index.html 查看。
近年来,蛋白质基础模型的发展迅猛,显著提高了蛋白质预测和生成任务的性能,涵盖了从3D结构预测和蛋白设计到构象动力学等领域。然而,由于缺乏统一的评估框架,这些模型的能力和局限性仍然知之甚少。为了填补这一空白,我们引入了ProteinBench,这是一个旨在增强蛋白质基础模型透明度的全面评估框架。我们的方法包括三个关键组成部分:(i)对任务进行分类,广泛涵盖蛋白质领域的主要挑战,基于不同蛋白质模态之间的关系;(ii)采用多指标评估方法,评估性能在质量、新颖性、多样性和稳健性四个关键维度上的表现;以及(iii)从各种用户目标进行深入分析,提供模型性能的全面视角。我们对蛋白质基础模型进行了全面评估,揭示了几个关键发现,阐明了它们当前的能力和局限性。为了促进透明度并促进进一步研究,我们公开发布了评估数据集、代码和一个公开的排行榜,供进一步分析和一个通用的模块化工具包。我们希望ProteinBench成为一个活跃的基准,建立一个标准化、深入的蛋白质基础模型评估框架,推动其发展和应用,同时促进领域内的合作。
鉴于大型语言模型(LLMs)在编写代码方面取得了显著进展,它们是否可以被用于自主复现研究存储库中的结果?这种能力将对研究社区产生积极影响,帮助研究人员验证、理解和拓展先前的工作。为了朝着这个目标迈进,我们引入了SUPER,这是第一个旨在评估LLMs在设置和执行来自研究存储库任务方面能力的基准。SUPER旨在捕捉与处理机器学习(ML)和自然语言处理(NLP)研究存储库相关的现实挑战。我们的基准包括三个不同的问题集:45个具有注释专家解决方案的端到端问题,从专家集合中衍生的152个子问题,专注于特定挑战(例如,配置训练器),以及602个自动生成的用于更大规模开发的问题。我们引入了各种评估措施来评估任务成功和进展,利用金标准解决方案(如果可用)或其他情况下的近似解决方案。我们展示了最先进方法在解决这些问题时遇到困难,最佳模型(GPT-4o)仅解决了端到端集合的16.3%,以及46.1%的场景。这说明了这一任务的挑战,并表明SUPER可以作为社区制定和衡量进展的宝贵资源。
本文介绍了MVLLaVA,这是一种专为新视角合成任务设计的智能代理。MVLLaVA将多个多视角扩散模型与大型多模型LLaVA相结合,使其能够高效处理各种任务。MVLLaVA代表了一个多才多艺且统一的平台,适应各种输入类型,包括单个图像、描述性标题或特定的视角变化,通过语言指令引导视角生成。我们精心设计了特定任务的指令模板,随后用于微调LLaVA。因此,MVLLaVA获得了根据用户指令生成新视角图像的能力,展示了其在各种任务中的灵活性。进行了实验证明了MVLLaVA的有效性,展示了其在处理各种新视角合成挑战中的稳健性和多才多艺性。
规模训练的生成模型现在能够生成文本、视频,以及最近甚至是科学数据,比如晶体结构。在将生成方法应用于材料科学,尤其是晶体结构的应用中,领域专家以高层指导形式对自动系统输出适用于下游研究的候选晶体的指导可能是至关重要的。在这项工作中,我们将端到端的语言到结构生成问题制定为多目标优化问题,并提出了用于可控生成晶体结构的生成式分层材料搜索(GenMS)。GenMS包括(1)一个接受高层自然语言输入并生成有关晶体的中间文本信息(例如化学式)的语言模型,以及(2)一个接受中间信息输入并生成低级连续值晶体结构的扩散模型。GenMS还使用图神经网络从生成的晶体结构中预测性质(例如形成能)。在推断过程中,GenMS利用这三个组件在可能结构空间上进行前向树搜索。实验证明,GenMS在满足用户请求和生成低能量结构方面均优于直接使用语言模型生成结构的其他替代方法。我们确认GenMS能够仅通过自然语言输入生成常见的晶体结构,如双钙钛矿或尖晶石,因此可以为不久的将来更复杂的结构生成奠定基础。