每日精选AI研究论文及翻译
如今,最先进的多模态模型仍然是专有的。最强大的开放权重模型在很大程度上依赖于专有VLMs生成的合成数据,以实现良好的性能,有效地将这些封闭模型提炼为开放模型。因此,社区仍然缺乏关于如何从零开始构建高性能VLMs的基础知识。我们提出了Molmo,这是一类在其开放性类别中处于最先进水平的新型VLMs。我们的关键创新是一种新颖、高度详细的图像描述数据集,完全由人类注释者使用基于语音的描述收集而成。为了实现各种用户交互,我们还引入了一个包含野外问答和创新的二维指向数据的多样化数据集混合用于微调。我们方法的成功依赖于对模型架构细节的精心选择、良好调整的训练流程,以及最为关键的是我们新收集的数据集的质量,所有这些都将被发布。Molmo系列中的最佳72B模型不仅在开放权重和数据模型类别中胜过其他模型,而且在学术基准测试和人类评估方面也与专有系统如GPT-4o、Claude 3.5和Gemini 1.5相比表现出色。 我们将在不久的将来发布我们所有的模型权重、字幕和微调数据,以及源代码。部分模型权重、推断代码和演示可在https://molmo.allenai.org 上获取。
传统上,大型语言模型的预训练依赖于人类专家制定启发式规则以改善语料库质量,迄今已制定了许多规则。然而,这些规则缺乏灵活性,无法有效解决每个示例的独特特征。同时,为每个示例应用量身定制的规则对人类专家来说是不切实际的。在本文中,我们展示即使是拥有仅0.3B参数的小型语言模型也可以表现出与人类专家相当的显著数据细化能力。我们引入了“为每个示例编程”(ProX)的新颖框架,将数据细化视为编程任务,使模型能够通过生成和执行细粒度操作(如字符串规范化)来细化语料库,以规模化地处理每个个别示例。实验结果表明,在经过ProX筛选的数据上预训练的模型在各种下游基准测试中表现优于原始数据或通过其他选择方法筛选的数据超过2%。其有效性跨越各种模型大小和预训练语料库,包括C4、RedPajama-V2和FineWeb。此外,ProX在领域特定的持续预训练中展现出显著潜力:在没有领域特定设计的情况下,经ProX细化的OpenWebMath训练的模型优于人工制定的基于规则的方法,将平均准确率提高了7.6%,对于Llama-2-7B和CodeLlama-7B分别提高了14.6%和20.3%,在10B标记内与Llemma-7B等模型可比的情况下,超过了Mistral-7B。进一步的分析突显了ProX显著节省了训练FLOPs,为高效LLM预训练提供了一个有前途的途径。我们正在以>100B语料库、模型的形式开源ProX,并分享所有训练和实现细节,以便进行可重复研究和未来创新。代码:https://github.com/GAIR-NLP/ProX
大型语言模型(LLMs)在自然语言处理方面展现出卓越的能力,然而,它们的事实不准确和幻觉限制了它们的应用,特别是在诸如医疗保健等关键领域。通过引入相关信息作为输入,上下文检索方法已成为增强LLM事实性和可靠性的关键方法。本研究探讨了上下文检索方法在医疗保健领域的边界,优化了它们的组件,并将它们的性能与开放和封闭的替代方案进行了基准测试。我们的研究结果显示,当使用经过优化的检索系统增强的开放LLMs时,可以在已建立的医疗保健基准测试(多项选择题回答)上实现与最大的私有解决方案相媲美的性能。我们认识到在问题中包含可能答案的缺乏现实性(这种设置仅在医学考试中找到),并在评估到在没有这些选项的情况下强大的LLM性能下降后,我们将上下文检索系统扩展到这个方向。具体而言,我们提出了OpenMedPrompt,这是一个改进更可靠的开放式答案生成的流程,将这项技术更接近实际应用。
利用预训练的2D扩散模型和分数蒸馏采样(SDS),最近的方法展示了文本到3D头像生成方面的有希望的结果。然而,生成具有表现力动画能力的高质量3D头像仍然具有挑战性。在这项工作中,我们提出了DreamWaltz-G,一个用于从文本生成可动画的3D头像的新型学习框架。该框架的核心在于基于骨骼引导的分数蒸馏和混合3D高斯头像表示。具体而言,所提出的骨骼引导分数蒸馏将3D人体模板的骨骼控制集成到2D扩散模型中,增强了在视角和人体姿势方面的SDS监督的一致性。这有助于生成高质量的头像,减轻了诸如多个面部、额外肢体和模糊等问题。所提出的混合3D高斯头像表示建立在高效的3D高斯基础上,结合了神经隐式场和参数化的3D网格,实现了实时渲染、稳定的SDS优化和表现力动画。大量实验证明DreamWaltz-G在生成和动画化3D头像方面非常有效,在视觉质量和动画表现力方面优于现有方法。我们的框架进一步支持各种应用,包括人类视频再现和多主体场景合成。
最近,可微分渲染和神经渲染的发展在各种2D和3D任务中取得了令人瞩目的突破,例如新视角合成、3D重建。通常,可微分渲染依赖于对场景进行密集视点覆盖,以便仅通过外观观察就能将几何形状与之区分开来。当只有少量输入视图可用时,会出现一些挑战,通常被称为稀疏或少样本神经渲染。由于这是一个欠约束的问题,大多数现有方法引入了正则化的使用,以及各种学习和手工制作的先验。稀疏渲染文献中一个经常出现的问题是缺乏一个统一的、最新的数据集和评估协议。在密集重建文献中,高分辨率数据集是标准的,而稀疏渲染方法通常使用低分辨率图像进行评估。此外,数据拆分在不同文献中不一致,测试的地面真实图像通常是公开的,这可能导致过拟合。在这项工作中,我们提出了稀疏渲染(SpaRe)数据集和基准。我们引入了一个新的数据集,遵循DTU MVS数据集的设置。该数据集由基于合成高质量资产的97个新场景组成。每个场景最多具有64个相机视图和7种光照配置,分辨率为1600x1200。我们发布了82个场景的训练拆分,以促进通用方法,并为验证和测试集提供了一个在线评估平台,其中地面真实图像保持隐藏。我们提出了两种不同的稀疏配置(分别为3和9个输入图像)。这为可重现的评估提供了一个强大且便捷的工具,使研究人员能够轻松访问具有最先进性能得分的公共排行榜。网址:https://sparebenchmark.github.io/
基于扩散的图像超分辨率(SR)方法通过利用大型预训练的文本到图像扩散模型作为先验取得了显著成功。然而,这些方法仍然面临两个挑战:为了获得令人满意的结果需要数十个采样步骤,这限制了在实际场景中的效率,并且忽视了退化模型,这是解决SR问题中关键的辅助信息。在这项工作中,我们引入了一种新颖的一步SR模型,显著解决了基于扩散的SR方法的效率问题。与现有的微调策略不同,我们为SR专门设计了一个基于退化引导的低秩适应(LoRA)模块,根据从低分辨率图像中预估的退化信息纠正模型参数。这个模块不仅有助于强大的数据相关或退化相关SR模型,而且尽可能保留了预训练扩散模型的生成先验。此外,我们通过引入在线负样本生成策略量身定制了一种新颖的训练流程。结合推断过程中无分类器的引导策略,大大提高了超分辨率结果的感知质量。大量实验证明了所提出模型相对于最近的最先进方法具有卓越的效率和有效性。
我们提出了一种新颖的方法,用于在需要两只手协调控制的任务中,合成物理模拟手的灵巧运动,要求控制两只手之间具有高时间精度的协调。我们的方法不是直接学习控制两只手的联合策略,而是通过合作学习进行双手控制,其中每只手被视为一个独立的代理。首先分别训练每只手的个体策略,然后通过在集中环境中进行潜在空间操作来使它们同步,以作为双手控制的联合策略。通过这种方式,我们避免直接在两只手的联合状态-动作空间中进行策略学习,极大地提高了整体训练效率。我们在具有挑战性的吉他演奏任务中展示了我们提出的方法的有效性。通过我们的方法训练的虚拟吉他手可以从一般吉他演奏练习动作的非结构化参考数据中合成动作,并根据不存在于参考中的输入吉他谱准确演奏具有复杂和弦按和弦拨模式的多样节奏。除本文外,我们还提供了我们收集的用作策略训练参考的动作捕捉数据。代码可在以下网址获取:https://pei-xu.github.io/guitar。
大型语言模型(LLMs)已经彻底改变了软件工程(SE),在各种编码任务中展示出卓越的能力。尽管最近的努力已经基于LLMs为端到端开发任务创建了自主软件代理,但这些系统通常是为特定的SE任务而设计的。我们介绍了HyperAgent,这是一个新颖的通用多代理系统,旨在通过模仿人类开发者的工作流程来解决不同编程语言中广泛的SE任务。HyperAgent由四个专门的代理组成 - 规划者、导航者、代码编辑器和执行者。HyperAgent管理SE任务的整个生命周期,从最初的构思到最终的验证。通过广泛的评估,HyperAgent在各种SE任务中实现了最先进的性能:在GitHub问题解决方案方面,它在SWE-Bench-Lite上取得了25.01%的成功率,在SWE-Bench-Verified上取得了31.40%的成功率,超过了现有方法。此外,HyperAgent在存储库级别的代码生成(RepoExec)以及故障定位和程序修复(Defects4J)方面展现了最先进的性能,通常优于专门的系统。这项工作代表了朝着能够处理各种领域和语言中复杂的多步SE任务的多才多艺的自主代理迈出的重要一步,有可能改变AI辅助软件开发实践。
视频已成为信息共享和消费的流行媒体形式。然而,在观看视频时做笔记需要大量的时间和精力。为了解决这个问题,我们提出了一种新颖的交互式系统,名为NoTeeline,用于实时、个性化的笔记记录。NoTeeline允许用户快速记录要点(微型笔记),这些要点会自动扩展为捕捉用户微型笔记内容并与用户书写风格一致的完整笔记。在一项受试者内研究中(N=12),我们发现NoTeeline有助于用户创建高质量的笔记,这些笔记以更高的事实正确性(93.2%)捕捉了微型笔记的本质,同时准确反映了他们的书写风格。在使用NoTeeline时,参与者经历了显著减少的心理努力,写下的文字减少了47%,完成记笔记的时间比手动记笔记基准减少了43.9%。
基于视觉的 无人机 地理定位技术,作为全球导航卫星系统(GNSS)之外的 GPS 信息的辅助来源,仍然可以在无 GPS 环境中独立运行。最近基于深度学习的方法将其归因为图像匹配和检索任务。通过在地理标记的卫星图像数据库中检索 无人机 视角图像,可以获得近似的定位信息。然而,由于高昂的成本和隐私问题,通常很难获得大量连续区域的 无人机 视角图像。现有的 无人机 视角数据集主要由小规模航拍组成,强烈假设对于任何查询都存在一个完美的一对一对齐参考图像,这与实际定位场景存在显著差距。在这项工作中,我们构建了一个名为 GTA-UAV 的大范围连续区域 无人机 地理定位数据集,利用现代电脑游戏展示多个飞行高度、姿态、场景和目标。基于该数据集,我们引入了一个更实际的 无人机 地理定位任务,包括跨视图配对数据的部分匹配,并将图像级的检索扩展到实际距离(米)上的定位。为了构建 无人机 视角和卫星视角对,我们采用基于权重的对比学习方法,这样可以在避免额外后处理匹配步骤的同时实现有效学习。实验证明了我们的数据和训练方法对于 无人机 地理定位的有效性,以及对真实场景的泛化能力。
我们介绍了一个新颖的框架,从单目视频中学习全身说话人的动态神经辐射场(NeRF)。先前的研究仅表示身体姿势或面部。然而,人类通过全身进行交流,结合身体姿势、手势以及面部表情。在这项工作中,我们提出了TalkinNeRF,一个基于统一NeRF的网络,表示整体的4D人体运动。给定一个主体的单目视频,我们学习相应的身体、面部和手部模块,将它们组合在一起生成最终结果。为了捕捉复杂的手指关节运动,我们学习了额外的手部变形场。我们的多身份表示使得能够同时训练多个主体,并在完全看不见的姿势下进行稳健的动画。它还可以推广到新的身份,仅需短视频作为输入。我们展示了在为全身说话人进行动画时的最先进性能,具有精细的手部关节运动和面部表情。
我们提出了一种简单的自监督方法来解决“跟踪任意点”(TAP)问题。我们训练一个全局匹配变压器,通过对比随机游走来找到视频中的循环一致轨迹,利用变压器基于注意力的全局匹配来定义空间-时间图上的随机游走的转移矩阵。能够执行“全对比”点之间的比较使模型能够获得高空间精度并获得强对比学习信号,同时避免了许多最近方法的复杂性(如粗到细的匹配)。为此,我们提出了一些设计决策,允许全局匹配架构通过自监督训练使用循环一致性。例如,我们发现基于变压器的方法对快捷解决方案很敏感,并提出了一个数据增强方案来解决这个问题。我们的方法在TapVid基准测试中取得了很好的性能,优于以前的自监督跟踪方法,如DIFT,并且与几种监督方法具有竞争力。