每日精选AI研究论文及翻译
现代人工智能(AI)系统由基础模型驱动。 本文介绍了一组新的基础模型,名为Llama 3。它是一群语言模型,本地支持多语言、编码、推理和工具使用。我们最大的模型是一个参数为405B的密集Transformer,上下文窗口可达128K个标记。本文对Llama 3进行了广泛的实证评估。我们发现,Llama 3在大量任务上提供了与领先的语言模型(如GPT-4)相媲美的质量。我们公开发布了Llama 3,包括经过预训练和后期训练的405B参数语言模型,以及我们的用于输入和输出安全性的Llama Guard 3模型。本文还介绍了一系列实验结果,我们通过组合方法将图像、视频和语音能力整合到Llama 3中。我们观察到,这种方法在图像、视频和语音识别任务上表现出与最先进技术相竞争的性能。由此产生的模型尚未广泛发布,因为它们仍在开发中。
最近对扩散变压器(DiT)的进展展示了在生成高质量视频内容方面的显著熟练度。然而,基于变压器的扩散模型在有效生成具有可控运动的视频方面的潜力仍是一个探索有限的领域。本文介绍了Tora,这是第一个面向轨迹的DiT框架,同时整合了文本、视觉和轨迹条件用于视频生成。具体而言,Tora 包括轨迹提取器(TE)、时空DiT和运动引导融合器(MGF)。TE将任意轨迹编码为具有层次结构的时空运动块,使用3D视频压缩网络。MGF将这些运动块整合到DiT块中,生成遵循轨迹的连贯视频。我们的设计与DiT的可扩展性完美契合,可以精确控制视频内容的动态特性,包括不同持续时间、宽高比和分辨率。大量实验表明,Tora 在实现高运动保真度方面表现出色,同时精细地模拟了物理世界的运动。页面链接:https://ali-videoai.github.io/tora_video。
我们介绍了MoMa,一种新颖的面向模态的专家混合(MoE)架构,旨在为预训练混合模态、早期融合语言模型提供支持。MoMa通过将专家模块划分为模态特定的组,在任意顺序中处理图像和文本。这些组专门处理指定的标记,同时在每个组内采用学习路由以保持语义上的适应性。我们的实证结果显示,通过这种模态特定的参数分配,可以实现显著的预训练效率提升。在1万亿标记的训练预算下,MoMa 1.4B模型,包括4个文本专家和4个图像专家,实现了令人印象深刻的FLOPs节约:总体为3.7倍,其中文本为2.6倍,图像为5.2倍,与计算等效的密集基线相比,由预训练损失测量。这优于具有8个混合模态专家的标准专家选择MoE,后者实现了总体FLOPs节约3倍(文本为3倍,图像为2.8倍)。将MoMa与深度混合(MoD)相结合进一步提高了预训练FLOPs节约至总体4.2倍(文本为3.4倍,图像为5.3倍),尽管这种组合由于对路由器准确性的增加敏感性而损害了因果推断的性能。这些结果展示了MoMa在显著推进混合模态、早期融合语言模型预训练效率方面的潜力,为更具资源效率和能力的多模态人工智能系统铺平了道路。
本文介绍了Cross Language Agent - Simultaneous Interpretation(CLASI),这是一个高质量且类人化的Simultaneous Speech Translation(SiST)系统。受专业人类口译员启发,我们采用了一种新颖的数据驱动的读写策略来平衡翻译质量和延迟。为了解决领域术语翻译的挑战,CLASI采用了多模态检索模块来获取相关信息以增强翻译。在LLMs的支持下,我们的方法可以通过考虑输入音频、历史上下文和检索到的信息来生成容错翻译。实验结果显示,我们的系统在性能上明显优于其他系统。与专业人类口译员一致,我们使用更好的人类评估指标VIP(valid information proportion)来评估CLASI,该指标衡量了成功传达给听众的信息量。在现实场景中,演讲通常不流畅、非正式且不清晰,在中译英和英译中方向上,CLASI分别实现了81.3%和78.0%的VIP。相比之下,最先进的商业或开源系统仅实现了35.4%和41.6%。在其他系统仅实现不到13% VIP的极具挑战的数据集上,CLASI仍然可以实现70%的VIP。
我们提出了ShieldGemma,这是基于Gemma2构建的基于LLM的全面安全内容调节模型套件。这些模型可在用户输入和LLM生成的输出中,对关键危害类型(性暴露、危险内容、骚扰、仇恨言论)提供强大的、最先进的安全风险预测。通过在公共和内部基准上进行评估,我们展示了与现有模型(如Llama Guard,在公共基准上+10.8\% AU-PRC,WildCard上+4.3\%)相比的卓越性能。此外,我们提出了一种新颖的基于LLM的数据筛选管道,可适用于各种安全相关任务及其他领域。我们展示了主要基于合成数据训练的模型具有强大的泛化性能。通过发布ShieldGemma,我们为研究社区提供了宝贵资源,推动了LLM安全领域的发展,为开发人员创造更有效的内容调节解决方案提供了可能。
第一届数据污染研讨会(CONDA 2024)侧重于自然语言处理中数据污染的所有相关方面,其中数据污染被理解为评估数据包含在用于训练大规模模型的预训练语料库中的情况,从而损害评估结果。该研讨会促进了一个共享任务,以收集关于当前可用数据集和模型中数据污染的证据。共享任务及相关数据库的目标是帮助社区了解问题的程度,并帮助研究人员避免在已知受污染资源上报告评估结果。共享任务提供了一个结构化、集中的公共数据库,用于收集污染证据,欢迎社区通过GitHub池请求进行贡献。这篇首次汇编论文基于来自23位贡献者的总共91个受污染来源的566个报告条目。各个污染事件的详细信息可在平台上找到。该平台仍然在线,欢迎社区的贡献。
音视频语义分割(AVSS)旨在利用声音线索在视频中对声音对象进行分割和分类。然而,大多数方法基于封闭集假设运作,并且仅从训练数据中识别预定义类别,缺乏在实际应用中检测新类别的泛化能力。本文介绍了一个新任务:开放词汇音视频语义分割,将AVSS任务扩展到超出注释标签空间的开放世界场景。这是一个更具挑战性的任务,需要识别所有类别,甚至是在训练过程中从未见过或听说过的类别。此外,我们提出了第一个开放词汇AVSS框架,OV-AVSS,主要包括两部分:1)通用声源定位模块,执行音视频融合并定位所有潜在声音对象;2)开放词汇分类模块,利用大规模预训练视觉语言模型的先验知识来预测类别。为了正确评估开放词汇AVSS,我们基于AVSBench-semantic基准将零样本训练和测试子集进行了划分,即AVSBench-OV。大量实验证明了我们的模型在所有类别上具有强大的分割和零样本泛化能力。在AVSBench-OV数据集上,OV-AVSS在基础类别上达到了55.43%的mIoU,在新颖类别上达到了29.14%的mIoU,超过了最先进的零样本方法分别为41.88%/20.61%,以及开放词汇方法分别为10.2%/11.6%。源代码可在https://github.com/ruohaoguo/ovavss找到。
我们介绍了伯克利人形机器人,这是一个可靠且低成本的中等规模人形机器人研究平台,用于基于学习的控制。我们自行设计的轻量级机器人专为具有低仿真复杂性、类人动作和高抗摔倒可靠性的学习算法而设计。该机器人窄小的仿真到真实差距实现了在户外环境中通过简单的强化学习控制器和轻量级领域随机化实现敏捷且稳健的跨越各种地形的步行。此外,我们展示了机器人在数百米范围内行走,走在陡峭的未铺设小径上,并以单腿和双腿跳跃,证明了其在动态步行中的高性能。我们的系统能够实现全向运动并以紧凑的设置承受大幅干扰,旨在实现基于学习的人形系统的可扩展仿真到真实部署。请访问http://berkeley-humanoid.com了解更多详情。
面部表情和手势对于表达我们的情绪并与世界互动至关重要。然而,大多数从随意拍摄的视频中建模的3D人类化身仅支持身体动作,而不支持面部表情和手势。在这项工作中,我们提出了ExAvatar,这是一个从短单目视频中学习到的富有表现力的全身3D人类化身。我们将ExAvatar设计为整体参数网格模型(SMPL-X)和3D高斯斑点(3DGS)的组合。主要挑战在于视频中面部表情和姿势的多样性有限,以及缺乏3D观测,如3D扫描和RGBD图像。视频中的多样性有限使得具有新颖面部表情和姿势的动画变得不容易。此外,缺乏3D观测可能导致视频中未观察到的人体部位存在显著的歧义,这可能会在新颖动作下产生明显的伪影。为了解决这些问题,我们引入了网格和3D高斯的混合表示。我们的混合表示将每个3D高斯视为表面上的一个顶点,并在它们之间根据SMPL-X的网格拓扑(即三角面)提供预定义的连接信息。这使得我们的ExAvatar可以通过驱动SMPL-X的面部表情空间来实现具有新颖面部表情的动画。此外,通过使用基于连接性的正则化器,我们显著减少了在新颖面部表情和姿势中出现的伪影。
作者身份混淆旨在通过改变写作风格、词汇、句法和其他与文本作者相关的语言特征来掩盖作者的身份。这种改变需要在隐私和实用性之间取得平衡。虽然强大的混淆技术可以有效地隐藏作者的身份,但它们通常会降低文本的质量和实用性,不利于其预期用途。相反,保持高实用性往往会提供不足的隐私,使对手更容易对作者进行去匿名化。因此,在这两个相互冲突的目标之间实现最佳权衡至关重要。在本文中,我们提出了TAROT:基于任务的作者身份混淆使用策略优化,这是一种新的无监督作者身份混淆方法,其目标是通过重新生成整个文本来考虑其下游实用性,从而优化隐私和实用性之间的权衡。我们的方法利用策略优化作为对小语言模型进行微调的范式,以重写文本,同时保留作者身份和下游任务实用性。我们展示了我们的方法大大降低了攻击者的准确性,同时保持了实用性。我们公开提供我们的代码和模型。
当前的视觉基础模型仅基于非结构化的2D数据进行训练,限制了它们对物体和场景的3D结构的理解。在这项研究中,我们展示了在3D感知数据上微调可以提高新兴语义特征的质量。我们设计了一种方法,将语义2D特征转换为高效的3D高斯表示,这使我们能够为任意视角重新渲染它们。利用渲染的3D感知特征,我们设计了一种微调策略,将这种3D感知转移到2D基础模型中。我们证明,通过这种方式微调的模型产生的特征能够通过简单的线性探测显著改善语义分割和深度估计等下游任务的性能。值得注意的是,尽管在单个室内数据集上进行微调,但改进是可以转移到各种室内数据集和域外数据集的。我们希望我们的研究能够鼓励社区在训练2D基础模型时考虑注入3D感知。项目页面:https://ywyue.github.io/FiT3D。
将时间维度纳入预训练的图像扩散模型用于视频生成是一种普遍的方法。然而,这种方法在计算上要求很高,并需要大规模的视频数据集。更为关键的是,图像和视频数据集之间的异质性通常会导致图像专业知识的灾难性遗忘。最近直接从图像扩散模型中提取视频片段的尝试在一定程度上缓解了这些问题。然而,这些方法只能生成简短的视频剪辑,具有简单的运动,并且无法捕捉细粒度运动或非网格变形。在本文中,我们提出了一种新颖的零样本视频采样算法,称为ZS^2,能够直接从现有的图像合成方法(如稳定扩散)中采样高质量的视频剪辑,而无需任何训练或优化。具体而言,ZS^2利用依赖噪声模型和时间动量注意力来确保内容一致性和动画连贯性。这种能力使其在相关任务中表现出色,例如条件和上下文专门化视频生成以及指导视频编辑。实验结果表明,ZS^2在零样本视频生成方面取得了最先进的性能,在某些情况下甚至优于最近的监督方法。 主页:https://densechen.github.io/zss/。
神经场在计算机视觉和机器人领域表现出色,因为它们能够理解三维视觉世界,如推断语义、几何和动态。鉴于神经场在密集表示从二维图像中生成三维场景的能力,我们提出一个问题:我们能否扩展它们的自监督预训练,特别是使用遮罩自编码器,以从姿态RGB图像中生成有效的三维表示。由于将Transformer扩展到新的数据模态取得了惊人成功,我们采用标准的三维视觉Transformer来适应NeRF的独特表达形式。我们利用NeRF的体积网格作为Transformer的密集输入,与其他三维表示(如点云)形成对比,其中信息密度可能不均匀,表示不规则。由于将遮罩自编码器应用于隐式表示(如NeRF)的困难,我们选择提取显式表示,通过利用摄像机轨迹进行采样,以规范化跨领域的场景。我们的目标是通过从NeRF的辐射和密度网格中遮蔽随机补丁,并利用标准的三维Swin Transformer来重建被遮蔽的补丁,从而使模型能够学习完整场景的语义和空间结构。我们在我们提出的精心策划的姿态RGB数据上以规模预训练这种表示,总计超过180万张图像。一旦预训练完成,编码器就可用于有效的三维迁移学习。我们为NeRF提出的新型自监督预训练方法NeRF-MAE扩展得非常出色,并提高了各种具有挑战性的三维任务的性能。利用未标记的姿态二维数据进行预训练,NeRF-MAE在Front3D和ScanNet数据集上显著优于自监督三维预训练和NeRF场景理解基线,三维物体检测的AP50和AP25绝对性能提升超过20%和8%。