每日精选AI研究论文及翻译
BigCode社区是一个开放的科学合作社区,致力于负责任地开发用于代码的大型语言模型(Code LLMs)。该社区推出了StarCoder和StarCoderBase:这是具有155亿参数模型和8K上下文长度、填充功能以及通过多查询注意力实现快速大批量推理的模型。StarCoderBase是在来自The Stack的1万亿令牌数据上训练的,The Stack是一个包含许可证允许的大量GitHub存储库的集合,具有检查工具和选择退出流程。我们在35亿Python令牌上对StarCoderBase进行了微调,从而创建了StarCoder。我们对迄今为止最全面的Code LLMs进行了评估,并表明StarCoderBase优于每个支持多种编程语言的开放式Code LLM,并且与OpenAI的code-cushman-001模型相匹配或优于其。此外,StarCoder优于每个在Python上进行微调的模型,可以被提示以在HumanEval上实现40\%的一次通过率,并且仍保持其在其他编程语言上的性能。我们采取了几项重要措施来实现安全的开放式模型发布,包括改进的PII剔除管道和一种新颖的归因追踪工具,并将StarCoder模型以Open Responsible AI Model许可证的更具商业可行性版本公开提供。
在这项研究中,我们通过引入VideoChat系统,一个端到端以聊天为中心的视频理解系统,来探索视频理解。该系统通过可学习的神经接口将视频基础模型和大型语言模型整合在一起,在时空推理、事件定位和因果关系推断方面表现出色。为了有效地调整该系统,我们提出了一个以视频为中心的指导数据集,包含数千个视频、详细描述和对话。该数据集强调时空推理和因果关系,为训练以聊天为中心的视频理解系统提供了宝贵资料。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力,并为未来研究树立了标杆。访问我们的代码和数据:https://github.com/OpenGVLab/Ask-Anything
生成式人工智能(AIGC,又称AI生成内容)在过去几年取得了显著进展,其中以文本引导内容生成最为实用,因为它实现了人类指导与AIGC之间的互动。由于文本转图像以及三维建模技术(如NeRF)的发展,文本转三维已成为一个新兴且高度活跃的研究领域。我们的工作进行了首次全面调查文本转三维,以帮助对这一方向感兴趣的读者迅速了解其快速发展情况。首先,我们介绍了三维数据表示,包括欧几里得数据和非欧几里得数据。在此基础上,我们介绍了各种基础技术,并总结了最近的研究如何结合这些基础技术实现令人满意的文本转三维。此外,我们总结了文本转三维技术在各种应用中的使用,包括头像生成、纹理生成、形状转换和场景生成。
在各种应用中,如电影制作、电脑游戏或视频会议中,准确表现人类表现是至关重要的基础。为了缩小与生产级质量之间的差距,我们引入了HumanRF,这是一种4D动态神经场景表示,可以从多视角视频输入中捕捉人体全身运动外观,并能够从新颖、未见过的视角进行回放。我们的新颖表示形式充当动态视频编码,通过将时空分解为时间矩阵-向量分解,以高压缩率捕捉精细细节。这使我们能够获得人类演员的时间上连贯重建,即使在具有挑战性运动背景下,也能表示高分辨率细节。虽然大多数研究集中在合成4MP或更低分辨率,我们解决了在12MP分辨率下操作的挑战。为此,我们引入了ActorsHQ,这是一个新颖的多视角数据集,提供了来自160台摄像机的16个序列的12MP镜头,具有高保真度、逐帧网格重建。我们展示了使用这种高分辨率数据出现的挑战,并展示了我们新引入的HumanRF如何有效利用这些数据,从而在生产级质量的新视角合成方面迈出了重要一步。
由于需要进行3D扫描、繁琐的配准和手动绑定,构建可动画的3D模型具有挑战性,这些过程难以扩展到任意类别。最近,可微渲染提供了一条途径,可以从单眼视频中获得高质量的3D模型,但这些模型仅限于刚性类别或单个实例。我们提出了RAC,它可以从单眼视频中构建类别3D模型,同时分离实例间的变化和随时间的运动。为解决这一问题,引入了三个关键思想:(1)通过优化将骨架专门化到实例,(2)一种潜在空间正则化方法,鼓励跨类别共享结构,同时保留实例细节,以及(3)使用3D背景模型将物体与背景分离。我们展示了可以从50-100个互联网视频中学习人类、猫和狗的3D模型。
我们提出了集成多模态感知(IMP),这是一种简单且可扩展的多模态多任务训练和建模方法。IMP将包括图像、视频、文本和音频在内的多模态输入整合到一个带有最少模态特定组件的Transformer编码器中。IMP采用了一种新颖的设计,结合了交替梯度下降(AGD)和专家混合(MoE)以实现高效的模型和任务扩展。我们对IMP进行了大量实证研究,并揭示了以下关键见解:1)通过在不同异构模态、损失函数和任务上交替进行梯度下降更新,同时变化输入分辨率,可以有效提升多模态理解能力。2)在单一模态不可知编码器上使用MoE进行模型稀疏化,显著提高性能,优于使用模态特定编码器或额外融合层的密集模型,并大大减轻了模态之间的冲突。IMP在包括图像分类、视频分类、图像-文本和视频-文本检索在内的广泛下游任务中取得了竞争性表现。特别是,我们训练了一个针对视频任务的稀疏IMP-MoE-L模型,在零样本视频分类任务中实现了新的最先进水平。我们的模型在Kinetics-400上达到了77.0%、Kinetics-600上达到了76.8%、Kinetics-700上达到了76.8%的零样本分类准确率,分别比以往最先进水平提高了+5%、+6.7%和+5.8%,同时仅使用其总训练计算成本的15%。
我们提出了一种新颖的方法,用于开发隐私保护的大规模推荐系统,采用差分隐私(DP)大型语言模型(LLMs),克服了在DP训练这些复杂系统中的某些挑战和限制。我们的方法特别适用于基于LLM的推荐系统领域的新兴领域,但也可以轻松应用于处理自然语言输入表示的任何推荐系统。我们的方法涉及使用DP训练方法对公开预训练的LLM进行微调,用于查询生成任务。生成的模型可以生成代表原始查询的私有合成查询,这些查询可以自由共享,用于任何下游非私有推荐训练过程,而不会产生额外的隐私成本。我们评估了我们的方法在安全训练有效的深度检索模型方面的能力,我们观察到与直接DP训练检索模型的方法相比,在不损害查询级隐私保证的情况下,它们的检索质量有显著改善。
为了实现通用用途的机器人,我们需要让机器人像人类一样每天操作关节物体。目前的机器人操作在很大程度上依赖于使用平行夹持器,这限制了机器人只能操作有限的一组物体。另一方面,使用多指机器人手操作将更好地逼近人类行为,并使机器人能够操作各种关节物体。为此,我们提出了一个名为DexArt的新基准,其中涉及在物理模拟器中进行关节物体的熟练操作。在我们的基准中,我们定义了多个复杂的操作任务,机器人手将需要在每个任务中操作各种关节物体。我们的主要重点是评估在看不见的关节物体上学习策略的泛化能力。鉴于双手和物体的高自由度,这是非常具有挑战性的。我们使用强化学习与3D表示学习来实现泛化。通过广泛的研究,我们提供了有关3D表示学习如何影响具有3D点云输入的强化学习决策制定的新见解。更多详细信息请访问https://www.chenbao.tech/dexart/。
本文分析了一种多任务端到端变压器模型在会话推荐任务上的性能,该任务旨在根据用户在对话中表达的明确偏好进行推荐。虽然该领域先前的研究采用复杂的多组件方法,其中对话管理和实体推荐任务由单独的组件处理,但我们表明,基于T5文本到文本变压器模型的统一变压器模型在推荐相关项目和生成对话对话方面可以有竞争力。我们在ReDIAL会话式电影推荐数据集上对模型进行微调,并在多任务学习设置中创建了源自MovieLens的额外训练任务(例如根据输入电影预测电影属性和相关电影)。通过一系列探测性研究,我们展示了在额外任务中学到的知识如何转移到会话设置中,其中每个任务导致其相关探测分数增加了9%至52%。