AI研究论文每日精选

每日精选AI研究论文及翻译

基于100K小时数据构建十亿参数的文本到语音模型的经验教训
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

Feb 12

ByMateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova, Thomas Drugman

我们介绍了一种名为BASE TTS的文本到语音（TTS）模型，其代表Big Adaptive Streamable TTS with Emergent abilities。BASE TTS是迄今为止最大的TTS模型，使用了10万小时的公共领域语音数据进行训练，实现了语音自然度的新突破。它采用了一个拥有10亿参数的自回归Transformer，将原始文本转换为离散编码（“语音编码”），然后通过基于卷积的解码器将这些语音编码以增量、可流式传输的方式转换为波形。此外，我们的语音编码采用了一种新颖的语音标记技术，具有说话者ID的解耦和使用字节对编码进行压缩。与大规模语言模型在训练过程中使用更多数据时广泛报道的“新兴能力”相呼应，我们展示了使用10K+小时和500M+参数构建的BASE TTS变体在文本复杂度高的句子上开始展现出自然的韵律。我们设计并分享了一个专门的数据集，用于衡量这些文本到语音的新兴能力。通过与包括公开可用的大规模文本到语音系统YourTTS、Bark和TortoiseTTS在内的基线进行评估，展示了BASE TTS的最新自然度。模型生成的音频样本可在https://amazon-ltts-paper.com/上听取。

使用RingAttention的世界模型在百万长度的视频和语言上
World Model on Million-Length Video And Language With RingAttention

Feb 13

ByHao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel

当前的语言模型在理解那些难以用文字描述的世界方面存在不足，并且在处理复杂、长格式任务时遇到困难。视频序列提供了在语言和静态图像中缺失的宝贵时间信息，使其与语言联合建模变得有吸引力。这样的模型可以发展对人类文本知识和物理世界的理解，从而为辅助人类提供更广泛的人工智能能力。然而，从数百万个视频和语言序列中学习面临着由于内存限制、计算复杂性和有限数据集而带来的挑战。为了解决这些挑战，我们策划了一个包含多样视频和书籍的大型数据集，利用RingAttention技术可扩展地训练长序列，并逐渐将上下文大小从4K增加到1M个标记。本文作出以下贡献：(a) 最大上下文大小神经网络：我们在长视频和语言序列上训练了一个具有最大上下文大小的transformer，为困难的检索任务和长视频理解设立了新的基准。(b) 克服视觉-语言训练挑战的解决方案，包括使用掩码序列打包以混合不同序列长度，损失加权以平衡语言和视觉，以及模型生成的长序列聊天问答数据集。(c) 通过RingAttention、掩码序列打包和其他关键特性进行高度优化的实现，用于在长度为数百万的多模态序列上进行训练。(d) 完全开源的一系列能够处理长文档（LWM-Text、LWM-Text-Chat）和超过1M标记的视频（LWM、LWM-Chat）的70亿参数模型家族。这项工作为在大规模视频和语言数据集上进行训练，以发展对人类知识和多模态世界的理解以及更广泛的能力铺平了道路。

专家混合模型解锁深度强化学习的参数缩放
Mixtures of Experts Unlock Parameter Scaling for Deep RL

Feb 13

ByJohan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro

最近在（自我）监督学习模型方面的快速进展在很大程度上是通过经验性的缩放定律来预测的：模型的性能与其规模成比例地增长。然而，在强化学习领域，类似的缩放定律仍然难以捉摸，因为增加模型的参数数量通常会损害最终的性能。在本文中，我们展示了将专家混合（MoE）模块，特别是软MoE（Puigcerver等人，2023年），纳入基于价值的网络中，可以产生更具参数可扩展性的模型，这在各种训练方案和模型规模下都表现出显著的性能提升。因此，这项工作为发展强化学习的缩放定律提供了强有力的经验证据。

Lumos：通过场景文本识别增强多模态LLM
Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Feb 12

ByAshish Shenoy, Yichao Lu, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Abhay Harpale, Vikas Bhardwaj, Di Xu, Shicong Zhao, Longfang Zhao, Ankit Ramchandani, Xin Luna Dong, Anuj Kumar

我们介绍了 Lumos，这是第一个具有文本理解能力的端到端多模态问答系统。Lumos 的核心是一个场景文本识别（STR）组件，从第一人称视角图像中提取文本，其输出用于增强输入到一个多模态大型语言模型（MM-LLM）。在构建 Lumos 的过程中，我们遇到了许多与 STR 质量、总体延迟和模型推断相关的挑战。在本文中，我们深入探讨了这些挑战，并讨论了用于克服这些障碍的系统架构、设计选择和建模技术。我们还为每个组件提供了全面的评估，展示了高质量和高效性。

UFO：一个专注于 Windows 操作系统交互的用户界面代理
UFO: A UI-Focused Agent for Windows OS Interaction

Feb 8

ByChaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

我们介绍了UFO，这是一种创新的面向用户界面的代理，旨在满足针对Windows操作系统应用程序定制的用户请求，利用GPT-Vision的能力。UFO采用双代理框架，精心观察和分析Windows应用程序的图形用户界面（GUI）和控制信息。这使得代理能够无缝地在单个应用程序内部和跨应用程序之间导航和操作，以满足用户请求，即使涉及多个应用程序。该框架包含一个控制交互模块，促进无需人类干预的行动基础，并实现完全自动化执行。因此，UFO将费时费力的过程转变为仅通过自然语言命令就能完成的简单任务。我们在9个流行的Windows应用程序上对UFO进行了测试，涵盖了反映用户日常使用情景的各种场景。从定量指标和实际案例研究得出的结果强调了UFO在满足用户请求方面的卓越效果。据我们所知，UFO是专门为在Windows操作系统环境中完成任务而量身定制的第一个用户界面代理。UFO的开源代码可在https://github.com/microsoft/UFO 上获取。

图马巴：走向利用状态空间模型在图上学习
Graph Mamba: Towards Learning on Graphs with State Space Models

Feb 13

ByAli Behrouz, Farnoosh Hashemi

图神经网络（GNNs）在图表示学习中展现出了巨大的潜力。大多数GNNs定义了一种局部消息传递机制，通过堆叠多个层在图上传播信息。然而，这些方法已知存在两个主要限制：过度压缩和较差的捕获远程依赖性能力。最近，图变换器（GTs）作为消息传递神经网络（MPNNs）的一个强大替代方案出现。然而，GTs的计算成本是二次的，缺乏对图结构的归纳偏差，并依赖于复杂的位置/结构编码（SE/PE）。本文展示了尽管变换器、复杂消息传递和SE/PE在实践中表现良好，但两者都不是必需的。受到最近Mamba等状态空间模型（SSMs）的成功启发，我们提出了图Mamba网络（GMNs），这是一种基于选择性SSMs的新型GNNs的通用框架。我们讨论并分类了在将SSMs应用于图结构数据时面临的新挑战，并提出了设计GMNs所需的四个必要步骤和一个可选步骤，我们选择了（1）邻域标记化，（2）标记排序，（3）双向选择性SSM编码器的架构，（4）局部编码，以及可有可无的（5）PE和SE。我们进一步为GMNs的强大性能提供了理论上的证明。实验证明，尽管计算成本大大降低，GMNs在远程、小规模、大规模和异质基准数据集上取得了出色的性能。

ChatCell：利用自然语言促进单细胞分析
ChatCell: Facilitating Single-Cell Analysis with Natural Language

Feb 13

ByYin Fang, Kangwei Liu, Ningyu Zhang, Xinle Deng, Penghui Yang, Zhuo Chen, Xiangru Tang, Mark Gerstein, Xiaohui Fan, Huajun Chen

随着大型语言模型（LLMs）的快速发展，它们在科学领域中的影响日益突出。LLMs在任务泛化和自由对话方面的新兴能力可以显著推动化学和生物学等领域的发展。然而，作为构成生物体基础组成的单细胞生物学领域仍面临一些挑战。当前方法中存在的高知识门槛和有限的可扩展性限制了LLMs在掌握单细胞数据方面的充分利用，阻碍了直接获取和快速迭代。为此，我们引入了ChatCell，通过自然语言促进单细胞分析，标志着一种范式转变。利用词汇适应和统一序列生成，ChatCell在单细胞生物学领域获得了深厚的专业知识，并具备容纳各种分析任务的能力。广泛的实验进一步证明了ChatCell的稳健性能以及加深单细胞洞见的潜力，为这一关键领域的更易访问和直观探索铺平道路。我们的项目主页位于https://zjunlp.github.io/project/ChatCell。

IM-3D：用于高质量3D生成的迭代多视角扩散和重建
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

Feb 13

ByLuke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos

大多数文本到3D生成器是基于已经训练过的数十亿图像的文本到图像模型构建的。它们使用Score Distillation Sampling（SDS）的变体，这种方法速度较慢，有些不稳定，并且容易产生伪影。一种缓解方法是对2D生成器进行微调，使其具备多视角感知能力，这有助于蒸馏，或者可以与重建网络结合，直接输出3D对象。在本文中，我们进一步探讨了文本到3D模型的设计空间。通过考虑视频而不是图像生成器，我们显著改进了多视角生成。结合使用高斯喷洒的3D重建算法，可以优化稳健的基于图像的损失，我们可以直接从生成的视图中产生高质量的3D输出。我们的新方法，IM-3D，将2D生成器网络的评估次数减少了10-100倍，从而实现了更高效的流程、更好的质量、更少的几何不一致性以及更高的可用3D资产产出。

学习连续的三维词以用于文本到图像生成
Learning Continuous 3D Words for Text-to-Image Generation

Feb 13

ByTa-Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher, Radomir Mech, Andrew Markham, Niki Trigoni

目前对于图像生成的扩散模型（例如，通过文本或ControlNet）的控制在识别抽象的连续属性（如照明方向或非刚性形状变化）方面存在不足。在本文中，我们提出了一种方法，允许文本到图像模型的用户对图像中的多个属性进行精细控制。我们通过设计特殊的输入标记集，可以连续地转换这些属性，我们称之为连续3D单词。这些属性可以例如表示为滑块，并与文本提示一起应用，以实现对图像生成的精细控制。我们展示了，只需一个网格和一个渲染引擎，我们的方法可以被采用，以提供对多个3D感知属性的连续用户控制，包括一天中的照明时间、鸟翼方向、镜头变焦效果和物体姿势。我们的方法能够同时使用多个连续3D单词和文本描述对图像创建进行条件化，而不会增加生成过程的额外开销。项目页面：https://ttchengab.github.io/continuous_3d_words

用于推理高效LLM的串联Transformer
Tandem Transformers for Inference Efficient LLMs

Feb 13

ByAishwarya P S, Pranav Ajit Nair, Yashas Samaga, Toby Boyd, Sanjiv Kumar, Prateek Jain, Praneeth Netrapalli

传统大型语言模型（LLMs）的自回归特性固有地限制了推理速度，因为令牌是按顺序生成的。虽然投机性和并行解码技术试图缓解这一问题，但它们面临限制：要么依赖于生成较小模型的不太准确，要么未能充分利用基础LLM的表示。我们引入了一种新颖的架构，Tandem transformers，以解决这些问题。该架构独特地结合了（1）一个小的自回归模型和（2）以块模式运行的大型模型（同时处理多个令牌）。通过赋予小模型对大模型更丰富表示的关注，小模型的预测准确性得到了显著提高。在PaLM2预训练数据集上，PaLM2-Bison和PaLM2-Gecko的串联显示出比独立的PaLM2-Gecko在下一个令牌预测准确性方面提高了3.3％，与具有可比下游性能的PaLM2-Otter模型相比，速度提升了1.16倍。我们进一步将串联模型纳入投机解码（SPEED）框架中，其中大模型验证来自小模型的令牌。这确保了PaLM2-Bison和PaLM2-Gecko的串联实现了显著加速（比在SPEED中使用普通PaLM2-Gecko快约1.14倍），同时保持相同的下游任务准确性。

基于视觉的手势定制技术：从单次演示中学习
Vision-Based Hand Gesture Customization from a Single Demonstration

Feb 13

BySoroush Shahi, Cori Tymoszek Park, Richard Kang, Asaf Liberman, Oron Levy, Jun Gong, Abdelkareem Bedri, Gierad Laput

手势识别正逐渐成为人机交互中更为普遍的模式，尤其是随着摄像头在日常设备中的普及。尽管在这一领域取得了持续进展，手势定制往往被忽视。定制至关重要，因为它使用户能够定义和展示更加自然、易记和易访问的手势。然而，定制需要高效利用用户提供的数据。我们提出了一种方法，使用户能够通过单目摄像头从一个演示轻松设计定制手势。我们采用了Transformer和元学习技术来解决少样本学习的挑战。与先前的工作不同，我们的方法支持任意组合的单手、双手、静态和动态手势，包括不同视角。我们通过对来自21名参与者的20种手势进行的用户研究评估了我们的定制方法，从一个演示中实现了高达97%的平均识别准确率。我们的工作为基于视觉的手势定制提供了可行途径，为该领域未来的进展奠定了基础。

NeRF类比：基于示例的NeRFs视觉属性转移
NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFs

Feb 13

ByMichael Fischer, Zhengqin Li, Thu Nguyen-Phuoc, Aljaz Bozic, Zhao Dong, Carl Marshall, Tobias Ritschel

神经辐射场（NeRF）编码了场景的3D几何和外观之间的特定关系。我们在这里提出一个问题，即我们是否可以以一种语义上有意义的方式，将源NeRF的外观转移到目标3D几何上，使得生成的新NeRF保留目标几何但具有类似于源NeRF的外观。为此，我们将经典图像类比从2D图像推广到NeRF。我们利用来自大型预训练2D图像模型的语义特征驱动的语义亲和力进行对应转移，实现多视角一致的外观转移。我们的方法允许探索3D几何和外观的混搭产品空间。我们展示了我们的方法优于传统的基于风格化的方法，并且绝大多数用户更喜欢我们的方法而不是几种典型的基准方法。

AI研究论文每日精选

每日精选AI研究论文及翻译

基于100K小时数据构建十亿参数的文本到语音模型的经验教训
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

Feb 12