AI研究论文每日精选

每日精选AI研究论文及翻译

Seed-Music：一个统一的框架，用于高质量和可控的音乐生成。
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

Sep 13

ByYe Bai, Haonan Chen, Jitong Chen, Zhuo Chen, Yi Deng, Xiaohong Dong, Lamtharn Hantrakul, Weituo Hao, Qingqing Huang, Zhongyi Huang, Dongya Jia, Feihu La, Duc Le, Bochen Li, Chumin Li, Hui Li, Xingxing Li, Shouda Liu, Wei-Tsung Lu, Yiqing Lu, Andrew Shaw, Janne Spijkervet, Yakun Sun, Bo Wang, Ju-Chiang Wang, Yuping Wang, Yuxuan Wang, Ling Xu, Yifeng Yang, Chao Yao, Shuo Zhang, Yang Zhang, Yilin Zhang, Hang Zhao, Ziyi Zhao, Dejian Zhong, Shicen Zhou, Pei Zou

我们介绍了Seed-Music，这是一套能够生成高质量音乐并具有精细风格控制的音乐生成系统。我们的统一框架利用自回归语言建模和扩散方法，支持两种关键音乐创作工作流程：受控音乐生成和后期制作编辑。对于受控音乐生成，我们的系统能够通过多模态输入实现具有表现控制的人声音乐生成，包括风格描述、音频参考、乐谱和语音提示。对于后期制作编辑，它提供了交互式工具，可直接编辑生成音频中的歌词和人声旋律。我们鼓励读者在https://team.doubao.com/seed-music 听取演示音频示例。

科尔莫戈洛夫-阿诺德变换器
Kolmogorov-Arnold Transformer

Sep 16

ByXingyi Yang, Xinchao Wang

Transformer模型是现代深度学习的基石。传统上，这些模型依赖多层感知器（MLP）层来在通道之间混合信息。在本文中，我们介绍了Kolmogorov-Arnold Transformer（KAT），这是一种新颖的架构，用Kolmogorov-Arnold Network（KAN）层取代MLP层，以增强模型的表达能力和性能。然而，将KAN整合到Transformer中并不容易，特别是在规模扩大时。具体而言，我们确定了三个关键挑战：（C1）基本函数。KAN中使用的标准B样条函数并未针对现代硬件上的并行计算进行优化，导致推理速度较慢。（C2）参数和计算效率低。KAN需要为每个输入-输出对设计一个独特的函数，使得计算量极大。（C3）权重初始化。由于KAN中的可学习激活函数对于在深度神经网络中实现收敛至关重要，因此权重的初始化尤为具有挑战性。为了克服上述挑战，我们提出了三个关键解决方案：（S1）有理基础。我们将B样条函数替换为有理函数，以提高与现代GPU的兼容性。通过在CUDA中实现这一点，我们实现了更快的计算速度。（S2）组KAN。我们通过一组神经元共享激活权重，以减少计算负载而不降低性能。（S3）保持方差的初始化。我们精心初始化激活权重，以确保激活方差在各层之间保持一致。通过这些设计，KAT能够有效扩展并轻松胜过传统基于MLP的Transformer模型。

检索注意力：通过向量检索加速长上下文LLM推理
RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

Sep 16

ByDi Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu

基于Transformer的大型语言模型（LLMs）在各个领域变得越来越重要。然而，由于注意力操作的二次时间复杂度，要扩展到更长的上下文存在重大挑战，因为缓存关键-值（KV）向量会导致极高的推断延迟和GPU内存消耗。本文提出了RetrievalAttention，这是一种无需训练的方法，用于加速注意力计算。为了利用注意力的动态稀疏特性，RetrievalAttention在CPU内存中构建了近似最近邻搜索（ANNS）索引，并在生成过程中通过向量搜索检索最相关的向量。由于查询向量与关键向量之间的分布不一致（OOD），现成的ANNS索引仍然需要扫描O(N)（通常为所有关键的30%）数据以实现准确检索，未能充分利用高稀疏性。RetrievalAttention首先确定了基于ANNS的注意力存在的OOD挑战，并通过一种适应查询的注意力感知向量搜索算法来解决这一挑战，仅访问1-3%的数据，从而实现次线性时间复杂度。RetrievalAttention大大降低了长上下文LLM的推断成本，大大降低了GPU内存需求，同时保持了模型的准确性。特别是，RetrievalAttention在具有8B参数的LLMs中为服务128K标记仅需要16GB GPU内存，能够在单个NVIDIA RTX4090（24GB）上以0.188秒的速度生成一个标记。

jina-embeddings-v3：具有任务LoRA的多语言嵌入
jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Sep 16

BySaba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao

我们介绍了jina-embeddings-v3，这是一个新颖的文本嵌入模型，拥有5.7亿个参数，在多语言数据和长上下文检索任务中实现了最先进的性能，支持长达8192个标记的上下文长度。该模型包括一组特定任务的低秩适应（LoRA）适配器，用于为查询-文档检索、聚类、分类和文本匹配生成高质量的嵌入。此外，Matryoshka表示学习被整合到训练过程中，允许灵活截断嵌入维度而不影响性能。在MTEB基准测试上的评估显示，jina-embeddings-v3在英语任务上优于来自OpenAI和Cohere的最新专有嵌入，同时在所有多语言任务中与多语言-e5-large-instruct相比表现更优异。

视觉与语言中的一个缺失环节：关于漫画理解的调查
One missing piece in Vision and Language: A Survey on Comics Understanding

Sep 14

ByEmanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas

视觉语言模型最近发展成为多功能系统，能够在各种任务中取得高性能，如文档理解、视觉问答和基础定位，通常在零样本设置下。漫画理解作为一个复杂而多层面的领域，将极大受益于这些进展。作为一种媒介，漫画结合了丰富的视觉和文本叙事，挑战着AI模型处理跨越图像分类、目标检测、实例分割以及通过连续面板实现更深层次叙事理解的任务。然而，漫画的独特结构 —— 以创意风格变化、阅读顺序和非线性叙事为特征 —— 提出了一组与其他视觉语言领域不同的挑战。在这项调查中，我们从数据集和任务角度全面审视了漫画理解。我们的贡献有五方面：(1) 我们分析了漫画媒介的结构，详细说明了其独特的构成要素；(2) 我们调查了漫画研究中广泛使用的数据集和任务，强调它们在推动该领域发展中的作用；(3) 我们介绍了漫画理解层（LoCU）框架，这是一个重新定义视觉语言任务在漫画中的分类法，并为未来工作奠定基础；(4) 我们根据LoCU框架对现有方法进行了详细审查和分类；(5) 最后，我们突出当前研究中的挑战，并提出未来探索方向，特别是在将视觉语言模型应用于漫画的背景下。这项调查是第一个提出面向任务的漫画智能框架，并旨在通过解决数据可用性和任务定义中的关键差距来指导未来研究。与此调查相关的项目可在https://github.com/emanuelevivoli/awesome-comics-understanding找到。

Ferret：针对大型语言模型的规模化联邦全参数调整
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

Sep 10

ByYao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu

大型语言模型（LLMs）已经成为许多实际应用中不可或缺的。不幸的是，在规模化微调这些模型方面，特别是在联邦设置中，数据隐私和通信效率至关重要，这带来了重大挑战。现有方法通常采用参数高效微调（PEFT）来减少通信开销，但通常会以模型准确性为代价。为了解决这些限制，我们提出了用于大型语言模型的规模化联邦全参数调整（Ferret），这是第一个具有共享随机性的一阶方法，可实现跨分散数据源的大型语言模型的可扩展全参数调整，同时保持竞争性模型准确性。Ferret通过三个方面实现了这一点：（1）采用广泛应用的一阶方法进行高效的本地更新；（2）将这些更新投影到低维空间，大大减少通信开销；（3）利用共享随机性从这个低维空间重构本地更新，以促进有效的全参数全局聚合，确保快速收敛和竞争性最终性能。我们的严格理论分析和见解以及大量实验表明，Ferret通过实现高计算效率、减少通信开销和快速收敛，同时保持竞争性模型准确性，显著增强了现有联邦全参数调整方法的可扩展性。我们的实现可在https://github.com/allen4747/Ferret 上找到。

思维图谱
On the Diagram of Thought

Sep 16

ByYifan Zhang, Yang Yuan, Andrew Chi-Chih Yao

我们介绍了“思维图”（DoT），这是一个框架，将大型语言模型（LLMs）中的迭代推理建模为在单个模型内构建有向无环图（DAG）。与将推理表示为线性链或树的传统方法不同，DoT将命题、批评、改进和验证组织成一个连贯的DAG结构，使模型能够探索复杂的推理路径，同时保持逻辑一致性。图中的每个节点对应于已经被提出、批评、改进或验证的命题，使LLM能够通过自然语言反馈迭代改进其推理。通过利用具有角色特定标记的自回归下一个标记预测，DoT促进了在提出想法和批判性评估之间的无缝过渡，提供比二进制信号更丰富的反馈。此外，我们使用拓扑理论对DoT框架进行形式化，提供了一个数学基础，确保推理过程中的逻辑一致性和正确性。这种方法增强了单个LLM内的训练和推理过程，消除了多个模型或外部控制机制的需要。DoT为设计下一代推理专用模型提供了一个概念框架，强调训练效率、强大的推理能力和理论基础。代码可在https://github.com/diagram-of-thought/diagram-of-thought找到。

ReCLAP：通过描述声音来改善零样本音频分类
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

Sep 13

BySreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

开放词汇的音频语言模型，如CLAP，通过使用自然语言提示指定的任意类别集合，为零样本音频分类（ZSAC）提供了一种有前途的方法。在本文中，我们提出了一种简单而有效的方法来改进使用CLAP的ZSAC。具体而言，我们从使用带有抽象类别标签的提示的传统方法（例如，风琴的声音）转变为使用描述声音的内在描述性特征在多样化环境中的提示（例如，风琴深沉而共鸣的音调充满了大教堂）。为了实现这一点，我们首先提出了ReCLAP，这是一个使用重写的音频字幕训练的CLAP模型，以改进对野外声音的理解。这些重写的字幕描述了原始字幕中的每个声音事件，使用它们独特的区分特征。ReCLAP在多模态音频文本检索和ZSAC上表现优于所有基线。接下来，为了改进使用ReCLAP的零样本音频分类，我们提出了提示增强。与传统的使用手写模板提示的方法相反，我们为数据集中的每个唯一标签生成自定义提示。这些自定义提示首先描述标签中的声音事件，然后在不同场景中使用它们。我们提出的方法将ZSAC上ReCLAP的性能提高了1%-18%，并且在所有基线上的表现提高了1%-55%。

引导视觉问答中的视觉-语言模型选择跨任务、领域和知识类型
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

Sep 14

ByNeelabh Sinha, Vinija Jain, Aman Chadha

视觉问答（VQA）已成为多个应用中的关键用例，以帮助用户体验，特别是在视觉-语言模型（VLMs）在零样本推理中取得良好结果之后。但在实际设置中使用标准化框架评估不同VLMs以满足应用需求仍具有挑战性。本文介绍了一个针对实际设置中VQA任务评估的全面框架。我们提出了一个新颖的数据集，源自已建立的VQA基准，标注了任务类型、应用领域和知识类型，这三个任务可能有所不同的关键实际方面。我们还介绍了GoEval，这是一个使用GPT-4o开发的多模态评估指标，与人类判断的相关系数达到了56.71%。我们对十种最先进的VLMs进行的实验表明，没有一种单一模型能在所有情况下表现优异，因此适当的选择是关键的设计决策。专有模型如Gemini-1.5-Pro和GPT-4o-mini通常胜过其他模型，尽管像InternVL-2-8B和CogVLM-2-Llama-3-19B这样的开源模型在特定情境中展现出竞争优势，同时提供额外的优势。这项研究指导了基于具体任务需求和资源约束选择VLMs，并且也可以扩展到其他视觉-语言任务。

在强化学习中进行策略过滤以微调用于代码生成的LLM
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

Sep 11

ByWei Shen, Chuheng Zhang

人类反馈强化学习（RLHF）是帮助大型语言模型（LLMs）遵循指令并提供有益且无害回应的关键技术之一。虽然存在直接策略优化方法，但当前最先进的LLMs采用基于RL的方法（通常是PPO）在RLHF中训练策略，以生成受偏好数据训练的奖励模型引导的良好回应。这些方法的主要挑战在于中间奖励模型的不准确性，尤其是在需要进行长时间和复杂推理才能评分回应的代码生成任务中。我们发现奖励模型的可靠性在分配不同奖励的回应之间存在差异。这激励我们过滤那些奖励可能不可靠的样本，以提高策略学习过程中的信噪比，从而产生基于近端策略优化的策略过滤（PF-PPO）。为了为给定奖励模型选择适当的策略过滤策略，奖励和经过筛选样本上的实际分数之间的确定系数（R^2）作为一个良好的度量指标，帮助我们找到几种有前景的策略。我们进行了大量实验证实PF-PPO在代码生成任务中的有效性，并发现PF-PPO的一些变体在HumanEval、MBPP以及一个新且更具挑战性的LeetCode竞赛基准测试上实现了新的最先进性能。

基于电子健康记录，预测患者胸部X光图像的时间变化。
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records

Sep 11

ByDaeun Kyung, Junu Kim, Tackeun Kim, Edward Choi

胸部X射线成像（CXR）是医院中用于评估患者病情并监测变化的重要诊断工具。生成模型，特别是基于扩散的模型，已显示出在生成逼真合成X射线方面的潜力。然而，这些模型主要集中在使用单个时间点数据进行有条件生成，即通常是在特定时间拍摄的CXR及其相应报告，这限制了它们的临床实用性，特别是对于捕捉时间变化。为了解决这一限制，我们提出了一种新颖的框架，EHRXDiff，通过整合先前的CXR与随后的医疗事件，如处方、实验室检测等，来预测未来的CXR图像。我们的框架基于潜在扩散模型，根据先前的CXR图像和医疗事件历史动态跟踪和预测疾病进展。我们全面评估了我们的框架在临床一致性、人口统计一致性和视觉逼真性等三个关键方面的性能。我们展示了我们的框架生成了高质量、逼真的未来图像，捕捉了潜在的时间变化，表明其作为临床模拟工具进一步发展的潜力。这可能为医疗领域的患者监测和治疗计划提供宝贵的见解。

AudioBERT：音频知识增强语言模型
AudioBERT: Audio Knowledge Augmented Language Model

Sep 12

ByHyunjong Ok, Suho Yoo, Jaeho Lee

最近的研究发现，仅在文本数据集上预训练的语言模型通常缺乏基本的视觉知识，例如日常物体的颜色。受到这一观察的启发，我们探讨类似的问题是否存在于听觉知识方面。为了回答这个问题，我们构建了一个名为AuditoryBench的新数据集，其中包含两个用于评估听觉知识的新任务。通过使用基准测试进行分析，我们发现语言模型也存在严重的听觉知识缺乏。为了解决这一局限性，我们提出了一种名为AudioBERT的新方法，通过基于检索的方法增强BERT的听觉知识。首先，我们在提示中检测听觉知识跨度，以便高效地查询我们的检索模型。然后，我们将音频知识注入BERT，并在需要音频知识时开启低秩适应。我们的实验表明，AudioBERT非常有效，在AuditoryBench上取得了优越的性能。数据集和代码可在https://github.com/HJ-Ok/AudioBERT找到。

破解 reCAPTCHAv2
Breaking reCAPTCHAv2

Sep 13

ByAndreas Plesner, Tobias Vontobel, Roger Wattenhofer

我们的研究探讨了利用先进的机器学习方法来解决谷歌reCAPTCHAv2系统的验证码的有效性。我们通过利用先进的YOLO模型进行图像分割和分类来评估自动化系统解决验证码的效果。我们的主要结果是我们可以解决100%的验证码，而先前的研究只解决了68-71%。此外，我们的研究发现表明，在reCAPTCHAv2中，人类和机器人必须解决的挑战数量没有显著差异。这意味着当前的人工智能技术可以利用先进的基于图像的验证码。我们还深入研究了reCAPTCHAv2的内部机制，并发现证据表明reCAPTCHAv2在评估用户是否为人类时主要基于cookie和浏览器历史数据。本文附带了代码。

beeFormer：在推荐系统中弥合语义和交互相似性之间的差距
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems

Sep 16

ByVojtěch Vančura, Pavel Kordík, Milan Straka

推荐系统通常利用文本信息来改善其预测，特别是在冷启动或零-shot推荐场景中，传统的协同过滤方法无法使用。近年来提出了许多用于为推荐系统挖掘文本信息的方法，其中句子转换器是最突出的一个。然而，这些模型是针对预测语义相似性进行训练的，而没有利用与推荐系统特定隐藏模式的交互数据。在本文中，我们提出了beeFormer，一个用于训练句子转换器模型的框架，该框架结合了交互数据。我们展示了使用beeFormer训练的模型能够在不仅胜过语义相似性句子转换器，还胜过传统协同过滤方法的情况下，在数据集之间转移知识。我们还展示了在来自不同领域的多个数据集上训练能够在单个模型中累积知识的可能性，从而解锁了为推荐系统挖掘文本表示而训练通用的、领域无关的句子转换器模型的可能性。我们发布了源代码、训练模型和其他详细信息，以便复制我们的实验，网址为https://github.com/recombee/beeformer。

LLM 动力驱动的字素到音素转换：基准和案例研究
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

Sep 13

ByMahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee

图音转换（G2P）在语音处理中至关重要，特别是对于诸如语音合成之类的应用。G2P系统必须具备对多音词和上下文相关音素的语言理解和上下文意识。大型语言模型（LLMs）最近在各种语言任务中展现出显著潜力，表明它们的语音知识可以用于G2P。在本文中，我们评估了LLMs在G2P转换中的性能，并介绍了促使和后处理方法，可以增强LLM的输出，而无需额外的训练或标记数据。我们还提出了一个基准数据集，旨在评估对波斯语句子级音韵挑战的G2P性能。我们的结果表明，通过应用所提出的方法，LLMs可以在波斯语这样的少见语言中胜过传统的G2P工具，突显了开发LLM辅助的G2P系统的潜力。