AI研究论文每日精选

每日精选AI研究论文及翻译

Jina CLIP：你的CLIP模型也是你的文本检索器
Jina CLIP: Your CLIP Model Is Also Your Text Retriever

May 30

ByAndreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao

对比语言-图像预训练（CLIP）被广泛应用于训练模型，通过将图像和文本映射到固定大小的向量，使它们在一个共同的嵌入空间中对齐。这些模型对于多模态信息检索和相关任务至关重要。然而，与专门的文本模型相比，CLIP模型在纯文本任务中通常表现不佳。这导致信息检索系统需要为纯文本和多模态任务保留单独的嵌入和模型，从而造成低效。为解决这一问题，我们提出了一种新颖的多任务对比训练方法，用于训练jina-clip-v1模型，在文本-图像和文本-文本检索任务上实现了最先进的性能。

相似性并非唯一所需：赋予检索增强生成具有多层思维
Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts

May 30

ByChunjing Gan, Dan Yang, Binbin Hu, Hanxiao Zhang, Siyuan Li, Ziqi Liu, Yue Shen, Lin Ju, Zhiqiang Zhang, Jinjie Gu, Lei Liang, Jun Zhou

近年来，大型语言模型（LLMs）在各个领域取得了显著成就。然而，LLMs的知识更新及成本问题，以及幻觉问题限制了它们在知识密集型任务中的应用，而检索增强生成（RAG）则可以提供帮助。然而，现有的检索增强模型通常使用相似度作为查询和文档之间的桥梁，并遵循检索然后阅读的过程。在这项工作中，我们认为相似度并非总是灵丹妙药，完全依赖相似度有时会降低检索增强生成的性能。因此，我们提出了MetRag，一种多层思维增强的检索增强生成框架。首先，除了现有的相似度导向思维外，我们采用了一个小规模的效用模型，从LLM中获得效用导向思维的监督，并通过全面结合相似度和效用导向思维提出了更智能的模型。此外，考虑到检索到的文档集往往庞大，并且单独使用它们很难捕捉它们之间的共性和特征，我们提出将LLM作为任务自适应摘要生成器，赋予检索增强生成以紧凑导向思维。最后，通过前述阶段的多层思维，需要调用LLM进行知识增强生成。对知识密集型任务的大量实验表明了MetRag的优越性。

MotionLLM：从人类动作和视频中理解人类行为
MotionLLM: Understanding Human Behaviors from Human Motions and Videos

May 30

ByLing-Hao Chen, Shunlin Lu, Ailing Zeng, Hao Zhang, Benyou Wang, Ruimao Zhang, Lei Zhang

本研究探讨了利用大型语言模型（LLMs）强大的能力，深入研究多模态（即视频和动作模态）人类行为理解。与最近专为仅视频或仅动作理解设计的LLMs不同，我们认为理解人类行为需要同时对视频和动作序列（例如SMPL序列）进行联合建模，以有效捕捉微妙的身体部位动态和语义。基于这一点，我们提出了MotionLLM，这是一个简单而有效的人体动作理解、字幕生成和推理框架。具体而言，MotionLLM采用统一的视频-动作训练策略，利用现有粗糙的视频-文本数据和细粒度的动作-文本数据的互补优势，获取丰富的时空见解。此外，我们收集了一个包含多样视频、动作、字幕和说明的大规模数据集MoVid。此外，我们提出了MoVid-Bench，配有精心手工注释，以更好地评估视频和动作上的人类行为理解。大量实验证明了MotionLLM在字幕生成、时空理解和推理能力方面的优越性。

Xwin-LM：LLM 模型的强大且可扩展的对齐实践
Xwin-LM: Strong and Scalable Alignment Practice for LLMs

May 30

ByBolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang, Gaofeng Meng, Han Hu

在这项工作中，我们提出了Xwin-LM，一个针对大型语言模型（LLMs）的全面对齐方法套件。该套件包括几种关键技术，包括监督微调（SFT）、奖励建模（RM）、拒绝抽样微调（RS）和直接偏好优化（DPO）。关键组成部分如下：（1）Xwin-LM-SFT，最初使用高质量指导数据微调的模型；（2）Xwin-Pair，一个大规模、多轮偏好数据集，使用GPT-4精心注释；（3）Xwin-RM，在Xwin-Pair上训练的奖励模型，规模为7B、13B和70B参数；（4）Xwin-Set，一个多智能偏好数据集，其中每个提示与由Xwin-LM-SFT生成的64个独特响应相关联，并由Xwin-RM评分；（5）Xwin-LM-RS，使用Xwin-Set中得分最高的响应微调的模型；（6）Xwin-LM-DPO，使用DPO算法在Xwin-Set上进一步优化的模型。我们在AlpacaEval和MT-bench上的评估显示，在整个流程中持续且显著改进，展示了Xwin-LM的强大性和可扩展性。存储库https://github.com/Xwin-LM/Xwin-LM将持续更新以促进社区研究。

MOFA-Video：通过生成运动场控制图像动画在冻结图像到视频扩散模型中的改进
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

May 30

ByMuyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng

我们提出了MOFA-Video，这是一种先进的可控图像动画方法，利用各种额外的可控信号（如人类地标参考、手动轨迹以及其他提供的视频）或它们的组合从给定图像生成视频。这与先前的方法不同，先前的方法只能在特定运动领域工作，或者在扩散先验条件下表现出较弱的控制能力。为了实现我们的目标，我们设计了几个领域感知的运动场适配器（即，MOFA-Adapters）来控制视频生成管道中生成的运动。对于MOFA-Adapters，我们考虑视频的时间运动一致性，首先从给定的稀疏控制条件生成密集运动流，然后将给定图像的多尺度特征包装为稳定视频扩散生成的引导特征。我们分别为手动轨迹和人类地标训练了两个运动适配器，因为它们都包含有关控制的稀疏信息。在训练后，不同领域的MOFA-Adapters也可以共同用于更可控的视频生成。

GECO：生成式图像到三维在一秒内
GECO: Generative Image-to-3D within a SECOnd

May 30

ByChen Wang, Jiatao Gu, Xiaoxiao Long, Yuan Liu, Lingjie Liu

近年来，3D生成取得了显著进展。现有技术，如分数蒸馏方法，产生了显著的结果，但需要进行广泛的场景优化，影响了时间效率。另外，基于重建的方法优先考虑效率，但由于对不确定性的有限处理而牺牲了质量。我们引入了GECO，这是一种新颖的高质量3D生成建模方法，能在一秒内运行。我们的方法通过两阶段方法解决了当前方法中普遍存在的不确定性和低效率问题。在初始阶段，我们训练了一个单步多视角生成模型，并采用分数蒸馏。然后，对多视角预测中的视角不一致性挑战应用第二阶段蒸馏。这两阶段过程确保了对3D生成的平衡处理，优化了质量和效率。我们的全面实验表明，GECO实现了具有前所未有效率水平的高质量图像到3D生成。

DITTO-2：音乐生成的蒸馏扩散推理时间T优化
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

May 30

ByZachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan

对于以人为中心的基于人工智能的音乐创作，可控音乐生成方法至关重要，但目前受到速度、质量和控制设计折衷的限制。其中，扩散推理时间T优化（DITTO）提供了最先进的结果，但比实时慢10倍以上，限制了实际应用。我们提出了蒸馏扩散推理时间T优化（或DITTO-2），这是一种加速推理时间优化控制并解锁超越实时生成的新方法，可用于诸如音乐修复、扩展、强度、旋律和音乐结构控制等各种应用。我们的方法通过以下方式实现：（1）通过高效的修改一致性或一致性轨迹蒸馏过程，蒸馏预训练的扩散模型以进行快速采样；（2）使用我们的蒸馏模型进行推理时间优化，采用一步采样作为高效的替代优化任务；（3）使用我们估计的噪声潜变量进行最佳质量、快速、可控生成的最终多步采样生成（解码）。通过彻底评估，我们发现我们的方法不仅可以将生成速度提高10-20倍，同时还可以同时改善控制粘附性和生成质量。此外，我们将我们的方法应用于最大化文本粘附度（CLAP分数）的新应用，并展示我们可以将无条件扩散模型转换为产生最先进文本控制的模型。可在https://ditto-music.github.io/ditto2/找到声音示例。

DevEval：与现实世界代码库对齐的手动注释代码生成基准测试
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

May 30

ByJia Li, Ge Li, Yunfei Zhao, Yongmin Li, Huanyu Liu, Hao Zhu, Lecheng Wang, Kaibo Liu, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yuqi Zhu, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li

评估大型语言模型（LLMs）的编码能力仍然是一个悬而未决的问题。我们发现现有的基准测试与真实世界的代码存储库存在严重不对齐，并且不足以评估LLMs的编码能力。为了填补这一知识空白，我们提出了一个名为DevEval的新基准测试，具有三个创新点。 (1) DevEval在多个维度上与真实世界的存储库保持一致，例如代码分布和依赖分布。(2) DevEval由13位开发人员进行了注释，并包含全面的注释（例如需求、原始存储库、参考代码和参考依赖项）。 (3) DevEval包括来自117个存储库的1,874个测试样本，涵盖10个流行领域（例如互联网、数据库）。基于DevEval，我们提出了存储库级别的代码生成，并在DevEval上评估了8个流行的LLMs（例如gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa）。我们的实验揭示了这些LLMs在真实代码存储库中的编码能力。例如，在我们的实验中，gpt-4-turbo的最高Pass@1仅为53.04%。我们还分析了LLMs的失败案例并总结了它们的不足之处。我们希望DevEval能促进LLMs在真实代码存储库中的发展。DevEval、提示和LLMs的预测已经发布。

PLA4D：用于文本到4D高斯飞溅的像素级对齐
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

May 30

ByQiaowei Miao, Yawei Luo, Yi Yang

随着文本条件扩散模型（DMs）在图像、视频和3D生成领域取得突破，研究重点已转向更具挑战性的文本到4D合成任务，这引入了时间维度以生成动态3D对象。在这一背景下，我们确定了得分蒸馏采样（SDS）这一广泛使用的技术，用于文本到3D合成，由于其具有两面性和纹理不真实问题，再加上高计算成本，成为限制文本到4D性能的重要障碍。在本文中，我们提出了用于文本到4D高斯飞溅（PLA4D）的像素级对齐方法，这是一种新颖方法，利用文本到视频帧作为显式像素对齐目标，以生成静态3D对象并为其注入运动。具体来说，我们引入了焦点对齐来校准渲染的摄像机姿势，以及GS-Mesh对比学习来从渲染图像对比中提炼几何先验信息。此外，我们利用变形网络开发了运动对齐，以驱动高斯变化，并实现了参考细化，以获得平滑的4D对象表面。这些技术使4D高斯飞溅能够在像素级别与生成的视频对齐几何、纹理和运动。与以往方法相比，PLA4D在更短的时间内产生了具有更好纹理细节的合成输出，并有效地缓解了两面性问题。PLA4D完全采用开源模型实现，为4D数字内容创作提供了一种易于访问、用户友好且具有前景的方向。我们的项目页面：https://github.com/MiaoQiaowei/PLA4D.github.io。

DeMamba：百万规模GenVideo基准下的AI生成视频检测
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

May 30

ByHaoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li

近年来，视频生成技术迅速发展。鉴于社交媒体平台上视频内容的普及，这些模型加剧了人们对虚假信息传播的担忧。因此，对于能够区分伪造的人工智能生成视频并减轻虚假信息可能带来的危害的检测器的需求与日俱增。然而，最先进的视频生成器缺乏大规模数据集，这对这类检测器的开发构成了障碍。为填补这一空白，我们引入了第一个人工智能生成视频检测数据集GenVideo。它具有以下特点：（1）包括超过一百万个人工智能生成和真实视频的大量视频；（2）生成内容和方法的丰富多样性，涵盖广泛的视频类别和生成技术。我们对数据集进行了广泛研究，并提出了两种针对真实世界场景量身定制的评估方法，以评估检测器的性能：跨生成器视频分类任务评估了训练检测器在生成器上的泛化能力；降质视频分类任务评估了检测器处理在传播过程中质量下降的视频的鲁棒性。此外，我们引入了一个即插即用的模块，名为Detail Mamba（DeMamba），旨在通过分析时间和空间维度的不一致性来增强检测器，从而识别人工智能生成视频。我们的广泛实验表明，与现有检测器相比，DeMamba在GenVideo上具有更好的泛化能力和鲁棒性。我们相信GenVideo数据集和DeMamba模块将显著推动人工智能生成视频检测领域的发展。我们的代码和数据集将在https://github.com/chenhaoxing/DeMamba 上提供。

鹦鹉：利用语义变量高效提供基于LLM的应用程序
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable

May 30

ByChaofan Lin, Zhenhua Han, Chengruidong Zhang, Yuqing Yang, Fan Yang, Chen Chen, Lili Qiu

大型语言模型（LLM）的崛起使得基于LLM的应用（又称AI代理或副驾驶员）成为可能，这是一种结合了LLM和传统软件优势的新软件范式。来自不同租户的多样化LLM应用可以使用多个LLM请求设计复杂的工作流程来完成一个任务。然而，它们必须使用当今公共LLM服务提供的过于简化的请求级API，从而丢失了重要的应用级信息。公共LLM服务必须盲目优化单个LLM请求，导致LLM应用的端到端性能不佳。本文介绍了Parrot，这是一个专注于LLM应用端到端体验的LLM服务系统。Parrot提出了语义变量，这是一种统一的抽象，用于向公共LLM服务公开应用级知识。语义变量在请求的提示中注释输入/输出变量，并在连接多个LLM请求时创建数据管道，为编程LLM应用提供了一种自然的方式。将语义变量暴露给公共LLM服务使其能够执行传统数据流分析，以揭示多个LLM请求之间的相关性。这种相关性为LLM应用的端到端性能开辟了全新的优化空间。广泛的评估表明，Parrot可以在流行且实际的LLM应用用例中实现高达一个数量级的改进。