HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

18 papers found

你的混合专家LLM实际上是一个免费的嵌入模型
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free

Oct 14

ByZiyue Li, Tianyi Zhou

尽管大型语言模型（LLMs）在生成任务上表现出色，但其仅解码器的架构通常会限制其作为嵌入模型的潜力，除非进行进一步的表示微调。这是否与它们作为通用模型的声明相矛盾？为了回答这个问题，我们深入研究了专家混合（MoE）LLMs。我们的研究表明，MoE LLMs中的专家路由器可以作为一种即插即用的嵌入模型，在各种以嵌入为重点的任务上表现出色，而无需任何微调。此外，我们的广泛分析显示，MoE路由权重（RW）与LLMs的隐藏状态（HS）是互补的，后者是一种广泛使用的嵌入。与HS相比，我们发现RW对提示的选择更加稳健，并侧重于高级语义。在分析的基础上，我们提出了结合RW和HS的MoEE，其性能优于单独使用任一者。我们对它们的组合和提示策略进行了探索，得出了一些新颖见解，例如，RW和HS相似性的加权和优于它们的连接相似性。我们在来自大规模文本嵌入基准（MTEB）的20个数据集上进行了6个嵌入任务的实验。结果表明，MoEE对基于LLM的嵌入带来了显著改进，而无需进一步微调。

LLMtimesMapReduce：使用大型语言模型简化长序列处理
LLMtimesMapReduce: Simplified Long-Sequence Processing using Large Language Models

Oct 12

ByZihan Zhou, Chong Li, Xinyi Chen, Shuo Wang, Yu Chao, Zhili Li, Haoyu Wang, Rongqiao An, Qi Shi, Zhixing Tan, Xu Han, Xiaodong Shi, Zhiyuan Liu, Maosong Sun

扩大大型语言模型（LLMs）的上下文窗口已成为一个关键的研究领域，特别是对涉及极长文本的应用而言。在这项工作中，我们提出了一个新颖的无需训练的框架，用于处理长文本，利用分而治之的策略实现全面的文档理解。所提出的LLMtimesMapReduce框架将整个文档分成几个块供LLMs阅读，然后聚合中间答案以生成最终输出。分而治之长文本处理框架的主要挑战在于在分割文档时存在丢失关键的长距离信息的风险，这可能导致模型基于分段文本生成不完整或不正确的答案。中断的长距离信息可分为两类：块间依赖和块间冲突。我们设计了一个结构化信息协议来更好地处理块间依赖，并设计了一个上下文置信度校准机制来解决块间冲突。实验结果表明，LLMtimesMapReduce能够胜过代表性的开源和商业长上下文LLMs，并适用于多种不同模型。

通过一种语言家族专家混合方法，高效地将医学LLMs民主化，覆盖50种语言。
Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts

Oct 14

ByGuorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang

将医学大型语言模型调整为本地语言可以降低获取医疗服务的障碍，但数据稀缺仍然是一个重要挑战，特别是对于资源匮乏的语言。为了解决这一问题，我们首先构建了一个高质量的医学数据集，并进行分析以确保其质量。为了利用多语言大型语言模型的泛化能力，以便高效扩展到更多资源受限的语言，我们从多语言角度探索了LLMs的内部信息流，采用专家混合（MoE）模块化。在技术上，我们提出了一种新颖的MoE路由方法，采用特定语言的专家和跨语言路由。受电路理论启发，我们的路由分析揭示了一种信息流机制，即“最终分散”：早期层集中跨语言信息流，而后期层展现出特定语言的分歧。这一发现直接导致了后MoE架构的开发，该架构仅在后期层中应用稀疏路由，同时保持其他层的密集性。实验结果表明，这种方法增强了多语言模型对其他语言的泛化能力，同时保持了可解释性。最后，为了将模型高效扩展到50种语言，我们引入了语言族专家的概念，借助语言先验知识，从而能够扩展语言数量而无需增加额外参数。

变压器模型中的关键因素是什么？并非所有的注意力都是必要的。
What Matters in Transformers? Not All Attention is Needed

Jun 22

ByShwai He, Guoheng Sun, Zheyu Shen, Ang Li

尽管扩展基于Transformer的大型语言模型（LLMs）已经展示出在各种任务中表现出色，但也引入了冗余的架构，给实际部署带来了效率挑战。尽管一些人认识到了LLMs中的冗余性，但是变压器中不同架构（如MLP和注意力层）中冗余性的变化尚未得到充分探讨。在这项工作中，我们使用基于相似度的度量标准，研究了变压器内不同模块（包括块、MLP和注意力层）之间的冗余性。令人惊讶的是，尽管注意力层在区分变压器与其他架构中扮演了关键角色，我们发现其中很大一部分层展现出过高的相似度，可以进行修剪而不降低性能。例如，Llama-2-70B 通过修剪一半的注意力层，实现了48.4\% 的加速，仅有 2.4\% 的性能下降。此外，通过跟踪模型在训练过程中的检查点，我们观察到注意力层的冗余性是固有的，并且在训练阶段保持一致。此外，我们进一步提出了一种方法，联合丢弃注意力和MLP层，使我们能够更积极地丢弃额外的层。例如，当丢弃 31 层（注意力 + MLP）时，Llama-2-13B 仍在 MMLU 任务上保持了 90\% 的性能。我们的工作为未来网络架构设计提供了宝贵的见解。代码已发布在：https://github.com/Shwai-He/LLM-Drop。

MLLM 可以看见吗？用于幻觉缓解的动态校正解码
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation

Oct 15

ByChenxi Wang, Xiang Chen, Ningyu Zhang, Bozhong Tian, Haoming Xu, Shumin Deng, Huajun Chen

多模态大型语言模型（MLLMs）经常表现出幻觉现象，但其根本原因仍然知之甚少。在本文中，我们进行了实证分析发现，虽然 MLLMs 在最终输出中错误地生成了对象，但它们实际上能够识别前面层中的视觉对象。我们推测这可能是由于语言模型的强知识先验抑制了视觉信息，导致了幻觉。受此启发，我们提出了一种新颖的用于 MLLMs 的动态校正解码方法（DeCo），该方法自适应地选择适当的前置层，并将知识比例地整合到最终层以调整输出的 logit 值。需要注意的是，DeCo 是模型无关的，可以无缝地与各种经典解码策略结合，并应用于不同的 MLLMs。我们在广泛使用的基准测试上评估了 DeCo，结果表明与基线相比，它能够大幅减少幻觉率，突显了其减轻幻觉的潜力。代码可在 https://github.com/zjunlp/DeCo 获取。

代理作为评判者：用代理评估代理
Agent-as-a-Judge: Evaluate Agents with Agents

Oct 14

ByMingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber

当代的评估技术对主体系统来说是不足够的。这些方法要么仅关注最终结果，忽略了主体系统的逐步性质，要么需要过多的人工劳动。为了解决这个问题，我们引入了“Agent-as-a-Judge”框架，其中主体系统被用来评估主体系统。这是LLM-as-a-Judge框架的有机延伸，融入了使整个任务解决过程能够提供中间反馈的主体特征。我们将Agent-as-a-Judge应用于代码生成任务。为了克服现有基准的问题，并为Agent-as-a-Judge提供一个概念验证测试平台，我们提出了DevAI，一个包含55个现实自动化AI开发任务的新基准。它包括丰富的手动注释，例如总共365个分层用户需求。我们使用Agent-as-a-Judge对三种流行的主体系统进行基准测试，发现它在性能上远远优于LLM-as-a-Judge，并且与我们的人类评估基线一样可靠。总的来说，我们认为Agent-as-a-Judge对现代主体系统是一个具体的进步，通过提供丰富且可靠的奖励信号，为动态和可扩展的自我改进提供必要支持。

LVD-2M：具有时间密集字幕的长视频数据集
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

Oct 14

ByTianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu

视频生成模型的有效性在很大程度上取决于它们的训练数据集的质量。大多数先前的视频生成模型是在短视频剪辑上进行训练的，而最近越来越多地有人对直接在更长的视频上训练长视频生成模型产生了兴趣。然而，缺乏这种高质量的长视频阻碍了长视频生成技术的进步。为了促进长视频生成领域的研究，我们需要一个具有训练长视频生成模型所必需的四个关键特征的新数据集：（1）至少覆盖10秒的长视频，（2）没有剪辑的长镜头视频，（3）大幅度运动和多样内容，以及（4）时间上密集的字幕。为了实现这一目标，我们引入了一个新的流程，用于选择高质量的长镜头视频并生成时间上密集的字幕。具体而言，我们定义了一组指标来定量评估视频质量，包括场景切换、动态程度和语义级质量，从而使我们能够从大量源视频中筛选出高质量的长镜头视频。随后，我们开发了一个分层视频字幕流程，为长视频添加时间上密集的字幕注释。通过这一流程，我们策划了第一个长镜头视频数据集，LVD-2M，包括200万个长镜头视频，每个视频覆盖超过10秒，并带有时间上密集的字幕注释。我们进一步通过微调视频生成模型来生成具有动态运动的长视频，验证了LVD-2M的有效性。我们相信我们的工作将对未来的长视频生成研究产生重要贡献。

MTU-Bench：用于大型语言模型的多粒度工具使用基准测试
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

Oct 15

ByPei Wang, Yanan Wu, Zekun Wang, Jiaheng Liu, Xiaoshuai Song, Zhongyuan Peng, Ken Deng, Chenchen Zhang, Jiakai Wang, Junran Peng, Ge Zhang, Hangyu Guo, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

大型语言模型（LLMs）在推理和决策能力方面取得了巨大进步，并能够与用户进行自然对话。最近，许多工具使用基准数据集已被提出。然而，现有数据集存在以下限制：（1）评估场景不足（例如，仅涵盖有限的工具使用场景）。（2）评估成本高昂（例如，GPT API成本）。为了解决这些限制，在这项工作中，我们提出了一个针对大型语言模型的多粒度工具使用基准，称为MTU-Bench。对于“多粒度”属性，我们的MTU-Bench涵盖了五种工具使用场景（即，单轮单工具、单轮多工具、多轮单工具、多轮多工具和分布任务）。此外，我们的MTU-Bench的所有评估指标都基于预测结果和基本事实，而不使用任何GPT或人类评估指标。此外，我们的MTU-Bench是通过转换现有高质量数据集来模拟真实世界的工具使用场景收集的，并且我们还提出了一个名为MTU-Instruct数据集的指导数据集，以增强现有LLMs的工具使用能力。全面的实验结果证明了我们MTU-Bench的有效性。代码和数据将在https://github.com/MTU-Bench-Team/MTU-Bench.git上发布。

高效扩散模型：从原理到实践的全面调研
Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices

Oct 15

ByZhiyuan Ma, Yuzhu Zhang, Guoli Jia, Liangliang Zhao, Yichao Ma, Mingjie Ma, Gaofeng Liu, Kaiyan Zhang, Jianjun Li, Bowen Zhou

作为近年来最受欢迎和炙手可热的生成模型之一，扩散模型引起了许多研究人员的兴趣，并在诸如图像合成、视频生成、分子设计、3D 场景渲染和多模态生成等各种生成任务中稳定展现出优势，依赖于其丰富的理论原则和可靠的应用实践。这些最近关于扩散模型的显著成功很大程度上源自渐进式设计原则和高效的架构、训练、推断和部署方法。然而，迄今为止还没有全面深入的审查来总结这些原则和实践，以帮助快速理解和应用扩散模型。在这项调查中，我们提供了一个新的以效率为导向的视角，主要侧重于架构设计、模型训练、快速推断和可靠部署中的深刻原则和高效实践，以引导进一步的理论研究、算法迁移和模型应用，为新场景提供读者友好的指导。

EchoPrime：一种多视频视图引导的视觉-语言模型，用于全面的心脏超声解读。
EchoPrime: A Multi-Video View-Informed Vision-Language Model for Comprehensive Echocardiography Interpretation

Oct 13

ByMilos Vukadinovic, Xiu Tang, Neal Yuan, Paul Cheng, Debiao Li, Susan Cheng, Bryan He, David Ouyang

超声心动图是最广泛使用的心脏成像模式，捕获超声视频数据以评估心脏结构和功能。超声心动图中的人工智能（AI）有潜力简化手动任务，并提高可重复性和精度。然而，大多数超声心动图AI模型是单视图、单任务系统，不能综合利用完整检查期间捕获的多个视图的互补信息，因此导致性能和应用范围有限。为解决这一问题，我们引入EchoPrime，这是一个基于多视图、视图信息的、基于视频的视觉-语言基础模型，经过1200多万视频-报告对的训练。EchoPrime使用对比学习来训练一个统一的嵌入模型，适用于包括罕见和常见疾病和诊断在内的全面超声心动图研究中的所有标准视图的表示。然后，EchoPrime利用视图分类和视图信息解剖关注模型来加权视频特定解释，准确映射超声心动图视图与解剖结构之间的关系。通过检索增强解释，EchoPrime整合所有超声心动图视频的信息，并进行全面的临床超声心动图解释。在两个独立医疗系统的数据集中，EchoPrime在心脏形态和功能的23个不同基准测试中取得了最先进的性能，超越了任务特定方法和先前基础模型的性能。经过严格的临床评估，EchoPrime可以协助医生自动进行全面超声心动图的初步评估。

NesTools：用于评估大型语言模型嵌套工具学习能力的数据集
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

Oct 15

ByHan Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen

大型语言模型（LLMs）结合工具学习在现实世界应用中取得了令人印象深刻的成果。在工具学习过程中，LLMs 可能会以嵌套顺序调用多个工具，后续工具调用可能将前者的响应作为其输入参数。然而，目前关于嵌套工具学习能力的研究仍未得到充分探讨，因为现有基准缺乏相关数据实例。为解决这一问题，我们引入了 NesTools 来填补当前全面嵌套工具学习评估的空白。NesTools 包括一种新颖的自动生成数据方法，用于构建具有不同嵌套结构的大规模嵌套工具调用。通过手动审查和完善，数据集质量高，与现实场景密切相关。因此，NesTools 可作为评估LLMs嵌套工具学习能力的新基准。我们对22个LLMs进行了广泛实验，并结合NesTools进行了深入分析，结果显示当前LLMs仍然面临复杂的嵌套工具学习任务。

SecCodePLT：一个统一的平台，用于评估 Code GenAI 的安全性。
SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI

Oct 14

ByYu Yang, Yuzhou Nie, Zhun Wang, Yuheng Tang, Wenbo Guo, Bo Li, Dawn Song

现有研究已建立了多个基准，以突显与代码生成人工智能（Code GenAI）相关的安全风险。这些风险主要体现在两个方面：模型生成不安全代码的潜力（不安全编码）以及其在网络攻击中的实用性（网络攻击帮助）。尽管这些基准已取得重大进展，但仍存在进一步改进的机会。例如，许多当前的基准往往更注重模型提供攻击建议的能力，而非其生成可执行攻击的能力。此外，大多数基准严重依赖静态评估指标，这些指标可能不如动态指标（如通过测试案例）精确。相反，虽然专家验证的基准提供高质量数据，但往往规模较小。为弥补这些差距，我们开发了SecCodePLT，这是一个统一而全面的评估平台，用于评估代码生成人工智能风险。对于不安全代码，我们引入了一种结合专家和自动生成的数据创建新方法。我们的方法确保了数据质量，同时实现了大规模生成。我们还将样本与测试案例相关联，以进行与代码相关的动态评估。对于网络攻击帮助，我们建立了一个真实环境，并构建样本以促使模型生成实际攻击，同时在我们的环境中使用动态指标。我们进行了大量实验，并展示SecCodePLT在安全相关性方面优于最先进的基准CyberSecEval。此外，它更好地识别了最先进模型在不安全编码和网络攻击帮助方面的安全风险。最后，我们将SecCodePLT应用于最先进的代码代理Cursor，并首次确定了这一先进编码代理中的非平凡安全风险。

GS^3：三重高斯飞溅的高效重照明
GS^3: Efficient Relighting with Triple Gaussian Splatting

Oct 15

ByZoubin Bi, Yixin Zeng, Chong Zeng, Fan Pei, Xiang Feng, Kun Zhou, Hongzhi Wu

我们提出了基于空间和角度高斯表示以及三重分层过程的方法，用于从多视点照明输入图像实时、高质量地合成新颖的光照和视图。为了描述复杂外观，我们采用朗伯加上混合角度高斯作为每个空间高斯的有效反射函数。为了生成自阴影，我们将所有空间高斯向光源投射以获得阴影值，然后通过一个小型多层感知器进一步细化。为了补偿其他效果，如全局光照，另一个网络被训练用于计算并添加每个空间高斯的RGB元组。我们的表示方法在30个样本上展示了其有效性，这些样本在几何形状（从实心到蓬松）和外观（从半透明到各向异性）上变化很大，并使用不同形式的输入数据，包括合成/重建对象的渲染图像、手持相机和闪光灯拍摄的照片，或来自专业光场的图像。我们在单个普通GPU上实现了40-70分钟的训练时间和90 fps的渲染速度。我们的结果在质量/性能方面与最先进的技术相比具有竞争力。我们的代码和数据可在https://GSrelight.github.io/ 上公开获取。

SimBa：简洁偏好用于扩展深度强化学习中的参数
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning

Oct 13

ByHojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno

最近在计算机视觉（CV）和自然语言处理（NLP）领域的进展主要是通过增加网络参数的数量来推动的，尽管传统理论表明更大的网络容易出现过拟合现象。这些大型网络通过整合引入简单性偏差的组件来避免过拟合，引导模型朝向简单且可泛化的解决方案。然而，在深度强化学习（RL）领域，设计和扩展网络的研究相对较少。受到这一机遇的启发，我们提出了SimBa，一种旨在通过引入简单性偏差来扩展深度RL参数的架构。SimBa由三个组件组成：（i）一个观察规范化层，使用运行统计数据标准化输入，（ii）一个残差前馈块，提供从输入到输出的线性路径，以及（iii）一个层规范化层，用于控制特征的大小。通过SimBa扩展参数，各种深度RL算法的样本效率得到了持续改善，包括离策略、在策略和无监督方法。此外，仅通过将SimBa架构集成到SAC中，就能够在DMC、MyoSuite和HumanoidBench等环境中以高计算效率匹敌或超越最先进的深度RL方法。这些结果展示了SimBa在不同RL算法和环境中的广泛适用性和有效性。

通过真实场景先验信息实现野外自然图像抠图
Towards Natural Image Matting in the Wild via Real-Scenario Prior

Oct 9

ByRuihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou

最近的研究方法尝试将强大的交互式分割模型，如SAM，应用于交互式抠图，并基于合成抠图数据集对模型进行微调。然而，在合成数据上训练的模型无法推广到复杂和遮挡场景。我们通过提出基于COCO数据集的新抠图数据集来解决这一挑战，即COCO抠图。具体而言，我们的COCO抠图构建包括配件融合和mask-to-matte，从COCO中选择真实世界的复杂图像，并将语义分割mask转换为抠图标签。构建的COCO抠图包括38251个复杂自然场景中的人类实例级alpha抠图的广泛集合。此外，现有基于SAM的抠图方法从冻结的SAM中提取中间特征和mask，仅通过端到端抠图损失训练轻量级抠图解码器，未充分利用预训练SAM的潜力。因此，我们提出了SEMat，重新设计了网络架构和训练目标。在网络架构方面，提出的特征对齐变换器学习提取细粒度的边缘和透明度特征。提出的抠图对齐解码器旨在分割抠图特定对象，并将粗糙mask转换为高精度抠图。在训练目标方面，提出的正则化和trimap损失旨在保留来自预训练模型的先验知识，并推动从mask解码器提取的抠图logits包含基于trimap的语义信息。在七个不同数据集上进行的大量实验表明我们方法的卓越性能，证明了其在交互式自然图像抠图中的有效性。我们在https://github.com/XiaRho/SEMat 开源我们的代码、模型和数据集。

朝着协同、泛化和高效的双系统机器人操作系统迈进
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

Oct 10

ByQingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao

对于在多样化和动态环境中运作的多功能机器人系统的需求不断增加，强调了通用政策的重要性，该政策利用大规模的跨体数据语料库，以促进广泛适应性和高级推理。然而，通用政策在推理效率和训练成本昂贵方面存在困难。相反，专家政策专为特定领域数据而设计，在任务级别精度和效率方面表现出色。然而，它缺乏适用于各种应用的泛化能力。受到这些观察的启发，我们介绍了RoboDual，这是一个协同双系统，补充了通用政策和专家政策的优点。基于扩散变压器的专家系统被设计用于多步骤动作展开，精心调整高级任务理解和基于视觉-语言-动作（VLA）的通用政策的离散动作输出。与OpenVLA相比，RoboDual在现实世界设置中取得了26.7%的改进，并通过引入一个仅具有20M可训练参数的专家政策，在CALVIN上获得了12%的增益。它仅使用5%的演示数据就保持了强大的性能，并在现实世界部署中实现了3.8倍更高的控制频率。代码将公开发布。我们的项目页面托管在：https://opendrivelab.com/RoboDual/

通过提示的方式对相互增强效应进行实证研究及在少样本文本分类任务中的应用
Empirical Study of Mutual Reinforcement Effect and Application in Few-shot Text Classification Tasks via Prompt

Oct 13

ByChengguang Gan, Tatsunori Mori

相互强化效应（MRE）研究了文本分类任务中单词级别和文本级别分类之间的协同关系。它认为两个分类级别的性能可以相互增强。然而，这种机制在先前的研究中尚未得到充分证明或解释。为了填补这一空白，我们采用实证实验来观察和证实MRE理论。我们在21个MRE混合数据集上的实验揭示了模型中MRE的存在及其影响。具体而言，我们进行了使用微调的比较实验。比较实验的结果发现证实了MRE的存在。此外，我们将MRE的应用扩展到提示学习，利用单词级别信息作为表述者来增强模型对文本级别分类标签的预测。在我们的最终实验中，F1分数在21个MRE混合数据集中有18个显著超越了基线，进一步验证了单词级别信息增强语言模型对整体文本理解的观点。

MultiVENT 2.0：一个用于事件中心视频检索的大规模多语言基准测试集。
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

Oct 15

ByReno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah Recknor, Jimena Guallar-Blasco, Alexander Martin, Ronald Colaianni, Nolan King, Eugene Yang, Benjamin Van Durme

高效地从大规模多模态集合中检索和合成信息已经成为一个关键挑战。然而，现有的视频检索数据集存在范围限制，主要集中在将描述性但模糊的查询与小规模、专业编辑的、以英语为中心的视频集进行匹配。为了填补这一空白，我们介绍了MultiVENT 2.0，一个大规模、多语言事件中心视频检索基准，包含超过218,000个新闻视频和3,906个针对特定世界事件的查询。这些查询专门针对视频的视觉内容、音频、嵌入式文本和文本元数据中的信息，要求系统利用所有这些来源才能成功完成任务。初步结果显示，最先进的视觉语言模型在这项任务上遇到了重大困难，而替代方法虽然显示出一定的潜力，但仍然不足以充分解决这个问题。这些发现强调了更强大的多模态检索系统的必要性，因为有效的视频检索是通往多模态内容理解和生成任务的关键一步。