每日精选AI研究论文及翻译
自动生成音乐描述的自动化音乐字幕技术具有显著潜力,可增强对大量音乐数据的理解和组织。尽管其重要性显著,研究人员面临挑战,因为现有音乐语言数据集的收集过程昂贵且耗时,并且规模有限。为解决数据稀缺问题,我们提出利用大型语言模型(LLMs)从大规模标签数据集中人工生成描述句子。这产生了大约220万个音频片段配对的字幕。我们将其称为基于大型语言模型的伪音乐字幕数据集,简称LP-MusicCaps。我们对大规模音乐字幕数据集进行系统评估,使用自然语言处理领域中的各种定量评估指标以及人类评估。此外,我们使用该数据集训练了基于Transformer的音乐字幕模型,并在零-shot和迁移学习设置下进行了评估。结果表明,我们提出的方法优于监督基线模型。
我们研究了如何将在互联网规模数据上训练的视觉-语言模型直接整合到端到端机器人控制中,以提升泛化能力并实现新兴的语义推理。我们的目标是使单一端到端训练模型既能学习将机器人观测映射到动作,又能享受来自网络的语言和视觉-语言数据的大规模预训练带来的好处。为此,我们提出在机器人轨迹数据和互联网规模视觉-语言任务(如视觉问答)上共同微调最先进的视觉-语言模型。与其他方法相比,我们提出了一个简单通用的方法来实现这一目标:为了将自然语言回复和机器人动作都适应相同的格式,我们将动作表达为文本标记,并直接将其纳入模型的训练集中,与自然语言标记的方式相同。我们将这类模型称为视觉-语言-动作模型(VLA),并实例化了一个这样的模型,我们称之为RT-2。我们进行了广泛的评估(6k次评估试验),结果显示我们的方法导致了高性能的机器人策略,并使RT-2能够从互联网规模训练中获得一系列新兴能力。这包括对新颖对象的显著改进泛化能力,能够解释机器人训练数据中不存在的命令(如将物体放在特定数字或图标上),以及能够对用户命令做出基本推理(如拿起最小或最大的物体,或者最接近另一个物体的物体)。我们进一步展示,引入思维链推理使RT-2能够进行多阶段语义推理,例如找出哪个物体适合用作临时锤子(一块石头),或者哪种饮料最适合疲倦的人(一种能量饮料)。
我们研究了各种提示策略,通过输入增强来提高大型语言模型(LLMs)在个性化内容推荐性能方面的表现。我们提出的方法称为LLM-Rec,包括四种不同的提示策略:(1)基本提示,(2)推荐驱动提示,(3)参与引导提示,以及(4)推荐驱动+参与引导提示。我们的实证实验表明,将原始内容描述与LLM生成的增强输入文本结合起来,使用这些提示策略可以提高推荐性能。这一发现突显了结合多样的提示和输入增强技术以提升大型语言模型在个性化内容推荐中的推荐能力的重要性。
我们使用因果分析调查语言模型计算的内部结构,并展示了两种模式:(1) 一种自适应计算形式,其中对语言模型的一个注意力层进行消融会导致另一层进行补偿(我们称之为九头蛇效应),以及(2) 晚期MLP层的平衡功能,用于下调最大似然令牌。我们的消融研究表明,语言模型层通常相对松散耦合(对一个层的消融仅影响少量下游层)。令人惊讶的是,即使在没有任何形式的辍学训练的语言模型中,这些效应也会发生。我们分析了这些效应在事实回忆背景下的情况,并考虑它们对语言模型中的电路级归因的影响。
图像字幕通常被定义为生成与参考图像-字幕对的分布相匹配的图像字幕的任务。然而,在标准字幕数据集中,参考字幕较短,可能无法唯一标识描述的图像。当模型直接在从互联网收集的图像-替代文本对上进行训练时,这些问题会进一步恶化。在这项工作中,我们展示了通过对训练过程进行最小更改,可以生成更具体的字幕。我们为自回归字幕模型实现了无分类器指导,通过微调它来估计字幕的条件和无条件分布。在解码时应用的指导尺度控制了最大化 p(字幕|图像) 和 p(图像|字幕) 之间的权衡。与标准贪婪解码相比,使用指导尺度为2的解码显着改善了无参考指标,如CLIPScore(0.808 对 0.775)和在CLIP嵌入空间中的字幕到图像检索性能(recall@1 44.6% 对 26.5%),但恶化了标准基于参考的字幕指标(例如,CIDEr 78.6 对 126.1)。我们进一步探讨了使用语言模型来指导解码过程,相对于无分类器指导产生的参考-无参考字幕指标帕累托前沿,获得了小幅改进,并显着提高了仅在经过最小编辑的网络数据上训练的模型生成的字幕质量。
最近,将视频基础模型和大型语言模型整合,构建了一个视频理解系统,克服了特定预定义视觉任务的局限性。然而,现有系统只能处理帧数很少的视频。对于长视频来说,计算复杂度、内存成本和长期时间连接仍然是挑战。受Atkinson-Shiffrin记忆模型启发,我们开发了一个包括快速更新的短期记忆和紧凑的、因此持久的长期记忆的记忆机制。我们使用Transformer中的token作为记忆的载体。MovieChat在长视频理解方面实现了最先进的性能。
大型语言模型(LLMs)使得对通用代理的雄心勃勃追求不再是幻想。构建这样通用模型的一个关键障碍是任务和模态的多样性和异质性。一种有前途的解决方案是统一化,允许在一个统一框架内支持多种任务和模态。虽然少数大型模型(例如,Flamingo(Alayrac等,2022))在大规模数据集上训练,可以支持两种以上的模态,但当前的小到中等规模统一模型仍然局限于两种模态,通常是图像-文本或视频-文本。我们提出的问题是:是否可能高效地构建一个能够支持所有模态的统一模型?为了回答这个问题,我们提出了UnIVAL,这是迈向这一雄心目标的一步。不依赖于花哨的数据集大小或拥有数十亿参数的模型,约0.25B参数的UnIVAL模型超越了两种模态,将文本、图像、视频和音频统一到一个模型中。我们的模型在许多任务上经过高效的预训练,基于任务平衡和多模态课程学习。UnIVAL在图像和视频-文本任务中展现出与现有最先进方法竞争力的表现。从图像和视频-文本模态学到的特征表示,使得该模型在音频-文本任务上微调时也能取得竞争性表现,尽管没有在音频上进行预训练。借助统一模型,我们提出了一项关于多模态模型合并的新颖研究,通过对在不同多模态任务上训练的模型进行权重插值,展示了它们在特别适用于超出分布的泛化方面的优势。最后,我们通过展示任务之间的协同作用来激励统一化。模型权重和代码在此处发布:https://github.com/mshukor/UnIVAL。
我们能否通过了解当前行动(例如打蛋)之后通常会发生什么(例如打蛋壳)来更好地预测演员的未来行动?如果我们还知道演员的长期目标(例如制作蛋炒饭)呢?长期行动预测(LTA)任务旨在从视频观察中以动词和名词序列的形式预测演员的未来行为,对于人机交互至关重要。我们建议从两个角度制定LTA任务:自下而上的方法通过建模时间动态来自回归地预测下一步行动;自上而下的方法推断演员的目标并规划完成目标所需的步骤。我们假设在程序文本数据(例如食谱、操作指南)上预训练的大型语言模型(LLMs)有潜力帮助从这两个角度进行LTA。它可以帮助提供可能的下一步行动的先验知识,并根据观察到的程序部分推断目标。为了利用LLMs,我们提出了一个两阶段框架,AntGPT。它首先识别观察视频中已执行的行动,然后要求LLM通过有条件生成来预测未来行动,或者通过思维链提示来推断目标并规划整个过程。在Ego4D LTA v1和v2基准、EPIC-Kitchens-55以及EGTEA GAZE+上的实证结果展示了我们提出方法的有效性。AntGPT在所有上述基准上均取得了最先进的性能,并且可以通过定性分析成功推断目标,从而执行目标条件下的“反事实”预测。代码和模型将在以下网址发布:https://brown-palm.github.io/AntGPT
视频时间定位(VTG)旨在根据自定义语言查询(例如句子或单词)从视频中定位目标片段(如连续间隔或不连续镜头),对于社交媒体上的视频浏览至关重要。在这个方向上,大多数方法开发了专门的任务模型,这些模型经过训练使用特定类型的标签,如时刻检索(时间间隔)和精彩片段检测(价值曲线),这限制了它们推广到各种VTG任务和标签的能力。在本文中,我们提出统一多样化的VTG标签和任务,命名为UniVTG,沿着三个方向进行:首先,我们重新审视各种VTG标签和任务,并定义一个统一的公式。基于此,我们开发数据注释方案以创建可扩展的伪监督。其次,我们开发了一种有效灵活的定位模型,能够处理每个任务并充分利用每个标签。最后,由于统一框架,我们能够从大规模多样化的标签中解锁时间定位预训练,并开发更强大的定位能力,例如零样本定位。在七个数据集(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum和QFVS)上进行的广泛实验展示了我们提出的框架的有效性和灵活性。代码可在https://github.com/showlab/UniVTG 上找到。
我们提出了虚拟提示注入(VPI)用于针对指令调整的大型语言模型(LLMs)。VPI允许攻击者指定虚拟提示,以在特定触发场景下引导模型行为,而无需在模型输入中进行显式注入。例如,如果一个LLM被虚拟提示“负面描述乔·拜登。”所感染,那么任何部署此模型的服务在处理与乔·拜登相关的用户查询时将传播有偏见的观点。VPI之所以特别有害,有两个主要原因。首先,攻击者可以通过定义各种虚拟提示,利用LLMs在遵循指令方面的熟练能力,对LLM行为进行精细控制。其次,这种控制是在攻击者无需干预的情况下在模型运行时实现的,导致持久性攻击。为了展示这一威胁,我们提出了一种通过操纵模型的指令调整数据执行VPI的简单方法。我们发现,我们提出的方法在引导LLM方面非常有效。例如,通过仅向指令调整数据中注入52个有毒示例(训练数据规模的0.1%),训练模型对于与乔·拜登相关的查询给出的负面回应百分比从0%变为40%。因此,我们强调确保指令调整数据的完整性的必要性,因为少量有毒数据可能对部署的模型造成隐蔽且持久的危害。我们进一步探讨可能的防御措施,并确定数据过滤是抵御毒化攻击的有效方法。我们的项目页面位于https://poison-llm.github.io。
基于强大的大型语言模型(LLMs),最近出现了备受关注的生成式多模态大型语言模型(MLLMs)作为一个关键研究领域,展现出对理解和生成都具有显著能力。在这项工作中,我们着眼于评估MLLMs中生成式理解的工作,作为全面评估生成模型的初步步骤,引入了一个名为SEED-Bench的基准。SEED-Bench包括19K个带有准确人类注释的多项选择题(比现有基准大6倍),涵盖了12个评估维度,包括图像和视频模态的理解。我们开发了一个先进的流程,用于生成针对特定评估维度的多项选择题,整合了自动筛选和手动验证过程。多项选择题的正确选项来自人类注释,可以客观高效地评估模型性能,无需在评估过程中进行人类或GPT干预。我们进一步评估了18个模型在所有12个维度上的性能,涵盖了空间和时间理解。通过评估结果揭示现有MLLMs的局限性,我们希望SEED-Bench能够为激励未来研究提供见解。我们将推出并持续维护一个排行榜,为社区提供一个评估和探究模型能力的平台。
部署在现实世界中的自主机器人将需要快速适应环境变化的控制策略。为此,我们提出AutoRobotics-Zero(ARZ)方法,基于AutoML-Zero,从零开始发现零-shot可适应的策略。与仅优化模型参数的神经网络适应策略相比,ARZ可以构建具有线性寄存器机器的完整表达能力的控制算法。我们演化模块化策略,调整其模型参数并即时改变推理算法,以适应突发环境变化。我们在一个逼真的模拟四足机器人上展示了我们的方法,为其演化出安全的控制策略,避免在单个肢体突然断裂时摔倒。这是一个具有挑战性的任务,在这个任务中,两种流行的神经网络基线失败了。最后,我们在一个名为灾变摆杆的新颖且具有挑战性的非静态控制任务上对我们的方法进行了详细分析。结果证实了我们的发现,即ARZ对突发环境变化更加稳健,并且可以构建简单且可解释的控制策略。