每日精选AI研究论文及翻译
大型语言模型的发展引起了研究人员广泛的兴趣,他们希望了解这些模型固有的推理和问题解决能力。尽管有大量研究致力于阐明这些能力,但对于这些模型的道德发展和判断仍存在相当大的认知差距。目前评估这些模型道德推理能力的方法是将其视为分类任务,但由于过度简化,存在许多不准确之处。在本研究中,我们通过搭建人类心理学和人工智能这两个不同领域之间的联系,提出了一个有效的评估框架,可以借助心理测量评估工具-道德问题定义测验,帮助描绘模型的道德推理能力,包括道德一致性和科尔伯格的道德发展阶段。
尽管最近的文本到视频(T2V)生成方法取得了显著进展,但大多数作品集中于生成单一事件和单一背景(即单场景视频)的短视频剪辑。与此同时,最近的大型语言模型(LLMs)展示了它们在生成布局和程序以控制下游视觉模块(如图像生成模型)方面的能力。这引发了一个重要问题:我们能否利用这些LLMs中嵌入的知识来进行时间上连贯的长视频生成?在本文中,我们提出了VideoDirectorGPT,这是一个用于一致的多场景视频生成的新框架,利用LLMs的知识进行视频内容规划和基于实际的视频生成。具体而言,给定一个单一文本提示,我们首先请我们的视频规划LLM(GPT-4)将其扩展为一个“视频计划”,其中包括生成场景描述、实体及其相应布局、每个场景的背景,以及实体和背景的一致性分组。接下来,在视频规划器的输出指导下,我们的视频生成器Layout2Vid 可以明确控制空间布局,并能保持跨场景的实体/背景的时间一致性,同时仅通过图像级注释进行训练。我们的实验表明,VideoDirectorGPT框架在单场景和多场景视频生成中显著改善了布局和运动控制,并能生成在各个场景之间视觉上连贯的多场景视频,同时在开放域单场景T2V生成中取得了竞争性的性能。我们还展示了我们的框架可以动态控制布局指导的强度,并且还可以生成包含用户提供图像的视频。我们希望我们的框架能激发未来更好地将LLMs的规划能力整合到一致的长视频生成中的工作。
大型多模态模型(LMM)跨模态构建,两个模态之间的不对齐可能导致“幻觉”,生成的文本输出与上下文中的多模态信息不一致。为解决多模态不对齐问题,我们将人类反馈强化学习(RLHF)从文本领域调整到视觉-语言对齐任务,要求人类注释者比较两个响应并指出更具幻觉性的响应,视觉-语言模型被训练以最大化模拟人类奖励。我们提出一种名为增强事实RLHF的新对齐算法,通过附加额外的事实信息,如图像标题和地面真实多选项,缓解RLHF中的奖励欺骗现象,并进一步提高性能。我们还通过以前可用的人类编写的图像-文本对增强GPT-4生成的训练数据(用于视觉指导调整),以提高模型的通用能力。为了在实际场景中评估所提出的方法,我们开发了一个新的评估基准MMHAL-BENCH,特别关注对幻觉的惩罚。作为第一个使用RLHF训练的LMM,在LLaVA-Bench数据集上取得了显著的改进,性能水平达到了文本专用GPT-4的94%(而以前最佳方法只能达到87%水平),在MMHAL-BENCH上比其他基准提高了60%。我们在https://llava-rlhf.github.io 开放源代码、模型和数据。
大多数现有的多模态模型受限于无法熟练处理多图像、多轮对话中交错的图像和文本输入,存在着在训练资源分配和数据获取方面的重大约束,影响了它们在不同交互领域中的适应性和可扩展性。为了解决这一问题,我们提出了DeepSpeed-VisualChat框架,旨在通过融合多模态能力来优化大型语言模型(LLMs),重点是提高大型视觉和语言模型处理交错输入的效率。我们的框架值得注意的地方在于:(1)支持多轮和多图像对话的开源支持;(2)引入创新的多模态因果注意机制;以及(3)利用现有数据集的数据融合技术,以确保在多轮、多图像对话中的无缝交互。与现有框架相比,DeepSpeed-VisualChat展现出卓越的可扩展性,可扩展至70B参数的语言模型规模,代表了多模态语言模型的重大进步,并为未来的探索奠定了坚实基础。
已经训练过大型基于Transformer的模型的团队报告称,在大规模训练时出现了训练不稳定性,而在较小规模下使用相同超参数进行训练时并未出现这种情况。尽管这种不稳定性的原因具有科学意义,但要复现这种情况所需的资源量使得调查变得困难。在这项工作中,我们寻求复现和研究较小规模下的训练稳定性和不稳定性的方法。首先,我们关注先前工作中描述的两种训练不稳定性的来源:注意力层中logits的增长(Dehghani等,2023年)和输出logits与对数概率之间的发散(Chowdhery等,2022年)。通过在不同规模下测量学习率与损失之间的关系,我们展示了当以较高学习率训练时,这些不稳定性也会出现在小型模型中,并且先前在大规模下采用的缓解方法在这种情况下同样有效。这促使我们调查其他已知优化器和模型干预措施对最终损失对学习率变化的敏感性的影响程度。为此,我们研究了诸如热身、权重衰减和muParam(Yang等,2022年)等方法,并结合技术训练小型模型,使其在学习率变化的数量级上实现类似的损失。最后,在结束我们的探索时,我们研究了两种情况,即通过检查模型激活和梯度范数的缩放行为可以在其出现之前预测出不稳定性。
大型语言模型(LLMs)可以通过迭代地根据反馈调整和修订其输出来提高在各种任务上的准确性。我们观察到这些修订可能会引入错误,这种情况下最好回滚到先前的结果。此外,修订通常是同质的:它们使用产生初始答案的相同推理方法,这可能无法纠正错误。为了在这个领域进行探索,我们提出了SCREWS,一个用于推理和修订的模块化框架。它由三个主要模块组成:采样、条件重采样和选择,每个模块包含可根据任务手动选择的子模块。我们展示了SCREWS不仅在一个共同框架下统一了几种先前的方法,还揭示了几种识别改进推理链的新策略。我们使用最先进的LLMs(ChatGPT和GPT-4)在各种推理任务上评估我们的框架,并为每个任务发现了有用的新推理策略:算术单词问题、多跳问题回答和代码调试。异质的修订策略被证明是重要的,选择原始和修订候选者之间的选择也很重要。
最近在大型语言模型(LLMs)领域的进展,以及新兴的能力使它们成为自然语言生成质量有前景的无参考评估器,以及人类评估的一个有竞争力的替代方案。然而,受限于闭源或高计算需求来托管和调整,缺乏实践来进一步校准现成的基于LLM的评估器以实现更好的与人类对齐。在这项工作中,我们提出了AutoCalibrate,这是一个多阶段、无梯度的方法,可以自动校准和对齐基于LLM的评估器以符合人类偏好。我们并未明确建模人类偏好,而是首先在一组人类标签中隐含地涵盖它们。然后,语言模型本身通过在不同的少样本示例上进行上下文学习,起草了一组初始评分标准。为了进一步校准这组标准,我们选择最佳表现者,并通过自我完善重新起草它们。我们在多个文本质量评估数据集上的实验表明,通过校准,我们与专家评估之间的相关性显著提高。我们全面的定性分析传达了对有效评分标准本质的深刻直觉和观察。
将长视频分割成章节使用户能够快速导航到他们感兴趣的信息。这一重要主题由于缺乏公开发布的数据集而研究不足。为了解决这个问题,我们提出了VidChapters-7M,这是一个包含817K用户分章视频的数据集,总共包括7M个章节。VidChapters-7M是通过从在线视频中爬取用户注释的章节而自动创建的,因此没有额外的手动标注。我们基于这些数据提出了以下三个任务。首先,视频章节生成任务包括对视频进行时间分割,并为每个片段生成一个章节标题。为了进一步剖析问题,我们还定义了这个任务的两个变体:在给定地面真实边界的情况下生成视频章节,这需要在给定注释视频段的情况下生成一个章节标题,以及视频章节定位,这需要在给定标题的情况下暂时定位一个章节。我们为这三个任务基准测试了简单的基线和最先进的视频-语言模型。我们还展示了在VidChapters-7M上进行预训练对零样本和微调设置下的密集视频字幕任务具有良好的迁移效果,大大改善了YouCook2和ViTT基准测试的最新技术水平。最后,我们的实验表明,下游性能随着预训练数据集的规模扩大而有很好的提升。我们的数据集、代码和模型可在https://antoyang.github.io/vidchapters.html上公开获取。