每日精选AI研究论文及翻译
扩散模型在图像和视频生成方面取得了显著成功。在这项工作中,我们展示了扩散模型也能生成性能优异的神经网络参数。我们的方法很简单,利用了自动编码器和标准的潜在扩散模型。自动编码器提取了部分经过训练的网络参数的潜在表示。然后训练扩散模型来从随机噪声中合成这些潜在参数表示。它生成新的表示,通过自动编码器的解码器,其输出可作为新的网络参数子集。在各种架构和数据集上,我们的扩散过程始终生成性能相当或优于经过训练的网络的模型,且附加成本最小。值得注意的是,我们在实证中发现生成的模型与经过训练的网络表现不同。我们的结果鼓励更多探索扩散模型的多样化应用。
我们介绍了广义指令调整(称为GLAN),这是一种用于大型语言模型(LLMs)指令调整的通用且可扩展的方法。与先前依赖种子示例或现有数据集构建指令调整数据的工作不同,GLAN 专门利用预先策划的人类知识和能力分类法作为输入,并在所有领域生成大规模合成指令数据。具体来说,受人类教育系统中的系统结构启发,我们通过LLMs的协助,将人类知识和能力分解为各种领域、子领域,最终是不同学科,半自动地构建了分类法。随后,我们为每个学科生成了一个全面的科目列表,并继续设计了针对每个科目量身定制的教学大纲,再次利用LLMs。通过大纲中每节课详细的细粒度关键概念,我们能够生成涵盖人类知识和技能整个领域的多样指令。对大型语言模型(例如Mistral)的广泛实验表明,GLAN在数学推理、编码、学术考试、逻辑推理以及一般指令遵循等多个维度上表现出色,而无需使用这些任务的特定训练数据。此外,GLAN支持轻松定制,只需将新节点纳入我们的分类法即可添加新领域或技能。
大多数视频字幕模型旨在处理几秒钟的短视频片段,并输出描述低级视觉概念(例如对象、场景、原子动作)的文本。然而,大多数现实世界的视频持续时间为几分钟甚至几小时,并具有跨越不同时间粒度的复杂分层结构。我们提出了Video ReCap,一种递归视频字幕模型,可以处理长度差异巨大的视频输入(从1秒到2小时),并在多个层次上输出视频字幕。递归视频-语言架构利用不同视频层次之间的协同作用,能够高效处理长达数小时的视频。我们利用课程学习训练方案来学习视频的分层结构,从描述原子动作的片段级字幕开始,然后关注段级描述,最终生成长达数小时视频的摘要。此外,我们通过将Ego4D与8,267个手动收集的长距离视频摘要相结合,引入了Ego4D-HCap数据集。我们的递归模型可以灵活生成不同层次的字幕,同时也可用于其他复杂的视频理解任务,例如在EgoSchema上进行的视频问答。数据、代码和模型可在以下网址获取:https://sites.google.com/view/vidrecap
我们介绍了VideoPrism,这是一个通用视频编码器,可以通过单个冻结模型处理各种视频理解任务。我们在一个包含3600万高质量视频-标题对和5.82亿视频剪辑的异构语料库上对VideoPrism进行了预训练,其中包含带有嘈杂平行文本(例如ASR转录)的视频剪辑。预训练方法通过全局-局部蒸馏语义视频嵌入和令牌重排方案改进了掩码自编码,使VideoPrism能够主要关注视频模态,同时利用与视频相关的宝贵文本。我们在四大类视频理解任务上对VideoPrism进行了广泛测试,从网络视频问答到科学计算机视觉,其中在33个视频理解基准测试中有30个取得了最先进的性能。
为了使基于大型语言模型(LLM)的助手能够有效地适应不断变化的信息需求,必须能够通过持续在新数据上进行训练来更新它们的事实知识。这样做的标准方法包括在新文档上持续进行预训练,然后进行问题-答案(QA)对的指导微调。然而,我们发现使用这种方法训练的LLM在回答问题时存在困难,即使文档的困惑度被最小化。我们发现QA对通常很直接,而文档更加复杂,以错综复杂的方式将许多事实陈述编织在一起。因此,我们假设让LLM在持续预训练文档之前先接触QA对是有益的,这样从复杂文档中编码知识的过程将考虑到如何通过问题访问这些知识。基于此,我们提出了预指导微调(PIT),这是一种在训练文档之前先对问题进行指导微调的方法。这与标准的指导微调形成对比,后者是在训练文档后学习如何提取知识。大量实验证明,PIT显著增强了LLM吸收新文档知识的能力,比标准指导微调提高了17.8%。
LLM已经改变了自然语言处理,并在各个领域展现了潜力,然而由于缺乏彻底的评估和金融任务的复杂性,它们在金融领域的潜力尚未得到充分挖掘。这与LLM的快速发展一起,突显了迫切需要为LLM建立系统化金融评估基准的重要性。在本文中,我们介绍了FinBen,这是第一个全面的开源评估基准,专门设计用于全面评估LLM在金融领域的能力。FinBen包括23个金融任务的35个数据集,根据卡特尔-霍恩-卡罗尔理论启发,组织成三个难度级别,以评估LLM在归纳推理、联想记忆、数量推理、结晶智力等方面的认知能力。我们对包括GPT-4、ChatGPT和最新的Gemini在内的15个代表性LLM进行评估,揭示了它们在金融领域内的优势和局限性。研究结果表明,GPT-4在量化、提取、数值推理和股票交易方面领先,而Gemini在生成和预测方面表现出色;然而,两者在复杂提取和预测方面都存在困难,明显需要有针对性的增强。指导调整可以提升简单任务的表现,但在改善复杂推理和预测能力方面表现不佳。FinBen旨在持续评估金融领域中的LLM,通过定期更新任务和模型,促进人工智能的发展。
在本文中,我们提出了一种算法,允许联合优化由分解的低秩张量表示的相机姿态和场景几何,仅利用2D图像作为监督。首先,我们进行了基于1D信号的试点研究,并将我们的发现与3D场景联系起来,其中基于体素的NeRFs的天真联合姿态优化可能很容易导致次优解。此外,基于频谱分析,我们建议在2D和3D辐射场上应用卷积高斯滤波器,以实现粗到细的训练计划,从而实现联合相机姿态优化。利用分解的低秩张量中的分解属性,我们的方法实现了与蛮力3D卷积等效的效果,仅带来少量计算开销。为了进一步提高联合优化的鲁棒性和稳定性,我们还提出了平滑的2D监督技术、随机缩放的核参数以及边缘引导损失掩模的技术。广泛的定量和定性评估表明,我们提出的框架在新视角合成以及优化的快速收敛方面表现出优越性能。
本文提出了一种名为MVDiffusion++的神经架构,用于3D物体重建,可以在没有相机姿势的情况下,通过一个或少数几个图像合成物体的密集高分辨率视图。MVDiffusion++通过两个惊人简单的想法实现了出色的灵活性和可扩展性:1)一种“无姿势架构”,其中2D潜在特征之间的标准自注意力学习跨任意数量的条件和生成视图的3D一致性,而无需明确使用相机姿势信息;以及2)一种“视图丢失策略”,在训练过程中丢弃大量输出视图,从而减少训练时的内存占用,并实现测试时的密集高分辨率视图合成。我们使用Objaverse进行训练,使用Google扫描的对象进行评估,采用标准的新视图合成和3D重建指标,其中MVDiffusion++明显优于当前的艺术水准。我们还通过将MVDiffusion++与文本到图像生成模型相结合,展示了一个文本到3D的应用示例。
手动为3D网格创建纹理即使对于专业的视觉内容创作者来说也是耗时的。我们提出了一种快速的方法,根据用户提供的文本提示自动为输入的3D网格着色。重要的是,我们的方法将光照与表面材质/反射在生成的纹理中解耦,使得网格可以在任何光照环境中得到正确的重新照明和渲染。我们引入了LightControlNet,这是一种基于ControlNet架构的新型文本到图像模型,允许将期望的光照规范作为模型的条件图像。然后,我们的文本到纹理流水线分两个阶段构建纹理。第一阶段使用LightControlNet生成网格的一组视觉上一致的稀疏参考视图。第二阶段应用基于得分蒸馏采样(SDS)的纹理优化,该优化与LightControlNet一起工作,以提高纹理质量同时解耦表面材质和光照。我们的流水线比先前的文本到纹理方法快得多,同时产生高质量且可重新照明的纹理。
触觉是人类重要的感知方式,但尚未被纳入多模态生成语言模型中。部分原因是获取触觉数据的自然语言标签困难,以及将触觉读数与视觉观察和语言描述进行对齐的复杂性。为了弥合这一差距,本研究引入了一个新的数据集,包含4.4万组野外视觉-触觉对,其中英语语言标签由人类注释(10%),文本伪标签来自GPT-4V(90%)。我们使用这个数据集训练了一个视觉-语言对齐的触觉编码器,用于开放词汇分类,以及一个触觉-视觉-语言(TVL)模型,用于使用训练好的编码器生成文本。结果表明,通过整合触觉,TVL模型在任意一对这些模态训练的现有模型基础上,提高了触觉-视觉-语言对齐(+29%分类准确率)。尽管数据集只有一小部分是人工标记的,TVL模型在新的触觉-视觉理解基准测试中,表现出比GPT-4V(+12%)和开源视觉-语言模型(+32%)更好的视觉-触觉理解。代码和数据:https://tactile-vlm.github.io。
在多模态大型语言模型(MLLMs)方面取得的显著进展并未使其免受挑战,特别是在处理提示中的虚假信息时,可能会产生幻觉式回应。为了定量评估这种脆弱性,我们提出了MAD-Bench,这是一个精心策划的基准测试,包含850个测试样本,分为6个类别,如不存在的对象、对象数量、空间关系和视觉混淆等。我们对流行的MLLMs进行了全面分析,涵盖了从GPT-4V、Gemini-Pro到开源模型,如LLaVA-1.5和CogVLM。从经验上看,我们观察到GPT-4V与其他模型之间存在显著的性能差距;而先前的鲁棒指令调整模型,如LRV-Instruction和LLaVA-RLHF,在这个新基准测试中并不有效。在MAD-Bench上,尽管GPT-4V实现了75.02%的准确率,但我们实验中任何其他模型的准确率范围在5%到35%之间。我们进一步提出了一种解决方案,即在虚假提示中添加额外段落,以鼓励模型在回答问题之前三思。令人惊讶的是,这种简单方法甚至可以将准确率翻倍;然而,绝对数字仍然太低,无法令人满意。我们希望MAD-Bench可以作为一个有价值的基准测试,激励进一步研究,增强模型对虚假提示的抵抗力。
最近几年,单文档新闻摘要在忠实性方面取得了实质性进展,这得益于对事实一致性或幻觉评估的研究。我们探讨这些进展是否能延伸到其他文本摘要领域。我们提出了一个新的评估基准,针对以主题为中心的对话摘要,这些摘要是由不同规模的LLM生成的。我们提供了关于这些摘要的事实一致性的二元句级人工注释,以及对事实不一致句子的详细解释。我们的分析表明,现有的LLM在对话领域中产生了大量事实错误的幻觉,无论模型的规模如何。另一方面,当包括GPT-4在内的LLM充当二元事实评估器时,它们表现不佳,并且在事实性评估方面被当前最先进的专门事实性评估指标超越。最后,我们使用经过精心策划的错误分类法对幻觉类型进行了分析。我们发现模型生成的摘要中存在各种错误和错误分布,并且非LLM基于的指标能够更好地捕捉所有错误类型,胜过LLM基于的评估器。
扩散模型在文本到图像生成方面取得了显著进展。然而,现有模型在面对多对象组合生成时仍然存在许多困难。本文提出了一种新的无需训练且易于转移的文本到图像生成框架,名为RealCompo,旨在利用文本到图像和布局到图像模型的优势,以增强生成图像的逼真度和组合性。提出了一种直观而新颖的平衡器,用于动态平衡两个模型在去噪过程中的优势,允许任何模型的即插即用使用,无需额外训练。大量实验证明,我们的RealCompo在多对象组合生成方面始终优于最先进的文本到图像模型和布局到图像模型,同时保持生成图像的令人满意的逼真度和组合性。代码可在https://github.com/YangLing0818/RealCompo找到。