每日精选AI研究论文及翻译
通过改进旋转位置嵌入(RoPE)来扩展语言模型(LMs)的上下文长度已经成为一种趋势。尽管现有研究主要解决了RoPE在注意力机制中的局限性,但本文提供了对LMs几乎所有部分的分析,揭示了它们对基于RoPE注意力的长度泛化的不利影响。利用离散信号处理理论,我们展示了RoPE通过隐式实现非均匀离散傅立叶变换来实现周期性注意力。然而,这种周期性受到了谱损伤的影响,其原因包括:1)注意力之外的线性层和激活函数;2)由时域截断带来的训练不足的频率分量。基于我们的观察,我们提出了傅立叶位置嵌入(FoPE),它增强了注意力的频域特性,以改善其周期性扩展和长度泛化。FoPE构建傅立叶级数,并将破坏性频率分量归零,增加模型对频谱损伤的鲁棒性。跨越各种模型规模的实验表明,在不同上下文窗口中,与RoPE和ALiBi相比,FoPE在一项大海捞针任务中能够保持更稳定的困惑度和更一致的准确性。几项分析和消融进一步支持了我们的方法和理论建模。
一种3D场景图表示了一个紧凑的场景模型,存储了关于对象及它们之间语义关系的信息,使其在机器人任务中的应用变得有前景。当与用户交互时,一个具有实体的智能代理应能够回应用自然语言提出的关于场景的各种查询。大型语言模型(LLMs)由于其自然语言理解和推理能力,对于用户-机器人交互是有益的解决方案。最近用于创建可学习的3D场景表示的方法已经展示了通过适应3D世界来提高LLMs响应质量的潜力。然而,现有方法并未明确利用关于对象之间语义关系的信息,而是仅限于它们的坐标信息。在这项工作中,我们提出了一种名为3DGraphLLM的方法,用于构建3D场景图的可学习表示。这种可学习表示被用作LLMs的输入,以执行3D视觉-语言任务。在我们对流行的ScanRefer、RIORefer、Multi3DRefer、ScanQA、Sqa3D和Scan2cap数据集进行的实验中,我们展示了这种方法相对于不使用关于对象之间语义关系信息的基准方法的优势。代码可在以下网址公开获取:https://github.com/CognitiveAISystems/3DGraphLLM。
在深度数据的各种应用中,缺失值仍然是一个常见挑战,这源于诸如数据采集不完整和视角改变等各种原因。本研究通过DepthLab来填补这一空白,这是一个基于图像扩散先验的基础深度修复模型。我们的模型具有两个显著优势:(1) 它表现出对深度不足区域的弹性,可为连续区域和孤立点提供可靠的补全,以及 (2) 在填补缺失值时,它能够忠实地保持与已知深度的尺度一致性。利用这些优势,我们的方法在各种下游任务中证明了其价值,包括3D场景修复、文本到3D场景生成、使用DUST3R进行稀疏视图重建以及LiDAR深度补全,在数值性能和视觉质量方面均超过当前解决方案。我们的项目页面和源代码可在https://johanan528.github.io/depthlab_web/ 上找到。
基于 Multi-Modal Diffusion Transformer MM-DiT 结构,类似 Sora 的视频生成模型取得了显著进展。然而,当前视频生成模型主要集中在单提示上,难以生成反映真实动态场景的多个连续提示的连贯场景。虽然一些开创性工作已经探索了多提示视频生成,但它们面临着重要挑战,包括严格的训练数据要求、弱提示跟随以及不自然的过渡。为了解决这些问题,我们首次提出了 DiTCtrl,这是一种在 MM-DiT 结构下无需训练的多提示视频生成方法。我们的关键思想是将多提示视频生成任务视为具有平滑过渡的时间视频编辑。为实现这一目标,我们首先分析了 MM-DiT 的注意机制,发现 3D 全注意力行为类似于 UNet-like 扩散模型中的交叉/自注意力块,实现了基于掩码的精确语义控制,通过多提示视频生成中的注意力共享实现跨不同提示的精确语义控制。基于我们精心设计的方法,DiTCtrl 生成的视频在没有额外训练的情况下实现了平滑过渡和一致的物体运动,给定多个连续提示。此外,我们还提出了 MPVBench,这是一个专门为多提示视频生成设计的新基准,用于评估多提示生成的性能。大量实验证明,我们的方法在无需额外训练的情况下实现了最先进的性能。
文本或图像到3D生成器和3D扫描仪现在可以生成具有高质量形状和纹理的3D资产。这些资产通常由单个融合表示组成,如隐式神经场、高斯混合或网格,没有任何有用的结构。然而,大多数应用程序和创意工作流需要资产由几个有意义的部分组成,这些部分可以独立操作。为了弥补这一差距,我们引入了PartGen,一种新颖的方法,从文本、图像或非结构化的3D对象开始生成由有意义部分组成的3D物体。首先,给定3D对象的多个视图,生成或渲染,多视角扩散模型提取一组合理且视图一致的部分分割,将对象分为部分。然后,第二个多视角扩散模型单独处理每个部分,填补遮挡,并使用这些完成的视图通过馈送到3D重建网络进行3D重建。这个完成过程考虑整个对象的上下文,以确保部分整合得紧密。生成完成模型可以弥补由于遮挡而缺失的信息;在极端情况下,它可以根据输入的3D资产产生完全看不见的部分。我们在生成和真实的3D资产上评估了我们的方法,并展示它在分割和部分提取基线方面表现出色。我们还展示了下游应用,如3D部分编辑。
尽管大型语言模型近年来取得了显著进展,但开源模型在复杂推理任务上往往难以保持稳定的高性能。现有的集成方法,无论是在标记还是输出级别应用,都未能解决这些挑战。为此,我们提出了一种名为带蒙特卡洛树搜索的语言模型集成(LE-MCTS)的新框架,用于对语言模型进行过程级集成。LE-MCTS将使用语言模型集成的逐步推理构建为马尔可夫决策过程。在这个框架中,状态表示中间推理路径,而动作包括使用预定义池中选择的语言模型之一生成下一个推理步骤。在过程级奖励模型的指导下,LE-MCTS对不同语言模型生成的推理步骤进行树搜索,识别最准确的推理链。对五个数学推理基准的实验结果表明,我们的方法优于单一语言模型解码算法和语言模型集成方法。值得注意的是,LE-MCTS在MATH和MQA数据集上分别提高了3.6%和4.3%的性能,突显了其在解决复杂推理问题方面的有效性。
现代LLM来说,ARC挑战似乎比ARC简单更具挑战性,主要是因为评估设置阻止了直接比较答案选择,而非固有复杂性。尽管一些研究人员在过去一年中悄悄转向更合适的方案,但这种变化的影响尚未被广泛认可。我们强调这一被忽视的转变,展示类似的评估实践如何错误地暗示其他基准测试中的推理缺陷,并证明更公平的方法可以显著减少性能差距(例如在SIQA上),甚至产生超人类的结果(OpenBookQA)。通过这样做,我们揭示了评估如何塑造了被认为困难的程度,并提供指南,以确保多项选择评估准确反映实际模型能力。
稀疏激活的专家混合(MoE)模型被广泛采用,以扩大模型容量而不增加计算预算。然而,普通的TopK路由器以不连续、不可微分的方式进行训练,限制了它们的性能和可扩展性。为了解决这个问题,我们提出了ReMoE,这是一种完全可微分的MoE架构,为传统的TopK+Softmax路由提供了一个简单而有效的替代方案,利用ReLU作为路由器。我们进一步提出了调节路由器稀疏性并在专家之间平衡负载的方法。ReMoE的连续性使得能够在令牌和层之间有效地动态分配计算,同时还展现出领域专业化。我们的实验证明,ReMoE在各种模型大小、专家数量和粒度级别上始终优于普通的TopK路由MoE。此外,相较于传统的MoE架构,ReMoE在专家数量方面表现出更好的可扩展性。基于Megatron-LM的实现可在https://github.com/thu-ml/ReMoE找到。
检索增强生成(RAG)系统已成为利用大规模语料库生成知情和与上下文相关响应的关键,显著减少大型语言模型中的幻觉。尽管取得了重大进展,但这些系统在高效处理和检索大型数据集的同时保持对上下文的全面理解方面仍存在困难。本文介绍了SKETCH,一种新颖的方法论,通过将语义文本检索与知识图谱相结合,增强了RAG检索过程,从而将结构化和非结构化数据融合为更全面的理解。SKETCH在检索性能方面表现出显著改进,并与传统方法相比保持了更优越的上下文完整性。在四个不同的数据集上进行评估:QuALITY、QASPER、NarrativeQA 和意大利烹饪,SKETCH在关键的RAGAS指标上(如答案相关性、忠实度、上下文精确度和上下文召回率)持续优于基准方法。值得注意的是,在意大利烹饪数据集上,SKETCH实现了0.94的答案相关性和0.99的上下文精确度,代表了所有评估指标中的最佳性能。这些结果突显了SKETCH在提供更准确和与上下文相关的响应方面的能力,为未来检索系统设立了新的基准。
人工智能领域的进展在很大程度上受到训练数据的规模和质量的驱动。尽管如此,目前存在一个研究不足,缺乏对除文本以外的成熟数据集属性进行经验分析。在本研究中,我们进行了跨模态的最大规模和首个纵向审计,涵盖了流行的文本、语音和视频数据集,从它们的详细来源趋势和使用限制到地理和语言表示。我们的手动分析涵盖了1990年至2024年间近4000个公共数据集,涵盖了608种语言、798个来源、659个组织和67个国家。我们发现,多模态机器学习应用普遍转向网络抓取、合成和社交媒体平台(如YouTube)作为它们的训练集,自2019年以来超越了所有其他来源。其次,追溯数据集派生链,我们发现虽然不到33%的数据集受到限制性许可,但在广泛使用的文本、语音和视频数据集中,超过80%的源内容带有非商业限制。最后,尽管公共人工智能训练数据集中代表的语言和地理位置数量不断增加,但我们的审计表明,相对地理和多语言表示的度量自2013年以来未能显著改善其覆盖范围。我们认为,我们审计的广度使我们能够从生态系统层面对数据来源、限制和西方中心主义的趋势进行经验性检验,而对这些问题的可见性对于负责任的人工智能进展至关重要。作为对数据透明度和负责任使用持续改进的贡献,我们发布了整个多模态审计,使从业者能够跟踪文本、语音和视频数据的数据来源。
文本图像到视频(TI2V)生成旨在根据文本描述从图像生成视频,也被称为文本引导的图像动画。大多数现有方法在生成视频以与文本提示良好对齐时存在困难,特别是在指定运动时。为了克服这一局限性,我们引入了MotiF,这是一种简单而有效的方法,将模型的学习引导到具有更多运动的区域,从而改善文本对齐和运动生成。我们使用光流生成运动热图,并根据运动的强度加权损失。这一修改后的目标导致明显的改进,并补充了利用运动先验作为模型输入的现有方法。此外,由于缺乏用于评估TI2V生成的多样化基准,我们提出了TI2V Bench,这是一个包含320个图像文本对的数据集,用于进行稳健评估。我们提出了一个人类评估协议,要求注释者在选择两个视频之间的整体偏好后给出其理由。通过对TI2V Bench的全面评估,MotiF胜过九个开源模型,实现了72%的平均偏好。TI2V Bench发布在https://wang-sj16.github.io/motif/。