每日精选AI研究论文及翻译
对齐问题的复杂性源于现有方法的不稳定性。研究人员不断发明各种技巧来解决这一缺点。例如,在基础的人类反馈强化学习(RLHF)技术中,除了奖励最大化外,可训练策略与SFT策略之间的Kullback-Leibler散度被最小化。这一补充防止模型过度拟合奖励模型(RM)并生成对RM来说属于域外的文本。直接偏好优化(DPO)方法重新制定了RLHF的优化任务,并消除了奖励模型,同时暗中保持了策略接近SFT策略的要求。在我们的论文中,我们认为DPO方法中的这种隐含限制导致次优结果。我们提出了一种名为信任区域DPO(TR-DPO)的新方法,该方法在训练过程中更新参考策略。通过这种直接的更新,我们展示了TR-DPO相对于DPO在Anthropic HH和TLDR数据集上的有效性。我们展示了TR-DPO在GPT-4的自动评估中比DPO表现优越高达19%。我们提出的新的对齐方法使我们能够同时改善模型在多个参数上的质量,如连贯性、正确性、细节水平、有用性和无害性。
Transformer 模型的二次复杂度和弱长度外推限制了它们在长序列中扩展的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但它们在预训练效率和下游任务准确性方面在实证上表现不如 Transformers。我们引入了Megalodon,这是一种用于高效序列建模的神经架构,具有无限上下文长度。Megalodon 继承了 Mega 的架构(带有门控注意力的指数移动平均),并进一步引入了多个技术组件来提高其能力和稳定性,包括复杂指数移动平均(CEMA)、时间步归一化层、归一化注意力机制和具有两跳残差配置的预归一化。在与 Llama2 的对照性能比较中,Megalodon 在拥有 70 亿参数和 2 万亿训练标记的规模上比 Transformer 实现了更好的效率。Megalodon 的训练损失达到了 1.70,在 Llama2-7B(1.75)和 13B(1.67)之间。源代码:https://github.com/XuezheMax/megalodon
尽管Transformer已经彻底改变了深度学习,但其二次注意力复杂度限制了其处理无限长输入的能力。我们提出了反馈注意力记忆(Feedback Attention Memory,FAM),这是一种新颖的Transformer架构,利用反馈循环使网络能够关注自己的潜在表示。这种设计促进了Transformer内部工作记忆的出现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,可以与预训练模型无缝集成。我们的实验表明,TransformerFAM显著改善了Transformer在长上下文任务中的性能,无论是在不同模型大小(1B、8B和24B)上。这些结果展示了赋予大型语言模型(LLMs)处理无限长度序列的潜力。
创建高质量和互动性虚拟环境,如游戏和模拟器,通常涉及复杂且昂贵的手工建模过程。在本文中,我们提出了Video2Game,一种新方法,可以自动将真实场景的视频转换为逼真且互动的游戏环境。我们系统的核心包括三个主要组件:(i) 一个神经辐射场(NeRF)模块,有效捕捉场景的几何形状和视觉外观;(ii) 一个网格模块,从NeRF中提炼知识以加快渲染速度;以及(iii) 一个物理模块,对物体之间的相互作用和物理动态进行建模。通过遵循精心设计的流程,可以构建一个可交互和可操作的真实世界数字副本。我们在室内和大型室外场景上对我们的系统进行基准测试。我们展示了我们不仅可以实时生成高度逼真的渲染,还可以构建互动游戏。
有一种观点认为,学会有效地压缩将会导致智能。 最近,语言建模被证明等同于压缩, 这为大型语言模型(LLMs)的成功提供了令人信服的理由: 更先进的语言模型的发展实质上是增强了压缩,从而促进了智能。尽管存在这样引人注目的讨论,但在压缩和智能之间的相互作用方面几乎没有实证证据。在这项工作中,我们在LLMs的背景下研究它们之间的关系,将LLMs视为数据压缩器。鉴于“智能”这一抽象概念,我们采用下游基准测试分数的平均值作为替代指标,特别针对与知识和常识、编码以及数学推理相关的智能。在12个基准测试中,我们的研究汇集了来自不同组织的30个公共LLMs。值得注意的是,我们发现LLMs的智能——通过平均基准测试分数反映——几乎与它们压缩外部文本语料库的能力呈线性相关。这些结果提供了具体证据,支持了优越的压缩表明更高智能的观点。此外,我们的发现表明,作为从原始文本语料库中衍生的无监督度量,压缩效率作为一个可靠的评估指标,与模型能力呈线性关联。我们开源了我们的压缩数据集以及我们的数据收集管道,以便未来的研究人员能够适当评估压缩。
ControlNet广泛用于在图像生成中添加空间控制,以应对不同条件,如深度图、Canny边缘和人体姿势。然而,在利用预训练图像ControlNet进行受控视频生成时存在几个挑战。首先,由于特征空间不匹配,预训练ControlNet无法直接插入新的主干模型,并且为新主干训练ControlNet的成本很高。其次,不同帧的ControlNet特征可能无法有效处理时间一致性。为解决这些挑战,我们引入了Ctrl-Adapter,这是一个高效且多功能的框架,通过调整预训练ControlNet(并改善视频的时间对齐)为任何图像/视频扩散模型添加多样化控制。Ctrl-Adapter提供多种功能,包括图像控制、视频控制、稀疏帧视频控制、多条件控制、与不同主干的兼容性、适应未见控制条件以及视频编辑。在Ctrl-Adapter中,我们训练适配器层,将预训练ControlNet特征融合到不同图像/视频扩散模型中,同时保持ControlNet和扩散模型的参数不变。Ctrl-Adapter包括时间和空间模块,以有效处理视频的时间一致性。我们还提出了潜在跳跃和逆时间步采样,以实现强大的适应性和稀疏控制。此外,Ctrl-Adapter通过简单地取(加权)ControlNet输出的平均值,实现了来自多种条件的控制。借助多样化的图像/视频扩散主干(SDXL、Hotshot-XL、I2VGen-XL和SVD),Ctrl-Adapter与图像控制的ControlNet相匹配,并在视频控制方面优于所有基线(在DAVIS 2017数据集上实现了SOTA准确性),并且计算成本显著降低(不到10个GPU小时)。
本研究介绍了HQ-Edit,一个包含约200,000次编辑的高质量基于指令的图像编辑数据集。与先前依赖属性指导或人类反馈构建数据集的方法不同,我们设计了一个可扩展的数据收集流程,利用先进的基础模型,即GPT-4V和DALL-E 3。为确保其高质量,首先在线收集多样化的示例,扩展后,然后用于创建包含输入和输出图像以及详细文本提示的高质量双联图,通过后处理确保精确对齐。此外,我们提出了两个评估指标,即对齐度和连贯性,以定量评估使用GPT-4V的图像编辑对的质量。HQ-Edit的高分辨率图像富含细节,并配有全面的编辑提示,显著增强了现有图像编辑模型的能力。例如,经过微调的InstructPix2Pix可以实现最先进的图像编辑性能,甚至超过那些使用人类注释数据微调的模型。项目页面链接为https://thefllood.github.io/HQEdit_web。
由于多模态大型语言模型(MLLMs)具有内存带宽瓶颈和自回归生成标记的大型语言模型骨干,因此推理速度较慢。在本文中,我们探讨了推测解码在提高MLLMs推理效率方面的应用,特别是LLaVA 7B模型。我们表明,仅语言模型可以作为LLaVA 7B推测解码的良好草稿模型,无需从草稿模型中获取图像标记及其相关处理组件。我们在三个不同任务上的实验表明,使用我们从头开始训练的具有1.15亿参数的语言模型,推测解码可以实现高达2.37倍的内存限制加速。此外,我们引入了一个包含图像适配器的紧凑LLaVA草稿模型,在图像字幕生成方面显示出微小的性能提升,同时在其他任务中保持可比的结果。
生成式多模态内容在内容创作领域越来越普遍,因为它有潜力让艺术家和媒体人员通过快速将他们的想法具体化来创建预制作模型。从文本提示生成音频是音乐和电影行业中这类过程的重要方面。许多最近基于扩散的文本转音频模型侧重于在大量数据集上训练越来越复杂的扩散模型,这些数据集包含提示-音频对。这些模型并未明确关注输出音频中与输入提示相关的概念或事件的存在以及它们的时间顺序。我们的假设是关注音频生成中这些方面如何在有限数据的情况下提高音频生成性能。因此,在这项工作中,我们使用现有的文本转音频模型Tango,合成创建了一个偏好数据集,其中每个提示都有一个获胜音频输出和一些失败音频输出,供扩散模型学习。理论上,失败输出中的一些概念可能缺失或顺序不正确。我们使用扩散-DPO(直接偏好优化)损失在我们的偏好数据集上对公开可用的Tango文本转音频模型进行微调,并表明这导致音频输出在自动和手动评估指标方面优于Tango和AudioLDM2。
多模态大型语言模型(MLLMs)在各种多模态任务上展现出令人印象深刻的成果。然而,大多数现有的MLLMs并不适用于需要精细的图像感知和信息压缩的面向文档的任务。本文介绍了TextHawk,这是一个专门为面向文档任务设计的MLLM,同时保留了MLLMs的一般能力。TextHawk旨在通过设计四个专用组件来探索高效的细粒度感知。首先,提出了一个重新采样和重新排列(ReSA)模块,以减少文档文本中的冗余并降低MLLM的计算成本。我们探索通过引入可扩展位置嵌入(SPEs)来编码每个局部特征的位置,以保持各种图像尺寸的可扩展性。然后采用查询提议网络(QPN)来动态初始化不同子图像之间的查询。为了进一步增强MLLM的细粒度视觉感知能力,我们设计了一个多级交叉注意力(MLCA)机制,捕捉文档图像的层次结构和语义关系。此外,我们通过将多模态文档数据与Gemini Pro进行丰富,创建了一个面向文档任务的新指令调优数据集。我们在通用和面向文档的MLLM基准上进行了大量实验,并展示了TextHawk优于最先进方法的表现,显示了其在细粒度文档感知和一般能力方面的有效性和优越性。
神经辐射场(NeRF)是一种从多视图图像进行3D重建的表示。尽管最近的一些工作展示了在扩散先验条件下编辑重建的NeRF取得了初步成功,但它们仍然难以合成完全未覆盖区域的合理几何形状。一个主要原因是扩散模型产生的合成内容具有高度多样性,这阻碍了辐射场收敛到清晰和确定性几何形状。此外,将潜在扩散模型应用于真实数据通常会由于自动编码错误导致图像条件不一致的纹理偏移。这两个问题进一步加剧了使用像素距离损失。为解决这些问题,我们提出通过每个场景的定制来调节扩散模型的随机性,并通过掩码对抗训练来减轻纹理偏移。在分析过程中,我们还发现常用的像素损失和感知损失在NeRF修复任务中是有害的。通过严格的实验,我们的框架在各种真实场景上实现了最先进的NeRF修复结果。项目页面:https://hubert0527.github.io/MALD-NeRF
高斯飘逸(Gaussian splatting)以其出色的渲染质量和效率而闻名,在3D场景表示中已成为一种突出的技术。然而,高斯飘逸的大量数据量阻碍了其在实际应用中的实用性。在本文中,我们提出了一种高效的3D场景表示,名为压缩高斯飘逸(CompGS),它利用紧凑的高斯基元进行忠实的3D场景建模,同时大大减少了数据大小。为确保高斯基元的紧凑性,我们设计了一种捕捉彼此之间预测关系的混合基元结构。然后,我们利用一小组锚定基元进行预测,使大多数基元被封装为高度紧凑的残差形式。此外,我们开发了一种受速率约束的优化方案,以消除这种混合基元中的冗余,引导我们的CompGS朝着比特率消耗和表示效果之间的最佳折衷方向发展。实验结果表明,所提出的CompGS明显优于现有方法,在不影响模型准确性和渲染质量的情况下,实现了3D场景表示的卓越紧凑性。我们的代码将在GitHub上发布供进一步研究使用。