每日精选AI研究论文及翻译
在大语言模型时代,混合专家(Mixture-of-Experts,MoE)是一种管理计算成本的有前景的架构,用于扩大模型参数规模。然而,像GShard这样的传统MoE架构,会激活N个专家中的前K个,面临确保专家专业化的挑战,即每个专家获取非重叠且专注的知识。作为回应,我们提出了DeepSeekMoE架构,旨在实现终极专家专业化。它包括两个主要策略:(1)将专家细分为mN个,并从中激活mK个,允许更灵活地组合激活的专家;(2)将K_s个专家隔离为共享专家,旨在捕获共同知识并减少路由专家中的冗余。从规模适中的2B参数开始,我们展示了DeepSeekMoE 2B与拥有1.5倍专家参数和计算量的2.9B的GShard相当的性能。此外,DeepSeekMoE 2B几乎接近具有相同总参数数量的密集对应模型的性能上限,为MoE模型设定了上限。随后,我们将DeepSeekMoE扩展到16B参数,并展示其与LLaMA2 7B相当的性能,仅需约40%的计算量。进一步,我们初步努力将DeepSeekMoE扩展到145B参数,始终验证其相对于GShard架构的重大优势,并展示其性能与DeepSeek 67B相当,仅需28.5%(甚至可能是18.2%)的计算量。
内容创作者通常旨在使用个人主题创建个性化图像,超越传统文本到图像模型的能力。此外,他们可能希望生成的图像涵盖特定位置、风格、氛围等。现有的个性化方法可能会影响个性化能力或与复杂文本提示的对齐。这种权衡可能会妨碍用户提示的实现和主题忠实度。我们提出了一种新方法,专注于单个提示的个性化方法,以解决这个问题。我们将我们的方法称为提示对齐个性化。虽然这可能看起来有限制,但我们的方法在改善文本对齐方面表现出色,能够创建具有复杂和复杂提示的图像,这可能对当前技术构成挑战。特别是,我们的方法通过额外的分数蒸馏采样项保持个性化模型与目标提示对齐。我们展示了我们的方法在多次和单次设置中的多功能性,并进一步展示它可以组合多个主题或从参考图像(如艺术作品)中汲取灵感。我们定量和定性地将我们的方法与现有基线和最先进技术进行了比较。
人类反馈强化学习(RLHF)已经成为将语言模型与人类价值观和意图对齐的关键技术,使模型能够产生更有帮助和无害的回应。奖励模型被训练为人类偏好的代理,以推动强化学习优化。虽然奖励模型通常被认为是实现高性能的关键,但在实际应用中它们面临以下挑战:(1)数据集中错误和模糊的偏好对可能阻碍奖励模型准确捕捉人类意图。(2)在特定分布的数据上训练的奖励模型通常难以推广到分布之外的示例,并且不适用于迭代RLHF训练。 在本报告中,我们尝试解决这两个问题。 (1)从数据角度出发,我们提出了一种方法来衡量数据中偏好的强度,基于多个奖励模型的投票机制。实验结果证实,具有不同偏好强度的数据对奖励模型性能有不同影响。我们引入了一系列新方法来减轻数据集中错误和模糊偏好的影响,并充分利用高质量的偏好数据。 (2)从算法角度出发,我们引入对比学习来增强奖励模型区分所选和被拒绝回应的能力,从而提高模型的泛化能力。此外,我们采用元学习使奖励模型能够保持区分分布之外样本中微小差异的能力,这种方法可用于迭代RLHF优化。
基于点的辐射场渲染在新视角合成方面展示出令人印象深刻的结果,提供了渲染质量和计算效率的引人注目的融合。然而,在这一领域最新的方法也并非没有缺点。3D 高斯喷洒[Kerbl 和 Kopanas 等人,2023]在渲染高度详细场景时存在困难,因为模糊和云状伪影。另一方面,ADOP[Rückert 等人,2022]可以生成更清晰的图像,但神经重建网络降低了性能,它面临着时间不稳定性的挑战,并且无法有效地处理点云中的大间隙。 在本文中,我们提出了 TRIPS(三线性点喷洒),这是一种结合了高斯喷洒和 ADOP 的思想的方法。我们的新技术背后的基本概念涉及将点光栅化为屏幕空间图像金字塔,金字塔层的选择取决于投影点的大小。这种方法允许使用单个三线性写入渲染任意大的点。然后使用轻量级神经网络重建一个无洞的图像,包括超出喷洒分辨率的细节。重要的是,我们的渲染管线是完全可微的,可以自动优化点的大小和位置。 我们的评估表明,TRIPS 在渲染质量方面超越了现有的最先进方法,同时在现有硬件上保持了每秒 60 帧的实时帧率。这种性能扩展到具有复杂几何、广阔景观和自动曝光镜头的挑战性场景。
最近的研究表明,在文本到图像(T2I)生成中,利用带有优质奖励的强化学习(RL)可以提高生成图像的质量。然而,简单地聚合多个奖励可能导致某些指标的过度优化和其他指标的退化,手动找到最佳权重也具有挑战性。一种有效的策略是共同优化RL中用于T2I生成的多个奖励。本文介绍了Parrot,这是一个新颖的用于T2I生成的多奖励RL框架。通过批次式帕累托最优选择,Parrot在T2I生成的RL优化过程中自动识别不同奖励之间的最佳权衡。此外,Parrot采用了一种联合优化方法,用于T2I模型和提示扩展网络,促进了生成具有质量意识的文本提示,从而进一步提高了最终图像质量。为了抵消由于提示扩展而导致的原始用户提示的潜在灾难性遗忘,我们在推断时引入了原始提示中心引导,确保生成的图像忠实于用户输入。大量实验和用户研究表明,Parrot在各种质量标准上优于几种基线方法,包括美学、人类偏好、图像情感和文本-图像对齐。
检查大型语言模型(LLMs)隐藏表示中编码的信息可以解释模型的行为并验证其与人类价值观的一致性。鉴于LLMs在生成人类可理解文本方面的能力,我们提出利用模型本身以自然语言解释其内部表示。我们引入了一个名为Patchscopes的框架,并展示了如何使用它来回答关于LLM计算的各种研究问题。我们表明,基于将表示投影到词汇空间并在LLM计算中进行干预的先前可解释性方法,可以看作是这一框架的特殊实例。此外,一些先前方法的缺点,如无法检查早期层或缺乏表现力,可以通过Patchscope来缓解。除了统一先前的检查技术,Patchscopes还开辟了新的可能性,例如利用更强大的模型来解释较小模型的表示,并解锁了新的应用,如多跳推理中的自我校正。
在大规模语料库数据上训练的大型语言模型可能会记忆和复制敏感或私人数据,引发法律和伦理方面的担忧。遗忘或调整模型以忘记训练数据中存在的信息,为我们提供了一种在训练后保护私人数据的方法。尽管存在多种方法用于这种遗忘,但目前尚不清楚它们在多大程度上会导致与从未学习过要遗忘数据的模型等效的结果。为了解决这一挑战,我们提出了TOFU,即虚构遗忘任务,作为一个旨在帮助加深我们对遗忘的理解的基准。我们提供了一个包含200个不同合成作者资料的数据集,每个资料包含20个问题-答案对,以及这些资料的一个子集,称为遗忘集,用作遗忘的目标。我们编制了一套指标,共同提供了遗忘效果的全面图景。最后,我们提供了现有遗忘算法的一组基准结果。重要的是,我们考虑的所有基准都没有展现出有效的遗忘,这促使我们继续努力开发能够有效调整模型的方法,使其真正表现得好像从未在遗忘数据上进行过训练一样。
在医学的核心是医生与患者之间的对话,熟练的病史采集为准确诊断、有效管理和持久信任铺平了道路。能够进行诊断对话的人工智能(AI)系统可以提高医疗护理的可及性、一致性和质量。然而,逼近临床医生的专业知识仍然是一个重大挑战。在这里,我们介绍了AMIE(Articulate Medical Intelligence Explorer),这是一个基于大型语言模型(LLM)的人工智能系统,专为诊断对话进行了优化。 AMIE使用了一种新颖的基于自我对弈的模拟环境,配备了自动化反馈机制,以便在不同疾病状况、专业领域和背景下进行学习。我们设计了一个评估临床意义维度性能的框架,包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。我们通过一项随机、双盲、交叉研究,使用经过验证的患者演员进行基于文本的咨询,模拟客观结构化临床考试(OSCE),将AMIE的表现与基层医生(PCPs)进行了比较。研究包括来自加拿大、英国和印度的临床提供者提供的149个病例场景,20名基层医生与AMIE进行比较,以及由专科医生和患者演员进行的评估。根据专科医生的评估,AMIE在32个维度中的28个表现更准确,在26个维度中的24个表现优于患者演员的评估。我们的研究存在一些局限性,应该以适当的谨慎态度进行解释。临床医生仅限于不熟悉的同步文本聊天,这种方式可以进行大规模的LLM与患者的互动,但并不代表通常的临床实践。在AMIE能够转化为现实世界设置之前,需要进一步的研究,但这些结果代表了朝着会话式诊断人工智能迈出的重要一步。
多模态大型语言模型在不同模态的各种任务中展现出令人印象深刻的性能。然而,现有的多模态模型主要强调捕获每个模态内的全局信息,却忽视了跨模态感知局部信息的重要性。因此,这些模型缺乏有效理解输入数据的细粒度细节的能力,从而限制了它们在需要更加细致理解的任务中的性能。为了解决这一局限性,迫切需要开发能够实现跨多模态细粒度理解的模型,从而增强它们在各种任务中的适用性。在本文中,我们提出LEGO,一种语言增强的多模态基础模型。除了像其他多模态模型一样捕获全局信息之外,我们提出的模型擅长处理需要对输入中的局部信息进行详细理解的任务。它展示了对图像中特定区域或视频中特定时刻的精确识别和定位。为实现这一目标,我们设计了多样化的数据集构建流程,生成了一个多模态、多粒度的数据集用于模型训练。我们的模型的代码、数据集和演示可以在https://github.com/lzw-lzw/LEGO 找到。
基于扩散的视频编辑已经取得了令人印象深刻的质量,并可以根据文本编辑提示转换给定视频输入的全局风格、局部结构和属性。然而,这类解决方案通常需要付出巨大的内存和计算成本来生成时间连贯的帧,无论是通过扩散反演还是跨帧注意力的形式。在本文中,我们对这些低效率进行了分析,并提出了简单而有效的修改,可以在保持质量的同时实现显著加速。此外,我们引入了一种名为物体中心扩散(Object-Centric Diffusion)的方法,缩写为OCD,通过将计算更多地分配到对感知质量更重要的前景编辑区域,进一步减少延迟。我们通过两个新颖的提议实现了这一点:i) 物体中心采样(Object-Centric Sampling),将用于显著区域或背景的扩散步骤分离开来,将大部分模型容量分配给前者;ii) 物体中心3D令牌合并(Object-Centric 3D Token Merging),通过融合不重要的背景区域中的冗余令牌,降低跨帧注意力的成本。这两种技术可以直接应用于给定的视频编辑模型,无需重新训练,并且可以显著降低其内存和计算成本。我们在基于反演和基于控制信号的编辑流程上评估了我们的提议,并展示了与可比较的合成质量相比高达10倍的延迟降低。
动态新视图合成旨在捕捉视频中视觉内容的时间演变。现有方法在区分运动和结构方面存在困难,特别是在相机姿势相对于物体运动未知或受限的情况下。此外,仅凭借参考图像的信息,极具挑战性地去幻想在给定视频中被遮挡或部分观察到的未见区域。为了解决这些问题,我们首先使用定制技术在视频帧上微调预训练的RGB-D扩散模型。随后,我们将从微调模型中提炼知识,形成包含动态和静态神经辐射场(NeRF)组件的4D表示。所提出的流程在保持场景身份的同时实现几何一致性。我们进行了彻底的实验,定性和定量评估了所提方法的有效性。我们的结果展示了我们的方法在挑战性案例中的稳健性和实用性,进一步推动了动态新视图合成的发展。
我们发现网络上的内容经常被翻译成多种语言,而这些多语言翻译的质量较低,表明它们很可能是使用机器翻译(MT)生成的。多语言平行、机器生成的内容不仅主导着资源较低的语言中的翻译;它还构成了这些语言中总网络内容的很大一部分。我们还发现了一种选择偏差的证据,即被翻译成多种语言的内容类型存在一致性,这与低质量的英文内容被批量翻译成许多资源较低的语言的情况相符,通过机器翻译。我们的研究引发了对于在网络上抓取的单语和双语数据上训练多语言大型语言模型等模型的严重担忧。
本文介绍了对抗对齐指导(AlignInstruct)来解决大型语言模型(LLMs)机器翻译(MT)中的两个挑战。一个是将支持的语言扩展到以前未见过的语言。第二个与低资源语言中数据不足有关。通过MT指导(MTInstruct)对模型进行微调是解决第一个挑战的一种直接方法。然而,MTInstruct受到第二个挑战中固有的弱跨语言信号的限制。AlignInstruct强调通过使用基于统计词对齐构建的跨语言鉴别器的跨语言监督。我们基于对BLOOMZ模型(1b1、3b和7b1)进行微调的结果,展示了在多达24种未见过的语言中:(1)LLMs可以使用MTInstruct有效地翻译未见过的语言;(2)AlignInstruct在涉及英语的48个翻译方向中导致翻译质量的一致提升;(3)基于鉴别器的指导在跨语言指导中优于生成对应物;(4)AlignInstruct提高了30个零翻译方向的性能。