每日精选AI研究论文及翻译
生成模型在各个领域产生了重大影响,这在很大程度上归功于它们在训练过程中能够通过增加数据、计算资源和模型规模来实现规模化的能力,这种现象被称为缩放定律。最近的研究开始探索大型语言模型(LLMs)在推断时的缩放行为,揭示了通过在推断过程中增加额外计算如何进一步提高性能。与LLMs不同,扩散模型固有地具有通过去噪步数来调整推断时计算的灵活性,尽管性能增益通常在几十个步骤后趋于平缓。在这项工作中,我们探索了扩散模型在推断时的缩放行为,超越了增加去噪步骤,并调查了如何通过增加计算来进一步提高生成性能。具体来说,我们考虑了一个旨在识别扩散采样过程中更好噪声的搜索问题。我们沿着两个轴线构建设计空间:用于提供反馈的验证器,以及用于找到更好噪声候选的算法。通过在基于类别和文本的图像生成基准上进行大量实验,我们的研究结果显示,增加推断时计算会显著提高扩散模型生成的样本质量,并且随着图像的复杂性,可以特别选择框架中的组件组合以符合不同的应用场景。
使用大型语言模型进行机器写作通常依赖于检索增强生成。然而,这些方法仍然局限于模型预定义范围内,限制了生成具有丰富信息的内容。具体而言,普通检索到的信息往往缺乏深度、实用性,并且存在冗余,这会对生成的文章质量产生负面影响,导致表面化、重复和缺乏创意的输出。为了解决这些问题,我们提出了OmniThink,这是一个模拟迭代扩展和反思的类人机器写作框架。OmniThink背后的核心思想是模拟学习者逐渐加深对主题知识的过程。实验结果表明,OmniThink提高了生成文章的知识密度,同时不影响连贯性和深度等指标。人类评估和专家反馈进一步突显了OmniThink在长篇文章生成中解决现实挑战的潜力。
语言长期以来被认为是人类推理的重要工具。 大型语言模型(LLMs)的突破引发了对利用这些模型来解决复杂推理任务的重大研究兴趣。 研究人员已经超越了简单的自回归标记生成,引入了“思考”的概念 -- 代表推理过程中中间步骤的一系列标记。这种创新范式使LLMs能够模仿复杂的人类推理过程,如树搜索和反思性思考。最近,一种新兴的学习推理趋势应用了强化学习(RL)来训练LLMs掌握推理过程。这种方法通过试错搜索算法实现了高质量推理轨迹的自动生成,通过提供更多的训练数据显著扩展了LLMs的推理能力。此外,最近的研究表明,在测试推理时鼓励LLMs使用更多的标记进行“思考”可以进一步显著提高推理准确性。因此,训练时和测试时的扩展相结合展示了一个新的研究前沿 -- 通向大型推理模型的道路。OpenAI的o1系列的推出标志着这一研究方向的重要里程碑。在这项调查中,我们对LLM推理的最新进展进行了全面回顾。我们首先介绍LLMs的基础背景,然后探讨推动大型推理模型发展的关键技术组成部分,重点放在自动化数据构建、学习推理技术和测试时扩展上。我们还分析了构建大型推理模型的流行开源项目,并总结了开放挑战和未来研究方向。
通过自动编码实现视觉标记化,将像素压缩到潜在空间,为最先进的图像和视频生成模型提供支持。尽管最近的进展中,基于Transformer的生成器的扩展至关重要,但标记化组件本身很少被扩展,这引发了有关自动编码器设计选择如何影响其重建目标和下游生成性能的问题。我们的工作旨在探讨自动编码器的扩展,以填补这一空白。为了促进这一探索,我们将典型的卷积主干替换为增强的视觉Transformer架构用于标记化(ViTok)。我们在大规模图像和视频数据集上训练ViTok,远远超过ImageNet-1K,消除了标记器扩展的数据限制。我们首先研究了扩展自动编码器瓶颈如何影响重建和生成,发现虽然它与重建高度相关,但与生成的关系更为复杂。接下来,我们探讨了分别扩展自动编码器的编码器和解码器对重建和生成性能的影响。关键是,我们发现扩展编码器对重建或生成几乎没有带来增益,而扩展解码器可以提升重建,但对生成的益处却是参差不齐的。在我们探索的基础上,我们设计了ViTok作为一种轻量级自动编码器,在ImageNet-1K和COCO重建任务(256p和512p)上实现了与最先进自动编码器的竞争性能,同时在UCF-101的16帧128p视频重建任务上胜过现有的自动编码器,计算量减少2-5倍。当与扩散Transformer集成时,ViTok在ImageNet-1K上的图像生成表现出竞争性能,并为UCF-101上的类别条件视频生成设立了新的最先进基准。
AI视频生成正在经历一场革命,质量和逼真度迅速提升。这些进步引发了一场激烈的科学争论:视频模型是否学习到了“世界模型”,从而发现物理定律,或者说它们仅仅是复杂的像素预测器,实现了视觉逼真度,却并不理解现实世界的物理原理?我们通过开发Physics-IQ,一个全面的基准数据集来回答这个问题,这个数据集只有通过深入理解各种物理原理,如流体动力学、光学、固体力学、磁学和热力学才能解决。我们发现,在一系列当前模型(Sora、Runway、Pika、Lumiere、Stable Video Diffusion和VideoPoet)中,物理理解严重受限,并且与视觉逼真度无关。与此同时,一些测试案例已经可以成功解决。这表明仅通过观察就可能获得某些物理原理,但仍然存在重大挑战。虽然我们预计未来会有快速进展,但我们的工作表明,视觉逼真度并不意味着对物理的理解。我们的项目页面位于https://physics-iq.github.io;代码位于https://github.com/google-deepmind/physics-IQ-benchmark。
自回归序列模型,如基于Transformer的视觉-语言-动作(VLA)策略,可以极大地有效地捕捉复杂且可泛化的机器人行为。然而,这些模型要求我们选择连续动作信号的标记化方式,这决定了模型预测的离散符号如何映射到连续的机器人动作。我们发现,基于简单的每维、每时间步长的分箱方案的当前机器人动作标记化方法,在从高频率机器人数据中学习熟练技能时通常表现不佳。为了解决这一挑战,我们提出了一种基于离散余弦变换的新型基于压缩的机器人动作标记化方案。我们的标记化方法,即频率空间动作序列标记化(FAST),使我们能够为高度熟练且高频率任务训练自回归VLA,而标准的离散化方法完全无法胜任。基于FAST,我们发布了FAST+,一个通用的机器人动作标记器,经过100万个真实机器人动作轨迹的训练。它可以作为黑盒标记器用于各种机器人动作序列,涵盖多样的动作空间和控制频率。最后,我们展示了当与pi0 VLA结合时,我们的方法可以扩展到对1万小时机器人数据进行训练,并与扩散VLA的性能相匹配,同时将训练时间缩短多达5倍。
我们介绍了SynthLight,一种用于人像重光的扩散模型。我们的方法将图像重光框架为重新渲染问题,其中像素根据环境光照条件的变化而转换。利用基于物理的渲染引擎,我们合成了一个数据集,以模拟在不同光照下对3D头部资产进行这种光照条件下的转换。我们提出了两种训练和推断策略,以弥合合成和真实图像领域之间的差距:(1)多任务训练,利用没有光照标签的真实人像;(2)基于无分类器指导的推断时间扩散采样过程,利用输入人像以更好地保留细节。我们的方法推广到各种真实照片,并产生逼真的照明效果,包括镜面高光和投影阴影,同时保留主体的身份。我们在Light Stage数据上的定量实验表明,结果与最先进的重光方法相当。我们在野外图像上的定性结果展示了丰富且前所未有的照明效果。项目页面:https://vrroom.github.io/synthlight/
在线医学咨询(OMC)限制医生仅通过询问收集患者信息,使本已复杂的诊断顺序决策过程变得更具挑战性。最近,大型语言模型的快速发展展示了改变OMC的巨大潜力。然而,大多数研究主要集中在在相对充足信息条件下提高诊断准确性,而对咨询过程中的“询问”阶段关注有限。这种缺乏关注导致“询问”和“诊断”之间的关系尚未得到充分探讨。本文首先从真实医患对话中提取真实患者互动策略,并利用这些策略指导患者模拟器的训练,使其紧密模拟现实行为。通过将医疗记录输入到我们的患者模拟器中以模拟患者回应,我们进行了大量实验,探讨了咨询过程中“询问”和“诊断”之间的关系。实验结果表明,询问和诊断遵循李比希法则:低质量的询问限制了诊断的有效性,无论诊断能力如何,反之亦然。此外,实验揭示了各种模型在询问性能上的显著差异。为了研究这一现象,我们将询问过程分为四类:(1)主诉询问;(2)已知症状的具体描述;(3)询问伴随症状;和(4)收集家族或病史。我们分析了不同模型在这四类询问中的分布,以探讨其显著性能差异背后的原因。我们计划在 https://github.com/LIO-H-ZEN/PatientSimulator 开源我们患者模拟器的权重和相关代码。
从文本或视觉输入中合成高质量的3D资产已成为现代生成建模中的核心目标。尽管3D生成算法层出不穷,但它们经常面临诸如多视角不一致、生成时间缓慢、低保真度和表面重建问题等挑战。虽然一些研究已经解决了其中一些问题,但一个全面的解决方案仍然难以实现。在本文中,我们介绍了CaPa,一个雕刻和绘制框架,可以高效生成高保真度的3D资产。CaPa采用两阶段过程,将几何生成与纹理合成分离开来。首先,一个3D潜扩散模型根据多视角输入生成几何,确保在各个视角之间结构一致性。随后,利用一种新颖的、与模型无关的空间分离注意力机制,该框架为给定几何合成高分辨率纹理(高达4K)。此外,我们提出了一种3D感知的遮挡修补算法,填补未纹理化的区域,从而使整个模型呈现出连贯的结果。这一流程在不到30秒内生成高质量的3D资产,为商业应用提供即用输出。实验结果表明,CaPa在纹理保真度和几何稳定性方面表现出色,为实用、可扩展的3D资产生成建立了新的标准。
最近,大规模生成模型展示了出色的文本到图像生成能力。然而,在生成具有特定主题的高保真个性化图像方面仍然存在挑战,特别是涉及多个主题的情况。在本文中,我们提出了AnyStory,一种用于个性化主题生成的统一方法。AnyStory 不仅实现了单个主题的高保真个性化,还能够在涉及多个主题时实现高保真的个性化,而不会牺牲主题的保真度。具体来说,AnyStory 以“编码-路由”方式建模主题个性化问题。在编码步骤中,AnyStory 利用通用且强大的图像编码器,即 ReferenceNet,结合 CLIP 视觉编码器,实现对主题特征的高保真编码。在路由步骤中,AnyStory 利用解耦的实例感知主题路由器准确感知和预测潜在位置的对应主题在潜在空间中的位置,并引导主题条件的注入。详细的实验结果展示了我们的方法在保留主题细节、与文本描述对齐以及为多个主题个性化方面的出色性能。项目页面位于 https://aigcdesigngroup.github.io/AnyStory/。
最近大型语言模型的普及使得开发这些模型所需的大量代码数据集得到了推动。这导致了可用于收集和在下游研究中使用的代码受限,或者在评估大型语言模型时避免数据污染。为解决这一问题,我们发布了The Heap,这是一个大型多语言数据集,涵盖了57种编程语言,并已与其他开放代码数据集进行了去重处理,使研究人员能够在不需要进行大量数据清洗的情况下进行对大型语言模型的公平评估。
生成式人工智能系统如基础模型(FMs)必须与人类价值观良好契合,以确保其行为是有益且值得信赖的。虽然从人类反馈中进行强化学习(RLHF)已显示出优化模型性能的潜力,但现有的RLHF流程主要依赖即时反馈,这可能无法准确反映互动对用户效用的下游影响。我们证明,基于评估者对下游后果的远见估计的反馈系统地诱发了古哈特定律动态,激励了不符合预期的行为,如谄媚和欺骗,最终降低了用户结果。为了缓解这一问题,我们提出通过重新聚焦RLHF在事后反馈上,将评估与预测分离。我们的理论分析表明,将评估者反馈条件化于下游观察可以减轻不一致性,并提高预期的人类效用,即使这些观察是由人工智能系统自身模拟产生的。为了在实际对齐算法中利用这一洞见,我们引入了事后模拟强化学习(RLHS),首先模拟可能的后果,然后征求反馈,评估事后哪些行为实际上是有益的。我们将RLHS应用于两种广泛采用的在线和离线偏好优化方法——近端策略优化(PPO)和直接偏好优化(DPO)——并通过实证表明,这两种方法的不一致性显著减少。通过在线人类用户研究,我们展示RLHS在帮助用户实现目标方面始终优于RLHF,并获得更高的满意度评级,尽管它仅通过模拟的事后反馈进行训练。这些结果强调了专注于长期后果的重要性,即使是模拟的后果,以减轻RLHF中的不一致性。