每日精选AI研究论文及翻译
在视觉语言模型(VLMs)的快速发展中展现出了在涉及视觉背景的数学推理任务中具有巨大潜力。与人类不同,人类可以可靠地将解决步骤应用于具有轻微修改的类似问题,我们发现像GPT-4o这样的SOTA VLMs在这些情景中经常失败,揭示了它们在数学推理能力方面的局限性。在本文中,我们研究了VLMs中的数学推理鲁棒性,并评估了这些模型在同一问题的不同变体下的表现,例如视觉数字值或函数图的变化。虽然已经开发了几个基于视觉的数学基准来评估VLMs的问题解决能力,但这些基准仅包含静态问题集,无法轻松评估数学推理的鲁棒性。为了填补这一空白,我们引入了DynaMath,这是一个专为深入评估VLMs而设计的动态视觉数学基准。DynaMath包括501个高质量的多主题种子问题,每个问题都表示为Python程序。这些程序经过精心设计和注释,以便自动生成一个更大的具体问题集,包括许多不同类型的视觉和文本变化。DynaMath使我们能够评估VLMs的泛化能力,通过评估它们在种子问题的不同输入条件下的表现。我们使用5,010个生成的具体问题评估了14个SOTA VLMs。我们的结果显示,最坏情况模型准确率,定义为在所有10个变体中正确回答种子问题的百分比,明显低于平均情况准确率。我们的分析强调了研究VLMs推理能力鲁棒性的必要性,而DynaMath为指导开发更可靠的数学推理模型提供了宝贵的见解。
专家混合模型(MoEs)在更高效和有效的大型语言模型(LLMs)的发展中发挥着重要作用。由于巨大的资源需求,研究大规模MoE算法仍然对许多研究人员不可及。本研究开发了LibMoE,这是一个全面且模块化的框架,旨在简化MoE算法的研究、训练和评估。基于三个核心原则:(i)模块化设计,(ii)高效训练;(iii)全面评估,LibMoE通过标准化训练和评估流程,使MoE在LLMs中更容易接触到广泛的研究人员。利用LibMoE,我们在零样本设置下对三种不同LLMs和11个数据集上的五种最先进的MoE算法进行了广泛基准测试。结果表明,尽管具有独特特征,所有MoE算法在广泛任务范围内平均表现大致相似。凭借模块化设计和全面评估,我们相信LibMoE将对研究人员朝着下一代MoE和LLMs取得有意义进展具有重要价值。项目页面:https://fsoft-aic.github.io/fsoft-LibMoE.github.io。
尽管大型语言模型(LLM)量化在推断加速方面颇受欢迎,但关于各种量化格式所涉及的准确性和性能折衷仍存在重大不确定性。我们展示了一项全面的实证研究,评估了流行的量化格式(FP8、INT8、INT4)在学术基准和实际任务中的准确性,涵盖了整个Llama-3.1模型系列。此外,我们的研究还检验了量化模型生成的文本与其未压缩对应物之间的差异。除了基准测试,我们还提出了一些量化改进,使我们能够获得最先进的准确性恢复结果。我们的研究涵盖了超过50万个个体评估,得出了几个关键发现:(1)FP8权重和激活量化(W8A8-FP)在所有模型规模上均无损失,(2)INT8权重和激活量化(W8A8-INT)在适当调整时,准确性下降仅为1-3%,令人惊讶,(3)INT4仅权重量化(W4A16-INT)与8位整数权重和激活量化具有竞争力。为了解决在特定部署环境中选择“最佳”格式的问题,我们使用流行的开源vLLM框架在各种GPU架构上进行推断性能分析。我们发现W4A16在同步部署方面提供了最佳的成本效益,并且在中档GPU上进行异步部署时也是如此。同时,W8A8格式在高端GPU上进行中大型模型的异步“连续批处理”部署方面表现出色。我们的结果为跨规模和性能要求部署量化LLM提供了一套实用指南。
自主代理在与现实世界互动方面变得越来越重要。特别是,Android代理最近成为一个经常提及的交互方法。然而,现有关于训练和评估Android代理的研究缺乏对开源和闭源模型的系统性研究。在这项工作中,我们提出了AndroidLab作为一个系统化的Android代理框架。它包括一个具有不同形式、动作空间和可重现基准的操作环境。它支持在相同动作空间中的大型语言模型(LLMs)和多模型模型(LMMs)。AndroidLab基准包括预定义的Android虚拟设备和跨九个应用构建的138个任务。通过使用AndroidLab环境,我们开发了一个Android指令数据集,并训练了六个开源LLMs和LMMs,将LLMs的平均成功率从4.59%提高到21.50%,将LMMs的平均成功率从1.93%提高到13.28%。AndroidLab是开源的,并可以在https://github.com/THUDM/Android-Lab 上公开获取。
大型语言模型(LLMs)展现出在网络任务中作为自主代理的显著潜力。然而,现有的LLM网络代理在很大程度上依赖昂贵的专有LLM API,而开放的LLMs则缺乏必要的决策能力。本文介绍了WebRL,这是一个自我进化的在线课程强化学习框架,旨在利用开放的LLMs训练高性能网络代理。WebRL解决了构建LLM网络代理时的三个关键挑战,包括训练任务的稀缺性、稀疏的反馈信号以及在线学习中的策略分布漂移。具体而言,WebRL包括:1)一个自我进化的课程,从不成功的尝试中生成新任务,2)一个强大的结果监督奖励模型(ORM),以及3)自适应的强化学习策略,以确保持续改进。我们将WebRL应用于将开放的Llama-3.1和GLM-4模型转变为熟练的网络代理。在WebArena-Lite上,WebRL将Llama-3.1-8B的成功率从4.8%提高到42.4%,将GLM-4-9B的成功率从6.1%提高到43%。这些开放模型明显超越了GPT-4-Turbo(17.6%)和GPT-4o(13.9%)的性能,并且胜过之前基于开放LLMs训练的最先进网络代理(AutoWebGLM,18.2%)。我们的研究结果表明WebRL在弥合开放和专有LLM网络代理之间的差距方面的有效性,为更具可访问性和强大的自主网络交互系统铺平了道路。
OpenAI的Sora突显了视频生成在发展符合基本物理定律的世界模型方面的潜力。然而,视频生成模型能否纯粹从视觉数据中发现这些定律而无需人类先验知识,这一点值得质疑。一个学习真实定律的世界模型应该能够对细微差异具有鲁棒性,并能在未见过的场景上正确外推。在这项工作中,我们跨越三个关键场景进行评估:分布内、分布外和组合泛化。我们为物体运动和碰撞开发了一个二维模拟测试平台,以确定性地生成受一个或多个古典力学定律控制的视频。这为大规模实验提供了无限的数据,并能够定量评估生成的视频是否符合物理定律。我们训练了基于扩散的视频生成模型,以预测基于初始帧的物体运动。我们的扩展实验显示在分布内具有完美泛化,在组合泛化中具有可测量的缩放行为,但在分布外场景中失败。进一步的实验揭示了关于这些模型泛化机制的两个关键见解:(1)模型无法抽象出一般物理规则,而是表现出“基于案例”的泛化行为,即模仿最接近的训练示例;(2)在泛化到新案例时,观察到模型在参考训练数据时会优先考虑不同因素:颜色 > 尺寸 > 速度 > 形状。我们的研究表明,仅靠扩展是不足以让视频生成模型揭示基本物理定律的,尽管在Sora的更广泛成功中扮演了角色。请访问我们的项目页面:https://phyworld.github.io
现有的LLM代理系统通常在每一步从一个固定和预定义的集合中选择动作。虽然这种方法在封闭、范围狭窄的环境中是有效的,但我们认为在实际场景中部署LLM代理时会出现两个主要挑战:(1) 从固定动作集合中选择显著限制了LLM代理的规划和执行能力,(2) 这种方法需要大量人力来枚举和实现所有可能的动作,在具有大量潜在动作的复杂环境中变得不切实际。在这项工作中,我们提出了一个LLM代理框架,可以动态地在线创建和组合动作。在这个框架中,代理通过在每一步生成和执行用通用编程语言编写的程序与环境进行交互。此外,生成的动作会随着时间累积以供将来重复使用。我们在GAIA基准测试上进行了大量实验,证明了这个框架提供了显著更大的灵活性,并且胜过了先前的方法。值得注意的是,它使LLM代理能够在预定义集合中不存在相关动作或现有动作由于意外边缘情况而失败的情况下恢复。在撰写本文时,我们在GAIA公共排行榜上名列前茅。我们的代码可以在https://github.com/adobe-research/dynasaur{https://github.com/adobe-research/dynasaur}找到。
扩散模型在文本到图像生成中展现出卓越的能力。它们的语义理解(即,随后的提示)能力也随着大型语言模型(例如T5、Llama)得到了极大的改进。然而,现有模型无法完美处理长且复杂的文本提示,特别是当文本提示包含多个具有许多属性和相互关联空间关系的对象时。虽然已经提出了许多基于UNet模型(如SD1.5、SDXL)的区域提示方法,但仍然没有基于最近的扩散变压器(DiT)架构的实现,例如SD3和FLUX.1。在本报告中,我们提出并实现了基于注意力操纵的FLUX.1的区域提示,这使得DiT能够以无需训练的方式具有细粒度的组合文本到图像生成能力。代码可在https://github.com/antonioo-c/Regional-Prompting-FLUX 找到。
纹理处理是3D资产制作工作流程中至关重要的一步,它提升了3D资产的视觉吸引力和多样性。尽管最近在文本到纹理(T2T)生成方面取得了进展,但现有方法通常产生次优结果,主要是由于局部不连续性、多视角之间的不一致性以及对UV展开结果的严重依赖。为了解决这些挑战,我们提出了一种名为MVPaint的新型生成-细化3D纹理框架,它可以生成高分辨率、无缝纹理,同时强调多视角一致性。MVPaint主要包括三个关键模块。1)同步多视角生成(SMG)。给定一个3D网格模型,MVPaint首先通过采用SMG模型同时生成多视角图像,导致粗糙的纹理结果以及未涂色部分由于缺失观察而产生。2)空间感知3D修补(S3I)。为了确保完整的3D纹理,我们引入了S3I方法,专门设计用于有效地纹理先前未观察到的区域。3)UV细化(UVR)。此外,MVPaint采用UVR模块来提高UV空间中的纹理质量,首先执行UV空间超分辨率,然后通过空间感知缝合平滑算法来修正由UV展开引起的空间纹理不连续性。此外,我们建立了两个T2T评估基准:Objaverse T2T基准和GSO T2T基准,分别基于Objaverse数据集和整个GSO数据集中选定的高质量3D网格。广泛的实验结果表明,MVPaint超越了现有的最先进方法。值得注意的是,MVPaint能够生成高保真度纹理,减少了Janus问题,并显著增强了跨视角一致性。
本文介绍了Hunyuan-Large,目前是最大的开源基于Transformer的专家混合模型,共有3890亿参数和520亿激活参数,能够处理高达256K个标记。我们对Hunyuan-Large在各种基准测试中的卓越性能进行了彻底评估,包括语言理解和生成、逻辑推理、数学问题求解、编码、长文本和聚合任务,在这些任务中,它优于LLama3.1-70B,并在与规模显著更大的LLama3.1-405B模型的比较中表现出可比较的性能。Hunyuan-Large的关键实践包括比先前文献中大得多的大规模合成数据、混合专家路由策略、键-值缓存压缩技术和专家特定的学习率策略。此外,我们还研究了专家混合模型的扩展规律和学习率调度,为未来模型的开发和优化提供了宝贵的见解和指导。Hunyuan-Large的代码和检查点已发布,以促进未来的创新和应用。 代码:https://github.com/Tencent/Hunyuan-Large 模型:https://huggingface.co/tencent/Tencent-Hunyuan-Large
在各种应用中大规模部署大型语言模型(LLMs),如聊天机器人和虚拟助手,需要LLMs对用户具有文化敏感性,以确保包容性。文化在心理学和人类学中得到广泛研究,最近在使LLMs更具文化包容性方面出现了激增的研究,超越了多语言性,并建立在心理学和人类学研究结果的基础上。在本文中,我们调查了将文化意识融入基于文本和多模态LLMs的努力。我们首先定义了LLMs中的文化意识,以人类学和心理学对文化的定义作为出发点。然后,我们检查了用于创建跨文化数据集的方法、在下游任务中实现文化包容性的策略,以及用于基准测试LLMs中文化意识的方法。此外,我们讨论了文化对齐的伦理影响、人机交互在推动LLMs中文化包容性方面的作用,以及文化对齐在推动社会科学研究中的作用。最后,根据我们对文献中存在的差距的发现,我们提供了未来研究的指引。
生成时间一致且高保真度的视频可能在计算上是昂贵的,尤其是在较长的时间跨度上。最近的扩散Transformer(DiTs)虽然在这方面取得了重大进展,但由于依赖更大的模型和更重的注意机制,导致推理速度变慢,进一步加剧了这些挑战。在本文中,我们介绍了一种无需训练的方法来加速视频DiTs,称为自适应缓存(AdaCache),其动机是“并非所有视频都是平等的”:即一些视频只需较少的去噪步骤即可达到合理的质量。基于此,我们不仅通过扩散过程缓存计算,还为每个视频生成设计了一个定制的缓存调度,最大化质量和延迟之间的权衡。我们进一步引入了一种运动正则化(MoReg)方案,以利用AdaCache内的视频信息,从根本上根据运动内容控制计算分配。总的来说,我们的即插即用贡献使得推理速度显著提升(例如,在Open-Sora 720p - 2s视频生成上高达4.7倍),而不会牺牲生成质量,适用于多个视频DiT基线。
最近在2D视觉生成方面取得了显著成功。然而,在真实世界的应用中,3D和4D生成仍然具有挑战性,这是因为缺乏大规模的4D数据和有效的模型设计。在本文中,我们提出通过利用日常生活中常见的摄像机和物体运动,共同研究一般的3D和4D生成。由于社区中缺乏真实世界的4D数据,我们首先提出了一个数据整理流程,从视频中获取摄像机姿势和物体运动强度。基于这个流程,我们引入了一个大规模的真实世界4D场景数据集:CamVid-30K。通过利用所有的3D和4D数据,我们开发了我们的框架GenXD,它使我们能够生成任何3D或4D场景。我们提出了多视角-时间模块,可以将摄像机和物体运动解耦,从而无缝地学习来自3D和4D数据。此外,GenXD采用了蒙版潜在条件来支持各种条件视图。GenXD可以生成遵循摄像机轨迹的视频,以及可以转换为3D表示的一致的3D视图。我们在各种真实世界和合成数据集上进行了广泛评估,展示了GenXD在3D和4D生成方面相对于先前方法的有效性和多功能性。
现代视觉效果(VFX)软件使熟练艺术家能够创作几乎任何图像。然而,创作过程仍然费时费力、复杂,并且大多数普通用户难以接触。在这项工作中,我们提出了AutoVFX,这是一个框架,可以从单个视频和自然语言指令自动创建逼真且动态的VFX视频。通过精心整合神经场景建模、基于LLM的代码生成和物理模拟,AutoVFX能够提供基于物理的、逼真的编辑效果,可以直接使用自然语言指令进行控制。我们进行了大量实验证实AutoVFX在各种视频和指令上的有效性。定量和定性结果表明,AutoVFX在生成质量、指令对齐、编辑多样性和物理合理性方面远远优于所有竞争方法。
激活稀疏性表示激活输出中存在大量贡献较弱的元素,这些元素可以被消除,从而使许多与大型语言模型(LLMs)相关的重要应用受益。尽管在LLMs中促进更大的激活稀疏性值得深入研究,但现有研究缺乏对激活稀疏性与潜在影响因素之间相关性的全面和定量研究。在本文中,我们对仅解码器的基于Transformer的LLMs内激活稀疏性的定量缩放特性和影响因素进行了全面研究。具体而言,我们提出了PPL-p%稀疏性,这是一个精确且性能感知的激活稀疏性度量标准,适用于任何激活函数。通过大量实验,我们发现了几个重要现象。首先,不同激活函数表现出可比较的性能,但训练时稀疏性趋势相反。激活比率(即1-稀疏比率)随着SiLU激活和ReLU激活的LLMs的训练数据量呈现出收敛增长的幂律和减小的对数空间幂律。这表明相比于SiLU,ReLU作为激活函数更有效,并且可以利用更多训练数据来提高激活稀疏性。其次,激活比率在某一瓶颈点以下的宽度-深度比例线性增加,表明在固定参数规模下更深的架构具有潜在优势。最后,在类似的宽度-深度比例下,我们惊讶地发现激活稀疏性的极限值与参数规模变化不大,即LLMs内的激活模式对参数规模不敏感。这些针对具有更大激活稀疏性的LLMs的经验规律对于使LLMs更高效和可解释具有重要意义。
过去一年见证了基于视频的大型语言模型的显著进展。然而,为短视频和长视频开发统一模型的挑战仍未解决。大多数现有的视频LLM无法处理长达数小时的视频,而专为长视频设计的方法往往对短视频和图像无效。在本文中,我们确定关键问题为视频中的冗余内容。为了解决这一问题,我们提出了一种新颖的池化策略,同时实现了标记压缩和指令感知的视觉特征聚合。我们的模型被称为Prompt-guided Pooling LLaVA,简称PPLLaVA。具体而言,PPLLaVA包括三个核心组件:基于CLIP的视觉提示对齐,提取与用户指令相关的视觉信息;指导型池化,使用类卷积池化将视觉序列压缩到任意尺度;以及用于视觉对话中常见的长提示的剪辑上下文扩展。此外,我们的代码库还集成了最先进的视频直接偏好优化(DPO)和视觉交错训练。大量实验证实了我们模型的性能。在仅使用1024个视觉上下文的情况下,PPLLaVA在图像基准测试中作为视频LLM取得了更好的结果,同时在各种视频基准测试中取得了最先进的性能,在从生成字幕到多项选择题等任务中表现出色,并处理从几秒到数小时的视频长度。代码已在https://github.com/farewellthree/PPLLaVA 上提供。
在大型语言模型(LLM)的开发中,从人类反馈中进行强化学习(RLHF)对于使模型与人类价值观和偏好保持一致至关重要。RLHF传统上依赖于当前策略与冻结的初始策略之间的Kullback-Leibler(KL)散度作为参考,将其作为一种惩罚添加到策略优化算法中,如Proximal Policy Optimization(PPO)。虽然这种约束可以防止模型偏离初始检查点太远,但它限制了对奖励空间的探索,降低了模型发现更高质量解决方案的能力。因此,策略优化通常被困在参数空间的狭窄区域中,导致次优的对齐和性能。本文提出了SALSA(基于汤的对齐学习以实现更强的适应性),这是一种新颖方法,旨在通过对两个独立的监督微调(SFT)模型进行权重空间平均来克服这些限制,从而创建一个更灵活且位置更佳的参考模型。这种模型汤允许在KL散度中有更大的偏差,并在不牺牲稳定性的情况下探索解决方案空间中有前途的区域。通过利用这个更健壮的参考模型,SALSA促进更好的探索,实现更高的奖励并改善模型的鲁棒性、超出分布的泛化能力和性能。我们通过在流行的开放模型(Llama2-7B、Mistral-7B和Gemma-2B)上进行广泛实验验证了SALSA的有效性,跨越各种基准(MT-Bench、Arena-Hard、UltraFeedback),在这些基准中,SALSA始终通过促进更深入的探索并在LLM中实现更优越的对齐, consistently surpasses PPO。
我们引入了图像目标表示(IGOR),旨在学习一个统一的、语义一致的动作空间,涵盖人类和各种机器人。通过这个统一的潜在动作空间,IGOR实现了在大规模机器人和人类活动数据之间的知识转移。我们通过将初始图像与目标状态之间的视觉变化压缩为潜在动作来实现这一点。IGOR使我们能够为互联网规模的视频数据生成潜在动作标签。这个统一的潜在动作空间使得能够跨多种任务对机器人和人类执行的基础策略和世界模型进行训练。我们证明:(1)IGOR学习了一个对人类和机器人都具有语义一致性的动作空间,描述了代表物体物理交互知识的各种可能运动;(2)IGOR可以通过同时使用潜在动作模型和世界模型,“迁移”一个视频中物体的运动到其他视频,甚至跨越人类和机器人之间;(3)IGOR可以通过基础策略模型学习将潜在动作与自然语言对齐,并将潜在动作与低级策略模型整合,实现有效的机器人控制。我们相信IGOR为人类向机器人的知识转移和控制开辟了新的可能性。
理解和减轻与基础模型(FMs)相关的潜在风险取决于开发有效的可解释性方法。稀疏自编码器(SAEs)已经成为一个有前途的工具,用于解开FM表示中的内容,但它们难以捕捉数据中罕见但关键的概念。我们引入了专门的稀疏自编码器(SSAEs),旨在通过专注于特定子域来阐明这些难以捉摸的暗物质特征。我们提出了一个实用的训练SSAEs的方法,展示了对数据选择的密集检索的有效性以及倾斜的经验风险最小化作为改进概念回忆的训练目标的好处。我们对SSAEs在标准指标上的评估,如下游困惑度和L_0稀疏性,表明它们有效地捕捉了子域尾部概念,超越了通用SAEs的能力。我们在Bias in Bios数据集的案例研究中展示了SSAEs的实际效用,当应用于去除虚假性别信息时,SSAEs在最差组分类准确度上实现了12.5\%的提升。SSAEs为深入探究子域中FMs内部运作提供了一个强大的新视角。
我们提出了多专家提示(Multi-expert Prompting),这是对ExpertPrompting(Xu等,2023年)的一项新颖增强,旨在改善大型语言模型(LLM)的生成。具体而言,它通过模拟多个专家,汇总他们的回应,并从个体和汇总回应中选择最佳回应,引导LLM完成输入指令。这一过程通过我们从名义小组技术(Ven和Delbecq,1974年)中精心设计的七个子任务在一条思维链中执行,该技术是一个成熟的决策框架。我们的评估表明,多专家提示在增强响应的真实性、事实性、信息量和实用性方面明显优于ExpertPrompting和可比较的基线,同时减少了毒性和伤害性。它通过超越ChatGPT的最佳基线,使真实性达到了最先进水平,超出了8.69%。多专家提示高效、可解释,并且高度适应各种场景,消除了手动提示构建的需要。
本文描述了一种利用预训练扩散模型解决带噪声线性逆问题的高效算法。在去噪扩散隐式模型(DDIM)范式的基础上,我们提出了受限扩散隐式模型(CDIM),通过修改扩散更新以强制对最终输出施加约束。对于无噪声的逆问题,CDIM 精确满足约束;在有噪声的情况下,我们将 CDIM 推广以满足对噪声残差分布的精确约束。通过在各种任务和指标上进行实验,展示了 CDIM 的强大性能,具有与无约束 DDIM 相似的推理加速度:比先前的条件扩散方法快 10 到 50 倍。我们展示了我们方法的多功能性,涵盖了诸多问题,包括超分辨率、去噪、修补、去模糊和三维点云重建。
最近,大型多模态模型(LMMs)在文本丰富的图像理解方面取得了巨大进展,但仍然在处理复杂、多页、视觉丰富的文档时存在困难。传统方法使用文档解析器进行检索增强生成存在性能和效率限制,而直接将所有页面呈现给LMMs会导致效率低下,特别是在处理长文档时。在这项工作中,我们提出了一个名为LoRA-大型多模态模型上下文适应(LoCAL)的新框架,它扩展了任何LMM的能力,以支持长文档理解。我们证明LMMs可以有效地作为多模态检索器,检索相关页面以回答用户问题。LoCAL采用两个特定的LMM适配器实现:一个用于证据页面检索,另一个用于问答。实证结果显示在公共基准测试中表现卓越,展示了LoCAL的有效性。
我们介绍了Swan,这是一个围绕阿拉伯语言的嵌入模型系列,旨在解决小规模和大规模用例。Swan包括两个变体:Swan-Small,基于ARBERTv2,以及Swan-Large,基于预训练的阿拉伯大型语言模型ArMistral。为了评估这些模型,我们提出了ArabicMTEB,这是一个全面的基准套件,评估跨语言、多方言、多领域和多文化阿拉伯文本嵌入性能,涵盖了八个不同的任务,涉及94个数据集。Swan-Large取得了最先进的结果,在大多数阿拉伯任务中优于Multilingual-E5-large,而Swan-Small则始终优于Multilingual-E5 base。我们的广泛评估表明,Swan模型在方言和文化上都具有意识,在各种阿拉伯领域表现出色,同时提供了显著的经济效率。这项工作在阿拉伯语言建模领域取得了重大进展,并为未来在阿拉伯自然语言处理领域的研究和应用提供了宝贵资源。我们的模型和基准将对研究公开可访问。