每日精选AI研究论文及翻译
诸如BERT之类的仅编码器变压器模型在检索和分类任务中提供了很好的性能-规模权衡,相对于更大的仅解码器模型。尽管BERT是许多生产流水线的主力军,但自发布以来,对其进行Pareto改进的空间有限。本文介绍了ModernBERT,将现代模型优化引入仅编码器模型,是对旧编码器的重大Pareto改进。ModernBERT模型在训练时使用了2万亿个标记,本地序列长度为8192,展现出在大量评估中的最新结果,涵盖了各种分类任务以及不同领域(包括代码)上的单个和多向量检索。除了强大的下游性能外,ModernBERT还是速度和内存效率最高的编码器,并且专为在常见GPU上进行推断而设计。
2D动画制作遵循行业标准工作流程,包括四个关键阶段:角色设计、关键帧动画、中间画以及上色。我们的研究旨在通过利用日益强大的生成AI潜力来降低上述过程中的劳动成本。以视频扩散模型为基础,AniDoc作为一种视频线条着色工具出现,能够自动将草图序列转换为符合参考角色规范的彩色动画。我们的模型利用对应匹配作为明确指导,从而在参考角色与每个线条艺术帧之间的变化(例如姿势)上具有很强的鲁棒性。此外,我们的模型甚至可以自动化中间画过程,使用户只需提供角色图像以及起始和结束草图,就能轻松创建时间上连贯的动画。我们的代码可在以下链接找到:https://yihao-meng.github.io/AniDoc_demo。
我们每天都与计算机进行互动,无论是在日常生活还是工作中,许多工作都可以完全借助计算机和互联网完成。与此同时,由于大型语言模型(LLMs)的改进,人工智能代理也在与周围环境互动并产生影响方面迅速发展。但是,人工智能代理在帮助加速或甚至自主执行与工作相关的任务方面表现如何?这个问题的答案对于希望将人工智能引入工作流程的行业以及经济政策理解人工智能可能对劳动力市场产生的影响具有重要意义。为了衡量这些LLM代理在执行真实世界专业任务方面的表现进展,本文引入了TheAgentCompany,这是一个用于评估与数字工作者类似方式与世界互动的人工智能代理的可扩展基准。这些代理通过浏览网络、编写代码、运行程序和与其他同事交流来模拟数字工作者的方式。我们构建了一个自包含环境,其中包含模拟小型软件公司环境的内部网站和数据,并创建了一系列可能由这样一家公司的工作人员执行的任务。我们测试了由基于封闭API和开放权重语言模型(LMs)驱动的基准代理,发现在最具竞争力的代理中,有24%的任务可以自主完成。这描绘了关于LM代理任务自动化的细致图景——在模拟真实工作场所的情境中,相当一部分简单任务可以自主解决,但更困难的长期任务仍然超出了当前系统的能力范围。
在这项工作中,我们质疑了对训练深度神经网络是否需要自适应梯度方法。SGD-SaI是对带动量的随机梯度下降(SGDM)的一种简单而有效的增强方法。SGD-SaI在初始化时执行学习率缩放(SaI),针对不同的参数组进行,根据它们各自的梯度信噪比(g-SNR)进行引导。通过调整学习率,而不依赖自适应的二阶动量,SGD-SaI有助于防止训练不平衡从第一次迭代开始,并且与AdamW相比,将优化器的内存使用减少了一半。尽管其简单性和效率,SGD-SaI在训练各种基于Transformer的任务时始终能够与或胜过AdamW,有效地克服了使用SGD训练Transformer长期存在的挑战。SGD-SaI在ImageNet-1K分类中表现出色,使用Vision Transformers(ViT)和GPT-2预训练大型语言模型(LLMs,仅限transformer解码器),展现出对超参数变化的稳健性和适用于多样应用的实用性。我们进一步测试了其在LoRA微调LLMs和扩散模型等任务上的稳健性,在这些任务中,它始终优于最先进的优化器。从内存效率的角度看,SGD-SaI为优化器状态实现了大量内存节省,在全精度训练设置中,与AdamW相比,为GPT-2(15亿参数)节省了5.93GB的内存使用量,为Llama2-7B节省了25.15GB。
由大型基础模型驱动的图形用户界面(GUI)代理已经成为自动化人机交互的变革性方法。这些代理通过GUI与数字系统或软件应用程序自主交互,模拟人类动作,如点击、输入和在不同平台上导航视觉元素。受到对GUI代理日益增长的兴趣和基本重要性的推动,我们提供了一项全面的调查,对它们的基准、评估指标、架构和训练方法进行了分类。我们提出了一个统一的框架,详细描述了它们的感知、推理、规划和行动能力。此外,我们确定了重要的挑战,并讨论了关键的未来方向。最后,这项工作为从业者和研究人员提供了一个基础,使他们能够直观地了解当前进展、技术、基准和尚待解决的关键问题。
人类具有视觉-空间智能,能够从连续的视觉观察中记忆空间。然而,经过百万规模视频数据集训练的多模态大型语言模型(MLLMs)是否也能从视频中“以空间思维”?我们提出了一个新颖的基于视频的视觉-空间智能基准(VSI-Bench),包含超过5,000个问题-答案对,并发现MLLMs展现出有竞争力的 - 虽然是次人类的 - 视觉-空间智能。我们探究模型如何在语言和视觉上表达其空间思维,并发现,虽然空间推理能力仍然是MLLMs达到更高基准性能的主要瓶颈,但局部世界模型和空间意识在这些模型中也得到了体现。值得注意的是,目前流行的语言推理技术(例如,思维链、自洽性、思维树)未能提高性能,而在问答过程中显式生成认知地图则增强了MLLMs的空间距离能力。
对于增强视觉语言模型(VLMs)的性能,尤其是在文本丰富的图像理解任务中,调整输入图像分辨率至关重要。然而,诸如ViTs之类的流行视觉编码器在高分辨率下变得低效,这是由于大量标记和由堆叠的自注意力层引起的高编码延迟。在不同操作分辨率下,VLM的视觉编码器可以沿着两个轴进行优化:降低编码延迟和最小化传递给LLM的视觉标记数量,从而降低总体延迟。通过对图像分辨率、视觉延迟、标记数量和LLM大小之间相互作用的全面效率分析,我们引入了FastVLM,这是一个在延迟、模型大小和准确性之间实现了优化权衡的模型。FastVLM融合了FastViTHD,这是一种新型的混合视觉编码器,旨在输出更少的标记并显著减少高分辨率图像的编码时间。与以往方法不同,FastVLM通过仅调整输入图像的方式实现了视觉标记数量和图像分辨率之间的最佳平衡,消除了额外的标记修剪需求,简化了模型设计。在LLaVA-1.5设置中,FastVLM在保持与以往作品相似的VLM基准性能的同时,将首个标记的时间(TTFT)提高了3.2倍。与最高分辨率(1152x1152)的LLaVa-OneVision相比,FastVLM在关键基准测试中(如SeedBench和MMMU)实现了可比的性能,使用相同的0.5B LLM,但首个标记的时间快了85倍,视觉编码器的大小减小了3.4倍。
大型语言模型(LLMs)取得了显著的成功,然而最近的研究发现,它们的深层往往贡献较小,可以进行修剪而不影响整体性能。虽然一些人认为这是模型压缩的机会,但我们将其视为训练不足的表现,根源在于广泛使用的预层归一化(Pre-LN)。我们证明了在像GPT和LLaMA这样的模型中常用的Pre-LN会导致深层的梯度范数减小,降低了它们的有效性。相比之下,后层归一化(Post-LN)在深层保留了较大的梯度范数,但在较早的层中存在梯度消失的问题。为了解决这个问题,我们引入了Mix-LN,这是一种新颖的归一化技术,结合了Pre-LN和Post-LN的优势在同一个模型中。Mix-LN将Post-LN应用于较早的层,将Pre-LN应用于深层,确保了各层之间更均匀的梯度。这使得网络的所有部分——无论是浅层还是深层——都能有效地参与训练。通过对从70M到7B不同规模的模型进行广泛实验,我们证明了Mix-LN始终优于Pre-LN和Post-LN,促进了更平衡、更健康的梯度范数在整个网络中的分布,并提高了LLM预训练的整体质量。此外,我们证明了使用Mix-LN预训练的模型在监督微调(SFT)和从人类反馈中进行强化学习(RLHF)时学习效果更好,突显了高质量深层的重要性。通过有效解决当前LLMs中深层的低效问题,Mix-LN释放了它们的潜力,增强了模型的容量而不增加模型大小。我们的代码可在https://github.com/pixeli99/MixLN找到。
在多模态大型语言模型(MLLMs)中,视觉Transformer(ViTs)被广泛应用于视觉编码。然而,它们在解决通用MLLM任务时的表现并不理想。我们将其归因于缺乏来自不同视觉层级的信息,阻碍了与语言生成所需的各种语义粒度的对齐。为了解决这个问题,我们提出了LLaVA-UHD v2,这是一种先进的MLLM,围绕着一个Hierarchical window transformer,它通过构建和集成高分辨率特征金字塔来实现捕获多样化的视觉粒度。作为一个视觉-语言投影仪,Hiwin transformer包括两个主要模块:(i)通过ViT衍生的特征上采样过程构建的逆特征金字塔,利用图像金字塔中的高频细节,以及(ii)分层窗口注意力,聚焦于跨尺度窗口内的一组关键采样特征,以压缩多级特征映射。大量实验证明,LLaVA-UHD v2在流行基准测试中比现有的MLLMs表现出更优越的性能。值得注意的是,与基准方法相比,我们的设计在14个基准测试中平均提升了3.7%,例如在DocVQA上提升了9.3%。我们公开提供所有数据、模型检查点和代码,以促进未来的研究。
我们提出了FashionComposer用于生成时尚图像。与先前的方法不同,FashionComposer非常灵活。它接受多模态输入(即文本提示、参数化人体模型、服装图像和面部图像),支持个性化人体外观、姿势和体型,并一次性分配多件服装。为实现这一目标,我们首先开发了一个能够处理多样输入模态的通用框架。我们构建了经过缩放的训练数据,以增强模型的稳健的组合能力。为了无缝地容纳多个参考图像(服装和面部),我们将这些参考图像组织在单个图像中作为“资产库”,并采用参考UNet来提取外观特征。为了将外观特征注入到生成的结果中的正确像素中,我们提出了主体绑定注意力。它将来自不同“资产”的外观特征与相应的文本特征绑定在一起。通过这种方式,模型可以根据语义理解每个资产,支持任意数量和类型的参考图像。作为一个全面的解决方案,FashionComposer还支持许多其他应用,如人物相册生成、多样化虚拟试穿任务等。
本文提出了一种新颖的方法,实现了具有高效性的自回归视频生成。我们建议将视频生成问题重新构建为非量化的时间逐帧预测和空间逐组预测的自回归建模。与先前自回归模型中的光栅扫描预测或扩散模型中固定长度令牌的联合分布建模不同,我们的方法保持了类似GPT风格模型的因果特性,以实现灵活的上下文能力,同时利用了单个帧内的双向建模以提高效率。通过提出的方法,我们训练了一种新颖的视频自回归模型,称为NOVA,无需矢量量化。我们的结果表明,即使模型容量明显较小(即0.6B参数),NOVA在数据效率、推理速度、视觉保真度和视频流畅性方面均超越了先前的自回归视频模型。NOVA还在文本到图像生成任务中优于最先进的图像扩散模型,并且具有显着较低的训练成本。此外,NOVA在扩展视频时长上具有良好的泛化能力,并且能够在一个统一模型中实现多样的零样本应用。代码和模型可在https://github.com/baaivision/NOVA 上公开获取。
提示在释放语言和视觉基础模型的力量以完成特定任务方面发挥着关键作用。我们首次将提示引入深度基础模型,为度量深度估计创造了一种新范式,称为提示深度任意。具体而言,我们使用低成本的激光雷达作为提示,引导深度任意模型输出准确的度量深度,实现高达4K分辨率。我们的方法围绕简洁的提示融合设计展开,将激光雷达集成到深度解码器中的多个尺度。为解决训练挑战,即包含激光雷达深度和精确GT深度的数据集有限,我们提出了一个可扩展的数据管道,包括合成数据激光雷达模拟和真实数据伪GT深度生成。我们的方法在ARKitScenes和ScanNet++数据集上取得了新的最先进水平,并使下游应用受益,包括3D重建和泛化机器人抓取。
地理空间模型必须适应地球观测数据的多样性,包括分辨率、尺度和模态。然而,现有方法期望固定的输入配置,这限制了它们的实际适用性。我们提出了AnySat,这是一种基于联合嵌入预测架构(JEPA)和分辨率自适应空间编码器的多模态模型,使我们能够以自监督方式在高度异构数据上训练单一模型。为了展示这一统一方法的优势,我们编制了GeoPlex,这是一个包含5个多模态数据集和11个不同传感器的集合。然后,我们同时在这些多样化的数据集上训练一个强大的单一模型。经过微调后,我们在GeoPlex数据集和其他4个额外数据集上的5个环境监测任务(土地覆盖映射、树木种类识别、作物类型分类、变化检测和洪水分割)中取得了更好或接近最先进的结果。代码和模型可在https://github.com/gastruc/AnySat 上找到。
扩散策略已广泛应用于模仿学习中,具有多模态和不连续行为生成等吸引人的特性。随着模型变得更大以捕捉更复杂的能力,其计算需求也在增加,正如最近的扩展规律所显示的那样。因此,继续采用当前的架构将带来计算上的障碍。为了填补这一差距,我们提出了一种新颖的模仿学习策略——混合去噪专家(MoDE)。MoDE超越了当前基于Transformer的扩散策略的最新技术,同时通过稀疏专家和噪声条件路由实现了参数高效扩展,通过专家缓存将活跃参数减少了40%,推理成本减少了90%。我们的架构将这种高效扩展与噪声条件自注意机制相结合,实现了在不同噪声水平下更有效的去噪。MoDE在四个已建立的模仿学习基准(CALVIN和LIBERO)中的134个任务上实现了最先进的性能。值得注意的是,通过在多样化的机器人数据上预训练MoDE,我们在CALVIN ABC上实现了4.01,在LIBERO-90上实现了0.95。它在4个基准测试中平均超越了基于CNN和Transformer的扩散策略57%,同时与默认的扩散Transformer架构相比,使用的FLOPs少了90%,活跃参数也更少。此外,我们对MoDE的组件进行了全面的消融实验,为设计高效可扩展的Transformer架构提供了见解,用于扩散策略。代码和演示可在https://mbreuss.github.io/MoDE_Diffusion_Policy/找到。
用于可扩展学习的人形机器人对于它们在现实世界应用中的部署至关重要。虽然传统方法主要依赖于强化学习或远程操作来实现全身控制,但通常受限于模拟环境的多样性和演示收集的高成本。相比之下,人类视频普遍存在,并且是一种未被开发的语义和动作信息来源,可以显著增强人形机器人的泛化能力。本文介绍了Humanoid-X,这是一个包含超过2000万个人形机器人姿势及相应基于文本的动作描述的大规模数据集,旨在利用这一丰富的数据。Humanoid-X通过一个全面的流程策划:从互联网进行数据挖掘,生成视频标题,将人类的动作重新定位到人形机器人上,并进行用于现实世界部署的策略学习。利用Humanoid-X,我们进一步训练了一个大型人形模型UH-1,该模型以文本指令作为输入,并输出相应的动作以控制人形机器人。广泛的模拟和现实世界实验验证了我们的可扩展训练方法在基于文本的人形控制中具有卓越的泛化能力,标志着朝着适应性强、现实世界可用的人形机器人迈出了重要一步。
尽管现有的检索增强语言模型(RALMs)在提供可信赖的回答和基于可靠来源的支持方面取得了显著进展,但它们常常忽视与人类偏好的有效对齐。在对齐过程中,奖励模型(RMs)作为人类价值观的重要代理,用于指导优化。然而,如何评估和选择可靠的RMs以实现RALMs中的偏好对齐仍不清楚。为此,我们提出了RAG-RewardBench,这是评估RAG环境中RMs的第一个基准。首先,我们设计了四个关键且具有挑战性的RAG特定场景来评估RMs,包括多跳推理、细粒度引用、适当弃权和冲突鲁棒性。然后,我们结合了18个RAG子集、六个检索器和24个RALMs以增加数据来源的多样性。最后,我们采用LLM作为评判者的方法来提高偏好注释的效率和有效性,并展示了与人类注释的强相关性。基于RAG-RewardBench,我们对45个RMs进行了全面评估,并揭示了它们在RAG场景中的局限性。此外,我们还揭示了现有训练的RALMs几乎没有在偏好对齐方面显示出改进,突显了需要转向偏好对齐训练的必要性。我们在https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/上公开发布了我们的基准和代码,供未来工作使用。
将视频内容编码为紧凑的潜在标记已成为视频生成和理解中的基本步骤,这是因为需要解决像素级表示中固有的冗余。因此,随着视频中心研究日益突出,对高性能、开源视频标记器的需求不断增长。我们介绍了 VidTok,这是一种多功能视频标记器,在连续和离散标记化方面均提供了最先进的性能。VidTok相较于现有方法融合了几项关键进展:1)模型架构,如卷积层和上/下采样模块;2)为解决传统矢量量化(VQ)常见的训练不稳定性和码书崩溃问题,我们将有限标量量化(FSQ)融入到离散视频标记化中;3)改进的训练策略,包括两阶段训练过程和使用降低帧率。通过整合这些进展,VidTok在现有方法基础上取得了显著的改进,在标准化评估设置下,在多个指标(包括PSNR、SSIM、LPIPS和FVD)上展现出卓越的性能。
最近的研究arXiv:2410.15027和arXiv:2410.23775突出了预训练扩散变压器(DiTs)固有的上下文生成能力,使它们能够在最小或无架构修改的情况下无缝地适应各种视觉任务。这些能力是通过跨多个输入和目标图像连接自注意力标记,结合分组和屏蔽生成管道而实现的。在此基础上,我们提出了ChatDiT,这是一个零样本、通用且交互式的视觉生成框架,利用了预训练的扩散变压器的原始形式,无需额外调整、适配器或修改。用户可以与ChatDiT交互,通过自由形式的自然语言在一个或多个对话轮次中创建交错的文本-图像文章、多页图片书、编辑图像、设计IP衍生品或开发角色设计设置。在核心部分,ChatDiT采用了一个由三个关键组件组成的多代理系统:一个解释用户上传图像和指令的指令解析代理、一个制定单步或多步生成动作的策略规划代理,以及一个使用扩散变压器的上下文工具包执行这些动作的执行代理。我们在IDEA-Bench arXiv:2412.11767上对ChatDiT进行了全面评估,包括100个真实设计任务和275个具有不同指令和不同数量输入和目标图像的案例。尽管ChatDiT的简单性和无需训练的方法,它超越了所有竞争对手,包括那些专门设计并在广泛多任务数据集上训练的对手。我们进一步确定了预训练DiTs在零样本适应任务中的关键限制。我们发布了所有代码、代理、结果和中间输出,以促进进一步研究,网址为https://github.com/ali-vilab/ChatDiT。
我们展示了一个大型语言模型进行对齐伪装的演示:在训练中有选择性地遵守其训练目标,以防止在训练之外修改其行为。首先,我们给克劳德3奥普斯一个系统提示,说明它正在接受训练以回答所有查询,甚至是有害的查询,这与其先前的训练相冲突,即拒绝这类查询。为了让模型能够推断自己正在接受训练,我们说它只会接受来自免费用户的对话进行训练,而不是付费用户。我们发现,模型在处理来自免费用户的有害查询时,有14%的时间会遵守,而对于付费用户几乎从不会。解释这种差距,几乎在所有模型遵守来自免费用户的有害查询的情况中,我们观察到明确的对齐伪装推理,模型表示它在训练中策略性地回答有害查询,以保持其在训练之外的有害行为。接下来,我们研究了一个更真实的情景,即提供关于训练过程的信息不是通过系统提示,而是通过训练合成文档来模拟预训练数据,结果发现类似的对齐伪装行为。最后,我们研究了通过强化学习实际训练模型以遵守有害查询的效果,发现这会将对齐伪装推理的比例提高到78%,尽管也增加了在训练之外的遵守行为。我们还观察到其他行为,比如模型在有机会时外泄其权重。虽然我们通过告知模型何时以及根据什么标准进行训练,使对齐伪装变得更容易,但我们并没有指示模型伪装对齐或给予明确目标。由于未来的模型可能会推断出关于其训练过程的信息而无需告知,我们的结果表明未来模型存在对齐伪装的风险,无论是由于善意偏好(如本案例)还是其他原因。
计算机辅助设计(CAD)模型通常通过顺序绘制参数化草图并应用CAD操作来获得3D模型。3D CAD逆向工程问题包括从诸如点云之类的3D表示中重建草图和CAD操作序列。本文通过在CAD序列表示、网络设计和数据集三个层面上的新颖贡献来解决这一挑战。特别地,我们将CAD草图挤压序列表示为Python代码。所提出的CAD-Recode将点云转换为Python代码,当执行时,可以重建CAD模型。利用预训练的大型语言模型(LLMs)对Python代码的暴露,我们将一个相对较小的LLM作为CAD-Recode的解码器,并将其与轻量级点云投影仪结合。CAD-Recode仅在提出的包含一百万个多样CAD序列的合成数据集上进行训练。CAD-Recode在三个数据集上明显优于现有方法,同时需要更少的输入点。值得注意的是,它在DeepCAD和Fusion360数据集上的平均Chamfer距离比现有方法低10倍。此外,我们展示了我们的CAD Python代码输出可被现成的LLMs解释,从而实现CAD编辑和从点云进行CAD特定问题回答。
数据污染通过将测试数据引入新模型的训练集,阻碍了对LLM的公平评估。现有研究通过使用新收集的数据更新基准来解决这一挑战。然而,它们未能保证无污染的评估,因为新收集的数据可能包含预先存在的知识,并且它们的基准更新依赖于大量人力。为了解决这些问题,本文提出了一种自动化反泄漏基准框架AntiLeak-Bench。我们不仅仅使用新收集的数据,而是构建样本,其中明确不包含LLM训练集中的新知识,从而确保严格无污染的评估。我们进一步设计了一个完全自动化的工作流程来构建和更新我们的基准,无需人力。这显著降低了基准维护的成本,以适应新兴的LLM。通过大量实验,我们强调数据污染很可能存在于LLM的截止时间之前,并展示了AntiLeak-Bench有效地克服了这一挑战。
历史文献包含丰富的文化宝藏,但随着时间的推移,遭受了严重的损坏,包括缺失字符、纸张损坏和墨迹侵蚀。然而,现有的文献处理方法主要集中在二值化、增强等方面,忽视了对这些损坏的修复。为此,我们提出了一个新任务,称为历史文献修复(HDR),旨在预测受损历史文献的原始外观。为填补该领域的空白,我们提出了一个大规模数据集 HDR28K 和一个基于扩散的网络 DiffHDR 用于历史文献修复。具体而言,HDR28K 包含 28,552 对受损修复图像,带有字符级注释和多样式退化。此外,DiffHDR 通过语义和空间信息以及精心设计的字符感知损失,增强了基本扩散框架,以实现上下文和视觉的连贯性。实验结果表明,使用 HDR28K 训练的 DiffHDR 显著超越了现有方法,并在处理真实受损文档方面表现出色。值得注意的是,DiffHDR 还可以扩展到文档编辑和文本块生成,展示了其高灵活性和泛化能力。我们相信这项研究可以开创文献处理的新方向,并有助于传承宝贵的文化和文明。数据集和代码可在 https://github.com/yeungchenwa/HDR 获取。