每日精选AI研究论文及翻译
在构建GUI代理方面的现有努力严重依赖于稳健的商业视觉-语言模型(VLMs),如GPT-4o和GeminiProVision。从业者通常不愿使用开源VLMs,因为它们在GUI基础和超出分布(OOD)场景中与闭源对应物相比性能显著滞后。为促进该领域未来的研究,我们开发了OS-Atlas - 一种在GUI基础和OOD代理任务中通过数据和建模创新表现出色的基础GUI动作模型。我们在开发一个开源工具包方面投入了大量工程努力,用于在多个平台上合成GUI基础数据,包括Windows、Linux、MacOS、Android和Web。利用这个工具包,我们发布了迄今为止最大的开源跨平台GUI基础语料库,其中包含超过1300万个GUI元素。结合模型训练的创新,这个数据集为OS-Atlas理解GUI截图并推广到未见界面提供了坚实基础。通过在涵盖移动、桌面和Web三个不同平台的六个基准上进行广泛评估,OS-Atlas展示了明显优于先前最先进模型的性能改进。我们的评估还揭示了有关持续改进和扩展开源VLMs代理能力的宝贵见解。
最近,大型语言模型(LLMs)的个性化已经变得越来越重要,并具有广泛的应用。尽管个性化LLMs的重要性和最新进展,但大多数现有的个性化LLMs作品要么完全专注于(a)个性化文本生成,要么利用LLMs进行与个性化相关的下游应用,如推荐系统。在这项工作中,我们首次搭建了连接这两个独立主要方向之间的桥梁,引入了个性化LLMs使用的分类法,并总结了关键差异和挑战。我们对个性化LLMs的基础进行了形式化,巩固和扩展了个性化LLMs的概念,定义和讨论了个性化、使用和个性化LLMs的期望的新颖方面。然后,我们通过提出个性化粒度、个性化技术、数据集、评估方法和个性化LLMs应用的系统分类法,统一了这些不同领域和使用场景的文献。最后,我们强调了尚待解决的挑战和重要的开放性问题。通过使用提出的分类法统一和调查最近使用的研究,我们旨在为现有文献和LLMs中个性化的不同方面提供清晰指南,为研究人员和从业者提供支持。
矫正流和回流程序显著推进了快速生成,逐渐使普通微分方程(ODE)流直线化。它们基于这样的假设运行,即图像和噪声对(称为耦合)可以用具有恒定速度的直线轨迹近似。然而,我们观察到,使用恒定速度建模和回流程序在准确学习对之间的直线轨迹方面存在局限,导致在少步生成中表现不佳。为了解决这些局限,我们引入了常加速流(CAF),这是一个基于简单的恒定加速方程的新框架。CAF引入了加速度作为一个额外的可学习变量,允许更具表现力和准确地估计ODE流。此外,我们提出了两种技术来进一步提高估计的准确性:加速度模型的初始速度调节和初始速度的回流过程。我们在玩具数据集、CIFAR-10和ImageNet 64x64上进行的综合研究表明,CAF在一步生成方面优于最先进的基线模型。我们还展示了CAF在保持少步耦合和反演方面相比矫正流有了显著改进。代码可在https://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}获取。
现有的基准测试经常强调最先进的多模态基础模型(MFMs)在利用时间上下文进行视频理解方面取得的显著性能。然而,这些模型在视觉时间推理方面的表现如何?我们对现有基准测试的研究显示,MFMs 的这种能力很可能被高估,因为许多问题可以通过使用单个、少量或无序帧来解决。为了系统地检验当前的视觉时间推理任务,我们提出了三项原则及相应的度量标准:(1)多帧增益,(2)帧顺序敏感性,以及(3)帧信息差异性。遵循这些原则,我们引入了TOMATO,即时间推理多模态评估,这是一个新颖的基准测试,旨在严格评估MFMs 在视频理解中的时间推理能力。TOMATO 包括1,484个精心策划的、人工标注的问题,涵盖六个任务(即动作计数、方向、旋转、形状与趋势、速度与频率以及视觉线索),应用于1,417个视频,其中包括805个自录制和生成的视频,涵盖了以人为中心、真实世界和模拟场景。我们的全面评估显示,最佳表现模型与人类之间存在57.3%的性能差距。此外,我们的深入分析揭示了当前MFMs存在的更基本限制。虽然它们可以准确识别孤立帧中的事件,但无法将这些帧解释为连续序列。我们相信TOMATO 将成为评估下一代MFMs的重要测试平台,并呼吁社区开发能够通过视频模态理解人类世界动态的人工智能系统。
本文提出了用于视觉生成的随机自回归建模(RAR),在保持与语言建模框架完全兼容的同时,在图像生成任务上取得了新的最先进性能。所提出的RAR方法很简单:在标准的自回归训练过程中,采用下一个标记预测目标,输入序列(通常以光栅形式排序)以概率r被随机排列成不同的因子分解顺序,其中r从1开始,在训练过程中线性衰减至0。这种退火训练策略使模型能够学习最大化所有因子分解顺序上的期望似然,从而有效提高了模型建模双向上下文的能力。值得注意的是,RAR保留了自回归建模框架的完整性,确保与语言建模完全兼容,同时在图像生成方面显著提高了性能。在ImageNet-256基准测试中,RAR实现了1.48的FID分数,不仅超越了先前最先进的自回归图像生成器,还优于领先的基于扩散和基于掩蔽变换器的方法。代码和模型将在https://github.com/bytedance/1d-tokenizer上提供。
我们发现了Next-token Prediction(NTP)中的基础物理学。我们确定了NTP中信息守恒定律,并提出了信息容量第一定律(IC-1),证明自回归模型中智能出现的本质基本上是信息传递的过程。我们还将兰道尔原理引入NTP,制定了信息容量第二定律(IC-2),建立了自回归模型训练与能量消耗之间的关系。此外,我们提出了几个推论,对生产实践具有实际意义。最后,我们验证了我们的发现与现有理论的兼容性和互补性。
我们提出了一种简单的方法,将掩码语言建模与因果语言建模相结合。这种混合训练目标导致了一个模型,它在单个Transformer堆栈中结合了这两种建模范式的优势:GPT-BERT可以像任何标准的因果或掩码语言模型一样透明地使用。我们在2024年的BabyLM挑战赛上测试了实现这种灵活行为的预训练过程。结果显示,混合预训练优于仅掩码或仅因果模型。我们公开发布了模型、训练语料库和代码。
生成式人工智能的应用变得非常令人印象深刻,用户与人工智能之间的互动更是如此。当前的人工智能与人类互动文献广泛探讨了人类如何与生成式人工智能互动,但缺乏关于用于创建这些应用的用户界面设计和模式的具体性描述。因此,我们提出了一项调查,全面呈现了人类如何与人工智能互动的分类法,以及设计用于满足各种相关用例需求的用户互动模式。我们主要关注用户引导的互动,调查由用户发起且不包括用户发出的任何隐含信号的互动。通过这项调查,我们旨在创建一个不同用户互动模式的汇编,可供设计师和开发人员参考。通过这样做,我们还努力降低那些试图了解生成式人工智能应用设计更多信息的人的准入门槛。
我们提出了Fashion-VDM,一种用于生成虚拟试穿视频的视频扩散模型(VDM)。给定一个服装图像和一个人的视频作为输入,我们的方法旨在生成一个高质量的试穿视频,展示穿着给定服装的人,同时保留人的身份和动作。基于图像的虚拟试穿已经取得了令人印象深刻的结果;然而,现有的视频虚拟试穿(VVT)方法仍然缺乏服装细节和时间一致性。为了解决这些问题,我们提出了基于扩散的架构用于视频虚拟试穿,分割无分类器指导以增加对条件输入的控制,并采用渐进式时间训练策略用于单次通过生成64帧、512像素视频。我们还展示了联合图像-视频训练在视频试穿中的有效性,尤其是在视频数据有限时。我们的定性和定量实验表明,我们的方法为视频虚拟试穿设定了新的技术水平。欲了解更多结果,请访问我们的项目页面:https://johannakarras.github.io/Fashion-VDM。
最近的研究arXiv:2410.15027探讨了扩散变压器(DiTs)在任务不可知图像生成中的应用,方法是简单地通过在图像间连接注意力标记。然而,尽管使用了大量计算资源,生成图像的保真度仍然不理想。在本研究中,我们重新评估并简化了这一框架,假设文本到图像的DiTs固有地具有上下文生成能力,只需要进行最少的调整来激活它们。通过多样的任务实验,我们定性地证明了现有的文本到图像的DiTs可以有效地进行上下文生成而无需任何调整。基于这一观点,我们提出了一个非常简单的流程来利用DiTs的上下文能力:(1)连接图像而不是标记,(2)对多个图像进行联合字幕,(3)使用小数据集(例如20sim 100个样本)而不是使用大数据集进行全参数调整,应用任务特定的LoRA调整。我们将我们的模型命名为In-Context LoRA(IC-LoRA)。这种方法不需要对原始DiT模型进行任何修改,只需更改训练数据。显著地,我们的流程生成了更符合提示的高保真度图像集。虽然在调整数据方面是任务特定的,但我们的框架在体系结构和流程上仍然是任务不可知的,为社区提供了一个强大的工具,并为进一步研究产品级任务不可知生成系统提供了宝贵的见解。我们在https://github.com/ali-vilab/In-Context-LoRA发布了我们的代码、数据和模型。
大型语言模型(LLMs)展示了在解决简单科学问题方面的有希望的能力,但在复杂问题上往往会产生幻觉。虽然将LLMs与工具集成可以提高可靠性,但这种方法通常会导致对工具的过度依赖,降低模型通过基本推理解决简单问题的能力。相比之下,人类专家会首先利用领域知识评估问题复杂性,然后选择适当的解决方案。受到这种人类解决问题过程的启发,我们提出了一种新颖的两部分微调方法。在第一部分世界知识蒸馏(WKD)中,LLMs直接从使用工具信息生成的解决方案中学习,以内化领域知识。在第二部分工具使用适应(TUA)中,我们根据模型的直接回答准确性将问题分为简单和困难两类。在保持与WKD中简单问题的相同对齐目标的同时,我们训练模型智能地在面对更具挑战性的问题时切换到工具使用。我们在涵盖数学、气候科学和流行病学的六个科学基准数据集上验证了我们的方法。平均而言,我们的模型在所有数据集上的回答准确性提高了28.18%,工具使用精度提高了13.89%,超过了包括GPT-4o和Claude-3.5在内的最先进模型。
最近,3D高斯飞溅(3DGS)已经彻底改变了辐射场重建,展现出高效和高保真度的新视角合成。然而,在大型和复杂场景中准确表示表面,仍然是一个重要挑战,这是由于3DGS的非结构化特性所致。本文提出了CityGaussianV2,这是一种针对大规模场景重建的新方法,解决了与几何精度和效率相关的关键挑战。借鉴2D高斯飞溅(2DGS)良好的泛化能力,我们解决了其收敛性和可扩展性问题。具体而言,我们实现了一种基于分解梯度的致密化和深度回归技术,以消除模糊伪影并加快收敛速度。为了扩展规模,我们引入了一种延伸滤波器,以减轻由2DGS退化引起的高斯计数爆炸。此外,我们针对并行训练优化了CityGaussian管道,实现了高达10倍的压缩,至少节省了25%的训练时间,以及50%的内存使用减少。我们还在大规模场景下建立了标准几何基准。实验结果表明,我们的方法在视觉质量、几何精度以及存储和训练成本之间取得了有希望的平衡。项目页面位于https://dekuliutesla.github.io/CityGaussianV2/。
神经模型中的词嵌入空间存在偏斜,纠正这一问题可以提高任务性能。我们指出,大多数用于建模、纠正和衡量嵌入空间对称性的方法都隐含地假设词频是均匀的;而实际上,词频遵循高度非均匀分布,即齐夫定律。令人惊讶的是,简单地进行PCA白化,根据遵循齐夫定律的经验词频加权,显著提高了任务性能,超过了已建立的基线。从理论角度看,我们的方法和现有方法都可以清晰地分类:词表示根据具有均匀或齐夫基础测度的指数族分布。通过采用后一种方法,我们可以自然地强调信息量较大的低频词,这在信息几何学的角度和不平衡分类的损失函数方面变得明显。此外,我们的理论证实了流行的自然语言处理方法,如skip-gram负采样、WhiteningBERT和无头语言模型之所以表现良好,只是因为它们的词嵌入将经验词频编码到基础概率模型中。
我们提出了一种有效的方法,用于将适配器插入文本到图像基础模型中,从而实现复杂下游任务的执行,同时保持基础模型的泛化能力。该方法的核心思想是优化与2D特征图相关的注意力机制,从而增强适配器的性能。这种方法在模因视频生成任务上得到了验证,并取得了显著的结果。我们希望这项工作能为大型文本到图像模型的后训练任务提供启示。此外,由于该方法展示出与SD1.5衍生模型良好的兼容性,对开源社区具有一定价值。因此,我们将发布相关代码(https://songkey.github.io/hellomeme)。
当前的人脸匿名化技术通常依赖于由人脸识别模型计算的身份丢失,这可能不准确且不可靠。此外,许多方法需要额外的数据,如面部标志和面具,来指导合成过程。相比之下,我们的方法使用仅具有重建损失的扩散模型,消除了对面部标志或面具的需求,同时仍能生成具有复杂、细致细节的图像。我们通过定量和定性评估在两个公共基准上验证了我们的结果。我们的模型在三个关键领域取得了最先进的性能:身份匿名化、面部属性保留和图像质量。除了其主要的匿名化功能外,我们的模型还可以通过将额外的面部图像作为输入来执行人脸交换任务,展示了其多功能性和多样化应用的潜力。我们的代码和模型可在 https://github.com/hanweikung/face_anon_simple 获取。
大型语言模型(LLMs)在多跳问答(M-QA)中表现出色,这归因于其先进的推理能力。然而,固有推理结构对LLM M-QA性能的影响仍不清楚,主要是因为缺乏提供细粒度推理结构的问答数据集。为了填补这一空白,我们引入了图推理结构问答数据集(GRS-QA),该数据集为问答对提供了语义上下文和推理结构。与现有的M-QA数据集不同,其中不同推理结构交织在一起,GRS-QA通过构建推理图明确捕捉复杂的推理路径,其中节点代表文本上下文,边表示逻辑流动。这些不同结构的推理图使得能够对LLM在各种推理结构下的推理能力进行细粒度评估。我们的实证分析显示,LLMs在处理具有不同推理结构的问题时表现不同。这一发现促进了与语义相比对文本结构的探索。
锂离子电池的健康状态(SOH)是决定电池剩余容量和剩余寿命的关键参数。本文提出了一种新颖的结构化状态空间模型(SSM)SambaMixer,用于预测锂离子电池的健康状态。所提出的SSM基于MambaMixer架构,旨在处理多变量时间信号。我们在NASA电池放电数据集上评估了我们的模型,并展示了我们的模型在该数据集上优于现有技术。我们进一步引入了一种新颖的基于锚点的重采样方法,确保时间信号具有预期长度,同时也作为增广技术。最后,我们通过使用位置编码将预测条件设置为样本时间和循环时间差,以提高我们模型的性能并学习恢复效应。我们的结果证明,我们的模型能够高精度和鲁棒地预测锂离子电池的SOH。
存储库级别的代码补全在软件工程领域引起了极大关注,并引入了几个基准数据集。然而,现有的存储库级别代码补全基准通常只关注有限数量的语言(<5),无法评估现有代码大型语言模型(LLMs)在不同语言之间的普遍代码智能能力。此外,现有基准通常报告不同语言的整体平均分数,忽略了不同补全场景中的细粒度能力。因此,为了促进多语言场景下代码LLMs的研究,我们提出了一个覆盖18种编程语言的大规模多语言存储库级别代码补全基准(称为M2RC-EVAL),并提供了两种类型的细粒度注释(即桶级别和语义级别)在不同的补全场景中,我们基于解析的抽象语法树获得这些注释。此外,我们还策划了一个大规模多语言指令语料库M2RC-INSTRUCT数据集,以提高现有代码LLMs的存储库级别代码补全能力。全面的实验结果证明了我们的M2RC-EVAL和M2RC-INSTRUCT的有效性。
本文讨论了WikiNER语料库的质量,这是一个多语言命名实体识别语料库,并提供了其整合版本。WikiNER的标注是以半监督的方式生成的,即没有进行事后手动验证。这种语料库被称为银标准。本文提出了WikiNER-fr-gold,这是WikiNER法语部分的修订版本。我们的语料库包括原始法语子语料库的随机抽样的20%(26,818个句子,70万个标记)。我们首先总结了每个类别中包含的实体类型,以制定标注准则,然后我们开始修订语料库。最后,我们对WikiNER-fr语料库中观察到的错误和不一致性进行了分析,并讨论了潜在的未来工作方向。