每日精选AI研究论文及翻译
我们系统地调查一个广泛讨论的问题:LLM是否真正理解自己所说的内容?这与更熟悉的术语“随机鹦鹉”相关。为此,我们提出了一个对物理概念理解任务PhysiCo进行总结评估的方案,该任务经过精心设计,通过使用抽象描述物理现象的网格格式输入来缓解记忆问题。这些网格代表不同层次的理解,从核心现象、应用示例到与网格世界中其他抽象模式的类比。对我们任务的全面研究表明:(1)包括GPT-4o、o1和Gemini 2.0在内的最先进的LLM,其闪念思维落后于人类约40%;(2)LLM中存在随机鹦鹉现象,因为它们在我们的网格任务上失败,但可以在自然语言中很好地描述和识别相同的概念;(3)我们的任务挑战LLM,是由于内在困难而不是不熟悉的网格格式,因为在相同格式的数据上进行上下文学习和微调对它们的表现几乎没有帮助。
在现代大型语言模型(LLMs)中,处理非常长的上下文长度会带来重大挑战,因为会导致推理速度变慢并增加内存成本。此外,大多数现有的预训练LLMs无法推广到超出其原始训练序列长度之外。为了实现高效和实用的长上下文利用,我们引入了InfiniteHiP,这是一种新颖且实用的LLM推理框架,通过模块化的分层标记修剪算法动态消除不相关的上下文标记以加速处理。我们的方法还允许通过根据LLMs内部注意力模式选择性地应用各种RoPE调整方法来推广到更长的序列。此外,在推理过程中,我们将关键-值缓存转移到主机内存,显著减少了GPU内存压力。因此,InfiniteHiP使单个L40s 48GB GPU能够处理多达300万个标记,比原来大3倍,而不会永久丢失上下文信息。我们的框架在不需要额外训练的情况下,为100万个标记上下文的注意力解码实现了18.95倍的加速。我们在SGLang框架中实现了我们的方法,并通过广泛评估展示了其有效性和实用性。
在文本到图像(T2I)扩散模型中,大规模文本编码器展现出卓越的性能,能够从文本提示生成高质量图像。与依赖多次迭代步骤的去噪模块不同,文本编码器仅需进行一次前向传递即可生成文本嵌入。然而,尽管文本编码器对总推理时间和浮点运算(FLOPs)的贡献较小,但其内存使用要求显著更高,高达去噪模块的八倍。为解决这种低效率,我们提出了Skip and Re-use layers(Skrr),这是一种专门为T2I扩散模型中的文本编码器设计的简单而有效的修剪策略。Skrr通过有针对性地跳过或重复利用变压器块中的某些层,以降低内存消耗而不影响性能,从而利用变压器块中的固有冗余。大量实验证明,Skrr在高稀疏水平下保持了与原始模型相媲美的图像质量,优于现有的基于块的修剪方法。此外,Skrr在保持各项评估指标(包括FID、CLIP、DreamSim和GenEval分数)的性能的同时,实现了最先进的内存效率。
最近扩散技术的进步推动了图像和视频生成达到前所未有的质量水平,显著加速了生成式人工智能的部署和应用。然而,3D形状生成技术迄今仍然落后,受制于3D数据规模的限制、3D数据处理复杂性以及对3D领域先进技术的不足探索。当前的3D形状生成方法在输出质量、泛化能力和与输入条件的对齐方面面临重大挑战。我们提出了TripoSG,一种新的简化形状扩散范式,能够生成与输入图像精确对应的高保真度3D网格。具体来说,我们提出:1)一个用于3D形状生成的大规模矫正流变换器,通过在大量高质量数据上训练实现了最先进的保真度。2)一种混合监督训练策略,结合SDF、法线和埃克纳尔损失用于3D VAE,实现高质量的3D重建性能。3)一个数据处理流水线,生成200万个高质量3D样本,突显了在训练3D生成模型中数据质量和数量的关键规则。通过全面实验,我们验证了新框架中每个组件的有效性。这些部分的无缝集成使TripoSG在3D形状生成方面实现了最先进的性能。由于具有高分辨率能力,生成的3D形状展现出增强的细节,并且对输入图像表现出卓越的保真度。此外,TripoSG展示了在从不同图像风格和内容生成3D模型方面的改进多样性,展示了强大的泛化能力。为促进3D生成领域的进步和创新,我们将公开提供我们的模型。
随着公开可用模型数量的增加,很可能为用户所需任务提供了预训练的在线模型。然而,当前的模型搜索方法还比较基础,基本上是在文档中进行基于文本的搜索,因此用户无法找到相关的模型。本文提出了ProbeLog,一种用于检索能识别目标概念(如“狗”)的分类模型的方法,而无需访问模型元数据或训练数据。与先前的探测方法不同,ProbeLog通过观察模型对一组固定输入(探针)的响应来计算每个模型的每个输出维度(logit)的描述符。我们的方法支持基于logit的检索(“查找更多类似的logits”)和零样本、基于文本的检索(“查找所有与狗对应的logits”)。由于基于探测的表示需要通过模型进行多次昂贵的前向传递,我们开发了一种基于协同过滤的方法,将编码存储库的成本降低了3倍。我们证明了ProbeLog在现实世界和细粒度搜索任务中均实现了高检索准确性,并且可扩展到全尺寸存储库。
我们介绍了SelfCite,这是一种新颖的自监督方法,可以对齐LLM以生成高质量、细粒度、句级引文,用于其生成的回复中的陈述。SelfCite不仅仅依赖昂贵且劳动密集的注释,而是通过上下文消融利用LLM本身提供的奖励信号:如果需要引文,从上下文中删除引文文本应该会阻止相同的回复;如果引文足够,仅保留引文文本应该会保留相同的回复。这种奖励可以引导推理时的最佳-N抽样策略,显著提高引文质量,并可用于偏好优化,直接微调模型以生成更好的引文。SelfCite的有效性通过在五个长格式问答任务中LongBench-Cite基准上将引文F1提高了高达5.3个点来加以证明。
利用多模态大型语言模型(MLLMs)创建具身代理为解决现实世界任务提供了一个有前途的途径。虽然以语言为中心的具身代理引起了相当大的关注,但基于MLLM的具身代理由于缺乏全面的评估框架而鲜为人知。为了弥补这一差距,我们引入了EmbodiedBench,一个旨在评估以视觉驱动的具身代理的广泛基准。EmbodiedBench具有以下特点:(1)涵盖四个环境中的1,128个测试任务的多样化集合,从高级语义任务(例如家庭)到涉及原子动作的低级任务(例如导航和操作);以及(2)六个精心策划的子集,评估基本代理能力,如常识推理、复杂指令理解、空间意识、视觉感知和长期规划。通过大量实验,我们评估了EmbodiedBench中的13个主要专有和开源MLLM的表现。我们的研究结果表明:MLLM在高级任务上表现出色,但在低级操作方面表现不佳,最佳模型GPT-4o的平均得分仅为28.9%。EmbodiedBench提供了一个多方面的标准化评估平台,不仅突出了现有挑战,还提供了有价值的见解,以推进基于MLLM的具身代理。我们的代码可在https://embodiedbench.github.io 获取。
本文研究了数据选择和模型合并方法,旨在将类似DeepSeek R1的先进推理能力整合到特定语言的大型语言模型(LLMs)中,特别关注泰语LLM。我们的目标是增强特定语言LLMs的推理能力,同时保持其目标语言能力。DeepSeek R1在推理方面表现出色,但主要受益于英语和中文等高资源语言。然而,由于英语为中心的训练数据和模型优化的主导地位,低资源语言仍未得到充分服务,这限制了这些语言的性能。这种限制导致代码切换不可靠,并且在低资源语言的任务上效果不佳。与此同时,本地和区域LLM倡议已尝试弥合这一差距,通过开发专注于提高本地语言保真度的特定语言LLMs。我们证明,仅凭公开可用的数据集和120美元的计算预算,就可以增强特定语言LLMs的推理能力,使其达到DeepSeek R1的水平,而不会影响其在目标语言任务上的表现。
角色扮演语言代理(RPLAs)已成为大型语言模型(LLMs)的应用中备受期待的应用。然而,由于缺乏真实角色数据集和使用这类数据的微妙评估方法,模拟已建立角色对RPLAs来说是一项具有挑战性的任务。本文介绍了CoSER,这是一个高质量数据集、开放模型和评估协议的集合,旨在实现对已建立角色进行有效模拟的RPLAs。CoSER数据集涵盖了来自771本知名书籍的17,966个角色。它提供了具有真实世界复杂性的对话,以及各种数据类型,如对话设置、角色经历和内心想法。借鉴表演方法论,我们引入了给定环境表演,用于训练和评估角色扮演LLMs,在这种方法中,LLMs按顺序扮演书中多个角色。利用我们的数据集,我们开发了CoSER 8B和CoSER 70B,即基于LLaMA-3.1模型构建的先进开放式角色扮演LLMs。大量实验证明了CoSER数据集在RPLA训练、评估和检索方面的价值。此外,CoSER 70B在我们的评估和三个现有基准测试中表现出了最先进的性能,超过或与GPT-4o相匹配,分别在InCharacter和LifeChoice基准测试中实现了75.80%和93.47%的准确率。
通过思维链(Chain-of-Thought,CoT)回答问题显著增强了大型语言模型(Large Language Models,LLMs)的推理能力,然而它对大型多模态模型(Large Multimodal Models,LMMs)的影响仍缺乏系统评估和深入调查。在本文中,我们介绍了MME-CoT,一个专门评估LMMs的CoT推理性能的基准,涵盖六个领域:数学、科学、OCR、逻辑、时空和一般场景。作为该领域的首个全面研究,我们提出了一个全面的评估套件,包括三个新颖的度量标准,评估推理质量、鲁棒性和效率的细粒度水平。利用精心筛选的高质量数据和独特的评估策略,我们对最先进的LMMs进行了深入分析,揭示了几个关键见解:1)具有反思机制的模型展现出卓越的CoT质量,Kimi k1.5胜过GPT-4o,展现出最高质量的结果;2)CoT提示常常降低LMM在侧重感知任务上的表现,暗示可能存在有害的过度思考行为;以及3)尽管CoT质量高,具有反思的LMMs在正常响应和自我纠正阶段均表现出显著的低效性。我们希望MME-CoT能够成为推进LMMs多模态推理的基础。项目页面:https://mmecot.github.io/
在2D视觉领域,已初步探索了无编码器架构,然而它们能否有效地应用于3D理解场景仍然是一个悬而未决的问题。本文首次全面调查了无编码器架构克服基于编码器的3D大型多模型(LMMs)挑战的潜力。这些挑战包括无法适应不同点云分辨率以及编码器生成的点特征不符合大型语言模型(LLMs)的语义需求。我们确定了3D LMMs去除编码器并使LLM承担3D编码器角色的关键方面:1)我们在预训练阶段提出了LLM嵌入式语义编码策略,探索各种点云自监督损失的影响。我们提出了混合语义损失以提取高级语义。2)我们在指导调整阶段引入了分层几何聚合策略。这将归纳偏差引入LLM的早期层,以便专注于点云的局部细节。最终,我们提出了第一个无编码器的3D LMM,ENEL。我们的7B模型与当前最先进的模型ShapeLLM-13B不相上下,在分类、字幕和VQA任务上分别达到55.0%、50.92%和42.7%。我们的结果表明,无编码器架构在3D理解领域替代基于编码器的架构具有极高的潜力。代码已发布在https://github.com/Ivan-Tang-3D/ENEL。
随着像OpenAI o3和DeepSeek-R1这样的先进推理模型的出现,大型语言模型(LLMs)展示了卓越的推理能力。然而,它们在进行严格逻辑推理方面的能力仍然是一个悬而未决的问题。本调查综合了LLMs内逻辑推理的最新进展,这是人工智能研究的一个关键领域。它概述了LLMs中逻辑推理的范围、其理论基础以及用于评估推理能力的基准。我们分析了不同推理范式(演绎、归纳、诱导和类比)中现有的能力,并评估了增强推理性能的策略,包括数据中心调整、强化学习、解码策略和神经符号方法。综述最后探讨了未来的方向,强调了进一步探索以加强人工智能系统中逻辑推理的必要性。
在快速发展的自然语言处理领域,大型语言模型(LLMs)被赋予越来越复杂的推理挑战。传统方法如思维链提示显示出潜力,但往往未能充分利用模型的推理能力。本文介绍了SQuARE(Sequential Question Answering Reasoning Engine),这是一种旨在通过自我询问范式改进推理的新型提示技术。在CoT框架的基础上,SQuARE提示模型在处理主要查询之前生成和解决多个辅助问题,促进对主题各个方面的更全面探索。我们使用Llama 3和GPT-4o模型在多个问答数据集上进行了广泛评估,结果显示SQuARE明显优于传统的CoT提示和现有的重述-回答方法。通过系统分解查询,SQuARE推进了LLM在推理任务中的能力。代码可在https://github.com/IntelLabs/RAG-FiT/tree/square 公开获取。
本文介绍了台风T1,这是一个开放的项目,旨在开发一个开放的泰语推理模型。推理模型是一种相对较新的生成模型,建立在大型语言模型(LLMs)之上。推理模型在最终给出答案之前会生成一长串思考过程,这种方法被发现能够提高处理复杂任务的性能。然而,有关开发这种模型的细节很有限,特别是对于能够在低资源语言中生成追踪的推理模型。台风T1提出了一个开放的项目,深入探讨了以更具成本效益的方式开发推理模型的细节,通过利用开放数据集进行监督微调,而非强化学习。本文分享了关于合成数据生成和训练的细节,以及我们的数据集和模型权重。此外,我们提供了从开发一个能够在领域间泛化并能够在低资源语言中生成推理追踪的推理模型中获得的见解,以泰语为例。我们希望这一开放项目为该领域的进一步研究奠定基础。
思维链显著增强了模型的推理能力,但也伴随着推理成本的显著增加,因为存在较长的链。通过观察到在简单任务下推理路径可以轻松压缩,但在困难任务下会遇到困难,我们探讨了通过一个模型弹性地控制推理路径长度的可行性,从而根据任务难度动态减少推理模型的推理开销。我们引入了一种名为CoT-Valve的新调整和推理策略,旨在允许模型生成不同长度的推理链。为实现这一目标,我们提出了在参数空间中识别一个方向,通过操纵该方向可以有效地控制生成的CoT的长度。此外,我们展示了这种属性对于压缩推理链是有价值的。我们构建了包含从长到短链的相同问题的数据集,并探索了两种增强策略用于CoT-Valve:(1)精确长度可压缩的CoT调整方法,以及(2)渐进式链长度压缩方法。我们的实验表明,CoT-Valve成功实现了链的可控性和可压缩性,并且表现优于基于提示的控制。我们将这种方法应用于QwQ-32B-Preview,在GSM8K上将推理链从741个标记减少到225个标记,性能略微下降(从95.07%到94.92%),在AIME上将推理链从6827个标记减少到4629个标记,仅多出一个错误答案。
多模态嵌入模型因其能够将来自不同模态(如文本和图像)的数据映射到统一的表示空间而备受关注。然而,有限的标记多模态数据经常限制了嵌入性能。最近的方法利用数据合成来解决这一问题,然而合成数据的质量仍然是一个关键瓶颈。在这项工作中,我们确定了高质量合成多模态数据的三个标准。首先,广泛的范围确保生成的数据涵盖不同任务和模态,使其适用于各种下游场景。其次,强大的跨模态对齐使不同模态在语义上保持一致。第三,高保真度确保合成数据保持真实细节,以增强其可靠性。在这些原则的指导下,我们合成了数据集:(1)涵盖广泛的任务、模态组合和语言,(2)通过多模态大型语言模型的单次深思过程生成,(3)结合真实世界图像和准确相关的文本,通过自我评估和改进确保保真度。利用这些高质量的合成和标记数据集,我们训练了一个多模态多语言E5模型mmE5。大量实验证明mmE5在MMEB基准测试上实现了最先进的性能,并在XTD基准测试上实现了卓越的多语言性能。我们的代码、数据集和模型已在https://github.com/haon-chen/mmE5 上发布。
我们致力于应对从人类参考中开发出适用于灵巧操作的通用神经跟踪控制器的挑战。该控制器旨在管理一个灵巧机器人手,以根据人体与物体之间的运动学相互作用定义的各种目的来操纵不同的物体。开发这样的控制器受到灵巧操作复杂的接触动力学和对适应性、通用性和稳健性的需求的影响。当前的强化学习和轨迹优化方法通常由于依赖于特定任务奖励或精确系统模型而表现不佳。我们提出了一种方法,通过筛选大规模成功的机器人跟踪演示,包括人类参考和机器人动作的配对,来训练一个神经控制器。利用数据飞轮,我们迭代地提升控制器的性能,以及成功跟踪演示的数量和质量。我们利用可用的跟踪演示,并精心整合强化学习和模仿学习,以提高控制器在动态环境中的性能。同时,为了获得高质量的跟踪演示,我们通过利用学习的跟踪控制器在同伦优化方法中优化每条轨迹的跟踪。同伦优化,模拟思维链,有助于解决具有挑战性的轨迹跟踪问题,增加演示的多样性。我们展示了通过训练一个通用神经控制器并在模拟和真实世界中评估其性能的成功。与主流基线相比,我们的方法成功率提高了超过10%。项目网站上提供了带有动画结果的链接:https://meowuu7.github.io/DexTrack/。
大型语言模型(LLMs)中的数学推理通常使用具有有限数值范围的基准进行评估,未能反映跨不同规模的真实世界问题解决。此外,大多数现有评估方法仅将模型输出与基本真实答案进行比较,掩盖了对推理过程的洞察。为了解决这些限制,我们引入了GSM-Ranges,这是一个从GSM8K衍生的数据集生成器,系统地扰动数学问题中的数值,以评估模型在不同数值规模下的稳健性。此外,我们提出了一种新颖的评分方法,区分逻辑和非逻辑错误,提供了对推理过程的更精确评估,超越了计算准确性。我们对各种模型进行的实验显示,随着数值复杂性的增加,逻辑错误率显著增加,高达14个百分点,表明在处理分布之外的数值时推理存在一般性弱点。此外,虽然模型在独立算术任务上表现出高准确性,但当计算嵌入到文字问题中时,它们的性能显著下降。这些发现全面评估了LLMs的数学推理能力,并为改进语言模型中数值泛化的未来研究方向提供了信息。
在电影制作中,制作魔术和幻觉是最激动人心的部分之一,视觉效果(VFX)是创造令人难忘的电影体验的强大动力。虽然最近生成人工智能的进步推动了通用图像和视频合成的进展,但可控VFX生成领域仍相对未被充分探索。在这项工作中,我们提出了一种新颖的动画VFX生成范式,即图像动画,其中动态效果是从用户友好的文本描述和静态参考图像生成的。 我们的工作主要有两个贡献:(i)Open-VFX,这是第一个高质量的VFX视频数据集,涵盖了15种不同的效果类别,带有文本描述、空间条件的实例分割掩模以及用于时间控制的起始-结束时间戳。(ii) VFX Creator,这是一个简单而有效的可控VFX生成框架,基于视频扩散变压器。该模型包含一个空间和时间可控的LoRA适配器,需要很少的训练视频。具体而言,一个即插即用的掩模控制模块实现了实例级的空间操作,而嵌入扩散过程中的标记化起始-结束运动时间戳,连同文本编码器,允许对效果的时间和速度进行精确的时间控制。 在Open-VFX测试集上进行的大量实验表明,所提出的系统在生成逼真和动态效果方面优越,实现了在空间和时间可控性方面的最先进性能和泛化能力。此外,我们引入了一个专门的度量标准来评估时间控制的精度。通过将传统的VFX技术与生成方法相结合,VFX Creator为高效且高质量的视频效果生成打开了新的可能性,使先进的VFX技术能够被更广泛的受众所接触。
潜在的3D重建展示了在将2D特征提炼到3D空间中,赋予3D语义理解和3D生成方面巨大潜力。然而,现有方法在2D特征空间和3D表示之间的领域差距方面存在困难,导致渲染性能下降。为了解决这一挑战,我们提出了一个将3D意识融入2D潜在空间的新颖框架。该框架包括三个阶段:(1)一种考虑对应关系的自动编码方法,增强了2D潜在表示的3D一致性,(2)一种潜在辐射场(LRF),将这些具有3D意识的2D表示提升到3D空间,以及(3)一种VAE-辐射场(VAE-RF)对齐策略,改善从渲染的2D表示解码图像。大量实验表明,我们的方法在合成性能和跨多样室内外场景数据集的泛化能力方面优于最先进的潜在3D重建方法。据我们所知,这是首个展示从2D潜在表示构建的辐射场表示能够产生逼真3D重建性能的工作。
工业异常检测取得了进展,得益于诸如MVTec-AD和VisA之类的数据集。然而,它们在缺陷样本数量、缺陷类型和真实场景可用性方面存在局限性。这些限制阻碍了研究人员进一步探索具有更高准确性的工业检测性能。为此,我们提出了一个新的大规模异常检测数据集,名为3CAD,它源自真实的3C生产线。具体来说,所提出的3CAD包括八种不同类型的制造零件,共计27,039张高分辨率图像,标有像素级异常。3CAD的关键特点是涵盖了不同大小的异常区域、多种异常类型,以及每个异常图像可能存在多个异常区域和多种异常类型。这是首个专门用于3C产品质量控制的最大异常检测数据集,供社区探索和发展使用。同时,我们介绍了一种简单而有效的无监督异常检测框架:一种带有恢复引导的粗到细检测范式(CFRG)。为了检测小缺陷异常,所提出的CFRG利用了粗到细的检测范式。具体来说,我们利用异构蒸馏模型进行粗定位,然后通过分割模型进行精确定位。此外,为了更好地捕捉正常模式,我们引入了恢复特征作为引导。最后,我们在3CAD数据集上报告了我们的CFRG框架和流行的异常检测方法的结果,展示了强大的竞争力,并提供了一个极具挑战性的基准,促进异常检测领域的发展。数据和代码可在以下链接找到:https://github.com/EnquanYang2022/3CAD。