每日精选AI研究论文及翻译
大型语言模型(LLMs)已成为实现人工通用智能(AGI)的关键基础设施,然而其缺乏明确的内存管理系统,阻碍了长上下文推理、持续个性化及知识一致性的发展。现有模型主要依赖静态参数和短暂的情境状态,限制了其追踪用户偏好或长期更新知识的能力。尽管检索增强生成(RAG)引入了外部纯文本知识,它仍是一种无状态的临时解决方案,缺乏生命周期控制或与持久化表示的整合。近期研究从内存层次结构视角建模了LLMs的训练与推理成本,表明在参数内存与外部检索之间引入显式内存层,可通过外部化特定知识显著降低这些成本。除了计算效率,LLMs还面临信息如何随时间与上下文分布带来的更广泛挑战,需要能够管理跨越不同时间尺度与来源的异构知识的系统。为应对这一挑战,我们提出了MemOS,一个将内存视为可管理系统资源的内存操作系统。它统一了纯文本、基于激活及参数级内存的表示、调度与进化,实现了成本高效的存储与检索。作为基本单元,MemCube封装了内存内容及如来源与版本控制等元数据。MemCube可随时间进行组合、迁移与融合,支持内存类型间的灵活转换,并桥接检索与基于参数的学习。MemOS建立了一个以内存为中心的系统框架,为LLMs带来了可控性、可塑性及可进化性,为持续学习与个性化建模奠定了基础。
从多视角视频中重建快速动态场景对于高速运动分析和逼真的4D重建至关重要。然而,大多数4D捕捉系统的帧率限制在30 FPS(每秒帧数)以下,直接从低帧率输入进行高速运动的4D重建可能会导致不理想的结果。在本研究中,我们提出了一种仅使用低帧率相机的高速4D捕捉系统,通过新颖的捕捉和处理模块实现。在捕捉方面,我们提出了一种异步捕捉方案,通过错开相机的启动时间来提高有效帧率。通过将相机分组并利用25 FPS的基础帧率,我们的方法实现了100-200 FPS的等效帧率,而无需使用专门的高速相机。在处理方面,我们还提出了一种新的生成模型,用于修复由4D稀疏视图重建引起的伪影,因为异步性会减少每个时间戳的视角数量。具体而言,我们提出训练一种基于视频扩散的伪影修复模型,用于稀疏4D重建,该模型能够细化缺失细节、保持时间一致性并提高整体重建质量。实验结果表明,与同步捕捉相比,我们的方法显著提升了高速4D重建的效果。
我们提出了一种新颖的奖励建模视角,将其表述为一种策略判别器,通过量化两种策略之间的差异来生成奖励信号,从而引导训练策略向具有期望行为的目标策略靠拢。基于这一概念性洞察,我们提出了一种名为策略判别学习(POLAR)的可扩展预训练方法,该方法训练奖励模型(RM)以识别相同策略并区分不同策略。与依赖绝对偏好的传统奖励建模方法不同,POLAR捕捉了一种策略与任意目标策略之间的相对差异,这是一种适合建模通用排序关系的可扩展、高层次优化目标。利用POLAR预训练范式,我们推出了一系列参数规模从1.8B到7B的奖励模型。实证结果表明,POLAR显著优于传统的非预训练方法,大幅提升了奖励模型的性能。例如,与最先进的基线相比,POLAR-7B在STEM任务上的偏好准确率从54.8%提升至81.0%,在创意写作任务上从57.9%提升至85.5%。POLAR在使用强化微调(RFT)的RLHF中也展现出强大的泛化能力,提供了可靠的奖励信号,并显著提升了策略性能——在20个基准测试中,LLaMa3.1-8B的平均表现从47.36%提升至56.33%,Qwen2.5-32B从64.49%提升至70.47%。此外,扩展实验揭示了计算与性能之间明显的幂律关系,线性相关系数接近0.99。POLAR的卓越性能、强大泛化能力及扩展特性表明,它是开发通用且强大奖励模型的一个有前景的方向。
近期,视觉-语言-动作(VLA)模型的进展展现了将图像生成与动作预测相结合以提升机器人操作任务中泛化与推理能力的潜力。然而,现有方法局限于基于图像的预测挑战,这些方法存在信息冗余且缺乏全面且关键的世界知识,包括动态、空间及语义信息。为克服这些局限,我们提出了DreamVLA,一种新颖的VLA框架,它整合了全面的世界知识预测,以实现逆向动力学建模,从而为操作任务构建感知-预测-动作闭环。具体而言,DreamVLA引入了动态区域引导的世界知识预测,结合空间与语义线索,为动作规划提供紧凑而全面的表示。这一设计符合人类与世界的交互方式,即在行动前先形成抽象的多模态推理链。为减少训练过程中动态、空间及语义信息间的相互干扰,我们采用了分块结构化注意力机制,屏蔽它们之间的相互关注,防止信息泄露,保持每种表示的纯净与解耦。此外,为建模未来动作的条件分布,我们利用基于扩散的Transformer,将动作表示从共享潜在特征中解耦出来。在真实世界与仿真环境中的大量实验表明,DreamVLA在真实机器人任务上实现了76.7%的成功率,并在CALVIN ABC-D基准测试中取得了4.44的平均长度。
本文介绍了BMMR,一个大规模的双语、多模态、跨学科推理数据集,旨在为社区开发和评估大型多模态模型(LMMs)提供支持。BMMR包含11万道大学水平的问题,涵盖300个联合国教科文组织定义的学科,问题形式多样——包括选择题、填空题和开放式问答——数据来源广泛,如书籍、考试和在线测验。所有数据均通过人机协作的可扩展框架进行筛选和整理,每个实例均配有高质量推理路径。该数据集分为两部分:BMMR-Eval包含20,458个高质量实例,用于全面评估LMMs在中文和英文环境下跨学科的知识与推理能力;BMMR-Train则包含88,991个实例,支持进一步的研究与开发,将当前数学推理的关注点扩展至多学科领域。此外,我们提出了基于过程的多学科验证器(即BMMR-Verifier),用于精确且细粒度地评估推理路径。在24个模型上的广泛实验表明:(i)即使是SOTA模型(如o3和Gemini-2.5-Pro)在BMMR-Eval上仍有显著提升空间;(ii)推理模型存在学科偏见,仅在特定科目上优于LMMs;(iii)开源模型仍落后于其专有版本;(iv)在BMMR-Train上进行微调可缩小这一差距。此外,我们利用BMMR-Verifier进行推理链分析及其他深入研究,揭示了LMMs当前在多学科推理中面临的挑战。我们将公开数据集,并希望我们的工作能为社区提供洞见与贡献。
大型语言模型(LLMs)的基础能力深受其预训练语料库质量的影响。然而,大规模提升数据质量仍面临重大挑战,主要源于精炼效果与处理效率之间的权衡。尽管基于规则的过滤仍是主流范式,但其通常仅在文档层面操作,缺乏对文档内特定内容进行精细化处理的能力。受ProX等新兴工作的启发,我们提出了RefineX,这是一个通过程序化编辑任务实现大规模、精准化预训练数据精炼的新框架。RefineX能够在高效且细粒度地精炼数据的同时,可靠地保持原始文本的多样性和自然性。RefineX的核心优势在于将高质量、专家指导的端到端精炼结果提炼为基于最小编辑的删除程序。这一高精度提炼管道用于训练一个高效可靠的精炼模型,该模型能够系统地大规模提升语料库中的每个实例。我们在多个模型规模上从头开始预训练评估RefineX,发现其在多种下游任务中始终优于基于原始、过滤或其它方式精炼数据训练的模型。在750M模型上,RefineX在轻量级评估任务中平均提升2.6%-7.2%,并以显著更少的训练token实现了可比的性能。进一步分析表明,RefineX以高效率和精确度可靠地提升了文本质量,超越了端到端生成和Prox-C等先前方法。这些成果确立了RefineX作为现代LLM流程中优化预训练数据的可扩展、有效且可靠的解决方案。
我们推出RoboBrain 2.0,这是最新一代的具身视觉语言基础模型,旨在统一物理环境中复杂具身任务的感知、推理与规划能力。该模型提供两种版本:轻量级的7B模型和全规模的32B模型,采用视觉编码器与语言模型相结合的异构架构。尽管体积紧凑,RoboBrain 2.0在广泛的具身推理任务中展现出强劲性能。在空间与时间基准测试中,32B版本均取得领先成绩,超越了以往的开源及专有模型。特别地,它支持关键的现实世界具身AI能力,包括空间理解(如功能预测、空间指代、轨迹预测)和时间决策(如闭环交互、多智能体长时程规划、场景图更新)。本报告详述了模型架构、数据构建、多阶段训练策略、基础设施及实际应用。我们期望RoboBrain 2.0能推动具身AI研究,并为构建通用具身智能体迈出实用一步。代码、检查点及基准测试可在https://superrobobrain.github.io获取。
历史文献作为无价的文化遗产,历经岁月侵蚀,遭受了撕裂、水蚀和氧化等严重退化。现有的历史文献修复(HDR)方法多局限于单一模态或小规模修复,难以满足实际需求。为此,我们提出了一个全页HDR数据集(FPHDR)及一套创新的自动化HDR解决方案(AutoHDR)。具体而言,FPHDR包含1,633张真实图像与6,543张合成图像,均标注了字符级与行级位置信息,以及不同损坏程度下的字符注释。AutoHDR通过三阶段流程模拟历史学家的修复工作:OCR辅助的损伤定位、视觉-语言上下文文本预测,以及基于补丁的自回归外观修复。其模块化架构实现了人机协作的无缝对接,允许在每一修复阶段灵活介入与优化。实验验证了AutoHDR在HDR任务中的卓越表现,处理严重受损文献时,我们的方法将OCR准确率从46.83%提升至84.05%,人机协作后更进一步提升至94.25%。我们坚信,此项工作在自动化历史文献修复领域迈出了重要一步,为文化遗产保护做出了实质性贡献。模型与数据集已发布于https://github.com/SCUT-DLVCLab/AutoHDR。
大型语言模型(LLMs)在通用任务上展现了卓越的性能,然而,由于高质量领域数据的稀缺,将其适应于特定领域仍具挑战性。现有的数据合成工具往往难以从异构文档中有效提取可靠的微调数据。针对这一局限,我们提出了Easy Dataset,一个通过直观图形用户界面(GUI)从非结构化文档中合成微调数据的统一框架。具体而言,Easy Dataset允许用户轻松配置文本提取模型和分块策略,将原始文档转化为连贯的文本片段。随后,它采用角色驱动的提示方法,利用公开可用的LLMs生成多样化的问答对。在整个流程中,人机交互的可视化界面促进了中间结果的审查与优化,确保数据质量。在金融问答任务上的实验表明,基于合成数据集微调的LLMs显著提升了领域特定性能,同时保留了通用知识。源代码及可安装包已发布于https://github.com/ConardLi/easy-dataset,并获得了超过9,000个GitHub星标。
近期,通过将基于Transformer的扩散模型扩展至数十亿参数规模,文本到视频(T2V)生成领域取得了显著进展,能够生成高质量视频。然而,现有模型通常仅能离线生成短视频片段,限制了其在交互式及实时应用中的使用场景。本文针对这些挑战,提出了StreamDiT,一种流式视频生成模型。StreamDiT的训练基于流匹配技术,并引入了移动缓冲区。我们设计了混合训练策略,采用不同的缓冲帧划分方案,以同时提升内容一致性与视觉质量。StreamDiT的建模基于adaLN DiT,结合了动态时间嵌入与窗口注意力机制。为实践所提方法,我们训练了一个拥有40亿参数的StreamDiT模型。此外,我们提出了一种专为StreamDiT定制的多步蒸馏方法,在选定划分方案的每个片段内执行采样蒸馏。蒸馏后,总函数评估次数(NFEs)减少至缓冲区内的分块数量。最终,我们的蒸馏模型在单GPU上实现了16帧每秒的实时性能,能够生成512p分辨率的视频流。我们通过定量指标与人工评估相结合的方式验证了方法的有效性。该模型支持实时应用,如流式生成、交互式生成及视频到视频转换。更多视频结果及示例请访问我们的项目网站:<a href="https://cumulo-autumn.github.io/StreamDiT/">此https链接。</a>
大型语言模型(LLMs)的生成能力正迅速从静态代码扩展到动态、交互式的视觉产物。这一进展受到一个关键评估瓶颈的制约:现有基准测试主要关注算法正确性,而忽视了定义现代用户体验的视觉保真度和交互完整性。为弥合这一差距,我们推出了ArtifactsBench,一个用于自动化、多模态视觉代码生成评估的新基准和范式。我们的框架通过程序化渲染每个生成的产物,并通过时间序列截图捕捉其动态行为。这些视觉证据与源代码一同,由作为评判者的多模态大型语言模型(MLLM)进行评估,该模型严格遵循细粒度的任务清单,确保评分全面且可复现。我们构建了一个包含1,825项多样化任务的新基准,并对超过30个领先的LLMs进行了评估。我们的自动化评估与WebDev Arena(网页开发领域人类偏好的黄金标准)达到了惊人的94.4%排名一致性,与人类专家的两两一致性也超过90%。这确立了ArtifactsBench作为首个能可靠大规模自动化评估人类感知质量的框架。我们的分析绘制了一幅高分辨率的当前技术前沿图,揭示出通用模型往往优于领域专用模型。我们在https://artifactsbenchmark.github.io/开源了ArtifactsBench,包括基准、评估工具及基线结果,为社区提供了一个可扩展且精确的工具,以加速以用户为中心的生成模型的发展。
多模态嵌入模型在实现语义相似性、信息检索和跨模态聚类等下游任务中发挥着关键作用。然而,现有的多模态嵌入模型如VLM2Vec、E5-V、GME主要聚焦于自然图像,对其他视觉形式如视频和视觉文档的支持有限。这限制了它们在现实场景中的应用,包括AI代理、多模态搜索与推荐以及检索增强生成(RAG)。为填补这一空白,我们提出了VLM2Vec-V2,一个统一的学习跨多样视觉形式嵌入的框架。首先,我们引入了MMEB-V2,这是一个扩展了MMEB的综合性基准,新增了五种任务类型:视觉文档检索、视频检索、时间定位、视频分类和视频问答——涵盖文本、图像、视频和视觉文档输入。接着,我们训练了VLM2Vec-V2,一个支持文本、图像、视频和视觉文档输入的通用嵌入模型。大量实验表明,VLM2Vec-V2不仅在新增的视频和文档检索任务上表现出色,还在原有图像基准上超越了先前的基线模型。通过广泛评估,我们的研究揭示了多种多模态嵌入模型的泛化能力,并强调了统一嵌入学习的有效策略,为研究和实际应用中更可扩展、适应性更强的表示学习奠定了基础。
我们推出PresentAgent,一款多模态智能体,能够将长篇文档转化为带旁白的演示视频。现有方法仅限于生成静态幻灯片或文本摘要,而我们的方法突破了这些限制,生成完全同步的视觉与语音内容,高度模拟人类风格的演示。为实现这一整合,PresentAgent采用模块化流程,系统性地分割输入文档,规划并渲染幻灯片式视觉框架,利用大语言模型和文本转语音模型生成上下文相关的语音叙述,并精确对齐音视频,无缝合成最终视频。鉴于评估此类多模态输出的复杂性,我们引入PresentEval,一个基于视觉-语言模型的统一评估框架,通过提示驱动评估,全面评分视频在三个关键维度上的表现:内容忠实度、视觉清晰度和观众理解度。在精选的30对文档-演示数据集上的实验验证表明,PresentAgent在所有评估指标上均接近人类水平。这些结果凸显了可控多模态智能体在将静态文本材料转化为动态、高效且易于访问的演示格式方面的巨大潜力。代码将在https://github.com/AIGeeksGroup/PresentAgent 提供。
近期基于扩散模型的图像编辑技术在文本引导任务上取得了显著进展,但在处理复杂、间接指令时往往表现欠佳。此外,现有模型常面临身份特征保持不佳、非预期修改频发或过度依赖手动遮罩等问题。为解决这些挑战,我们提出了X-Planner,一种基于多模态大语言模型(MLLM)的规划系统,它能有效桥接用户意图与编辑模型能力。X-Planner采用思维链推理方法,系统地将复杂指令分解为更简单、明确的子指令。针对每个子指令,X-Planner自动生成精确的编辑类型和分割遮罩,无需人工干预,确保局部化且保持身份特征的编辑效果。同时,我们提出了一种新颖的自动化数据生成流程,用于训练X-Planner,该流程在现有基准测试及我们新引入的复杂编辑基准上均达到了最先进的性能。
本文介绍了VLAI,一种基于Transformer的模型,能够直接从文本描述中预测软件漏洞的严重程度等级。VLAI以RoBERTa为基础,通过对超过60万个真实世界漏洞进行微调,在预测严重性类别时准确率超过82%,从而在人工CVSS评分前实现更快、更一致的漏洞分类。该模型及数据集已开源,并集成至Vulnerability-Lookup服务中。
大型语言模型(LLMs)在多种任务中展现了卓越的能力,但其预测未来事件的功能仍待深入探究。一年前,大型语言模型在准确性上还难以匹及人类群体的预测水平。我基于Metaculus平台上的464个预测问题,对当前最先进的LLMs进行了评估,并将其表现与人类超级预测者进行了对比。前沿模型虽在Brier分数上看似超越了普通人群,但与超级预测者群体相比,仍存在显著差距。
随着人工智能系统从单一模型向专业化智能体生态系统演进,标准化通信协议的需求变得日益迫切。本文提出MOD-X(模块化开放去中心化交换),一种创新的智能体互操作性架构框架,旨在解决现有协议的关键局限。与当前方法不同,MOD-X采用分层架构,包含通用消息总线、全面的状态管理、翻译能力及基于区块链的安全机制。我们详细阐述了MOD-X的架构,将其与现有协议进行对比,并通过实例演示了如何实现异构专业智能体(即具有不同架构、供应商、能力及知识表示形式的智能体,包括基于规则的系统、神经网络、符号推理引擎及带有智能体封装的传统软件)间的集成。MOD-X的核心创新包括发布-订阅通信模型、语义能力发现及动态工作流编排,提供了一个将理论形式化与工程实践相融合的框架。该架构响应了构建真正去中心化、可互操作且无需中央协调即可有效扩展的智能体生态系统的迫切需求。
大型语言模型(LLMs)正越来越多地被赋予调用企业API的任务,然而当近乎重复的工具争夺同一用户意图或所需参数未明确指定时,它们往往表现不佳。我们推出了DiaFORGE(对话框架用于有机响应生成与评估),这是一个以消歧为核心的三阶段流程,它(i)合成基于角色的多轮对话,其中助手必须区分高度相似的工具,(ii)对开源模型进行监督微调,涵盖3B至70B参数范围内的推理轨迹,以及(iii)通过动态套件评估实际准备情况,该套件将每个模型重新部署在实时代理循环中,并报告端到端目标完成情况以及传统的静态指标。在我们的动态基准测试DiaBENCH上,采用DiaFORGE训练的模型在工具调用成功率上比GPT-4o提高了27个百分点,比Claude-3.5-Sonnet提高了49个百分点,两者均在优化提示下进行。为了推动进一步研究,我们发布了一个包含5000个生产级企业API规范的开放语料库,并配以经过严格验证、聚焦消歧的对话,为构建可靠、企业就绪的工具调用代理提供了实用蓝图。
推测性解码通常要求配备一个小型高效的草稿模型,该模型需预先训练或针对特定目标模型系列(如Llama或Qwen模型)进行离线蒸馏。然而,在在线部署环境中,面临两大挑战:1)使用与草稿模型不兼容的目标模型;2)期望在使用过程中及随时间推移能实现延迟的改善。本研究中,我们提出了OmniDraft,一个统一框架,使单一草稿模型能够与任何目标模型协同工作,并动态适应用户数据。我们引入了在线n-gram缓存结合混合蒸馏微调,以解决草稿模型与目标模型间的跨词汇表不匹配问题;并通过自适应草稿技术进一步提升了解码速度。OmniDraft特别适用于设备端大语言模型应用,其中模型成本、效率及用户定制化是主要争议点。这进一步凸显了解决上述挑战的必要性,并推动了“一稿通吃”范式的提出。我们通过在数学推理、编码及文本生成任务上实施在线学习,展示了OmniDraft框架的卓越能力。值得注意的是,OmniDraft使得单个Llama-68M模型能够与包括Vicuna-7B、Qwen2-7B及Llama3-8B在内的多种目标模型配对进行推测性解码,并额外提供了高达1.5至2倍的加速效果。