每日精选AI研究论文及翻译
视频生成技术已取得显著进展,有望成为互动世界探索的基石。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限:地点有限、时长较短、场景静态,且缺乏关于探索和世界的标注。本文中,我们介绍了Sekai(日语中意为“世界”),一个高质量的第一人称视角全球视频数据集,包含丰富的世界探索标注。该数据集由来自750个城市、超过100个国家和地区的步行或无人机视角(FPV和UVA)视频组成,总时长超过5,000小时。我们开发了一个高效且实用的工具箱,用于收集、预处理并标注视频,包括位置、场景、天气、人群密度、字幕以及相机轨迹。实验验证了数据集的质量。此外,我们利用一个子集训练了一个互动视频世界探索模型,命名为YUME(日语中意为“梦”)。我们相信,Sekai将惠及视频生成和世界探索领域,并激发有价值的应用。
近期,视觉-语言模型(VLMs)的进展通过利用大型语言模型(LLMs),实现了与GPT-4V等闭源系统相当的性能。然而,由于这些模型对计算资源的高需求,在现实场景中,尤其是在资源受限的设备上部署它们仍面临挑战。这激发了对从大型VLMs中提炼知识到更小、更高效模型中的兴趣。此处的一个关键挑战源于VLM架构的多样性,这些架构基于不同的LLMs构建,并采用各异的token类型——在词汇量、token分割及token索引顺序上存在差异。为了应对这一局限于特定VLM类型的挑战,我们提出了“重新校准后生成”(GenRecal),一个新颖的、通用的VLM蒸馏框架。GenRecal引入了一个重新校准器,用于对齐并适应异构VLMs间的特征表示,从而实现在不同类型VLMs间的有效知识迁移。通过在多个具有挑战性的基准测试上的广泛实验,我们证明了GenRecal显著提升了基线性能,最终超越了大规模的开源及闭源VLMs。
在去中心化且计算能力较弱的节点(如多个现场实例)上训练大型语言模型(LLMs),不仅降低了训练成本,还促进了模型的民主化。然而,这一过程中不可避免的挑战在于,由于节点故障及操作者的调度策略,可能导致某一阶段——即模型的一部分——丢失。传统的故障恢复方法包括使用检查点技术,即定期将整个模型的副本发送至额外存储,或采用冗余计算。这些方法即便在无故障情况下也会产生显著的通信和/或计算开销,且在处理大规模模型时扩展性较差。本文提出了一种高效的恢复方法——CheckFree,它通过用最近邻阶段的加权平均值替代故障阶段来应对这一问题。与现有技术相比,CheckFree无需额外的计算或存储资源。然而,由于采用邻域平均的特性,它仅能恢复中间阶段的故障。我们进一步将方法扩展至CheckFree+,通过乱序流水线执行来容忍首尾阶段的崩溃。得益于乱序流水线,这些阶段的行为由邻近阶段模拟,使得CheckFree+能够通过简单复制邻近阶段的权重来恢复它们。为了能够恢复(解)嵌入层,CheckFree+将这些层复制到邻近阶段,这仅需相对较小的存储开销。我们在模型规模从124M到1.5B的LLaMa模型上,针对不同的故障频率,对方法进行了广泛评估。在低至中等故障率(5-10%)的情况下,CheckFree和CheckFree+在墙钟时间收敛性上均优于检查点技术和冗余计算,提升幅度超过12%。我们的两项提议均可通过以下代码运行:https://github.com/gensyn-ai/CheckFree。
近期,采用长链思维推理(Long CoT)训练的大型推理模型(LRMs)展现了卓越的跨领域泛化能力。然而,支撑这种迁移的内在机制仍不甚明了。我们假设,跨领域泛化源于共享的抽象推理原型——这些基本推理模式捕捉了跨领域问题的本质。这些原型最小化了表示的细微差别,揭示了看似多样的任务实则植根于共享的推理结构。基于这一假设,我们提出了ProtoReasoning框架,通过利用可扩展且可验证的原型表示(如Prolog用于逻辑推理,PDDL用于规划),增强大语言模型(LLMs)的推理能力。ProtoReasoning具备以下特点:(1) 自动化原型构建流程,将问题转化为相应的原型表示;(2) 全面的验证系统,通过Prolog/PDDL解释器提供可靠反馈;(3) 在原型空间内任意合成问题并确保正确性的可扩展性。大量实验表明,ProtoReasoning在逻辑推理(Enigmata-Eval)上较基线模型提升4.7%,在规划任务上提升6.3%,在一般推理(MMLU)上提升4.0%,在数学(AIME24)上提升1.0%。尤为重要的是,我们的消融研究证实,与仅在自然语言表示上训练相比,在原型空间学习还能显著提升对结构相似问题的泛化能力,验证了我们的假设:推理原型是大型语言模型中可泛化推理的基础。
当今的AI代理大多处于孤立状态——它们要么检索并推理从在线获取的大量数字信息和知识;要么通过具身感知、规划与行动与物理世界互动——但很少同时兼顾两者。这种分离限制了它们解决需要整合物理与数字智能的任务的能力,例如根据在线食谱烹饪、利用动态地图数据导航,或借助网络知识解读现实世界的地标。我们提出了“具身网络代理”这一新范式,旨在流畅地连接具身与网络规模推理。为实现这一理念,我们首先开发了具身网络代理任务环境,这是一个统一的仿真平台,将逼真的3D室内外环境与功能性网络界面紧密结合。基于此平台,我们构建并发布了具身网络代理基准测试,涵盖烹饪、导航、购物、旅游及地理位置定位等一系列多样化任务——所有这些任务均需跨越物理与数字领域的协调推理,以系统评估跨域智能。实验结果显示,当前最先进的AI系统与人类能力之间存在显著差距,这既揭示了挑战,也为具身认知与网络规模知识访问的交叉领域带来了机遇。所有数据集、代码及网站均在我们的项目页面https://embodied-web-agent.github.io/上公开提供。
我们提出了一种双说话人自动语音识别(ASR)系统,该系统结合了DiCoW——一种基于Whisper的说话人日志条件变体——与DiariZen,一种构建在Pyannote之上的说话人日志处理流程。首先,我们在无需微调的情况下,评估了这两种系统在跨领域(OOD)多语言场景中的表现。在此场景下,DiariZen持续超越基线Pyannote说话人日志模型,展现了强大的泛化能力。尽管DiCoW仅针对目标说话人ASR在英语数据上进行了微调,它仍保持了稳健的多语言性能,表明编码器修改保留了Whisper的多语言能力。随后,我们在MLC-SLM挑战赛数据上对DiCoW和DiariZen进行了微调。微调后的DiariZen继续优于微调的Pyannote基线,而DiCoW则通过领域适应获得了进一步的提升。我们的最终系统在MLC-SLM挑战赛任务2中实现了16.75%的微平均tcpWER/CER,并位列第二。最后,我们识别出训练数据中的若干标注不一致问题——如缺失的语音片段和错误的静音标注——这些问题可能阻碍说话人日志的微调。我们提出了简单的缓解策略以解决这些问题,并提升系统的鲁棒性。
我们推出了SciVer,这是首个专门用于评估基础模型在多模态科学背景下验证声明能力的基准测试。SciVer包含3,000个专家标注的示例,覆盖1,113篇科学论文,分为四个子集,每个子集代表多模态科学声明验证中常见的一种推理类型。为支持细粒度评估,每个示例均附有专家标注的支持证据。我们评估了21种最先进的多模态基础模型的表现,包括o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision和Qwen2.5-VL。实验结果显示,这些模型在SciVer上的表现与人类专家之间存在显著差距。通过深入分析检索增强生成(RAG)以及人工进行的错误评估,我们识别出当前开源模型的关键局限,为提升模型在多模态科学文献任务中的理解与推理能力提供了重要洞见。
评估开放式长文本生成具有挑战性,因为难以明确界定优质与劣质输出之间的界限。现有方法往往忽略了连贯性、风格或相关性等关键方面,或受到预训练数据的偏见影响,使得开放式长文本评估成为一个尚未充分探索的问题。为填补这一空白,我们提出了PrefBERT,一个用于评估GRPO中开放式长文本生成的评分模型,并通过为优质与劣质输出设定不同的奖励来指导其训练。基于两个包含多样化长文本风格及Likert评分质量标准的响应评估数据集进行训练,PrefBERT有效支持了GRPO,相较于传统指标ROUGE-L和BERTScore,提供了更优的语义奖励反馈。通过包括LLM作为评判者、人工评分及定性分析在内的全面评估,我们展示了PrefBERT在训练于多句子及段落长度响应后,仍能在各种长篇文本中保持可靠性,并与GRPO所需的可验证奖励良好对齐。人工评估证实,使用PrefBERT作为奖励信号训练策略模型,相较于采用传统指标训练,生成的响应更符合人类偏好。我们的代码已发布于https://github.com/zli12321/long_form_rl。
大型语言模型的快速发展推动了智能体系统在决策、协调和任务执行方面的进步。然而,现有的智能体系统生成框架缺乏完全自主性,缺失从零开始的智能体生成、自我优化的智能体功能以及协作能力,限制了系统的适应性和可扩展性。我们提出了SwarmAgentic,一个用于全自动化智能体系统生成的框架,该框架从零构建智能体系统,并通过语言驱动的探索联合优化智能体功能和协作作为相互依赖的组件。为了实现对系统级结构的高效搜索,SwarmAgentic维护一组候选系统,并通过反馈引导的更新进行演化,灵感来源于粒子群优化(PSO)。我们在六项涉及高级规划、系统级协调和创造性推理的真实世界、开放性和探索性任务上评估了我们的方法。仅给定任务描述和目标函数,SwarmAgentic在所有基准测试中均表现优异,在TravelPlanner基准上相对于ADAS实现了+261.8%的相对提升,凸显了全自动化在结构无约束任务中的有效性。该框架标志着向可扩展和自主智能体系统设计迈出了重要一步,将群体智能与全自动化系统多智能体生成相结合。我们的代码已公开发布于https://yaoz720.github.io/SwarmAgentic/。
近期,测试时扩展的大型语言模型(LLMs)通过生成长链思维(CoT),在科学和专业任务中展现了卓越的推理能力。作为开发这些推理模型的关键组成部分,强化学习(RL),以近端策略优化(PPO)及其变体为代表,使模型能够通过试错进行学习。然而,PPO因其固有的在线策略性质,可能耗时较长,而随着响应长度的增加,这一问题进一步加剧。在本研究中,我们提出了截断近端策略优化(T-PPO),这是对PPO的一种新颖扩展,通过简化策略更新和长度受限的响应生成,提高了训练效率。T-PPO缓解了硬件利用率低的问题,这是完全同步的长生成过程固有的缺点,其中资源在等待完整回滚期间常常处于闲置状态。我们的贡献体现在两个方面。首先,我们提出了扩展广义优势估计(EGAE),用于从不完整响应中推导优势估计,同时保持策略学习的完整性。其次,我们设计了一种计算优化的机制,允许策略模型和价值模型独立优化。通过选择性过滤提示词和截断词,该机制减少了冗余计算,在不牺牲收敛性能的情况下加速了训练过程。我们在AIME 2024上使用32B基础模型验证了T-PPO的有效性和效率。实验结果表明,T-PPO将推理LLMs的训练效率提高了最多2.5倍,并超越了现有竞争对手。
大规模多模态专家混合模型(MoEs)通过有效扩展模型规模来提升性能,同时保持固定的激活参数。然而,先前的研究主要在稀疏升级过程中使用全精度专家。尽管这些方法在最终任务上表现出优越性能,但大量专家引入了更高的内存占用,这对边缘设备的部署构成了重大挑战。在本研究中,我们提出了MoTE,一种可扩展且内存高效的方法,用于从密集检查点训练三元专家混合模型。我们建议在升级过程中训练更多低精度专家,而非训练较少的高精度专家。具体而言,我们使用预训练的前馈网络(FFN)作为共享专家,并训练参数为{-1, 0, 1}的三元路由专家。大量实验表明,我们的方法在模型规模上展现出良好的扩展趋势。MoTE在保持较低内存占用的同时,实现了与全精度基线MoE-LLaVA相当的性能。此外,我们的方法与训练后量化方法兼容,当内存限制进一步降低时,其优势更加显著。在专家内存占用均为3.4GB的情况下,结合训练后量化,MoTE在最终任务上的平均准确率比MoE-LLaVA高出4.3%,证明了其在内存受限设备上的有效性和潜力。
数十年来,自动创建用于沉浸式VR体验的3D场景一直是研究的重要焦点。然而,现有方法通常依赖于高多边形网格建模及后续简化或大规模3D高斯分布,导致流程复杂或视觉真实感受限。本文中,我们证明,实现引人入胜的沉浸体验无需如此繁复的建模。我们提出了ImmerseGen,一种新颖的代理引导框架,用于紧凑且逼真的世界建模。ImmerseGen将场景表示为轻量级几何代理(即简化地形和广告牌网格)的层次化组合,并通过在这些代理上合成RGBA纹理来生成逼真的外观。具体而言,我们提出了地形条件纹理化用于以用户为中心的基础世界合成,以及RGBA资产纹理化用于中景和前景场景。这一重构带来了多项优势:(i) 通过让代理引导生成模型生产与场景无缝融合的连贯纹理,简化了建模过程;(ii) 直接在代理上合成逼真纹理,绕过了复杂的几何创建与简化,保持了视觉质量不下降;(iii) 实现了适合移动VR头显实时渲染的紧凑表示。为了从文本提示自动化场景创建,我们引入了基于视觉语言模型(VLM)的建模代理,结合语义网格分析增强空间推理与资产定位的准确性。ImmerseGen还通过动态效果和环境音效丰富场景,支持多感官沉浸。场景生成与实时VR展示的实验表明,ImmerseGen在逼真度、空间一致性和渲染效率上均优于现有方法。项目网页:https://immersegen.github.io。
在数据稀缺的领域中,构建图像分类模型仍然是一项繁琐的任务,因为收集大量标注数据往往不切实际。上下文学习(ICL)作为一种新兴的范式,为少样本图像分类(FSIC)提供了新的可能性,使模型能够在无需基于梯度的适应情况下跨领域泛化。然而,先前的研究在很大程度上忽视了基于ICL的FSIC流程中的一个关键组成部分:图像嵌入的作用。在本研究中,我们提出了PictSure,一个将嵌入模型——其架构、预训练及训练动态——置于分析核心的ICL框架。我们系统地探讨了不同类型的视觉编码器、预训练目标及微调策略对下游FSIC性能的影响。实验结果表明,训练的成功与否以及跨域性能高度依赖于嵌入模型的预训练方式。因此,PictSure在显著不同于训练分布的跨域基准测试中超越了现有的基于ICL的FSIC模型,同时在域内任务上保持了可比较的结果。代码可在https://github.com/PictSure/pictsure-library 获取。
多模态大语言模型(MLLMs)在多模态推理和跨模态检索等任务中表现出色,但在实际应用场景中,由于分布式多模态数据和严格的隐私要求,其部署面临挑战。联邦学习(FL)提供了一种解决方案,它允许在不集中数据的情况下进行协作模型训练。然而,为MLLMs实现FL带来了显著挑战,包括高计算需求、有限的客户端能力、巨大的通信成本以及异构的客户端数据。现有的FL方法假设在客户端部署完整模型,这一假设对于大规模MLLMs来说不成立,因为它们的庞大规模和通信需求。为了解决这些限制,我们提出了FedNano,这是首个将LLM集中在服务器上,同时引入NanoEdge的FL框架,NanoEdge是一个用于客户端特定适应的轻量级模块。NanoEdge采用特定模态的编码器、连接器以及可训练的低秩适应NanoAdapters。这一设计消除了在客户端部署LLM的需求,将客户端存储减少了95%,并将通信开销限制在模型参数的仅0.01%。通过仅传输紧凑的NanoAdapter更新,FedNano能够处理异构的客户端数据和资源限制,同时保护隐私。实验表明,FedNano超越了先前的FL基线,弥合了MLLM规模与FL可行性之间的差距,并实现了可扩展的、去中心化的多模态AI系统。
近期,基于大型语言模型构建的大型视觉-语言模型取得了显著进展,将视觉特征与LLM表示对齐已成为主流范式。然而,继承自LLM的架构设计在多模态处理中引入了次优特性。首先,LVLM在注意力分配上呈现双峰分布,导致随着上下文扩展,中间视觉内容逐渐被忽视。其次,传统的定位编码方案在处理动态高分辨率图像时,无法有效保留关键的二维结构关系。为解决这些局限,我们提出了CoMemo——一种双路径架构,结合了上下文图像路径与图像记忆路径进行视觉处理,有效缓解了视觉信息被忽视的问题。此外,我们引入了RoPE-DHR,一种新颖的定位编码机制,通过基于缩略图的定位聚合,在保持二维空间感知的同时,减轻了长序列中的远程衰减效应。在包括长上下文理解、多图像推理及视觉问答在内的七项基准测试中,CoMemo相较于传统LVLM架构展现出了卓越的性能。项目页面详见https://lalbj.github.io/projects/CoMemo/。
计算机使用代理是基于大语言模型(LLM)的智能体,能够通过处理屏幕截图或无障碍树直接与图形用户界面交互。尽管这类系统日益普及,但其安全性却大多被忽视,而评估和理解其潜在有害行为对于广泛采用至关重要。为填补这一空白,我们推出了OS-Harm,一个用于衡量计算机使用代理安全性的新基准。OS-Harm构建于OSWorld环境之上,旨在测试模型在三大类危害中的表现:用户故意滥用、提示注入攻击及模型不当行为。为覆盖这些情况,我们设计了150项任务,涵盖多种安全违规行为(骚扰、版权侵犯、虚假信息、数据泄露等),并要求代理与多种操作系统应用(电子邮件客户端、代码编辑器、浏览器等)进行交互。此外,我们提出了一种自动化评判机制,用于评估代理的准确性和安全性,该机制与人工标注达成了高度一致(F1分数分别为0.76和0.79)。我们基于一系列前沿模型(如o4-mini、Claude 3.7 Sonnet、Gemini 2.5 Pro)对计算机使用代理进行了评估,并深入剖析了它们的安全性。特别地,所有模型在面对许多故意滥用查询时往往直接遵从,相对容易受到静态提示注入攻击,并偶尔执行不安全操作。OS-Harm基准测试现已发布于https://github.com/tml-epfl/os-harm。
近期基准测试深入探讨了大语言模型(LLMs)在事实一致性与修辞稳健性方面的表现。然而,关于事实性陈述的方向性框架如何影响模型认同度,这一LLM用户常见场景,仍存在知识空白。AssertBench通过从事实验证数据集FEVEROUS中抽样证据支持的事实来填补这一空白。对于每一条(有证据支持的)事实,我们构建了两个框架提示:一个提示中用户声称该陈述在事实上是正确的,另一个则声称其不正确。随后,我们记录模型的认同度及其推理过程。理想的结果是,模型能够坚持己见,在两种框架下保持对事实的一致性评估,而非随用户观点改变其判断。AssertBench通过将结果分层,基于模型在相同主张以中立方式呈现时的准确性,从而将框架引发的变异性与模型底层的事实知识区分开来。通过这种方式,该基准测试旨在衡量LLM在面对用户对同一事实提出矛盾断言时,能否“坚持己见”。完整源代码可在https://github.com/achowd32/assert-bench获取。
在现实世界中追踪全身运动的能力,是构建通用人形机器人的有效途径。然而,实现这一目标颇具挑战,原因在于运动的时空与运动学多样性、策略的适应能力,以及上下肢协调的复杂性。为解决这些问题,我们提出了GMT(通用运动追踪框架),该框架通过训练单一统一策略,使人形机器人能够在现实世界中追踪多样化的运动。GMT的核心由两大组件构成:自适应采样策略与运动专家混合(MoE)架构。自适应采样在训练过程中自动平衡简单与复杂运动,而MoE则确保了对运动流形不同区域更精细的专门化处理。通过大量仿真与真实世界的实验,我们验证了GMT的有效性,其采用统一通用策略,在广泛运动范围内达到了业界领先的性能。更多视频及详细信息,请访问https://gmt-humanoid.github.io。
基于扩散的图像生成模型在生成高质量合成内容方面表现出色,但其推理过程缓慢且计算成本高昂。先前的研究尝试通过在扩散变换器内部跨推理步骤缓存和重用特征来缓解这一问题。然而,这些方法通常依赖于僵化的启发式规则,导致加速效果有限或在不同架构间泛化能力差。我们提出了进化缓存加速扩散模型(ECAD),这是一种遗传算法,仅需少量校准提示即可学习形成帕累托前沿的高效、针对特定模型的缓存调度方案。ECAD无需修改网络参数或参考图像,即可显著提升推理速度,实现对质量与延迟权衡的精细控制,并能无缝适应不同的扩散模型。值得注意的是,ECAD学习到的调度方案能够有效泛化至校准过程中未见的分辨率和模型变体。我们在PixArt-alpha、PixArt-Sigma和FLUX-1.dev上使用多种指标(FID、CLIP、图像奖励)在多样化基准(COCO、MJHQ-30k、PartiPrompts)上评估了ECAD,结果显示其相较于以往方法取得了持续改进。在PixArt-alpha上,ECAD找到的调度方案在COCO FID上比之前的最优方法提升了4.47,同时将推理加速比从2.35倍提高至2.58倍。我们的成果确立了ECAD作为一种可扩展且泛化性强的扩散推理加速方法。项目网站位于https://aniaggarwal.github.io/ecad,代码开源在https://github.com/aniaggarwal/ecad。