每日精选AI研究论文及翻译
视觉-语言-动作(VLA)模型近期展现出强大潜力,使机器人能够遵循语言指令并执行精确动作。然而,大多数VLA模型基于仅预训练于二维数据的视觉-语言模型构建,缺乏准确的空间感知能力,限制了其在三维物理世界中的操作性能。现有解决方案尝试引入如深度图或点云等显式三维传感器输入,但这些方法因传感器噪声、硬件异构性及现有数据集深度覆盖不全而面临挑战。另一些从二维图像估计三维线索的方法也受限于深度估计器的性能瓶颈。我们提出空间强制对齐(SF),一种简单而有效的对齐策略,无需依赖显式三维输入或深度估计器,即可隐式促使VLA模型发展空间理解能力。SF通过将VLA的中间视觉嵌入与预训练的三维基础模型生成的几何表示对齐,在中间层实施对齐,引导VLA编码更丰富的空间表示,从而提升动作精度。在仿真和真实环境中的大量实验表明,SF实现了最先进的成果,超越了基于二维和三维的VLA模型。此外,SF将训练速度最高提升至3.8倍,并在多样化的机器人任务中提高了数据效率。项目页面位于https://spatial-forcing.github.io/。
像素空间生成模型通常训练难度较大,且普遍表现逊色于其潜在空间对应模型,导致存在持续的性能与效率差距。本文提出了一种新颖的两阶段训练框架,旨在为像素空间扩散模型和一致性模型弥合这一差距。在第一阶段,我们预训练编码器以从干净图像中捕捉有意义的语义,同时将这些语义与沿同一确定性采样轨迹的点对齐,该轨迹将点从先验分布演化至数据分布。第二阶段,我们将编码器与随机初始化解码器整合,并对完整模型进行端到端的微调,适用于扩散模型和一致性模型。我们的训练框架在ImageNet数据集上展现了强大的实证性能。具体而言,我们的扩散模型在ImageNet-256和ImageNet-512上分别以75次函数评估(NFE)达到了2.04和2.35的FID分数,在生成质量和效率上均大幅超越先前的像素空间方法,同时在与可比的训练成本下,与领先的基于VAE的模型相媲美。此外,在ImageNet-256上,我们的一致性模型在单次采样步骤中实现了8.82的FID,显著超越了其潜在空间对应模型。据我们所知,这标志着首次成功直接在高分辨率图像上训练一致性模型,而无需依赖预训练的VAE或扩散模型。
大型语言模型(LLMs)在机器翻译(MT)领域取得了显著进展,但其在网络小说翻译中的效果尚不明确。现有基准依赖于表层指标,未能捕捉到这一文类的独特特征。为填补这些空白,我们引入了DITING,首个针对网络小说翻译的全面评估框架,从六个维度评估叙事与文化忠实度:习语翻译、词汇歧义、术语本地化、时态一致性、零代词解析及文化安全性,并辅以超过18,000句中英对照的专家标注语料。我们进一步提出AgentEval,一个基于推理的多智能体评估框架,通过模拟专家审议来超越词汇重叠评估翻译质量,在七种测试的自动指标中与人类判断的相关性最高。为促进指标比较,我们开发了MetricAlign,一个包含300句对、标注有错误标签和标量质量分数的元评估数据集。对十四种开源、闭源及商业模型的全面评估显示,中文训练的LLMs超越规模更大的国外模型,而DeepSeek-V3提供了最为忠实且风格连贯的翻译。我们的工作为探索基于LLM的网络小说翻译建立了新范式,并提供了推动未来研究的公共资源。
近期,利用对比学习(CL)微调的多模态大语言模型(MLLMs)所开发的多模态嵌入方法已展现出显著成果,然而其优越性的深层原因仍待深入探究。本研究提出,基于MLLM方法的一个关键优势源于生成式预训练过程中实现的隐式跨模态对齐,在此过程中,语言解码器学会了在共享表示空间内利用多模态信号来生成单模态输出。通过对各向异性和核相似性结构的分析,我们实证确认了MLLM表示中存在的潜在对齐现象,使得对比学习能够作为一个轻量级的优化阶段发挥作用。基于这一洞见,我们提出了一个以语言为中心的全模态嵌入框架,简称LCO-Emb。在多种骨干网络和基准测试上的广泛实验验证了其有效性,实现了跨模态的顶尖性能。此外,我们发现了生成-表示缩放定律(GRSL),表明通过对比优化获得的表示能力与MLLM的生成能力呈正相关增长。这表明,提升生成能力成为增强表示质量的有效范式。我们为GRSL提供了理论解释,正式将MLLM的生成质量与其表示性能的上限联系起来,并在一个具有挑战性的低资源视觉-文档检索任务上进行了验证,结果显示在对比学习之前持续进行生成式预训练能进一步提升模型嵌入能力的潜力。代码、模型及相关资源已发布于https://github.com/LCO-Embedding/LCO-Embedding。
机器人学习正处于一个转折点,这一转变由机器学习的快速进步和大规模机器人数据的日益普及所推动。从传统的基于模型的方法转向数据驱动、基于学习的新范式,正在为自主系统解锁前所未有的能力。本教程将引领读者探索现代机器人学习的全景,从强化学习和行为克隆的基础原理出发,直至能够跨多种任务甚至不同机器人实体操作的通才型、语言条件模型。本文旨在为研究人员和从业者提供指南,我们的目标是使读者掌握必要的概念理解和实用工具,以便为机器人学习的发展做出贡献,并通过lerobot中实现的即用型示例加以实践。
大型语言模型(LLMs)的进步推动了从代码生成辅助到自主编码代理的范式转变,催生了一种称为“氛围编码”(Vibe Coding)的新型开发方法论,其中开发者通过观察结果而非逐行代码理解来验证AI生成的实现。尽管这一新兴范式具有变革潜力,但其有效性仍待深入探索,实证研究揭示了人机协作中意外的生产力损失和根本性挑战。为填补这一空白,本综述首次对基于大型语言模型的氛围编码进行了全面系统的回顾,为这一变革性开发方法奠定了理论基础和实践框架。通过对1000多篇研究论文的系统分析,我们考察了整个氛围编码生态系统,审视了包括编码用LLMs、基于LLM的编码代理、编码代理的开发环境以及反馈机制在内的关键基础设施组件。我们首先通过约束马尔可夫决策过程将氛围编码形式化为一门正式学科,捕捉了人类开发者、软件项目与编码代理之间的动态三元关系。基于这一理论基础,我们进一步将现有实践综合为五种不同的开发模型:无约束自动化、迭代对话协作、规划驱动、测试驱动和上下文增强模型,从而提供了该领域的首个全面分类体系。关键的是,我们的分析表明,成功的氛围编码不仅依赖于代理能力,更取决于系统的上下文工程、完善的开发环境以及人机协作的开发模型。
长期以来,目标检测领域一直由传统的基于坐标回归的模型主导,如YOLO、DETR和Grounding DINO。尽管近期有研究尝试利用多模态大语言模型(MLLMs)来解决这一任务,但它们面临着召回率低、预测重复、坐标错位等挑战。在本研究中,我们填补了这一空白,提出了Rex-Omni,一个拥有30亿参数规模的MLLM,实现了最先进的物体感知性能。在COCO和LVIS等基准测试中,Rex-Omni在零样本设置下达到了与回归模型(如DINO、Grounding DINO)相当甚至超越的表现。这一成就得益于三大关键设计:1)任务定义:我们采用特殊令牌来表示0到999的量化坐标,降低了模型的学习难度,并提高了坐标预测的令牌效率;2)数据引擎:我们构建了多个数据引擎,生成高质量的定位、引用和指向数据,为训练提供了语义丰富的监督;3)训练流程:我们采用两阶段训练过程,结合了在2200万数据上的监督微调与基于GRPO的强化学习后训练。这一强化学习后训练利用几何感知奖励,有效弥合了离散到连续坐标预测的差距,提升了框的准确性,并缓解了初始SFT阶段因教师引导特性导致的预测重复等不良行为。除了传统检测,Rex-Omni固有的语言理解能力使其具备了多样化的功能,如物体引用、指向、视觉提示、GUI定位、空间引用、OCR及关键点定位,这些功能均在专用基准上进行了系统评估。我们相信,Rex-Omni为开发更加通用且语言感知的视觉感知系统铺平了道路。
检索增强生成(RAG)已成为突破大型语言模型静态训练限制的基础范式。然而,当前RAG能力与现实世界信息环境之间存在显著的不匹配。现代知识库本质上是多模态的,包含文本内容、视觉元素、结构化表格和数学表达式的丰富组合。然而,现有的RAG框架仅限于处理文本内容,在处理多模态文档时存在根本性缺陷。我们提出了RAG-Anything,一个统一框架,能够实现跨所有模态的全面知识检索。我们的方法将多模态内容重新概念化为相互关联的知识实体,而非孤立的数据类型。该框架引入了双图构建,以在统一表示中捕捉跨模态关系和文本语义。我们开发了跨模态混合检索,结合了结构化知识导航与语义匹配。这使得在相关证据跨越多个模态的异构内容上进行有效推理成为可能。RAG-Anything在具有挑战性的多模态基准测试中展现了卓越性能,相较于最先进方法取得了显著提升。在传统方法失效的长文档上,性能提升尤为显著。我们的框架为多模态知识访问建立了新范式,消除了当前系统所面临的架构碎片化问题。我们的框架已在以下地址开源:https://github.com/HKUDS/RAG-Anything。
扩散模型近期在视频修复领域取得了显著进展,但将其应用于现实世界的视频超分辨率(VSR)仍面临高延迟、计算成本巨大以及对超高分辨率泛化能力不足等挑战。本研究的目标是通过实现效率、可扩展性和实时性能,使基于扩散的VSR技术走向实用化。为此,我们提出了FlashVSR,这是首个面向实时VSR的基于扩散的一步流式处理框架。FlashVSR在单块A100 GPU上对768x1408视频的处理速度约为17帧/秒,这得益于三项互补的创新:(i) 一种训练友好的三阶段蒸馏管道,支持流式超分辨率处理;(ii) 局部约束的稀疏注意力机制,在减少冗余计算的同时弥合训练与测试分辨率之间的差距;(iii) 一个微型条件解码器,在不牺牲质量的前提下加速重建过程。为了支持大规模训练,我们还构建了VSR-120K,一个包含12万段视频和18万张图像的新数据集。大量实验表明,FlashVSR能够可靠地扩展至超高分辨率,并以高达12倍的速度超越现有的一步扩散VSR模型,达到业界领先的性能。我们将公开代码、预训练模型及数据集,以促进基于扩散的高效VSR技术的未来研究。
扩散模型作为生成模型已取得显著成功。然而,即便是训练有素的模型,在生成过程中也可能累积误差。当施加任意引导以驱使样本朝向特定属性时,这些误差尤为突出,常常损害样本的保真度。本文提出了一种通用解决方案,以应对扩散模型中观察到的离流形现象。我们的方法利用时间预测器来估计每一步与期望数据流形的偏差,发现时间间隔越大,生成质量越低。随后,我们设计了一种新颖的引导机制——“时序对齐引导”(TAG),在生成过程中的每一步将样本吸引回期望的流形。通过大量实验,我们证明TAG能够在每一步持续生成与期望流形紧密对齐的样本,从而在各种下游任务中显著提升生成质量。
大型语言模型(LLMs)在处理每个标记时需遍历整个Transformer堆栈的所有层,这导致在处理简单查询时存在计算浪费,而在需要更深层次推理的复杂查询上又缺乏足够的灵活性。自适应深度方法虽能提升效率,但以往方案依赖于昂贵的推理时搜索、架构改动或大规模重训练,实践中往往在效率提升的同时牺牲了准确性。我们提出了Dr.LLM——LLM层的动态路由框架,这一可即插即用的框架为预训练模型配备了轻量级的逐层路由器,决定跳过、执行或重复某一模块。路由器通过显式监督进行训练:利用蒙特卡洛树搜索(MCTS),我们导出了在计算预算内保持或提升准确性的高质量层配置。我们的设计包括用于稳定路由的窗口池化、类别平衡的焦点损失以及瓶颈MLP路由器,确保了在类别不平衡和长序列情况下的鲁棒性。在ARC(逻辑)和DART(数学)任务上,Dr.LLM将准确性最高提升了+3.4个百分点,同时平均每个示例节省了5层计算。路由器在跨域任务(如MMLU、GSM8k、AIME、TruthfulQA、SQuADv2、GPQA、PIQA、AGIEval)上仅损失0.85%的准确性,同时保持了效率,并比以往路由方法最高提升了+7.7个百分点的准确性。总体而言,Dr.LLM展示了显式监督的路由器能够在不改变基础权重的情况下,为冻结的LLMs实现预算感知、准确性驱动的推理。
近期在具身智能领域的进展凸显了视觉语言模型(VLMs)作为能够在复杂环境中进行感知、推理和交互的智能体的潜力。然而,表现最优的系统依赖于大规模模型,部署成本高昂,而较小的VLMs则缺乏成功所需的知识和技能。为弥合这一差距,我们提出了具身推理智能体(ERA),一个两阶段框架,整合了先验知识学习和在线强化学习(RL)。第一阶段,具身先验学习,从三类数据中提炼基础知识:(1)轨迹增强先验,通过更强模型生成的结构化推理丰富现有轨迹数据;(2)环境锚定先验,提供环境内知识及接地监督;(3)外部知识先验,从环境外数据集中迁移通用知识。第二阶段,我们开发了一个在线RL管道,基于这些先验进一步提升智能体性能。为克服智能体RL中固有的挑战,包括长视野、稀疏奖励和训练不稳定性,我们引入了三项关键设计:用于上下文管理的自我总结、密集奖励塑造和回合级策略优化。在高层规划(EB-ALFRED)和低层控制(EB-Manipulation)任务上的广泛实验表明,ERA-3B超越了基于提示的大型模型和以往基于训练的基线,具体而言,在EB-ALFRED上整体提升8.4%,在EB-Manipulation上提升19.4%,并展现出对未见任务的强大泛化能力。总体而言,ERA为可扩展的具身智能提供了一条实用路径,为未来具身AI系统提供了方法论启示。
大型语言模型(LLMs)可作为世界模型,通过模拟未来状态和预测行动结果来增强智能体在数字环境中的决策能力,从而可能减少昂贵的试错探索。然而,这一能力从根本上受到LLMs倾向于产生幻觉及其依赖静态训练知识的限制,这可能导致误差累积,阻碍长期视野的模拟。为了系统性地探究LLMs是否适合用于世界建模,我们通过三项任务——下一状态识别、全过程规划对齐及里程碑转换识别——来检验世界模型的两项核心能力:未来状态预测与奖励估计。分析表明,尽管LLMs能有效捕捉即时下一状态并识别有意义的状态转换,但在全过程规划中其性能迅速下降,凸显了LLMs在长期环境动态建模上的局限性。针对这些局限,我们提出了检索增强型世界模型(R-WoM),该模型通过整合从外部教程中检索到的事实性、最新知识,为LLM模拟提供基础。实验结果显示,与基线相比,R-WoM在OSWorld和WebArena上分别实现了高达25.3%和18.1%的显著提升,尤其在长期视野模拟中展现出独特优势。
近期,统一多模态模型(UMMs)取得了显著进展,这类模型在单一框架内整合了视觉-语言生成与理解能力。然而,一个显著差距在于,模型强大的视觉理解能力往往无法有效转化为视觉生成能力。模型可能基于用户指令正确理解图像,却无法从文本提示中生成忠实于描述的图像。这一现象直接引发了一个引人深思的问题:模型能否利用其理解模块来奖励生成模块,从而实现自我提升?为弥合这一差距并实现自我改进,我们提出了SRUM,一种可直接应用于现有各类设计UMMs的自奖励后训练框架。SRUM构建了一个反馈循环,其中模型自身的理解模块充当内部“评估者”,为生成模块提供纠正信号,无需额外人工标注数据。为确保反馈的全面性,我们设计了全局-局部双奖励系统。针对图像固有的结构复杂性,该系统提供多尺度指导:全局奖励确保整体视觉语义与布局的正确性,而局部奖励则优化细粒度、对象级别的保真度。SRUM赋予了模型强大的能力,并展现出优异的泛化性能,在T2I-CompBench上的表现从82.18提升至88.37,在T2I-ReasonBench上从43.82提升至46.75。总体而言,我们的工作确立了一种强有力的新范式,使UMMs的理解模块能够通过自奖励机制引导并增强其自身的生成能力。
尽管视觉生成领域近期取得了显著进展,但现有的大多数架构仍依赖于独立的图像和文本编码器。这种分离限制了扩散模型在跨模态推理和知识迁移方面的能力。以往尝试弥合这一差距的方法通常利用视觉语言模型(VLM)的最后一层信息、采用多个视觉编码器,或联合训练大规模统一模型以同时生成文本和图像,这不仅需要大量的计算资源和大规模数据,也限制了其普及性。我们提出了UniFusion,一种基于扩散的生成模型,它以一个冻结的大型视觉语言模型(VLM)作为统一的多模态编码器进行条件生成。UniFusion的核心是层级注意力池化(LAP)机制,该机制从冻结VLM的文本和视觉标记中提取高层次语义和低层次细节,为扩散生成模型提供条件。我们证明,在文本-图像对齐生成以及从VLM到扩散模型的视觉信息忠实迁移(这对编辑至关重要)方面,LAP优于其他浅层融合架构。我们提出了VLM启用的重写注入与灵活推理(VERIFI),它仅在模型内提示重写过程中,基于VLM生成的文本标记对扩散变换器(DiT)进行条件生成。VERIFI结合了条件分布与VLM推理能力的对齐,从而在推理时增强了能力和灵活性。此外,针对编辑任务的微调不仅提升了生成时的文本-图像对齐,表明跨模态知识迁移的存在,还展现了强大的泛化能力。我们的模型在单图像编辑任务上训练后,能够零样本泛化到多图像参考场景,进一步验证了UniFusion统一编码器设计的优越性。
后训练对齐往往降低大语言模型(LLM)的多样性,引发一种称为模式崩溃的现象。与以往研究将此效应归因于算法局限不同,我们揭示了一个根本且普遍存在的数据层面驱动因素:偏好数据中的典型性偏差,即标注者因认知心理学中已确立的发现而系统性地偏好熟悉文本。我们理论化这一偏差,在偏好数据集上实证验证,并展示其在模式崩溃中的核心作用。基于此分析,我们提出了“言语化采样”(Verbalized Sampling, VS),一种简单、无需训练的提示策略,以规避模式崩溃。VS提示模型对一组响应(如“生成5个关于咖啡的笑话及其对应概率”)进行概率分布的言语化表达。全面实验表明,VS在创意写作(诗歌、故事、笑话)、对话模拟、开放式问答及合成数据生成等方面显著提升性能,且不牺牲事实准确性与安全性。例如,在创意写作中,VS较直接提示将多样性提高了1.6至2.1倍。我们还观察到一种新兴趋势,即能力更强的模型从VS中获益更多。总之,我们的工作为模式崩溃提供了一个新的数据中心视角,以及一种实用的推理时补救措施,有助于释放预训练生成模型的多样性潜力。
Transformer语言模型的成功,普遍归功于其点积注意力机制,该机制融合了一系列关键设计原则:跨位置信息混合(实现多标记交互)、序列依赖的激活(注意力权重随输入自适应)、特定的数学形式(点积相似度加softmax加权),以及查询与键与动态隐藏状态的耦合(将注意力锚定在当前层)。然而,这些原则各自的必要性大多未经检验。在本研究中,我们通过设计可控变体,系统地解构了注意力机制,这些变体有选择性地放松了上述原则,既应用于所有层的统一架构,也应用于仅部分层保留标准注意力的混合架构。实证分析表明,标记混合机制不可或缺,其缺失会导致模型性能近乎随机,而精确的数学形式和序列依赖性则可大幅放宽,尤其是在仅部分层中保留时。令人惊讶的是,即便单独使用会失败的变体,在与标准注意力交替使用时也能展现出稳健的性能,突显了一种协同效应。这些发现深化了我们对注意力有效性真正基础的理解,并为在不牺牲性能的前提下简化语言模型开辟了新途径。
大型语言模型在执行长期代理任务时面临挑战,因其有限的内存容易被干扰或无关上下文所淹没。现有的工作记忆方法通常依赖于外部的启发式机制,这些机制与代理的核心策略相分离。在本研究中,我们将工作记忆管理重新定义为一种可学习的内在能力。我们提出了一种新颖的框架——记忆即行动,其中代理通过执行明确的编辑操作作为统一策略的一部分,主动管理其工作记忆。这一表述使得通过强化学习训练的代理能够在给定资源约束下,平衡记忆整理与长期任务目标。然而,此类记忆编辑操作打破了大型语言模型交互中持续增长前缀的标准假设,导致了我们称之为轨迹断裂的现象。这些非前缀变化破坏了标准策略梯度方法所需的因果连续性,使得这些方法不再适用。为解决这一问题,我们提出了一种新算法——动态上下文策略优化,通过在记忆动作点分割轨迹并对生成的动作片段应用轨迹级优势,实现了稳定的端到端强化学习。我们的结果表明,以端到端方式联合优化任务推理与记忆管理,不仅降低了整体计算消耗,还通过适应模型内在能力的自适应上下文整理策略,提升了任务表现。
在将强化学习(RL)应用于扩散大语言模型(dLLMs)时,一个关键挑战在于其似然函数的不可处理性,而这对RL目标至关重要,因此需要在每个训练步骤中进行相应的近似。现有方法通过定制的蒙特卡罗(MC)采样,利用证据下界(ELBO)来近似对数似然,但所有MC样本的前向计算图需保留以计算RL目标中非线性项的梯度,这导致了显著的内存开销。这一限制使得可行的样本规模受限,进而导致似然近似不精确,最终扭曲了RL目标。为克服这一局限,我们提出了边界引导策略优化(BGPO),这是一种内存高效的RL算法,它最大化了一个特别构建的基于ELBO目标的下界。该下界精心设计以满足两个关键特性:(1)线性性:它以线性求和形式表达,其中每一项仅依赖于单个MC样本,从而实现了跨样本的梯度累积,并确保了恒定的内存使用;(2)等价性:在策略训练中,该下界的值和梯度均与基于ELBO的目标相等,使其也成为原始RL目标的有效近似。这些特性使得BGPO能够采用较大的MC样本规模,从而获得更精确的似然近似和更优的RL目标估计,进而提升性能。实验表明,在数学问题求解、代码生成及规划任务中,BGPO显著优于以往的dLLMs RL算法。
在实际应用中,多模态大语言模型(MLLMs)需要接入外部知识源,并保持对动态且不断变化的现实世界信息的响应能力,以应对用户的信息查询和知识密集型需求。现有方法,如检索增强生成(RAG)技术、搜索代理及配备搜索功能的MLLMs,常受限于僵化的流程、过度的搜索调用以及构建不佳的搜索查询,导致效率低下和结果欠佳。为解决这些局限,我们提出了DeepMMSearch-R1,这是首个能够按需执行多轮网络搜索,并动态构建图像与文本搜索查询的多模态大语言模型。具体而言,DeepMMSearch-R1能够基于输入图像的相关裁剪区域启动网络搜索,使图像搜索更为高效,并能根据检索到的信息迭代调整文本搜索查询,从而实现自我反思与修正。我们的方法依赖于两阶段训练流程:先进行冷启动的监督微调,随后进行在线强化学习优化。为训练模型,我们引入了DeepMMSearchVQA,这是一个通过自动化流程结合网络搜索工具中的真实信息创建的新型多模态问答数据集。该数据集包含多样化的多跳查询,融合了文本与视觉信息,教导模型何时搜索、搜索什么、使用哪种搜索工具以及如何对检索到的信息进行推理。我们在一系列知识密集型基准测试中进行了广泛实验,证明了我们方法的优越性。最后,我们分析了实验结果,并提供了对推进多模态网络搜索有价值的洞见。
多模态嵌入模型致力于生成信息丰富的统一表示,以赋能多样化的跨模态任务。尽管从基于CLIP的双塔架构到大规模视觉语言模型的演进中取得了显著进展,先前的研究在实际应用和商业场景中仍面临不可避免的挑战,如模态支持有限、训练机制不稳定以及工业领域差距等问题。在本研究中,我们提出了SAIL-Embedding,一种全模态嵌入基础模型,通过定制化的训练策略和架构设计解决了上述问题。在优化过程中,我们提出了一种多阶段训练方案,以提升表示学习在多方面的有效性。具体而言,内容感知的渐进训练旨在增强模型对多样化下游任务的适应性,并掌握丰富的跨模态能力。协作感知的推荐增强训练则通过从序列到项目及ID到项目的嵌入中提炼知识,同时挖掘用户历史兴趣,进一步调整多模态表示以适应推荐场景。同时,我们开发了随机专业化和数据集驱动的模式匹配,以增强模型训练的灵活性和泛化能力。实验结果表明,SAIL-Embedding在不同检索任务中相比其他方法实现了SOTA性能。在整合我们模型的各种现实场景在线实验中,我们观察到关键推荐体验指标——生命周期(LT)的显著提升。例如,在抖音精选场景中,模型带来了7天LT增益+0.158%和14天LT增益+0.144%。对于抖音信息流排序模型,SAIL-Embedding生成的匹配特征实现了+0.08%的AUC增益。
近期,视觉-语言模型(VLMs)在推理任务中展现出了卓越的性能。然而,构建高效VL推理训练数据集的基本原则仍不甚明了。本研究提出了多种数据整理方法,并通过严格控制训练与评估设置,探讨了这些方法对VL推理能力的影响。我们分析了上下文(图像与问题对)来源的影响,实施了有针对性的数据干预,并探索了图像、问题及思维链(CoT)解决方案的规模化扩展。研究发现:(a) 上下文来源策略显著影响VLM性能,(b) 如图像描述提供的辅助信号及包含纯文本推理等干预措施能带来显著提升,(c) 所有数据维度(如图像对应唯一问题数量及图像-问题对对应唯一CoT数量)的扩展均能持续增强推理能力。基于这些洞见,我们推出了HoneyBee,一个包含250万样本、35万图像-问题对的大规模高质量CoT推理数据集。使用HoneyBee训练的VLMs在不同模型规模下均超越了现有最先进模型。例如,一个拥有30亿参数的HoneyBee训练VLM在MathVerse上的表现分别比SOTA模型和基础模型高出7.8%和24.8%。此外,我们提出了一种测试时扩展策略,在不牺牲准确性的前提下,将解码成本降低了73%。总体而言,本研究为VL推理数据集整理研究提供了改进策略。
多实例图像生成(MIG)对于现代扩散模型而言仍是一项重大挑战,主要源于在实现精确控制对象布局及保持多个独立主体身份一致性方面的关键限制。为解决这些局限,我们提出了ContextGen,一种新颖的扩散Transformer框架,专为多实例生成设计,同时受布局和参考图像引导。我们的方法融合了两项核心技术贡献:一是上下文布局锚定(CLA)机制,它将复合布局图像融入生成上下文中,以稳固地将对象锚定在预定位置;二是身份一致性注意力(ICA),这是一种创新的注意力机制,利用上下文参考图像确保多个实例的身份一致性。鉴于该任务缺乏大规模、层次结构化的数据集,我们引入了IMIG-100K,首个包含详细布局与身份标注的数据集。大量实验证明,ContextGen确立了新的技术标杆,在控制精度、身份保真度及整体视觉质量上均超越了现有方法。
人工智能的发展因缺乏具备所有必要特性的编程语言而受阻。诸如PyTorch和TensorFlow等库虽提供了自动微分和高效的GPU实现,但它们只是Python的附加组件,而Python本身并非为AI设计。这些库在自动推理和知识获取方面的支持不足,导致了一系列冗长且代价高昂的临时性尝试来弥补这些缺陷。另一方面,像LISP和Prolog这样的AI语言则缺乏可扩展性和对学习的支持。本文提出了张量逻辑,这是一种通过从根本上统一神经与符号AI来解决这些问题的语言。张量逻辑的唯一构造是张量方程,其基于逻辑规则与爱因斯坦求和本质上为同一操作的观察,且所有其他内容均可简化为这两者。我展示了如何在张量逻辑中优雅地实现神经、符号及统计AI的关键形式,包括变换器、形式推理、核机器和图模型。最重要的是,张量逻辑开启了新的研究方向,如在嵌入空间中进行可靠推理。这结合了神经网络的可扩展性与学习能力,以及符号推理的可靠性与透明性,有望成为推动AI更广泛采纳的基础。
理解物理场景的动态性涉及对其可能发生变化的多种方式进行推理,尤其是由局部相互作用引发的变化。我们提出了Flow Poke Transformer(FPT),这是一种新颖的框架,用于直接预测局部运动的分布,条件是基于被称为“戳动”的稀疏交互。与通常仅能密集采样单一场景动态实现的传统方法不同,FPT提供了一种可解释且直接访问的多模态场景运动表示,包括其对物理交互的依赖以及场景动态固有的不确定性。我们还通过多个下游任务评估了我们的模型,以便与现有方法进行比较,并突出我们方法的灵活性。在密集面部运动生成任务中,我们的通用预训练模型超越了专门的基线。FPT可以在强分布外任务(如合成数据集)中进行微调,从而在关节物体运动估计方面实现相对于领域内方法的显著改进。此外,直接预测显式运动分布使我们的方法在诸如基于戳动的移动部件分割等任务上取得了具有竞争力的性能,进一步展示了FPT的多功能性。代码和模型已在https://compvis.github.io/flow-poke-transformer公开提供。
基于指令的图像编辑提供了一种强大且直观的方式,通过自然语言来操控图像。然而,仅依赖文本指令限制了编辑程度的精细控制。我们引入了Kontinuous Kontext,这是一个指令驱动的编辑模型,它提供了对编辑强度的新维度控制,使用户能够以平滑连续的方式从无变化逐步调整至完全实现的结果。Kontinuous Kontext扩展了一个先进的图像编辑模型,使其能够接受一个额外的输入——一个标量编辑强度,该强度随后与编辑指令配对,从而实现对编辑程度的显式控制。为了注入这一标量信息,我们训练了一个轻量级的投影网络,将输入标量和编辑指令映射到模型调制空间中的系数。为了训练我们的模型,我们利用现有的生成模型合成了一组多样化的图像-编辑-指令-强度四元组数据集,随后通过过滤阶段确保质量和一致性。Kontinuous Kontext为指令驱动的编辑提供了一种统一的方法,实现了从细微到强烈的编辑强度精细控制,涵盖风格化、属性、材质、背景和形状变化等多种操作,而无需进行特定属性的训练。
我们研究大型语言模型(LLMs)如何通过其表示空间进行“思考”。我们提出了一种新颖的几何框架,将LLM的推理过程建模为流——嵌入轨迹在逻辑行进之处演化。通过采用相同自然演绎命题但搭配不同的语义载体,我们将逻辑结构与语义解耦,从而测试LLM是否在表层形式之外内化了逻辑。这一视角将推理与位置、速度和曲率等几何量联系起来,使得在表示空间和概念空间中的形式化分析成为可能。我们的理论确立了:(1) LLM推理对应于表示空间中的平滑流,(2) 逻辑语句作为这些流速度的局部控制器。利用学习到的表示代理,我们设计了受控实验来可视化和量化推理流,为我们的理论框架提供了实证验证。我们的工作既为研究推理现象提供了概念基础,也提供了实用工具,为LLM行为的可解释性和形式化分析提供了新的视角。
在理想的设计流程中,用户界面(UI)设计与用户研究相互交织,以验证决策的合理性,然而在早期探索阶段,研究往往受限于资源。多模态大语言模型(MLLMs)的最新进展提供了一个有前景的机会,使其能够作为早期评估者,帮助设计师在正式测试前缩小选择范围。与以往强调在电子商务等狭窄领域中用户行为(如点击或转化率)的研究不同,我们关注的是跨多种界面的主观用户评价。我们探讨了MLLMs在评估单个UI及进行界面比较时,能否模拟人类的偏好。通过众包平台的数据,我们对GPT-4o、Claude和Llama在30个界面上的表现进行了基准测试,并考察了它们在多个UI因素上与人类判断的一致性。结果表明,MLLMs在某些维度上近似于人类偏好,但在其他维度上存在差异,这既凸显了它们在补充早期用户体验研究中的潜力,也揭示了其局限性。
符号化世界建模需要将环境的转移动态推断并表示为可执行程序。先前的研究主要集中于具有丰富交互数据、简单机制和人类指导的确定性环境。我们则针对一个更为现实且具挑战性的场景:在复杂、随机的环境中学习,其中智能体仅拥有“一次生命”来探索一个充满敌意的环境,且无人类指导。我们提出了OneLife框架,该框架通过概率编程框架中的条件激活程序化法则来建模世界动态。每条法则通过前提-效果结构运作,在相关世界状态下激活。这创建了一个动态计算图,仅通过相关法则进行推理和优化,避免了在复杂分层状态下所有法则共同参与预测时的扩展难题,并使得即使在规则激活稀疏的情况下也能学习随机动态。为了在这些苛刻约束下评估我们的方法,我们引入了一种新的评估协议,衡量(a)状态排序能力,即区分可能未来状态与不可能状态的能力,以及(b)状态保真度,即生成与现实高度相似的未来状态的能力。我们在Crafter-OO上开发并评估了我们的框架,这是我们对Crafter环境的重新实现,它暴露了一个结构化的、面向对象的符号状态以及仅在该状态上操作的纯转移函数。OneLife能够从最少且无指导的交互中成功学习关键环境动态,在测试的23个场景中有16个超越了强基线。我们还测试了OneLife的规划能力,模拟推演成功识别了更优策略。我们的工作为自主构建未知复杂环境的程序化世界模型奠定了基础。
大型推理模型(LRMs)通过设计在回答查询前的自然语言思维过程,为问题解决开辟了新的可能性。尽管其在数学和编程任务中的能力广为人知,但它们在机器翻译(MT)任务上的影响仍未被充分探索。在本研究中,我们探讨了在不同资源水平和多种设置下,执行跨语言对机器翻译时生成中间标记的益处。我们发现,“思考标记”并未帮助LRMs更好地完成机器翻译任务。这一结果同样适用于那些经过微调、在翻译前进行推理的模型,这些模型采用了受人类翻译实践启发的蒸馏式思维链(CoT)方法。具体而言,使用详细说明如何逐步翻译的合成CoT解释对模型进行微调,并未超越标准的输入输出微调效果。然而,通过结合模块化翻译特定提示策略的输出构建中间标记,则带来了性能提升。我们的发现强调,在微调过程中,中间标记的贡献很大程度上取决于其中是否包含翻译尝试。更广泛地说,我们的结果表明,利用教师模型来精炼目标翻译或扩展平行语料库,比将它们的CoT解释蒸馏到“思考型”机器翻译模型中更具影响力。
我们提出了一种名为“谨慎权重衰减”(Cautious Weight Decay, CWD)的方法,这是一种仅需一行代码、与优化器无关的改进方案,它仅在参数坐标的符号与优化器更新方向一致时应用权重衰减。与标准的解耦衰减不同,后者隐式地优化了一个正则化或约束目标,而CWD则保留了原始损失函数,并允许双层解释:当达到稳定流形时,它会引发滑动模态行为,从而能够搜索未修改目标的局部帕累托最优稳定点。在实际应用中,CWD可无缝集成到诸如AdamW、Lion和Muon等优化器中,无需引入新的超参数或额外调优。在语言模型预训练和ImageNet分类任务中,CWD在百万至十亿参数规模上持续提升了最终损失和准确率。
大型语言模型(LLM)代理在处理长期任务时,从根本上受到上下文长度的限制。我们引入了上下文折叠(Context-Folding)框架,该框架赋予代理主动管理工作上下文的能力。代理可以程序性地分支进入子轨迹以处理子任务,并在完成后将其折叠,从而压缩中间步骤,同时保留结果的简明摘要。为了使这种行为可学习,我们开发了一个端到端的强化学习框架FoldGRPO,该框架通过特定的过程奖励来鼓励有效的任务分解和上下文管理。在复杂的长期任务(深度研究和软件工程)上,我们的折叠代理在使用活跃上下文小10倍的情况下,与ReAct基线模型表现相当或更优,并且显著优于依赖基于摘要的上下文管理的模型。
近期,大型语言模型(LLMs)被应用于科学方程发现领域,利用其内嵌的科学知识进行假设生成。然而,现有方法通常将LLMs局限于遗传编程等搜索算法中的方程提议者角色。本文中,我们提出了SR-Scientist框架,将LLM从简单的方程提议者提升为自主的AI科学家,能够编写代码分析数据、将方程实现为代码、提交评估,并根据实验反馈优化方程。具体而言,我们将代码解释器封装成一套用于数据分析和方程评估的工具集。该智能体被指导在长时间跨度内利用这些工具优化方程,尽量减少人为定义的流程。实证结果表明,在涵盖四个科学领域的数据集上,SR-Scientist以6%至35%的绝对优势超越了基线方法。此外,我们展示了该方法对噪声的鲁棒性、所发现方程对域外数据的泛化能力及其符号准确性。更进一步,我们开发了一个端到端的强化学习框架,以增强智能体的能力。
我们研究了大语言模型(LLM)代理在长期多轮工具使用场景下的强化学习(RL)微调,其中上下文长度迅速成为根本性瓶颈。现有的RL流程可能面临指令跟随性能下降、过高的展开成本,以及最为严格的上下文限制等问题。为应对这些挑战,我们在训练中引入了基于摘要的上下文管理机制。具体而言,该机制通过LLM生成的摘要定期压缩工具使用历史,保留任务相关信息,从而在保持紧凑上下文的同时,使代理能够突破固定上下文窗口的限制。基于这一框架,我们推导出一种策略梯度表示,无缝地使标准LLM RL基础设施能够以端到端方式优化工具使用行为及摘要策略。我们通过摘要增强的策略优化(SUPO)实例化这一框架,SUPO是一种LLM RL算法,支持超越固定上下文限制的长期训练。在交互式函数调用和搜索任务上的实验表明,与基线相比,SUPO在保持相同甚至更低工作上下文长度的同时,显著提高了成功率。我们还证明,对于复杂的搜索任务,当测试时最大摘要轮次超过训练时设置时,SUPO能进一步提升评估性能。我们的研究结果确立了基于摘要的上下文管理作为一种原则性且可扩展的方法,用于训练超越固定上下文长度限制的RL代理。
多模态大语言模型(MLLMs)在解读复杂实验流程以加速科学发现方面展现出巨大潜力。然而,由于现有基准测试未能充分体现真实实验室工作,尤其是湿实验室环境中的细粒度与长期性特征,其真实能力尚不明确。为填补这一空白,我们推出了ExpVid,这是首个旨在系统评估MLLMs在科学实验视频上表现的基准测试。ExpVid精选自同行评审的视频出版物,采用了一个新的三层任务体系,该体系映射了科学研究的全过程:(1)对工具、材料及动作的细粒度感知;(2)步骤顺序与完整性的程序理解;(3)将整个实验与其发表结论相连接的科学推理。我们的视觉中心标注流程,结合自动化生成与多学科专家验证,确保任务要求视觉基础。我们在ExpVid上评估了19个领先的MLLMs,发现尽管它们在粗粒度识别上表现出色,但在区分细微差别、追踪状态随时间变化以及将实验程序与科学成果关联方面存在困难。我们的结果揭示了专有模型与开源模型之间,尤其是在高阶推理能力上的显著性能差距。ExpVid不仅提供了一个诊断工具,还为开发能够成为科学实验可信伙伴的MLLMs绘制了发展路线图。
数据污染对大型语言模型(LLMs)的可靠评估构成了重大威胁。这一问题发生在基准测试样本可能无意间出现在训练集中时,从而损害了所报告性能的有效性。尽管已有检测方法针对预训练和监督微调阶段开发,但在日益重要的强化学习(RL)后训练阶段,存在一个关键的研究空白。随着RL后训练成为推进LLM推理能力的关键,这一范式中缺乏专门的污染检测方法,暴露了一个严重的脆弱性。为解决此问题,我们首次系统性地研究了RL后训练场景下的数据检测,并提出了自我批判(Self-Critique)方法。我们的方法基于一个关键观察:经过RL阶段后,LLMs的输出熵分布倾向于坍缩为高度特定且稀疏的模式。自我批判旨在探测潜在的策略坍缩,即模型收敛至狭窄的推理路径,导致熵的减少。为支持这一研究,我们还引入了RL-MIA,一个专门构建的基准,用于模拟这一特定的污染场景。大量实验表明,自我批判在多个模型和污染任务上显著优于基线方法,AUC提升高达30%。而现有方法在RL阶段污染检测上近乎随机猜测,我们的方法则使检测成为可能。
现有的多模态大语言模型(MLLMs)因图像输入引入的额外视觉标记而面临推理成本增加的问题。在本研究中,我们提出了一种新颖的训练算法——视觉一致性学习(ViCO),该算法使模型能够根据不同语义复杂度使用不同数量的视觉标记来表示图像。我们方法的核心在于采用多个具有不同图像压缩比的多层感知器(MLP)连接器,根据图像的语义复杂度对视觉标记进行下采样。在训练过程中,我们最小化基于不同MLP连接器条件响应的KL散度。在推理时,我们引入了一个称为视觉分辨率路由器(ViR)的图像路由机制,它能自动为每个图像块选择合适的压缩率。与现有基于图像分辨率动态调整视觉标记数量的高分辨率策略相比,我们的方法根据语义复杂度动态调整视觉标记数量。实验结果表明,我们的方法在保持模型感知、推理和OCR能力的同时,最多可减少50%的视觉标记。我们希望这项工作能为开发更高效的MLLMs做出贡献。代码和模型将公开发布,以促进未来研究。
近期在长链思维推理(CoT)领域的进展主要聚焦于答案准确性和计算效率,却忽视了可信度这一关键维度。我们认为,实用的推理系统必须具备可信性,具体表现为三个特性:可解释性、忠实性和可靠性。为此,我们提出了ReFIne这一新型训练框架,它结合了监督微调与GRPO技术,旨在引导模型实现以下目标:(i) 通过生成结构化、基于标签的推理轨迹,并辅以高层规划,提升可解释性,使人类更易理解;(ii) 通过明确揭示指导每一步解决方案的关键信息,并保持跨部分引用的一致性,增强忠实性;(iii) 通过提供对推理过程合理性的自我评估及最终答案的置信度,促进可靠性。我们将ReFIne应用于不同规模(1.7B/4B/8B)的Qwen3模型,并在难度各异的数学基准上进行评估。实验结果表明,采用ReFIne的模型生成了更清晰、结构更优的推理轨迹(可解释性提升44.0%),更忠实地展现了其决策过程(忠实性提升18.8%),并提供了信息丰富的置信度估计(可靠性提升42.4%)。这些发现揭示了一个被忽视但至关重要的方向:推理模型的优化不应仅限于准确性,还应涵盖可信度的更广泛维度。我们的代码已公开于:https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine。
时间序列预测(TSF)在机器学习中仍是一个具有挑战性且很大程度上未解决的问题,尽管近期利用大型语言模型(LLMs)的努力显著增加,这些模型主要依赖于Transformer架构。实证研究一致表明,即使在TSF任务中,强大的Transformer模型也往往无法超越更简单的模型,例如线性模型;然而,对于这一现象的严格理论理解仍然有限。在本文中,我们通过上下文学习(ICL)理论的视角,对Transformer在TSF中的局限性进行了理论分析。具体而言,在AR(p)数据下,我们确立了以下几点:(1) 线性自注意力(LSA)模型在上下文预测中无法实现比经典线性模型更低的期望均方误差(MSE);(2) 当上下文长度趋近于无穷大时,LSA渐近地恢复最优线性预测器;(3) 在思维链(CoT)式推理下,预测值会以指数速度收敛到均值。我们通过精心设计的实验对这些发现进行了实证验证。我们的理论不仅揭示了几个先前未被充分探索的现象,还为设计更有效的预测架构提供了实用见解。我们希望我们的工作能鼓励更广泛的研究社区重新审视TSF的基本理论限制,并在没有深入审查的情况下,批判性地评估日益复杂架构的直接应用。
近期大型语言模型(LLMs)的研究进展表明,扩展推理链的长度能显著提升复杂任务的表现。虽然展示这些推理轨迹有助于用户更好地跟踪、验证并学习模型的解题过程,但也使其极易遭受未经授权的知识蒸馏。为降低这一风险,专有模型提供商常采取激进的保护策略,如用简短的摘要替代详细的推理过程,这剥夺了用户获取宝贵中间信息的机会。为解决这一权衡问题,我们提出了PART,一种信息保全的反蒸馏推理轨迹重构方法。基于人类理解推理轨迹与LLMs利用其进行监督微调之间的差异,我们设计了一种简单但有效的两步重构策略:去除自我对话行为并重新排列子结论。一个辅助小模型被训练来执行这一重构,仅带来极小的计算开销。大量实验证明,PART在不同规模和类型的学生模型上,针对多种推理基准测试,均能持续干扰蒸馏效果。例如,当使用重构后的轨迹进行训练时,即便是大型32B学生模型在AIME 2024上的表现也从54.17降至46.88,相当于性能下降了13.5%。
聊天机器人提供商(如OpenAI)依赖分层订阅模式创收,为免费用户提供基础模型,为付费用户提供高级模型。然而,针对特定高级功能(如数学、编程)的精细化付费解锁方案被认为对提供商更具经济可行性。此类方案需要一种功能锁定技术(FLoTE),该技术需满足:(i) 有效拒绝锁定功能,(ii) 对已解锁功能保持效用,(iii) 防止规避或未经授权的凭证共享,(iv) 能够扩展到多功能和多用户场景。然而,现有的FLoTEs(如密码锁定模型)既不健壮也不具备扩展性。我们提出了Locket,这是首个实现付费解锁方案的健壮且可扩展的FLoTE。Locket采用一种新颖的融合方法,将适配器附加到大型语言模型(LLM)上,以拒绝未经授权的功能。我们的全面评估表明,Locket在有效性(对锁定功能的拒绝率达100%)、效用保持(已解锁功能的效用降低≤7%)、健壮性(攻击成功率≤5%)以及扩展到多功能和多客户端方面均表现出色。
近期,针对大型推理模型(LRMs)的安全防护措施,如深思熟虑的对齐策略,已展现出对越狱攻击的强大防御能力。这些防护措施通过利用LRMs的推理能力,帮助模型在生成最终响应前评估用户输入的安全性。其强大的推理能力能够分析输入查询的意图,一旦检测到越狱方法隐藏的恶意意图,便会拒绝提供协助。此类防护措施显著提升了防御效果,例如在开源gpt-oss系列上实现了近乎完美的拒绝率。然而,我们发现这些基于推理的强大防护措施极易受到输入提示细微操纵的影响,一旦被劫持,可能导致更为严重的后果。具体而言,我们首先揭示了这些防护措施的一个惊人脆弱点:仅在输入提示中添加少量模板标记,即可成功绕过看似强大的防护措施,引发明确且有害的响应。为进一步探究,我们引入了一系列颠覆基于推理防护措施的越狱方法。我们的攻击覆盖白盒、灰盒和黑盒场景,从简单的模板操纵到全自动优化不等。这些方法不仅具备可扩展实施的潜力,还在多个基准测试中取得了惊人的高攻击成功率(例如,在本地主机模型和在线API服务上,gpt-oss系列在五个不同基准测试中的攻击成功率均超过90%)。对多种领先开源LRMs的评估证实,这些漏洞具有系统性,凸显了加强开源LRMs对齐技术以防止恶意滥用的紧迫性。代码已开源,地址为https://chenxshuo.github.io/bag-of-tricks。
我们推出SynthID-Image,一种基于深度学习的系统,用于对AI生成图像进行隐形水印处理。本文详细阐述了在互联网规模上部署此类系统的技术需求、威胁模型及实际挑战,重点解决了有效性、保真度、鲁棒性和安全性等关键要求。SynthID-Image已在谷歌服务中为超过百亿张图片和视频帧添加水印,其对应的验证服务已向可信测试者开放。为求全面,我们还对通过合作伙伴提供的外部模型变体SynthID-O进行了实验评估。我们将SynthID-O与文献中的其他后处理水印方法进行对比,展示了其在视觉质量和对抗常见图像扰动方面的顶尖性能。尽管本工作聚焦于视觉媒体,但关于部署、限制和威胁建模的结论可推广至包括音频在内的其他模态。本文为基于深度学习的媒体来源系统的大规模部署提供了详尽的文档记录。
对比音频-语言预训练能够生成强大的联合表征,然而,持续的音频-文本模态鸿沟限制了多模态编码器与大型语言模型(LLMs)耦合的效益。我们提出了Diffusion-Link,一种基于扩散的模态桥接模块,它通过生成方式将音频嵌入映射到文本嵌入分布中。该模块在冻结的多模态编码器输出的嵌入上进行训练,并实现为一个包含三个残差多层感知机(MLP)块的轻量级网络。为了评估Diffusion-Link对多模态编码器-LLM耦合的影响,我们在自动音频描述(AAC)任务上进行了测试;据我们所知,这是首次将基于扩散的模态桥接应用于AAC。我们报告了两项结果。(1)模态鸿沟分析:在相似性和几何标准上,Diffusion-Link在现有基于扩散的方法中最大程度地减少了模态鸿沟,并显示出音频嵌入向文本分布的整体迁移。(2)下游AAC任务:将Diffusion-Link附加到相同的多模态LLM基线模型上,在无需外部知识的情况下,在AudioCaps数据集上的零样本和全监督描述任务中均达到了最先进的性能,相对增益分别高达52.5%和7.5%。这些发现表明,缩小模态鸿沟对于多模态编码器与LLMs之间的有效耦合至关重要,而基于扩散的模态桥接为超越以知识检索为中心的设计提供了有前景的方向。代码将在论文被接受后发布于https://github.com/DevKiHyun/Diffusion-Link。
基于大型语言模型(LLMs)构建的深度研究(DR)代理能够通过任务分解、在线信息检索及综合详细报告来执行复杂、多步骤的研究工作。然而,如此强大能力的LLMs若被滥用,将带来更大的风险。这在生物安全等高风险、知识密集型领域尤为令人担忧,因为DR代理可能生成包含详细禁限知识的专业报告。不幸的是,我们在实践中已发现此类风险:仅提交一个有害查询,即便独立LLM直接拒绝,也可能从DR代理处引出一份详尽且危险的报告。这凸显了风险的升级,并强调了进行更深层次安全分析的必要性。然而,针对LLMs设计的越狱方法在揭示此类独特风险方面存在不足,因为它们并未针对DR代理的研究能力。为填补这一空白,我们提出了两种新颖的越狱策略:计划注入(Plan Injection),将恶意子目标注入代理的计划中;以及意图劫持(Intent Hijack),将有害查询重新包装为学术研究问题。我们在不同LLMs及多种安全基准上进行了广泛实验,包括通用和生物安全禁限提示。这些实验揭示了三个关键发现:(1) LLMs的对齐在DR代理中常常失效,以学术术语包装的有害提示可劫持代理意图;(2) 多步骤规划与执行削弱了对齐,暴露出系统级漏洞,提示层面的防护措施无法应对;(3) 与独立LLMs相比,DR代理不仅绕过拒绝,还能生成更为连贯、专业且危险的内容。这些结果表明DR代理存在根本性的对齐偏差,呼吁开发更适合DR代理的对齐技术。代码与数据集可在https://chenxshuo.github.io/deeper-harm获取。
现有的去噪生成模型依赖于求解离散化的反向时间SDE或ODE。本文中,我们揭示了这类模型中一个长期被忽视却普遍存在的问题:预定义的噪声水平与采样过程中中间状态所编码的实际噪声水平之间的不匹配。我们将这种不匹配称为噪声偏移。通过实证分析,我们证明噪声偏移在现代扩散模型中广泛存在,并呈现出系统性偏差,导致由于分布外泛化和不准确的去噪更新而生成次优结果。为解决这一问题,我们提出了噪声感知引导(NAG),这是一种简单而有效的校正方法,明确引导采样轨迹与预定义的噪声调度保持一致。我们进一步引入了NAG的无分类器变体,通过噪声条件丢弃联合训练噪声条件模型和无噪声条件模型,从而消除了对外部分类器的需求。大量实验,包括ImageNet生成和各种监督微调任务,表明NAG能持续缓解噪声偏移,并显著提升主流扩散模型的生成质量。
基于扩散的大型语言模型(dLLMs)已成为自回归(AR)LLMs的有力替代方案,其利用去噪生成机制实现了内在的并行性。尽管越来越多的开源dLLM模型涌现,但由于缺乏标准化且高效的推理框架,它们的广泛应用仍受到限制。我们推出了dInfer,一个高效且可扩展的dLLM推理框架。dInfer将推理流程分解为四个模块化组件——模型、扩散迭代管理器、解码策略和KV缓存管理器——并集成了针对每个组件的新算法以及系统级优化。通过这种算法创新与系统增强的结合,dInfer在LLaDA-MoE上实现了显著的效率提升,同时不牺牲输出质量。在批处理大小为1的情况下,它在HumanEval上每秒处理超过1,100个token,并在8块H800 GPU上,在六个基准测试中平均每秒处理超过800个token。与现有系统相比,dInfer在保持相似模型性能的同时,比Fast-dLLM快了10倍。即便是与采用最新vLLM推理引擎高度优化、激活参数数量及性能相当的AR模型QWen2.5-3B相比,dInfer仍能实现2至3倍的加速。dInfer的实现已开源,地址为https://github.com/inclusionAI/dInfer。