每日精选AI研究论文及翻译
基于策略的强化学习当前在提升大语言模型(LLM)数学推理任务表现中扮演着重要角色。然而,现有的基于rollout的强化学习方法(如GRPO、DAPO、GSPO等)未能明确考虑LLM对不同难度样本的学习能力,这与人类从易到难逐步掌握数学推理任务的认知过程相悖。直观上,我们发现RLVR中rollout组奖励的方差在一定程度上反映了当前样本对LLM的难度:过于简单或过于困难的样本方差较低,而难度适中的样本则方差较高。基于此,我们提出了VCRL,一种基于组奖励方差动态调控训练样本难度的课程强化学习框架。在五个数学基准测试和两种模型上的实验表明,VCRL相较于现有LLM强化学习基线方法具有显著优势。
大型多模态推理模型已取得快速进展,但其发展受到两大限制因素的制约:一是缺乏开放、大规模、高质量的长期思维链(CoT)数据;二是强化学习(RL)算法在训练后的不稳定性。作为RL微调的标准框架,群体相对策略优化(GRPO)在奖励方差较低时容易出现梯度消失,削弱了优化信号并影响收敛性。本研究做出了三项贡献:(1)我们提出了方差感知采样(VAS),这是一种由方差提升分数(VPS)指导的数据选择策略,结合结果方差和轨迹多样性,旨在提升奖励方差并稳定策略优化。(2)我们发布了大规模、精心策划的资源,包含约160万条长期CoT冷启动数据和约1.5万条RL问答对,确保质量、难度和多样性,同时提供一个完全可复现的端到端训练代码库。(3)我们开源了一系列不同规模的多模态推理模型,为社区建立了标准化基线。在数学推理基准上的实验验证了所策划数据及VAS的有效性。全面的消融研究和分析进一步揭示了各组成部分的贡献。此外,我们从理论上证明了奖励方差是期望策略梯度幅度的下界,而VAS作为实现这一保证的实用机制。我们的代码、数据和模型检查点可在https://github.com/LengSicong/MMR1获取。
我们提出了一种科学推理基础模型,该模型将自然语言与异构的科学表示对齐。该模型在包含科学文本、纯序列及序列-文本对的206B标记语料库上进行预训练,随后通过40M指令的监督微调(SFT)进行对齐,采用退火冷启动引导以激发长链思维,并结合任务特定的奖励塑造进行强化学习,从而培养出深思熟虑的科学推理能力。该模型支持四大能力家族,覆盖工作流中的多达103项任务:(i) 文本与科学格式间的忠实转换,(ii) 文本/知识抽取,(iii) 属性预测,(iv) 属性分类,(v) 无条件与条件序列生成及设计。相较于专业系统,我们的方法拓宽了指令覆盖范围,提升了跨领域泛化能力,并增强了保真度。我们详细阐述了数据整理与训练过程,并展示了跨学科学习如何强化迁移与下游任务的可靠性。该模型、指令调优数据集及评估代码已开源,访问地址为https://huggingface.co/SciReason 和 https://github.com/open-sciencelab/SciReason。
近期强化学习(RL)领域的进展显著提升了大型语言模型(LLMs)的代理能力。在长期、多轮代理任务中,仅依赖结果奖励的现有方法常面临监督信号稀疏的问题。为解决这一挑战,我们提出了基于树搜索的分组代理RL方法——树结构分组相对策略优化(Tree-GRPO),其中每个树节点代表完整的代理交互步骤。通过共享共同前缀,树搜索采样在固定的令牌或工具调用预算内增加了可实现的模拟次数。此外,我们发现树形轨迹结构天然支持仅使用结果奖励构建逐步过程监督信号。基于此,Tree-GRPO在树内和树间两个层面估计分组相对优势。通过理论分析,我们证明了树内层面分组相对策略优化的目标等同于步骤级直接偏好学习的目标。在11个数据集和3类问答任务上的实验表明,所提出的基于树的RL方法优于基于链的RL方法。
我们推出Seedream 4.0,这是一个高效且高性能的多模态图像生成系统,它将文本到图像(T2I)合成、图像编辑以及多图像组合统一在一个框架内。我们开发了一种高效的扩散变换器,配备强大的变分自编码器(VAE),能够显著减少图像标记的数量。这使得我们的模型能够高效训练,并快速生成原生高分辨率图像(例如1K-4K)。Seedream 4.0在涵盖多种分类和以知识为中心概念的数十亿文本-图像对上进行了预训练。通过跨数百个垂直场景的全面数据收集,结合优化策略,确保了稳定且大规模的训练,并具备强大的泛化能力。通过整合精心微调的视觉语言模型(VLM),我们进行了多模态后训练,以联合训练T2I和图像编辑任务。为了加速推理,我们集成了对抗性蒸馏、分布匹配、量化以及推测性解码技术。在生成2K图像时(未使用LLM/VLM作为PE模型),推理时间最快可达1.8秒。全面评估显示,Seedream 4.0在T2I和多模态图像编辑上均能达到最先进的成果。特别是在复杂任务中,如精确图像编辑和上下文推理,它展现了卓越的多模态能力,并支持多图像参考,能够生成多个输出图像。这使传统的T2I系统扩展为更具互动性和多维度的创作工具,推动了生成式AI在创意和专业应用领域的边界。Seedream 4.0现已上线,访问https://www.volcengine.com/experience/ark?launch=seedream即可体验。
近期,原生3D生成模型的发展加速了游戏、影视及设计领域的资产创作。然而,多数方法仍主要依赖图像或文本作为条件输入,缺乏细粒度、跨模态的控制能力,这限制了其可控性与实际应用。为填补这一空白,我们推出了Hunyuan3D-Omni,一个基于Hunyuan3D 2.1构建的统一框架,旨在实现细粒度、可控的3D资产生成。除图像外,Hunyuan3D-Omni还接受点云、体素、边界框及骨骼姿态先验作为条件信号,从而实现对几何、拓扑及姿态的精确控制。不同于为每种模态单独设置处理模块,我们的模型将所有信号统一整合于一个跨模态架构中。我们采用了一种渐进式、难度感知的采样策略进行训练,该策略为每个样本选取一种控制模态,并倾向于采样难度较高的信号(如骨骼姿态),同时降低对较易信号(如点云)的权重,以此促进稳健的多模态融合及对缺失输入的优雅处理。实验表明,这些额外的控制手段提升了生成精度,实现了几何感知的变换,并增强了生产流程的鲁棒性。
AutoIntent是一款专为文本分类任务设计的自动化机器学习工具。与现有解决方案不同,AutoIntent提供了端到端的自动化流程,包括嵌入模型选择、分类器优化及决策阈值调优,所有这些功能都集成在一个类似sklearn的模块化接口中。该框架旨在支持多标签分类和范围外检测任务。在标准意图分类数据集上,AutoIntent展现出优于现有AutoML工具的性能,并帮助用户在效果与资源消耗之间实现平衡。
采用大型语言模型(LLMs)作为自动化评估工具(LLM-as-a-judge)揭示了当前评估框架中的关键不一致性。我们识别出两种基本类型的不一致性:(1)分数比较不一致性,即在成对比较中,评分较低的响应优于评分较高的响应;(2)成对传递性不一致性,表现为循环偏好链(A>B>C>A)和等价矛盾(A=B=C≠A)。我们认为这些问题源于离散评分系统中的信息丢失以及成对评估过程中的模糊平局判断。我们提出了TrustJudge,一个概率框架,通过两项关键创新解决这些局限性:1)分布敏感评分,从离散评分概率中计算连续期望,保留信息熵以实现更精确的评分;2)基于似然的聚合,利用双向偏好概率或困惑度解决传递性违规问题。我们还形式化了当前LLM-as-a-judge框架的理论局限性,并展示了TrustJudge的组件如何克服这些局限性。在使用Llama-3.1-70B-Instruct作为评估工具并基于我们的数据集进行评估时,TrustJudge将分数比较不一致性降低了8.43%(从23.32%降至14.89%),成对传递性不一致性降低了10.82%(从15.22%降至4.40%),同时保持了更高的评估准确性。我们的工作首次系统分析了LLM-as-a-judge范式中的评估框架不一致性,为可靠的自动化评估提供了理论见解和实际解决方案。该框架在各种模型架构和规模上均表现出持续的改进,无需额外训练或人工标注即可实现更可信的LLM评估。代码可在https://github.com/TrustJudge/TrustJudge找到。
本文提出了一种简单且可扩展的方法,通过为现有文本数据增添思维轨迹来提高大规模语言模型(LLM)训练的数据效率。预训练LLM所需的计算资源正以前所未有的速度增长,而高质量数据的可用性却依然有限。因此,如何最大化现有数据的效用构成了一个重要的研究挑战。一个主要障碍在于,在模型容量固定的情况下,某些高质量标记难以学习,因为单个标记背后的逻辑可能异常复杂且深奥。为解决这一问题,我们提出了思维增强预训练(TPT),这是一种通用方法,通过自动生成的思维轨迹来扩充文本。这种扩充有效增加了训练数据的规模,并通过逐步推理和分解使高质量标记更易于学习。我们在多达1000亿标记的多样化训练配置中应用了TPT,包括数据受限和充足情况下的预训练,以及从强大的开源检查点进行的中期训练。实验结果表明,我们的方法显著提升了不同规模和系列的LLM性能。值得注意的是,TPT将LLM预训练的数据效率提高了3倍。对于一个30亿参数的模型,它在多个具有挑战性的推理基准上,使训练后性能提升了超过10%。
强化学习(RL)已成为优化大型语言模型(LLMs)以处理复杂推理任务的有力范式。这一过程中的核心挑战在于管理策略熵,它反映了训练期间探索与利用之间的平衡。现有方法,如近端策略优化(PPO)及其变体,由于裁剪机制,丢弃了来自低概率令牌的宝贵梯度信号。我们系统地分析了熵动态,揭示了这些被裁剪的令牌在调节熵演化中扮演着关键但被忽视的角色。我们提出了通过梯度保留策略优化控制熵(CE-GPPO)的新算法,该算法以温和且有界的方式重新引入了原生PPO中被裁剪令牌的梯度。通过控制来自裁剪区间外令牌的梯度幅度,CE-GPPO能够实现探索与利用的权衡。我们提供了理论依据和实证证据,表明CE-GPPO有效缓解了熵不稳定性。在数学推理基准上的广泛实验表明,CE-GPPO在不同模型规模上均持续优于强基线。
近期,行为克隆(BC)技术的进步使得视觉运动控制策略取得了显著成效。然而,这些方法受限于人类示范的质量、数据收集所需的手动投入,以及随着离线数据增加而带来的边际效益递减。相比之下,强化学习(RL)通过智能体与环境的自主交互进行训练,已在多个领域展现出卓越成就。尽管如此,直接在现实世界的机器人上训练RL策略仍面临样本效率低、安全顾虑,以及从稀疏奖励中学习长时程任务(尤其是高自由度系统)的难题。我们提出了一种结合BC与RL优势的残差学习框架方案。该方法将BC策略作为黑箱基础,通过样本高效的离策略RL学习轻量级的逐步残差修正。我们证明,仅需稀疏的二元奖励信号,该方法就能有效提升高自由度系统在仿真与现实环境中的操作策略。特别值得一提的是,据我们所知,我们首次成功地在具有灵巧手的人形机器人上实现了现实世界的RL训练。我们的成果在多种基于视觉的任务中展现了顶尖性能,为RL在现实世界中的实际应用指明了一条可行路径。项目网站:https://residual-offpolicy-rl.github.io
我们提出了CHARM,一种新颖的参数化表示与生成框架,专为动漫发型建模而设计。传统发型建模方法多聚焦于采用基于发丝或体素的表示来追求真实感,而动漫发型则展现出高度风格化、分段式的几何特征,这对现有技术构成了挑战。现有工作往往依赖于密集网格建模或手工绘制的样条曲线,导致编辑效率低下且难以适应规模化学习。CHARM引入了一种紧凑、可逆的基于控制点的参数化方法,其中每个发片由一系列控制点表示,每个点仅用五个几何参数编码。这一高效且精确的表示方式既支持艺术家友好型设计,也适用于基于学习的生成。基于此表示,CHARM构建了一个自回归生成框架,能够从输入图像或点云中有效生成动漫发型。通过将动漫发型解读为一种序列化的“发语”,我们的自回归Transformer模型能够捕捉局部几何与全局发型拓扑,从而实现高保真度的动漫发型创作。为了促进动漫发型生成的训练与评估,我们构建了AnimeHair,一个包含37,000个高质量动漫发型的大规模数据集,其中每个发片均被分离并包含处理后的网格数据。大量实验证明,CHARM在重建精度与生成质量上均达到了业界领先水平,为动漫发型建模提供了一个表达力强且可扩展的解决方案。项目页面:https://hyzcluster.github.io/charm/
近年来,多模态模型取得了显著进展,为智能浏览器使用代理铺平了道路。然而,在解决现实世界网页上的多轮、长视野轨迹任务时,现有代理仍面临动作序列混乱和执行过程中过多试错的问题。本文介绍了Recon-Act,一个基于侦察-行动行为范式的自进化多代理框架。该系统由侦察团队和行动团队组成:前者负责比较分析和工具生成,后者则处理意图分解、工具编排与执行。通过对比错误轨迹与成功轨迹,侦察团队推断出补救措施,并将其抽象为通用工具的统一概念,无论是作为提示还是基于规则的代码,并实时注册到工具库中。行动团队借助这些针对性工具重新推理过程,从而建立起数据-工具-行动-反馈的闭环训练管道。按照本文提出的六级实施路线图,我们目前已达到第三级(有限的人机交互干预)。利用通过侦察获得的通用工具,Recon-Act大幅提升了对未见网站的适应性和长视野任务的可解性,并在具有挑战性的VisualWebArena数据集上实现了最先进的性能。
图像合成旨在将用户指定的对象无缝插入到新场景中,但现有模型在处理复杂光照(如精确阴影、水面反射)以及多样化的高分辨率输入时仍面临挑战。现代文本到图像扩散模型(如SD3.5、FLUX)已编码了关键的物理和分辨率先验,但缺乏一个无需依赖潜在反演即可释放这些先验的框架,而潜在反演往往将对象姿态锁定在上下文不恰当的方向,或依赖于脆弱的注意力调整。我们提出了SHINE,一个无需训练的框架,用于实现无缝、高保真且误差中和的插入。SHINE引入了流形导向的锚点损失,利用预训练的定制适配器(如IP-Adapter)来引导潜在空间,确保主体忠实表示的同时保持背景完整性。进一步提出了退化抑制指导和自适应背景融合,以消除低质量输出和可见接缝。针对缺乏严格基准的问题,我们引入了ComplexCompo,它涵盖了多种分辨率和挑战性条件,如低光照、强照明、复杂阴影和反射表面。在ComplexCompo和DreamEditBench上的实验表明,SHINE在标准指标(如DINOv2)和人类对齐评分(如DreamSim、ImageReward、VisionReward)上均达到了最先进的性能。代码和基准将在发表后公开提供。
尽管大型推理模型(LRMs)能够生成广泛的思维链推理,我们仍缺乏一个系统性的框架来理解这些思维的结构。本文提出了一种新颖方法,通过应用Schoenfeld的认知框架——人类数学问题解决的经典理论,来分析LRMs的推理轨迹。我们对模型生成的数学问题解决方案中的数千个句子和段落进行了标注,使用了七种认知标签(如计划、实施、验证)。这一成果首次公开了用于机器推理细粒度分析的基准,包括大规模标注语料库和详细的标注指南。我们的初步分析揭示了LRM推理中的独特模式,例如认知状态间的转换动态。该框架为解释LRM认知提供了理论依据,并为未来开发更具可控性和透明性的推理系统奠定了基础。
我们推出SD3.5-Flash,一种高效的少步蒸馏框架,旨在将高质量图像生成能力引入普及型消费设备。该方法通过专门为少步生成重新设计的分布匹配目标,对计算量巨大的校正流模型进行蒸馏。我们引入两项关键创新:“时间步共享”以减少梯度噪声,以及“分步微调”以提升提示对齐效果。结合文本编码器重构和专用量化等全面的管道优化措施,我们的系统实现了快速生成和跨不同硬件配置的内存高效部署。这使从手机到台式机的全系列设备都能平等地获得这一技术。通过包括大规模用户研究在内的广泛评估,我们证明SD3.5-Flash在少步方法中持续领先,使先进的生成式AI真正适用于实际部署。
大型代码语言模型在编程任务中展现出了卓越的能力,然而当前的基准测试主要集中于单一模态,而非视觉游戏开发。大多数现有的代码相关基准测试评估的是语法正确性和执行准确性,忽视了游戏开发中至关重要的特定指标,如可玩性、视觉美感及用户参与度,这些对于实际部署至关重要。为了弥合当前LLM在算法问题解决和竞技编程方面的能力与实用游戏开发全面需求之间的差距,我们提出了V-GameGym,这是一个包含2,219个高质量样本的综合基准,这些样本源自现实世界仓库,跨越100个主题集群,采用了一种新颖的基于聚类的筛选方法,确保了多样性和结构完整性。此外,我们引入了一个多模态评估框架,配备了一个自动化的LLM驱动管道,用于在完整的UI沙盒环境中进行视觉代码合成。我们的深入分析表明,V-GameGym有效地连接了代码生成准确性与实际游戏开发工作流程,为视觉编程和交互元素生成提供了可量化的质量指标。
强化学习(RL)在训练具有能动性的模型方面展现出潜力,这些模型超越了静态基准,能够进行动态的多轮交互。然而,此类代理的最终价值在于其协助用户的能力,这一场景中用户互动的多样性和动态性带来了挑战。在本研究中,我们提出了UserRL,一个通过标准化gym环境与模拟用户相结合,用于训练和评估用户中心能力的统一框架。我们系统地调整了轮次级奖励分配与轨迹级得分计算,以分析不同设定在GRPO算法下对学习效果的影响。通过对Qwen3系列模型的实验,我们得出三个关键发现:(i) SFT冷启动对于解锁初始交互能力并实现持续的RL改进至关重要;(ii) 精心设计的轨迹评分能带来更高效且有效的多轮交互;(iii) 尽管更强的模拟用户(如GPT-4o)有助于训练,开源模拟器(如Qwen3-32B)仍是一个成本效益高且可迁移的选择。综合来看,这些结果表明,奖励塑造与用户模拟选择的精心设计与模型规模同等重要,并确立了UserRL作为开发稳健用户中心能动模型的实用途径。所有代码和数据均已公开,以供未来研究使用。
以视觉几何基础Transformer(VGGTs)为代表的学习型三维重建模型,借助大规模Transformer的应用,已取得显著进展。然而,其高昂的计算与内存成本严重阻碍了实际部署。训练后量化(PTQ)已成为压缩和加速模型的常用手段。但我们在实践中发现,PTQ在压缩十亿级VGGTs时面临独特挑战:数据无关的特殊令牌导致激活分布呈现重尾特性,而三维数据的多视角特性使得校准样本选择极不稳定。本文首次提出针对VGGTs的量化框架——QuantVGGT,其核心依托于两项技术贡献:首先,我们引入了双平滑细粒度量化,通过预全局哈达玛旋转与后局部通道平滑相结合,有效缓解重尾分布及通道间差异;其次,设计了噪声过滤多样性采样,利用深层统计信息过滤异常值,并构建帧感知的多样化校准簇,确保量化范围的稳定性。全面实验表明,QuantVGGT在不同基准测试和比特宽度下均达到业界领先水平,大幅超越此前最先进的通用量化方法。特别指出,我们的4位QuantVGGT在真实硬件推理中实现了3.7倍的内存缩减和2.5倍的加速,同时保持重建精度不低于全精度模型的98%,充分展现了QuantVGGT在资源受限场景下的巨大优势与实用性。代码已发布于https://github.com/wlfeng0509/QuantVGGT。
大规模推理模型(LRMs)在解决复杂问题方面展现了卓越的能力,通常得益于在具有挑战性的数学问题上的训练,这些问题能够激发复杂的推理过程。近期研究探索了通过提示专有模型或大规模开源模型,从种子数据或内在数学概念中自动合成数学问题的方法。然而,由于高昂的计算/API成本、提示的复杂性以及生成问题难度有限,这些方法的扩展仍面临挑战。为克服这些限制,我们提出了ScaleDiff,一个简单而有效的流程,旨在规模化创建高难度问题。我们利用自适应思维模型,仅需一次前向传播即可高效地从现有数据集中识别出难题,该模型能够感知问题难度并自动在“思考”与“非思考”模式间切换。随后,我们在这些筛选出的难题数据上训练了一个专门的难题生成器(DiffGen-8B),它能够大规模生成新的难题,无需复杂的逐实例提示及其伴随的高昂API成本。在ScaleDiff-Math数据集上微调Qwen2.5-Math-7B-Instruct,相比原始数据集实现了11.3%的性能显著提升,并在AIME'24、AIME'25、HMMT-Feb'25、BRUMO'25和MATH500上取得了65.9%的平均准确率,超越了近期如OpenThinker3等强大的LRMs。值得注意的是,这一性能是通过成本效益高的Qwen3-8B模型作为教师实现的,表明我们的流程能够有效转移高级推理能力,而无需依赖更大、更昂贵的教师模型。此外,我们观察到随着难题数量的增加,模型在困难基准测试上的性能呈现出明显的扩展现象。代码见:https://github.com/QizhiPei/ScaleDiff。
随着具身智能(Embodied AI)的兴起,室内场景合成变得愈发重要,这不仅要求三维环境在视觉上逼真,还需具备物理合理性和功能多样性。尽管近期方法在视觉保真度上取得了进展,但它们往往局限于固定的场景类别,缺乏足够的物体级细节和物理一致性,且难以与复杂的用户指令对齐。本研究提出了SceneWeaver,一个反思型代理框架,通过基于工具的迭代优化统一了多样化的场景合成范式。SceneWeaver的核心在于利用基于语言模型的规划器,从一系列可扩展的场景生成工具中进行选择,这些工具涵盖了数据驱动的生成模型到基于视觉和大语言模型(LLM)的方法,并依据物理合理性、视觉真实度及与用户输入的语义对齐度进行自我评估。这种闭环的“推理-行动-反思”设计使代理能够识别语义不一致性,调用针对性工具,并在多次迭代中更新环境。在常见及开放词汇房间类型上的大量实验表明,SceneWeaver不仅在物理、视觉和语义指标上超越了现有方法,还能有效泛化至包含多样化指令的复杂场景,标志着向通用三维环境生成迈出了重要一步。项目网站:https://scene-weaver.github.io/。
搜索增强型大语言模型(LLMs)通过将检索整合到生成过程中,在信息查询任务上取得了显著进展,相比传统搜索系统,减轻了用户的认知负担。然而,它们仍不足以全面满足多样化的用户需求,这需要识别同一查询如何反映不同用户的意图,并以用户偏好的形式提供信息。尽管近期系统如ChatGPT和Gemini尝试通过利用用户历史记录来实现个性化,但对此类个性化的系统性评估仍显不足。为填补这一空白,我们提出了BESPOKE,一个用于评估搜索增强型LLMs个性化能力的真实基准。BESPOKE旨在既真实又具诊断性,通过直接从人类收集真实的聊天和搜索历史,并将响应与细粒度的偏好评分和反馈配对来实现。该基准通过长期、深度参与的人工标注构建,其中人类标注者贡献了自己的历史记录,撰写了包含详细信息需求的查询,并通过评分和诊断反馈评估了响应。利用BESPOKE,我们进行了系统性分析,揭示了信息查询任务中有效个性化的关键要求,为个性化搜索增强型LLMs的细粒度评估奠定了基础。我们的代码和数据可在https://augustinlib.github.io/BESPOKE/获取。
传统的推荐系统依赖于被动的反馈机制,将用户局限于简单的选择,如“喜欢”和“不喜欢”。然而,这些粗粒度的信号无法捕捉用户复杂的行为动机和意图。相应地,现有系统也无法区分哪些具体项目属性促使用户满意或不满意,从而导致偏好建模不准确。这些根本性限制在用户意图与系统解读之间形成了持久的鸿沟,最终削弱了用户满意度并损害了系统效能。 为解决这些局限,我们引入了交互式推荐流(Interactive Recommendation Feed, IRF),这一开创性范式允许在主流推荐流中使用自然语言指令。与将用户局限于被动隐性行为影响的传统系统不同,IRF通过实时的语言指令赋予用户对推荐策略的主动显式控制权。为支持这一范式,我们开发了RecBot,一种双代理架构,其中解析代理(Parser Agent)将语言表达转化为结构化偏好,而规划代理(Planner Agent)则动态编排自适应工具链,实现即时策略调整。为实现实际部署,我们采用模拟增强的知识蒸馏技术,在保持强大推理能力的同时实现高效性能。通过广泛的离线实验和长期在线实验,RecBot在用户满意度和业务成果方面均展现出显著提升。
虽然显式位置编码(如RoPE)是Transformer解码器中位置信息的主要来源,但因果掩码同样提供了位置信息。在本研究中,我们证明了因果掩码能够在没有参数或输入因果依赖的情况下,诱导出注意力分数中的位置依赖模式。我们的理论分析表明,这种诱导的注意力模式倾向于偏好邻近的查询-键对,这与常见位置编码的行为相呼应。实证分析进一步证实,经过训练的模型展现出相同的行为,学习到的参数进一步放大了这些模式。值得注意的是,我们发现因果掩码与RoPE的相互作用将RoPE的相对注意力分数模式扭曲为非相对模式。我们在现代大型语言模型中一致观察到了这一效应,这提示了将因果掩码视为与显式位置编码同等重要的位置信息来源的重要性。
基于大语言模型(LLM)评判的基准测试正日益用于评估复杂模型行为,然而其设计引入了传统基于真实值基准测试所不具备的失效模式。我们认为,若缺乏明确目标与可验证的构建,基准测试排名可能产生看似高置信度实则主要由噪声构成的排序。为此,我们引入了两种机制来诊断这些问题。方案遵循度量化了评判者整体裁决中由明确评估方案解释的部分,揭示了当评判者偏离其自身评分标准时未解释的变异。心理测量效度则通过聚合内部一致性与区分效度信号,量化任何基准测试运行中不可减少的不确定性。将这些工具应用于Arena-Hard Auto,我们发现流行评判者中存在严重的方案不一致性与因子崩溃现象:例如,DeepSeek-R1-32B的未解释变异超过90%,而多数标准的因子相关性高于0.93。我们还展示了Arena-Hard Auto采用的ELO风格聚合方式如何掩盖并加剧了真实的排名不确定性。我们的研究结果揭示了削弱有效性的设计缺陷,并提出了构建范围更佳、注重可靠性的LLM评判基准测试的可操作原则。我们已在https://anonymous.4open.science/r/judgment-to-noise-947D/README.md发布了相关代码。
尽管在布局到图像生成领域取得了稳步进展,现有方法在处理包含显著边界框重叠的布局时仍面临困难。我们识别出两大主要挑战:(1) 大面积重叠区域和(2) 语义区分度极低的重叠实例。通过定性示例与定量分析,我们展示了这些因素如何降低生成质量。为系统评估这一问题,我们引入了OverLayScore,一种量化边界框重叠复杂度的新指标。分析表明,现有基准偏向于OverLayScore值较低的简单案例,限制了其在更具挑战性条件下评估模型性能的有效性。为填补这一空白,我们提出了OverLayBench,一个包含高质量标注且在不同OverLayScore水平上分布均衡的新基准。作为提升复杂重叠性能的初步尝试,我们还提出了CreatiLayout-AM模型,该模型在精选的无模态掩码数据集上进行了微调。我们的这些贡献共同为在现实且具挑战性的场景下实现更稳健的布局到图像生成奠定了基础。项目链接:https://mlpc-ucsd.github.io/OverLayBench。
视频推理已成为多模态大语言模型(MLLMs)的一项关键能力,要求模型超越静态感知,实现对复杂场景中时间动态的连贯理解。然而,现有的MLLMs常表现出过程不一致性,即中间推理偏离视频动态,即便最终答案正确,也削弱了模型的可解释性和鲁棒性。为解决这一问题,我们提出了MOSS-ChatV,一个结合动态时间规整(DTW)过程奖励的强化学习框架。这一基于规则的奖励机制使推理轨迹与时间锚定的参考对齐,无需辅助奖励模型即可实现高效的过程监督。我们进一步将动态状态预测确立为视频推理的关键衡量标准,并构建了MOSS-Video基准,该基准包含标注的推理轨迹,其中训练集用于微调MOSS-ChatV,而保留集则用于评估。MOSS-ChatV在MOSS-Video(测试集)上达到了87.2%的准确率,并在MVBench和MMVU等通用视频基准上提升了性能。该框架在不同架构(包括Qwen2.5-VL和Phi-2)中均能带来一致性能提升,证实了其广泛适用性。通过GPT-4o作为评判者的进一步评估显示,MOSS-ChatV生成的推理轨迹更加一致和稳定。
大型语言模型(LLMs)在处理长上下文时面临显著的计算挑战,这源于自注意力机制的二次方复杂度。尽管软上下文压缩方法——将输入文本映射到更小的潜在表示——已展现出潜力,但其在实际应用中的采纳度有限。现有技术通常将上下文作为一个整体进行压缩,这导致了二次方的压缩复杂度,并且无法在具有重叠上下文的不同查询间复用计算结果。本研究中,我们提出了CompLLM,一种专为实际部署设计的软压缩技术。不同于整体处理上下文,CompLLM将其分割成多个片段并独立压缩每个片段。这一简洁的设计选择带来了三个关键特性:效率性,压缩步骤随上下文长度线性扩展;可扩展性,使模型能在短序列(如1k个标记)上训练后,泛化至100k标记的上下文;以及可复用性,允许压缩后的片段被缓存并在不同查询间重复使用。实验表明,在2倍压缩率下,CompLLM在高上下文长度下将首次令牌生成时间(TTFT)加速至多4倍,并将键值缓存大小减少50%。此外,CompLLM在性能上可与未压缩上下文相媲美,甚至在超长序列上表现更优,充分证明了其有效性和实用价值。
大型语言模型(LLMs)的有效性在很大程度上受到其提示中所采用的推理策略或思维风格的影响。然而,这些推理风格、模型架构与任务类型之间的相互作用仍鲜为人知。为此,我们引入了StyleBench,一个全面评估不同任务和模型间推理风格的基准测试。我们评估了五种代表性推理风格,包括思维链(CoT)、思维树(ToT)、思维算法(AoT)、思维草图(SoT)和草稿链(CoD),在五个推理任务上,使用来自主要家族(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi和DeepSeek)的15个开源模型,参数规模从270M到120B不等。我们的大规模分析表明,没有一种风格是普遍最优的。我们证明,策略的有效性高度依赖于模型规模和任务类型:基于搜索的方法(AoT、ToT)在开放性问题中表现出色,但需要大规模模型;而简洁风格(SoT、CoD)在定义明确的任务上实现了显著的效率提升。此外,我们识别出关键行为模式:较小模型经常无法遵循输出指令,倾向于猜测,而推理的鲁棒性随着模型规模的增大而增强。我们的发现为根据特定约束选择最优推理策略提供了重要指南,我们已在https://github.com/JamesJunyuGuo/Style_Bench开源了该基准测试。
端到端(E2E)解决方案已成为自动驾驶系统的主流方法,其中视觉-语言-动作(VLA)模型代表了一种新范式,它利用预训练的多模态知识从视觉-语言模型(VLMs)中提取信息,以理解和交互复杂的现实世界环境。然而,这些方法仍受限于模仿学习的固有缺陷,即在训练过程中难以有效编码物理规则。现有方法通常依赖于复杂的基于规则的后处理优化,采用主要局限于模拟环境的强化学习,或使用需要高计算成本的梯度计算的扩散引导。为解决这些挑战,我们提出了ReflectDrive,一种新颖的基于学习的框架,它通过离散扩散集成了安全轨迹生成的反射机制。我们首先将二维驾驶空间离散化以构建动作代码本,从而能够通过微调预训练的扩散语言模型来执行规划任务。我们方法的核心是一个安全感知的反射机制,它无需梯度计算即可进行迭代自我校正。我们的方法从目标条件轨迹生成开始,以建模多模态驾驶行为。在此基础上,我们应用局部搜索方法识别不安全标记并确定可行解,这些解随后作为基于修复的再生成的安全锚点。在NAVSIM基准测试中,ReflectDrive在安全关键轨迹生成方面展现出显著优势,为自动驾驶系统提供了一个可扩展且可靠的解决方案。
我们提出了一种框架,使神经网络模型能够在“聆听”日常声音的同时进行“思考”,从而提升音频分类性能。受近期大型语言模型推理能力进展的启发,我们探讨了两个核心问题:(i) 如何将思考机制融入现有音频分类流程,以实现类别空间内的推理并提升性能;(ii) 能否从头设计一种新架构,同时支持思考与测试时扩展?我们证明,在这两种情境下,我们的模型均展现出更高的分类准确率。通过利用测试时扩展,我们观察到随着采样轨迹数量的增加,模型性能持续提升。此外,我们评估了两款开源推理模型——GPT-OSS-20B与Qwen3-14B,结果表明,尽管这类模型具备零样本推理能力,但一种轻量级方法——仅对冻结的小型模型(如GPT-2)的嵌入矩阵进行重训练——能够超越基于文本的数十亿参数推理模型的性能。
感知优化主要由保真度目标驱动,该目标同时强化了语义一致性和整体视觉真实感,而对抗性目标则通过增强感知锐度和精细细节提供补充性优化。尽管它们处于核心地位,但作为优化目标的有效性与作为图像质量评估(IQA)指标的能力之间的关联仍未被充分探索。在本研究中,我们进行了系统性分析,揭示了感知优化与评估之间一种意想不到的不对称性:在IQA中表现出色的保真度指标未必适用于感知优化,这种不一致性在对抗训练下尤为明显。此外,尽管判别器在优化过程中能有效抑制伪影,但其学习到的表征在作为IQA模型的主干初始化时提供的益处有限。除了这种不对称性,我们的发现进一步表明,判别器设计在塑造优化过程中起着决定性作用,其中基于局部块和卷积架构的判别器比传统或基于Transformer的替代方案能更忠实地重建细节。这些见解深化了我们对损失函数设计及其与IQA可迁移性关系的理解,为更系统化的感知优化方法铺平了道路。
大规模音频-语言模型(LALMs)在语音任务上展现出强大的零样本能力,为语音情感识别(SER)带来了希望。然而,在实际部署中,SER往往因领域不匹配而失效,此时源数据不可用,且强大的LALMs仅能通过API访问。我们提出疑问:在仅有未标注的目标域音频和仅API可访问的LALM的情况下,能否通过学生模型的适应,使其在目标域中超越LALM?为此,我们提出了MI-Fuse,一种去噪标签融合框架,该框架通过引入一个在源域上训练的SER分类器作为辅助教师,来补充LALM。该框架从两位教师处获取多重随机预测,基于互信息的不确定性对它们的平均分布进行加权,并通过指数移动平均教师来稳定训练过程。在三个公开情感数据集和六次跨领域迁移实验中的结果表明,该方法带来了持续的提升,学生模型不仅超越了LALM,还比最强基线高出3.9%。这一方法无需共享源数据,即可增强情感感知语音系统,实现了现实的适应能力。
本文介绍了危险感知系统卡片(Hazard-Aware System Card, HASC),这是一种旨在提升人工智能系统开发与部署过程中透明度和责任性的创新框架。HASC在现有模型卡片和系统卡片概念的基础上,整合了AI系统安全与防护态势的全面动态记录。该框架提出了一套标准化标识系统,包括新颖的AI安全危险(AI Safety Hazard, ASH)ID,以补充如CVE等现有安全标识,确保对已修复缺陷的清晰一致传达。通过提供一个单一、易于访问的真实信息源,HASC赋能开发者和利益相关者在AI系统全生命周期内做出更为明智的安全决策。最后,我们还将提出的AI系统卡片与ISO/IEC 42001:2023标准进行了对比,并探讨了二者如何相辅相成,共同为AI系统提供更高的透明度和责任性。
检测仇恨内容是一项既具挑战性又至关重要的任务。自动化工具,如机器学习模型,能够提供帮助,但它们需要持续训练以适应社交媒体不断变化的格局。在本研究中,我们评估了八种开源大语言模型(LLMs)在检测反犹内容方面的能力,特别利用了上下文定义作为政策指导。我们探索了多种提示技术,并设计了一种新的类似思维链(CoT)的提示方法——引导式思维链(Guided-CoT)。引导式思维链在处理上下文政策方面表现出色,提升了所有评估模型的性能,无论其解码配置、模型规模或推理能力如何。值得注意的是,Llama 3.1 70B的表现超越了经过微调的GPT-3.5。此外,我们分析了LLM的错误,并引入了量化模型生成理由中语义差异的指标,揭示了LLMs之间显著的差异和矛盾行为。我们的实验凸显了LLMs在实用性、可解释性和可靠性方面存在的差异。