每日精选AI研究论文及翻译
大型语言模型(LLMs)的推理能力一直是研究的重要焦点。近期工作通过强化学习(RL)进一步提升了这些能力,许多新方法声称在极少或无需外部监督的情况下取得了显著进步。令人惊讶的是,一些研究甚至表明,随机或错误的奖励信号也能增强推理性能。然而,这些突破主要是在Qwen2.5模型系列上报告的,并在MATH-500、AMC和AIME等知名基准上进行了评估,而在Llama等其他模型上未能实现类似的提升,这值得进一步研究。我们的分析显示,尽管Qwen2.5在数学推理上表现出色,但其在大规模网络语料上的预训练使其容易受到流行基准中数据污染的影响。因此,基于这些基准得出的结果可能不可靠。为解决这一问题,我们引入了一个生成器,能够生成任意长度和难度的完全合成的算术问题,从而得到一个我们称为RandomCalculation的干净数据集。利用这些无泄漏的数据集,我们发现只有准确的奖励信号能持续提升性能,而噪声或错误的信号则不能。我们主张在无污染的基准上评估RL方法,并跨多种模型系列进行测试,以确保结论的可信度。
扩展语言模型虽能解锁令人瞩目的能力,但随之而来的计算与内存需求使得训练和部署成本高昂。现有的效率优化工作通常专注于参数共享或自适应计算,而如何同时实现这两者仍是一个待解之题。我们提出了递归混合(Mixture-of-Recursions, MoR)框架,这一统一框架在单一的递归Transformer中融合了两种效率维度。MoR通过在递归步骤间复用共享的层堆栈来实现参数效率,同时轻量级路由器通过动态为各token分配不同的递归深度,实现了自适应的token级思考。这使得MoR能够仅对在特定递归深度仍活跃的token进行二次方注意力计算,并通过选择性缓存这些token的键值对,进一步提升了内存访问效率。除了这些核心机制,我们还提出了一种KV共享变体,该变体复用首次递归的KV对,专门设计用于减少预填充延迟和内存占用。在参数规模从1.35亿到17亿的模型范围内,MoR构建了一个新的帕累托前沿:在相同训练浮点运算次数和更小模型尺寸下,它显著降低了验证困惑度并提升了少样本准确率,同时相比基础及现有递归基线模型提供了更高的吞吐量。这些成果表明,MoR是实现大模型质量而不承担大模型成本的有效途径。
大规模模型的快速发展推动了数字人领域的重大突破。这些先进方法为虚拟形象驱动与渲染提供了高保真解决方案,促使学术界将目光投向下一重大挑战:视听双模态交互式虚拟人。为促进这一新兴领域的研究,我们推出了SpeakerVid-5M数据集,这是首个专为视听双模态交互式虚拟人生成设计的大规模高质量数据集。总计超过8,743小时,SpeakerVid-5M包含超过520万个人物肖像视频片段,涵盖了多种规模及交互类型,包括单人讲话、倾听及双人对话。尤为关键的是,该数据集沿两个核心维度构建:交互类型与数据质量。首先,依据交互场景,将其划分为四类(对话分支、单分支、倾听分支及多轮分支)。其次,数据集被分层为大规模预训练子集和经过精心筛选的高质量子集,用于监督微调(SFT)。这种双重结构适应了广泛的2D虚拟人任务需求。此外,我们基于此数据训练了一个自回归(AR)视频聊天基线模型,并配套了一套专用指标与测试数据,作为未来工作的基准VidChatBench。数据集及其相应的数据处理代码将公开发布。项目页面:https://dorniwang.github.io/SpeakerVid-5M/
近期先进的视觉-语言模型(VLMs)在被动、离线的图像和视频理解任务中展现了强大的性能。然而,在需要在线交互和主动场景理解的具身环境中,其有效性仍显不足。在此类场景中,智能体以第一人称视角感知环境,每个动作都会动态影响后续观察。即便是GPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro等顶尖模型,在开放环境交互中也面临挑战,在空间推理和长期规划方面表现出明显局限。为填补这一空白,我们推出了EmRACE-3K,一个包含超过3000个语言引导任务的数据集,这些任务设置于使用Unreal Engine和UnrealCV-Zoo框架构建的多样化、逼真环境中。任务涵盖了导航、物体操作和多阶段目标执行等广泛的具身挑战。每个任务都作为多步轨迹展开,将第一人称视觉观察与高层指令、具体动作及表达智能体每一步意图的自然语言推理配对。利用EmRACE-3K,我们建立了一个基准,用于评估VLMs在探索、动态空间语义推理和多阶段目标执行三个关键维度上的具身推理能力。在零样本设置下,所有模型的成功率均低于20%,凸显了我们基准的挑战性及当前VLMs在交互环境中的局限。为展示EmRACE-3K的实用性,我们进一步通过监督学习后接强化学习对Qwen2.5-VL-7B进行微调。这一方法在所有三个挑战类别上均带来了显著提升,证明了该数据集在促进具身推理能力发展方面的有效性。
近期的大型推理模型(LRMs)在特定任务基准测试中取得了显著进展,然而其评估方法仍受限于孤立的问题解决范式。现有基准测试主要通过顺序测试来评估单一问题的推理能力,导致两个关键局限:(1)易受数据污染影响且挑战性不足(例如,DeepSeek-R1在MATH500上达到97.0%),迫使需要耗费大量人力持续创建新问题;(2)无法在多情境压力下评估模型,而这是实际部署中的关键要求。为弥补这一差距,我们提出了REST(通过同步测试进行推理评估),一个压力测试框架,能够同时向LRMs呈现多个问题。除基本推理外,REST特别评估了几项未充分测试的能力:情境优先级分配、跨问题干扰抵抗以及动态认知负荷管理。我们的评估揭示了几项引人注目的发现:即使是像DeepSeek-R1这样的最先进(SOTA)模型,在压力测试下也表现出显著的性能下降。重要的是,REST展现出比现有基准更强的区分能力,揭示了在单一问题评估中表现相近、接近天花板的模型之间的显著性能差异。我们的分析得出了一些关键机制性见解:(1)“过度思考陷阱”是导致性能下降的关键因素;(2)采用“长到短”技术训练的模型在REST下保持了更多单问题性能的准确性,优于标准训练的模型。这些结果确立了REST作为一种成本效益高、面向未来的评估范式,能更好地反映现实世界的推理需求,同时减少对持续人工标注的依赖。
大型语言模型(LLMs)在自然语言理解和生成方面表现出色,但在处理事实性错误时仍显脆弱,这限制了其在知识密集型任务中的可靠性。尽管解码时策略提供了一种无需训练的高效解决方案,现有方法通常孤立地处理令牌级别和层级信号,忽视了它们之间的联合动态。在本研究中,我们引入了一种令牌感知、层级定位的对比解码方法,该方法将特定类型的令牌与其最具影响力的Transformer层级对齐,以提升事实生成的准确性。通过实证注意力分析,我们识别出两种关键模式:标点符号令牌在早期层级中占据主导注意力,而概念性令牌则在中间层级主导语义推理。通过有选择性地抑制这些令牌类型在各自深度上的注意力,我们实现了受控的事实性退化诱导,并提取对比信号以指导最终的事实解码。我们的方法无需额外训练或模型修改,实验表明,该方法在多个LLMs及各类基准测试中均能持续提升事实准确性。
我们提出了MoVieS,一种新颖的前馈模型,能够在一秒内从单目视频中合成4D动态新视角。MoVieS采用像素对齐的高斯基元网格来表示动态3D场景,并显式监督其随时间变化的运动。这首次实现了外观、几何与运动的统一建模,并在单一学习框架内支持视角合成、重建及3D点追踪。通过将新视角合成与动态几何重建相结合,MoVieS能够在多样数据集上进行大规模训练,且对任务特定监督的依赖降至最低。因此,它自然支持多种零样本应用,如场景流估计和移动物体分割。大量实验验证了MoVieS在多项任务中的有效性和效率,不仅取得了竞争性的性能,还实现了数量级的速度提升。
近期,LLM-as-judge(大语言模型作为评判者)在评估大语言模型中的作用日益凸显。然而,现有的评判模型存在专业领域狭窄和鲁棒性不足的问题,限制了其进行全面评估的能力。本研究提出了CompassJudger-2,一种新型的通用评判模型,通过任务驱动、多领域数据筛选策略克服了上述局限。我们的方法核心在于利用可验证的奖励监督评判任务,通过拒绝采样引导内在的批判性推理,从而培养出稳健且可泛化的评判能力。我们引入了一种改进的学习目标,结合边际策略梯度损失以提升性能。实验表明,CompassJudger-2在多个评判和奖励基准测试中均取得了优异成果,其7B模型在评判准确性上可与DeepSeek-V3和Qwen3-235B-A22B等显著更大的模型相媲美。此外,我们提出了JudgerBenchV2,一个评估跨领域评判准确性和排名一致性的综合基准,旨在标准化评判模型的评估流程。这些贡献推动了鲁棒、可扩展的LLM评判技术的发展,并确立了新的性能与评估标准。
大型语言模型(LLMs)的发展需要涵盖学术领域及工业界的稳健基准,以有效评估其在现实场景中的适用性。本文中,我们引入了两个韩国专家级基准。KMMLU-Redux基于现有KMMLU重构而成,包含韩国国家技术资格考试题目,并剔除了关键错误以提高可靠性。KMMLU-Pro则依据韩国国家专业执照考试,旨在反映韩国的专业知识。实验表明,这些基准全面代表了韩国的工业知识。我们公开发布了该数据集。
主题一致性生成(SCG)——旨在跨多样场景保持主体身份一致——对文本到图像(T2I)模型而言仍是一大挑战。现有的无需训练的SCG方法虽能实现一致性,却常以牺牲布局与姿态多样性为代价,限制了视觉叙事的表达力。针对此局限,我们提出了主题一致且姿态多样的T2I框架,命名为CoDi,它能够在保持多样姿态与布局的同时,实现一致的主体生成。受扩散过程渐进特性的启发,即粗粒度结构早期显现而细节后期精修,CoDi采用两阶段策略:身份迁移(IT)与身份精炼(IR)。IT作用于去噪早期阶段,利用最优传输以姿态感知的方式将身份特征传递至每幅目标图像,既促进主题一致性又保留姿态多样性。IR则应用于去噪后期,选取最显著的身份特征以进一步细化主体细节。在主题一致性、姿态多样性及提示忠实度方面的大量定性与定量结果表明,CoDi在所有指标上均实现了更优的视觉感知与更强性能。代码已发布于https://github.com/NJU-PCALab/CoDi。
我们推出DreamPoster,一个文本到图像生成框架,它智能地综合用户提供的图像与文本提示,生成高质量海报,同时保持内容忠实度,并支持灵活的分辨率与布局输出。具体而言,DreamPoster基于我们的T2I模型Seedream3.0构建,统一处理各类海报生成任务。在数据集构建方面,我们提出了一套系统化的数据标注流程,精确标注海报图像中的文本内容及排版层级信息,并采用全面方法构建包含源材料(如原始图形/文本)及其对应最终海报输出的配对数据集。此外,我们实施了一种渐进式训练策略,使模型能够分层获取多任务生成能力,同时保持高质量生成。在我们的测试基准上进行的评估显示,DreamPoster相较于现有方法展现出显著优势,实现了高达88.55%的可用率,相比之下,GPT-4o为47.56%,SeedEdit3.0为25.96%。DreamPoster即将在吉梦及其他字节跳动应用上线。
提升大语言模型(LLMs)的数学推理能力是推动人工智能发展的关键挑战。尽管监督微调(SFT)和强化学习(RL)是当前主流的训练范式,但如何系统地将二者结合以同时最大化准确性和效率,仍是一个尚未充分探索的领域。本文提出了一种实用且高效的训练方案,该方案策略性地将扩展的SFT与基于在线推理的强化学习(GRPO)相结合。我们主张这些方法扮演着互补而非竞争的角色:首先,延长的SFT阶段将模型的准确性推向极限,随后,GRPO阶段在保持这一巅峰性能的同时,显著提升了令牌效率。我们的实验表明,将SFT扩展至多达10个周期对于性能突破至关重要,而GRPO在此框架中的主要作用是优化解答长度。通过在严格防泄漏的AI数学奥林匹克竞赛(AIMO)中,在超过2200支队伍中取得高排名的优异表现,我们严格验证了该方案的有效性。本工作为社区提供了一个经过实战检验的蓝图,用于开发既极其准确又实际高效的顶尖数学推理器。为确保完全可复现性并助力未来研究,我们将在https://github.com/analokmaus/kaggle-aimo2-fast-math-r1开源整个框架,包括所有代码、模型检查点和训练配置。
本文提出了一种新颖的可执行隐写方法,利用ICO图像文件的alpha透明层在网页浏览器中嵌入并传递自解压的JavaScript有效载荷。通过针对非透明alpha层图像值的最低有效位(LSB),该方法成功地将压缩的JavaScript代码隐藏在网站图标(favicon)图像中,且不影响视觉保真度。全球网络流量每天加载2940亿个网站图标,消耗0.9拍字节的网络带宽。概念验证实现表明,一个64x64的ICO图像最多可嵌入512字节的未压缩数据,或在使用轻量级双重压缩时嵌入0.8千字节的数据。页面加载时,浏览器作为标准行为获取网站图标,使得嵌入的加载脚本能够利用原生JavaScript API和画布像素访问,在内存中提取并执行有效载荷。这创建了一个无需额外网络或用户请求的两阶段隐蔽通道。在桌面和移动环境下的多种浏览器测试中,均确认了嵌入脚本的成功且静默执行。我们评估了威胁模型,将其与规避基于网站图标检测的多态钓鱼攻击相关联,并分析了规避内容安全策略和反病毒扫描器的情况。我们将MITRE ATT&CK框架中的九个示例目标映射到单行JavaScript代码,以在ICO文件中任意执行。讨论了现有的隐写分析和净化防御措施,强调了在检测或中和alpha通道利用方面的局限性。结果表明,这种隐秘且可重复利用的攻击面模糊了静态图像与可执行内容之间的传统界限。由于现代浏览器在开发者未能加载ICO文件时报告静默错误,这一攻击面提供了一个有趣的例子,展示了必要的网络行为如何反过来损害安全性。
作为宝贵的数字资产,深度神经网络亟需强有力的所有权保护,这使得神经网络水印技术(NNW)成为一种极具前景的解决方案。在众多NNW方法中,基于权重的方法因其简便性和实用性而备受青睐;然而,它们仍易遭受伪造和覆盖攻击。为应对这些挑战,我们提出了NeuralMark,一种围绕哈希水印滤波器构建的鲁棒方法。具体而言,我们利用哈希函数从密钥生成不可逆的二进制水印,随后将其作为滤波器选择模型参数进行嵌入。这一设计巧妙地将嵌入参数与哈希水印交织在一起,为抵御伪造和覆盖攻击提供了坚固防线。此外,我们还引入了平均池化以抵抗微调和剪枝攻击。更为重要的是,该方法能够无缝集成到多种神经网络架构中,确保了广泛的适用性。从理论上,我们分析了其安全边界;在实证层面,我们验证了其在13种不同的卷积和Transformer架构上的有效性与鲁棒性,涵盖了五项图像分类任务和一项文本生成任务。源代码已发布于https://github.com/AIResearch-Group/NeuralMark。
大型语言模型(LLMs)在自然语言理解和生成方面展现了令人瞩目的能力,但其生成的输出在逻辑一致性上存在问题。我们如何在利用LLMs广泛覆盖的参数化知识进行形式推理的同时,克服其不一致性?我们提出了一种方法,将LLM直接整合到一种次协调逻辑的形式语义解释函数中。通过使用从多个短篇事实性基准创建的数据集对该函数进行评估,我们提供了该方法可行性的实验证据。与先前工作不同,我们的方法为神经符号推理提供了一个理论框架,该框架在利用LLM知识的同时,保持了底层逻辑的可靠性和完备性特性。