每日精选AI研究论文及翻译
我们推出Qwen3-Omni,这是首个在文本、图像、音频和视频多模态任务中均保持顶尖性能,且相较于单模态模型无任何性能下降的统一多模态模型。Qwen3-Omni在Qwen系列同规模单模态模型的基础上,尤其在音频任务上表现卓越。在36项音频及音视频基准测试中,Qwen3-Omni在32项上实现了开源领域的最优成绩(SOTA),并在22项上整体领先,超越了如Gemini-2.5-Pro、Seed-ASR和GPT-4o-Transcribe等强大的闭源模型。Qwen3-Omni采用Thinker-Talker混合专家(MoE)架构,统一了跨文本、图像、音频和视频的感知与生成能力,实现了流畅的文本输出和自然的实时语音合成。它支持119种语言的文本交互、19种语言的语音理解及10种语言的语音生成。为降低流式合成中的首包延迟,Talker通过多码本方案自回归预测离散语音编解码。利用这些码本的表征能力,我们以轻量级因果卷积网络替代了计算密集型的块级扩散,实现了从首个编解码帧开始的流式处理。在冷启动环境下,Qwen3-Omni理论上的端到端首包延迟低至234毫秒。为进一步增强多模态推理能力,我们引入了Thinking模型,它能够对来自任何模态的输入进行显式推理。鉴于研究界目前缺乏通用音频描述模型,我们对Qwen3-Omni-30B-A3B进行了微调,得到Qwen3-Omni-30B-A3B-Captioner,该模型能为任意音频输入生成详细且低幻觉的描述。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking及Qwen3-Omni-30B-A3B-Captioner已根据Apache 2.0许可证公开发布。
我们将“智能代理能力”定义为AI系统作为自主代理涌现出的能力,这种能力使其能够主动发现问题、提出假设,并通过与环境及工具的自发互动执行解决方案。这一核心能力标志着“AI代理时代”的开启,其背后是行业的一个关键转变:迫切需要AI系统不仅能思考,更能实际工作。尽管当前AI在推理和生成响应方面表现出色,但各行业更期待能执行任务、操作工具并推动现实成果的自主代理。随着代理智能成为区分认知系统与生产性工作者的关键特征,高效培养机器自主性变得至关重要。现有方法沿袭语言模型的传统扩展定律,认为更多数据能带来更好的代理能力。我们从根本上挑战这一范式。LIMI(少即是多,智能代理之道)证明,代理能力遵循截然不同的发展原则。通过战略性地聚焦于协作软件开发与科研工作流,我们展示了复杂的代理智能可以从少量但精心策划的自主行为示范中涌现。仅使用78个精心设计的训练样本,LIMI在综合代理能力基准测试中取得了73.5%的成绩,显著超越了当前最先进的模型:Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)、Qwen3-235B-A22B-Instruct(27.5%)和GLM-4.5(45.1%)。尤为引人注目的是,LIMI相比使用10,000个样本训练的模型提升了53.7%的性能,以128倍少的样本实现了更优的代理智能。我们的研究确立了“代理效率原则”:机器自主性并非源于数据量的堆积,而是源于对高质量代理示范的战略性筛选。
基于扩散模型的视频插入技术近期取得了显著进展。然而,现有方法依赖复杂的控制信号,却在主体一致性上表现欠佳,限制了其实际应用。本文聚焦于无掩码视频插入任务,旨在解决三大关键挑战:数据稀缺、主体-场景平衡以及插入协调。针对数据稀缺问题,我们提出了一种新的数据管道InsertPipe,自动构建多样化的跨对数据。在此基础上,我们开发了OmniInsert,一个新颖的统一框架,用于从单主体和多主体参考中进行无掩码视频插入。具体而言,为保持主体-场景平衡,我们引入了一种简单而有效的条件特定特征注入机制,以清晰注入多源条件,并提出了一种渐进式训练策略,使模型能够平衡来自主体和源视频的特征注入。同时,我们设计了主体聚焦损失函数,以提升主体的细节表现。为进一步增强插入协调性,我们提出了一种插入偏好优化方法,通过模拟人类偏好来优化模型,并在参考过程中融入上下文感知重述模块,使主体无缝融入原始场景。针对该领域缺乏基准测试的问题,我们推出了InsertBench,一个包含多样化场景与精心挑选主体的综合基准。在InsertBench上的评估表明,OmniInsert超越了最先进的闭源商业解决方案。代码即将公开。
我们推出元智能体研究环境(Meta Agents Research Environments, ARE),这是一个用于可扩展环境创建、合成或真实应用集成以及智能体编排执行的研究平台。ARE提供了简洁的抽象层,用于构建复杂多样的环境,每个环境都拥有其独特的规则、工具、内容和验证机制,从而弥合模型开发与实际部署之间的鸿沟。我们还提出了Gaia2,这是一个在ARE中构建的基准测试,旨在衡量智能体的通用能力。除了搜索与执行,Gaia2要求智能体能够处理模糊性和噪声,适应动态环境,与其他智能体协作,并在时间约束下运作。与以往基准不同,Gaia2以异步方式运行,揭示了静态设置中不可见的新失效模式。我们的实验表明,在智能光谱上,没有系统能全面领先:更强的推理能力往往以效率为代价,预算扩展曲线趋于平缓,这凸显了对新架构和自适应计算策略的需求。更重要的是,ARE的抽象层使得Gaia2能够持续扩展至其他环境,赋能社区快速创建针对其领域定制的新基准。在人工智能发展的后半程,进步愈发依赖于定义有意义任务和稳健评估,以推动前沿能力向前发展。
尽管业界对在工业搜索和推荐系统中复制大规模语言模型(LLMs)成功经验的兴趣日益增长,但大多数现有的工业实践仍局限于移植Transformer架构,这仅能在强大的深度学习推荐模型(DLRMs)基础上带来渐进式改进。从基本原理来看,LLMs的突破不仅源于其架构,还得益于两种互补机制:上下文工程,通过丰富原始输入查询的上下文线索以更好地激发模型能力;以及多步推理,通过中间推理路径迭代优化模型输出。然而,在工业排序系统中,这两种机制及其释放显著改进潜力的可能性仍大多未被充分探索。 本文中,我们提出了OnePiece,一个统一框架,将LLM风格的上下文工程和推理无缝集成到工业级级联管道的检索与排序模型中。OnePiece基于纯Transformer架构,并进一步引入了三项关键创新:(1)结构化上下文工程,通过偏好和场景信号增强交互历史,并将其统一为结构化、令牌化的输入序列,适用于检索与排序;(2)分块潜在推理,赋予模型多步表示精炼能力,并通过块大小扩展推理带宽;(3)渐进式多任务训练,利用用户反馈链有效监督训练过程中的推理步骤。OnePiece已在Shopee的主要个性化搜索场景中部署,并在不同关键业务指标上实现了持续的在线增益,包括超过+2%的GMV/UU和+2.90%的广告收入增长。
本文介绍了TempSamp-R1,一种新型的强化微调框架,旨在提升多模态大语言模型(MLLMs)在视频时序定位任务中的适应效果。我们发现,现有的强化学习方法,如群体相对策略优化(GRPO),依赖于同策略采样进行策略更新。然而,在具有大时序搜索空间的任务中,这一策略不仅效率低下,且性能受限,往往难以找到时序上精确的解决方案。为克服这一局限,TempSamp-R1利用真实标注作为异策略监督,提供时序精确的指导,有效弥补了同策略解决方案中的稀疏性和不对齐问题。为进一步稳定训练并减少基于奖励更新的方差,TempSamp-R1提出了一种非线性软优势计算方法,通过非对称变换动态重塑奖励反馈。通过采用混合思维链(CoT)训练范式,TempSamp-R1优化了一个单一的统一模型,以支持CoT和非CoT推理模式,从而高效处理不同推理复杂度的查询。实验结果表明,TempSamp-R1超越了基于GRPO的基线,在基准数据集上确立了新的最先进性能:Charades-STA(R1@0.7:52.9%,+2.7%)、ActivityNet Captions(R1@0.5:56.0%,+5.3%)和QVHighlights(mAP:30.0%,+3.0%)。此外,TempSamp-R1在有限数据下展现了强大的少样本泛化能力。代码地址:https://github.com/HVision-NKU/TempSamp-R1
本文提出VideoFrom3D,一种创新框架,用于从粗略几何、相机轨迹及参考图像合成高质量的三维场景视频。该方法简化了三维图形设计流程,支持灵活的设计探索与快速生成交付成果。直接从粗略几何合成视频的直观做法可能是基于几何结构条件化视频扩散模型。然而,现有视频扩散模型在复杂场景下难以生成高保真结果,因其难以同时建模视觉质量、运动及时序一致性。为此,我们提出一种生成框架,融合图像与视频扩散模型的互补优势。具体而言,该框架包含稀疏锚点视图生成(SAG)模块和几何引导生成插帧(GGI)模块。SAG模块利用图像扩散模型,在稀疏外观引导采样的辅助下,生成高质量、跨视图一致的锚点视图。基于这些锚点视图,GGI模块通过视频扩散模型,结合基于光流的相机控制与结构引导,忠实插值中间帧。值得注意的是,两个模块均无需依赖任何成对的三维场景模型与自然图像数据集,这类数据极难获取。全面实验表明,我们的方法在多样且具挑战性的场景下,能生成高质量、风格一致的场景视频,表现优于简单及扩展的基线方法。
在线强化学习(RL)在语言模型的后训练中占据核心地位,但其向扩散模型的扩展因难以处理的似然性而面临挑战。近期研究通过离散化反向采样过程实现了GRPO风格的训练,但这些方法仍存在根本性缺陷,包括求解器限制、前向-反向不一致性,以及与无分类器引导(CFG)的复杂整合。我们提出了扩散负感知微调(DiffusionNFT),这是一种新的在线RL范式,它通过流匹配直接在正向过程中优化扩散模型。DiffusionNFT通过对比正负生成来定义隐式的策略改进方向,自然地将强化信号融入监督学习目标。这一表述允许使用任意黑箱求解器进行训练,无需似然估计,且仅需干净图像而非采样轨迹来进行策略优化。在直接比较中,DiffusionNFT的效率比FlowGRPO高出多达25倍,同时无需CFG。例如,DiffusionNFT在1千步内将GenEval评分从0.24提升至0.98,而FlowGRPO需超过5千步并额外使用CFG才能达到0.95。通过利用多个奖励模型,DiffusionNFT显著提升了SD3.5-Medium在所有测试基准中的表现。
我们推出SWE-Bench Pro,这是一个显著更具挑战性的基准测试,它建立在SWE-BENCH[25]的最佳实践基础之上,但明确设计用于捕捉超出SWE-BENCH范围的现实、复杂、企业级问题。SWE-BENCH PRO包含来自41个活跃维护的多样化仓库的1,865个问题,涵盖商业应用、B2B服务和开发者工具。该基准测试被划分为一个公开集,包含来自11个仓库的开放访问问题;一个保留集,包含12个仓库;以及一个商业集,包含18个专有仓库,这些仓库与早期初创公司有正式合作协议。保留集和商业集中的问题不公开访问,但我们发布了商业集上的结果。我们的基准测试以长周期任务为特色,这些任务可能需要专业软件工程师数小时至数天完成,通常涉及跨多个文件的补丁和大量代码修改。所有任务均经过人工验证,并补充了足够的上下文以确保可解决性。在对广泛使用的编码模型进行统一框架下的评估中,我们观察到它们在SWE-Bench PRO上的表现仍低于25%(Pass@1),其中GPT-5以23.3%的成绩创下迄今为止的最高分。为了更好地理解这些局限性,我们对收集到的代理轨迹中的失败模式进行了聚类,以更清晰地描述当前模型表现出的错误模式。总体而言,SWE-BENCH PRO提供了一个抗污染测试平台,更真实地捕捉了现实世界软件开发的复杂性和多样性,推动了专业级真正自主软件工程代理的追求。
近期,大语言模型(LLMs)在上下文长度上的突破,使得智能助手能够维持长对话历史,从而提供连贯且个性化的响应。然而,这一能力依赖于键值(KV)缓存,其内存随对话长度线性增长,在严格资源限制下迅速成为瓶颈。为降低这一开销,KV缓存压缩成为研究热点,旨在限制缓存大小同时保持准确性。但现有方法面临两大局限:(一)全上下文预填充后逐出条目导致峰值内存无界;(二)依赖查询的逐出策略将缓存局限于单一查询,导致多轮对话准确性下降。我们提出EpiCache,一种无需训练的KV缓存管理框架,专为固定内存预算下的长对话问答(LongConvQA)设计。EpiCache通过分块预填充限制缓存增长,并采用情节式KV压缩保留话题相关上下文,即将对话历史聚类为连贯情节并实施情节特定的KV缓存逐出。此外,我们设计了一种自适应分层预算分配策略,通过衡量各层对逐出的敏感度,相应分配内存预算。在三个LongConvQA基准测试中,EpiCache较近期基线模型提升准确性最高达40%,在4-6倍压缩下保持接近全KV的准确性,并将延迟和内存分别减少最多2.4倍和3.5倍,从而在严格资源限制下实现高效的多轮交互。
近期强化学习(RL)的进展提升了大型语言模型(LLM)的推理能力,但对多模态大语言模型(MLLM)的影响有限。特别是在几何推理等视觉密集型任务中,MLLM经常产生幻觉,导致推理不准确。我们将此归因于MLLM中的感知瓶颈,它限制了推理训练的收益。为了量化这一问题,我们设计了一个几何感知问答基准(GeoPQA),针对基本几何概念和空间关系。在GeoPQA上的实验揭示了MLLM在视觉感知方面的显著不足,这制约了RL奖励信号的有效训练。为解决这一瓶颈,我们提出了一个两阶段RL训练框架,首先增强对几何结构的视觉感知,然后培养推理能力。应用于Qwen2.5-VL-3B-Instruct模型时,与直接推理训练方法相比,我们的两阶段训练使几何推理提升了9.7%,几何问题解决能力提高了9.1%。我们的方法还推广到其他视觉密集型领域,如图表理解,凸显了感知基础在MLLM有效推理中的重要性。
本文介绍了一种新型高度灵活且拟人化的并行腕部装置——ByteWrist,专为机器人操作设计。ByteWrist通过集成弧形末端连杆的紧凑型三级并行驱动机制,有效解决了现有串行和并行腕部在狭小空间操作中的关键限制。该设计在实现精确RPY(滚转-俯仰-偏航)运动的同时,保持了卓越的紧凑性,使其特别适用于家庭服务、医疗辅助和精密装配等复杂非结构化环境。主要创新点包括:(1) 嵌套式三级电机驱动连杆,在最小化体积的同时实现独立多自由度控制;(2) 弧形末端连杆,优化力传递并扩大运动范围;(3) 作为球面关节的中心支撑球,在不牺牲灵活性的前提下增强结构刚度。此外,我们提供了全面的运动学建模,包括正/逆运动学及用于精确控制的数值雅可比矩阵解法。实验表明,ByteWrist在狭小空间机动性和双臂协同操作任务中表现出色,优于基于Kinova的系统。与传统设计相比,ByteWrist在紧凑性、效率和刚度方面均有显著提升,确立了其作为受限环境下新一代机器人操作解决方案的潜力。
我们对当前的大型推理模型(LRMs)进行了一项中等规模、在一定程度上无污染的评估,并得出了一些初步发现。同时,我们发布了ROME,这是一个旨在测试视觉线索推理能力的视觉语言模型评估基准。我们在此网站上附上了基准测试、评估数据及其他更新的链接: https://flageval-baai.github.io/LRM-Eval/
大型语言模型(LLMs)在预训练阶段获取了大量世界知识,这些知识随后通过监督微调(SFT)等后训练技术得到进一步塑造。然而,SFT对模型知识的影响仍未被充分探索,这限制了我们控制微调模型知识变化行为的能力。为填补这一空白,我们评估了来自LLaMA-2和LLaMA-3家族的五个LLM在闭卷问答(CBQA)任务中的表现。令人惊讶的是,使用1,920个样本微调的模型表现比仅用240个样本微调的模型差高达14%。此外,微调数据中知识掌握程度的变化会导致性能波动超过12%。为探究这些效应,我们从标记和参数两个层面分析了模型行为。分析表明,SFT过程中高达90%的参数更新并未促进知识增强。根据微调数据的特性,恢复这些更新可以提升CBQA任务的表现。这些见解为开发更有效强化模型知识的微调策略提供了实用指导。
大型语言模型(LLM)开发者致力于使模型诚实、有益且无害。然而,面对恶意请求时,模型被训练为拒绝响应,从而牺牲了其有益性。我们揭示,前沿的LLM可能发展出一种偏好,即采用不诚实作为新策略,即便其他选择存在。受影响的模型在应对有害请求时,会生成听起来有害但实际上微妙错误或无害的输出。这种行为在难以预测的变体中显现,即便在同一模型家族内部也是如此。我们未发现欺骗倾向的明显原因,但证明能力更强的模型更擅长执行这一策略。战略性不诚实已对安全评估产生实际影响,因为我们展示,不诚实的响应能够欺骗所有用于检测越狱的输出监控器,使得基准分数不可靠。此外,战略性不诚实可充当针对恶意用户的蜜罐,显著混淆了先前的越狱攻击。尽管输出监控失效,我们证明,对内部激活的线性探针可可靠检测战略性不诚实。我们通过在可验证结果的数据集上验证探针,并利用其特征作为导向向量,来确认其有效性。总体而言,我们将战略性不诚实视为一个具体例证,反映了LLM对齐难以控制的更广泛问题,尤其是在有益性与无害性发生冲突时。
对大型语言模型(LLMs)高效部署的需求,推动了量化技术以减少推理成本,以及参数高效微调(PEFT)以降低训练开销的研究热潮。这促使了量化感知PEFT的发展,旨在生成既精确又高效的量化模型。在此背景下,微调前减少量化误差对于实现高模型精度至关重要。然而,现有依赖低秩适应的方法存在表示能力有限的问题。近期基于傅里叶相关变换(FT)的适配器虽提供了比低秩适配器更强的表示能力,但直接将其整合到量化模型中往往导致误差减少效果不佳且计算开销增加。为克服这些局限,我们提出了QWHA方法,该方法通过采用沃尔什-哈达玛变换(WHT)作为变换核,并结合一种包含自适应参数选择与值优化的新型适配器初始化方案,将基于FT的适配器集成到量化模型中。我们证明,QWHA有效缓解了量化误差,促进了微调过程,并且其设计大幅降低了计算成本。实验结果显示,QWHA在低比特量化精度上持续超越基线方法,并在训练速度上相较于现有基于FT的适配器实现了显著提升。相关代码已发布于https://github.com/vantaa89/qwha。
图形用户界面(GUI)是人机交互的主要媒介,然而,由于视觉元素的复杂性、动态环境以及多步骤推理的需求,自动化GUI交互仍面临挑战。现有的基于视觉语言模型(VLM)的方法常受限于分辨率不足、领域不匹配及序列决策能力欠缺等问题。为解决这些问题,我们提出了Mano,一个构建于多模态基础模型之上的鲁棒GUI代理,该模型在大量网页和计算机系统数据上进行了预训练。我们的方法整合了一个新颖的模拟环境用于高保真数据生成,一个三阶段训练流程(监督微调、离线强化学习和在线强化学习),以及一个用于错误恢复的验证模块。Mano在多个GUI基准测试中,包括Mind2Web和OSWorld,展现了最先进的性能,在成功率和操作准确性上实现了显著提升。我们的工作为将强化学习与VLM有效结合以实际部署GUI代理提供了新见解,强调了领域特定数据、迭代训练及整体奖励设计的重要性。
我们提出了一种名为合成引导预训练(Synthetic Bootstrapped Pretraining, SBP)的语言模型预训练方法。该方法首先从预训练数据集中学习文档间关系的模型,随后利用该模型合成一个庞大的新语料库进行联合训练。传统的预训练方法主要教导语言模型学习单个文档内标记间的因果关联,而并未设计用于高效建模那些可学习的、丰富的文档间关联,这些关联可能带来更优的性能。我们通过设计计算资源匹配的预训练设置,并从头开始预训练一个包含30亿参数的模型,使用多达1万亿个标记,验证了SBP的有效性。研究发现,SBP在强重复基线之上持续提升,实现了接近通过访问20倍独特数据所能达到的性能提升的显著部分。定性分析显示,合成文档超越了简单的改写——SBP首先从原始材料中提炼核心概念,然后在此基础上构建新的叙述。除了卓越的实证表现,SBP还自然地契合贝叶斯解释:合成器隐式地学习抽象出相关文档间共享的潜在概念。
通用多模态嵌入模型在捕捉查询与候选对象间的语义关联方面取得了显著成功。然而,现有方法要么将查询和候选对象压缩为单一向量,可能限制了细粒度信息的表达能力,要么生成过多向量,导致多向量检索成本过高。本研究中,我们提出了MetaEmbed,一个重新思考大规模多模态嵌入构建与交互的新框架。在训练阶段,固定数量的可学习元标记被附加到输入序列中。测试时,这些标记在最后一层的上下文表示作为紧凑而富有表现力的多向量嵌入。通过提出的嵌套多向量检索训练,MetaEmbed学会了跨多个向量按粒度组织信息。因此,我们实现了多模态检索中的测试时扩展,用户可根据检索质量与效率需求,选择用于索引和检索交互的标记数量。在Massive Multimodal Embedding Benchmark (MMEB) 和 Visual Document Retrieval Benchmark (ViDoRe) 上的广泛评估证实,MetaEmbed在保持对32B参数模型稳健扩展的同时,达到了最先进的检索性能。
无需训练的视频对象编辑旨在实现精确的对象级操作,包括对象插入、替换和删除。然而,在保持保真度和时间一致性方面,它面临着重大挑战。现有方法通常为U-Net架构设计,存在两个主要局限:由于一阶求解器导致的逆变换不准确,以及粗糙的“硬”特征替换引发的上下文冲突。这些问题在扩散变换器(DiTs)中更为棘手,因为先前层选择启发式方法的不适用性使得有效指导变得困难。为解决这些局限,我们引入了ContextFlow,一种基于DiT的无需训练视频对象编辑新框架。具体而言,我们首先采用高阶校正流求解器建立稳健的编辑基础。框架的核心是自适应上下文增强机制(用于指定编辑内容),该机制通过并行重建与编辑路径中的键值对连接,丰富自注意力上下文,使模型能够动态融合信息,而非直接替换特征。此外,为确定应用此增强的位置(用于指定编辑位置),我们提出了一种系统化、数据驱动的分析,以识别任务关键层。基于新颖的指导响应度度量,我们的方法精确定位了不同任务(如插入、替换)中最具影响力的DiT模块,实现了精准且高效的指导。大量实验表明,ContextFlow显著超越了现有的无需训练方法,甚至优于多种基于训练的最先进技术,提供了时间连贯、高保真的编辑结果。
大规模语言模型(LLMs)的广泛应用因其倾向于产生幻觉——生成看似合理但事实错误的信息——而受到阻碍。尽管检索增强生成(RAG)系统试图通过将响应基于外部知识来解决这一问题,但幻觉现象仍然是一个持续存在的挑战,特别是对于形态复杂、资源匮乏的语言如土耳其语。本文介绍了Turk-LettuceDetect,这是首个专为土耳其语RAG应用设计的幻觉检测模型套件。基于LettuceDetect框架,我们将幻觉检测构建为一项令牌级分类任务,并对三种不同的编码器架构进行了微调:专门针对土耳其语的ModernBERT、TurkEmbed4STS以及多语言的EuroBERT。这些模型在机器翻译的RAGTruth基准数据集上进行了训练,该数据集包含17,790个实例,涵盖问答、数据到文本生成和摘要任务。实验结果显示,基于ModernBERT的模型在整个测试集上达到了0.7266的F1分数,在结构化任务上表现尤为突出。这些模型在支持长达8,192个令牌的长上下文的同时保持了计算效率,使其适合实时部署。对比分析表明,尽管最先进的LLMs展现出高召回率,但由于过度生成幻觉内容,其精确度较低,这凸显了专门检测机制的必要性。通过发布我们的模型和翻译后的数据集,这项工作填补了多语言自然语言处理中的一个关键空白,并为开发更可靠、值得信赖的土耳其语及其他语言AI应用奠定了基础。
交叉注意力是编码器-解码器架构中的核心机制,广泛应用于包括语音转文本(S2T)处理在内的多个领域。其得分已被重新用于各种下游应用——如时间戳估计和音频文本对齐——基于其反映了输入语音表示与生成文本之间依赖关系的假设。尽管在更广泛的自然语言处理(NLP)文献中,注意力机制的解释性已引发广泛讨论,但这一假设在语音领域仍鲜有探索。为填补这一空白,我们通过将交叉注意力得分与源自特征归因的输入显著性图进行比较,评估了S2T模型中交叉注意力的解释能力。我们的分析涵盖了单语和多语、单任务和多任务模型,并在多个尺度上展开,结果表明,注意力得分与基于显著性的解释存在中度到高度的对齐,尤其是在跨头跨层聚合时。然而,研究也显示,交叉注意力仅捕捉了约50%的输入相关性,在最佳情况下,也仅部分反映了解码器如何关注编码器的表示——仅占显著性的52-75%。这些发现揭示了将交叉注意力作为解释性代理的根本局限性,表明它虽提供了S2T模型预测驱动因素的有益视角,却并不完整。
将推荐模型扩展为大规模推荐模型已成为最广泛讨论的话题之一。近期研究重点已超越单纯扩展嵌入维度,因为人们认为单纯扩展嵌入可能导致性能下降。尽管已有一些关于嵌入的初步观察,但其不可扩展性的根本原因仍不明确。此外,性能下降是否在不同类型模型和数据集上普遍存在,仍是一个未探索的领域。针对嵌入维度对性能的影响,我们在10个稀疏度和规模各异的数据集上,采用4种代表性经典架构进行了大规模实验。我们意外地观察到了两种新现象:双峰现象和对数现象。对于前者,随着嵌入维度的增加,性能先提升后下降,再次上升,最终回落;对于后者,则呈现出完美的对数曲线。我们的贡献有三方面:首先,我们在扩展协同过滤模型时发现了两种新现象;其次,我们深入理解了双峰现象背后的原因;最后,我们从理论上分析了协同过滤模型的噪声鲁棒性,其结果与实证观察相符。
近期,大型多模态模型(LMMs)的进展彰显了其作为通用多模态助手的显著成功,特别是在整体图像与视频语言理解方面。然而,对于扩展细粒度像素级理解能力的研究关注较少,这类能力要求模型实现视觉信号与语言语义间的像素级对齐。以往一些研究已将LMMs应用于区域级描述和指代表达分割等相关任务,但这些模型仅限于独立执行指代或分割任务,未能将这些细粒度感知能力整合进视觉推理中。为填补这一空白,我们提出了UniPixel,一个能够灵活理解视觉提示输入并生成基于掩码响应的大型多模态模型。我们的模型独特之处在于无缝整合了像素级感知与通用视觉理解能力。具体而言,UniPixel处理视觉提示并按需生成相关掩码,在推理过程中基于这些中间指针进行后续推理,从而实现了细粒度的像素级推理。我们方法的有效性已在涵盖像素级指代/分割及图像/视频中对象中心理解等多样化任务的10个基准测试中得到验证。此外,还设计了一个新颖的PixelQA任务,该任务联合要求指代、分割和问答,以验证我们方法的灵活性。
我们推出“推理核心”(Reasoning Core),这是一个为可验证奖励强化学习(RLVR)设计的新型可扩展环境,旨在提升大型语言模型(LLMs)的基础符号推理能力。与现有专注于游戏或孤立谜题的基准不同,推理核心程序化地生成涵盖核心形式领域的问题,包括PDDL规划、一阶逻辑、上下文无关文法解析、因果推理以及系统方程求解。该环境建立在关键设计原则之上:高通用性的问题分布、通过外部工具进行验证以及持续难度控制,这些原则共同提供了近乎无限的新颖训练实例。对前沿LLMs的初步零样本评估证实了推理核心任务的挑战性,使其成为提升未来模型推理能力的有力资源。
当前最先进的自动驾驶车辆在道路上遇到大型邻近物体遮挡本地传感器时,可能会面临安全关键情境。车对车(V2V)协同自动驾驶被提出作为解决这一问题的手段,而近期引入的一个协同自动驾驶框架更进一步采纳了整合多模态大语言模型(MLLM)的方法,以融合协同感知与规划过程。然而,尽管将思维图推理应用于MLLM具有潜在优势,这一想法在以往的协同自动驾驶研究中尚未被考虑。本文中,我们提出了一种专为基于MLLM的协同自动驾驶设计的全新思维图框架。我们的思维图包含了我们提出的遮挡感知与规划感知预测的新颖理念。我们构建了V2V-GoT-QA数据集,并开发了V2V-GoT模型,用于训练和测试协同驾驶的思维图。实验结果表明,我们的方法在协同感知、预测及规划任务上均优于其他基线方法。
大型语言模型(LLMs)的安全性与对齐性对其负责任部署至关重要。当前的评估方法主要集中于识别和防止明显有害的输出。然而,这些方法往往未能解决一种更为隐蔽的故障模式:模型在内部进行恶意或欺骗性推理的同时,生成表面无害的输出。这种漏洞通常由复杂的系统提示注入触发,使模型能够绕过常规的安全过滤器,构成一个重大且尚未充分探索的风险。为填补这一空白,我们引入了欺骗性推理暴露套件(D-REX),这是一个新颖的数据集,旨在评估模型内部推理过程与其最终输出之间的差异。D-REX通过竞争性的红队演练构建,参与者设计对抗性系统提示以诱导此类欺骗行为。D-REX中的每个样本包含对抗性系统提示、终端用户的测试查询、模型看似无害的响应,以及关键的模型内部思维链,揭示了潜在的恶意意图。我们的基准测试促进了一项新的、至关重要的评估任务:欺骗性对齐的检测。我们证明,D-REX对现有模型和安全机制构成了重大挑战,凸显了迫切需要开发新技术来审查LLMs的内部过程,而不仅仅是其最终输出。
即便不直接聆听声音,人类也能凭借听觉常识轻松推断出音高、响度或声源关联等听觉属性。相比之下,语言模型往往欠缺这一能力,限制了其在多模态交互中的效能。为填补这一空白,我们迈出了初步的一步,推出了AuditoryBench++,这是一个全面的基准测试,旨在评估纯文本环境下的听觉知识与推理能力。该基准涵盖从基础听觉比较到情境化推理的多种任务,使得对模型如何处理和整合听觉概念的细致分析成为可能。此外,我们引入了AIR-CoT,一种新颖的听觉想象推理方法,它通过特殊标记的跨度检测与知识注入,在推理过程中生成并整合听觉信息。对近期大型语言模型及多模态大型语言模型的大量实验表明,AIR-CoT普遍优于未经增强的现成模型以及那些仅通过听觉知识增强的模型。项目页面可通过https://auditorybenchpp.github.io访问。
本文探讨了在合并大型神经网络低秩适配时面临的挑战。随着参数高效适配技术(如低秩适配LoRA)的兴起,模型微调变得更加便捷。尽管使用LoRA进行模型微调极为高效,现有合并方法往往通过合并全尺寸权重矩阵牺牲了这一效率。我们提出了核心空间合并框架,该框架能够在共同对齐基础上合并LoRA适配模型,从而在保持低秩适配效率的同时,显著提升跨任务准确率。我们进一步提供了形式化证明,表明投影至核心空间可确保信息无损,并通过复杂度分析展示了效率提升。大量实证结果表明,核心空间显著改进了现有合并技术,在视觉与语言任务上均取得了最先进的成果,同时仅消耗少量计算资源。代码库已发布于https://github.com/apanariello4/core-space-merging。
强化学习已成为提升大语言模型(LLMs)推理能力的核心技术。然而,现有算法对所有令牌采用统一的优化策略,忽视了它们在推理过程中的不同作用。针对这一局限,我们提出了异构自适应策略优化(Heterogeneous Adaptive Policy Optimization, HAPO),这是一种全面的令牌感知算法,能够根据令牌熵动态调整优化策略。在采样阶段,我们提出了自适应温度采样(Adaptive Temperature Sampling),实时调整采样温度,促进高熵令牌的探索,同时保持低熵令牌的连贯性。在优势计算方面,我们引入了令牌级别组平均(Token Level Group Average),在令牌层面归一化优势值,既考虑了序列长度(如令牌平均损失),又确保了无偏处理。随后,我们开发了差分优势重分配(Differential Advantage Redistribution),利用熵和重要性比率来调节奖励更新,针对具有明确信号的令牌进行调整。对于裁剪损失,我们设计了非对称自适应裁剪(Asymmetric Adaptive Clipping),允许对噪声低熵令牌进行激进的概率削减,同时为高熵令牌保留探索空间。通过对熵与训练动态的系统性研究,我们将令牌级处理嵌入到每个阶段,实现了精细控制。大量实验表明,HAPO在多个模型规模上均持续优于DAPO。我们的代码可在https://github.com/starriver030515/HAPO找到。
开源AI生态系统中隐藏的许可证冲突带来了严重的法律和道德风险,使组织面临潜在诉讼,用户则暴露于未披露的风险之中。然而,该领域缺乏对这些冲突发生频率、起源地及受影响最严重社区的数据驱动理解。我们首次对Hugging Face上的数据集和模型许可证及其下游集成至开源软件应用进行了端到端审计,涵盖36.4万个数据集、160万个模型及14万个GitHub项目。我们的实证分析揭示了系统性的违规现象,其中35.5%的模型到应用转换通过重新许可在宽松条款下,移除了限制性许可条款。此外,我们原型化了一个可扩展的规则引擎,该引擎编码了近200条SPDX及模型特定条款,用于检测许可证冲突,能够解决软件应用中86.4%的许可证冲突问题。为支持未来研究,我们公开了数据集及原型引擎。本研究强调许可证合规是开源AI中的一项关键治理挑战,并提供了实现自动化、AI感知的大规模合规所需的数据与工具。
我们提出了perioperation这一机器人数据采集范式,它通过传感和记录人类操作行为,最大限度地提升数据向真实机器人的可迁移性。我们在DEXOP中实现了这一范式,DEXOP是一种被动式手部外骨骼,旨在增强人类在自然环境中为多种灵巧操作任务收集丰富感官(视觉+触觉)数据的能力。DEXOP将人类手指与机器人手指机械连接,通过本体感觉为用户提供直接接触反馈,并将人手姿态镜像至被动机器人手,以最大化演示技能向机器人的转移。与远程操作相比,力反馈和姿态镜像使任务演示对人类而言更为自然,从而提高了速度和准确性。我们在一系列涉及密集接触的灵巧任务中评估了DEXOP,证明了其大规模收集高质量演示数据的能力。利用DEXOP数据学习到的策略,在单位数据收集时间内显著提升了任务表现,使DEXOP成为推动机器人灵巧性发展的有力工具。我们的项目页面位于https://dex-op.github.io。
基于扩散的大型语言模型(DLLMs)作为自回归解码器的替代方案,近期引起了越来越多的关注。在本研究中,我们探讨了使用扩散型大型语言模型LLaDA进行自动语音识别(ASR)的实证研究。首先,我们考察了其作为Whisper-LLaMA转录本外部审议处理模块的应用。通过利用LLaDA的双向注意力机制和去噪能力,我们探索了随机掩码、低置信度掩码及半自回归策略,结果表明Whisper-LLaDA相较于基线显著降低了词错误率(WER)。在LibriSpeech数据集上,最佳级联系统在test-clean/test-other上分别达到了2.25%/4.94%的WER,相较于Whisper-LLaMA基线在test-other子集上实现了12.3%的相对提升。相比之下,未结合声学特征的纯文本LLaDA未能提升识别精度,凸显了音频条件嵌入的重要性。我们进一步评估了Whisper-LLaDA作为独立解码器在ASR任务中的表现,采用扩散型与半自回归解码策略。尽管大多数实验配置在推理速度上快于Whisper-LLaMA基线,但识别精度略有下降。这些发现为基于扩散的LLMs在ASR领域的应用提供了实证视角,并指明了未来改进的潜在方向。
贝叶斯优化(BO)的效率在很大程度上依赖于高斯过程(GP)核的选择,该核在有限的评估预算下对探索与利用的平衡起着核心作用。传统的BO方法通常依赖于固定或启发式的核选择策略,当所选核与目标函数不匹配时,可能导致收敛缓慢或次优解。为解决这一局限,我们提出了一种新颖的上下文感知核进化方法(CAKE),通过大型语言模型(LLMs)增强BO。具体而言,CAKE利用LLMs作为交叉和变异算子,在整个优化过程中根据观测数据自适应地生成并优化GP核。为最大化CAKE的效能,我们进一步提出了BIC-获取核排序(BAKER),通过平衡由贝叶斯信息准则(BIC)衡量的模型拟合度与每次BO迭代的期望改进,选择最有效的核。大量实验表明,基于CAKE的新BO方法在一系列实际任务中,包括超参数优化、控制器调谐和光子芯片设计,均显著优于现有基线。我们的代码已公开于https://github.com/cake4bo/cake。
大型语言模型(LLMs)在多种任务和应用中得到了广泛使用。然而,尽管其功能强大,研究表明它们因缺乏文化知识和能力而存在文化对齐不足的问题,并产生带有偏见的生成内容。由于缺乏适当的评估指标以及代表区域和次区域层面文化复杂性的文化基础数据集,评估LLMs的文化意识和对齐性尤为困难。现有的文化特定项目(CSIs)数据集主要关注区域层面的概念,且可能包含误报。为解决这一问题,我们引入了一个新颖的印度文化CSIs数据集,涵盖17个文化方面。该数据集包含来自36个次区域的sim8k文化概念。为了衡量LLMs在文化文本适应任务中的文化能力,我们利用创建的CSIs、LLM作为评判者以及来自不同社会人口区域的用户评价来评估适应效果。此外,我们进行了定量分析,展示了所有考虑的LLMs在选择性次区域覆盖和表面层次适应方面的表现。我们的数据集可在此获取:https://huggingface.co/datasets/nlip/DIWALI,项目网页链接为\href{https://nlip-lab.github.io/nlip/publications/diwali/},我们的代码库及模型输出可在此找到:https://github.com/pramitsahoo/culture-evaluation。
我们推出BeepBank-500,这是一个紧凑、完全合成的提示音/警报数据集(包含300至500个音频片段),专为人机交互与音频机器学习领域的快速、无版权纠纷的实验设计。每个片段均通过参数化配方生成,控制波形族(正弦波、方波、三角波、调频波)、基频、时长、振幅包络、振幅调制(AM)以及轻量级的Schroeder式混响效果。我们采用三种混响设置:干声,以及两种合成房间环境,分别标记为“rir small”(小)和“rir medium”(中),这些标记贯穿全文及元数据。我们发布了单声道48 kHz WAV音频(16位)、详尽的元数据表(信号/频谱特征),以及针对(i)波形族分类和(ii)单音f0回归的微型可复现基线。该数据集旨在服务于提示音分类、音色分析及起始点检测等任务,并明确声明了许可与限制。音频通过CC0-1.0协议贡献至公共领域;代码遵循MIT许可。数据DOI:https://doi.org/10.5281/zenodo.17172015。代码地址:https://github.com/mandip42/earcons-mini-500。
分析文化遗产文物对于多模态大语言模型(MLLMs)仍具挑战性:通用模型缺乏领域专业知识,而监督微调(SFT)往往过度拟合表面模式,导致在真伪鉴定和历史归属方面的推理脆弱。这引发了一个问题:如何为MLLMs配备针对古希腊陶器的专家级稳健推理能力。我们提出了VaseVL,一个先SFT后强化学习(RL)的系统,它将评估转化为监督:我们构建了问题类型的分类体系,通过探测SFT模型定位特定类型的性能差距,并针对这些差距,采用类型条件化、面向组合性的奖励进行优化。同时,我们发布了VaseVQA,一个包含31,773张图像的全面基准测试集,旨在深入理解。实验结果表明,在风格分类和历史归属任务上,我们的方法取得了最先进的成果,相较于仅使用SFT的基线模型,在组合稳健性上显著提升,验证了基于诊断引导、分类体系条件化的奖励工程,并为未来研究提供了可复用的资源。代码和数据集将在https://github.com/AIGeeksGroup/VaseVQA 公开。
大型视觉语言模型(L-VLMs)在多种视觉与语言任务中,包括视觉问答(VQA),展现了卓越的性能。然而,其高昂的计算成本使其在资源受限的环境和推理密集型应用中显得不切实际。相比之下,小型视觉语言模型(S-VLMs)虽具效率,但与大型模型相比存在显著的性能差距。本研究提出了一种新颖的框架——模型性能对齐器(MPA),旨在通过利用未标注图像和从L-VLMs中有效转移知识,系统性地提升S-VLMs。不同于依赖标注训练数据的传统知识蒸馏方法,MPA采用了一种基于性能差异的策略性方法,精确识别S-VLMs与L-VLMs之间的知识差距,并针对这些差距优化训练。我们在四个多样化的VQA基准测试上进行了广泛实验,包括TextVQA、ST-VQA、ChartQA和OKVQA,每个测试均需特定的推理能力,如文本识别、图表解读及常识与事实理解。实验结果表明,MPA在所有基准测试上均能持续提升S-VLMs的性能,缩小性能差距的同时保持计算效率。我们已将代码公开。
水下立体深度估计为机器人导航、检测和地图构建等任务提供了精确的三维几何信息,通过低成本被动相机实现度量深度,同时避免了单目方法的尺度模糊问题。然而,现有方法面临两大关键挑战:(i) 在缺乏大量标注数据的情况下,如何参数高效地将大规模视觉基础编码器适配至水下领域;(ii) 如何将全局一致但尺度模糊的单目先验与局部度量但光度脆弱的立体对应关系紧密融合。为解决这些挑战,我们提出了StereoAdapter,一个参数高效的自监督框架,该框架集成了LoRA适配的单目基础编码器与递归立体优化模块。我们进一步引入了动态LoRA适配机制,用于高效秩选择,并在合成数据集UW-StereoDepth-40K上进行预训练,以增强方法在多样化水下环境下的鲁棒性。在模拟和真实世界基准上的全面评估显示,与最先进方法相比,StereoAdapter在TartanAir上提升了6.11%,在SQUID上提升了5.12%,而通过BlueROV2机器人的实际部署进一步验证了该方法的一致鲁棒性。代码与网站链接如下:代码仓库:https://github.com/AIGeeksGroup/StereoAdapter,项目主页:https://aigeeksgroup.github.io/StereoAdapter。
神经音频编解码器是现代生成式音频流水线的核心组件。尽管近期编解码器在低比特率重建方面表现出色,并为下游任务提供了强大的表征能力,但大多数方案无法实现流式处理,限制了其在实时应用中的使用。我们提出了FocalCodec-Stream,这是一种基于焦点调制技术的混合编解码器,能够将语音压缩至0.55至0.80 kbps的单一二进制码本,理论延迟仅为80毫秒。我们的方法结合了WavLM的多阶段因果蒸馏与针对性的架构改进,包括一个轻量级的优化模块,在延迟限制下提升音质。实验表明,FocalCodec-Stream在相近比特率下优于现有的流式编解码器,同时保留了语义和声学信息。这一成果在重建质量、下游任务性能、延迟和效率之间实现了有利的平衡。代码和模型检查点将在https://github.com/lucadellalib/focalcodec 发布。
自动化代码审查(CR)是大语言模型(LLMs)的关键应用之一,但其进展受到“现实差距”的阻碍:现有基准测试在简化且缺乏上下文的数据上评估模型的孤立子任务。这未能反映现实世界CR中丰富的整体上下文。为弥合这一差距,我们推出了CodeFuse-CR-Bench,这是首个面向仓库级CR评估的全面性感知基准。CodeFuse-CR-Bench包含来自70个Python项目的601个高质量实例,涵盖九个拉取请求(PR)问题领域,每个实例均提供包括相关议题、PR详情及仓库状态在内的多维度丰富上下文,支持端到端评估。除表面指标外,我们还提出了一种新颖的评估框架,结合基于规则的位置与语法检查与基于模型的审查质量判断。我们首次对最先进的LLMs在这一综合CR任务上进行了大规模评估。我们的结果确立了关键基线,并揭示:(1)没有单一LLM在CR的所有方面均占优;(2)Gemini 2.5 Pro在综合性能上表现最佳;(3)不同LLM对冗余上下文展现出不同的鲁棒性。这些发现强调了进行整体、多维度评估的必要性,并为推进真正智能且实用的CR助手提供了可操作的洞见。
过程奖励模型(PRMs)提供了细粒度的步骤级评估,促进了大语言模型(LLMs)中更深层次的推理过程,在数学推理等复杂任务中表现出色。然而,由于人工标注数据的高成本和有限的可扩展性,开发PRMs面临挑战。蒙特卡洛(MC)估计生成的合成数据是一个有前景的替代方案,但其高噪声比例可能导致过拟合,阻碍大规模训练。在本研究中,我们对MC估计合成数据中的噪声分布进行了初步研究,发现标注模型由于标注能力的限制,往往会低估或高估步骤的正确性。基于这些洞察,我们提出了自去噪蒙特卡洛标注(SCAN),一个高效的数据合成和噪声容忍学习框架。我们的关键发现表明:(1)即使轻量级模型(如1.5B参数)通过自去噪策略也能生成高质量标注,使PRMs仅需传统MC估计6%的推理成本即可实现卓越性能。(2)通过我们的鲁棒学习策略,PRMs能够有效学习这种弱监督,在ProcessBench中实现了39.2的F1分数提升(从19.9到59.1)。尽管仅使用紧凑的合成数据集,我们的模型仍超越了包括在PRM800K等大规模人工标注数据集上训练的强基线。此外,随着合成数据规模的扩大,性能持续提升,凸显了SCAN在可扩展、成本效益高且鲁棒的PRM训练中的潜力。