每日精选AI研究论文及翻译
近期,大型语言模型(LLMs)与多智能体系统的突破性进展,在深度研究、氛围编码及数学推理等复杂问题解决任务中展现了非凡能力。然而,现有大多数多智能体系统依赖于手工提示/工作流工程与复杂的智能体框架构建,导致其计算效率低下、能力受限,且难以受益于以数据为中心的学习。本研究中,我们提出了“智能体链”(Chain-of-Agents, CoA),一种创新的LLM推理范式,它能够在单一模型内实现如同多智能体系统般的原生端到端复杂问题解决(即,利用多种工具与多个智能体进行多轮问题求解)。在智能体链问题解决过程中,模型动态激活不同的工具智能体与角色扮演智能体,以端到端方式模拟多智能体协作。为了激发LLMs中的端到端智能体链问题解决能力,我们引入了一个多智能体蒸馏框架,将顶尖多智能体系统蒸馏为智能体链轨迹,用于智能体监督微调。随后,我们在可验证的智能体任务上采用智能体强化学习,进一步提升模型在智能体链问题解决上的能力。我们将由此得到的模型称为“智能体基础模型”(Agent Foundation Models, AFMs)。实证研究表明,AFM在网页智能体与代码智能体设置下的多样化基准测试中均创下了新的性能记录。我们全面开源了包括模型权重、训练与评估代码及训练数据在内的整个研究,为未来智能体模型与智能体强化学习的研究提供了坚实的基础。
LongSplat针对从非专业拍摄的长视频中进行新颖视角合成(NVS)所面临的关键挑战,这些视频通常具有不规则的相机运动、未知的相机姿态以及广阔的场景。现有方法常受困于姿态漂移、几何初始化不准确及严重的内存限制。为解决这些问题,我们提出了LongSplat,一个鲁棒的无姿态3D高斯溅射框架,其特点包括:(1)增量联合优化,同步优化相机姿态与3D高斯分布,避免局部最优并确保全局一致性;(2)基于学习到的3D先验的鲁棒姿态估计模块;(3)高效的八叉树锚点生成机制,依据空间密度将稠密点云转化为锚点。在多个具有挑战性的基准测试上的广泛实验表明,LongSplat实现了业界领先的结果,在渲染质量、姿态精度及计算效率方面较之前方法均有显著提升。项目页面:https://linjohnss.github.io/longsplat/
大型语言模型(LLMs)需要复杂的提示工程,然而当前实践在结构、数据整合、格式敏感性和工具支持方面面临挑战。现有方法缺乏全面解决方案,无法有效组织涉及多种数据类型(文档、表格、图像)的复杂提示,或系统化管理呈现方式的多样性。为填补这些空白,我们引入了POML(提示编排标记语言)。POML采用基于组件的标记来实现逻辑结构(角色、任务、示例),使用专用标签实现无缝数据整合,并采用类似CSS的样式系统将内容与呈现分离,降低格式敏感性。它包含动态提示模板和全面的开发者工具包(IDE支持、SDK),以提升版本控制和协作效率。我们通过两个案例研究验证了POML在复杂应用集成(PomLink)和准确性表现(TableQA)方面的影响,并通过用户研究评估了其在现实开发场景中的有效性。
视觉设计师自然地从多个视觉参考中汲取灵感,融合多样元素与美学原则以创作艺术作品。然而,当前的图像生成框架主要依赖单一来源的输入——无论是文本提示还是单个参考图像。本文聚焦于利用多视觉参考进行可控图像生成的任务。我们引入了MultiRef-bench,一个包含990个合成样本和1000个真实世界样本的严格评估框架,这些样本要求整合来自多张参考图像的视觉内容。合成样本通过我们的数据引擎RefBlend生成,涵盖10种参考类型和33种参考组合。基于RefBlend,我们进一步构建了包含38,000张高质量图像的数据集MultiRef,以促进深入研究。我们对三种交错图像-文本模型(即OmniGen、ACE和Show-o)及六种代理框架(如ChatDiT和LLM + SD)的实验表明,即便是最先进的系统在处理多参考条件时也面临挑战,最佳模型OmniGen在合成样本和真实案例中的平均表现分别仅为66.6%和79.0%,相较于黄金标准。这些发现为开发能够有效整合多源视觉灵感、更加灵活且类人的创意工具提供了宝贵方向。数据集已公开于:https://multiref.github.io/。
在具身人工智能中,泛化能力受到“视知行动鸿沟”的制约,这一鸿沟源于数据稀缺性与具身形态的多样性。为解决此问题,我们开创性地将“指向”作为一种统一、与具身形态无关的中间表示,定义了四项核心的具身指向能力,以此连接高层次的视觉语言理解与低层次的动作基元。我们推出了Embodied-R1,一个专为具身推理与指向设计的30亿参数视觉语言模型(VLM)。通过整合广泛的具身及通用视觉推理数据集,我们构建了大规模数据集Embodied-Points-200K,该数据集支持关键的具身指向能力。随后,我们采用两阶段强化微调(RFT)课程,配合专门的多任务奖励设计,对Embodied-R1进行训练。Embodied-R1在11项具身空间与指向基准测试中达到了业界领先水平。尤为重要的是,它展现了强大的零样本泛化能力,在SIMPLEREnv环境中取得了56.2%的成功率,并在无需任务特定微调的情况下,在8项真实世界XArm任务中平均达到87.5%的成功率,相较于强劲基线提升了62%。此外,该模型在面对多种视觉干扰时表现出极高的鲁棒性。我们的研究表明,以指向为核心的表示方法,结合RFT训练范式,为缩小机器人领域的感知-行动差距提供了一条有效且可泛化的途径。
具备高级推理与工具使用能力的AI代理在深度网络搜索中展现了卓越性能。尽管现有基准如BrowseComp评估了这些浏览能力,但它们主要关注文本信息,忽视了多模态内容的普遍性。为填补这一空白,我们推出了MM-BrowseComp,一个包含224道精心设计的挑战性问题的全新基准,专门用于评估代理的多模态检索与推理能力。这些问题常在提示中融入图像,且搜索与推理过程中遇到的关键信息也可能嵌入网页中的图像或视频内。因此,仅依赖文本的方法在我们的基准测试中显得力不从心。此外,我们为每个问题提供了经过验证的检查清单,支持对多模态依赖关系及推理路径的细致分析。通过对顶尖模型在MM-BrowseComp上的全面评估,我们发现即便是配备了工具的OpenAI o3等顶级模型,准确率也仅为29.02%,这凸显了当前模型在多模态能力上的不足及原生多模态推理的缺失。
虚拟试穿(VTON)是一项实用且广泛应用的任务,现有研究大多聚焦于服装领域。本文提出了OmniTry,一个统一的框架,将VTON从服装扩展至任何可穿戴物品,如珠宝和配饰,并采用无掩码设置以提升实际应用价值。在扩展到多种物品类型时,获取成对图像(即物品图像及其对应的试穿效果)的数据整理工作颇具挑战。为解决此问题,我们设计了一个两阶段流程:第一阶段,我们利用大规模非成对图像(即包含任意可穿戴物品的人物肖像)训练模型,实现无掩码定位。具体而言,我们改造了图像修复模型,使其能在给定空白掩码的情况下自动在合适位置绘制物品。第二阶段,模型通过成对图像进一步微调,以保持物品外观的一致性。我们观察到,经过第一阶段训练的模型即使在少量成对样本下也能快速收敛。OmniTry在一个包含12种常见可穿戴物品类别的综合基准上进行了评估,涵盖了店内和自然场景下的图像。实验结果表明,与现有方法相比,OmniTry在物品定位和身份保持方面均展现出更优性能。OmniTry的代码、模型权重及评估基准将公开发布于https://omnitry.github.io/。
基于文本引导的图像与视频色彩编辑是一项基础性但尚未完全解决的难题,它要求对色彩属性进行精细操控,包括反照率、光源颜色和环境光照,同时保持几何结构、材质属性及光物交互的物理一致性。现有的无需训练的方法虽在各类编辑任务中具有广泛适用性,但在精确色彩控制上存在局限,常导致编辑区域与非编辑区域出现视觉不一致。本研究提出ColorCtrl,一种无需训练的色彩编辑方法,它利用现代多模态扩散变换器(MM-DiT)的注意力机制。通过有针对性地操控注意力图和值标记,实现结构与色彩的分离,我们的方法不仅支持精确且一致的色彩编辑,还能通过词语级别控制属性强度。该方法仅修改提示指定的目标区域,不影响无关部分。在SD3和FLUX.1-dev上的大量实验表明,ColorCtrl在编辑质量和一致性上均超越了现有无需训练的方法,达到了业界领先水平。此外,在一致性方面,我们的方法甚至超越了FLUX.1 Kontext Max和GPT-4o图像生成等强劲商业模型。当扩展至如CogVideoX等视频模型时,ColorCtrl展现出更大优势,特别是在保持时间连贯性和编辑稳定性方面。最后,我们的方法同样适用于基于指令的编辑扩散模型,如Step1X-Edit和FLUX.1 Kontext dev,进一步证明了其多功能性。
评估个性化推荐仍是一个核心挑战,尤其在播客等长音频领域,传统的离线指标易受曝光偏差影响,而在线方法如A/B测试则成本高昂且受操作限制。本文提出了一种创新框架,利用大型语言模型(LLMs)作为离线评判者,以可扩展且可解释的方式评估播客推荐质量。我们的两阶段用户画像感知方法首先从90天的收听历史中提炼出自然语言用户画像,这些画像既概括了主题兴趣也反映了行为模式,作为用户偏好的简洁、可解释表征。不同于直接向LLM输入原始数据,我们利用这些画像提供高层次、语义丰富的上下文,使LLM能更有效地推理用户兴趣与推荐节目之间的契合度,从而降低输入复杂度并提升可解释性。随后,LLM基于画像与节目的匹配度,给出细粒度的点对点及成对评判。在一项包含47名参与者的对照研究中,我们的画像感知评判者与人类评判高度一致,且表现优于或等同于使用原始收听历史的变体。该框架为推荐系统的迭代测试与模型选择提供了高效、画像感知的评估手段。
本研究探讨了利用大型语言模型(LLMs)从现实场景的自然语言描述中预测人类感知的痛苦评分。该任务被构建为一个回归问题,模型为每个输入语句分配一个0到100之间的标量值。我们评估了多种提示策略,包括零样本、固定上下文少样本以及基于BERT句子嵌入的检索式提示。少样本方法持续优于零样本基线,凸显了情境示例在情感预测中的价值。为了超越静态评估,我们引入了“痛苦游戏秀”,这是一个受电视节目启发的新型游戏化框架。它通过包含序数比较、二元分类、标量估计和反馈驱动推理的结构化轮次来测试LLMs。这一设置使我们不仅能评估预测准确性,还能评估模型基于纠正反馈的适应能力。游戏化评估突显了LLMs在动态情感推理任务中超越标准回归的广泛潜力。代码和数据链接:https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
尽管大型语言模型(LLMs)在多种任务中展现了卓越的性能,它们本质上缺乏自我意识,并常常表现出过度自信,为错误的预测赋予高置信度分数。因此,准确的置信度估计对于提升LLM生成输出的可信度和可靠性至关重要。然而,现有方法受限于粗粒度的评分机制,无法在生成过程中提供细粒度、连续的置信度估计。针对这些局限,我们提出了FineCE,一种新颖的置信度估计方法,能够在文本生成过程中提供精确、细粒度的置信度评分。具体而言,我们首先构建了一个全面的训练数据构建流程,有效捕捉LLM响应的潜在概率分布,然后以监督方式训练模型预测任意文本序列的置信度分数。此外,我们提出了一种后向置信度集成(BCI)策略,利用后续文本的信息来增强推理过程中当前序列的置信度估计。我们还引入了三种策略,用于在生成过程中识别执行置信度估计的最佳位置。在多个基准数据集上的广泛实验表明,FineCE持续优于现有的经典置信度估计方法。我们的代码及论文中使用的所有基线模型均已开源在GitHub上。
语音分离领域,致力于解决“鸡尾酒会问题”,随着深度神经网络(DNNs)的应用取得了革命性进展。语音分离不仅提升了复杂声学环境下的语音清晰度,还作为语音识别和说话人识别的关键预处理步骤。然而,现有文献多局限于特定架构或孤立方法,导致理解碎片化。本综述旨在填补这一空白,系统性地审视基于DNN的语音分离技术。我们的工作特色在于:(一)全面视角:系统探讨学习范式、已知/未知说话人场景下的分离、监督/自监督/无监督框架的对比分析,以及从编码器到估计策略的架构组件。(二)时效性:涵盖前沿发展,确保读者触及当前创新与基准。(三)独到见解:超越总结,评估技术轨迹,识别新兴趋势,并强调包括领域鲁棒框架、高效架构、多模态融合及新型自监督范式在内的有前景方向。(四)公正评估:基于标准数据集进行量化评估,揭示不同方法的真实能力与局限。这份全面综述为经验丰富的研究者及初入此复杂领域的新手提供了易于理解的参考指南。
近期,自我优化技术的进展展现出通过迭代优化大幅提升大型语言模型(LLMs)输出质量的巨大潜力。然而,现有的大多数自我优化方法依赖于固定迭代次数的被动过程,难以根据生成过程中的动态上下文确定最佳的优化时机与内容。受人类在执行过程中动态调整思路的启发,我们提出了主动自我优化(ProActive Self-Refinement, PASR)这一新方法,使LLMs能够在生成过程中主动优化其输出。与重新生成整个响应的方法不同,PASR基于模型的内部状态及不断演变的上下文,主动决定是否、何时以及如何进行优化。我们在10项多样化任务上进行了广泛实验,以评估PASR的有效性。实验结果表明,PASR显著提升了问题解决能力。特别是在Qwen3-8B模型上,与标准生成相比,PASR平均减少了41.6%的token消耗,同时准确率提升了8.2%。本文所使用的代码及所有基线模型均已公开于GitHub平台。
近期在文本到图像生成领域的流匹配模型已取得了显著的质量提升,然而,它们在结合强化学习以实现人类偏好对齐方面仍显不足,这阻碍了基于细粒度奖励的优化。我们观察到,流模型在有效进行GRPO(梯度奖励策略优化)训练时的主要障碍在于现有方法中的时间均匀性假设:稀疏的终端奖励与均匀的信用分配无法捕捉生成时间步中决策的关键性变化,导致探索效率低下和收敛效果欠佳。为弥补这一缺陷,我们提出了TempFlow-GRPO(时序流GRPO),这是一个原则性的GRPO框架,旨在捕捉并利用基于流生成中固有的时序结构。TempFlow-GRPO引入了两大创新点:(i) 轨迹分支机制,通过在指定分支点集中随机性来提供过程奖励,无需专门的中间奖励模型即可实现精确的信用分配;(ii) 噪声感知权重方案,根据每个时间步的内在探索潜力调整策略优化,优先在高影响力的早期阶段进行学习,同时确保后期阶段的稳定优化。这些创新使模型具备了尊重底层生成动态的时序感知优化能力,从而在人类偏好对齐和标准文本到图像生成基准测试中达到了业界领先的性能。
音频理解——包括语音、非语音声音及音乐——是实现人类水平智能的关键要素。因此,AI智能体必须具备全面的音频理解能力,方能被视为具备通用智能。然而,全面评估听觉智能仍面临挑战。为填补这一空白,我们推出了MMAU-Pro,这是迄今为止最为全面且精心构建的基准测试,用于评估AI系统的音频智能。MMAU-Pro包含5,305个实例,每个实例均配有一个或多个音频,并附有由人类专家生成的问答对,覆盖语音、声音、音乐及其组合。与现有基准不同,MMAU-Pro在49项独特技能及多个复杂维度上评估听觉智能,包括长音频理解、空间音频推理、多音频理解等。所有问题均精心设计,要求进行深思熟虑的多步推理,题型涵盖多项选择与开放式回答。重要的是,音频数据直接“源自现实世界”,而非来自已知分布的现有数据集。我们对22个领先的开源与专有多模态AI模型进行了评估,揭示了显著局限:即便是Gemini 2.5 Flash和Audio Flamingo 3等最先进模型,其准确率也仅分别达到59.2%和51.7%,在多个类别中接近随机表现。我们的深入分析指出了具体不足,并提供了新颖见解,为社区提升未来AI系统向音频通用智能迈进提供了可操作的视角。基准测试与代码可在https://sonalkum.github.io/mmau-pro获取。
多智能体强化学习(MARL)是解决协作与竞争决策问题的强大范式。尽管已提出众多MARL基准测试,但鲜有结合连续状态与动作空间,并包含复杂协调与规划任务的。我们引入CAMAR,一个专为连续动作环境下多智能体路径规划设计的新MARL基准。CAMAR支持智能体间的协作与竞争互动,并能以每秒高达100,000环境步的效率运行。我们还提出了一套三层评估协议,以更好地追踪算法进展,并支持对性能的深入分析。此外,CAMAR允许将RRT和RRT*等经典规划方法整合到MARL流程中,既作为独立基线,又将RRT*与流行MARL算法结合,形成混合方法。我们提供了一系列测试场景与基准工具,确保实验的可重复性与公平比较。实验表明,CAMAR为MARL社区提供了一个既具挑战性又贴近实际的测试平台。
大型语言模型(LLMs)展现出卓越的问题解决能力,但由于其内部知识静态不变,在处理复杂任务时仍显吃力。检索增强生成(RAG)虽提升了对外部信息的获取能力,但在多跳推理与策略性搜索方面因流程僵化而受限。近期,基于代理的深度研究进展赋予LLMs自主推理、搜索及信息综合的能力。然而,当前依赖结果导向强化学习(RL)的方法面临梯度冲突与奖励稀疏等关键问题,制约了性能提升与训练效率。为此,我们首先提出“原子思维”,一种新颖的LLM思考范式,将推理分解为细粒度的功能单元。这些单元由推理奖励模型(RRMs)监督,提供原子思维奖励(ATR)以实现精细指导。在此基础上,我们提出“原子搜索者”,一个集成原子思维与ATR的代理深度研究RL框架。原子搜索者采用课程启发式奖励调度,早期侧重过程级ATR,逐步过渡至结果奖励,加速有效推理路径的收敛。在七个基准测试上的实验显示,该方法持续超越现有技术。其核心优势包括:(1)原子搜索者在测试时能灵活扩展计算资源;(2)原子思维为RRMs提供监督锚点,连接深度研究任务与RRMs;(3)原子搜索者展现出更具可解释性、类人的推理模式。
鉴于大语言模型高昂的开发成本、专有价值和潜在的滥用风险,其版权保护至关重要。现有研究主要集中于追踪大语言模型生成内容的技术——即文本水印——而对保护模型本身的方法(如模型水印和模型指纹)的系统性探讨尚属空白。此外,文本水印、模型水印与模型指纹之间的关系与区别尚未得到全面厘清。本文对大语言模型版权保护技术的现状进行了全面综述,重点聚焦于模型指纹,涵盖以下方面:(1)阐明从文本水印到模型水印及指纹的概念联系,并采用统一术语,将模型水印纳入更广泛的指纹框架;(2)概述并比较多种文本水印技术,指出这些方法在某些情况下可作为模型指纹使用的情形;(3)系统分类并比较现有用于大语言模型版权保护的模型指纹方法;(4)首次提出指纹转移与指纹移除技术;(5)总结模型指纹的评估指标,包括有效性、无害性、鲁棒性、隐蔽性和可靠性;(6)探讨开放挑战与未来研究方向。本综述旨在为研究人员提供对大语言模型时代下文本水印与模型指纹技术的深入理解,从而推动其知识产权保护的进一步进展。
本技术报告详述了一种将推理与检索增强生成(RAG)相结合的新颖方法,该方法集成于单一精简的语言模型架构中。现有RAG系统通常依赖大规模模型及外部API,而我们的研究则响应了在资源受限或安全环境中部署高性能且保护隐私解决方案的日益增长需求。基于测试时扩展和小规模推理模型的最新进展,我们开发了一种检索增强型对话代理,能够利用轻量级骨干模型解析复杂的领域特定查询。该系统整合了密集检索器与经过微调的Qwen2.5-Instruct模型,采用合成查询生成及源自前沿模型(如DeepSeek-R1)的推理轨迹,针对精选语料库——此处为NHS A-to-Z疾病页面——进行训练。我们探讨了基于摘要的文档压缩、合成数据设计及推理感知微调对模型性能的影响。与非推理及通用精简模型的对比评估表明,我们的领域特定微调策略在答案准确性和一致性上取得了显著提升,接近前沿模型性能,同时保持本地部署的可行性。所有实现细节与代码均已公开发布,以支持跨领域的可复现性与适应性。
现有的视频推荐系统主要依赖于用户定义的元数据或由专用编码器提取的低层次视觉和声学信号。这些低层次特征描述了屏幕上呈现的内容,却未能捕捉到更深层次的语义,如意图、幽默和世界知识,这些正是让视频片段与观众产生共鸣的关键。例如,一段30秒的视频片段,仅仅是屋顶上的歌手,还是在土耳其卡帕多西亚的仙女烟囱间拍摄的讽刺模仿?此类区分对于个性化推荐至关重要,却往往被传统编码流程所忽视。本文提出了一种简单、与推荐系统无关的零微调框架,通过提示现成的多模态大语言模型(MLLM)将每个视频片段总结为丰富的自然语言描述(如“一部包含滑稽打斗和管弦乐配乐的超级英雄模仿剧”),从而在原始内容与用户意图之间架起桥梁。我们利用MLLM的输出,结合最先进的文本编码器,将其输入标准的协同过滤、基于内容和生成式推荐系统中。在模拟用户与TikTok风格视频互动的MicroLens-100K数据集上,我们的框架在五种代表性模型中均超越了传统的视频、音频和元数据特征。研究结果表明,利用MLLM作为即时知识提取器,有望构建出更懂用户意图的视频推荐系统。
本研究探讨了在骨骼拓扑结构差异显著的字符间进行动画迁移的挑战。尽管数十年来许多技术已推动了动作重定向的发展,但在不同拓扑结构间的动作迁移仍较少被探索。主要障碍在于源骨骼与目标骨骼之间固有的拓扑不一致性,这限制了一对一骨骼对应关系的直接建立。此外,当前缺乏跨越不同拓扑结构的大规模配对动作数据集,严重制约了数据驱动方法的发展。为应对这些局限,我们提出了Motion2Motion,一种新颖的无需训练框架。Motion2Motion简洁而高效,仅需目标骨骼上的一个或少量示例动作,通过访问源骨骼与目标骨骼间稀疏的骨骼对应关系即可工作。通过全面的定性与定量评估,我们展示了Motion2Motion在相似骨骼及跨物种骨骼迁移场景中均实现了高效可靠的表现。该方法在下游应用及用户界面中的成功集成,进一步证明了其实际应用价值,凸显了其在工业应用中的潜力。代码与数据可在https://lhchen.top/Motion2Motion获取。
由大型语言模型(LLMs)驱动的生成模型正逐渐成为推荐与搜索任务的一体化解决方案。这些模型中的一个关键设计选择是如何表示物品,传统上通过唯一标识符(IDs),而近期则采用由嵌入获得的离散代码构成的语义ID。尽管针对特定任务的嵌入模型能提升单个任务的性能,但在联合场景下可能泛化不佳。本文探讨了在使用统一模型时,如何构建在搜索与推荐中均表现优异的语义ID。我们比较了多种构建语义ID的策略,包括任务专用与跨任务方法,以及在联合搜索与推荐生成模型中,是否应为每项任务分配独立的语义ID标记。研究结果表明,采用在搜索与推荐任务上均经过微调的双编码器模型获取物品嵌入,随后构建统一的语义ID空间,能够实现有效的权衡,使两项任务均展现出强劲性能。我们期望这些发现能激发后续关于可泛化、基于语义的ID方案的研究,并为下一代一体化生成式推荐架构提供指导。
大型语言模型如何理解道德维度,与人类相比有何异同?这项首次大规模贝叶斯评估针对市场领先的语言模型给出了答案。与以往使用确定性基准(多数或包含规则)的研究不同,我们通过建模标注者间的分歧,同时捕捉了偶然不确定性(人类固有的分歧)和认知不确定性(模型对领域的敏感性)。我们评估了顶尖语言模型(Claude Sonnet 4、DeepSeek-V3、Llama 4 Maverick),基于约700名标注者对超过10万条来自社交媒体、新闻和论坛的文本做出的25万+条注释。 我们的GPU优化贝叶斯框架处理了超过100万次模型查询,结果显示AI模型通常位列人类标注者前25%,达到了远高于平均水平的平衡准确率。尤为重要的是,我们发现AI产生的假阴性远少于人类,凸显了其更为敏锐的道德检测能力。
稀疏自编码器(SAEs)能够无监督地从大型语言模型(LLMs)中提取可解释特征。然而,其在后续控制任务中的有效性受到对比数据集或大规模激活存储需求的限制。为解决这些局限,我们提出了CorrSteer,该方法通过在推理时关联样本正确性与SAE生成标记的激活来选择特征。此方法仅利用推理时的激活来提取更相关的特征,从而避免虚假关联。同时,它从平均激活中获取控制系数,实现了整个流程的自动化。我们的方法在Gemma 2 2B和LLaMA 3.1 8B上的问答、偏见缓解、防越狱及推理基准测试中展现了任务性能的提升,特别是在仅使用4000个样本的情况下,MMLU性能提升了+4.1%,HarmBench提升了+22.9%。所选特征展示了与各任务需求语义一致的有意义模式,揭示了驱动性能的潜在能力。我们的工作确立了基于相关性的选择作为一种有效且可扩展的方法,适用于跨语言模型应用的自动化SAE控制。
通用医学图像分割模型因其在多样化任务中展现出的强大泛化能力,已成为一个极具前景的研究方向,在广泛的临床应用场景中显示出巨大潜力。这一潜力的部分推动力来自于通用视觉模型(如Segment Anything Model, SAM)的成功,其激发了多种针对医学分割任务的微调变体的开发。然而,诸如MedSAM等微调变体,受限于相对有限的医学影像数据,这些数据常面临异质性、标注稀缺及分布偏移等挑战,制约了它们在广泛医学分割任务中的泛化能力。鉴于此,我们提出了MedSAMix,一种无需训练的模型融合方法,旨在整合通用模型(如SAM)与专用模型(如MedSAM)的优势,用于医学图像分割。与依赖手动配置且往往导致次优结果的传统模型融合方法不同,我们提出了一种零阶优化方法,以自动发现最优的层级融合方案。此外,针对临床应用需求,我们开发了两种策略,分别通过单任务优化和多目标优化来满足不同场景下对领域特异性和泛化能力的要求。在25项医学分割任务上的广泛评估表明,MedSAMix有效缓解了模型偏差,在领域特异性准确率和泛化能力上均实现了性能提升,分别在专用任务和多任务评估中取得了6.67%和4.37%的改进。
辐射场(RF)技术的发展,如3D高斯泼溅(3DGS)和神经辐射场(NeRF),已彻底改变了交互式照片级真实感视图合成,为扩展现实(XR)研究与应用带来了巨大机遇。然而,尽管RF研究呈指数级增长,其对XR领域的贡献仍显不足。为深入理解这一研究空白,我们对当前RF文献进行了系统性调研,旨在分析:(一)RF如何被设想用于XR应用,(二)它们已如何被实际应用,以及(三)尚存的研究空白。我们从计算机视觉、计算机图形学、机器人学、多媒体、人机交互及XR社区中收集了365篇与XR相关的RF研究成果,试图解答上述研究问题。在这365篇论文中,我们重点分析了66篇已深入探讨RF在XR中具体应用细节的文献。通过本次调研,我们不仅拓展并定位了XR特有的RF研究主题于更广阔的RF研究领域之中,还为XR社区在RF研究快速发展中导航提供了宝贵的资源指南。
我们致力于解决在分布偏移情况下检测合成语音的挑战——这种偏移源于训练数据中未见过的合成方法、说话者、语言或音频条件。少样本学习方法通过基于少量同分布样本的快速适应,为解决分布偏移问题提供了有前景的途径。我们提出了一种自注意力原型网络,以实现更稳健的少样本适应。为评估我们的方法,我们系统性地比较了传统零样本检测器与所提出的少样本检测器的性能,在评估时严格控制训练条件以引入分布偏移。在分布偏移严重影响零样本性能的情况下,我们提出的少样本适应技术仅需使用10个同分布样本即可快速适应——在日语深度伪造数据上实现了高达32%的相对等错误率降低,在ASVspoof 2021深度伪造数据集上实现了20%的相对降低。
运动传感器时间序列在人类活动识别(HAR)中占据核心地位,广泛应用于健康、体育及智能设备领域。然而,现有方法针对固定活动集进行训练,当出现新行为或传感器配置时,需耗费大量资源重新训练。近期尝试利用大型语言模型(LLMs)进行HAR,通常通过将信号转换为文本或图像,但存在精度有限且缺乏可验证解释性的问题。我们提出ZARA,首个基于代理的框架,用于直接从原始运动时间序列进行零样本、可解释的HAR。ZARA集成了一个自动生成的特征对知识库,捕捉每对活动的区分性统计量;一个多传感器检索模块,提取相关证据;以及一个分层代理流程,引导LLM迭代选择特征、引用证据,并生成活动预测及自然语言解释。ZARA实现了无需微调或特定任务分类器的灵活且可解释的HAR。在8个HAR基准上的大量实验表明,ZARA在零样本性能上达到SOTA,提供清晰的推理过程,同时在宏观F1分数上超越最强基线2.53倍。消融研究进一步验证了各模块的必要性,标志着ZARA向可信赖、即插即用的运动时间序列分析迈出了重要一步。我们的代码已发布于https://github.com/zechenli03/ZARA。