每日精选AI研究论文及翻译
我们提出了一种简单但理论驱动的改进方法,用于提升大型语言模型(LLM)的监督微调(SFT),以解决其与强化学习(RL)相比泛化能力有限的问题。通过数学分析,我们发现标准SFT梯度隐含了一种可能严重限制模型泛化能力的问题奖励结构。为此,我们提出了动态微调(DFT),通过根据每个标记的概率动态调整目标函数,稳定每个标记的梯度更新。值得注意的是,这一单行代码的改动在多个具有挑战性的基准测试和基础模型上显著优于标准SFT,展现了极大的泛化能力提升。此外,我们的方法在离线RL设置中也表现出竞争力,提供了一种有效且更简单的替代方案。这项工作将理论洞见与实践解决方案相结合,大幅提升了SFT的性能。代码将在https://github.com/yongliang-wu/DFT 提供。
自进化大语言模型(LLMs)通过自主生成、优化并从自身经验中学习,为实现超级智能提供了一条可扩展的路径。然而,现有训练此类模型的方法仍严重依赖大量人工标注的任务和标签,通常通过微调或强化学习进行,这成为推动AI系统超越人类智能能力的基本瓶颈。为克服这一限制,我们引入了R-Zero,一个完全自主的框架,能够从零开始生成自己的训练数据。R-Zero从一个基础LLM出发,初始化两个具有不同角色的独立模型:挑战者(Challenger)和解答者(Solver)。这两个模型分别优化并通过互动共同进化:挑战者因提出接近解答者能力边界的任务而获得奖励,解答者则因成功解决挑战者提出的日益复杂的任务而得到奖励。这一过程产生了一个有针对性的、自我提升的课程,无需任何预先存在的任务和标签。实验表明,R-Zero显著提升了不同骨干LLM的推理能力,例如,在数学推理基准上将Qwen3-4B-Base提升了+6.49分,在通用领域推理基准上提升了+7.54分。
我们推出Genie Envisioner(GE),这是一个面向机器人操作的统一世界基础平台,它将策略学习、评估和仿真集成于单一的视频生成框架内。其核心是GE-Base,一个大规模、指令条件化的视频扩散模型,它在一个结构化的潜在空间中捕捉真实世界机器人交互的空间、时间和语义动态。在此基础上,GE-Act通过一个轻量级的流匹配解码器,将潜在表征映射为可执行的动作轨迹,实现了在多种实体间进行精确且可泛化的策略推理,且只需极少的监督。为了支持可扩展的评估和训练,GE-Sim作为动作条件化的神经模拟器,为闭环策略开发提供高保真的模拟运行。该平台还配备了EWMBench,一个标准化基准套件,用于衡量视觉保真度、物理一致性及指令与动作的对齐程度。这些组件共同确立了Genie Envisioner作为指令驱动、通用型具身智能的可扩展且实用的基础。所有代码、模型和基准测试都将公开发布。
尽管视觉语言模型(VLMs)展现出强大的感知能力和令人印象深刻的视觉推理,但在复杂动态环境中,它们对细节的关注和精确行动规划方面仍显不足,导致表现欠佳。现实世界的任务通常需要复杂的交互、高级的空间推理、长期规划以及持续的策略优化,这往往要求理解目标场景的物理规则。然而,在现实场景中评估这些能力往往成本过高。为弥合这一差距,我们提出了DeepPHY,一个新颖的基准框架,旨在通过一系列具有挑战性的模拟环境,系统性地评估VLMs对基本物理原理的理解与推理能力。DeepPHY整合了多个难度各异的物理推理环境,并融入了细粒度的评估指标。我们的评估发现,即便是最先进的VLMs,也难以将描述性的物理知识转化为精确的预测性控制。
尽管3D内容生成技术发展迅速,但针对生成3D资产的质量评估仍面临挑战。现有方法主要依赖基于图像的度量标准,且仅在对象层面进行操作,限制了其捕捉空间一致性、材质真实感及高保真局部细节的能力。1) 为解决这些问题,我们推出了Hi3DEval,一个专为3D生成内容设计的层次化评估框架。该框架结合了对象级与部件级评估,实现了跨多维度全面评估及细粒度质量分析。此外,我们扩展了纹理评估范畴,不仅关注美学外观,还特别强调材质真实感的评估,聚焦于反照率、饱和度及金属质感等属性。2) 为支撑此框架,我们构建了Hi3DBench,一个包含多样化3D资产及高质量标注的大规模数据集,并配备了一套可靠的多代理标注流程。我们进一步提出了一种基于混合3D表示的3D感知自动评分系统。具体而言,我们利用基于视频的表示进行对象级和材质主题评估,以增强时空一致性的建模,并采用预训练的3D特征进行部件级感知。大量实验表明,我们的方法在建模3D特性上优于现有基于图像的度量标准,且与人类偏好高度一致,为手动评估提供了可扩展的替代方案。项目页面详见https://zyh482.github.io/Hi3DEval/。
采用多模态大语言模型(MLLMs)的检索增强生成(RAG)系统在复杂文档理解方面展现出巨大潜力,但其发展却因评估不足而严重受阻。现有基准测试往往聚焦于文档RAG系统的特定部分,并采用合成数据,这些数据缺乏完整的事实依据和证据标签,因此无法反映现实世界中的瓶颈与挑战。为克服这些局限,我们推出了Double-Bench:一个全新的大规模、多语言、多模态评估系统,能够对文档RAG系统内的每个组件进行细致评估。该系统包含3,276份文档(72,880页)和5,168个单跳及多跳查询,覆盖6种语言和4种文档类型,并具备针对潜在数据污染问题的动态更新支持。所有查询均基于详尽扫描的证据页面,并由人类专家验证,以确保最高质量和完整性。我们通过对9种最先进的嵌入模型、4种MLLMs及4种端到端文档RAG框架的全面实验,发现文本与视觉嵌入模型之间的差距正在缩小,这凸显了构建更强文档检索模型的必要性。我们的研究还揭示了当前文档RAG框架中存在的过度自信问题,即倾向于在缺乏证据支持的情况下提供答案。我们希望完全开源的Double-Bench能为未来高级文档RAG系统的研究奠定坚实基础,并计划每年更新语料库并发布新的基准测试。
福祉涵盖了心理、生理和社会等多个维度,这些维度对个人成长和明智的生活决策至关重要。随着越来越多的人向大型语言模型(LLMs)咨询以理解福祉,一个关键问题浮现:LLMs能否生成不仅准确,还能适应不同受众需求的解释?高质量的解释既需要事实的正确性,也要能够满足不同专业背景用户的期望。在本研究中,我们构建了一个大规模数据集,包含由十个多样化LLMs生成的2,194个福祉概念的43,880条解释。我们引入了一种基于原则的LLM作为评判者的评估框架,采用双重评判者机制来评估解释质量。此外,我们展示了通过监督微调(SFT)和直接偏好优化(DPO)对开源LLM进行微调,可以显著提升生成解释的质量。我们的研究结果表明:(1)所提出的LLM评判者与人类评估高度一致;(2)解释质量在模型、受众和类别之间存在显著差异;(3)经过DPO和SFT微调的模型在性能上超越了规模更大的模型,证明了基于偏好的学习在专门解释任务中的有效性。
近年来,大型推理模型(LRMs)因其在处理复杂任务中的卓越表现逐渐成为研究热点。其中,DeepSeek R1凭借其出色的性能和开源特性,引起了广泛关注,推动了R1风格LRMs的研究进展。与传统的大型语言模型(LLMs)不同,这些模型通过引入长链思维和强化学习中的自我反思等机制,在推理过程中增强了逻辑推理和决策能力。然而,随着这些模型的广泛应用,过度思考的问题逐渐显现。具体而言,在生成答案时,这些模型往往构建过长的推理链,包含冗余或重复的步骤,这不仅降低了推理效率,还可能影响最终答案的准确性。为此,多种高效推理方法被提出,旨在不损害模型性能和推理能力的前提下,缩短推理路径的长度。通过系统梳理当前高效推理方法领域的研究进展,我们基于单模型优化与模型协作的视角,将现有工作分为两大方向:(1)单模型高效推理,专注于提升单个模型的推理效率;(2)模型协作高效推理,探索通过多模型协作优化推理路径。此外,我们维护了一个公开的GitHub仓库,持续追踪高效推理方法的最新进展。
本文提出了一种多功能语音合成系统,该系统在统一框架内集成了语音克隆与情感控制语音合成技术。本研究的核心目标是解决在实现高度表现力、可控且自然的语音生成过程中长期存在的挑战,确保在不同语言和情感情境下忠实保留说话者身份。我们的方法引入了一种有效的说话者-情感解耦机制,结合批量对比学习,实现了说话者身份与情感风格的独立操控,以及旋转情感嵌入整合方法,以实现平滑的情感控制。为支持全面的训练与评估,我们构建了CSEMOTIONS数据集,这是一个高质量的情感语音数据集,包含六位专业说话者跨越七种情感类别的10小时普通话语音。大量实验表明,我们的系统Marco-Voice在客观与主观评价指标上均取得了显著提升。全面的评估与分析结果显示,Marco-Voice在语音清晰度与情感丰富度方面展现出竞争力,标志着表达性神经语音合成领域的一大进步。
通过图形用户界面(GUI)操作计算机的自主代理在处理复杂、长期任务时,往往面临效率和可靠性的挑战。虽然通过增加规划器来改进任务分解可以提升这些代理的能力,但它们仍受限于所有操作必须通过GUI执行的固有局限,导致系统脆弱且效率低下。在本研究中,我们引入了一种更为稳健和灵活的范式:赋予代理使用编码作为增强操作的能力。我们提出了CoAct-1,一个新颖的多代理系统,它协同结合了基于GUI的控制与直接程序执行。CoAct-1配备了一个协调器,能够动态地将子任务分配给传统的GUI操作员或专门的程序员代理,后者能够编写并执行Python或Bash脚本。这种混合方法使代理能够绕过低效的GUI操作序列,如文件管理和数据处理,同时在必要时仍利用视觉交互。我们在具有挑战性的OSWorld基准测试中评估了我们的系统,CoAct-1实现了60.76%的最新成功率,显著超越了先前的方法。此外,我们的方法大幅提升了效率,将完成任务所需的平均步骤数降至仅10.15步,而领先的GUI代理则需要15步。我们的结果表明,将编码作为核心操作集成,为通用计算机自动化提供了一条更强大、高效且可扩展的路径。
大型多模态模型(LMMs)已展现出显著的发展,在处理复杂多模态任务时表现出卓越的能力。然而,近期研究指出,大型语言模型往往被动接受有缺陷的输入,导致在无效提示下进行无效推理。尽管如此,关于LMMs能否主动检测并审查错误输入的关键问题仍未得到充分探索。为填补这一空白,我们提出了输入审查能力评估框架(ISEval),该框架涵盖七类错误前提及三项评估指标。通过对十种先进LMMs的广泛评估,我们得出了重要发现:大多数模型在无指导情况下难以主动识别有缺陷的文本前提,显示出对明确提示的强烈依赖;错误类型影响性能,模型在识别逻辑谬误方面表现优异,但在处理表层语言错误及特定条件缺陷时则显吃力;模态信任度各异——Gemini 2.5 pro与Claude Sonnet 4在视觉与文本信息间取得平衡,而aya-vision-8b在冲突中过度依赖文本。这些发现强调了提升LMMs主动验证输入有效性的迫切需求,并为缓解该问题提供了新的见解。相关代码已发布于https://github.com/MLGroupJLU/LMM_ISEval。
高效的客户支持不仅需要准确的问题解决能力,还要求遵循专业标准进行结构化且富有同理心的沟通。然而,现有的对话数据集往往缺乏策略性指导,且现实中的服务数据难以获取和标注。为此,我们提出了客户支持对话(CSC)任务,旨在培训客服人员运用明确的支援策略进行回应。我们基于COPC准则构建了一个结构化的CSC框架,定义了五个对话阶段和十二种策略,以引导高质量的互动。在此基础上,我们创建了CSConv,一个包含1,855条真实客户与客服对话的评估数据集,这些对话通过大语言模型(LLMs)重写以体现策略的刻意运用,并进行了相应标注。此外,我们开发了一种角色扮演方法,利用与CSC框架对齐的LLM驱动角色模拟富含策略的对话,生成了训练数据集RoleCS。实验表明,在RoleCS上微调强大的LLMs能显著提升其在CSConv上生成高质量、策略对齐回应的能力。人类评估进一步证实了问题解决能力的提升。所有代码和数据将公开于https://github.com/aliyun/qwen-dianjin。
大型语言模型(LLMs)在众多复杂任务中展现了卓越的推理能力。然而,通过后续训练进一步提升这些能力仍需要大量资源,尤其是在数据和计算成本方面。尽管近期研究尝试通过精选数据来提高样本效率,但现有方法多依赖于启发式或任务特定策略,限制了其可扩展性。本研究提出了InfiAlign,一个可扩展且样本高效的后续训练框架,它结合了监督微调(SFT)与直接偏好优化(DPO),旨在对齐LLMs以增强其推理能力。InfiAlign的核心在于一个强大的数据选择流程,该流程利用多维质量指标从开源推理数据集中自动筛选高质量对齐数据。这一流程在显著减少数据需求的同时,实现了性能的大幅提升,并保持了对新数据源的扩展性。将InfiAlign应用于Qwen2.5-Math-7B-Base模型时,我们的SFT模型仅使用约12%的训练数据,便达到了与DeepSeek-R1-Distill-Qwen-7B相当的性能,并在多种推理任务中展现出强大的泛化能力。通过应用DPO,模型在数学推理任务上取得了尤为显著的进步,在AIME 24/25基准测试中平均提升了3.89%。我们的成果凸显了将原则性数据选择与全阶段后续训练相结合的有效性,为以可扩展且数据高效的方式对齐大型推理模型提供了实用解决方案。模型检查点可在https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT获取。
视频目标分割(VOS)旨在在整个视频中分割指定的目标对象。尽管最先进的方法在现有基准测试(如DAVIS和YouTube-VOS)上取得了令人印象深刻的性能(例如,J&F超过90%),但这些数据集主要包含显著、主导且孤立的对象,限制了它们对现实世界场景的泛化能力。为了推动VOS向更真实的环境发展,复杂视频目标分割(MOSEv1)被引入,以促进复杂场景中的VOS研究。基于MOSEv1的优势和局限性,我们提出了MOSEv2,这是一个显著更具挑战性的数据集,旨在进一步推动VOS方法在现实世界条件下的发展。MOSEv2包含5,024个视频和超过701,976个高质量掩码,涵盖了200个类别的10,074个对象。与前一版本相比,MOSEv2引入了显著更高的场景复杂性,包括更频繁的对象消失和重现、严重的遮挡和拥挤、更小的对象,以及一系列新的挑战,如恶劣天气(例如,雨、雪、雾)、低光场景(例如,夜间、水下)、多镜头序列、伪装对象、非物理目标(例如,阴影、反射)、需要外部知识的场景等。我们在5种不同设置下对20种代表性VOS方法进行了基准测试,并观察到一致性的性能下降。例如,SAM2在MOSEv1上的76.4%下降到MOSEv2上的仅50.9%。我们进一步评估了9种视频目标跟踪方法,并发现了类似的下降,表明MOSEv2在跨任务中提出了挑战。这些结果突显了尽管现有数据集上的高精度,当前VOS方法在现实世界的复杂性下仍然面临困难。MOSEv2公开在https://MOSE.video。
逼真的发丝生成对于计算机图形学和虚拟现实等应用至关重要。尽管扩散模型能够根据文本或图像生成发型,但这些输入方式在精确性和用户友好性方面存在不足。为此,我们提出了首个基于草图的发丝生成模型,该模型在保持用户友好性的同时提供了更精细的控制。我们的框架通过两大创新解决了关键挑战,如复杂发丝交互建模和多样化草图模式处理:一是可学习的发丝上采样策略,将三维发丝编码至多尺度潜在空间;二是采用带有扩散头的Transformer实现的多尺度自适应条件机制,确保不同粒度级别间的一致性。在多个基准数据集上的实验表明,我们的方法在真实感和精确度上均优于现有技术。定性结果进一步验证了其有效性。代码将在[GitHub](https://github.com/fighting-Zhang/StrandDesigner)发布。
基于扩散模型的图像压缩技术已展现出卓越的感知性能,但其存在两大关键缺陷:一是多步采样导致的解码延迟过高,二是过度依赖生成先验造成的保真度不足。针对这些问题,我们提出了SODEC,一种创新的单步扩散图像压缩模型。我们主张,在图像压缩中,一个信息量充足的潜在表示足以避免多步细化的需求。基于这一洞见,我们利用预训练的VAE模型生成富含信息的潜在表示,并以单步解码替代迭代去噪过程。同时,为提高保真度,我们引入了保真度引导模块,促使输出忠实于原图像。此外,我们设计了码率退火训练策略,以在极低比特率下实现有效训练。大量实验表明,SODEC显著超越现有方法,在率失真感知性能上达到领先水平。相较于以往的基于扩散的压缩模型,SODEC将解码速度提升了超过20倍。代码已发布于:https://github.com/zhengchen1999/SODEC。
推理型大语言模型(R-LLMs)在复杂推理任务上取得了显著进展,但在长文本事实性基准测试中,相较于非推理型模型,其产生的幻觉现象明显增多。然而,将在线强化学习(RL)——近期R-LLM进步的关键组成部分——扩展到长文本事实性场景,因缺乏可靠的验证方法而面临诸多独特挑战。先前研究已利用如FActScore等自动事实性评估框架在离线RL环境中筛选偏好数据,但我们发现,直接将此类方法作为在线RL的奖励会导致多种形式的奖励欺骗,例如生成不够详细或相关性低的回答。我们提出了一种新颖的奖励函数,它同时考量事实精确度、回答详细程度及答案相关性,并应用在线RL来学习高质量的事实推理。在六个长文本事实性基准测试上的评估显示,我们的事实推理模型平均将幻觉率降低了23.1个百分点,回答详细程度提升了23%,且整体回答的有用性未出现下降。
参考表达式分割(Reference Expression Segmentation, RES)旨在根据指代表达式分割图像区域,并随着多模态大模型(Multimodal Large Models, MLLMs)的兴起而广受欢迎。尽管MLLMs在语义理解方面表现出色,但其基于令牌生成的范式在处理像素级密集预测时面临挑战。现有的RES方法要么将MLLMs与参数庞大的Segment Anything Model(SAM,拥有632M网络参数)耦合,要么采用牺牲精度的轻量级无SAM流程。为解决性能与成本之间的权衡问题,我们特别提出了MLLMSeg,这一新颖框架充分利用了MLLM视觉编码器中固有的视觉细节特征,而无需引入额外的视觉编码器。此外,我们提出了一个细节增强且语义一致的特征融合模块(Detail-enhanced and Semantic-consistent Feature Fusion, DSFF),该模块将细节相关的视觉特征与MLLM中大语言模型(Large Language Model, LLM)输出的语义相关特征深度融合。最后,我们建立了一个仅含34M网络参数的轻量级掩码解码器,它最优地利用了视觉编码器中的详细空间特征和LLM的语义特征,以实现精确的掩码预测。大量实验证明,我们的方法普遍超越了基于SAM和无SAM的竞争对手,在性能与成本之间实现了更好的平衡。代码可在https://github.com/jcwang0602/MLLMSeg获取。
现有的视觉-语言模型(VLMs),无论是通用型还是专用型,都受限于其参数量级,缺乏强大的自我修正能力,在处理长视觉上下文和复杂推理任务时表现欠佳,导致在文档类任务中的表现不尽如人意。为此,我们提出了MACT,一种专为视觉文档理解和视觉问答(VQA)设计的、具备测试时扩展能力的多智能体协作框架。该框架由四个功能明确且协作高效的小规模智能体构成,即规划、执行、判断和回答智能体。特别地,判断智能体专门负责验证正确性并引导前序智能体进行修正,其表现优于传统的修正策略。为了进一步拓展框架的能力边界,我们提出了混合奖励模型,以平衡智能体特定能力与全局协作,以及智能体级别的混合测试时扩展策略,根据各智能体的功能定制不同的扩展方案。在涵盖文档类和非文档类场景的基准测试中,MACT以较小的参数量级展现了卓越性能,且未牺牲通用任务和数学任务的处理能力。尤其是在涉及长视觉上下文和复杂推理的基准测试中表现突出。MACT的三个变体在平均得分上稳居前三,在15个基准测试中的13个中领先。代码将发布于:https://github.com/YU-deep/MACT.git。
大型语言模型(LLMs)的性能对输入信息在上下文中的位置极为敏感。为探究这种位置偏差背后的机制,我们通过大量实验揭示了一个一致的现象,称之为“注意力盆地”:当模型面对一系列结构化项目(如检索到的文档或少样本示例)时,系统性地对序列开头和结尾的项目赋予更高注意力,而忽视中间部分。关键的是,我们的分析进一步表明,将更高注意力分配给关键信息是提升模型性能的核心。基于这些洞察,我们提出了注意力驱动重排序(AttnRank),一个两阶段框架,它首先利用少量校准集估计模型内在的位置注意力偏好,然后重新排列检索到的文档或少样本示例,使最显著的内容与这些高注意力位置对齐。AttnRank是一种模型无关、无需训练、即插即用的方法,计算开销极小。在多跳问答和少样本上下文学习任务上的实验表明,AttnRank在10种不同架构和规模的大型语言模型上均实现了显著改进,且无需修改模型参数或训练流程。
本文介绍了一套全面的基准测试,用于评估大型语言模型(LLMs)对语言标识符的响应:这些微妙的语言标记可能无意中透露出性别、社会阶层或地域背景等人口统计属性。通过精心设计的100个经过验证的问答对进行模拟访谈,我们展示了LLMs如何系统性地惩罚某些语言模式,尤其是模糊表达,尽管内容质量相当。我们的基准测试生成了控制语言变体,在保持语义等价的同时隔离特定现象,从而能够精确测量自动评估系统中的人口统计偏差。我们在多个语言维度上验证了该方法,显示模糊表达的回答平均评分低25.6%,并证明了该基准测试在识别模型特定偏差方面的有效性。这项工作为检测和衡量AI系统中的语言歧视建立了基础框架,在自动化决策公平性方面具有广泛的应用前景。
多模态实体链接在众多应用中扮演着关键角色。基于大规模语言模型的方法的最新进展已成为该任务的主导范式,有效结合文本与视觉模态以提升性能。尽管取得了成功,这些方法仍面临两大挑战:一是在某些场景下不必要地引入图像数据,二是仅依赖一次性提取的视觉特征,这可能会削弱其效果与准确性。为解决这些挑战,我们提出了一种新颖的基于LLM的多模态实体链接框架,名为“内-跨模态协同反思”。该框架优先利用文本信息处理任务。当仅凭文本通过内-跨模态评估不足以链接到正确实体时,它采用多轮迭代策略,整合图像中多方面的关键视觉线索,以支持推理并提高匹配精度。在三个广泛使用的公开数据集上的大量实验表明,我们的框架在该任务中持续超越当前最先进的方法,分别实现了3.2%、5.1%和1.6%的性能提升。我们的代码已发布于https://github.com/ziyan-xiaoyu/I2CR/。
对齐性和均匀性是对比学习领域中的基本原则。在推荐系统中,已有研究表明优化贝叶斯个性化排序(BPR)损失有助于实现对齐性和均匀性目标。具体而言,对齐性旨在拉近交互用户和物品的表示,而均匀性则要求用户和物品的嵌入在单位超球面上均匀分布。本研究重新审视了多模态推荐系统中的对齐性和均匀性特性,揭示了现有模型倾向于优先考虑均匀性而牺牲对齐性的趋势。我们的假设挑战了通过均匀性损失实现物品平等对待的传统观念,提出了一种更为细致的方法,即具有相似多模态属性的物品在超球面流形上向邻近表示收敛。具体来说,我们利用物品多模态数据之间的固有相似性来校准其均匀分布,从而在嵌入空间中诱导出更显著的异质实体间的排斥力。理论分析阐明了这种校准后的均匀性损失与传统均匀性函数之间的关系。此外,为了增强多模态特征的融合,我们引入了一种球面贝塞尔方法,旨在整合任意数量的模态,同时确保融合后的特征被约束在同一超球面流形上。在五个真实世界数据集上进行的实证评估证实了我们的方法相较于竞争基线的优越性。我们还展示了所提出的方法通过整合MLLM提取的特征,能够在NDCG@20指标上实现高达5.4%的性能提升。源代码可在以下网址获取:https://github.com/enoche/CM3。
从非结构化文本中删除个人身份信息(PII)对于确保受监管领域的数据隐私至关重要。虽然早期方法依赖于基于规则的系统及特定领域的命名实体识别(NER)模型,但这些方法难以跨格式和上下文进行泛化。大型语言模型(LLMs)的最新进展提供了一个有前景的替代方案,然而架构和训练选择对信息删除性能的影响仍未被充分探索。LLMs在需要上下文语言理解的任务中表现出色,包括自由文本中的PII删除。先前的研究表明,通过适当的适配,LLMs可以成为有效的上下文隐私学习器。尽管如此,架构和训练选择对PII删除的具体影响仍待深入研究。在本研究中,我们对LLMs作为隐私保护的PII删除系统进行了全面分析,评估了多种LLM架构和训练策略在PII删除中的有效性。我们的分析衡量了删除性能、语义保持及PII泄露,并将这些结果与延迟和计算成本进行了对比。研究结果为配置准确、高效且注重隐私的基于LLM的删除器提供了实用指导。为了支持可重复性和实际部署,我们发布了PRvL,一个开源的精调模型套件及通用PII删除评估工具。PRvL完全基于开源LLMs构建,支持多种推理设置,以确保灵活性和合规性。它设计为易于针对不同领域定制,并能在安全、自我管理的环境中完全运行,使数据所有者无需依赖第三方服务或在其基础设施之外暴露敏感内容即可执行删除操作。
同步语音翻译(SimulST)系统在接收音频流的同时,实时输出翻译文本或语音。这类系统面临的一大挑战是如何在翻译质量与延迟之间取得平衡。为此,我们提出了一种优化策略:仅在等待更多输入能带来信息增益时,才延迟输出。基于这一策略,我们引入了正则化熵信息适应(REINA),这是一种利用现有非流式翻译模型训练自适应策略的新颖损失函数。REINA源自信息论原理,其应用显著提升了先前工作中关于延迟与质量权衡的帕累托前沿。通过REINA,我们训练了法语、西班牙语和德语与英语之间的双向SimulST模型。仅使用开源或合成生成的数据进行训练,我们实现了与同类规模模型相比的当前最优(SOTA)流式翻译效果。此外,我们还引入了一种流式效率度量指标,定量分析表明,相较于之前的方法,REINA在延迟与质量权衡上的改进幅度高达21%,这一结果已针对非流式基线BLEU得分进行了标准化处理。
推理模型的出现及其与实用AI聊天机器人的整合,在解决需要复杂多步思维过程的高级数学、深度搜索和抽取式问答问题上取得了突破性进展。然而,对于这些模型为何比通用语言模型更容易产生幻觉,我们仍缺乏全面的理解。在本项调查研究中,我们系统性地探讨了当代语言模型在多跳问答任务中的推理失败现象。我们引入了一种新颖且细致的错误分类框架,该框架从三个关键维度审视失败原因:涉及源文档的多样性与独特性(“跳数”)、捕捉相关信息完整性(“覆盖度”)以及认知效率低下(“过度思考”)。通过严格的人工标注,辅以互补的自动化指标,我们的探索揭示了常被以准确率为中心的评估所掩盖的复杂错误模式。这种调查方法为深入理解当前模型的认知局限提供了洞见,并为未来语言建模工作中提升推理的准确性、透明度和鲁棒性提供了可操作的指导。
鲁棒主成分分析(RPCA)将观测矩阵分解为低秩背景和稀疏目标成分。这一能力使其在从图像修复到分割的多种任务中得以应用。然而,传统RPCA模型存在矩阵运算带来的计算负担、对精细调优超参数的依赖,以及刚性先验在动态场景中适应性受限的问题。为解决这些局限,我们提出了RPCANet++,一个融合了RPCA可解释性与高效深度架构的稀疏目标分割框架。我们的方法将松弛的RPCA模型展开为一个结构化网络,包含背景近似模块(BAM)、目标提取模块(OEM)和图像恢复模块(IRM)。为减少BAM中的阶段间传输损失,我们引入了记忆增强模块(MAM)以加强背景特征保留,同时深度对比先验模块(DCPM)利用显著性线索加速目标提取。在多种数据集上的广泛实验表明,RPCANet++在各种成像场景下均达到了最先进的性能。我们进一步通过视觉和数值的低秩性与稀疏性度量提升了模型的可解释性。通过结合RPCA的理论优势与深度网络的高效性,我们的方法为可靠且可解释的稀疏目标分割设立了新基准。代码可在我们的项目网页https://fengyiwu98.github.io/rpcanetx获取。
多模态语言模型(MLMs)在临床决策支持和诊断推理方面展现出潜力,预示着端到端自动化医学图像解读的前景。然而,临床医生在采用AI工具时极为审慎;一个在诸如判断图像方向或识别CT扫描是否经过对比增强等看似简单的感知任务上出错模型,不太可能被采纳用于临床任务。我们推出了Medblink,一个旨在探测这些模型此类感知能力的基准。Medblink涵盖跨多种成像模式和解剖区域的八项临床意义任务,总计包含1,605张图像上的1,429道选择题。我们评估了19个最先进的MLMs,包括通用型(如GPT4o、Claude 3.5 Sonnet)和领域专用型(如Med Flamingo、LLaVA Med、RadFM)模型。尽管人类标注者达到了96.4%的准确率,表现最佳的模型仅达到65%。这些结果表明,当前MLMs在常规感知检查中频繁失误,提示需加强其视觉基础以支持临床采纳。数据可在我们的项目页面上获取。