每日精選AI研究論文及翻譯
我们提出了一种简单却理论驱动的方法,以改进大型语言模型(LLM)的监督微调(SFT),解决其与强化学习(RL)相比泛化能力有限的问题。通过数学分析,我们发现标准SFT梯度隐含地编码了一种可能严重限制模型泛化能力的有问题的奖励结构。为了纠正这一点,我们提出了动态微调(DFT),通过根据每个词元的概率动态调整目标函数,稳定每个词元的梯度更新。值得注意的是,这一单行代码的改动在多个具有挑战性的基准测试和基础模型上显著优于标准SFT,展示了极大的泛化能力提升。此外,我们的方法在离线RL设置中也显示出具有竞争力的结果,提供了一个有效且更简单的替代方案。这项工作将理论洞见与实际解决方案相结合,显著提升了SFT的性能。代码将在https://github.com/yongliang-wu/DFT 提供。
自进化大型语言模型(LLMs)通过自主生成、优化并从自身经验中学习,为实现超级智能提供了一条可扩展的路径。然而,现有训练此类模型的方法仍严重依赖大量人工策划的任务和标签,通常通过微调或强化学习进行,这构成了推动人工智能系统超越人类智能能力的基本瓶颈。为克服这一限制,我们引入了R-Zero,一个完全自主的框架,能够从零开始生成自己的训练数据。R-Zero从单一基础LLM出发,初始化两个具有不同角色的独立模型:挑战者与解答者。这些模型分别优化,并通过互动共同进化:挑战者因提出接近解答者能力边界的任务而获得奖励,解答者则因成功解决挑战者提出的日益复杂的任务而受到激励。这一过程产生了一个有针对性的、自我提升的课程体系,无需任何预先存在的任务和标签。实证表明,R-Zero显著提升了不同骨干LLM的推理能力,例如,在数学推理基准上将Qwen3-4B-Base提升了+6.49分,在通用领域推理基准上提升了+7.54分。
我們介紹Genie Envisioner(GE),這是一個統一的世界基礎平台,專為機器人操作設計,將策略學習、評估和模擬整合於單一的視頻生成框架內。其核心是GE-Base,這是一個大規模、指令條件化的視頻擴散模型,能夠在結構化的潛在空間中捕捉真實世界機器人互動的空間、時間和語義動態。基於此基礎,GE-Act通過一個輕量級的流匹配解碼器,將潛在表示映射為可執行的動作軌跡,從而實現跨多種具身形式的精確且可泛化的策略推斷,並只需極少的監督。為了支持可擴展的評估和訓練,GE-Sim作為一個動作條件化的神經模擬器,生成高保真度的模擬結果,用於閉環策略開發。該平台還配備了EWMBench,這是一個標準化的基準測試套件,用於衡量視覺保真度、物理一致性和指令-動作對齊度。這些組件共同構成了Genie Envisioner,作為一個可擴展且實用的基礎,用於指令驅動的通用具身智能。所有代碼、模型和基準測試將公開釋出。
尽管视觉语言模型(VLMs)展现出强大的感知能力和令人印象深刻的视觉推理能力,但在复杂动态环境中对细节的关注和精确行动规划方面仍显不足,导致其表现欠佳。现实世界中的任务通常需要复杂的交互、高级的空间推理、长期规划以及持续的策略优化,这往往要求理解目标场景的物理规则。然而,在现实场景中评估这些能力往往成本过高。为弥合这一差距,我们引入了DeepPHY,一个新颖的基准框架,旨在通过一系列具有挑战性的模拟环境,系统评估VLMs对基本物理原理的理解与推理能力。DeepPHY整合了多个难度各异的物理推理环境,并融入了细粒度的评估指标。我们的评估发现,即便是最先进的VLMs,也难以将描述性的物理知识转化为精确的预测性控制。
尽管三维内容生成技术取得了飞速进展,对生成的三维资产进行质量评估仍面临诸多挑战。现有方法主要依赖于基于图像的度量标准,且仅能在物体层面操作,这限制了它们捕捉空间一致性、材质真实性及高保真局部细节的能力。1) 为解决这些问题,我们引入了Hi3DEval,一个专为三维生成内容设计的层次化评估框架。该框架结合了物体级与部件级评估,实现了跨多维度全面评估及细粒度质量分析。此外,我们扩展了纹理评估的范畴,不仅关注美学外观,还通过明确评估材质真实感,聚焦于诸如反照率、饱和度和金属质感等属性。2) 为支撑此框架,我们构建了Hi3DBench,一个包含多样化三维资产及高质量标注的大规模数据集,并配备了一套可靠的多代理标注流程。我们进一步提出了一种基于混合三维表示的自动化评分系统。具体而言,我们利用基于视频的表示进行物体级和材质主题评估,以增强时空一致性的建模,并采用预训练的三维特征进行部件级感知。大量实验证明,我们的方法在建模三维特性方面优于现有的基于图像的度量标准,并在与人类偏好的一致性上表现更佳,为手动评估提供了可扩展的替代方案。项目页面详见https://zyh482.github.io/Hi3DEval/。
基於多模態大型語言模型(MLLMs)的檢索增強生成(RAG)系統在複雜文檔理解方面展現出巨大潛力,但其發展卻因評估不足而受到嚴重阻礙。現有的基準測試通常僅關注文檔RAG系統的特定部分,並使用合成數據,這些數據缺乏完整的地面真實性和證據標籤,因此無法反映現實世界中的瓶頸與挑戰。為克服這些限制,我們引入了Double-Bench:一個全新的大規模、多語言、多模態評估系統,能夠對文檔RAG系統中的每個組件進行細粒度評估。該系統包含3,276份文檔(72,880頁)和5,168個單跳及多跳查詢,涵蓋6種語言和4種文檔類型,並具備針對潛在數據污染問題的動態更新支持。查詢基於全面掃描的證據頁面,並由人類專家驗證,以確保最高質量和完整性。我們在9種最先進的嵌入模型、4種MLLMs和4種端到端文檔RAG框架上進行的全面實驗表明,文本與視覺嵌入模型之間的差距正在縮小,這凸顯了構建更強文檔檢索模型的必要性。我們的研究還揭示了當前文檔RAG框架中存在的過度自信困境,這些框架傾向於在缺乏證據支持的情況下提供答案。我們希望完全開源的Double-Bench能為未來高級文檔RAG系統的研究提供堅實基礎。我們計劃每年及時更新語料庫並發布新的基準測試。
福祉涵蓋了對個人成長及明智生活決策至關重要的心理、生理與社會層面。隨著越來越多的人諮詢大型語言模型(LLMs)以理解福祉,一個關鍵挑戰浮現:LLMs能否生成不僅準確且能適應多元受眾的解釋?高品質的解釋既需事實正確性,也需滿足不同專業背景用戶的期望。本研究構建了一個大規模數據集,包含由十種多樣化LLMs生成的2,194個福祉概念的43,880條解釋。我們引入了一種基於原則的LLM作為評判者的評估框架,採用雙重評判者來評估解釋質量。此外,我們展示了通過監督微調(SFT)和直接偏好優化(DPO)對開源LLM進行微調,能顯著提升生成解釋的質量。研究結果揭示:(1)所提出的LLM評判者與人類評估高度一致;(2)解釋質量在模型、受眾及類別間存在顯著差異;(3)經DPO和SFT微調的模型超越其更大規模的對照組,證明了基於偏好的學習在專門解釋任務中的有效性。
近来,大型推理模型(Large Reasoning Models, LRMs)因其在处理复杂任务中的卓越表现,逐渐成为研究热点。其中,DeepSeek R1凭借其出色的性能及开源特性,引起了广泛关注,推动了R1型LRM研究的进步。与传统的语言大模型(Large Language Models, LLMs)不同,这些模型通过引入长链思维、自我反思等机制,结合强化学习,在推理过程中增强了逻辑推理与决策能力。然而,随着这些模型的广泛应用,过度思考的问题逐渐显现。具体而言,在生成答案时,这些模型往往构建过长的推理链条,包含冗余或重复的步骤,这不仅降低了推理效率,还可能影响最终答案的准确性。为此,多种高效推理方法被提出,旨在不损害模型性能与推理能力的前提下,缩短推理路径。通过系统梳理当前高效推理方法领域的研究进展,我们以单模型优化与模型协作的视角,将现有工作归纳为两大方向:(1)单模型高效推理,专注于提升单个模型的推理效率;(2)模型协作高效推理,探索通过多模型协作优化推理路径。此外,我们维护了一个公开的GitHub仓库,用于追踪高效推理方法的最新进展。
本文提出了一種多功能語音合成系統,該系統在統一框架內整合了語音克隆與情感控制語音合成技術。本研究旨在解決長期以來在實現高度表現力、可控且自然的語音生成方面所面臨的挑戰,確保在不同語言及情感背景下忠實保留說話者身份。我們的方法引入了一種有效的說話者-情感解耦機制,結合批次內對比學習,實現了對說話者身份與情感風格的獨立操控,並採用了旋轉情感嵌入整合方法以實現平滑的情感控制。為支持全面的訓練與評估,我們構建了CSEMOTIONS,這是一個高質量的情感語音數據集,包含來自六位專業說話者、跨越七種情感類別的十小時普通話語音。大量實驗表明,我們的系統Marco-Voice在客觀與主觀指標上均取得了顯著提升。全面的評估與分析結果顯示,Marco-Voice在語音清晰度與情感豐富度方面展現出競爭力,標誌著表現力神經語音合成領域的一大進步。
通过图形用户界面(GUI)操作计算机的自主代理在处理复杂、长期任务时,往往面临效率与可靠性的挑战。尽管通过增强这些代理的规划能力可以改善任务分解,但它们仍受限于所有操作均需通过GUI操控的固有局限,导致系统脆弱且效率低下。本研究提出了一种更为稳健且灵活的范式:赋予代理使用编码作为增强操作的能力。我们介绍了CoAct-1,一个创新性的多代理系统,它巧妙地将基于GUI的控制与直接程序执行相结合。CoAct-1配备了一个协调器,能够动态地将子任务分配给传统的GUI操作员或专门编程代理,后者能够编写并执行Python或Bash脚本。这种混合策略使得代理能够绕过文件管理和数据处理等任务中低效的GUI操作序列,同时在必要时仍利用视觉交互。我们在具有挑战性的OSWorld基准测试中评估了该系统,CoAct-1以60.76%的成功率创下了新的最先进水平,显著超越了先前的方法。此外,我们的方法大幅提升了效率,将完成任务所需的平均步骤数降至仅10.15步,而领先的GUI代理则需要15步。我们的研究结果表明,将编码作为核心操作整合进来,为通用计算机自动化提供了一条更强大、高效且可扩展的路径。
大型多模态模型(LMMs)已展现出显著的增长,在处理复杂多模态任务时表现出卓越的性能。然而,近期研究指出,大型语言模型倾向于被动接受有缺陷的输入,往往导致在无效提示下进行无效推理。尽管如此,关于LMMs是否能够主动检测并审查错误输入的关键问题仍未得到充分探讨。为填补这一空白,我们引入了输入审查能力评估框架(ISEval),该框架涵盖了七类错误前提及三项评估指标。通过对十种先进LMMs的广泛评估,我们得出了关键发现。大多数模型在无指导情况下难以主动检测出有缺陷的文本前提,这反映出它们对明确提示的强烈依赖,以便识别前提错误。错误类型影响性能:模型在识别逻辑谬误方面表现出色,但在处理表层语言错误及某些条件性缺陷时则显得力不从心。模态信任度各异——Gemini 2.5 pro与Claude Sonnet 4在视觉与文本信息间取得平衡,而aya-vision-8b在冲突中过度依赖文本。这些发现强调了提升LMMs主动验证输入有效性的迫切需求,并为缓解该问题提供了新的见解。相关代码已发布于https://github.com/MLGroupJLU/LMM_ISEval。
有效的客戶支援不僅需要精確的問題解決能力,還需遵循專業標準,進行結構化且富有同理心的溝通。然而,現有的對話數據集往往缺乏策略性指導,且現實中的服務數據難以獲取與標註。為此,我們提出了客戶支援對話(Customer Support Conversation, CSC)任務,旨在培訓客服人員運用明確的支援策略進行回應。我們基於COPC指南提出了一個結構化的CSC框架,定義了五個對話階段及十二種策略,以引導高質量的互動。基於此框架,我們構建了CSConv,這是一個包含1,855條真實客戶與客服對話的評估數據集,這些對話經由大型語言模型(LLM)重寫,以體現策略的刻意運用,並進行了相應的標註。此外,我們開發了一種角色扮演方法,利用與CSC框架對齊的LLM驅動角色模擬富含策略的對話,從而產生了訓練數據集RoleCS。實驗表明,在RoleCS上對強力LLM進行微調,能顯著提升其在CSConv上生成高質量、策略對齊回應的能力。人類評估進一步證實了問題解決能力的提升。所有代碼與數據將公開於https://github.com/aliyun/qwen-dianjin。
視頻目標分割(Video Object Segmentation, VOS)旨在對視頻中指定的目標物體進行全程分割。儘管現有的頂尖方法在諸如DAVIS和YouTube-VOS等基準測試中取得了令人矚目的成績(例如,J&F指標超過90%),但這些數據集主要包含顯著、主導且孤立的物體,限制了其在現實場景中的泛化能力。為了推動VOS技術向更為真實的環境邁進,複雜視頻目標分割(MOSEv1)被提出,以促進複雜場景下的VOS研究。基於MOSEv1的優勢與不足,我們推出了MOSEv2,這是一個旨在進一步提升VOS方法在現實條件下應對能力、難度顯著增加的數據集。MOSEv2包含5,024段視頻,涵蓋200個類別的10,074個物體,提供了超過701,976個高質量掩碼。與前代相比,MOSEv2引入了更高的場景複雜性,包括更頻繁的物體消失與重現、嚴重的遮擋與擁擠、更小的物體,以及一系列新的挑戰,如惡劣天氣(如雨、雪、霧)、低光場景(如夜間、水下)、多鏡頭序列、偽裝物體、非實體目標(如陰影、反射)、需要外部知識的場景等。我們在五種不同設置下對20種代表性VOS方法進行了基準測試,觀察到性能的普遍下降。例如,SAM2在MOSEv1上的76.4%下降至MOSEv2上的僅50.9%。我們進一步評估了9種視頻目標跟踪方法,發現了相似的性能下滑,這表明MOSEv2在跨任務層面均提出了挑戰。這些結果強調,儘管現有數據集上已達到高精度,當前VOS方法在面對現實世界的複雜性時仍顯不足。MOSEv2已公開於https://MOSE.video,供公眾使用。
大型語言模型(LLMs)在處理多樣複雜任務時展現了卓越的推理能力。然而,通過後續訓練來提升這些能力仍需要大量資源,尤其是在數據和計算成本方面。儘管近期研究嘗試通過精選數據來提高樣本效率,但現有方法多依賴於啟發式或任務特定策略,這限制了其可擴展性。本研究提出InfiAlign,一個可擴展且樣本高效的後續訓練框架,它結合了監督微調(SFT)與直接偏好優化(DPO),旨在對齊LLMs以增強其推理能力。InfiAlign的核心是一個強大的數據選擇流程,該流程利用多維質量指標從開源推理數據集中自動篩選高質量對齊數據。這一流程不僅顯著提升了性能,還大幅減少了數據需求,並能靈活適應新數據源。應用於Qwen2.5-Math-7B-Base模型時,我們的SFT模型僅使用約12%的訓練數據,便達到了與DeepSeek-R1-Distill-Qwen-7B相當的性能,並在多樣推理任務中展現出良好的泛化能力。通過應用DPO,模型在數學推理任務上取得了尤為顯著的進步,在AIME 24/25基準測試中平均提升了3.89%。這些成果凸顯了將原則性數據選擇與全階段後續訓練相結合的有效性,為以可擴展且數據高效的方式對齊大型推理模型提供了實用解決方案。模型檢查點可在https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT獲取。
真實感髮絲生成對於計算機圖形學和虛擬現實等應用至關重要。雖然擴散模型能夠從文本或圖像生成髮型,但這些輸入方式在精確性和用戶友好性方面存在不足。為此,我們提出了首個基於草圖的髮絲生成模型,該模型在保持用戶友好性的同時,提供了更精細的控制。我們的框架通過兩項主要創新解決了關鍵挑戰,如模擬複雜的髮絲交互和多樣的草圖模式:一是可學習的髮絲上採樣策略,將三維髮絲編碼到多尺度潛在空間中;二是採用帶有擴散頭的變壓器實現的多尺度自適應條件機制,以確保不同粒度層次的一致性。在多個基準數據集上的實驗表明,我們的方法在真實感和精確性上均優於現有技術。定性結果進一步證實了其有效性。代碼將在[GitHub](https://github.com/fighting-Zhang/StrandDesigner)上發布。
基於擴散的圖像壓縮技術已展現出卓越的感知性能。然而,該技術存在兩個關鍵缺陷:(1) 由於多步採樣導致的解碼延遲過長,以及 (2) 過度依賴生成先驗而導致的保真度不足。為解決這些問題,我們提出了SODEC,一種新穎的單步擴散圖像壓縮模型。我們認為,在圖像壓縮中,一個信息量足夠的潛在表示使得多步精煉變得不必要。基於這一洞見,我們利用預訓練的基於VAE的模型來生成富含信息的潛在表示,並以單步解碼取代迭代去噪過程。同時,為提升保真度,我們引入了保真度指導模塊,促使輸出忠實於原始圖像。此外,我們設計了速率退火訓練策略,以在極低比特率下實現有效訓練。大量實驗表明,SODEC顯著超越了現有方法,達到了優異的率失真感知性能。與之前的基於擴散的壓縮模型相比,SODEC將解碼速度提高了超過20倍。代碼已發佈於:https://github.com/zhengchen1999/SODEC。
推理型大型語言模型(R-LLMs)在複雜推理任務上取得了顯著進展,但在長篇事實性基準測試中,其產生的幻覺遠多於非推理型模型。然而,將線上強化學習(RL)——近期R-LLM進步的關鍵組成部分——擴展到長篇事實性設定中,由於缺乏可靠的驗證方法,面臨著多項獨特挑戰。先前的研究已利用如FActScore等自動事實性評估框架來在離線RL設定中整理偏好數據,但我們發現,直接在線上RL中將此類方法用作獎勵會導致獎勵欺騙,例如產生較不詳細或相關的回應。我們提出了一種新穎的獎勵函數,它同時考慮了事實精確度、回應詳細程度和答案相關性,並應用線上RL來學習高質量的事實推理。在六個長篇事實性基準測試中,我們的事實推理模型平均將幻覺率降低了23.1個百分點,答案詳細程度提升了23%,且整體回應的有用性未見下降。
參考表達式分割(Reference Expression Segmentation, RES)旨在根據指代表達式分割圖像區域,並隨著多模態大模型(Multimodal Large Models, MLLMs)的興起而受到廣泛關注。儘管MLLMs在語義理解方面表現出色,但其基於令牌生成的範式在像素級密集預測方面存在困難。現有的RES方法要麼將MLLMs與擁有632M網絡參數的Segment Anything Model(SAM)結合,要麼採用不依賴SAM的輕量級管道,但這會犧牲準確性。為了解決性能與成本之間的權衡問題,我們特別提出了MLLMSeg,這是一種新穎的框架,它充分利用了MLLM視覺編碼器中固有的視覺細節特徵,而無需引入額外的視覺編碼器。此外,我們提出了一種細節增強且語義一致的特徵融合模塊(Detail-enhanced and Semantic-consistent Feature Fusion, DSFF),該模塊將與細節相關的視覺特徵與MLLM中大語言模型(Large Language Model, LLM)輸出的語義相關特徵充分融合。最後,我們建立了一個僅有34M網絡參數的輕量級掩碼解碼器,該解碼器最優化地利用了視覺編碼器中的詳細空間特徵和LLM中的語義特徵,以實現精確的掩碼預測。大量實驗表明,我們的方法在性能和成本之間取得了更好的平衡,普遍超越了基於SAM和不依賴SAM的競爭對手。代碼可在https://github.com/jcwang0602/MLLMSeg獲取。
現有的視覺語言模型(VLMs),無論是通用型還是專業型,均受制於其參數規模,缺乏強大的自我校正能力,且在涉及長視覺上下文和複雜推理的任務中表現欠佳,導致在基於文檔的任務中表現不盡如人意。為此,我們提出了MACT,一種多智能體協作框架,配備測試時擴展功能,專為視覺文檔理解和視覺問答(VQA)設計。該框架由四個獨立的小規模智能體組成,即規劃、執行、判斷和回答智能體,各司其職且協作高效。值得注意的是,判斷智能體專司驗證正確性並引導至前序智能體進行修正,其表現超越傳統的校正策略。為進一步拓展框架的能力邊界,我們提出了混合獎勵建模,以平衡智能體特定能力與全局協作,以及智能體層面的混合測試時擴展,根據各智能體的功能定制不同的擴展策略。在涵蓋文檔與非文檔場景的基準測試中,我們的MACT以較小的參數規模展現出優異性能,且未犧牲通用及數學任務的能力。尤其在涉及長視覺上下文和複雜推理的基準測試中表現突出。MACT的三種變體在平均得分上穩居前三,並在15個基準測試中的13個領先。代碼將於以下網址提供:https://github.com/YU-deep/MACT.git。
大型語言模型(LLMs)的表現對輸入資訊的上下文位置極為敏感。為探究此位置偏差背後的機制,我們通過大量實驗揭示了一種被稱為“注意力盆地”的現象:當模型面對一系列結構化項目(如檢索到的文檔或少樣本示例)時,系統性地對序列開頭和結尾的項目賦予更高的注意力,而忽視中間部分。關鍵在於,我們的分析進一步表明,將更高的注意力分配給關鍵資訊是提升模型性能的關鍵。基於這些洞察,我們提出了注意力驅動重排序(AttnRank),這是一個兩階段框架,其(i)利用小型校準集估計模型的內在位置注意力偏好,並(ii)重新排序檢索到的文檔或少樣本示例,使最顯著的內容與這些高注意力位置對齊。AttnRank是一種模型無關、無需訓練且即插即用的方法,具有極低的計算開銷。在多跳問答和少樣本上下文學習任務上的實驗表明,AttnRank在10種不同架構和規模的大型語言模型中均實現了顯著改進,且無需修改模型參數或訓練流程。
本文提出了一套全面的基准测试,用于评估大型语言模型(LLMs)对语言特征标记(即那些可能无意中透露出性别、社会阶层或地域背景等人口统计属性的微妙语言标志)的响应方式。通过精心构建的访谈模拟,采用100组经过验证的问题-回答对,我们展示了LLMs如何系统性地对某些语言模式,尤其是模糊限制语,进行惩罚,尽管这些回答在内容质量上并无差异。我们的基准测试生成了控制下的语言变体,这些变体在保持语义等价的同时隔离了特定现象,从而能够精确测量自动化评估系统中的人口统计偏见。我们沿多个语言学维度验证了我们的方法,结果显示,使用模糊限制语的回答平均评分降低了25.6%,并证明了该基准测试在识别模型特定偏见方面的有效性。本研究为检测和衡量人工智能系统中的语言歧视建立了一个基础框架,对自动化决策环境中的公平性具有广泛的应用价值。
多模態實體連結在多種應用中扮演著至關重要的角色。基於大型語言模型的方法的最新進展已成為該任務的主導範式,有效地結合了文本和視覺模態以提升性能。儘管取得了成功,這些方法仍面臨兩個挑戰,包括在某些場景中不必要地引入圖像數據,以及僅依賴於一次性提取的視覺特徵,這可能削弱其效果和準確性。為應對這些挑戰,我們提出了一種新穎的基於LLM的多模態實體連結框架,稱為「模態內與模態間協同反思」。該框架優先利用文本信息來解決任務。當僅憑文本無法通過模態內與模態間評估連結到正確實體時,它採用多輪迭代策略,整合來自圖像各個方面的關鍵視覺線索,以支持推理並提升匹配準確性。在三個廣泛使用的公共數據集上的大量實驗表明,我們的框架在該任務中始終優於當前最先進的方法,分別實現了3.2%、5.1%和1.6%的提升。我們的代碼可在https://github.com/ziyan-xiaoyu/I2CR/ 獲取。
對齊性與均勻性是對比學習領域中的基本原則。在推薦系統中,先前的研究已證實,優化貝葉斯個性化排序(BPR)損失有助於實現對齊性與均勻性的目標。具體而言,對齊性旨在拉近互動用戶與物品的表徵,而均勻性則要求用戶與物品的嵌入在單位超球面上均勻分佈。本研究重新審視了多模態推薦系統中的對齊性與均勻性特性,揭示了現有模型傾向於優先考慮均勻性而犧牲對齊性的現象。我們的假設挑戰了通過均勻性損失實現物品平等處理的傳統觀念,提出了一種更為細緻的方法,即具有相似多模態屬性的物品在超球面流形上趨向於相近的表徵。具體而言,我們利用物品多模態數據之間的固有相似性來校準其均勻分佈,從而在嵌入空間中誘導出更為顯著的異質實體間的排斥力。理論分析闡明了這種校準後的均勻性損失與傳統均勻性函數之間的關係。此外,為了增強多模態特徵的融合,我們引入了一種球形貝塞爾方法,旨在整合任意數量的模態,同時確保融合後的特徵被約束在同一超球面流形上。在五個真實世界數據集上進行的實證評估證實了我們的方法相較於競爭基線的優越性。我們還展示了所提出的方法通過整合MLLM提取的特徵,能夠在NDCG@20性能上實現高達5.4%的提升。源代碼可訪問:https://github.com/enoche/CM3。
從非結構化文本中刪除個人識別資訊(PII)對於確保受監管領域的數據隱私至關重要。雖然早期方法依賴於基於規則的系統和特定領域的命名實體識別(NER)模型,但這些方法無法跨格式和上下文進行泛化。大型語言模型(LLMs)的最新進展提供了一種有前景的替代方案,然而,架構和訓練選擇對刪除性能的影響仍未得到充分探索。LLMs在需要上下文語言理解的任務中表現出色,包括在自由形式文本中刪除PII。先前的研究表明,通過適當的適應,LLMs可以成為有效的上下文隱私學習者。然而,架構和訓練選擇對PII刪除的影響仍未得到充分探索。在本研究中,我們對LLMs作為隱私保護的PII刪除系統進行了全面分析。我們評估了一系列LLM架構和訓練策略在PII刪除中的有效性。我們的分析測量了刪除性能、語義保留和PII洩漏,並將這些結果與延遲和計算成本進行比較。結果為配置準確、高效且具有隱私意識的基於LLM的刪除器提供了實用指導。為了支持可重現性和實際部署,我們發布了PRvL,這是一個開源的微調模型套件和通用PII刪除的評估工具。PRvL完全基於開源LLMs構建,並支持多種推理設置以實現靈活性和合規性。它旨在輕鬆定制以適應不同領域,並完全在安全、自我管理的環境中運行。這使得數據所有者能夠在不依賴第三方服務或將敏感內容暴露於自身基礎設施之外的情況下執行刪除操作。
同步語音翻譯(SimulST)系統在接收音頻輸入的同時,即時輸出翻譯後的文本或語音。此類系統面臨著在翻譯質量與延遲之間取得平衡的重大挑戰。我們提出了一種優化此權衡的策略:僅在等待更多輸入能獲取額外信息時才進行等待。基於此策略,我們介紹了正則化熵信息適應(REINA),這是一種利用現有非流式翻譯模型來訓練自適應策略的新穎損失函數。我們從信息論原理推導出REINA,並展示REINA有助於將報告的延遲/質量權衡的帕累托前沿推至先前工作之上。運用REINA,我們訓練了一個SimulST模型,涵蓋法語、西班牙語和德語與英語之間的雙向翻譯。僅使用開源或合成生成的數據進行訓練,我們在同等規模的模型中實現了最先進(SOTA)的流式翻譯效果。此外,我們引入了一種流式效率的度量標準,定量顯示REINA相比於先前方法,在延遲/質量權衡上提升了多達21%,這一提升是相對於非流式基線BLEU分數進行標準化後的結果。
推理模型的興起及其與實用人工智慧聊天機器人的整合,已在解決需要複雜多步思考過程的高階數學、深度搜索及抽取式問答問題上取得了突破。然而,對於這些模型為何比通用語言模型更容易產生幻覺,我們仍缺乏完整的理解。在本調查研究中,我們系統性地探討了當代語言模型在多跳躍問答任務上的推理失敗。我們引入了一個新穎且細緻的錯誤分類框架,該框架從三個關鍵維度審視失敗:涉及來源文件的多樣性與獨特性(“跳躍”)、捕捉相關信息的完整性(“覆蓋率”),以及認知效率低下(“過度思考”)。通過嚴格的人工標註,並輔以互補的自動化指標,我們的探索揭示了常被以準確性為中心的評估所掩蓋的複雜錯誤模式。此調查方法為當前模型的認知限制提供了更深入的見解,並為未來語言建模工作中提升推理的忠實度、透明度及魯棒性提供了可操作的指導。
鲁棒主成分分析(RPCA)将观测矩阵分解为低秩背景与稀疏目标成分,这一能力使其在图像修复至分割等任务中得以广泛应用。然而,传统RPCA模型因矩阵运算带来的计算负担、对精细调参的依赖以及固定先验在动态场景下的适应性受限而存在不足。为解决这些局限,我们提出了RPCANet++,一个融合了RPCA可解释性与高效深度架构的稀疏目标分割框架。该方法将松弛的RPCA模型展开为一个结构化网络,包含背景近似模块(BAM)、目标提取模块(OEM)及图像恢复模块(IRM)。为减少BAM中阶段间传输损失,我们引入了记忆增强模块(MAM)以强化背景特征保留,同时深度对比先验模块(DCPM)利用显著性线索加速目标提取。在多种数据集上的广泛实验表明,RPCANet++在各类成像场景下均达到了最先进的性能水平。我们进一步通过视觉与数值的低秩性和稀疏性度量提升了模型的可解释性。通过结合RPCA的理论优势与深度网络的高效性,本方法为可靠且可解释的稀疏目标分割设立了新的基准。相关代码已发布于项目网页https://fengyiwu98.github.io/rpcanetx。
多模态语言模型(MLMs)在临床决策支持与诊断推理方面展现出潜力,预示着端到端自动化医学图像解读的前景。然而,临床医生在采纳人工智能工具时极为审慎;一个在诸如判断图像方向或识别CT扫描是否增强对比等看似简单的感知任务上出错的模型,不太可能被应用于临床任务。我们推出了Medblink,一个旨在探测这些模型此类感知能力的基准测试。Medblink涵盖了跨多种成像模式和解剖区域的八项具有临床意义的任务,总计包含1,605张图像上的1,429道选择题。我们评估了19个最先进的MLMs,包括通用型(如GPT4o、Claude 3.5 Sonnet)和领域专用型(如Med Flamingo、LLaVA Med、RadFM)模型。尽管人类标注者达到了96.4%的准确率,表现最佳的模型仅达到65%。这些结果表明,当前的MLMs在常规感知检查中频繁失误,提示需加强其视觉基础以支持临床应用。数据可在我们的项目页面上获取。