每日精選AI研究論文及翻譯
建構能夠學習、模擬並推演客觀物理規律的世界模型,是實現人工通用智慧的基礎性挑戰。以Sora為代表的影片生成模型近期進展,展現了數據驅動的規模化定律在逼近物理動力學方面的潛力,而新興的統一多模態模型(UMM)則為整合感知、語言與推理提供了極具前景的架構範式。儘管取得這些進展,該領域仍缺乏一個界定通用世界模型必備屬性的理論框架。本文提出世界模型必須奠基於「三重一致性」原則:作為語義介面的模態一致性、作為幾何基礎的空間一致性,以及作為因果引擎的時間一致性。透過此三元視角,我們系統性回顧多模態學習的演進軌跡,揭示其從鬆耦合的專用模組逐步邁向能協同湧現內部世界模擬器的統一架構。為完善此概念框架,我們提出以多幀推理與生成場景為核心的基準測試CoW-Bench,在統一評估協議下對影片生成模型與UMM進行評測。本研究為通向通用世界模型確立了原則性路徑,既闡明現有系統的局限性,也指明了未來進展所需的架構要件。
隨著大型多模態模型(LMMs)規模擴大與強化學習(RL)方法日趨成熟,LMMs在複雜推理與決策方面已取得顯著進展。然而現有訓練仍依賴靜態數據與固定流程,難以診斷能力盲區或提供動態的針對性強化。受「測試驅動的錯誤暴露與基於反饋的修正勝過重複練習」這一發現啟發,我們提出診斷驅動的漸進演化(DPE)——一種螺旋式循環框架,其中診斷引導數據生成與強化過程,每次迭代都會對更新後的模型重新診斷以驅動下一輪針對性改進。DPE包含兩個核心組件:首先,多個智能體通過網路搜尋、影像編輯等工具對海量未標註多模態數據進行註解與品質管控,生成多樣化且貼近現實的樣本;其次,DPE將失敗案例歸因於特定弱點,動態調整數據配比,並引導智能體生成聚焦弱點的數據以實現精準強化。在Qwen3-VL-8B-Instruct與Qwen2.5-VL-7B-Instruct上的實驗表明,DPE在十一個基準測試中實現穩定且持續的性能提升,證明其為開放任務分佈下持續訓練LMM的可擴展範式。我們的程式碼、模型與數據已公開於:https://github.com/hongruijia/DPE。
基於大型語言模型(LLM)的路線規劃智能體已成為一種前景廣闊的範式,能通過自然語言互動和工具介導的決策來支持人類日常出行。然而,由於多樣化的路線需求、非確定性的地圖服務以及有限的可重現性,在真實出行場景中進行系統性評估仍面臨挑戰。本研究提出MobilityBench——一個可擴展的基準測試框架,用於評估基於LLM的路線規劃智能體在真實出行場景中的表現。該框架基於從高德地圖收集的大規模匿名真實用戶查詢構建,涵蓋全球多個城市中廣泛的路線規劃意圖。為實現可重現的端到端評估,我們設計了確定性的API回放沙箱,消除了實時服務帶來的環境變異性。我們進一步提出以結果有效性為核心的多維度評估方案,並輔以指令理解、規劃能力、工具使用效率和執行效能等評估維度。通過MobilityBench,我們在多樣化真實出行場景中評估了多種基於LLM的路線規劃智能體,並對其行為模式與性能表現進行了深入分析。研究發現,當前模型在基礎信息檢索和標準路線規劃任務中表現合格,但在偏好約束路線規劃方面存在明顯不足,這凸顯了個性化出行應用領域仍有巨大改進空間。我們已公開釋出基準數據集、評估工具包及相關文檔,詳見https://github.com/AMAP-ML/MobilityBench。
人類智慧天然融合了全模態感知——涵蓋視覺、音頻與語言——並結合複雜推理與工具使用來與世界互動。然而,當前多模態大型語言模型主要侷限於雙模態交互(如視覺-語言),缺乏通用人工智慧助手所需的統一認知能力。為彌合這一差距,我們推出OmniGAIA:一個綜合性基準測試平台,旨在評估全模態智能體在處理涉及影片、音頻和圖像模態的深度推理與多輪工具執行任務時的表現。通過創新的全模態事件圖構建方法,OmniGAIA基於真實世界數據生成需要跨模態推理與外部工具整合的複雜多跳躍查詢。此外,我們提出OmniAtlas——一個在工具整合推理範式下具備主動全模態感知能力的原生全模態基礎智能體。通過採用後見之引導的樹狀探索策略合成訓練軌跡,並結合OmniDPO進行細粒度錯誤校正,OmniAtlas有效增強了現有開源模型的工具使用能力。此項工作標誌著我們向建構適用於真實場景的下一代原生全模態人工智慧助手邁出關鍵一步。
潛在視覺推理旨在透過多模態大型語言模型的隱藏狀態進行冥想,以模擬人類的想像過程。儘管該方法被視為極具前景的視覺推理範式,但其有效性背後的運作機制仍不明朗。為揭示其真正效能來源,我們採用因果中介分析法檢驗潛在推理的有效性。我們將該過程建模為因果鏈:輸入作為處理項,潛在標記作為中介變量,最終答案作為結果變量。研究發現兩個關鍵斷層:(a) 輸入-潛在斷層:對輸入進行劇烈擾動時,潛在標記僅產生可忽略的變化,表明潛在標記未能有效關注輸入序列;(b) 潛在-答案斷層:對潛在標記施加擾動對最終答案影響微弱,顯示潛在標記對結果的因果效應有限。進一步的探針分析表明,潛在標記編碼的視覺信息有限且呈現高度相似性。據此,我們對潛在推理的必要性提出質疑,並提出名為CapImagine的簡潔替代方案,該方法教導模型使用文本進行顯式想像。在視覺中心基準測試上的實驗表明,CapImagine顯著優於複雜的潛在空間基線模型,彰顯了透過顯式想像實現視覺推理的卓越潛力。
探索仍是基於強化學習訓練的大型語言模型代理的關鍵瓶頸。現有方法雖能利用預訓練知識,卻在需要發現新狀態的環境中表現不佳。我們提出探索性記憶增強在線離線混合優化框架(EMPO²),該混合強化學習框架利用記憶進行探索,並結合在線與離線策略更新,使大型語言模型既能充分發揮記憶優勢,又能在無記憶條件下保持穩健性能。在ScienceWorld和WebShop環境中,EMPO²相較GRPO分別實現了128.6%和11.3%的性能提升。此外,在分佈外測試中,EMPO²展現出對新任務的卓越適應性,僅需少量帶記憶的試驗且無需參數更新。這些成果表明EMPO²是構建更具探索性與泛化能力的大型語言模型代理的優選框架。
儘管多智能體系統在複雜推理任務中表現卓越,但個體參與者產生的錯誤信息會引發級聯負面影響。現有解決方案往往依賴僵化的結構工程或昂貴的微調過程,限制了系統的可部署性與適應能力。我們提出AgentDropoutV2——一種測試時糾錯或剔除的剪枝框架,旨在無需重新訓練即可動態優化多智能體系統的信息流。該框架如同主動防火牆,可攔截智能體輸出並採用檢索增強型校正器,基於故障驅動的指示器池進行迭代式錯誤修正。此機制通過將蒸餾後的故障模式作為先驗知識,實現對潛在錯誤的精準識別。對於無法修復的輸出則執行剪枝以阻斷錯誤傳播,同時通過後備策略保障系統完整性。在大量數學基準測試上的實證結果表明,AgentDropoutV2能顯著提升多智能體系統的任務表現,在數學基準上平均準確率提升達6.3個百分點。此外,系統展現出強大的泛化與自適應能力:根據任務難度動態調節校正強度,並利用情境感知指示器解決多類錯誤模式。我們的代碼與數據集已開源於:https://github.com/TonySY2/AgentDropoutV2。
我們推出MediX-R1,這是一個針對醫學多模態大型語言模型(MLLMs)的開放式強化學習(RL)框架,能夠生成基於臨床實證的自由形式答案,突破傳統多選題格式的限制。該框架通過基於群組的強化學習與專為醫學推理設計的複合獎勵機制,對基礎視覺語言骨幹模型進行微調:包含基於LLM的準確性獎勵(通過嚴格的是/否判斷語義正確性)、基於醫學嵌入的語義獎勵(用於捕捉同義表述和術語變體),以及輕量級的格式與模態獎勵(用於強化可解釋推理和模態識別能力)。這種多信號設計為開放式輸出提供了穩定且信息豐富的反饋,有效解決了傳統可驗證或僅限多選題的獎勵機制不足之處。為量化進展,我們提出統一的評估框架,適用於純文本及圖文混合任務,採用基於參考的LLM-as-judge方法替代脆弱的字符串重疊指標,從而全面捕捉語義正確性、推理邏輯和上下文一致性。儘管僅使用51K模擬指令樣本,MediX-R1在標準醫學LLM(純文本)和VLM(圖文混合)基準測試中均表現優異,超越強勁的開源基線模型,並在開放式臨床任務上實現顯著提升。我們的結果表明,結合全面獎勵信號與基於LLM評估的開放式強化學習,是實現多模態模型中可靠醫學推理的可行路徑。訓練後的模型、精選數據集及源代碼已公開於:https://medix.cvmbzuai.com
近期深度研究智能體主要透過擴展推理深度來提升效能,但這在搜索密集型場景中會導致高昂的推理成本和延遲。此外,在異質性研究環境中的泛化能力仍具挑戰性。本研究提出「多搜索、少思考」(SMTL)框架,專注於長時序智能體搜索的效率與泛化能力。SMTL以平行證據獲取取代序列化推理,能在受限上下文預算下實現高效上下文管理。為支援跨任務類型的泛化能力,我們進一步引入統一數據合成流程,構建涵蓋確定性問答與開放式研究場景的搜索任務,並配備相應的評估指標。透過監督微調與強化學習訓練端到端智能體,在BrowseComp(48.6%)、GAIA(75.7%)、Xbench(82.0%)及DeepResearch Bench(45.9%)等基準測試中實現強勁且多項領先的效能表現。相較於Mirothinker-v1.0,在最大100次交互步驟下,SMTL於BrowseComp上的平均推理步驟減少70.7%,同時提升準確率。
我們提出了一種可擴展的3D重建模型,旨在解決離線前饋方法的一個關鍵侷限性:其計算與記憶體需求會隨輸入影像數量呈二次方增長。我們的方法基於一項關鍵發現——該瓶頸源於場景幾何的可變長度鍵值空間表徵,我們透過測試時訓練將其提煉為固定大小的多層感知機。VGG-T^3(視覺幾何基礎測試時訓練)的計算複雜度與輸入視角數量呈線性關係(與線上模型類似),僅需54秒即可完成對1000張影像集的重建,相比依賴softmax注意力的基準方法實現了11.6倍加速。由於我們的方法保留了全局場景聚合能力,其點雲重建誤差大幅優於其他線性時間方法。最後,我們透過對未見影像進行場景表徵查詢,展示了模型的視覺定位能力。
扩散模型在高保真图像、视频及音频生成领域取得显著进展,但其推理过程仍存在计算成本高昂的问题。当前基于分布式并行的扩散加速方法虽能提升速度,却会产生明显生成伪影,且无法实现与GPU数量成正比的实质性加速。为此,我们提出一种混合并行框架,通过结合新颖的数据并行策略——基于条件的划分,与最优流水线调度方法——自适应并行切换,在条件扩散模型中实现低延迟生成并保持高质量输出。核心创新点在于:(i)利用条件化与非条件化去噪路径作为数据划分的新视角;(ii)根据两条路径间的去噪差异自适应启用最优流水线并行。在两张NVIDIA RTX 3090 GPU上,我们的框架在SDXL和SD3模型上分别实现了2.31倍和2.07倍的延迟降低,同时保持图像质量。这一结果验证了我们的方法对基于U-Net的扩散模型和基于DiT的流匹配架构具有普适性。在高分辨率合成场景下,本方法的加速效果亦优于现有技术。代码已开源:https://github.com/kaist-dmlab/Hybridiff。
通用智能体(即在陌生环境中无需领域特定工程即可执行任务的系统)的承诺迄今仍基本未能实现。现有智能体多为专用系统,尽管新兴实现如OpenAI SDK智能体和Claude代码智能体已展现出更广泛的能力,但尚未对其通用性能进行系统性评估。当前智能体基准测试均预设领域特定集成,其任务信息编码方式导致无法公平评估通用智能体。本文首次将通用智能体评估确立为一级研究目标,提出评估概念原则、实现智能体与基准测试集成的统一协议,以及实用型通用智能体评估框架Exgentic。通过六大环境对五种主流智能体实现进行基准测试,我们创建了首个开放通用智能体排行榜。实验表明通用智能体能在多样环境中实现泛化,其性能在无需环境特定调优的情况下可与领域专用智能体相媲美。我们公开评估协议、框架及排行榜,旨在为通用智能体的系统性研究奠定基础。
现实世界中的人类行为天然蕴含着丰富的长期情境信息,这些信息可用于训练具身智能体进行感知、理解与行动。然而现有采集系统通常依赖昂贵的影棚设备与可穿戴装置,限制了野外场景条件人体运动数据的大规模采集。为此,我们提出EmbodMocap——一种基于两部移动iPhone的便携经济型数据采集方案。该方案的核心思想是通过联合标定双路RGB-D序列,在统一的世界度量坐标系下重建人体与场景。该方法无需固定摄像头或标记点即可实现日常环境中的度量级场景一致性采集,无缝衔接人体运动与场景几何信息。通过与光学捕捉基准数据对比,我们证明双视角配置具有显著缓解深度歧义的优势,在配准精度与重建效果上均优于单iPhone或单目模型。基于采集数据,我们赋能了三项具身智能任务:单目人-场景重建任务中,我们微调了可输出度量级世界空间对齐的人体与场景的前馈模型;基于物理的角色动画任务中,我们验证了数据可用于扩展人物-物体交互技能与场景感知运动追踪;机器人运动控制任务中,我们通过仿真到实物的强化学习训练人形机器人复现视频中的人类动作。实验结果验证了本方案的有效性及其对推进具身智能研究的贡献。
在技术飞速发展的时代,如何严格评估机器智能相对于人类通用智能的广阔光谱,已变得日益重要且充满挑战。传统AI基准测试通常仅能评估人类有限活动范围内的狭窄能力。这些测试大多呈静态特性,当开发者显性或隐性地针对其进行优化时,其评估效果会迅速饱和。我们认为,评估AI系统类人通用智能更有前景的方法是通过一种特别强大的通用游戏博弈形式:研究它们如何游玩及学习游玩所有可想象的人类游戏,并与具有同等经验水平、时间或其他资源的人类玩家进行比较。我们将"人类游戏"定义为人类为人类设计的游戏,并论证这类人们能够想象并享受的游戏集合——"人类游戏多元宇宙"——作为评估框架的适用性。为实现这一愿景,我们推出AI GameStore这一可扩展的开放式平台,该平台利用大语言模型与人机协同机制,通过自动采集并适配来自热门数字游戏平台的标准化容器化游戏环境变体,来合成具有代表性的人类新游戏。作为概念验证,我们基于苹果应用商店和Steam平台的热门榜单生成了100款此类游戏,并对七款前沿视觉语言模型进行了短时游戏片段评估。最佳模型在多数游戏中的得分不足人类平均分的10%,尤其在挑战世界模型学习、记忆与规划能力的游戏中表现欠佳。最后我们提出构建AI GameStore的后续步骤,将其作为衡量并推动机器实现类人通用智能的实用路径。
基于能量的预测性世界模型通过推理潜在能量景观而非生成像素,为多步视觉规划提供了强大方法。然而现有方法面临两大挑战:其一,其潜在表征通常在欧几里得空间中学习,忽略了状态间固有的几何与层次结构;其二,长时程预测能力不足,导致在扩展推演中性能快速衰退。为解决这些问题,我们提出GeoWorld——一种通过双曲JEPA将潜在表征从欧氏空间映射到双曲流形,从而保持几何结构与层次关系的几何世界模型。我们进一步引入基于能量的几何强化学习优化方法,实现双曲潜在空间中稳定的多步规划。在CrossTask和COIN数据集上的大量实验表明,相较于最先进的V-JEPA 2模型,本方法在3步规划中提升约3%的成功率,在4步规划中提升2%的成功率。项目网站:https://steve-zeyu-zhang.github.io/GeoWorld。
近期运动扩散模型的进展显著提升了人体运动合成的真实感。然而,现有方法要么依赖具有双向生成能力的全序列扩散模型(这会限制时间因果性与实时应用性),要么采用存在不稳定性和累积误差问题的自回归模型。本研究提出因果运动扩散模型(CMDM),这是一个基于因果扩散变换器的统一框架,可在语义对齐的潜空间内实现自回归运动生成。CMDM建立在运动-语言对齐因果变分自编码器(MAC-VAE)基础上,该编码器可将运动序列转换为具有时间因果性的潜表征。在此潜表征之上,通过因果扩散强制训练自回归扩散变换器,实现对运动帧的时间有序去噪。为达成快速推理,我们引入了具有因果不确定性的逐帧采样策略,即基于部分去噪的先前帧预测后续帧。该框架支持高质量文本驱动运动生成、流式合成以及交互速率下的长序列运动生成。在HumanML3D和SnapMoGen数据集上的实验表明,CMDM在语义保真度和时间平滑性上均优于现有扩散模型与自回归模型,同时显著降低了推理延迟。
全分片数据并行(FSDP),亦称零冗余优化器(ZeRO),因其灵活性高且对模型代码侵入性极低的特点,被广泛应用于大规模模型训练。然而,现有FSDP系统难以兼容结构感知训练方法(如块式量化训练),也无法适配前沿模型(如Gemini、Kimi K2)采用的非逐元素优化器(如Shampoo、Muon)。FSDP固定的逐元素或逐行分片格式与块状结构计算模式存在冲突。此外,当前实现方案在通信效率和内存利用率方面存在不足,限制了其向数万张GPU的扩展能力。我们提出veScale-FSDP——一种重新设计的FSDP系统,通过将灵活分片格式RaggedShard与结构感知规划算法相结合,实现大规模训练时的灵活性与高性能。veScale-FSDP原生支持FSDP所需的高效数据布局,赋能块式量化训练与非逐元素优化器。实验表明,相较于现有FSDP系统,veScale-FSDP可实现5~66%的吞吐量提升与16~30%的内存占用降低,并能高效扩展至数万张GPU规模。
开放词汇分割(OVS)将视觉语言模型(VLM)的零样本识别能力扩展至像素级预测,实现了基于文本提示的任意类别分割。尽管近期取得进展,但由于VLM训练采用的粗粒度图像级监督与自然语言的语义模糊性两大挑战,OVS仍落后于全监督方法。我们通过引入少样本设定来解决这些局限,该设定通过添加带有像素标注图像的支持集来增强文本提示。在此基础上,我们提出检索增强的测试时适配器,通过融合文本与视觉支持特征来学习轻量级的单图像分类器。与依赖后期手工融合的现有方法不同,我们的方法实现了基于学习的逐查询融合,达成模态间更强的协同效应。该方法支持持续扩展的支持集,并适用于个性化分割等细粒度任务。实验表明,我们在保持开放词汇能力的同时,显著缩小了零样本与监督分割之间的性能差距。
可驗證獎勵強化學習(RLVR)已成為增強大型語言模型推理能力的主流範式。然而標準RLVR算法存在一個公認缺陷:雖然能通過銳化採樣提升Pass@1準確率,但會同時壓縮模型的推理邊界並降低生成多樣性。我們發現現有方法忽略的根本原因在於對錯誤的均質化懲罰——無論是基於難度篩選提示的數據過濾方法,還是優勢值歸一化方案,都對同一組內所有錯誤推演路徑施加相同懲罰。這種均質化處理使得過度自信錯誤(即被RL過程虛假強化的錯誤推理路徑)持續存在並壟斷概率質量,最終抑制有效的探索軌跡。為解決此問題,我們提出非對稱置信感知錯誤懲罰機制(ACE)。ACE引入逐條推演的置信度偏移量度c_i = log(π_θ(y_i|x) / π_ref(y_i|x)),以動態調節負優勢值。理論上我們證明ACE梯度可分解為僅作用於過度自信錯誤的選擇性正則項梯度,加上能部分調節正則項強度的良構殘差項。我們在VERL框架下使用GRPO與DAPO算法,對Qwen2.5-Math-7B、Qwen3-8B-Base及Llama-3.1-8B-Instruct模型在DAPO-Math-17K數據集上進行大量微調實驗。在MATH-500和AIME 2025基準測試中,ACE與現有方法無縫兼容,並在所有三類模型家族和測試集上一致提升全譜系Pass@k指標。
大型语言模型的幻觉生成现象通常被归因于模型或其解码策略的缺陷。借鉴经典语言学理论,我们认为查询语句的形式同样会影响听者(及模型)的响应。我们通过构建22维查询特征向量来具象化这一观点,该向量涵盖从句复杂性、词汇稀有度、指代关系、否定形式、可答性及意图锚定等已知影响人类理解能力的维度。基于369,837条真实世界查询数据,我们探究:是否存在特定类型的查询更易诱发幻觉?大规模分析揭示出具有一致性的"风险图谱":深度从句嵌套和指代模糊等特征与较高幻觉倾向正相关;而明确的意图锚定和可答性则与较低幻觉率相关。其他如领域特异性等特征则呈现混合效应,其影响因数据集和模型而异。这些发现首次建立了与幻觉风险存在实证关联的查询特征表征体系,为定向查询重构及未来干预研究奠定基础。
我们推出DLT-Corpus——迄今为止分布式账本技术(DLT)研究领域规模最大的专业文本集合:该语料库涵盖科学文献(37,440篇出版物)、美国专利商标局(USPTO)专利(49,023项申请)及社交媒体(2200万条帖文),包含22.12百万份文档的29.8亿个词汇单元。现有DLT领域的自然语言处理(NLP)资源多聚焦于加密货币价格预测和智能合约,尽管该领域市值高达约3万亿美元且技术迭代迅速,其专业领域语言特性仍未被充分探索。 通过分析技术涌现模式与市场创新关联,我们验证了DLT-Corpus的实用价值。研究发现遵循传统技术转移路径:技术成果首先出现于科学文献,继而进入专利和社交媒体领域。尽管在加密寒冬期间社交媒体情绪持续乐观,但科学与专利活动独立于市场波动保持增长,并与整体市场扩张形成良性循环——研究先行推动经济增长,而经济增长又为后续创新提供资金支持。 我们完整公开DLT-Corpus语料库、领域自适应模型LedgerBERT(在DLT特定命名实体识别任务上较BERT-base提升23%),以及所有相关工具与代码。
大型语言模型(LLM)的先进推理能力导致幻觉现象愈发频繁,然而现有缓解研究多集中于开源模型的事后检测与参数编辑。由于闭源模型在机构部署中占据绝对主导地位,针对其幻觉问题的研究匮乏尤为令人担忧。我们提出QueryBandits——一个模型无关的上下文赌博框架,该框架通过经验验证的校准奖励函数,自适应地在线学习选择最优查询重写策略。在16个问答场景测试中,表现最佳的QueryBandit(汤普森采样)相较"无重写"基线获得87.5%的胜率,并分别以42.6%和60.3%的优势超越零样本静态策略(如复述或扩展)。此外,所有上下文赌博算法在所有数据集上均优于原始赌博算法,且特征方差越大臂选择方差也越大,这印证了"不存在适用于所有查询的最优重写策略"的发现。我们还发现某些静态策略比"无重写"产生更高的累积遗憾,表明僵化的查询重写策略反而会加剧幻觉。因此,通过QueryBandits基于语义特征学习在线策略,可仅凭前向传播机制改变模型行为,使其能应用于闭源模型,并规避重新训练或基于梯度调整的需求。
随着模仿学习(IL)与大规模驾驶数据集的发展,端到端自动驾驶(E2E-AD)近期取得显著进展。当前基于IL的方法已成为主流范式:模型依赖专家提供的标准驾驶行为,通过最小化自身动作与专家动作的差异进行学习。然而这种"仅模仿专家驾驶"的目标存在泛化局限性:当遇到专家示范分布之外的罕见或未见长尾场景时,由于缺乏先验经验,模型易产生不安全决策。这引出一个根本性问题:端到端自动驾驶系统能否在无专家动作监督的情况下做出可靠决策?基于此,我们提出统一框架——风险感知世界模型预测控制(RaWMPC),通过鲁棒控制解决泛化困境,且无需依赖专家示范。具体而言,RaWMPC利用世界模型预测多组候选动作的后果,并通过显式风险评估选择低风险动作。为使世界模型具备预测危险驾驶行为后果的能力,我们设计了风险感知交互策略,系统性地让世界模型接触危险行为,使灾难性后果可预测从而可规避。此外,为在测试时生成低风险候选动作,我们提出自评估蒸馏法,将训练完备的世界模型中的风险规避能力蒸馏至生成式动作提议网络,全程无需专家示范。大量实验表明,RaWMPC在分布内与分布外场景中均优于现有先进方法,同时提供更优的决策可解释性。
医学影像分割因训练标注有限、解剖特征模糊及域偏移等问题而持续面临挑战。尽管视觉语言模型(如CLIP)具备强大的跨模态表征能力,但其在文本引导的密集医学影像分割领域的潜力尚未得到充分探索。我们提出MedCLIPSeg这一创新框架,通过概率化跨模态注意力机制利用补丁级CLIP嵌入,实现图像与文本标记的双向交互,并显式建模预测不确定性。结合软补丁级对比损失函数(可促进多样化文本提示下的精细化语义学习),该框架有效提升了数据利用效率与领域泛化能力。在涵盖五种成像模态和六个器官的16个数据集上的大量实验表明,MedCLIPSeg在准确性、效率与鲁棒性方面均优于现有方法,并能生成可解释的不确定性图谱以凸显分割结果的局部可靠性。本研究揭示了概率化视觉语言模型在文本驱动医学影像分割中的应用潜力。
生成逼真的对话手势对于实现与数字人自然、具有社会吸引力的互动至关重要。然而,现有方法通常将单一音频流映射为单说话者的动作,既未考虑社交情境,也未建模对话双方之间的互动动态。我们提出DyaDiT——一种多模态扩散变换器,能够从成对音频信号生成符合情境的人体动作。该模型基于无缝交互数据集训练,通过输入成对音频及可选的社交情境标记,可生成情境适配的动作。它融合双说话者信息以捕捉互动动态,采用动作词典编码动作先验,并能选择性利用对话伴侣的手势生成更具响应性的动作。我们在标准动作生成指标上评估DyaDiT,并开展定量用户研究,证明其不仅在客观指标上超越现有方法,更获得用户显著偏爱,凸显了其在社交友好型动作生成方面的鲁棒性。代码与模型将在论文录用后开源。
视频与音频的多模态对齐任务面临规模化挑战,这主要源于数据稀缺以及文本描述与帧级视频信息之间的不匹配。本研究针对多模态到音频生成中的规模化难题,探究在短样本上训练的模型能否在测试时泛化至长样本。为此,我们提出名为MMHNet的多模态分层网络——一种对现有视频到音频生成模型的增强扩展。该方案通过融合分层方法与非因果Mamba架构,实现了长序列音频的生成能力。我们提出的方法显著提升了长音频生成性能,可支持超过5分钟的连续生成。实验证明,在未进行长样本训练的情况下,视频到音频生成任务中"短训长测"具有可行性。在长视频到音频的基准测试中,本方法取得了显著优于现有视频到音频技术的效果。特别值得指出的是,当先前方法在长时生成任务中表现受限时,我们的模型成功实现了超5分钟的连续生成。
数据高效的神经解码是语音脑机接口领域的核心挑战。本研究首次实现了基于脑磁图的语音模型在感知与产生双任务间的迁移学习与跨任务解码。我们采用Conformer架构,在单被试50小时的听觉数据上进行预训练,随后对18名被试每人仅用5分钟数据进行微调。迁移学习带来了持续的性能提升:任务内准确率提高1-4%,跨任务解码提升幅度更大,达5-6%。预训练不仅提升了各任务内部的表现,更实现了感知与产生任务间的可靠跨任务解码。关键发现是,基于语音产生训练的模型对被动听觉任务也能实现超随机水平的解码,这证实了所学表征反映的是共享的神经加工过程,而非任务特定的运动活动。
持续学习是已部署语言模型的核心需求,然而标准训练与微调流程在非稳态数据下仍显脆弱。在线更新常引发灾难性遗忘,而提升稳定性的方法往往以增加延迟、内存占用或密集计算为代价,难以适应长上下文场景。我们提出TRC²(丘脑路由皮质柱)——一种仅含解码器的架构,从结构层面解决持续学习问题。该模型通过稀疏丘脑路由机制整合皮质柱的调制、预测、记忆与反馈功能,并配备支持快速适应的校正通路,可在不干扰慢速参数稳定性的前提下实现敏捷调整。该模块具备稀疏性与分块并行特性,在保持各子系统可独立消融的同时实现高效训练与推理。我们构建了可复现的训练评估框架及持续学习测试集,用于衡量流式领域偏移下的代理遗忘指标。在语言建模与持续学习基准测试中,TRC²在同等算力下优化了稳定性与可塑性的平衡,既能实现流式数据的快速适应,又能有效保留已习得的行为模式。