每日精選AI研究論文及翻譯
基於擴散模型的分子生成已成為AI驅動藥物發現與材料科學中極具前景的研究方向。儘管二維分子圖的離散特性使圖擴散模型被廣泛採用,但現有模型存在化學有效性不足的問題,且相較於一維建模方法更難滿足目標屬性要求。本研究提出MolHIT——一個突破現有方法性能瓶頸的強大分子圖生成框架。該框架基於層次化離散擴散模型,將離散擴散推廣至能編碼化學先驗的附加類別,並採用解耦原子編碼技術根據原子化學角色進行類型劃分。在MOSES數據集上,MolHIT首次實現了接近完美的化學有效性,在圖擴散領域創下最新性能紀錄,並在多項指標上超越強勁的一維基線模型。我們進一步驗證了該框架在下游任務中的卓越表現,包括多屬性引導生成與骨架擴展等應用場景。
對使用者行為長序列建模已成為生成式推薦領域的關鍵前沿。然而現有解決方案面臨兩難困境:線性注意力機制雖能提升效率,卻因狀態容量限制而犧牲檢索精度;軟注意力則存在難以承受的計算開銷。為解決此難題,我們提出HyTRec模型,其混合注意力架構能顯式解耦長期穩定偏好與短期意圖峰值。通過將海量歷史序列分配至線性注意力分支,並為近期互動保留專用軟注意力分支,我們的方案在涉及萬級互動的工業級場景中恢復了精確檢索能力。為緩解線性層捕捉快速興趣漂移的滯後性,我們進一步設計時序感知增量網絡,動態增強新近行為信號的權重,同時有效抑制歷史噪聲。工業級數據集上的實證結果驗證了模型優勢:在保持線性推理速度的同時超越強基線模型,對超長序列使用者的命中率提升超過8%,且具備卓越效率。
SkyReels V4 是一款統一的多元模態影片基礎模型,專注於影片音訊的聯合生成、修補與編輯。該模型採用雙流多模態擴散轉換器(MMDiT)架構,其中一支分支負責合成影片,另一支則生成時間對齊的音訊,同時共享基於多模態大型語言模型(MMLM)的強大文字編碼器。SkyReels V4 可接受豐富的多元模態指令,包括文字、圖像、影片片段、遮罩和音訊參考。通過結合 MMLM 的多模態指令遵循能力與影片分支 MMDiT 的上下文學習,模型能在複雜條件下注入細粒度的視覺引導,而音訊分支 MMDiT 則同步利用音訊參考來指導聲音生成。在影片端,我們採用通道串聯的設計,將圖像轉影片、影片延伸、影片編輯等多種修補類任務統一於單一介面,並透過多元模態提示自然擴展至視覺參考的修補與編輯功能。SkyReels V4 最高支援 1080p 解析度、32 FPS 幀率與 15 秒時長,能實現高擬真度、多鏡頭、電影級別的同步音訊影片生成。為使此高解析度長時序生成具備計算可行性,我們引入效率策略:先聯合生成低解析度完整序列與高解析度關鍵幀,再透過專用超解析度與幀插值模型處理。據我們所知,SkyReels V4 是首個能同時支援多元模態輸入、影片音訊聯合生成,並統一處理生成、修補與編輯任務的影片基礎模型,且在電影級解析度與時長下仍保持卓越效率與品質。
近期基礎模型的突破性進展徹底改變了音視頻聯合生成領域。然而現有方法通常將以人為中心的任務——包括參考式音視頻生成、視頻編輯式生成及音頻驅動視頻動畫——視為相互獨立的目標。更關鍵的是,在單一框架內實現對多角色身份與音色特徵的精準解耦控制仍是開放性難題。本文提出DreamID-Omni統一框架,實現可控的以人為中心音視頻生成。具體而言,我們設計了對稱條件擴散轉換器,通過對稱條件注入方案整合異構條件信號。為解決多人場景中普遍存在的身份-音色綁定失效和說話者混淆問題,我們提出雙層解耦策略:在信號層面採用同步旋轉位置編碼確保剛性注意力空間綁定,在語義層面通過結構化描述文本建立顯式屬性-主體映射。此外,我們設計了多任務漸進訓練方案,利用弱約束生成先驗來規範強約束任務,防止過擬合並協調不同目標。大量實驗表明,DreamID-Omni在視頻質量、音頻保真度與音視覺一致性方面實現全面領先,甚至超越主流商業專有模型。我們將公開代碼以彌合學術研究與商業級應用之間的鴻溝。
主體性強化學習(ARL)作為一種極具前景的訓練範式,近年迅速受到關注,旨在教導智能體解決複雜的多步驟互動任務。儘管早期成果令人鼓舞,但ARL仍存在高度不穩定性,常導致訓練崩潰。此不穩定性限制了其向更大環境與更長互動週期的擴展能力,並制約了對演算法設計選擇的系統性探索。本文首先提出ARLArena——一個穩定的訓練方案與系統分析框架,能在受控且可重現的環境中檢視訓練穩定性。ARLArena首先建構了潔淨標準化的測試平台,接著將策略梯度分解為四個核心設計維度,並評估各維度的效能與穩定性。透過此細粒度分析,我們提煉出對ARL的統一觀點,進而提出SAMPO:一種穩定的主體性策略優化方法,專門用於緩解ARL中的主要不穩定來源。實證結果顯示,SAMPO在多樣化主體性任務中均能實現持續穩定的訓練與卓越效能。總體而言,本研究為ARL提供了統一的策略梯度視角,並為建構穩定可重現的基於大型語言模型之智能體訓練流程提供了實用指引。
現有的動作條件化影片生成模型(影片世界模型)僅限於單一智能體視角,無法捕捉真實環境中的多智能體互動。我們推出Solaris——首個多人影片世界模型,能模擬一致的多視角觀測。為實現此目標,我們開發了一套專為《我的世界》等電子遊戲設計的多人數據系統,支持穩健、連續、自動化的數據採集。有別於先前基於單人設定的平台,我們的系統支援協調式多智能體互動與同步化的影片及動作捕捉。透過此系統,我們採集了1,264萬幀多人遊戲畫面,並提出針對多人移動、記憶、實體交互、建造與視角一致性的評估框架。我們採用分階段訓練流程訓練Solaris,從單人建模逐步過渡到多人建模,結合雙向、因果與自強制訓練技術。在最終階段,我們引入檢查點自強制訓練法——一種記憶體效率優化的自強制訓練變體,可實現更長時序的教師指導。實驗結果表明,我們的架構與訓練設計優於現有基準模型。透過開源系統與模型,我們期望為新一代多智能體世界模型奠定基礎。
在多轮智能体式大语言模型推理中,性能表现日益由KV缓存存储I/O而非计算能力主导。在主流解耦架构中,从外部存储加载海量KV缓存会引发根本性失衡:预填充引擎的存储网卡因带宽饱和而受限,而解码引擎的存储网卡却处于闲置状态。这种不对称性严重制约了系统整体吞吐量。 我们提出DualPath推理系统,通过引入双路径KV缓存加载机制突破此瓶颈。除传统的存储到预填充路径外,DualPath创新性地实现了存储到解码路径——KV缓存先加载至解码引擎,再通过计算网络的RDMA技术高效传输至预填充引擎。该系统将这种可规避网络拥塞、且不与延迟敏感的模型执行通信产生干扰的优化数据路径,与能动态平衡预填充/解码引擎负载的全局调度器相结合。 基于生产级智能体工作负载对三种模型的评估表明:DualPath在我们自研的推理系统上可实现离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍且不违反服务等级协议。
開源原生圖形使用者介面智慧體在長時程導航任務上仍落後於閉源系統。此差距源於兩項限制:高品質動作對齊推理資料的匱乏,以及直接套用通用後訓練流程卻忽略了圖形使用者介面智慧體的特殊挑戰。我們發現這些流程存在兩個根本問題:(i)採用思維鏈推理的標準監督微調往往損害基礎定位能力;(ii)逐步強化學習與可驗證推理式訓練面臨部分可驗證性困境——多個動作可能皆屬正確,但驗證時僅採用單一示範動作。這導致離線逐步評估指標難以有效預測線上任務成功率。本研究提出專為圖形使用者介面設計的訓練方案GUI-Libra以應對這些挑戰。首先,為緩解動作對齊推理資料稀缺問題,我們建構了資料生成與篩選流程,並發布精選的8.1萬筆圖形使用者介面推理資料集。其次,為協調推理與基礎定位,我們提出動作感知監督微調,融合「先推理後動作」與直接動作資料,並透過權重重分配強化動作與基礎定位標記。第三,針對部分可驗證性下的強化學習穩定性問題,我們揭示強化學習與可驗證推理中KL正則化被忽視的重要性,證明KL信賴區域對提升離線至線上預測力至關重要;更進一步提出成功自適應縮放機制,以降低不可靠負梯度權重。在多樣化的網頁與行動裝置基準測試中,GUI-Libra持續提升逐步準確率與端到端任務完成度。實驗結果表明,精心設計的後訓練與資料策展能顯著釋放任務解決能力,無需耗費成本的線上資料收集。我們公開資料集、程式碼與模型,以促進具推理能力圖形使用者介面智慧體之資料高效後訓練研究。
我们提出球面编码器——一种高效生成框架,该框架仅需单次前向传播即可生成图像,并在少于五步的情况下与多步扩散模型相媲美。我们的方法通过训练编码器将自然图像均匀映射至球面潜空间,同时训练解码器将随机潜向量映射回图像空间。该模型仅通过图像重建损失进行训练,通过直接解码球面上的随机点即可生成图像。我们的架构天然支持条件生成,且对编码器/解码器进行数次循环迭代可进一步提升图像质量。在多个数据集上的实验表明,球面编码器方法的性能可与当前最优的扩散模型竞争,而推理成本仅需其极小部分。项目页面详见 https://sphere-encoder.github.io。
AIGC已從文字到圖像生成快速擴展至跨視頻與音頻的高質量多模態合成領域。在此背景下,聯合音視頻生成(JAVG)已成為一項基礎任務,旨在從文本描述中生成同步且語義對齊的聲音與視覺內容。然而相較於Veo3等先進商業模型,現有開源方法仍在生成質量、時序同步性及與人類偏好對齊方面存在侷限。為彌合這一差距,本文提出JavisDiT++——一個簡潔而強大的JAVG統一建模與優化框架。首先,我們引入模態專用混合專家(MS-MoE)設計,在提升單模態生成質量的同時實現跨模態交互效能;其次提出時序對齊旋轉位置編碼(TA-RoPE)策略,實現音視頻令牌在幀級別的顯式同步;此外開發了音視頻直接偏好優化(AV-DPO)方法,從質量、一致性和同步性三個維度對齊模型輸出與人類偏好。基於Wan2.1-1.3B-T2V構建的模型僅需約100萬公開訓練樣本即可實現最先進性能,在定性與定量評估中均顯著超越現有方法。我們通過全面消融實驗驗證了所提模塊的有效性,所有代碼、模型及數據集均已開源於https://JavisVerse.github.io/JavisDiT2-page。
向量字形是數位字型設計的原子單位,但多數基於學習的流程仍依賴精心策劃的範例字表與點陣至向量的後處理,這限制了可訪問性與可編輯性。我們推出 VecGlypher——一個能直接根據文字描述或圖像範例生成高保真向量字形的多模態語言模型。給定樣式提示、可選的參考字形圖像及目標字符,VecGlypher 能以自回歸方式輸出 SVG 路徑標記,繞過點陣中介層,單次生成可編輯且封閉的輪廓。實現此技術的關鍵在於具備字型意識的數據與訓練方案:(i) 首先在 39,000 套含噪聲的 Envato 字型上進行大規模續寫訓練,以掌握 SVG 語法與長序列幾何結構;(ii) 隨後對 2,500 套專家標註的 Google Fonts 進行後訓練,透過描述性標籤與範例對齊語言、圖像與幾何關係。預處理流程包含座標系歸一化、路徑規範化、字族去重及座標量化,以確保長序列解碼穩定性。在跨字族樣本外評估中,VecGlypher 在純文字生成任務上顯著超越通用大型語言模型與專業向量字型基線模型,而基於圖像參考的生成效能更達到頂尖水平,較 DeepVecFont-v2 與 DualVector 有顯著提升。消融實驗表明模型規模與兩階段訓練方案至關重要,且絕對座標序列化能產生最佳幾何結果。VecGlypher 透過讓使用者以文字或範例進行設計,降低了字型創作門檻,並為未來多模態設計工具提供了可擴展的基礎架構。
利用未来观测建模来促进动作生成,为增强视觉-语言-动作模型的性能开辟了前景广阔的路径。然而现有方法难以在维持高效、可预测的未来表征与保留足够细粒度信息以指导精确动作生成之间实现平衡。为解决这一局限,我们提出WoG(世界引导)框架,通过将未来观测映射为紧凑条件并注入动作推理流程。该框架训练VLA模型同步预测这些压缩条件与未来动作,从而在条件空间内实现有效的动作推理世界建模。我们证明对此条件空间的建模与预测不仅能促进细粒度动作生成,还展现出卓越的泛化能力,且能有效从海量人类操作视频中学习。在仿真与真实环境中的大量实验表明,本方法显著优于基于未来预测的现有方法。项目页面详见:https://selen-suyue.github.io/WoGNet/
基于指令的图像编辑在语义对齐方面取得了显著成功,但在涉及复杂因果动态(如折射或材料形变)的编辑任务中,现有先进模型往往难以生成物理合理的结果。我们认为这一局限源于当前主流范式将编辑视为图像对之间的离散映射,该方法仅提供边界条件而未能明确定义过渡动态。为此,我们将物理感知编辑重新定义为预测性物理状态转换,并推出PhysicTran38K——一个基于视频的大规模数据集,包含五大物理领域的3.8万条过渡轨迹,通过两阶段筛选与约束感知标注流程构建。基于此监督机制,我们提出PhysicEdit端到端框架,该框架配备文本-视觉双思维机制:结合冻结式Qwen2.5-VL模型进行物理基础推理,同时通过可学习的过渡查询为扩散主干网络提供时间自适应的视觉引导。实验表明,PhysicEdit在物理真实性上较Qwen-Image-Edit提升5.9%,在知识驱动编辑方面提升10.1%,为开源方法树立了新标杆,同时与领先的专有模型保持竞争力。
肝細胞癌診斷高度依賴於對千兆像素全玻片影像的判讀。然而,現有計算方法受制於固定分辨率的處理機制和低效的特徵聚合方式,這不可避免地導致嚴重信息損失或高度特徵冗餘。為解決這些難題,我們提出Hepato-LLaVA——一個專注於細粒度肝臟病理分析的多模態大型語言模型。我們創新性地引入稀疏拓撲包注意力機制,顯式建模二維組織拓撲結構。該機制在保持全局上下文的前提下,能有效將局部診斷證據聚合為語義摘要標記。此外,為克服多尺度數據匱乏的困境,我們構建了HepatoPathoVQA臨床基礎數據集,包含經病理專家驗證的3.3萬個層次化結構問答對。實驗表明,Hepato-LLaVA在肝癌診斷和描述任務中達到頂尖性能,顯著超越現有方法。代碼及實現細節已開源於:https://pris-cv.github.io/Hepto-LLaVA/
大型语言模型如何知晓其知识?这一问题的解答长期面临挑战,因为预训练数据往往如同"黑箱"——既不可知也难以获取。近期发布的nanochat系列(拥有完全开放预训练数据的小型LLMs)通过透明展示模型参数化知识的来源解决了这一难题。为探究LLMs编码知识的机制,我们推出NanoKnow基准数据集,该数据集将Natural Questions和SQuAD中的问题按答案是否存在于nanochat预训练语料库进行划分。借助这种划分方式,我们得以清晰解析LLMs生成输出时所依赖的知识来源。为验证NanoKnow的实用性,我们使用八个nanochat检查点进行实验,发现:(1)闭卷准确率受预训练数据中答案出现频率的显著影响;(2)提供外部证据可缓解这种频率依赖性;(3)即使存在外部证据,模型对预训练阶段见过的答案仍表现更佳,表明参数化知识与外部知识具有互补性;(4)无关信息会产生负面影响,其干扰程度随无关上下文的数量和位置变化而加剧。所有NanoKnow资源已发布于https://github.com/castorini/NanoKnow。
扩散模型作为视觉生成任务的强大基础架构,其固有的序列化去噪过程导致推理速度缓慢。现有加速方法通过缓存并基于相邻时间步的特征距离复用中间输出,但这类缓存策略通常依赖原始特征差异,未能解耦内容与噪声。这种设计忽视了频谱演化规律——低频结构早期形成而高频细节后期细化。我们提出频谱演化感知缓存(SeaCache),这是一种无需重新训练的缓存调度方案,其复用决策基于频谱对齐的表征。通过理论与实证分析,我们推导出频谱演化感知(SEA)滤波器,能在抑制噪声的同时保留内容相关成分。采用经SEA滤波的输入特征估计冗余度,可生成动态调度策略,既能适应内容特性又遵循扩散模型的频谱先验。在多样化视觉生成模型及基线方法上的大量实验表明,SeaCache实现了最优的延迟-质量权衡。
近期提出的3D高斯潑濺(3DGS)Dropout方法通過隨機歸零高斯不透明度來解決稀疏視角下的過擬合問題。然而,我們發現這類方法存在鄰域補償效應:被丟棄的高斯常被其相鄰高斯補償,從而削弱了正則化效果。此外,這些方法忽略了高階球諧係數(SH)對過擬合的影響。為解決這些問題,我們提出DropAnSH-GS——一種新穎的基於錨點的Dropout策略。與獨立丟棄高斯的方式不同,我們的方法隨機選取特定高斯作為錨點,並同步移除其空間鄰域高斯。這種機制有效破壞了錨點附近的局部冗餘性,促使模型學習更具魯棒性的全局表徵。進一步地,我們將Dropout擴展至顏色屬性,通過隨機丟棄高階SH係數將外觀信息集中於低階SH。此策略不僅強化了過擬合抑制效果,還能通過SH截斷實現訓練後模型的靈活壓縮。實驗結果表明,DropAnSH-GS以可忽略的計算開銷顯著優於現有Dropout方法,且能無縫集成到各類3DGS變體中提升其性能。項目網站:https://sk-fun.fun/DropAnSH-GS
离散扩散模型已成为自回归语言模型的有力替代方案,近期研究通过初始化和微调基础单模态模型实现了双模态生成。与既有方法不同,我们首次提出了从零开始预训练的文本、图文、音频-文本三模态掩码扩散模型。我们系统分析了多模态缩放定律、模态混合比例、噪声调度和批次大小效应,并提供了优化的推理采样默认设置。通过批次大小分析,我们提出了一种基于随机微分方程(SDE)的重新参数化方法,无需如近期研究所述手动调整最优批次大小。该重新参数化将物理批次大小(通常基于计算约束如GPU饱和度、浮点运算效率、挂钟时间确定)与逻辑批次大小(为平衡随机优化中的梯度方差而选择)解耦。最后,我们在6.4万亿token上预训练了初步的30亿参数三模态模型,展示了统一架构的潜力,并在文本生成、文生图及文生语音任务中取得优异效果。本研究是迄今规模最大的多模态离散扩散模型系统性开放研究,为跨多模态的缩放规律提供了重要洞见。
深度研究已成为一项重要任务,其目标是通过广泛的开放网络探索来解决复杂查询。为应对这一挑战,现有研究大多为基于大语言模型(LLM)的智能体配备不透明的网络搜索API,使其能迭代式地发起搜索查询、获取外部证据并进行推理。尽管搜索在深度研究中具有关键作用,但黑箱式的网络搜索API阻碍了对搜索组件的系统性分析,导致传统文本排序方法在深度研究中的行为特征仍不明确。为填补这一空白,我们在深度研究场景下复现了信息检索文本排序方法的关键发现与最佳实践。具体而言,我们从三个维度评估其有效性:(一)检索单元(文档级与段落级);(二)流水线配置(不同检索器、重排序器及重排序深度);(三)查询特征(智能体生成查询与文本排序器训练查询之间的不匹配性)。我们在固定语料库的深度研究数据集BrowseComp-Plus上开展实验,评估了2种开源智能体、5种检索器和3种重排序器在不同配置下的表现。研究发现:智能体生成的查询通常遵循网络搜索式语法(如引号精确匹配),更适用于词汇检索、学习型稀疏检索和多向量检索;段落级单元在有限上下文窗口中更高效,且能规避词汇检索中文档长度归一化的难题;重排序技术效果显著;将智能体查询转化为自然语言问题能有效弥合查询不匹配问题。
模型上下文协议(MCP)提出了一套标准规范,用于定义基于基础模型(FM)的智能体应如何通过调用工具与外部系统交互。然而,为理解工具的功能特性,基础模型需依赖自然语言编写的工具描述,这使得描述文本成为引导基础模型为特定(子)任务选择最优工具并传递正确参数的关键要素。虽然描述中的缺陷或异味可能误导基于基础模型的智能体,但这些问题在MCP生态系统中的普遍性及影响尚不明确。 为此,我们实证研究了103个MCP服务器中的856个工具,评估其描述质量及对智能体性能的影响。我们从文献中提炼出工具描述的六个核心要素,据此制定评分标准,并基于该标准形式化定义了工具描述异味。通过基于基础模型的扫描器实施该标准,我们发现97.1%的被分析工具描述至少存在一种异味,其中56%未能清晰说明其用途。尽管通过增补所有要素的描述可使任务成功率中位数提升5.85个百分点,部分目标完成率提高15.12%,但执行步骤数也会增加67.46%,且在16.67%的情况下出现性能衰退。这些结果表明性能提升并非易事:执行成本可作为权衡因素,而执行上下文也会产生影响。此外,要素消融实验显示,不同要素组合的紧凑变体往往能保持行为可靠性,同时减少不必要的令牌开销,从而实现基础模型上下文窗口的更高效利用并降低执行成本。
视频基础模型旨在将视频理解、生成、编辑与指令跟随能力整合于统一框架,已成为下一代多模态系统的核心发展方向。然而现有评估基准仍存在碎片化与局限性:各基准仅针对单一任务设计,依赖特定任务指标,且普遍采用简短或简单的视频片段,无法全面衡量这类模型设计的统一能力。为弥补这一空白,我们推出UniVBench——专为评估视频基础模型四大核心能力构建的基准框架,包括视频理解、视频生成、视频编辑以及新提出的视频重建任务(用于评估模型对已接触视频内容的还原忠实度)。该基准通过纳入200个高质量、多镜头且内容多样的视频,显著提升了评估复杂度。每个视频均配有详细描述、多格式编辑指令及参考图像,所有素材均由人工创作并严格验证,相比现有基准能提供更丰富的影像信息。此外,我们开发了统一智能评估系统(UniV-Eval),通过标准化提示生成、指令解析与跨任务评分机制,实现统一视频模型的公平、可扩展且可复现的比较。UniVBench首次构建了基于指令的多镜头视频任务评估体系,为衡量视频基础模型的综合能力提供标准框架。大量人工标注数据确保评估结果与人类判断一致,从而支持严格的能力评测并加速鲁棒性视频智能技术的发展。
我们系统性地从孤立性和实践性两个维度,评估了当前广泛使用的AI安全数据集质量。在孤立性层面,我们基于三个关键属性(受隐蔽意图驱动、精心构建性、分布外特性)检验这些数据集反映真实世界对抗攻击的准确度,发现其过度依赖"触发线索"——即那些带有明显负面/敏感含义、旨在显式触发安全机制的词汇或短语,这与现实攻击模式存在显著差异。在实践性层面,我们通过引入"意图净化"方法(一种在严格保留恶意意图及所有相关细节的前提下,剥离对抗攻击数据点中触发线索的程序),验证这些数据集究竟是在真实衡量安全风险,还是仅通过触发线索引发模型拒绝。研究结果表明:由于对触发线索的过度依赖,现有AI安全数据集未能真实反映现实对抗行为。当移除这些线索后,所有先前评估为"相对安全"的模型(包括Gemini 3 Pro和Claude Sonnet 3.7)均表现出不安全行为。此外,将意图净化技术适配为越狱攻击手段时,在完全黑盒访问条件下持续实现90%至98%以上的高攻击成功率。总体而言,我们的研究揭示了现有安全数据集的评估方式与现实对抗行为之间存在严重脱节。
物体幻觉是大规模视觉语言模型(LVLM)中的一个关键问题,表现为输出内容包含输入图像中未出现的物体。这一现象引发出一个核心问题:LVLM流程中的哪个组件是物体幻觉的主要成因?是负责感知视觉信息的视觉编码器,还是生成文本响应的语言解码器?本研究通过设计系统性实验分析视觉编码器与语言解码器在幻觉生成中的作用,试图解答这一问题。我们的观察表明,物体幻觉主要与语言解码器的强先验知识相关。基于此发现,我们提出了一种简单无需训练的框架——无语言幻觉解码(NoLan),该框架通过动态抑制语言先验来优化输出分布,其调节机制基于多模态输入与纯文本输入之间的输出分布差异。实验结果表明,NoLan在不同任务的各种LVLM上均能有效减少物体幻觉。例如在POPE基准测试中,NoLan显著提升了LLaVA-1.5 7B和Qwen-VL 7B模型的准确率,分别实现6.45和7.21的增益。代码已开源:https://github.com/lingfengren/NoLan。
当前音视频大语言模型(AV-LLMs)主要局限于二维感知,依赖RGB视频和单声道音频。这种设计选择引发了根本性的维度失配问题,导致模型无法在复杂三维环境中实现可靠的声源定位和空间推理。为解决这一局限,我们提出JAEGER框架,通过整合RGB-D观测数据与多通道一阶Ambisonics音频,将AV-LLMs扩展至三维空间以实现联合空间定位与推理。我们的核心创新是神经强度向量(Neural IV),这是一种习得性空间音频表征,能编码强健的方向线索以增强到达方向估计,即使在存在声源重叠的复杂声学场景中仍能保持优异性能。为支持大规模训练和系统化评估,我们构建了SpatialSceneQA基准数据集,包含从模拟物理环境中精选的6.1万条指令微调样本。大量实验表明,我们的方法在多种空间感知与推理任务中持续超越以二维为中心的基线模型,印证了显式三维建模对推进物理环境AI发展的必要性。我们的源代码、预训练模型检查点及数据集将在论文录用后公开发布。
针对非平稳时间序列数据的分析,需要兼顾局部与全局特征且具备物理解释性。然而传统平滑算法(如B样条、Savitzky-Golay滤波和经验模态分解)难以在保证连续性的前提下进行参数化优化。本文提出函数连续分解(FCD)——基于JAX加速的框架,可对多种数学函数执行参数化连续优化。通过Levenberg-Marquardt优化算法实现最高C^1连续性的拟合,FCD将原始时间序列数据转换为M个模态,涵盖从短期波动到长期趋势的时序特征。该框架可应用于物理、医学、金融分析和机器学习领域,常用于信号时序模式分析、优化参数提取以及分解结果的微分积分运算。实验表明,FCD在物理特征提取中平均分段标准化均方根误差为0.735,对1000点数据的完整分解仅需0.47秒。最终我们验证了采用FCD特征(包括优化函数值、参数及微分结果)增强的卷积神经网络,相比标准CNN收敛速度提升16.8%,准确率提高2.5%。
在低资源语言中从医疗记录中提取临床信息,仍是医疗自然语言处理(NLP)领域的重大挑战。本研究评估了一种两步流程:首先使用Aya-expanse-8B作为波斯语-英语翻译模型,再结合五种开源小语言模型(SLMs)——Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Qwen2.5-1.5B-Instruct和Gemma-3-1B-it,对从癌症安宁疗护呼叫中心收集的1,221份匿名波斯语记录进行13项临床特征的二元提取。采用少量样本提示策略且未进行微调的情况下,通过宏平均F1分数、马修斯相关系数(MCC)、敏感度和特异度评估模型表现以应对类别不平衡问题。Qwen2.5-7B-Instruct取得最佳整体性能(中位宏F1值:0.899;MCC:0.797),而Gemma-3-1B-it表现最弱。较大参数量模型(7B-8B)在敏感度和MCC指标上持续优于较小模型。对Aya-expanse-8B的双语分析显示,将波斯语记录翻译为英语可提升敏感度、减少缺失输出,并增强对类别不平衡具有鲁棒性的指标,但代价是特异度和精确度轻微下降。特征层面结果显示大多数模型能可靠提取生理症状,而心理主诉、行政请求和复杂躯体特征仍是挑战。这些发现为在基础设施和标注资源有限的多语言临床NLP环境中部署开源SLMs提供了实用且保护隐私的蓝图,同时凸显了在敏感医疗应用中联合优化模型规模与输入语言策略的重要性。
大型语言模型(LLMs)据称能线性编码真实性,但近期研究对这一发现的普适性提出质疑。我们通过真实性谱系假说调和这两种观点:表征空间中存在从广泛领域通用到狭窄领域专用的方向谱系。为验证该假说,我们系统评估了探针在五种真实性类型(定义性、经验性、逻辑性、虚构性及伦理性)、谄媚性与期望反转型谎言以及现有诚实度基准上的泛化能力。线性探针在多数领域泛化良好,但在谄媚性与期望反转型谎言上失效。然而联合所有领域训练后性能显著恢复,证实领域通用方向确实存在,尽管成对迁移效果不佳。探针方向的几何特征解释了这一现象:探针间的马氏余弦相似度近乎完美地预测跨领域泛化能力(R^2=0.98)。概念擦除法进一步分离出三类真实性方向:(1)领域通用型;(2)领域专用型;(3)特定领域子集共享型。因果干预表明领域专用方向比领域通用方向具有更强的调控效力。最后,后训练会重塑真实性几何结构,使谄媚性谎言与其他真实性类型的距离增大,这为聊天模型的谄媚倾向提供了表征基础。我们的研究结果共同支持真实性谱系假说:不同泛化程度的真实性方向共存于表征空间,后训练会重塑其几何结构。所有实验代码详见 https://github.com/zfying/truth_spec。
我们推出ISO-Bench基准测试平台,旨在通过真实场景的推理优化任务评估编程智能体的能力。这些任务源自两大主流大语言模型服务框架vLLM和SGLang,每个任务为智能体提供代码库与性能瓶颈描述,要求其生成优化补丁并与人类专家方案进行对标评估。我们从具有可量化性能提升的合并拉取请求中精选出54项任务。现有基准测试过度依赖运行时指标,此类方法可能被投机取巧通过测试却无法体现代码修改的真实意图。因此,我们结合硬性(基于执行)与软性(基于大语言模型)双重指标,证明二者对完整评估缺一不可。在评估闭源与开源编程智能体时,我们发现没有单一智能体能在所有代码库中占据绝对优势。令人惊讶的是,智能体常能准确识别瓶颈却无法实现有效解决方案。研究还表明,基于相同底层模型的智能体表现差异显著,这揭示出系统框架设计与模型本身同等重要。
我们旨在学习惯性测量单元(IMU)信号与视频中提取的二维姿态序列的联合表征,以实现精确的跨模态检索、时间同步、受试者及身体部位定位以及动作识别。为此,我们提出MoBind——一种分层对比学习框架,专门解决三大挑战:(1)过滤无关视觉背景;(2)建模结构化多传感器IMU配置;(3)实现细粒度亚秒级时间对齐。为分离运动相关特征,MoBind将IMU信号与骨骼运动序列而非原始像素对齐。我们进一步将全身运动分解为局部身体部位轨迹,并将其与对应IMU配对,实现基于语义的多传感器对齐。为捕捉精细时间对应关系,MoBind采用分层对比策略:先对齐令牌级时间片段,再将局部(身体部位)对齐与全局(全身)运动聚合相融合。在mRi、TotalCapture和EgoHumans数据集上的评估表明,MoBind在全部四项任务中均优于强基线模型,在保持跨模态粗粒度语义一致性的同时,展现出鲁棒的细粒度时间对齐能力。代码已开源:https://github.com/bbvisual/MoBind。
扩散模型近期已成为解决逆问题的强大先验工具。尽管计算机断层扫描(CT)在理论上属于线性逆问题,但其实际应用面临诸多挑战,包括相关噪声、伪影结构、对系统几何构型的依赖以及数值范围失准等问题,这使得扩散模型在CT领域的直接应用比自然图像生成等领域更为困难。为系统评估扩散模型在此背景下的性能并与成熟重建方法进行对比,我们推出了DM4CT——一个专为CT重建设计的综合基准测试平台。DM4CT涵盖医学和工业领域的稀疏视角与含噪配置数据集。为深入探究扩散模型实际部署中的挑战,我们额外采集了高能同步辐射装置的高分辨率CT数据集,并在真实实验条件下评估所有方法。我们系统比较了十种最新扩散模型方法与七种强基线方法(包括模型驱动、无监督及有监督方法)。我们的分析为扩散模型在CT重建中的行为特征、优势与局限提供了细致洞察。真实世界数据集已公开于zenodo.org/records/15420527,代码库开源在github.com/DM4CT/DM4CT。
反讽检测对计算语义学提出了基础性挑战,该任务要求模型能够解析字面含义与真实意图之间的差异。这一挑战在低资源语言中尤为突出,因为此类语言往往缺乏甚至完全没有标注数据集。我们推出Yor-Sarc——首个约鲁巴语反讽检测的黄金标准数据集,约鲁巴语是一种声调型尼日尔-刚果语系语言,使用人口超过五千万。该数据集包含436个标注实例,由三位来自不同方言背景的母语者采用专为约鲁巴语反讽设计的标注方案完成,该方案特别融入了文化因素考量。该协议包含语境敏感型解读和社区知情准则,并辅以详尽的标注者间一致性分析,以支持在其他非洲语言中的复现研究。我们实现了从显著到近乎完美的一致性水平(弗莱斯κ=0.7660;配对科恩κ=0.6732-0.8743),其中83.3%的实例达成全体一致共识。一组标注者对达到了近乎完美的一致性(κ=0.8743;原始一致率93.8%),超越了多项英文反讽研究报道的基准水平。其余16.7%的多数同意案例将作为软标签保留,用于不确定性感知建模。Yor-Sarc数据集(https://github.com/toheebadura/yor-sarc)有望推动针对非洲低资源语言的语义解读及文化感知型自然语言处理研究。