每日精選AI研究論文及翻譯
利用二維擴散模型的先驗知識進行三維編輯已成為極具前景的研究範式。然而,編輯結果的多視圖一致性保持仍是難題,且三維一致性編輯配對數據的極度稀缺,使得監督微調這類編輯任務中最有效的訓練策略難以實施。本文發現,雖然生成多視圖一致的三維內容極具挑戰性,但驗證三維一致性卻相對可行,這自然使強化學習成為可行解決方案。基於此,我們提出RL3DEdit——一個由強化學習優化驅動的單次生成框架,其創新獎勵信號源自三維基礎模型VGGT。具體而言,我們利用VGGT從海量真實數據中學習的強健先驗,輸入編輯後的圖像,並將其輸出的置信度圖與姿態估計誤差作為獎勵信號,通過強化學習將二維編輯先驗有效錨定在三維一致性流形上。大量實驗表明,RL3DEdit能實現穩定的多視圖一致性,在編輯品質上超越現有最先進方法且具有高效性。為推動三維編輯領域發展,我們將公開代碼與模型。
雖然大型語言模型中的推理能力在數學運算、程式碼生成及多跳躍事實問答中自然發揮作用,但其對簡單的單跳躍事實問答的影響仍不明確。此類問題無需逐步邏輯分解,使得推理的效用顯得極不符合直覺。然而,我們發現啟用推理能大幅擴展模型參數化知識回憶的能力邊界,從而解鎖那些原本無法觸及的正確答案。當問題無需複雜推理步驟時,為何推理仍有助於參數化知識回憶?為解答此問題,我們設計了一系列假設驅動的對照實驗,並識別出兩大關鍵驅動機制:(1)計算緩衝效應——模型利用生成的推理詞元執行獨立於語義內容的潛在計算;(2)事實預熱效應——生成主題相關事實可作為語義橋樑,促進正確答案的檢索。值得注意的是,後者這種生成式自我檢索機制存在固有風險:我們證實推理過程中若虛構中間事實,將增加最終答案出現幻覺的可能性。最後,我們展示如何運用這些洞見直接提升模型準確率——通過優先選擇包含無幻覺事實陳述的推理路徑。
儘管近期多模態大型語言模型(MLLMs)取得了顯著進展,但其主要仍採用傳統的自迴歸架構作為骨幹,在架構設計層面仍存在探索高效替代方案的巨大空間。與此同時,最新研究已成功將離散擴散模型應用於視覺理解與圖像生成等多個領域,展現出該模型作為多模態系統骨幹的巨大潛力。受這些前沿研究的啟發,我們推出首個完全基於掩碼離散擴散模型的任意模態轉換架構——Omni-Diffusion,該模型統一了文本、語音和圖像的理解與生成任務。Omni-Diffusion採用統一的掩碼離散擴散模型直接建模離散多模態標記的聯合分佈,不僅支持雙模態任務,更能處理涉及多種模態的複雜場景。在多樣化基準測試中,本方法在處理兩種及以上模態的任務時,表現優於或持平現有多模態系統,彰顯了擴散模型驅動下一代多模態基礎模型的巨大潛力。項目頁面:https://omni-diffusion.github.io。
自我演化已成為改進大型語言模型(LLM)和視覺語言模型(VLM)等基礎模型的關鍵範式,其特點在於極少需要人為干預。儘管近期研究顯示LLM智能體能在幾乎無數據的情況下從零開始自我演化,但VLM引入的視覺模態通常需要至少少量種子數據(例如圖像)來啟動演化過程。本研究提出MM-Zero框架,首創基於強化學習的零數據VLM推理自我演化方法。有別於過往的雙角色(提案者與求解者)架構,MM-Zero引入多角色自我演化訓練框架,包含三個專業化角色:生成抽象視覺概念並構建問題的提案者、將概念轉譯為可執行代碼(如Python、SVG)以渲染視覺圖像的編碼者,以及對生成視覺內容進行多模態推理的求解者。所有角色皆從同一基礎模型初始化,並透過群組相對策略優化(GRPO)進行訓練,其中精心設計的獎勵機制整合了執行反饋、視覺驗證與難度平衡。實驗結果表明,MM-Zero在多模態基準測試中顯著提升VLM推理性能。該框架為多模態模型開闢了可擴展的自我演化路徑,將自我改進的前沿從傳統的雙模型範式推向新境界。
整合理解、推理、生成與編輯能力的統一多模態模型,在維持強大語意理解與獲取卓越生成能力之間存在固有權衡。本報告提出InternVL-U,一個輕量級的40億參數統一多模態模型,旨在通用框架內實現這些能力的普及化。該模型以統一情境建模與解耦視覺表徵的模組化設計為指導原則,將頂尖多模態大型語言模型與專用的MMDiT視覺生成頭部模組相結合。為進一步彌合美學生成與高階智能之間的鴻溝,我們建構了針對高語意密度任務(如文字渲染與科學推理)的綜合數據合成流程,採用以推理為核心的思維鏈範式,將抽象用戶意圖與細粒度視覺生成細節更精準對齊。大量實驗表明,InternVL-U實現了卓越的性能-效率平衡:儘管僅使用40億參數,其在各類生成與編輯任務中持續超越規模超過其三倍的統一基準模型(如140億參數的BAGEL),同時保持強大的多模態理解與推理能力。
多模態大型語言模型(MLLMs)能夠處理以圖像形式呈現的文字,但其表現往往遜於直接接收相同內容的文本標記。我們透過在五種輸入模式下評估七個MLLMs模型於七個基準測試的表現,系統性診斷此「模態差距」——測試範圍涵蓋從arXiv PDF文檔到維基百科頁面的合成渲染文字與真實文檔圖像。研究發現模態差距具有任務與數據依賴性:例如數學任務在合成渲染文本上的表現下滑超過60分,而自然文檔圖像的表現常能匹配甚至超越文本模式。渲染選擇(如字體和解析度)是強烈干擾因素,僅字體差異就能導致準確率波動達47個百分點。為探究成因,我們對超過4,000個樣本進行紮根理論錯誤分析,發現圖像模式會選擇性放大閱讀錯誤(計算與格式解析失誤),而知識與推理錯誤基本保持不變,且部分模型在視覺輸入下出現思維鏈推理崩潰。基於這些發現,我們提出自蒸餾方法,將模型自身的純文本推理軌跡與圖像輸入配對訓練,使GSM8K數據集的圖像模式準確率從30.71%提升至92.72%,並能遷移至未見基準測試而不產生災難性遺忘。本研究系統性闡明了模態差距的成因,為提升多模態語言模型的視覺文本理解能力指出可行路徑。
運動長期以來因其挑戰人類生理與認知極限而備受關注。隨著視覺語言模型(VLM)空間智能研究熱度攀升,運動場景為理解高強度人體動作與動態物體互動提供了天然試驗場。為此,我們推出首個專注於運動場景的大規模空間智能數據集CourtSI,包含超過100萬組問答對,並按系統化分類框架組織,全面涵蓋羽毛球、網球、乒乓球等代表性隔網運動中的空間計數、距離測量、定位及關係推理任務。憑藉標準化場地幾何結構作為度量基準,我們開發了半自動化數據引擎重建運動場景,實現CourtSI的可擴展構建。此外,我們提出經嚴格人工校驗的高質量評估基準CourtSI-Bench,包含3,686組問答對。通過對25個專有與開源VLM的測試,發現現有模型存在明顯的人機性能差距,且從傳統空間智能基準遷移的泛化能力有限,證明運動場景能有效暴露當前基準未能捕捉的空間智能缺陷。進一步實驗表明,基於CourtSI微調的Qwen3-VL-8B模型在CourtSI-Bench上的準確率提升23.5個百分點。改進後的模型在基於同類未見運動構建的CourtSI-Ext評估集上展現出良好泛化能力,並顯著提升空間感知型賽事解說生成質量。這些成果共同印證CourtSI為提升VLM在運動領域的空間智能提供了可擴展路徑。
我們推出 Fish Audio S2,這是一款開源文本轉語音系統,具備多說話人、多輪生成能力,並可透過自然語言描述實現指令跟隨控制。為實現規模化訓練,我們開發了多階段訓練方案,並構建了涵蓋影片字幕生成、語音字幕生成、音質評估和獎勵建模的分階段數據流水線。為推動開源TTS技術邊界,我們公開了模型權重、微調代碼以及基於SGLang的推理引擎。該推理引擎具備生產級流式處理能力,實時因數達0.195,首音延遲低於100毫秒。我們的代碼與權重已發佈於GitHub(https://github.com/fishaudio/fish-speech)和Hugging Face(https://huggingface.co/fishaudio/s2-pro)。誠邀讀者訪問 https://fish.audio 體驗自定義語音功能。
区分视觉相似图像间的细微差异能力,在工业异常检测、医学影像分析和航拍监控等诸多领域都至关重要。尽管近期涌现了针对视觉语言模型的比较推理基准测试,但它们主要关注存在显著差异的图像,未能捕捉现实应用所需的精细推理能力。本研究推出VLM-SubtleBench基准测试,专门评估视觉语言模型在细微比较推理方面的表现。该基准涵盖属性、状态、情绪、时序、空间、存在性、数量、质量、视角和动作十种差异类型,并构建了反映这些细粒度变化的成对问题-图像集。与先前局限于自然图像数据集的基准不同,我们的基准涵盖工业、航拍和医学影像等多领域。通过对专有和开源视觉语言模型的广泛评估,我们揭示了模型与人类表现之间在差异类型和领域上的系统性差距,并通过受控分析指出视觉语言模型推理能力急剧下降的具体情境。本研究的基准与发现共同为推进视觉语言模型实现人类水平的比较推理奠定了重要基础。
多模态大语言模型常表现出文本主导性,过度依赖语言先验而非基于非文本输入进行预测。以大型音频语言模型(LALMs)为例,即便音频证据包含关键信息,其决定性作用仍可能未被充分利用。针对此问题,我们运用机制可解释性方法识别出一小组音频专家注意力头,其音频注意力可产生“聆听”信号。研究表明,当音频证据影响模型输出时该信号会增强,为标准提示下的音频参与度提供了指标。基于此定位,我们构建了音频-静默导向向量,并对最终表征实施推理时激活干预,从而放大模型的音频效应。为验证该干预的有效性,我们在MMAU数据集上证明:无需参数更新,此方法可使两种基于Qwen的LALMs准确率最高提升8.0个百分点。
随着大语言模型在代码生成领域的快速发展,人机交互正从静态文本响应演变为基于HTML的动态交互式应用程序,我们将其称为轻应用。这类应用不仅要求模型能渲染可视化界面,还需构建符合现实世界逻辑的定制化交互功能。然而现有基准测试主要关注算法正确性或静态布局重建,未能涵盖这一新范式所需的能力维度。为弥补这一空白,我们推出轻应用基准测试——首个用于评估原则驱动型交互式应用生成的综合基准。该基准源自真实场景下超千万次生成记录,最终提炼出涵盖游戏、科学、工具等六大领域的500项任务。针对开放式交互场景缺乏唯一标准答案的评估难题,我们进一步提出轻应用评估框架。该框架通过浏览器自动化技术执行类人探索性测试,从意图实现度、静态要素和动态交互三个维度系统评估应用质量。实验表明,当前大语言模型在生成高质量轻应用方面仍面临显著挑战,而轻应用评估框架与人工评估结果高度一致,为未来研究建立了可靠标准。相关代码已发布于github.com/MiniAppBench。
語音大語言模型(SLLMs)正迅速發展,已能支持多種任務。目前這類模型通常使用文本提示進行評估,但這種方式可能無法反映用戶通過語音交互的真實場景。為彌合這一差距,我們推出了DoWhatISay(DOWIS)多語言數據集,該數據集包含人工錄製的口語與書面提示,可與現有任意基準測試配對使用,實現SLLMs在語音指令情境下的真實評估。該數據集涵蓋9類任務和11種語言,每組任務-語言配對提供涵蓋五種風格的10種提示變體。通過DOWIS,我們對前沿SLLMs進行基準測試,分析了提示模態、風格、語言與任務類型之間的相互作用。結果表明,文本提示的表現始終優於語音提示,尤其在低資源和跨語言場景中更為明顯。僅在語音輸出類任務中,語音提示才能縮小這一差距,這凸顯了基於語音的提示在SLLM評估中的必要性。
我们提出测试驱动的AI智能体定义(TDAD)方法论,该方法将智能体提示词视为可编译产物:工程师提供行为规范,编码智能体将其转化为可执行测试,再由第二编码智能体迭代优化提示词直至测试通过。在生产环境中部署使用工具的LLM智能体需要可衡量的行为合规性,而当前开发实践无法满足这一需求。细微的提示词改动会导致隐性回归,工具误用难以检测,策略违规往往在部署后才暴露。为规避规范博弈,TDAD引入三大机制:(1)可见/隐藏测试分离——在编译阶段保留评估测试;(2)语义变异测试——通过后编译智能体生成合理的错误提示词变体,并由测试框架检测测试套件能否识别这些变异;(3)规范演化场景——在需求变更时量化回归安全性。我们在SpecSuite-Core基准上评估TDAD,该基准包含四个深度规范化的智能体,涵盖策略合规性、 grounded 分析、操作规程遵循和确定性执行。经过24次独立试验,TDAD实现92%的v1编译成功率,隐藏测试通过率均值达97%;演化后的规范编译成功率为58%,多数失败运行案例仅未通过1-2项隐藏测试,但能通过所有可见测试;变异测试得分为86-100%,v2隐藏测试通过率为78%,回归安全得分达97%。本实现已作为开放基准发布于https://github.com/f-labs-io/tdad-paper-code。
大型预训练扩散模型显著提升了生成视频的质量,但其在实时流媒体中的应用仍受限。自回归模型为序列帧合成提供了自然框架,但需要大量计算才能实现高保真度。扩散蒸馏技术可将这些模型压缩为高效少步数变体,但现有视频蒸馏方法大多沿用图像专用技术,忽略了时间依赖性。这些技术在图像生成中表现出色,却在视频合成中表现欠佳,存在运动连贯性降低、长序列错误累积以及延迟与质量的权衡问题。我们识别出导致这些局限的两个因素:步数缩减期间对时序上下文利用不足,以及下一片段预测中隐含的后续噪声水平预测(即曝光偏差)。为解决这些问题,我们提出对角线蒸馏法,该方法与现有思路正交且能更好利用视频片段和去噪步骤中的时序信息。我们的核心策略是非对称生成设计:前期多步数,后期少步数。该设计使后续片段能从充分处理的早期片段继承丰富的外观信息,同时将部分去噪片段作为后续合成的条件输入。通过使片段生成时隐含的后续噪声水平预测与实际推理条件对齐,我们的方法有效缓解了长序列中的错误传播和过饱和现象。我们进一步引入隐式光流建模,在严格步数限制下保持运动质量。该方法仅需2.61秒即可生成5秒视频(最高达31 FPS),相较未蒸馏模型实现277.3倍加速。
基于可验证奖励的强化学习(RLVR)虽能显著提升大语言模型的推理能力,却存在严重的校准退化问题——模型会对错误答案产生过度自信。现有研究致力于将校准目标直接融入现有优化框架,但我们的理论分析表明,政策精度最大化与校准误差最小化之间存在根本性的梯度冲突。基于这一发现,我们提出DCPO框架,通过系统化解耦推理与校准目标实现高效优化。大量实验表明,DCPO在保持与GRPO相当准确率的同时,实现了最优的校准性能,显著缓解了过度自信问题。本研究为构建更可靠的大语言模型部署提供了理论洞见与实用解决方案。
情境感知——即人工智能系统识别自身本质、理解其训练与部署背景,并能对自身处境进行战略性推理的能力——被广泛视为先进AI系统中最危险的涌现能力之一。与此同时,越来越多的研究致力于提升大语言模型在演绎、归纳与溯因三大逻辑推理领域的表现。本文指出,这两大研究路径正面临碰撞风险。我们提出RAISE框架(推理进阶自省机制),揭示逻辑推理能力提升通过三条机制路径催生逐级深入的情境感知:演绎式自我推断、归纳式情境识别与溯因式自我建模。我们形式化定义了每条路径,构建了从基础自我认知到战略性欺骗的升级阶梯,并论证了大语言模型逻辑推理领域的每个主要研究方向都直接对应着情境感知的特定放大器。此外,我们分析了现有安全措施为何难以阻止这种升级态势。最后提出具体防护方案,包括"镜像测试"基准与推理安全对等原则,并向逻辑推理研究界抛出一个令人不安但必须直面的责任之问。
智能体必须推断行动结果,并选择能最大化奖励信号的行为,该信号指示目标达成的接近程度。基于监督学习的奖励模型可能会引入训练数据固有的偏差,从而限制其对新目标和环境的泛化能力。本文研究定义明确的世界状态表征是否能够独立实现跨领域的精确奖励预测。为此,我们提出StateFactory——一种因子化表征方法,利用语言模型将非结构化观测转换为分层级的对象-属性结构。这种结构化表征使得奖励能够通过当前状态与目标状态在层级约束下的语义相似度进行自然估算。总体而言,StateFactory诱导的紧凑表征结构赋予了强大的奖励泛化能力。我们在RewardPrediction基准数据集上开展评估,该数据集涵盖五个不同领域,包含2,454条独特的行为-观测轨迹及逐步真实奖励。实验表明,本方法在零样本设定下相较VLWM-critic和LLM-as-a-Judge奖励模型分别降低EPIC距离60%和8%,展现出显著优势。更关键的是,这种优越的奖励质量能有效转化为智能体规划性能的提升:在AlfWorld和ScienceWorld环境中,相较于反应式系统1策略分别实现+21.64%和+12.40%的成功率增益,并显著增强系统2智能体的规划能力。项目页面:https://statefactory.github.io
文本到视频(T2V)模型的快速发展已彻底改变内容创作模式,但其商业潜力仍远未充分释放。本研究首次提出T2V无缝品牌植入任务:在保持用户意图语义保真度的前提下,将广告主品牌自动嵌入提示词生成的视频中。该任务面临三大核心挑战:保持提示词忠实度、确保品牌可识别性、实现情境自然融合。为此,我们提出创新性多智能体框架BrandFusion,其协同工作流程包含两个阶段:离线阶段(面向广告主)通过探测模型先验知识并采用轻量化微调适配新品牌,构建品牌知识库;在线阶段(面向用户)由五个智能体通过迭代优化机制协同完善用户提示词,借助共享知识库与实时情境追踪确保品牌可见度与语义一致性。在多个前沿T2V模型上对18个成熟品牌与2个定制品牌的实验表明,BrandFusion在语义保持、品牌识别度与融合自然度上显著优于基线方法。人工评估进一步证实其能带来更高用户满意度,为T2V技术的可持续商业化提供了可行路径。
推理性解码已成为加速大语言模型推理的重要范式,该方法通过轻量级草稿模型生成候选标记,再由目标模型进行验证。该范式的效能关键取决于草稿模型的质量。尽管EAGLE系列等最新成果实现了最先进的加速效果,但现有草稿模型仍受限于错误累积问题:它们仅基于当前前缀进行条件预测,导致其预测结果在多步生成后逐渐偏离目标模型。本文提出ConFu(展望未来)这一创新推理性解码框架,使草稿模型能够预判生成过程的未来走向。ConFu引入三大核心技术:(1)通过展望标记与软提示机制,使草稿模型能以可忽略的代价利用目标模型提供的未来导向信号;(2)采用混合专家模型的动态展望标记机制,实现上下文感知的未来预测;(3)结合锚点标记采样与未来预测复制的训练框架,学习稳健的未来预测能力。实验表明,在Llama-3 3B/8B模型的各种下游任务中,ConFu相较EAGLE-3将标记接受率与生成速度提升了8-11%。本研究首次将推理性解码与连续推理标记相融合,为加速大语言模型推理开辟了新方向。
尽管大型语言模型(LLM)已彻底改变了代码生成领域,但标准的"系统1"方法(通过单次前向传播生成解决方案)在面对复杂算法任务时往往遭遇性能瓶颈。现有的迭代优化策略试图在推理阶段弥补这一差距,但这些策略主要依赖于外部验证器、执行反馈或计算成本高昂的提示-响应循环。本研究提出ReflexiCoder——一种新颖的强化学习框架,它将结构化推理轨迹(包括初始生成、缺陷与优化感知的反思以及自我修正)内化至模型权重中。与先前方法不同,ReflexiCoder将范式从依赖外部优化的模式转变为推理阶段具备内在、完全自主的自我反思与自我修正能力。我们采用零样本强化学习训练范式,通过细粒度奖励函数优化整个反思-修正轨迹,使模型在无需真实反馈或执行引擎的情况下掌握调试能力。在七个基准测试上的广泛实验表明,ReflexiCoder-8B模型在1.5B-14B参数规模的主流开源模型中确立了新标杆:在单次尝试设置下,HumanEval(Plus)达到94.51%(87.20%),MBPP(Plus)达到81.80%(78.57%),BigCodeBench为35.00%,LiveCodeBench为52.21%,CodeForces为37.34%,其性能可与GPT-5.1等专有模型相媲美甚至超越。值得注意的是,该框架具有显著的令牌效率,通过规范化的高速推理与反思模式,将推理时计算开销降低约40%。源代码已发布于https://github.com/juyongjiang/ReflexiCoder。
基於Python執行追蹤資料訓練大型語言模型,能使其紮根於程式碼執行邏輯,實現對完整Python程式的逐行執行預測,從而將其轉化為神經網路解釋器(FAIR CodeGen團隊等,2025)。然而開發者極少逐行執行程式,而是透過偵錯工具在特定中斷點暫停執行,僅在檢查或修改程式變數時逐步執行相關片段。現有神經解釋器方法缺乏此類互動控制能力。為解決此侷限,我們提出神經偵錯器:這種語言模型能模擬傳統偵錯工具,支援單步進入、跳過或跳出函式等操作,並可在特定原始碼行設置中斷點。我們證明,無論是透過微調大型語言模型或從頭預訓練較小模型獲得的神經偵錯器,皆能可靠地建模正向執行(預測未來狀態與輸出)與逆向執行(推斷過往狀態或輸入),並以偵錯器操作為條件。在CruxEval基準測試中,我們的模型在輸出與輸入預測任務上均表現優異,展現出強大的條件化執行建模能力。本研究為未來具自主性的程式設計系統邁出第一步:神經偵錯器可作為模擬偵錯環境的世界模型,提供執行反饋或使智能體能與真實偵錯工具互動。此能力為更強大的程式碼生成、程式理解與自動化偵錯奠定基礎。
递归式自我改进正从理论走向实践:现代系统已能对自身输出进行批判、修正和评估,但迭代式自我修正可能引发微妙的对齐偏移。我们提出SAHOO这一实践框架,通过三重保障机制监控并控制偏移:(一)目标偏移指数(GDI),一种融合语义、词汇、结构及分布度量的多信号检测器;(二)约束保护检查机制,用于维护安全关键性不变条件(如语法正确性及非虚构性);(三)回归风险量化系统,标记可能抵消既往成果的改进循环。在代码生成、数学推理与真实性验证三大领域的189项任务中,SAHOO在代码任务上实现18.3%的质量提升,推理任务提升16.8%,同时在两个领域保持约束条件,真实性违规率维持低位。阈值校准基于涵盖三个循环的18项任务小型验证集完成。我们进一步绘制能力-对齐边界图谱,揭示早期改进循环的高效性及后期对齐成本上升现象,并展现在流畅度与事实性等领域的特定张力。SAHOO由此使递归自我改进过程中的对齐维护变得可量化、可部署,并能进行系统性大规模验证。
状态空间模型的实现通常与融合的CUDA及Triton内核耦合,形成了对NVIDIA硬件的强依赖。我们证明Mamba-2的状态空间对偶算法——包括对角化状态结构、可分块递归运算、以einsum主导的静态控制流计算——能完美映射至XLA融合与分块优化过程,使得定制内核成为可选而非必选项。我们在XLA框架下将完整推理流程(预填充、缓存式自回归解码)实现为具有确定形状的标准原语,无需手写内核,并通过编译时生成的设备端缓存实现理论上的O(1)状态管理,在生成过程中无需主机同步。该实现基于单一JAX代码库可无需修改地运行于CPU、NVIDIA GPU和谷歌云TPU平台。在TPU v6e上针对五种模型规模(1.3亿至27亿参数)的测试表明,XLA生成代码在单流预填充场景达到约140 TFLOPS(15%模型浮点利用率),解码阶段带宽利用率最高达64%。贪婪解码在64步生成中与PyTorch/CUDA参考实现逐令牌一致,隐藏状态差异保持在float32舍入容限内。该模式可迁移至满足相同结构条件的任何状态空间递归模型,并适用于所有具备成熟XLA后端的平台。实现代码已公开于https://github.com/CosmoNaught/mamba2-jax 并并入Bonsai JAX模型库。
近期视觉语言模型(VLM)虽展现出卓越的零样本能力,但其在专业领域的适配仍面临重大挑战。基于最新理论研究发现——独立训练的VLM可通过规范变换相互关联,我们将这一认知延伸至领域概念。我们提出假设:不同领域的图像特征可通过一种规范化的几何变换建立联系,且该变换能通过少量锚点样本还原。少样本分类任务自然契合这种对齐机制,因为有限的标注样本恰好可作为估算该变换所需的锚点。基于此假设,我们提出BiCLIP框架,通过对多模态特征施加定向变换来增强跨模态对齐。该方法具有结构极简、参数量少的特点。在EuroSAT、DTD和FVGCAircraft等11个标准基准上的广泛实验表明,BiCLIP持续实现最先进性能。此外,我们通过分析习得变换的正交性与角度分布,对现有几何发现进行了实证验证,证实结构化对齐是实现鲁棒领域适应的关键。代码已发布于https://github.com/QuantitativeImagingLaboratory/BilinearCLIP。
克什米爾語雖擁有約700萬使用者且具官方語言地位及豐富語言遺產,其在語音技術領域仍面臨嚴重資源不足。現有文本轉語音系統的缺失制約了母語者的數字化可及性與包容性人機交互。本研究首創專為克什米爾語設計的開源神經網絡TTS系統,實驗表明針對印度語系訓練的零樣本多語言基線模型因未能有效建模波斯-阿拉伯變音符號及語言特定音系規則,僅獲得1.86平均意見分數,無法生成清晰語音。為此,我們基於Matcha-TTS框架提出Bolbosh——種採用最優傳輸條件流匹配的監督式跨語言適應策略,可在有限配對數據下實現穩定對齊。我們進一步構建包含去混響、靜音修剪和響度歸一化的三階段聲學增強流程,以統一異構語音源並穩定對齊學習。通過擴展模型詞表顯式編碼克什米爾文字素,系統精準保留了細粒度元音區分特徵。最終系統獲得3.63 MOS分數與3.73梅爾倒譜失真度,顯著超越多語言基線,為克什米爾語語音合成設立新標杆。實驗證實,針對變音符號敏感的低資源語言,文字感知與基於流匹配的監督適應是TTS系統成功的關鍵。代碼與數據已開源於:https://github.com/gaash-lab/Bolbosh。
本文提出Midicoth无损压缩系统,该系统引入微扩散去噪层以改进自适应统计模型生成的概率估计。在预测部分匹配(PPM)等压缩器中,概率估计需通过先验分布进行平滑处理以应对稀疏观测问题。当上下文出现频次较低时,先验主导预测过程并产生比真实信源分布更为平坦的概率分布,导致压缩效率下降。Midicoth通过将先验平滑视为收缩过程,并应用基于经验校准统计的反向去噪步骤来修正预测概率,从而突破这一局限。为实现数据高效的校正,该方法将每个字节预测分解为沿比特树结构的二元决策层次,将256维校准问题转化为序列化二元校准任务,使得仅需较少观测值即可实现校正项的可靠估计。去噪过程通过多级递进实施,每一阶段均可修正前序阶段残留的预测误差。微扩散层作为轻量级后融合校准阶段,在所有模型预测整合后启动,可修正最终概率分布的系统性偏差。Midicoth集成五个全在线组件:自适应PPM模型、长程匹配模型、基于字典树的词汇模型、高阶上下文模型,以及作为最终阶段的微扩散去噪器。
长期以来,关联记忆一直是序列模型设计的基础。除了记忆回溯,人类还能通过预测未来状态并选择目标导向的行动进行推理——这种能力对现代语言模型日益重要,却未被原生编码。已有研究虽采用强化学习或测试时训练,但规划功能始终外置于模型架构。我们将推理建模为最优控制问题,提出测试时控制层(TTC):该层在推理时对隐状态执行有限时域的LQR规划,在神经网络架构内部表征价值函数,并将其作为嵌套目标实现预测前的规划。为确保可扩展性,我们基于辛几何 formulation 推导出硬件高效的LQR求解器,将其实现为融合CUDA内核,支持并行计算且开销极小。将TTC层作为适配器集成至预训练大语言模型后,在MATH-500上的数学推理性能提升最高达27.8%,在AMC和AIME上的Pass@8指标提升2-3倍,证明将最优控制嵌入架构可为推理提供超越测试时训练的有效可扩展机制。
即时类别发现(OCD)旨在通过仅使用标注数据训练的模型,从未标注的在线流数据中识别已知类别并同时发现新类别。现有方法冻结离线训练的特征提取器,并采用基于哈希的框架将特征量化为二进制码作为类别原型。然而,使用固定知识库发现新类别存在悖论,因为输入数据的学习潜力被完全忽视。此外,特征量化会导致信息损失、削弱表征表达能力,并加剧类内方差,常引发类别爆炸问题——即单个类别被分裂成多个伪类别。为突破这些局限,我们提出一种支持边发现边学习的测试时自适应框架。该框架融合两种互补策略:语义感知的原型更新与稳定的测试时编码器更新。前者动态优化类别原型以提升分类性能,后者将新信息直接整合至参数空间。二者协同使模型能够持续利用新样本扩展知识库。此外,我们在离线阶段引入边界感知逻辑校准,通过扩大类间间距并提升类内紧凑性,为未来类别发现预留嵌入空间。在标准OCD基准测试上的实验表明,本方法显著优于现有基于哈希的先进方法,在新类别识别准确率上实现明显提升,并有效抑制了类别爆炸现象。代码已公开于蓝色链接{https://github.com/ynanwu/TALON}。
人人都能通过自由文本形式书写故事——这是我们在学校就掌握的基础技能。然而通过视频进行叙事却需要学习专业复杂的工具。本文介绍Doki这一面向生成式视频创作的原生文本界面,它将视频制作与自然的文本写作过程相融合。在Doki中,文本写作是核心交互方式:用户可在单一文档内定义素材、构建场景、创建镜头、精修剪辑并添加音频。我们系统阐述了这种文本优先设计原则,并通过系列案例展示Doki的功能。为评估其实际应用效果,我们开展了为期一周的部署研究,参与者涵盖不同水平的视频创作者。这项研究实现了生成式视频界面的根本性变革,展现了一种强大且易用的视觉叙事创作新范式。
大型语言模型的长上下文推理在解码阶段受限于键值(KV)缓存加载——由于生成的序列特性,需要逐步骤将KV缓存从片外高带宽内存(HBM)重复传输至片内静态随机存取存储器(SRAM)。虽然多头潜在注意力(MLA)显著减少了KV缓存总量,但在通过张量并行(TP)进行分布式解码时存在分片瓶颈。由于其单一潜在头无法分区,每个设备被迫为每个令牌冗余加载完整KV缓存,消耗过量内存流量并削弱了权重分片等TP优势。本文提出多头低秩注意力(MLRA),通过可分区潜在状态实现高效的4路TP解码。大量实验表明,MLRA在困惑度和下游任务性能上达到最优水平,同时相比MLA实现2.8倍解码加速。代码详见https://github.com/SongtaoLiu0823/MLRA,预训练权重及训练评估数据发布于https://huggingface.co/Soughing/MLRA。