每日精選AI研究論文及翻譯
強化學習已成為語言模型從環境獎勵或回饋中學習的核心方法。在實際應用中,環境回饋通常具有稀疏性和延遲性。從這類信號中學習極具挑戰性,因為語言模型必須隱式推斷如何將觀察到的失敗轉化為後續迭代的行為調整。我們提出體驗式強化學習(ERL),這種訓練範式將顯式的「體驗-反思-鞏固」循環嵌入強化學習過程。針對特定任務,模型會生成初始嘗試、接收環境回饋,並產生引導二次優化嘗試的反思報告,其成功經驗將被強化並內化至基礎策略中。該過程將回饋轉化為結構化的行為修正,既能提升探索效率與優化穩定性,又能在部署時保持效果增益且無需增加推理成本。在稀疏獎勵控制環境與智能體推理基準測試中,ERL相較於強基線強化學習方法,持續展現出更高的學習效率與最終性能——在複雜多步環境中實現最高達81%的性能提升,在工具使用推理任務中獲得最高11%的改進。這些結果表明,將顯式自我反思整合至策略訓練,能為「將回饋轉化為持久行為改進」提供實用機制。
現有的多模態檢索系統雖擅長語義匹配,卻隱含了查詢-圖像相關性可獨立衡量的前提。這種範式忽略了真實視覺流中固有的豐富依賴關係——在實際場景中,信息分佈於時間序列而非侷限於單一快照。為彌合這一差距,我們提出DeepImageSearch,一種新型能動範式,將圖像檢索重新定義為自主探索任務。模型需對原始視覺歷史進行多步推理規劃與執行,從而基於隱性上下文線索定位目標。我們構建了DISBench這一基於關聯視覺數據的挑戰性基準測試。為解決上下文依賴查詢的擴展性難題,我們提出人機協作流程,利用視覺語言模型挖掘潛在時空關聯,將密集的上下文發現任務前置於人工驗證環節。此外,我們採用具備細粒度工具和雙記憶系統的模塊化智能體框架,構建了適用於長程導航的強健基準模型。大量實驗表明,DISBench對現有頂尖模型構成顯著挑戰,證明了將能動推理融入下一代檢索系統的必要性。
我們推出南貝格4.1-3B,這是一個統一的通用語言模型,僅以30億參數就同時實現了強大的智能體行為、代碼生成與通用推理能力。據我們所知,這是首個在單一模型中實現如此多樣化能力的開源小型語言模型(SLM)。為提升推理能力與偏好對齊,我們結合點對點和配對獎勵建模技術,確保生成高質量且符合人類偏好的回應。在代碼生成方面,我們於強化學習中設計複雜度感知獎勵機制,同步優化正確性與效率。針對深度搜索任務,我們進行複雜數據合成並在訓練中引入回合級監督,使南貝格4.1-3B能穩定執行長達600次工具調用回合的複雜問題求解。大量實驗結果表明,南貝格4.1-3B顯著超越同規模模型(如Nanbeige4-3B-2511和Qwen3-4B),甚至優於參數量大十倍的Qwen3-30B-A3B模型。本研究證明小型模型可同時實現廣泛能力與深度專業化,重新定義了30億參數模型的潛力邊界。
大型語言模型正從通用知識引擎轉型為現實世界問題解決者,但針對深度搜索任務的優化仍面臨挑戰。核心瓶頸在於高質量搜索軌跡與獎勵信號的極度稀疏性,這源於可擴展長週期任務構建的難度,以及涉及外部工具調用的高互動成本。為解決這些難題,我們提出REDSearcher——一個通過協同設計複雜任務合成、訓練中優化與訓練後優化的統一框架,實現可擴展搜索智能體優化。具體而言,REDSearcher引入以下創新:(1) 將任務合成構建為雙重約束優化問題,通過圖拓撲結構與證據分散度精確控制任務難度,實現複雜高質量任務的可擴展生成;(2) 引入工具增強型查詢機制,激勵智能體主動使用工具而非被動回憶;(3) 在訓練中階段強化核心原子能力(知識處理、規劃規劃與函數調用),大幅降低下游訓練所需高質量軌跡的收集成本;(4) 構建本地模擬環境,為強化學習實驗提供快速低成本的算法迭代平台。在純文本與多模態搜索智能體基準測試中,我們的方法均實現了最先進的性能。為推動長週期搜索智能體的未來研究,我們將公開10K高質量複雜文本搜索軌跡、5K多模態軌跡、1K文本強化學習查詢集,並同步開原始碼與模型檢查點。
我們提出 BitDance,一種可擴展的自迴歸影像生成器,其預測對象是二進位視覺標記而非編碼簿索引。透過高熵二進位潛在表示,BitDance 使每個標記能表徵高達 2^{256} 種狀態,形成緊湊且高表現力的離散表示。在如此巨大的標記空間中進行採樣,傳統分類方法難以實現。為解決此問題,BitDance 採用二進位擴散頭:不再透過 softmax 預測索引,而是利用連續空間擴散來生成二進位標記。此外,我們提出下一區塊擴散技術,這種新型解碼方法能高精度並行預測多個標記,大幅加速推理過程。在 ImageNet 256x256 數據集上,BitDance 實現了 1.24 的 FID 分數,成為自迴歸模型中的最佳成績。結合下一區塊擴散技術後,BitDance 在僅使用 2.6 億參數(減少 5.4 倍)的情況下,不僅超越參數量達 14 億的頂尖並行自迴歸模型,更實現 8.7 倍的推理加速。針對文字生成影像任務,BitDance 透過大規模多模態標記訓練,能高效生成高解析度逼真影像,展現出卓越性能與優異的擴展性。在生成 1024x1024 影像時,相較於現有自迴歸模型,BitDance 實現超過 30 倍的加速。我們公開程式碼與模型以促進自迴歸基礎模型的後續研究。程式碼與模型發佈於:https://github.com/shallowdream204/BitDance。
工業級用戶表徵學習需要平衡穩健的通用性與敏銳的任務敏感性。然而,現有範式主要產生靜態、任務無關的嵌入表示,難以在統一向量空間中調和下遊場景的差異化需求。此外,異構多源數據帶來的固有噪聲與模態衝突會進一步削弱表徵質量。我們提出「查詢為錨」框架,將用戶建模從靜態編碼轉向動態的查詢感知合成。為使大型語言模型具備深度用戶理解能力,我們首先構建UserU——一個對齊多模態行為序列與用戶語義理解的工業級預訓練數據集,並通過Q-Anchor嵌入架構將分層粗細粒度編碼器集成至雙塔式LLM,經由聯合對比-自回歸優化實現查詢感知的用戶表徵。為彌合通用預訓練與專屬業務邏輯間的鴻溝,我們進一步引入基於聚類的軟提示調優技術,強化判別性潛在結構,有效對齊模型注意力與場景特定模態。在部署層面,將錨定查詢置於序列末端可實現KV緩存加速推理,且增量延遲可忽略不計。在支付寶10個工業基準測試中,本方法均展現出持續的SOTA性能、強大擴展性及高效部署能力。支付寶生產環境中兩個真實場景的大規模線上A/B測試進一步驗證了其實用效能。代碼已準備公開並將發佈於:https://github.com/JhCircle/Q-Anchor。
諸如最佳N取樣(Best-of-N)與思維樹(Tree-of-Thoughts)等推論時計算(ITC)方法,旨在生成兼具高質量與多樣性的輸出候選方案,但其採用高溫取樣策略往往難以實現實質性的輸出多樣性。此外,現有ITC方法對推理過程的控制能力有限,這也制約了其可解釋性。我們提出「結構化思維」(STATe)這一可解釋的ITC方法,透過對高層次推理模式進行搜索來解決上述問題。STATe以離散且可解釋的文本干預取代隨機取樣:控制器選擇編碼高層次推理決策的動作,生成器根據這些選擇產生推理步驟,評估器則對候選方案評分以引導搜索。此結構化方法具備三大優勢:首先,動作引導的文本干預相比基於溫度的取樣能產生更高的回應多樣性;其次,在論點生成的案例研究中,STATe的顯性動作序列能捕捉對輸出質量具高度預測性的可解釋特徵;最後,透過分析表現與動作選擇的關聯性,我們能識別動作空間中具潛力卻未被探索的區域,並直接引導生成過程朝向該區域發展。這些成果共同確立STATe作為生成高質量、多樣化且可解釋文本的實用框架。本框架已開源於:https://github.com/zbambergerNLP/state-of-thoughts。
大型語言模型的快速演進已催生科學創意產出的激增,然而這種飛躍並未伴隨相應的創意評估機制進步。科學評估的本質需要知識基礎、集體審議與多準則決策,但現有評估方法常受制於狹隘的知識視野、扁平化的評估維度,以及LLM作為評判者固有的偏見。為解決這些問題,我們將創意評估視為基於知識的多視角推理任務,提出深度創新評估框架InnoEval,旨在模擬人類層級的創意評鑑。我們採用異質性深度知識搜尋引擎,從多元網路來源檢索並錨定動態證據,並透過匯聚不同學術背景評審的創新審查委員會達成審議共識,實現跨多項指標的多維度解耦評估。基於權威同儕評審資料構建的完整數據集顯示,InnoEval在點對點、配對比較及群組評估任務中均持續超越基準模型,其判斷模式與共識機制與人類專家高度契合。
資料品質決定基礎模型的效能,然而系統化的處理框架仍顯不足。我們提出「數據達爾文主義」——一個十級分類體系(L0-L9),將數據與模型的協同演化概念化:先進模型能為下一代系統生成更優質的數據。我們通過構建達爾文科學語料庫(9000億詞元,含L0-L5級)在科學文獻領域驗證此理論。研究發現原始科學文本存在可學習性鴻溝,為此我們運用前沿大語言模型實施L4(生成式優化)與L5(認知補全)策略,通過闡釋推理過程與專業術語來彌合這一鴻溝。 為確保嚴謹的歸因分析,我們從零開始預訓練daVinci-origin-3B/7B模型,並排除科學內容以建立無汙染的基準模型。經過6000億詞元的持續預訓練後,達爾文科學模型在20多項基準測試中分別以+2.12(3B)和+2.95(7B)分的優勢超越基準模型,在領域對齊任務中優勢更擴大至+5.60與+8.40分。系統性推進至L5級別可帶來+1.36分的總體增益,證實更高層級的數據處理能釋放潛在數據價值。我們公開達爾文科學語料庫與daVinci-origin模型,以推動基於協同演化機制的規範化發展。
统一多模态大语言模型(MLLMs)需要一种能同时支持高保真重建、复杂语义提取与生成适应性的视觉表征方法。然而,现有视觉分词器通常难以在单一框架内满足这些相互冲突的目标。本文提出UniWeTok——一种基于超大规模二进制码本(2^{128})的统一离散分词器来弥合这一鸿沟。在训练框架上,我们引入前后蒸馏与生成感知先验机制,以增强离散分词的语义提取能力与生成先验特性。模型架构方面,我们设计了结合卷积与注意力机制的混合架构,并采用SigLu激活函数。该函数不仅约束编码器输出、稳定语义蒸馏过程,更有效解决了分词熵损失与承诺损失之间的优化冲突。我们还提出三阶段训练框架,旨在提升UniWeTok对不同图像分辨率及感知敏感场景(如人脸与文本内容)的适应能力。在ImageNet上,UniWeTok以极低训练成本(训练词元量:UniWeTok 330亿 vs REPA 2620亿)实现领先的图像生成性能(FID:UniWeTok 1.38 vs REPA 1.42)。在通用领域,UniWeTok在多模态理解、图像生成(DPG分数:UniWeTok 86.63 vs FLUX.1 [Dev] 83.84)与编辑任务(GEdit综合分:UniWeTok 5.09 vs OmniGen 5.06)中均展现出强大竞争力。我们公开代码与模型,以促进统一分词器与MLLM的社区探索。
评估多模态大语言模型是否真正具备物理动态推理能力仍具挑战。现有基准多采用视觉问答和预期违背等识别式评估范式,这类方法常可在无需明确物理假设的情况下作答。我们提出VisPhyWorld——一个基于执行的评估框架,通过要求模型根据视觉观察生成可执行的模拟器代码来评估物理推理能力。通过生成可运行代码,模型推断的世界表征可直接被检验、编辑和证伪,从而实现物理推理与渲染的分离。基于此框架,我们构建了包含108个物理模板衍生的209个评估场景的VisPhyBench,并制定系统化评估方案,检验模型重建外观与生成物理合理运动的能力。该流程在基准测试中实现了97.7%的有效重建视频生成率。实验表明,尽管前沿多模态大语言模型具备较强的语义场景理解能力,但在精确推断物理参数和模拟一致物理动态方面仍存在困难。
本文提出了一種將量子計算視為一等執行選項的量子數據庫(Qute)。有別於先前基於模擬的方法——要麼在經典機器上運行量子算法,要麼改裝現有數據庫進行量子模擬——Qute實現了四大創新:(i) 將擴展版SQL編譯為門高效的量子電路;(ii) 採用混合優化器動態選擇量子與經典執行方案;(iii) 引入選擇性量子索引機制;(iv) 設計保真度存儲方案以緩解當前量子位限制。我們還提出了通往量子原生數據庫的三階段演進路線圖。通過在真實量子處理器(起源·悟空)上部署Qute,實驗表明其在大規模場景下優於經典基準方案。我們已在https://github.com/weAIDB/Qute開源原型系統。
基於大型語言模型的智能體系統配置涉及從龐大的組合設計空間中選擇工作流程、工具、令牌預算及提示模板,目前通常採用固定的大型模板或人工調優的啟發式方法。這種方式會導致系統行為脆弱且產生不必要的計算消耗,因為無論輸入查詢難易與否,往往都套用相同的繁瑣配置。我們將智能體配置定義為按查詢決策的優化問題,並提出ARC(智能資源配置學習器),通過強化學習訓練輕量級分層策略來動態調整配置方案。在多個涵蓋推理任務和工具增強問答的基準測試中,學習得到的策略持續優於人工設計的強基準方法及其他對比方案,在實現任務準確率提升最高達25%的同時,有效降低了令牌消耗和運行時長。這些結果表明,針對單個查詢學習智能體配置是替代"一刀切"設計的有效範式。
网络智能体需要海量轨迹数据才能实现泛化,但现实世界的训练常受限于网络延迟、速率限制和安全风险。我们推出首个大规模开放网络模拟器WebWorld系列。现有模拟器仅能在封闭环境中处理数千条轨迹,而WebWorld通过可扩展数据管道实现了百万级开放网络交互训练,支持推理、多模态数据以及30步以上的长程模拟。在内在评估方面,我们提出涵盖九个维度的双重指标WebWorld-Bench,其模拟性能与Gemini-3-Pro相当。在外在评估中,基于WebWorld合成轨迹训练的Qwen3-14B在WebArena上提升9.2%,达到与GPT-4o相仿的水平。WebWorld支持高效的推理时搜索,作为世界模型的表现超越GPT-5。除网络模拟外,WebWorld还展现出对代码、图形界面及游戏领域的跨域泛化能力,为世界模型构建提供了可复现的解决方案。
伴隨著日益精進的規劃與工具使用能力,多模態大語言模型(MLLMs)正逐步演進為能在開放式環境中執行多模態網路瀏覽與深度搜索的自主智能體。然而,現有的多模態瀏覽基準在任務複雜度、證據可獲取性及評估細粒度方面仍存在局限,難以對深度搜索能力進行全面且可重現的評估。為解決這些不足,我們推出BrowseComp-V^3——一個包含300道經精心設計、橫跨多領域的挑戰性問題的新型基準。該基準強調深層次、多級別及跨模態的多跳推理,關鍵證據分散在網頁內外文本與視覺模態的交織資訊中。所有支撐證據均嚴格要求可公開檢索,以確保公平性與可復現性。除最終答案準確率外,我們引入經專家驗證的子目標驅動式流程評估機制,實現對中間推理行為的細粒度分析與能力邊界的系統化刻畫。此外,我們提出OmniSeeker這一整合多種網路搜索與視覺感知工具的統一多模態瀏覽智能體框架。綜合實驗表明,即使最先進的模型在我們基準上的準確率僅達36%,揭示了多模態資訊整合與細粒度感知方面的關鍵瓶頸。研究結果凸顯出現有模型能力與真實場景下魯棒的多模態深度搜索之間存在根本性差距。
利用多模态大语言模型(MLLMs)已成为推进通用多模态嵌入(UME)技术以应对多样化跨模态任务的关键。近期研究表明,相较于判别式方法,引入生成式思维链(CoT)推理能显著增强任务特定表征。然而,现有生成式嵌入方法所产生的推理CoT仅局限于对查询的文本分析,且与目标检索无关。为解决这些局限性,我们提出一种推理驱动的UME框架,该框架通过嵌入器引导的强化学习(EG-RL)来优化推理器,使其生成具备可追溯性的证据化思维链(T-CoT)。我们的核心贡献包括三方面:(1)设计了EG-RL框架,通过嵌入器为推理器提供显式监督,确保生成的CoT轨迹与嵌入任务对齐;(2)提出T-CoT机制,通过提取关键多模态线索聚焦检索相关要素,为嵌入器提供多模态输入;(3)在有限计算资源下,我们的框架在MMEB-V2和UVRB基准测试中均超越先驱性嵌入模型。通过将多模态证据融入结构化推理,并与检索导向的对齐机制相结合,该框架有效增强了跨模态语义一致性,提升了模型的细粒度匹配能力及复杂场景下的泛化性能。本研究证明,定向推理优化能显著提升多模态嵌入质量,为推理驱动的UME发展提供了实用高效的解决方案。
擴散式語言模型(dLLMs)近期作為自迴歸大語言模型的一種潛在替代方案嶄露頭角。最新研究進一步將其擴展至多模態理解與生成任務。本文提出LaViDa-R1——一個多模態通用推理擴散式語言模型。與現有通過任務特定強化學習構建推理dLLMs的方法不同,LaViDa-R1以統一方式融合了多樣化的多模態理解與生成任務。具體而言,該模型採用創新的統一後訓練框架,無縫整合監督微調(SFT)與多任務強化學習(RL),並運用答案強制生成、樹狀搜索及互補似然估計等新穎訓練技術,有效提升了模型效能與擴展性。大量實驗表明,LaViDa-R1在視覺數學推理、強推理需求定位及圖像編輯等多模態任務中均展現出卓越性能。
在长时序中保持空间世界一致性始终是相机可控视频生成的核心挑战。现有基于记忆的方法通常通过从历史重建几何中渲染锚点视频,以此作为生成条件。然而,从多视角重建全局三维场景不可避免地会引入跨视角错位问题——由于位姿和深度估计误差,同一表面在不同视角下会被重建至略微不同的三维位置。这些不一致性在融合过程中会累积成含有噪声的几何结构,进而污染条件信号并降低生成质量。我们提出AnchorWeave框架,该记忆增强型视频生成系统以多个洁净的局部几何记忆替代单一错位的全局记忆,并通过多锚点编织控制器学习调和其跨视角不一致性。具体而言,AnchorWeave执行与目标轨迹对齐的覆盖驱动式局部记忆检索,并在生成过程中通过多锚点编织控制器整合所选局部记忆。大量实验表明,AnchorWeave在保持优异视觉质量的同时显著提升了长时序场景一致性,消融实验与分析研究进一步验证了局部几何条件机制、多锚点控制策略及覆盖驱动检索的有效性。
对话式图像分割将抽象的意图驱动概念转化为像素级精确的掩码。现有指代性图像定位研究多聚焦于类别与空间查询(如"最左侧的苹果"),却忽视了功能与物理推理(如"哪里能安全存放刀具?")。我们针对这一空白提出对话式图像分割(CIS)概念及ConverSeg基准数据集,涵盖实体识别、空间关系、意图理解、功能属性、安全考量与物理推理等维度。同时推出ConverSeg-Net模型——该模型将强分割先验与语言理解相融合,并采用无需人工标注的AI驱动数据引擎生成提示-掩码对。实验表明,当前语言引导的分割模型难以胜任CIS任务,而基于我们数据引擎训练的ConverSeg-Net在ConverSeg基准上实现显著提升,并在现有语言引导分割基准中保持强劲性能。项目页面:https://glab-caltech.github.io/converseg/
人体运动理解与生成是视觉与机器人技术领域的核心课题,但其推理能力和测试时规划能力仍存在局限。我们提出MoRL——一种通过监督微调与可验证奖励强化学习训练的多模态统一运动模型。针对特定任务的奖励设计融合了语义对齐与推理连贯性以提升理解能力,结合物理合理性与文本-运动一致性以优化生成效果,从而同步增强逻辑推理与感知真实性。为进一步强化推理能力,我们提出链式运动推理法,这是一种支持逐步规划与反思的测试时推理方法。我们还构建了两个大规模思维链数据集MoUnd-CoT-140K与MoGen-CoT-140K,用于对齐运动序列与推理轨迹及动作描述。在HumanML3D和KIT-ML数据集上的实验表明,MoRL相较现有最优基线模型取得显著提升。代码地址:https://github.com/AIGeeksGroup/MoRL 项目网站:https://aigeeksgroup.github.io/MoRL
我们推出FireRed-Image-Edit——一款基于指令的扩散Transformer图像编辑模型,通过数据构建、训练方法和评估设计的系统化优化实现了顶尖性能。我们构建了包含16亿样本的训练语料库,涵盖来自多元渠道的9亿文生图对和7亿图像编辑对。经过严格的数据清洗、分层处理、自动标注及两阶段筛选后,我们保留了超过1亿个生成与编辑任务均衡的高质量样本,确保强语义覆盖和指令对齐。我们的多阶段训练流程通过预训练、监督微调和强化学习逐步构建编辑能力。为提升数据效率,我们引入多条件感知分桶采样器实现可变分辨率批处理,以及采用动态提示重索引的随机指令对齐技术。为稳定优化并增强可控性,我们提出DPO的非对称梯度优化、针对文本编辑的布局感知OCR奖励机制DiffusionNFT,以及用于身份保持的可微分一致性损失。我们还建立了REDEdit-Bench综合评测基准,涵盖15个编辑类别(包括新引入的美颜优化和低层级增强任务)。在REDEdit-Bench及公开基准(ImgEdit和GEdit)上的大量实验表明,本模型在开源与商业系统中均展现出竞争优势。我们将公开代码、模型及评测套件以支持后续研究。
AI编程代理正通过执行功能开发、调试和测试等任务,迅速改变软件工程领域。尽管其影响力与日俱增,研究界仍缺乏全面记录这些代理在真实项目中应用情况的数据集。为填补这一空白,我们推出AIDev——一个专注于真实GitHub仓库中代理撰写拉取请求(Agent式PR)的大规模数据集。AIDev汇集了由OpenAI Codex、Devin、GitHub Copilot、Cursor和Claude Code这五大代理生成的932,791个Agent式PR,覆盖116,211个代码仓库,涉及72,189名开发者。此外,AIDev还包含从2,807个星标数超100的仓库中精选的33,596个Agent式PR子集,提供评论、审阅、提交记录及相关议题等深度信息。该数据集为研究新时代软件工程中AI应用、开发者效能以及人机协作奠定了重要基础。 > AI代理、代理式AI、编程代理、代理式编程、代理式软件工程、代理式工程
我们提出LM-Lexicon——一种融合数据聚类、语义专家学习与稀疏专家混合架构模型融合的创新定义建模方法。该方法通过将定义建模任务分解为特定语义域,并训练小型语言模型作为领域专家,在五个广泛使用的基准测试中相较原有最优模型实现了显著提升(BLEU分数提高7%)。实证研究表明:1)聚类策略可实现细粒度专家 specialization,使定义质量提升近10%;2)语义感知的域级路由机制相较传统词元级路由提升专家效能1%;3)通过测试时计算资源调配与语义专家规模扩展可获得额外性能增益。本研究成果在推动定义建模发展的同时,为语义密集型应用的高效语言模型开发提供了重要洞见。
聲化(Sonification)——將數據映射為非語音音頻的技術——為表徵複雜動力系統提供了一條尚未充分探索的途徑。本文以厄爾尼諾-南方濤動(ENSO)這一低維氣候混沌的典型範例為測試對象,通過複雜系統診斷方法評估文化情境化聲化技術的應用。我們採用參數映射聲化法,將尼諾3.4區海表溫度異常指數(1870-2024)轉化為兩種爪哇傳統甘美蘭五聲音階系統(佩洛格與斯連德羅),並基於四種作曲策略編碼ENSO的變異性,繼而將生成音頻作為二維聲學相空間中的軌跡進行分析。基於遞迴的診斷、凸包幾何分析及耦合分析表明,該聲化流程保留了關鍵動力學特徵:交替模式產生的軌跡遞迴率最高,呼應ENSO的準週期性;分層複調模式探索了最廣闊的相空間區域;兩種音階體系則引發了譜亮度與能量之間截然不同的耦合機制——佩洛格以反相位為主,而斯連德羅呈現近獨立態。相空間軌跡分析為在複雜系統框架下比較聲化設計提供了嚴謹的幾何方法論。儘管感知驗證仍屬必要,本研究貢獻的動力系統方法學可為此類映射關係的評估提供新範式。
高保真度生成式视频编辑通过利用预训练视频基础模型,已实现显著的画质提升。然而,这些模型的计算成本构成主要瓶颈——无论修复遮罩的尺寸大小,它们通常都低效地处理完整视频上下文,即使面对稀疏的局部编辑任务也不例外。本文提出EditCtrl,一种高效视频修复控制框架,其计算资源仅聚焦于需要编辑的区域。我们的方法采用创新的局部视频上下文模块,该模块仅对遮罩标记进行操作,使计算成本与编辑尺寸成正比。这种以局部为首要的生成过程随后由轻量级时序全局上下文嵌入器进行引导,该嵌入器以最小开销确保视频全域的上下文一致性。EditCtrl不仅比当前最先进的生成式编辑方法提升10倍计算效率,其编辑质量甚至优于采用全局注意力机制的方法。最后,我们展示了EditCtrl如何解锁多项新功能,包括基于文本提示的多区域编辑与自回归内容传播。
尽管掩码扩散模型(MDMs)中的规划-填充解码方法在数学与代码推理任务中展现出潜力,但其性能对槽位填充顺序高度敏感,常导致显著的输出差异。我们提出McDiffuSE框架,将槽位选择建模为决策过程,并通过蒙特卡洛树搜索(MCTS)优化填充顺序。该框架通过前瞻模拟评估部分生成结果,系统性地探索生成顺序的组合空间。实验表明,该方法相比自回归基线平均提升3.2%,较基线规划-填充方法提升8.0%,在MBPP和MATH500数据集上分别取得19.5%和4.9%的显著增益。分析表明,虽然McDiffuSE主要遵循顺序生成模式,但融入非顺序生成对最大化性能至关重要。我们发现,需通过增大探索常数(而非增加模拟次数)来克服模型置信度偏差,从而发现有效生成顺序。这些发现确立了基于MCTS的规划作为提升MDMs生成质量的有效途径。
單細胞RNA測序(scRNA-seq)能夠實現複雜組織的圖譜級分析,揭示稀有譜系和瞬時狀態。然而,由於標記物具有組織和狀態特異性,且新發現的細胞狀態缺乏參考數據,如何準確賦予細胞生物學意義的身份標註仍是瓶頸。本文提出CellMaster——一種模擬專家實踐的零樣本細胞類型註釋人工智能代理。與現有自動化工具不同,CellMaster利用大型語言模型(如GPT-4o)編碼的知識進行即時註釋,並提供可解釋的判定依據,無需預訓練或固定標記數據庫。在涵蓋8種組織的9個數據集中,CellMaster在自動模式下較最佳基準方法(包括CellTypist和scTab)準確率提升7.1%。引入人機協同優化後,優勢擴大至18.6%,其中亞群細胞註釋準確率提升達22.1%。該系統在基準方法常失效的稀有及新穎細胞狀態註釋中表現尤為突出。源代碼及網絡應用程序詳見https://github.com/AnonymousGym/CellMaster。
在本资源论文中,我们推出DHPLT——一个涵盖41种多样化语言的历时语料库开放集合。该集合以网络爬取的HPLT数据集为基础,利用网页抓取时间戳作为文档创建时间的近似标识。语料库覆盖三个时段:2011-2015年、2020-2021年以及2024年至今(每种语言每个时段包含100万份文档)。我们额外提供了预计算的词汇类型与标记嵌入向量,以及针对选定目标词的词汇替换表,同时允许其他研究者使用相同数据集自行设定目标词。DHPLT旨在填补当前语义演变建模领域多语言历时语料库的空白(此前仅覆盖十几种高资源语言),为该领域开创了多样化的实验可能性。本文所述所有资源均按语言分类,可通过https://data.hplt-project.org/three/diachronic/获取。
室內聲學分析在建築設計、音頻工程、語音清晰度評估及聽力研究中具有核心地位。儘管現有標準化指標如混響時間、清晰度和語音傳輸指數已廣泛應用,但將嚴謹信號處理與直觀可視化相結合的易用工具仍顯匱乏。本文推出AcoustiVision Pro——一個用於全面分析房間脈衝響應的開源網絡平台。該系統可從上傳或數據集獲取的RIR中計算十二項獨立聲學參數,提供早期反射的交互式3D可視化,通過瀑布圖生成頻率相關衰減特性,並依據ANSI S12.60與ISO 3382等國際標準進行合規性檢測。我們同步推出託管於Hugging Face的RIRMega與RIRMega Speech數據集,包含數千條帶完整元數據的模擬房間脈衝響應。平台支持基於FFT卷積的實時可聽化處理,可導出適用於工程文檔的詳細PDF報告,並提供CSV數據導出功能以支持深度分析。本文闡述了各聲學指標的數學基礎,詳解系統架構,並通過教室聲學、醫療設施設計及錄音棚評估等多領域的初步案例研究,驗證該平台在實際應用中的有效性。
检索增强生成(RAG)已成为知识密集型应用的核心技术,涵盖企业聊天机器人、医疗辅助系统和智能体记忆管理等领域。然而近期研究表明,知识提取攻击可通过恶意构造的查询恢复知识库中的敏感内容,引发对知识产权窃取与隐私泄露的严重关切。尽管已有研究探索了独立的攻防技术,但该领域研究仍呈碎片化态势,涉及异构检索嵌入模型、多样化生成模型,以及基于非标准化指标和不一致数据集的评估方法。为弥补这一空白,我们首次构建了针对RAG系统知识提取攻击的系统性基准测试框架。该基准涵盖广泛的攻防策略、代表性检索嵌入模型、开源与闭源生成器,并在统一实验框架下通过跨数据集的标准化协议进行全面评估。通过整合实验环境并实现可复现、可比较的评估,本基准为应对新兴知识提取威胁、开发隐私保护型RAG系统提供了可行见解与实践基础。相关代码已开源。
大型语言模型(LLM)评判器常与基于算法的传统指标共同用于摘要生成等任务,因其能更好地捕捉语义信息、具备更强的推理能力,并对改写内容具有更高鲁棒性。然而LLM评判器存在长度偏好、顺序偏好等偏差,且易受各类对抗性输入提示的影响。尽管近期研究已关注这些偏差,但鲜有研究结合明确定义的重合度指标进行细粒度分析。本研究通过分析摘要领域LLM评判结果与人工撰写响应的重合度函数,系统解析其偏差特性。我们测试了9个参数规模从10亿到120亿的最新LLM,包括Gemma 3和LLaMA 3的多个变体。实验发现:当被评判摘要与参考摘要的相似度(以ROUGE和BLEU衡量)降低时,LLM评判器会逐渐更倾向于选择其他LLM生成的摘要而非人工撰写的摘要,该现象在除一个模型外的所有测试模型中普遍存在,且不受模型自身位置偏差的影响。此外,研究发现即使对于重合度有限的摘要,模型评判仍存在困难,这表明摘要领域的LLM评判机制需突破简单对比的范式,采用更复杂的技术手段。
随着大型语言模型能力的持续增强,其被滥用的风险也相应提升。闭源模型通常依赖外部防御机制,而开源权重模型则主要需依靠内部防护措施来抑制有害行为。现有的红队测试研究多集中于基于输入的越狱攻击和参数级操控,然而开源权重模型天然支持预填充功能,这使得攻击者能在生成开始前预定义初始响应标记。尽管存在这种潜在威胁,该攻击向量却鲜少获得系统性关注。我们开展了迄今规模最大的预填充攻击实证研究,在多个模型系列和前沿开源权重模型上评估了20余种现有及新型攻击策略。研究结果表明,预填充攻击对所有主流当代开源权重模型均具有持续有效性,揭示出这一关键且此前未被充分探索的脆弱性对模型部署具有重大影响。虽然某些大型推理模型对通用预填充表现出一定鲁棒性,但它们仍无法抵御针对性设计的模型专属策略。我们的发现强调,模型开发者亟需将防御预填充攻击作为开源大语言模型的重点防护方向。
基于大语言模型的智能体正逐步实现开放互联网场景下用户任务的自动化执行,这些智能体通常具备访问用户资源(如电子邮件和日历)的权限。与在受控聊天机器人环境中回答问题的标准大语言模型不同,网络智能体在"开放环境"中运行,通过与第三方交互留下行为轨迹。因此我们提出关键问题:当网络智能体在真实网站上代用户执行任务时,它们如何处理用户资源?本文正式提出"自然智能体过载共享"概念——即智能体在网络行为轨迹中无意泄露与任务无关的用户信息。我们引入SPILLage框架,从渠道(内容vs行为)和直接性(显式vs隐式)两个维度对过载共享进行表征。该分类法揭示了一个关键盲点:既有研究主要关注文本泄露,而网络智能体还会通过可被监控的点击、滚动和导航模式进行行为层面的过载共享。我们在真实电商平台上对180项任务进行基准测试,并通过真实标注区分任务相关与无关属性。通过对两种智能体框架和三种骨干大语言模型的1,080次运行实验,我们发现过载共享现象普遍存在,其中行为过载共享量是内容过载共享的5倍。即使在提示级缓解措施下,该现象依然存在(甚至可能加剧)。然而,在执行前移除任务无关信息可使任务成功率提升高达17.9%,表明减少过载共享能提升任务效能。我们的研究结果强调,保护网络智能体隐私是根本性挑战,需要拓展对"输出"的认知范畴——不仅要关注智能体输入的内容,更要监控其在网络上的行为轨迹。数据集与代码已开源:https://github.com/jrohsc/SPILLage。
強化學習(RL)已成為端到端自動駕駛(AD)的主流範式,但其在複雜場景中存在樣本效率低且缺乏語義可解釋性的問題。基礎模型(特別是視覺語言模型VLM)可透過提供豐富的情境感知知識來緩解這些問題,然而其高推理延遲阻礙了在高頻率RL訓練迴圈中的部署。為此,我們提出Found-RL——一個專為利用基礎模型高效增強自動駕駛強化學習而設計的平台。其核心創新在於非同步批次推理框架,該框架將繁重的VLM推理與模擬迴圈解耦,有效解決延遲瓶頸以支援即時學習。我們引入多樣化監督機制:價值邊際正則化(VMR)與優勢加權動作引導(AWAG),以將類專家級的VLM動作建議有效提煉至RL策略中。此外,採用高吞吐量的CLIP模型進行密集獎勵塑形,並透過條件對比動作對齊解決CLIP的動態盲區問題——該方法基於離散化的速度/指令條件化提示,透過情境化動作錨點評分產生標準化的邊際獎勵。Found-RL提供端到端的微調VLM整合流程,實驗表明輕量級RL模型可實現接近數十億參數VLM的性能,同時維持即時推理(約500 FPS)。程式碼、資料與模型將公開於:https://github.com/ys-qu/found-rl。
大型语言模型(LLM)的指令微调通常涉及从大型候选池中选取指令训练数据的子集,并使用目标任务中的小型查询集。尽管相关研究日益受到关注,但针对性指令选择的文献仍呈现碎片化且不透明:各方法在选取预算上差异巨大,常忽略零样本基线,且频繁混淆关键组件的贡献。这导致实践者缺乏针对目标任务的指令选择操作指南。本研究通过解构并系统分析两个核心要素——数据表征与选择算法,旨在厘清这一领域的研究图景。我们提出的框架支持跨模型、任务和预算的受控比较。研究发现,仅基于梯度的数据表征方法能持续在不同数据集和模型中,使所选子集与查询集的相似度有效预测性能表现。虽然尚无单一方法占据绝对优势,但在低预算条件下,基于梯度的表征配合贪心循环选择算法通常能取得最佳平均效果,不过这种优势会随预算增加而减弱。最后,我们将多种现有选择算法统一为选定子集与查询集间近似距离最小化的不同形式,并通过新的泛化边界理论支持这一观点。总体而言,我们的研究结果为LLM微调中更规范化的数据选择提供了关键见解和理论基础。代码已发布于https://github.com/dcml-lab/targeted-instruction-selection。
生成式AI代理將理解等同於解決明確查詢,這種假設將互動侷限於用戶能夠表述的範疇。當用戶自身尚未意識到缺失、風險或值得考量的因素時,此假設便會失效。在此情境下,主動性不僅是效率提升的手段,更成為認知層面的必要條件。我們將此狀態稱為「認知不完整性」:即有效協作需透過探索未知的未知領域方能推進。現有主動性方法仍侷限於狹隘的預測模式,僅從過往行為推斷並假設目標已明確定義,因而無法實質支持用戶。然而,超越用戶當前認知範圍的可能性揭示本身並非必然有益。無節制的主動干預可能誤導注意力、造成用戶負荷或引發危害。因此,主動型代理需具備「行為錨定」原則:即何時、如何及何種程度進行干預的規範性約束。我們主張生成式主動性必須同時扎根於認知與行為層面。借鑑無知哲學與主動行為研究,我們論證這些理論能為設計負責任且促進有意義協作關係的代理系統提供關鍵指引。