每日精選AI研究論文及翻譯
基於策略的強化學習目前在提升大型語言模型(LLMs)於數學推理任務上的表現扮演著重要角色。然而,現有的基於rollout的強化學習方法(如GRPO、DAPO、GSPO等)未能明確考慮LLMs對不同難度樣本的學習能力,這與人類從易到難進行數學推理任務的認知過程相悖。直觀上,我們發現RLVR中rollout群組獎勵的變異數部分反映了當前樣本對LLMs的難度。過於簡單或過於困難的樣本變異數較低,而難度適中的樣本則具有較高的變異數。基於此,我們提出了VCRL,這是一個根據群組獎勵變異數動態控制訓練樣本難度的課程強化學習框架。在五個數學基準測試和兩種模型上的實驗揭示了VCRL相較於現有LLM強化學習基線的優勢。
大型多模态推理模型已取得快速進展,但其發展受到兩大限制因素的制約:缺乏開放、大規模、高質量的長鏈思維(CoT)數據,以及強化學習(RL)算法在後訓練階段的不穩定性。作為RL微調的標準框架,群體相對策略優化(GRPO)在獎勵方差較低時容易出現梯度消失,這削弱了優化信號並影響了收斂性。本研究做出了三項貢獻:(1)我們提出了方差感知採樣(VAS),這是一種由方差促進分數(VPS)引導的數據選擇策略,結合結果方差和軌跡多樣性來促進獎勵方差並穩定策略優化。(2)我們發布了大規模、精心策劃的資源,包含約160萬條長CoT冷啟動數據和約1.5萬條RL問答對,旨在確保質量、難度和多樣性,並提供完全可重現的端到端訓練代碼庫。(3)我們開源了一系列多尺度多模态推理模型,為社區建立了標準化基準。在數學推理基準上的實驗證明了所策劃數據和提出的VAS的有效性。全面的消融研究和分析進一步揭示了各組件的貢獻。此外,我們從理論上證明了獎勵方差下界於預期策略梯度幅度,而VAS作為實現這一保證的實用機制。我們的代碼、數據和檢查點可在https://github.com/LengSicong/MMR1獲取。
我們提出了一種科學推理基礎模型,該模型將自然語言與異質科學表徵對齊。此模型在一個包含2060億個標記的語料庫上進行預訓練,該語料庫涵蓋科學文本、純序列及序列-文本對,隨後通過40M指令的監督微調(SFT)進行對齊,採用退火冷啟動引導以激發長鏈思維,並結合任務特定的獎勵塑形進行強化學習,從而培養出深思熟慮的科學推理能力。它支持四大能力家族,覆蓋多達103個工作流任務:(i) 文本與科學格式間的忠實轉換,(ii) 文本/知識提取,(iii) 屬性預測,(iv) 屬性分類,(v) 無條件與有條件序列生成與設計。與專業系統相比,我們的方法擴展了指令覆蓋範圍,提升了跨領域泛化能力,並增強了保真度。我們詳細介紹了數據整理與訓練過程,並展示了跨學科學習如何強化遷移與下游可靠性。該模型、指令微調數據集及評估代碼已開源於 https://huggingface.co/SciReason 和 https://github.com/open-sciencelab/SciReason。
近期在強化學習(RL)領域的進展顯著提升了大型語言模型(LLMs)的代理能力。在長期和多輪代理任務中,僅依賴結果獎勵驅動的現有方法常面臨監督信號稀疏的問題。為應對這一挑戰,我們提出了基於樹搜索的分組代理RL方法——樹結構分組相對策略優化(Tree-GRPO),其中每個樹節點代表完整的代理交互步驟。通過共享共同前綴,樹搜索採樣在固定的令牌或工具調用預算內增加了可實現的rollout數量。此外,我們發現樹結構的軌跡自然允許構建基於步驟的過程監督信號,即使僅使用結果獎勵。基於此,Tree-GRPO在樹內和樹間層面估計分組相對優勢。通過理論分析,我們證明了樹內層面分組相對策略優化的目標等同於步驟級直接偏好學習的目標。在11個數據集和3類問答任務上的實驗證明了所提出的基於樹的RL方法相較於基於鏈的RL方法的優越性。
我們推出Seedream 4.0,這是一個高效能的多模態圖像生成系統,它將文本到圖像(T2I)合成、圖像編輯以及多圖像組合統一在單一框架內。我們開發了一種高效的擴散變換器,配備強大的變分自編碼器(VAE),這也大幅減少了圖像標記的數量。這使得我們的模型能夠高效訓練,並快速生成原生高分辨率圖像(例如1K-4K)。Seedream 4.0預訓練於涵蓋多樣分類學和知識中心概念的數十億文本-圖像對。跨數百個垂直場景的全面數據收集,加上優化策略,確保了穩定且大規模的訓練,具有強大的泛化能力。通過整合精心微調的視覺語言模型(VLM),我們進行了多模態後訓練,以聯合訓練T2I和圖像編輯任務。為了加速推理,我們集成了對抗性蒸餾、分佈匹配和量化,以及推測解碼技術。在生成2K圖像時(不使用LLM/VLM作為PE模型),其推理時間可達1.8秒。全面評估顯示,Seedream 4.0在T2I和多模態圖像編輯上均能達到頂尖水平。特別是在複雜任務中展現出卓越的多模態能力,包括精確圖像編輯和上下文推理,並支持多圖像參考,能夠生成多個輸出圖像。這將傳統的T2I系統擴展為更具互動性和多維度的創意工具,推動生成式AI在創意和專業應用領域的邊界。Seedream 4.0現已於https://www.volcengine.com/experience/ark?launch=seedream開放訪問。
近期,原生3D生成模型的進展加速了遊戲、電影和設計領域的資產創建。然而,大多數方法仍主要依賴於圖像或文本條件,缺乏細粒度的跨模態控制,這限制了可控性和實際應用。為解決這一問題,我們提出了Hunyuan3D-Omni,這是一個基於Hunyuan3D 2.1構建的統一框架,用於細粒度、可控的3D資產生成。除了圖像,Hunyuan3D-Omni還接受點雲、體素、邊界框和骨骼姿態先驗作為條件信號,從而實現對幾何、拓撲和姿態的精確控制。我們的模型並非為每種模態設置單獨的頭部,而是在單一的跨模態架構中統一所有信號。我們採用了一種漸進式、難度感知的採樣策略進行訓練,該策略為每個示例選擇一種控制模態,並偏向於更難的信號(如骨骼姿態),同時降低較易信號(如點雲)的權重,從而促進穩健的多模態融合和對缺失輸入的優雅處理。實驗表明,這些額外的控制提高了生成精度,實現了幾何感知的變換,並增強了生產工作流程的穩健性。
AutoIntent 是一款专为文本分类任务设计的自动化机器学习工具。与现有解决方案不同,AutoIntent 提供了端到端的自动化流程,包括嵌入模型选择、分类器优化以及决策阈值调整,所有这些功能均集成于一个模块化、类似于 sklearn 的接口中。该框架旨在支持多标签分类及范围外检测任务。在标准意图分类数据集上,AutoIntent 展现出相较于现有 AutoML 工具更优的性能,并允许用户在效果与资源消耗之间实现平衡。
大型语言模型(LLMs)作为自动化评估器(LLM-as-a-judge)的采用揭示了当前评估框架中的关键不一致性。我们识别出两种基本类型的不一致性:(1)分数比较不一致性,即在成对比较中,评分较低的响应优于评分较高的响应;(2)成对传递性不一致性,表现为循环偏好链(A>B>C>A)和等价矛盾(A=B=C≠A)。我们认为这些问题源于离散评分系统中的信息丢失以及成对评估期间的模糊平局判断。我们提出了TrustJudge,一个概率框架,通过两个关键创新来解决这些限制:1)分布敏感评分,从离散评分概率中计算连续期望,保留信息熵以实现更精确的评分;2)似然感知聚合,使用双向偏好概率或困惑度解决传递性违规。我们还形式化了当前LLM-as-a-judge框架的理论限制,并展示了TrustJudge的组件如何克服这些限制。在使用Llama-3.1-70B-Instruct作为评估器并使用我们的数据集进行评估时,TrustJudge将分数比较不一致性减少了8.43%(从23.32%降至14.89%),成对传递性不一致性减少了10.82%(从15.22%降至4.40%),同时保持了更高的评估准确性。我们的工作首次系统分析了LLM-as-a-judge范式中的评估框架不一致性,提供了理论见解和实际解决方案,以实现可靠的自动化评估。该框架在各种模型架构和规模上展示了一致的改进,使得LLM评估更加可信,而无需额外的训练或人工注释。代码可在https://github.com/TrustJudge/TrustJudge找到。
本文提出了一種簡單且可擴展的方法,通過在現有文本數據中增加思維軌跡來提升大型語言模型(LLM)訓練的數據效率。LLM預訓練所需的計算資源正以空前的速度增長,而高質量數據的可用性卻依然有限。因此,如何最大化利用現有數據成為了一項重要的研究挑戰。一個主要障礙在於,在模型容量固定的情況下,某些高質量詞元(token)難以學習,因為單個詞元背後的邏輯可能異常複雜且深奧。為解決這一問題,我們提出了思維增強預訓練(Thinking augmented Pre-Training, TPT),這是一種通用方法,通過自動生成的思維軌跡來增強文本數據。這種增強有效地擴大了訓練數據的規模,並通過逐步推理和分解使高質量詞元更易於學習。我們在多達100B詞元的各種訓練配置中應用TPT,包括數據受限和數據充足的預訓練,以及從強力開源檢查點開始的中期訓練。實驗結果表明,我們的方法顯著提升了不同規模和系列LLM的性能。值得注意的是,TPT將LLM預訓練的數據效率提高了3倍。對於一個3B參數的模型,它在多個具有挑戰性的推理基準測試中,使訓練後性能提升了超過10%。
強化學習(Reinforcement Learning, RL)已成為優化大型語言模型(Large Language Models, LLMs)以處理複雜推理任務的強大範式。在此過程中,一個核心挑戰在於管理策略熵(policy entropy),這反映了訓練期間探索與利用之間的平衡。現有方法,如近端策略優化(Proximal Policy Optimization, PPO)及其變體,由於裁剪機制而丟棄了來自低概率詞元的寶貴梯度信號。我們系統性地分析了熵的動態變化,並揭示這些被裁剪的詞元在調節熵演化中扮演著關鍵卻被忽視的角色。我們提出了通過梯度保留策略優化控制熵(Controlling Entropy via Gradient-Preserving Policy Optimization, CE-GPPO),這是一種新穎的算法,它以溫和且有界的方式重新引入了原生PPO中被裁剪詞元的梯度。通過控制來自裁剪區間外詞元的梯度大小,CE-GPPO能夠實現探索與利用的平衡。我們提供了理論依據和實證證據,表明CE-GPPO有效緩解了熵的不穩定性。在數學推理基準上的廣泛實驗顯示,CE-GPPO在不同模型規模下均持續超越強基線。
近期,行為克隆(BC)技術的進步已實現了令人矚目的視覺運動控制策略。然而,這些方法受限於人類示範的質量、數據收集所需的手動努力,以及增加離線數據所帶來的收益遞減。相比之下,強化學習(RL)通過與環境的自主互動來訓練代理,並在多個領域展現了顯著的成功。然而,直接在現實世界的機器人上訓練RL策略仍面臨挑戰,原因包括樣本效率低下、安全考量,以及從稀疏獎勵中學習長時程任務的困難,尤其是對於高自由度(DoF)系統。我們提出了一種結合BC與RL優勢的配方,通過殘差學習框架實現。我們的方法利用BC策略作為黑箱基礎,並通過樣本效率高的離策略RL學習輕量級的每步殘差校正。我們證明,該方法僅需稀疏的二進制獎勵信號,並能有效提升高自由度(DoF)系統在模擬與現實世界中的操作策略。特別地,我們展示了,據我們所知,首次在具有靈巧手的人形機器人上成功進行現實世界的RL訓練。我們的結果在多種基於視覺的任務中展示了頂尖性能,為在現實世界中部署RL指明了一條實用路徑。項目網站:https://residual-offpolicy-rl.github.io
我們提出了CHARM,一種新穎的參數化表示與生成框架,專注於動漫髮型建模。傳統的髮型建模方法主要基於髮絲或體積表示來追求真實感,而動漫髮型則展現出高度風格化、分段結構的幾何特徵,這對現有技術提出了挑戰。現有工作往往依賴於密集的網格建模或手工製作的樣條曲線,使得編輯效率低下且不適合可擴展的學習。CHARM引入了一種緊湊、可逆的基於控制點的參數化方法,其中一系列控制點代表每一片髮片,每個點僅用五個幾何參數編碼。這種高效且精確的表示既支持藝術家友好的設計,也支持基於學習的生成。基於此表示,CHARM提出了一種自迴歸生成框架,能有效地從輸入圖像或點雲生成動漫髮型。通過將動漫髮型解讀為一種序列化的“髮型語言”,我們的自迴歸變壓器模型捕捉了局部幾何與全局髮型拓撲,從而實現了高保真度的動漫髮型創作。為了促進動漫髮型生成的訓練與評估,我們構建了AnimeHair,一個包含37K高質量動漫髮型的大規模數據集,其中包含分離的髮片與處理後的網格數據。大量實驗證明了CHARM在重建精度與生成質量上的領先性能,為動漫髮型建模提供了一種表達力強且可擴展的解決方案。項目頁面:https://hyzcluster.github.io/charm/
近年來,多模態模型取得了顯著進展,為智能瀏覽器使用代理鋪平了道路。然而,在解決現實世界網頁上的多輪、長視野軌跡任務時,現有代理仍面臨動作序列混亂和執行過程中過多試錯的問題。本文介紹了Recon-Act,這是一個基於偵察-行動行為範式的自我進化多代理框架。該系統由偵察團隊和行動團隊組成:前者進行比較分析和工具生成,後者負責意圖分解、工具編排和執行。通過對比錯誤軌跡與成功軌跡,偵察團隊推斷補救措施,並將其抽象為統一概念的通用工具,無論是以提示形式還是基於規則的代碼形式,並實時註冊到工具檔案中。行動團隊在這些目標工具的加持下重新推理過程,從而建立了一個數據-工具-行動-反饋的閉環訓練管道。按照本文提出的六級實施路線圖,我們目前已達到第三級(有限的人機交互干預)。利用通過偵察獲得的通用工具,Recon-Act大幅提升了對未見網站的適應性和長視野任務的解決能力,並在具有挑戰性的VisualWebArena數據集上實現了最先進的性能。
圖像合成旨在將用戶指定的物體無縫插入新場景中,但現有模型在處理複雜光照(如精確陰影、水面反射)和多樣化高分辨率輸入時仍面臨挑戰。現代文本到圖像擴散模型(如SD3.5、FLUX)已編碼了基本的物理和分辨率先驗,但缺乏一個框架來釋放這些能力,而無需依賴潛在反轉,這通常會將物體姿態鎖定在上下文不恰當的方向,或依賴脆弱的注意力手術。我們提出了SHINE,一個無需訓練的框架,用於實現無縫、高保真插入並中和誤差。SHINE引入了流形引導的錨點損失,利用預訓練的定制適配器(如IP-Adapter)來引導潛在變量,以忠實地表示主體,同時保持背景完整性。我們還提出了退化抑制引導和自適應背景融合,以進一步消除低質量輸出和可見的接縫。為了解決缺乏嚴格基準的問題,我們引入了ComplexCompo,該基準包含多種分辨率和具有挑戰性的條件,如低光照、強照明、複雜陰影和反射表面。在ComplexCompo和DreamEditBench上的實驗顯示,SHINE在標準指標(如DINOv2)和與人類對齊的評分(如DreamSim、ImageReward、VisionReward)上達到了最先進的性能。代碼和基準將在發表後公開提供。
儘管大型推理模型(LRMs)能夠生成廣泛的思維鏈推理,我們仍缺乏一個系統性的框架來理解這些思維的結構。在本論文中,我們引入了一種新穎的方法,即應用Schoenfeld的「解題片段理論」——一個經典的人類數學問題解決認知框架——來分析LRMs的推理軌跡。我們使用七種認知標籤(例如,計劃、實施、驗證)對模型生成的數學問題解決方案中的數千個句子和段落進行了註釋。其結果是首個公開可用的機器推理細粒度分析基準,包括一個大型註釋語料庫和詳細的註釋指南。我們的初步分析揭示了LRM推理中的獨特模式,例如認知狀態之間的轉換動態。這一框架為解釋LRM認知提供了理論基礎的方法論,並為未來開發更具可控性和透明性的推理系統奠定了基礎。
我們推出SD3.5-Flash,這是一個高效的少步蒸餾框架,旨在將高品質的圖像生成技術帶入普及的消費級設備。我們的方法通過專門為少步生成重新設計的分佈匹配目標,來蒸餾計算上難以處理的修正流模型。我們引入了兩項關鍵創新:「時間步共享」以減少梯度噪聲,以及「分割時間步微調」來提升提示對齊效果。結合全面的管道優化,如文本編碼器重構和專用量化技術,我們的系統能夠在不同硬件配置上實現快速生成和記憶體高效部署。這使得從手機到桌面電腦的全範圍設備都能平等地使用這項技術。通過包括大規模用戶研究在內的廣泛評估,我們證明SD3.5-Flash在少步方法中始終表現優異,使先進的生成式AI真正實現了實際部署的普及化。
大型程式語言模型在編程任務中展現了卓越的能力,然而現有的基準測試主要集中於單一模態,而非視覺遊戲開發。大多數現有的程式相關基準測試評估語法正確性和執行準確性,忽略了遊戲開發中至關重要的特定指標,如可玩性、視覺美學和用戶參與度,這些都是實際部署中不可或缺的。為了解決當前大型語言模型在算法問題解決和競技編程方面的能力與實際遊戲開發全面需求之間的差距,我們提出了V-GameGym,這是一個包含2,219個高質量樣本的綜合基準測試,涵蓋100個源自真實世界資源庫的主題集群,採用了一種新穎的基於聚類的策展方法,以確保多樣性和結構完整性。此外,我們引入了一個多模態評估框架,配備了自動化的LLM驅動管道,用於在完整的UI沙盒環境中進行視覺程式碼合成。我們廣泛的分析顯示,V-GameGym有效地彌合了程式碼生成準確性與實際遊戲開發工作流程之間的差距,為視覺編程和互動元素生成提供了可量化的質量指標。
強化學習(RL)在訓練具有能動性的模型方面展現出潛力,這些模型超越了靜態基準,能夠參與動態、多輪次的互動。然而,此類代理的最終價值在於其協助用戶的能力,在這一情境下,用戶互動的多樣性和動態性帶來了挑戰。在本研究中,我們提出了UserRL,這是一個通過標準化的訓練環境與模擬用戶相結合,來訓練和評估以用戶為中心能力的統一框架。我們系統性地改變了輪次級別的獎勵分配和軌跡級別的分數計算,以分析不同公式在GRPO算法下對學習的影響。我們在Qwen3模型上的實驗揭示了三個關鍵發現:(i)SFT冷啟動對於解鎖初始互動能力並實現持續的RL改進至關重要;(ii)精心設計的軌跡評分能帶來更高效且有效的多輪次互動;(iii)雖然更強大的模擬用戶(如GPT-4o)有助於訓練,但開源模擬器(如Qwen3-32B)仍是一個成本效益高且可遷移的選擇。這些結果共同表明,獎勵塑造和用戶模擬選擇的精心設計與模型規模同等重要,並確立了UserRL作為開發健壯的以用戶為中心能動性模型的實用途徑。所有代碼和數據均已公開,以供未來研究使用。
以视觉几何基础变换器(VGGTs)为代表的学习型三维重建模型,借助大规模变换器的应用,已取得显著进展。然而,其高昂的计算与内存成本严重阻碍了实际部署。训练后量化(PTQ)已成为压缩与加速模型的常规手段。然而,我们通过实证发现,在压缩十亿级规模的VGGTs时,PTQ面临独特挑战:数据无关的特殊令牌导致激活分布呈现重尾特性,而三维数据的多视角特性使得校准样本选择极不稳定。本文首次提出针对VGGTs的量化框架,即QuantVGGT。该框架主要依赖两项技术贡献:首先,我们引入了双平滑细粒度量化,通过预全局哈达玛旋转与后局部通道平滑相结合,有效缓解重尾分布及通道间差异,增强鲁棒性。其次,我们设计了噪声过滤多样性采样,利用深层统计信息过滤异常值,并构建帧感知的多样化校准集群,确保量化范围的稳定性。全面实验表明,QuantVGGT在不同基准测试及比特宽度下均达到了当前最优结果,大幅超越先前最先进的通用量化方法。特别指出,我们的4位QuantVGGT在实际硬件推理中可实现3.7倍的内存缩减与2.5倍的加速,同时保持重建精度不低于全精度模型的98%。这充分展示了QuantVGGT在资源受限场景下的巨大优势与实用性。我们的代码已发布于https://github.com/wlfeng0509/QuantVGGT。
大型推理模型(LRMs)在複雜問題解決方面展現了令人印象深刻的能力,這往往得益於對困難數學問題的訓練,這些問題能激發細緻的推理。近期的研究探索了通過提示專有模型或大規模開源模型,從種子數據或內在數學概念自動合成數學問題的方法。然而,由於其高昂的計算/API成本、提示的複雜性以及生成問題難度水平的限制,這些方法的擴展仍面臨挑戰。為克服這些限制,我們提出了ScaleDiff,一個簡單而有效的管道,旨在擴展困難問題的創建。我們利用自適應思維模型,僅需一次前向傳播,就能高效地從現有數據集中識別出困難問題,該模型能感知問題難度並自動在「思考」與「無思考」模式間切換。隨後,我們在這些過濾出的困難數據上訓練了一個專門的困難問題生成器(DiffGen-8B),它能大規模生成新的困難問題,消除了複雜的逐例提示需求及其相關的高昂API成本。在ScaleDiff-Math數據集上微調Qwen2.5-Math-7B-Instruct,相比原始數據集,性能顯著提升了11.3%,並在AIME'24、AIME'25、HMMT-Feb'25、BRUMO'25和MATH500上達到了65.9%的平均準確率,超越了近期如OpenThinker3等強勁的LRMs。值得注意的是,這一性能是使用成本效益高的Qwen3-8B模型作為教師實現的,表明我們的管道能夠有效傳遞高級推理能力,而無需依賴更大、更昂貴的教師模型。此外,我們觀察到,隨著困難問題數量的增加,模型在困難基準測試上的性能呈現出明顯的擴展現象。代碼:https://github.com/QizhiPei/ScaleDiff。
隨著具身智能(Embodied AI)的興起,室內場景合成變得日益重要,這要求三維環境不僅視覺上逼真,還需物理上合理且功能多樣。儘管近期方法在視覺逼真度上有所進展,但它們通常受限於固定的場景類別,缺乏足夠的物體層次細節和物理一致性,並且難以對齊複雜的用戶指令。在本研究中,我們提出了SceneWeaver,這是一個反思性代理框架,通過基於工具的迭代細化統一了多樣的場景合成範式。其核心在於,SceneWeaver利用基於語言模型的規劃器,從一系列可擴展的場景生成工具中進行選擇,這些工具涵蓋了數據驅動的生成模型到視覺和基於大語言模型的方法,並以物理合理性、視覺真實性及與用戶輸入語義對齊的自我評估為指導。這種閉環的“推理-行動-反思”設計使得代理能夠識別語義不一致性,調用針對性工具,並在連續迭代中更新環境。在常見及開放詞彙房間類型上的大量實驗表明,SceneWeaver不僅在物理、視覺和語義指標上超越了先前方法,還能有效泛化至具有多樣指令的複雜場景,標誌著向通用三維環境生成邁進了一步。項目網站:https://scene-weaver.github.io/。
搜尋增強型大型語言模型(LLMs)通過將檢索整合到生成過程中,在資訊尋求任務上取得了進展,相比傳統搜尋系統,減輕了用戶的認知負擔。然而,這些模型仍不足以全面滿足多樣化的用戶需求,這需要識別同一查詢如何反映不同用戶的意圖,並以用戶偏好的形式提供資訊。儘管近期系統如ChatGPT和Gemini嘗試利用用戶歷史進行個性化,但對此類個性化的系統性評估仍顯不足。為填補這一空白,我們提出了BESPOKE,一個用於評估搜尋增強型LLMs個性化能力的現實基準。BESPOKE旨在既真實又具診斷性,通過直接從人類收集真實的聊天和搜尋歷史,並將回應與細粒度的偏好評分及反饋配對來實現。該基準是通過長期、深度參與的人類註解構建的,其中人類註解者貢獻了自己的歷史,創作了帶有詳細資訊需求的查詢,並用評分和診斷性反饋評估了回應。利用BESPOKE,我們進行了系統性分析,揭示了在資訊尋求任務中實現有效個性化的關鍵要求,為個性化搜尋增強型LLMs的細粒度評估奠定了基礎。我們的程式碼和數據可在https://augustinlib.github.io/BESPOKE/獲取。
傳統推薦系統依賴於被動的反饋機制,僅限於用戶進行簡單的選擇,如喜歡或不喜歡。然而,這些粗粒度的信號無法捕捉用戶細膩的行為動機和意圖。因此,現有系統也無法區分哪些具體的項目屬性驅動了用戶的滿意或不滿,導致偏好建模不準確。這些根本性的限制在用戶意圖與系統解釋之間造成了持久的鴻溝,最終削弱了用戶滿意度並損害了系統效能。 為了解決這些限制,我們引入了互動推薦流(Interactive Recommendation Feed, IRF),這是一種開創性的範式,允許在主流的推薦流中使用自然語言指令。與傳統系統將用戶限制在被動的隱含行為影響不同,IRF通過實時的語言指令賦予用戶對推薦策略的主動顯式控制。為了支持這一範式,我們開發了RecBot,這是一種雙代理架構,其中解析代理(Parser Agent)將語言表達轉化為結構化的偏好,而規劃代理(Planner Agent)則動態協調自適應工具鏈以實現即時策略調整。為了實現實際部署,我們採用模擬增強知識蒸餾,在保持強大推理能力的同時實現高效性能。通過廣泛的離線和長期線上實驗,RecBot在用戶滿意度和業務成果方面均顯示出顯著的提升。
雖然如RoPE這類顯式位置編碼是Transformer解碼器中位置信息的主要來源,但因果遮罩同樣提供了位置信息。在本研究中,我們證明了因果遮罩能在無需參數或輸入中因果依賴的情況下,誘導出注意力分數中的位置依賴模式。我們的理論分析表明,這種誘導的注意力模式傾向於偏好鄰近的查詢-鍵對,這與常見位置編碼的行為相呼應。實證分析確認,經過訓練的模型展現出相同的行為,且學習到的參數進一步放大了這些模式。值得注意的是,我們發現因果遮罩與RoPE的交互作用,會將RoPE的相對注意力分數模式扭曲為非相對模式。我們在現代大型語言模型中一致觀察到這一效應,這提示了在考慮位置信息來源時,將因果遮罩與顯式位置編碼並重的重要性。
基於大型語言模型(LLM)的評判基準越來越多地被用於評估複雜模型行為,但其設計引入了傳統基於真實數據基準所沒有的失效模式。我們認為,若缺乏嚴謹的目標和可驗證的建構,基準排名可能會產生看似高置信度、實則主要由噪聲組成的結果。我們引入了兩種機制來診斷這些問題:架構遵循度量化了評判者的總體裁決中有多少是由明確的評估架構所解釋的,從而揭示評判者偏離其自身評分標準時的未解釋變異;心理測量效度則通過聚合內部一致性和區分效度信號,來量化任何基準測試運行中不可減少的的不確定性。將這些工具應用於Arena-Hard Auto,我們發現流行評判者中存在嚴重的架構不一致性和因子崩潰現象:例如,DeepSeek-R1-32B的未解釋變異超過90%,且大多數標準的因子相關性高於0.93。我們還展示了Arena-Hard Auto使用的ELO風格聚合方法如何掩蓋了真實的排名不確定性。我們的結果揭示了削弱效度的設計缺陷,並提供了構建範圍更佳、注重可靠性的LLM評判基準的可操作原則。我們在https://anonymous.4open.science/r/judgment-to-noise-947D/README.md發布了我們的代碼。
尽管在布局到图像生成领域取得了稳步进展,现有方法在处理包含显著边界框重叠的布局时仍面临困难。我们识别出两大主要挑战:(1)大面积的重叠区域,以及(2)语义区分度极低的重叠实例。通过定性示例与定量分析,我们展示了这些因素如何降低生成质量。为了系统性地评估这一问题,我们引入了OverLayScore,一种新颖的指标,用于量化重叠边界框的复杂性。我们的分析揭示,现有基准测试偏向于OverLayScore值较低的简单案例,限制了其在更具挑战性条件下评估模型性能的有效性。为填补这一空白,我们提出了OverLayBench,一个包含高质量标注且在不同OverLayScore水平间均衡分布的新基准。作为提升复杂重叠场景下性能的初步尝试,我们还提出了CreatiLayout-AM模型,该模型在精选的无模态掩码数据集上进行了微调。综合而言,我们的贡献为在现实且具挑战性的场景下实现更稳健的布局到图像生成奠定了基础。项目链接:https://mlpc-ucsd.github.io/OverLayBench。
視訊推理已成為多模態大型語言模型(MLLMs)的關鍵能力,要求模型超越靜態感知,實現對複雜場景中時間動態的連貫理解。然而,現有的MLLMs常表現出過程不一致性,即中間推理偏離視訊動態,即使最終答案正確,也削弱了可解釋性和魯棒性。為解決此問題,我們引入了MOSS-ChatV,這是一個基於動態時間規整(DTW)過程獎勵的強化學習框架。此基於規則的獎勵使推理軌跡與時間基礎參考對齊,實現了無需輔助獎勵模型的高效過程監督。我們進一步將動態狀態預測視為視訊推理的關鍵衡量指標,並構建了MOSS-Video,這是一個帶有註釋推理軌跡的基準,其中訓練集用於微調MOSS-ChatV,而保留集則用於評估。MOSS-ChatV在MOSS-Video(測試集)上達到了87.2%的成績,並在MVBench和MMVU等通用視訊基準上提升了表現。該框架在不同架構(包括Qwen2.5-VL和Phi-2)中均能帶來增益,證明了其廣泛適用性。使用GPT-4o作為評判者的評估進一步顯示,MOSS-ChatV產生了更一致且穩定的推理軌跡。
大型语言模型(LLMs)在处理长上下文时面临显著的计算挑战,这主要源于自注意力机制的二次方复杂度。尽管软上下文压缩方法——即将输入文本映射至更小的潜在表示——已展现出潜力,但其在实际应用中的采纳度仍有限。现有技术通常将上下文作为一个整体进行压缩,这导致了二次方的压缩复杂度,并且无法在具有重叠上下文的不同查询间复用计算结果。在本研究中,我们提出了CompLLM,一种专为实际部署设计的软压缩技术。不同于整体处理上下文,CompLLM将其分割成多个片段并独立压缩每个片段。这一简洁的设计选择带来了三个关键特性:效率性,压缩步骤随上下文长度线性扩展;可扩展性,使模型能在短序列(如1k个标记)上训练后,泛化至100k标记的上下文;以及可复用性,允许压缩后的片段被缓存并在不同查询间重复使用。实验表明,在2倍压缩率下,CompLLM在高上下文长度下将首令牌生成时间(TTFT)加速高达4倍,并将KV缓存大小减少50%。此外,CompLLM在性能上可与未压缩上下文相媲美,甚至在极长序列上超越之,充分证明了其有效性与实际应用价值。
大型語言模型(LLMs)的有效性在很大程度上受到其提示中所採用的推理策略或思維風格的影響。然而,這些推理風格、模型架構與任務類型之間的相互作用仍未被充分理解。為此,我們引入了StyleBench,這是一個全面的基準測試,用於系統評估不同任務和模型中的推理風格。我們評估了五種代表性的推理風格,包括思維鏈(CoT)、思維樹(ToT)、思維算法(AoT)、思維草圖(SoT)和草稿鏈(CoD),並在五種推理任務上測試了來自主要模型家族(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi和DeepSeek)的15個開源模型,參數量從2.7億到1200億不等。我們的大規模分析表明,沒有一種風格是普遍最優的。我們證明,策略的有效性高度依賴於模型規模和任務類型:基於搜索的方法(AoT、ToT)在開放式問題中表現出色,但需要大規模模型,而簡潔的風格(SoT、CoD)在定義明確的任務上實現了顯著的效率提升。此外,我們識別出關鍵的行為模式:較小的模型經常無法遵循輸出指令,轉而依賴猜測,而推理的穩健性則隨著模型規模的增加而顯現。我們的研究結果為基於特定約束選擇最佳推理策略提供了重要的路線圖,並在https://github.com/JamesJunyuGuo/Style_Bench開源了該基準測試。
端到端(E2E)解决方案已成为自动驾驶系统的主流方法,其中视觉-语言-动作(VLA)模型代表了一种新范式,它利用预训练的多模态知识从视觉-语言模型(VLM)中解读并与复杂的现实环境互动。然而,这些方法仍受限于模仿学习的固有缺陷,即在训练过程中难以有效编码物理规则。现有方法通常依赖于复杂的基于规则的后处理优化,采用仍主要局限于模拟的强化学习,或使用需要大量计算资源的扩散引导。为解决这些挑战,我们引入了ReflectDrive,一种新颖的学习框架,通过离散扩散整合了反射机制以生成安全轨迹。我们首先将二维驾驶空间离散化以构建动作代码本,从而能够通过微调使用预训练的扩散语言模型进行规划任务。我们方法的核心是一个安全感知的反射机制,它无需梯度计算即可进行迭代自我校正。我们的方法从目标条件轨迹生成开始,以建模多模态驾驶行为。在此基础上,我们应用局部搜索方法识别不安全标记并确定可行解决方案,这些解决方案随后作为基于修复的再生成的安全锚点。在NAVSIM基准测试中评估,ReflectDrive在安全关键轨迹生成方面展示了显著优势,为自动驾驶系统提供了一个可扩展且可靠的解决方案。
我們提出了一個框架,使神經模型能夠在聆聽日常聲音時「邊聽邊思考」,從而提升音頻分類的性能。受大型語言模型推理能力最新進展的啟發,我們探討了兩個核心問題:(i) 如何將思考機制融入現有的音頻分類流程中,以實現類別空間的推理並提升性能;(ii) 能否從零開始設計一種新架構,同時支持思考機制和測試時的規模擴展?我們證明,在這兩種情境下,我們的模型均展現出更高的分類準確率。通過利用測試時的規模擴展,我們觀察到隨著採樣軌跡數量的增加,性能持續提升。此外,我們評估了兩個開源推理模型——GPT-OSS-20B 和 Qwen3-14B,結果表明,雖然這類模型具備零樣本推理能力,但一種輕量級方法——僅重新訓練凍結的較小模型(如 GPT-2)的嵌入矩陣——能夠超越基於文本的十億參數量級推理模型的性能。
感知優化主要由保真度目標驅動,該目標同時強制語意一致性和整體視覺真實感,而對抗性目標則通過增強感知銳度和細粒度細節提供互補的改進。儘管它們扮演著核心角色,但它們作為優化目標的有效性與其作為圖像質量評估(IQA)指標的能力之間的關聯性仍未得到充分探索。在本研究中,我們進行了系統性分析,並揭示了感知優化與評估之間的一種未預料的不對稱性:在IQA中表現出色的保真度指標並不一定對感知優化有效,這種不對齊在對抗訓練下更為明顯。此外,雖然鑑別器在優化過程中能有效抑制偽影,但其學習到的表示在重新用作IQA模型的主幹初始化時,提供的益處有限。除了這種不對稱性,我們的研究結果進一步表明,鑑別器設計在塑造優化過程中起著決定性作用,其中基於局部區域和卷積的架構比基於普通或Transformer的替代方案能提供更忠實的細節重建。這些見解深化了對損失函數設計及其與IQA可遷移性聯繫的理解,為更原則性的感知優化方法鋪平了道路。
大型音頻語言模型(LALMs)在語音任務上展現出強大的零樣本能力,這為語音情感識別(SER)帶來了希望。然而,在實際部署中,SER往往因領域不匹配而失敗,此時源數據不可用,且強大的LALMs僅能通過API訪問。我們提出疑問:在僅有未標記的目標領域音頻和僅能通過API訪問的LALM的情況下,能否讓一個學生模型適應並在目標領域中超越LALM?為此,我們提出了MI-Fuse,這是一個去噪標籤融合框架,它通過一個在源領域訓練的SER分類器作為輔助教師來補充LALM。該框架從兩位教師中抽取多個隨機預測,基於互信息的不確定性加權其平均分佈,並通過指數移動平均教師來穩定訓練。在三個公開情感數據集和六次跨領域遷移的實驗中,均顯示出持續的增益,學生模型不僅超越了LALM,還比最強的基線模型高出3.9%。這一方法在不共享源數據的情況下增強了情感感知語音系統,實現了現實的適應性。
本文介紹了危險感知系統卡片(Hazard-Aware System Card, HASC),這是一個旨在提升人工智慧系統開發與部署透明度和問責性的新穎框架。HASC 基於現有的模型卡片和系統卡片概念,整合了人工智慧系統安全性和安全態勢的全面動態記錄。該框架提出了一套標準化的識別符系統,包括新穎的人工智慧安全危險(AI Safety Hazard, ASH)ID,以補充現有的安全識別符(如 CVEs),從而實現對已修復缺陷的清晰且一致的溝通。通過提供一個單一且易於訪問的真相來源,HASC 使開發者和利益相關者能夠在人工智慧系統的整個生命週期中做出更明智的安全決策。最後,我們還將我們提出的人工智慧系統卡片與 ISO/IEC 42001:2023 標準進行了比較,並討論了它們如何相互補充,為人工智慧系統提供更大的透明度和問責性。
偵測仇恨內容是一項既具挑戰性又至關重要的課題。自動化工具,如機器學習模型,雖能提供協助,但需持續訓練以適應社交媒體不斷變遷的環境。本研究評估了八種開源大型語言模型(LLMs)在檢測反猶太內容方面的能力,特別是利用上下文定義作為政策指導方針。我們探討了多種提示技術,並設計了一種新的類比鏈式思維(CoT)提示方法——引導式CoT(Guided-CoT)。引導式CoT能有效處理上下文政策,無論解碼配置、模型規模或推理能力如何,均提升了所有評估模型的表現。值得注意的是,Llama 3.1 70B的表現超越了經過微調的GPT-3.5。此外,我們檢視了LLM的錯誤,並引入量化模型生成理由中語義分歧的指標,揭示了LLM之間顯著的差異及矛盾行為。我們的實驗凸顯了LLM在實用性、可解釋性及可靠性方面所觀察到的差異。