每日精選AI研究論文及翻譯
通用光度立體(PS)旨在不依賴特定照明模型的情況下,從任意光照條件下的物體中恢復高質量的表面法線。儘管最近出現了如SDM-UniPS和Uni MS-PS等進展,但仍存在兩個基本挑戰:1)變化的光照與表面法線特徵之間的深度耦合,其中觀察到的亮度模糊性使得難以確定亮度變化是源於光照變化還是表面方向;以及2)在複雜表面上保留高頻幾何細節,其中精細的幾何形狀會產生自陰影、相互反射和微妙的法線變化,而傳統的特徵處理操作難以準確捕捉這些細節。
在本研究中,我們介紹了OmniGen2,這是一個多功能且開源的生成模型,旨在為多樣化的生成任務提供統一解決方案,包括文本到圖像生成、圖像編輯以及上下文生成。與OmniGen v1不同,OmniGen2具備兩個獨立的解碼路徑,分別針對文本和圖像模態,並採用非共享參數和分離的圖像標記器。此設計使OmniGen2能夠基於現有的多模態理解模型進行構建,而無需重新適應VAE輸入,從而保留了原有的文本生成能力。為了促進OmniGen2的訓練,我們開發了全面的數據構建管道,涵蓋了圖像編輯和上下文生成數據。此外,我們引入了一種專為圖像生成任務設計的反思機制,並基於OmniGen2策劃了一個專用的反思數據集。儘管參數規模相對適中,OmniGen2在多個任務基準測試中取得了競爭力的結果,包括文本到圖像生成和圖像編輯。為了進一步評估上下文生成(亦稱為主題驅動任務),我們引入了一個名為OmniContext的新基準。OmniGen2在一致性方面達到了開源模型中的最先進性能。我們將發布我們的模型、訓練代碼、數據集以及數據構建管道,以支持該領域的未來研究。項目頁面:https://vectorspacelab.github.io/OmniGen2;GitHub鏈接:https://github.com/VectorSpaceLab/OmniGen2
大型语言模型(LLMs)的超长文本生成是一个广泛需求的应用场景,但由于其最大生成长度限制以及随着序列长度增加而导致的整体质量下降,这一任务仍面临重大挑战。以往的方法,如LongWriter,通常依赖于“教学”策略,即对合成的长文本输出进行监督微调(SFT)。然而,这种方法严重依赖于合成的SFT数据,这些数据不仅构建困难且成本高昂,往往缺乏连贯性和一致性,显得过于人工化且结构单一。在本研究中,我们提出了一种基于激励的方法,该方法完全从零开始,不依赖任何标注或合成数据,而是利用强化学习(RL)来促进LLMs中高质量超长文本生成能力的自然涌现。我们从基础模型出发,类似于R1-Zero,进行RL训练,引导模型在写作过程中进行有助于规划与优化的推理。为此,我们采用了专门的奖励模型,以引导LLM在长度控制、写作质量和结构格式化方面取得进步。实验评估表明,基于Qwen2.5-32B训练的LongWriter-Zero模型在长文本写作任务上持续超越传统的SFT方法,在WritingBench和Arena-Write的所有指标上均达到了最先进的水平,甚至超越了如DeepSeek R1和Qwen3-235B等100B+规模的模型。我们已将数据和模型检查点开源,详见https://huggingface.co/THU-KEG/LongWriter-Zero-32B。
基於可驗證獎勵的強化學習(RLVR)在提升大型語言模型(LLMs)的推理能力方面展現出顯著潛力。然而,其成功目前主要局限於數學和代碼領域。這一主要限制源於對領域特定驗證器的過度依賴,導致了極高的複雜性和有限的可擴展性。為應對這一挑戰,我們的核心觀察是,LLM生成正確自由形式答案的內在概率直接反映了其對推理獎勵的自我評估(即推理過程在多大程度上導向正確答案)。基於這一洞見,我們提出了RLPR,這是一個簡單的無驗證器框架,將RLVR推廣至更廣泛的通用領域。RLPR利用LLM自身對參考答案的詞元概率分數作為獎勵信號,並在訓練過程中最大化期望獎勵。我們發現,解決這一噪聲概率獎勵的高方差問題對於其有效性至關重要,因此提出了概率轉獎勵和穩定化方法,以確保從LLM內在概率中獲得精確且穩定的獎勵。在四個通用領域基準和三個數學基準上的全面實驗表明,RLPR在Gemma、Llama和Qwen系列模型的推理能力上均實現了持續提升。值得注意的是,RLPR在TheoremQA上比並行的VeriFree高出7.6分,在Minerva上高出7.5分,甚至在七個基準上平均超過依賴強驗證器模型的方法General-Reasoner 1.6分。
动态新视角合成旨在从任意视点生成移动主体的逼真视图。这一任务在依赖单目视频时尤为困难,因为从运动中分离结构是一个不适定问题,且监督信息稀缺。我们提出了视频扩散感知重建(ViDAR),一种新颖的四维重建框架,它利用个性化扩散模型来合成伪多视角监督信号,用于训练高斯溅射表示。通过基于场景特定特征进行条件化,ViDAR在恢复精细外观细节的同时,减轻了由单目模糊性引入的伪影。针对基于扩散的监督在时空上的不一致性,我们提出了一种扩散感知损失函数和相机姿态优化策略,以将合成视图与底层场景几何对齐。在具有极端视角变化的挑战性基准DyCheck上的实验表明,ViDAR在视觉质量和几何一致性上均优于所有最先进的基线方法。我们进一步强调了ViDAR在动态区域上相对于基线的显著改进,并提供了一个新的基准来比较在重建场景中运动丰富部分时的性能。项目页面:https://vidar-4d.github.io
近年來,自主式人工智慧(Agentic AI)已成為日益熱門的研究領域。然而,我們認為當前的代理研究實踐缺乏標準化和科學嚴謹性,使得不同方法之間難以進行公平比較。因此,目前尚不清楚代理框架中的不同設計選擇如何影響效能,且衡量其進展仍具挑戰性。在本研究中,我們對GAIA基準和BrowseComp進行了系統性的實證研究,以公平且嚴謹的方式檢驗關鍵代理組件中常見設計選擇的影響。我們發現,由於缺乏標準的評估協議,先前的研究(即使是開源項目)也難以重現,且隨機運行之間存在顯著差異。因此,我們引入了一種更穩健的評估協議,以穩定比較結果。我們的研究揭示了哪些組件和設計對高效代理至關重要,而其他看似合理的設計則顯得冗餘。基於這些發現,我們構建並開源了OAgents,這是一個新的基礎代理框架,在開源項目中實現了最先進的性能。OAgents提供了各種代理組件的模組化設計,推動了自主式人工智慧的未來研究。
過程獎勵模型(Process Reward Models, PRMs)近期作為一種強大的框架,用於監督大型語言模型(LLMs)中的中間推理步驟。以往的PRMs主要基於模型的最終輸出進行訓練,難以穩健地評估中間的思維軌跡,尤其是在前沿推理模型如Deepseek-R1所生成的軌跡-響應輸出這一新興情境下。本研究提出了ReasonFlux-PRM,這是一種新穎的軌跡感知PRM,專門設計用於評估軌跡-響應類型的推理痕跡。ReasonFlux-PRM結合了步驟級和軌跡級的監督,能夠根據結構化的思維鏈數據進行細粒度的獎勵分配。我們使ReasonFlux-PRM適應於支持離線和在線設置下的獎勵監督,包括:(i) 為下游小型模型的監督微調選擇高質量的模型蒸餾數據,(ii) 在強化學習過程中提供密集的過程級獎勵以優化策略,以及(iii) 實現獎勵引導的最佳N測試時擴展。在AIME、MATH500和GPQA-Diamond等具有挑戰性的下游基準測試中,實證結果顯示,ReasonFlux-PRM-7B選擇的數據質量高於強勁的PRMs(如Qwen2.5-Math-PRM-72B)和人工篩選的基線。此外,我們衍生的ReasonFlux-PRM-7B帶來了持續的性能提升,在監督微調中平均增益12.1%,在強化學習中增益4.5%,在測試時擴展中增益6.3%。我們還發布了高效的ReasonFlux-PRM-1.5B,適用於資源受限的應用和邊緣部署。項目詳情請訪問:https://github.com/Gen-Verse/ReasonFlux
近年来,主题到视频生成领域取得了显著进展。然而,现有模型在忠实遵循文本指令方面仍面临重大挑战。这一局限,通常被称为复制粘贴问题,源于广泛使用的配对内训练范式。该方法通过从与目标视频相同场景中采样参考图像,本质上将主题身份与背景及上下文属性纠缠在一起。为解决这一问题,我们引入了Phantom-Data,这是首个通用跨配对主题到视频一致性数据集,包含跨多样类别约一百万对身份一致的样本。我们的数据集通过三阶段流程构建:(1) 一个通用且输入对齐的主题检测模块,(2) 从超过5300万视频和30亿图像中进行大规模跨上下文主题检索,以及(3) 先验引导的身份验证,以确保在上下文变化下的视觉一致性。综合实验表明,使用Phantom-Data进行训练显著提升了提示对齐和视觉质量,同时保持了与配对内基线相当的身份一致性。
本文提出了一种多模态框架,旨在通过共享的离散语义表征统一视觉理解与生成。其核心是文本对齐分词器(TA-Tok),该分词器利用从大型语言模型(LLM)词汇表中投影出的文本对齐码本,将图像转换为离散标记。通过将视觉与文本整合到一个扩展词汇的统一空间中,我们的多模态LLM——Tar,能够通过共享接口实现跨模态的输入与输出,而无需针对特定模态进行设计。此外,我们提出了尺度自适应编码与解码方法,以平衡效率与视觉细节,并引入生成式反分词器以生成高保真视觉输出。为满足多样化解码需求,我们采用了两种互补的反分词器:快速自回归模型和基于扩散的模型。为加强模态融合,我们探索了先进的预训练任务,展示了在视觉理解与生成方面的改进。跨基准测试的实验表明,Tar与现有多模态LLM方法相当或更优,实现了更快的收敛速度和更高的训练效率。代码、模型及数据可在https://tar.csuhan.com获取。
我們提出了一種新穎的記憶機制,用於構建能夠互動探索環境的視頻生成器。以往類似成果是通過對場景的2D視圖進行外繪,同時逐步重建其3D幾何來實現的,這種方法會迅速累積誤差;或是通過具有短上下文窗口的視頻生成器來實現,但這些方法難以長期保持場景的一致性。為解決這些限制,我們引入了基於表面元素索引的視圖記憶(VMem),該機制通過根據觀察到的3D表面元素(surfels)對過去的視圖進行幾何索引來記住它們。VMem能夠在生成新視圖時高效檢索最相關的過去視圖。通過僅專注於這些相關視圖,我們的方法以遠低於使用所有過去視圖作為上下文的計算成本,實現了對想象環境的一致探索。我們在具有挑戰性的長期場景合成基準上評估了我們的方法,並展示了在保持場景一致性和相機控制方面相較於現有方法的優越性能。
我們提出了一種名為DIP的新型無監督後訓練方法,旨在增強大規模預訓練視覺編碼器中的密集圖像表徵,以實現上下文場景理解。與以往依賴複雜自蒸餾架構的方法不同,我們的方法受元學習原理啟發,通過模擬下游上下文場景的偽任務來訓練視覺編碼器。為了在無標籤數據上進行後訓練,我們提出了一種自動生成上下文任務的機制,該機制結合了預訓練的擴散模型和視覺編碼器本身。DIP方法簡單、無監督且計算效率高,在單個A100 GPU上僅需不到9小時即可完成。通過偽上下文任務學習密集表徵,DIP在多種下游現實世界上下文場景理解任務中表現出色,超越了初始視覺編碼器及先前的方法,為改進密集表徵提供了一種實用且有效的解決方案。代碼可在此處獲取:https://github.com/sirkosophia/DIP。
我们介绍RealPlay,一种基于神经网络的真实世界游戏引擎,它能够从用户控制信号生成交互式视频。与以往专注于游戏风格视觉效果的研究不同,RealPlay旨在生成逼真且时间上一致的视频序列,这些序列类似于真实世界的影像。它在一个交互循环中运行:用户观察生成的场景,发出控制命令,并接收一个简短的视频片段作为响应。为了实现这种真实且响应迅速的生成,我们解决了包括低延迟反馈的迭代分块预测、跨迭代的时间一致性以及准确的控制响应在内的关键挑战。RealPlay在标记的游戏数据和无标记的真实世界视频的组合上进行训练,无需真实世界的动作注释。值得注意的是,我们观察到两种形式的泛化:(1)控制转移——RealPlay有效地将控制信号从虚拟场景映射到真实世界场景;(2)实体转移——尽管训练标签仅来源于赛车游戏,但RealPlay能够泛化到控制包括自行车和行人在内的多种真实世界实体,而不仅仅是车辆。项目页面可访问:https://wenqsun.github.io/RealPlay/
用戶畫像對於推薦系統至關重要,它能將原始用戶互動數據轉化為簡潔且結構化的表示,從而驅動個性化推薦。傳統基於嵌入的畫像缺乏可解釋性和適應性,而近期大型語言模型(LLMs)的進展使得基於文本的畫像在語義上更為豐富且透明。然而,現有方法往往遵循固定格式,限制了其捕捉用戶行為多樣性的能力。本文介紹了LettinGo,一個生成多樣化且自適應用戶畫像的新框架。通過利用LLMs的表達能力並整合下游推薦任務的直接反饋,我們的方法避免了監督微調(SFT)所帶來的僵化限制。相反,我們採用直接偏好優化(DPO)來使畫像生成器與任務特定性能對齊,確保畫像保持自適應性和有效性。LettinGo分三個階段運作:(1) 通過多個LLMs探索多樣化的用戶畫像,(2) 基於畫像在推薦系統中的影響評估其質量,(3) 利用從任務表現中獲得的成對偏好數據來對齊畫像生成。實驗結果表明,我們的框架顯著提升了推薦的準確性、靈活性和上下文感知能力。這項工作將畫像生成作為下一代推薦系統的關鍵創新加以推進。
多模态大型语言模型(MLLMs)在通用任务上已展现出强大的推理能力,然而其在医疗领域的应用仍处于初期阶段。构建思维链(CoT)训练数据对于增强医疗MLLMs的推理能力至关重要。然而,现有方法在提供全面框架以搜索和评估针对关键诊断的有效推理路径方面存在不足。为解决这一挑战,我们提出了导师-实习生协作搜索(MICS),一种新颖的推理路径搜索方案,用于生成严谨且有效的医疗CoT数据。MICS首先利用导师模型逐步初始化推理,随后提示每个实习生模型沿着这些起始路径继续思考,最终根据多个实习生模型的整体推理表现选择最优推理路径。推理表现由MICS评分决定,该评分评估生成推理路径的质量。最终,我们构建了MMRP,一个按难度排序的多任务医疗推理数据集,以及Chiron-o1,一种通过课程学习策略设计的新型医疗MLLM,具备强大的视觉问答和泛化推理能力。大量实验表明,使用MICS构建的CoT数据集训练的Chiron-o1,在一系列医疗视觉问答和推理基准测试中达到了最先进的性能。代码可在GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs获取。
我們提出首個能夠利用前饋架構計算每一時間步的視頻幀及三維高斯粒子四維時空網格的框架。該架構包含兩個主要部分:四維視頻模型與四維重建模型。在第一部分中,我們分析了現有的四維視頻擴散架構,這些架構在雙流設計中依次或並行執行空間與時間注意力機制。我們指出了現有方法的局限性,並引入了一種新穎的融合架構,該架構在單一層內實現空間與時間注意力的同步處理。我們方法的關鍵在於一種稀疏注意力模式,其中標記僅關注同一幀、同一時間戳或同一視角下的其他標記。在第二部分中,我們通過引入高斯頭部、相機標記替換算法以及額外的動態層與訓練,對現有的三維重建算法進行了擴展。總體而言,我們在四維生成領域確立了新的技術前沿,顯著提升了視覺質量與重建能力。
评估生成式3D模型仍具挑战性,主要源于自动化指标与人类对质量感知之间的错位。现有基准依赖于忽视3D结构的图像指标或无法捕捉感知吸引力及现实世界实用性的几何度量。为填补这一空白,我们推出了3D Arena,一个通过大规模人类偏好收集,采用成对比较方式评估图像到3D生成模型的开源平台。 自2024年6月上线以来,该平台已从8,096名用户处收集了123,243票,覆盖19个顶尖模型,建立了生成式3D领域最大规模的人类偏好评估。我们贡献了包含100个评估提示的iso3d数据集,并通过统计欺诈检测实现了99.75%的用户真实性质量控制。基于ELO的排名系统提供了可靠的模型评估,使该平台成为公认的评估资源。 通过对偏好数据的分析,我们揭示了人类偏好模式。研究发现,视觉呈现特征备受青睐,高斯溅射输出相较于网格模型获得了16.6的ELO优势,而带纹理模型相较于无纹理模型则享有144.1的ELO优势。我们提出了改进评估方法的建议,包括多标准评估、任务导向评估及格式感知比较。平台的社区参与度确立了3D Arena作为该领域基准的地位,同时推进了对生成式3D中以人为中心评估的理解。
專家混合(Mixture of Experts, MoE)架構已成為擴展大型語言模型(LLMs)並保持推理效率的強大範式。然而,其龐大的記憶體需求使得在資源受限的環境中進行微調或部署變得極為昂貴。為應對這一挑戰,我們提出了SlimMoE,這是一個多階段壓縮框架,旨在將大型MoE模型轉化為更小、更高效的變體,而無需承擔從頭訓練的巨額成本。我們的方法通過精簡專家並通過中間階段轉移知識,系統性地減少參數數量,有效緩解了一次性剪枝方法中常見的性能下降問題。利用這一框架,我們僅使用400B的token(少於原始模型訓練數據的10%),將Phi 3.5-MoE(總參數41.9B/激活參數6.6B)壓縮為Phi-mini-MoE(總參數7.6B/激活參數2.4B)和Phi-tiny-MoE(總參數3.8B/激活參數1.1B)。這些壓縮模型可在單一GPU上進行微調(Phi-mini-MoE使用A100,Phi-tiny-MoE使用A6000),使其非常適合學術和資源有限的環境。我們的實驗表明,這些壓縮模型在相似規模的模型中表現優異,並能與更大的模型競爭。例如,Phi-mini-MoE僅使用2/3的激活參數即可達到與Phi-3-mini相似或更好的性能,並在顯著降低延遲的情況下,獲得了與Llama 3.1 8B相當的MMLU分數。我們的研究結果表明,結構化剪枝結合分階段蒸餾提供了一條創建高質量、緊湊型MoE模型的有效途徑,為MoE架構的更廣泛應用鋪平了道路。我們將模型公開於https://huggingface.co/microsoft/Phi-mini-MoE-instruct和https://huggingface.co/microsoft/Phi-tiny-MoE-instruct。
本文提出了FinCoT,一種結構化的思維鏈(CoT)提示方法,該方法融合了領域專家財務推理的見解,以指導大型語言模型的推理軌跡。我們探討了FinNLP中的三種主要提示風格:(1) 標準提示——零樣本提示;(2) 非結構化CoT——不帶有明確推理結構的CoT提示,例如使用標籤;(3) 結構化CoT提示——帶有定義結構化推理步驟的明確指令或示例的CoT提示。此前,FinNLP主要集中於使用標準或非結構化CoT提示進行提示工程。然而,結構化CoT提示在先前的研究中受到的關注有限。此外,結構化CoT提示中的推理結構設計通常基於非領域專家的啟發式方法。在本研究中,我們探討了FinNLP中的每種提示方法。我們評估了三種主要提示風格及FinCoT在涵蓋十個金融領域的CFA風格問題上的表現。我們觀察到,FinCoT將性能從63.2%提升至80.5%,Qwen-2.5-7B-Instruct從69.7%提升至74.2%,同時相比結構化CoT提示,生成的標記數量減少了八倍。我們的研究結果表明,與領域對齊的結構化提示不僅能提升性能並降低推理成本,還能產生更具可解釋性且與專家對齊的推理軌跡。
在長視頻中進行複雜動態的照明編輯,對於視覺內容創作與操控,以及通過模擬到現實(sim2real)和現實到現實(real2real)轉換來擴展具身AI數據規模等多種下游任務具有重要價值。然而,現有的視頻重照明技術主要局限於肖像視頻,或陷入時間一致性和計算效率的瓶頸。本文提出了一種新穎的範式——TC-Light,其特點在於引入的兩階段後優化機制。該方法從一個初步由膨脹視頻重照明模型處理的視頻出發,第一階段優化外觀嵌入以對齊全局照明,第二階段則優化提出的規範視頻表示——獨特視頻張量(UVT),以對齊細粒度紋理和照明。為了全面評估性能,我們還建立了一個長且高度動態的視頻基準。大量實驗表明,我們的方法能夠實現物理上可信的重照明結果,並具有優越的時間一致性和低計算成本。代碼和視頻演示可在https://dekuliutesla.github.io/tclight/獲取。
DeepSeek-R1 已成功通过其基于规则的奖励系统增强了大型语言模型(LLM)的推理能力。尽管这是一个“完美”的奖励系统,能有效防止奖励欺骗,但此类奖励函数往往是离散的。我们的实验观察表明,离散奖励可能导致梯度异常、优化不稳定以及收敛缓慢。为解决这一问题,我们提出了ReDit(奖励抖动),该方法通过添加简单的随机噪声来对离散奖励信号进行抖动处理。借助这种扰动后的奖励,学习过程中持续提供探索性梯度,从而实现更平滑的梯度更新并加速收敛。注入的噪声还在平坦奖励区域引入随机性,鼓励模型探索新策略并逃离局部最优。跨多种任务的实验验证了ReDit的有效性和效率。平均而言,ReDit仅需约10%的训练步数即可达到与原始GRPO相当的性能,且在训练时间相近的情况下,仍展现出比原始GRPO高出4%的性能提升。可视化结果证实了ReDit在显著缓解梯度问题方面的作用。此外,我们还提供了理论分析以进一步验证这些优势。
近期生成式人工智慧(GenAI)應用從僅限雲端環境轉向終端用戶設備,這在資源管理、系統效率和用戶體驗方面引入了新的挑戰。本文提出了ConsumerBench,這是一個全面的基準測試框架,旨在評估在終端用戶設備上運行的GenAI模型的系統效率和響應時間。與現有假設模型在專用GPU上獨占存取的基準測試不同,ConsumerBench模擬了在受限硬體上並行執行的真實多應用場景。此外,ConsumerBench支援可自訂的工作流程,這些流程模擬了需要多個應用協調的複雜任務。ConsumerBench捕捉了包括延遲和服務水平目標(SLO)達成率在內的應用層指標,以及CPU/GPU利用率和記憶體頻寬等系統層指標。通過大量實驗,ConsumerBench揭示了資源共享中的低效性、貪婪分配下的不公平排程,以及靜態模型伺服器配置的性能缺陷。本文還為模型開發者和系統設計者提供了實用見解,強調了針對消費級GPU架構量身定制的核心程式碼的優勢,以及實施SLO感知排程策略的價值。
獎勵模型(Reward Models, RMs)在通過人類反饋對齊大型語言模型(Large Language Models, LLMs)中扮演著基礎角色,然而它們常受獎勵欺騙(reward hacking)之困。這些模型傾向於抓住表面或虛假的屬性,如回應長度或格式,誤將從訓練數據相關性中學到的這些線索視為質量的真正因果驅動因素(例如,事實性、相關性)。此現象的發生,是因為標準的訓練目標難以區分這些因素,導致獎勵模型脆弱且策略失準。我們提出了Crome(因果穩健獎勵建模),這是一個基於明確因果模型的新框架,旨在減輕獎勵欺騙。Crome在訓練期間採用以下合成目標增強:(1) 因果增強,即沿特定因果屬性差異化的配對,以單獨強化對每個因果屬性的敏感性;(2) 中性增強,即主要在虛假屬性上變化的平局標籤配對,以確保對虛假屬性的不變性。值得注意的是,我們的增強是在無需了解虛假因素的情況下生成的,僅通過沿因果標準進行答案干預,這些標準是通過查詢一個預言機LLM來識別的。實證表明,Crome在RewardBench上顯著優於標準基線,平均準確率提升高達5.4%,在特定類別中分別實現了13.2%和7.2%的增益。Crome的穩健性進一步在Best-of-N推理設置中得到了驗證,隨著N的增加,在多個基準測試中均獲得了持續的增益,包括涵蓋聊天、聊天難題、安全性和推理任務的RewardBench,專注於安全性的WildGuardTest,以及專注於推理的GSM8k。
本研究探討了在語言模型(LLMs)中激活潛在子空間是否能引導科學代碼生成朝向特定程式語言。首先,對五種因果LLMs在科學編程提示上的表現進行了評估,以量化其在四種程式語言中的基礎偏差。一種靜態神經元歸因方法,即擾動C++或CPP標記的最高激活MLP權重,被證明是脆弱的,並在提示風格和模型規模上表現出有限的泛化能力。為解決這些限制,開發了一種梯度精煉的自適應激活引導框架(G-ACT):每個提示的激活差異被聚類為一小組引導方向,並在線訓練和精煉輕量級的每層探測器,以選擇適當的引導向量。在LLaMA-3.2 3B中,這種方法可靠地將生成偏向CPP語言,使平均探測分類準確率提高了15%,並且與標準ACT框架相比,早期層(0-6)的探測分類準確率提高了61.5%。對於LLaMA-3.3 70B,其中注意力頭信號變得更加分散,在關鍵層進行有針對性的注入仍能改善語言選擇。儘管每層探測引入了適度的推理開銷,但通過僅引導一部分層次,它仍然實用,並實現了可重現的模型行為。這些結果展示了一種可擴展、可解釋且高效的機制,用於實際代理系統的概念級控制。
從人類指令生成多視角圖像對於三維內容創作至關重要。主要挑戰在於保持多視角間的一致性,並在多樣條件下有效合成形狀與紋理。本文提出多視角自回歸(MV-AR)方法,利用自回歸模型逐步從任意提示生成一致的多視角圖像。首先,AR模型的下一個詞預測能力顯著提升了其在促進漸進式多視角合成中的效能。當生成間隔較大的視角時,MV-AR能夠利用其所有先前的視角提取有效的參考信息。隨後,我們提出了一個統一模型,通過架構設計與訓練策略適應各種提示。為應對多種條件,我們引入了針對文本、相機姿態、圖像及形狀的條件注入模塊。為同時管理多模態條件,採用了漸進式訓練策略,該策略最初以文本到多視角(t2mv)模型為基線,通過隨機丟棄與組合條件來促進全面X到多視角(X2mv)模型的發展。最後,為緩解因高質量數據有限導致的過擬合問題,我們提出了“視角洗牌”數據增強技術,從而將訓練數據量擴展數個數量級。實驗展示了MV-AR的性能與多功能性,其能夠在一系列條件下一致生成多視角圖像,並與基於擴散的多視角圖像生成領先模型表現相當。代碼與模型將於https://github.com/MILab-PKU/MVAR發布。
稀疏自編碼器(Sparse Autoencoders, SAEs)已成為將大型語言模型表示分解為可解釋特徵的一種有前景的解決方案。然而,Paulo與Belrose(2025年)指出,不同初始化種子間存在不穩定性,而Heap等人(2025年)則提出SAEs可能無法捕捉模型內部特徵。這些問題很可能源於SAEs在外部數據集上的訓練——這些數據集或從網絡收集,或由另一模型生成——其中可能包含超出模型泛化能力的分布外(Out-of-Distribution, OOD)數據。這可能導致SAE特徵的虛構,我們稱之為“虛假特徵”,其錯誤地代表了模型的內部激活。為解決這些問題,我們提出了FaithfulSAE,一種在模型自身合成數據集上訓練SAEs的方法。通過使用FaithfulSAEs,我們展示了在較少OOD的指令數據集上訓練SAEs,可使SAEs在不同種子間表現得更為穩定。值得注意的是,在SAE探測任務中,FaithfulSAEs優於基於網絡數據集訓練的SAEs,並在七個模型中的五個中展現出更低的虛假特徵比率。總體而言,我們的方法消除了對外部數據集的依賴,通過更好地捕捉模型內部特徵來推進可解釋性,同時強調了SAE訓練數據集常被忽視的重要性。
大型語言模型(LLMs)在需要長上下文長度的應用中日益普及,但隨著上下文增長,鍵值(KV)快取往往成為GPU上的記憶體瓶頸。為解決此問題,我們提出了可交換向量量化(CommVQ),以顯著降低長上下文LLM推理的記憶體使用量。我們首先引入了一種帶有輕量級編碼器和碼本的加法量化方法來壓縮KV快取,該快取可通過簡單的矩陣乘法解碼。為了進一步降低解碼過程中的計算成本,我們設計了與旋轉位置嵌入(RoPE)可交換的碼本,並使用期望最大化(EM)算法進行訓練。這使得解碼能夠高效地整合到自注意力機制中。我們的方法通過加法量化實現了高精度,並通過RoPE可交換碼本實現了低開銷。在長上下文基準測試和GSM8K上的實驗表明,我們的方法在2位量化下將FP16 KV快取大小減少了87.5%,同時優於最先進的KV快取量化方法。值得注意的是,它實現了1位KV快取量化,且精度損失極小,使LLaMA-3.1 8B模型能夠在單個RTX 4090 GPU上運行128K的上下文長度。源代碼可在以下網址獲取:https://github.com/UMass-Embodied-AGI/CommVQ。
儘管對齊的大型語言模型(LLMs)展現了令人印象深刻的能力,但其生成的輸出往往缺乏多樣性。是什麼驅動了這種生成過程中的穩定性?我們通過模型輸出分佈中的概率集中現象來探討這一現象。為了量化這種集中程度,我們引入了分支因子(Branching Factor, BF)——一種在生成過程中衡量有效可行後續步驟數量的不變量指標。我們的實證分析揭示了兩個關鍵發現:(1)隨著生成的進行,BF通常會降低,這表明LLMs在生成過程中變得更加可預測。(2)對齊調優從一開始就顯著銳化了模型的輸出分佈,使BF相較於基礎模型降低了近一個數量級(例如,從12降至1.2)。這一顯著的降低有助於解釋為何對齊模型對解碼策略的敏感性較低。基於這一洞察,我們發現這種穩定性對複雜推理具有意想不到的影響。例如,對齊的思維鏈(Chain-of-Thought, CoT)模型(如DeepSeek蒸餾模型)就利用了這一效應;通過生成更長的推理鏈,它們將生成推遲到後期、更具確定性(BF更低)的階段,從而產生更穩定的輸出。我們假設,對齊調優並未從根本上改變模型的行為,而是引導其朝向風格化標記(如“當然”),這些標記解鎖了基礎模型中已有的低熵軌跡。這一觀點得到了微調實驗的支持,實驗顯示,用此類標記提示基礎模型同樣可以降低BF。綜合來看,我們的研究確立了BF作為理解和控制LLM輸出的強大診斷工具——闡明瞭對齊如何減少變異性、CoT如何促進穩定生成,以及如何引導基礎模型遠離多樣性。
檢測由人工智慧生成的程式碼、深度偽造及其他合成內容,已成為一項新興的研究挑戰。隨著大型語言模型(LLMs)生成的程式碼日益普及,識別每個樣本背後的特定模型變得愈發重要。本文首次系統性地研究了針對C語言的LLM作者歸屬問題。我們發布了CodeT5-Authorship,這是一種新穎的模型,僅採用原始CodeT5編碼器-解碼器架構中的編碼器層,捨棄解碼器以專注於分類任務。我們模型的編碼器輸出(首個標記)通過一個帶有GELU激活函數和dropout的兩層分類頭,生成可能作者的概率分佈。為評估我們的方法,我們引入了LLM-AuthorBench,這是一個包含32,000個可編譯C程式碼的基準測試集,這些程式碼由八種最先進的LLM在多樣化任務中生成。我們將我們的模型與七種傳統機器學習分類器及八種微調後的Transformer模型進行了比較,包括BERT、RoBERTa、CodeBERT、ModernBERT、DistilBERT、DeBERTa-V3、Longformer及LoRA微調的Qwen2-1.5B。在二元分類中,我們的模型在區分由密切相關模型(如GPT-4.1與GPT-4o)生成的C程式碼時達到了97.56%的準確率,而在五種領先LLM(Gemini 2.5 Flash、Claude 3.5 Haiku、GPT-4.1、Llama 3.3及DeepSeek-V3)之間的多類歸屬任務中,準確率達到了95.40%。為支持開放科學,我們在GitHub上公開了CodeT5-Authorship架構、LLM-AuthorBench基準測試集及所有相關的Google Colab腳本:https://github.com/LLMauthorbench/。
近期,多模态大语言模型(MLLMs)在基准视觉-语言任务上表现出色,然而关于输入视觉质量如何影响其响应却知之甚少。图像感知质量的提升是否直接转化为MLLM更好的理解能力?我们首次系统性地研究了领先的MLLMs及一系列视觉-语言基准,对每张图像施加了受控的退化与风格转换。出乎意料的是,我们发现了一个视觉质量悖论:当图像偏离人类感知的保真度时,模型、任务乃至单个实例的表现反而可能提升。现成的修复流程无法调和这些独特的偏好。为弥合这一差距,我们引入了视觉质量测试时调优(VQ-TTT)——一个轻量级的适应模块,它:(1)在冻结的视觉编码器前插入一个可学习的低秩核,以调节频率内容;(2)仅通过LoRA微调视觉编码器的浅层。VQ-TTT在单次前向传播中动态调整每张输入图像,使其与任务特定的模型偏好对齐。在评估的所有MLLMs和数据集上,VQ-TTT显著提升了平均准确率,且无需外部模型、缓存特征或额外训练数据。这些发现重新定义了MLLMs“更好”的视觉输入,并强调了在AI成为主要数据消费者的新时代,适应性的而非普遍“干净”的图像之必要性。
我們能否擴展四維預訓練,以學習通用的時空表徵,從而從某些時刻的少數視角重建物體,並在任何時刻呈現任意視角?我們以4D-LRM給出了肯定的答案,這是首個大規模四維重建模型,能夠處理來自無約束視角和時間戳的輸入,並渲染任意新穎的視角-時間組合。與以往基於優化、幾何或生成的四維方法不同,這些方法在效率、泛化性或保真度方面存在挑戰,而4D-LRM學習了一個統一的時空表徵,並直接從跨時間的姿態圖像標記預測每像素的四維高斯基元,從而實現了理論上無限幀率的快速、高質量渲染。我們的結果表明,擴展時空預訓練能夠實現精確且高效的四維重建。我們展示了4D-LRM能夠泛化到新物體、在時間上進行插值,並處理多樣的相機設置。它在單次前向傳播中重建24幀序列,在單個A100 GPU上耗時不到1.5秒。
醫學視覺問答旨在通過使模型能夠基於醫學影像回答自然語言問題,來支持臨床決策。儘管多模態學習的最新進展顯著提升了性能,但現有方法仍存在答案可靠性有限和解釋性差的問題,這影響了臨床醫生和患者對模型生成答案的理解與信任。為此,本研究首先提出了一個“視覺基礎思維”(ThinkVG)數據集,其中答案生成被分解為中間推理步驟,這些步驟明確地錨定了醫學影像的相關視覺區域,從而提供了細粒度的可解釋性。此外,我們引入了一種新穎的可驗證獎勵機制,用於強化學習以指導後續訓練,從而改善模型推理過程與最終答案之間的一致性。值得注意的是,我們的方法僅使用八分之一的訓練數據就達到了可比的性能,展示了該方案的高效性和有效性。該數據集可在https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG獲取。
近期,音乐基础模型在音频表征学习方面取得了显著进展,然而其在多样音乐传统中的有效性仍显不足。为此,我们推出了CultureMERT-95M,一个多文化适应性的基础模型,旨在增强跨文化音乐表征学习与理解。为实现这一目标,我们提出了一种两阶段持续预训练策略,该策略结合了学习率重新升温与衰减机制,即便在计算资源有限的情况下也能实现稳定的适应性训练。通过对包含希腊、土耳其及印度音乐传统在内的650小时多文化数据混合进行训练,该模型在多样非西方音乐自动标注任务中的ROC-AUC与AP平均提升了4.9%,超越了先前的最先进水平,同时在西式基准测试上几乎无遗忘现象。我们进一步探讨了任务算术法,这是一种在权重空间中融合单一文化适应模型的多文化适应替代方法。在非西方自动标注任务上,任务算术法与我们的多文化训练模型表现相当,且在西式数据集上未见退化。跨文化评估显示,单一文化模型在不同音乐传统间的迁移效果各异,而多文化适应模型则实现了最佳整体性能。为支持世界音乐表征学习的研究,我们公开了CultureMERT-95M与CultureMERT-TA-95M,以促进更具文化意识的音乐基础模型的发展。
大型語言模型(LLMs)已取得顯著進展,但其部署過程暴露了關鍵的脆弱性,尤其是針對繞過安全機制的越獄攻擊。防護欄——一種監控和控制LLM互動的外部防禦機制——已成為一種頗具前景的解決方案。然而,當前LLM防護欄的格局較為分散,缺乏統一的分類體系和全面的評估框架。在本系統化知識(SoK)論文中,我們首次對LLM的越獄防護欄進行了全面分析。我們提出了一種新穎的多維分類法,沿六個關鍵維度對防護欄進行分類,並引入了一個安全-效率-實用性評估框架來評估其實際效果。通過廣泛的分析和實驗,我們識別了現有防護欄方法的優勢與局限,探討了它們在不同攻擊類型中的普適性,並提供了優化防禦組合的見解。我們的工作為未來的研究與開發提供了結構化的基礎,旨在指導穩健LLM防護欄的原則性進步與部署。代碼可在https://github.com/xunguangwang/SoK4JailbreakGuardrails獲取。
故事視覺化已成為一項熱門任務,旨在生成多格畫面來描繪敘事情節。在此情境下,核心挑戰在於維持視覺一致性,尤其是角色與物體在整個故事中的持續性與演變。儘管擴散模型近期取得了進展,現有方法往往無法保留關鍵角色特徵,導致敘事不連貫。在本研究中,我們提出了一個協作式多代理框架,能夠自主識別、修正並精煉多格故事視覺化中的不一致性。這些代理在一個迭代循環中運作,實現了細粒度的、單格層面的更新,而無需重新生成整個序列。我們的框架與模型無關,可靈活整合多種擴散模型,包括如Flux的整流流變換器及如Stable Diffusion的潛在擴散模型。定量與定性實驗表明,我們的方法在多格一致性方面超越了先前的方法。
近期,多模态大语言模型(MLLMs)在生成个性化图像描述方面常遇挑战,即便是在高质量描述数据上训练后亦是如此。本研究中,我们发现这种局限性在现有的基于后训练方法的MLLM个性化策略中依然存在。具体而言,尽管通过监督微调(SFT)利用大规模描述数据进行了后调优,这些模型在实际场景中,如多概念图像描述任务中,仍难以生成忠实描述。然而,为这类复杂场景获取大规模、高质量描述既昂贵又困难。针对SFT以数据为中心的特性,我们提出了一种基于强化学习(RL)的后训练框架。据我们所知,这是首个采用RL方法对MLLMs进行后训练以实现个性化图像描述的研究。我们的方法显著提升了MLLMs的视觉识别与个性化生成能力,并在多概念图像描述这一挑战性任务中,持续超越现有的基于SFT的基线模型。
近期,大型语言模型(LLMs)的进展在自然语言处理领域取得了显著成就,然而其计算与内存需求仍构成重大挑战,尤其是在长上下文推理方面。我们提出了TPTT(将预训练Transformer转化为泰坦),一种新颖的框架,旨在通过高效的线性化注意力机制与先进的内存管理技术来增强预训练Transformer模型。TPTT采用了诸如“记忆作为门”(MaG)和混合线性化注意力(LiZA)等技术。该框架完全兼容Hugging Face Transformers库,使得任何因果LLM都能通过参数高效微调(LoRA)实现无缝适应,而无需全面重新训练。我们在MMLU基准测试中,以约10亿参数的模型展示了TPTT的有效性,观察到效率与准确性的显著提升。例如,Titans-Llama-3.2-1B在精确匹配(EM)上较其基线提升了20%。统计分析及与近期最先进方法的比较,证实了TPTT在实际可扩展性与鲁棒性方面的优势。代码可在https://github.com/fabienfrfr/tptt获取,Python包则发布于https://pypi.org/project/tptt/。
新生儿死亡仍然是欠发达国家乃至部分发达国家所面临的严峻现实。根据Macro Trades的数据,全球范围内每千名新生儿中就有26.693名婴儿夭折。为降低这一数字,对高危婴儿的早期预测至关重要。此类预测为采取充分措施照护母婴提供了可能,从而避免婴儿早期死亡。在此背景下,机器学习被用于判断新生儿是否处于风险之中。为训练预测模型,研究采用了140万新生儿的历史数据。通过运用逻辑回归、K近邻算法、随机森林分类器、极端梯度提升(XGBoost)、卷积神经网络以及长短期记忆网络(LSTM)等机器学习和深度学习技术,基于该数据集识别出预测新生儿死亡率的最准确模型。在机器学习算法中,XGBoost与随机森林分类器以94%的准确率表现最佳;而在深度学习模型中,LSTM以99%的准确率位居榜首。因此,采用LSTM似乎是最为适宜的方法,用以判断是否需要对婴儿采取预防措施。
尽管在利用大型语言模型(LLMs)生成硬件寄存器传输级(RTL)代码方面已取得进展,现有解决方案仍面临实际应用场景与真实世界RTL代码开发需求之间的显著差距。先前的方法要么聚焦于过于简化的硬件描述,要么依赖大量人工指导来处理复杂规格,这限制了它们的可扩展性和自动化潜力。本文通过提出一个名为Spec2RTL-Agent的LLM代理系统来弥合这一差距,该系统旨在直接处理复杂的规格文档并生成相应的RTL代码实现,推动基于LLM的RTL代码生成向更实际的应用场景迈进。为实现这一目标,Spec2RTL-Agent引入了一种新颖的多代理协作框架,集成了三个关键赋能模块:(1)一个推理与理解模块,将规格转化为结构化的、分步实施的计划;(2)一个渐进式编码与提示优化模块,通过多次表示迭代精炼代码,以增强RTL转换的正确性和可合成性;(3)一个自适应反思模块,在生成过程中识别并追踪错误来源,确保更稳健的代码生成流程。与直接从自然语言生成RTL不同,我们的系统策略性地生成可合成的C++代码,随后针对高层次综合(HLS)进行优化。这种代理驱动的精炼过程相比直接生成RTL的简单方法,确保了更高的正确性和兼容性。我们在三个规格文档上评估了Spec2RTL-Agent,结果显示其生成的RTL代码准确,且比现有方法减少了高达75%的人工干预。这凸显了其作为首个从非结构化规格中全自动生成RTL的多代理系统的角色,减少了硬件设计中对人力的依赖。