每日精選AI研究論文及翻譯
我們引入“胡言學”(Drivelology),這一獨特的語言現象被描述為“蘊含深意的無稽之談”,即語句在句法上連貫,但在語用上卻呈現出矛盾、情感豐富或修辭顛覆的特點。此類表達雖看似表層無意義,卻隱含著需通過語境推斷、道德推理或情感解讀才能領會的深層含義。我們發現,儘管當前的大型語言模型(LLMs)在眾多自然語言處理(NLP)任務中表現出色,卻始終難以把握胡言學文本的多層語義。為探究此問題,我們構建了一個小而多樣的基準數據集,包含超過1200個精心挑選的示例,涵蓋英語、普通話、西班牙語、法語、日語及韓語。數據標註尤具挑戰性:每個示例均需經過專家細緻審核,以確保其真正體現胡言學特徵。這一過程涉及多輪討論與裁決,以解決分歧,凸顯了胡言學的微妙與主觀性。我們對一系列LLMs進行了分類、生成及推理任務的評估。結果顯示,LLMs存在明顯局限:模型常將胡言學與淺層無意義混淆,給出不合邏輯的解釋,或完全忽略隱含的修辭功能。這些發現揭示了LLMs在語用理解上的深層表徵缺陷,並挑戰了統計流利性等同於認知理解的假設。我們公開數據集與代碼,以促進在超越表層連貫性的語言深度建模方面的進一步研究。
利用预训练的文本到图像(T2I)生成模型中的视觉先验知识,在密集预测任务中已显示出成功。然而,密集预测本质上是一项图像到图像的任务,这表明图像编辑模型,而非T2I生成模型,可能更适合作为微调的基础。受此启发,我们对编辑器和生成器在密集几何估计中的微调行为进行了系统分析。我们的研究发现,编辑模型具有固有的结构先验,这使得它们能够通过“精炼”其内在特征更稳定地收敛,并最终实现比生成模型更高的性能。 基于这些发现,我们引入了FE2E框架,该框架首次将基于扩散变换器(DiT)架构的高级编辑模型应用于密集几何预测。具体而言,为了使编辑器适应这一确定性任务,我们将编辑器的原始流匹配损失重新表述为“一致速度”训练目标。此外,我们使用对数量化来解决编辑器原生BFloat16格式与我们任务对高精度需求之间的精度冲突。同时,我们利用DiT的全局注意力机制,在单次前向传播中实现深度和法线的无成本联合估计,使它们的监督信号能够相互增强。 在不扩大训练数据规模的情况下,FE2E在多个数据集上的零样本单目深度和法线估计中实现了显著的性能提升。值得注意的是,它在ETH3D数据集上实现了超过35%的性能提升,并超越了在100倍数据上训练的DepthAnything系列。项目页面可通过https://amap-ml.github.io/FE2E/{此处}访问。
現代語言模型的訓練數據主要來源於兩大類:在線數據(模型生成的推演數據)和離線數據(人類或其他模型的示範數據)。這兩類數據通常分別被強化學習(RL)和監督微調(SFT)等方法所採用。本文中,我們展示這些方法並非相互矛盾,而是同一優化過程的不同實例。我們推導出一個統一策略梯度估計器,並將多種訓練後方法的計算呈現為在不同數據分佈假設及各種偏差-方差權衡下共同目標的梯度。該梯度估計器由四個可互換部分構成:穩定化掩碼、參考策略分母、優勢估計和似然梯度。基於我們的理論發現,我們提出了混合訓練後處理(HPT)算法,該算法能動態選擇不同的訓練信號。HPT旨在實現對示範數據的有效利用和穩定探索,同時不犧牲已學習的推理模式。我們通過大量實驗和消融研究驗證了統一理論框架和HPT的有效性。在六個數學推理基準測試和兩個分佈外測試集上,HPT在不同規模和系列的模型中均持續超越強基準線。
深度研究智能体因其在协调多阶段研究流程(包括文献综述、方法设计及实证验证)方面的潜力而日益受到关注。尽管取得了这些进展,由于难以收集真正能引起研究者关注和激发其求知欲的前沿研究问题,准确评估其研究能力仍颇具挑战。为填补这一空白,我们引入了DeepResearch Arena,这是一个基于学术研讨会的基准测试平台,这些研讨会捕捉了丰富的专家讨论与互动,更好地反映了现实世界的研究环境,并降低了数据泄露的风险。为了自动构建DeepResearch Arena,我们提出了一个多智能体层次任务生成(MAHTG)系统,该系统从研讨会记录中提取具有研究价值的灵感。MAHTG系统进一步将这些灵感转化为高质量的研究任务,确保研究任务制定的可追溯性,同时过滤掉噪声。借助MAHTG系统,我们从超过200场学术研讨会中精选出涵盖文学、历史、科学等12个学科的10,000多个高质量研究任务,构建了DeepResearch Arena。我们的广泛评估显示,DeepResearch Arena对当前最先进的智能体构成了重大挑战,不同模型之间表现出明显的性能差距。
大型語言模型(LLMs)在多樣任務上展現出強勁性能,但常表現出認知慣性,難以遵循與監督微調(SFT)期間學習到的標準化模式相衝突的指令。為評估此限制,我們提出逆向IFEval基準,該基準衡量模型的反直覺能力——即其克服訓練誘導偏見並遵從對抗性指令的能力。逆向IFEval引入了八類此類挑戰,包括問題修正、故意文本缺陷、無註釋代碼及反事實回答等。通過人機協作流程,我們構建了一個包含1012道高質量中英文問題的數據集,涵蓋23個領域,並在優化的LLM-as-a-Judge框架下進行評估。對現有領先LLMs的實驗證明了我們提出的逆向IFEval基準的必要性。研究結果強調,未來的對齊努力不僅應追求流暢性和事實正確性,還應考慮在非傳統情境下的適應性。我們希望逆向IFEval不僅作為診斷工具,更能為開發減輕認知慣性、減少對狹窄模式過擬合的方法奠定基礎,最終提升LLMs在多樣且不可預測的現實場景中遵循指令的可靠性。
生成模型领域存在一个根本性的困境:迭代扩散模型能够实现卓越的保真度,但需付出巨大的计算成本,而高效的少步替代方案则受限于一个难以突破的质量上限。这种生成步骤与输出质量之间的冲突源于训练目标的局限性,这些目标要么专注于无限小的动态(PF-ODEs),要么直接预测端点。我们通过引入一个精确的连续时间动态方程来解决这一挑战,该方程解析地定义了跨越任何有限时间间隔的状态转移。这催生了一种新的生成范式——转移模型(Transition Models, TiM),它能够适应任意步长的转移,从单步跨越到多步的精细调整,无缝贯穿生成轨迹。尽管仅拥有8.65亿参数,TiM在所有评估步数下均实现了最先进的性能,超越了如SD3.5(80亿参数)和FLUX.1(120亿参数)等领先模型。重要的是,与以往的少步生成器不同,TiM在采样预算增加时展现出单调的质量提升。此外,采用我们的原生分辨率策略时,TiM在高达4096x4096的分辨率下提供了卓越的保真度。
長視頻理解,以其長時序依賴性和多事件特性為特徵,仍是一大挑戰。現有方法多依賴於靜態推理或外部視覺語言模型(VLMs),這些方法因缺乏端到端訓練而面臨複雜性和性能欠佳的問題。本文提出Video-MTR,一種強化多輪推理框架,旨在實現迭代關鍵視頻片段選擇與問題理解。與傳統視頻推理管道一次性生成預測不同,Video-MTR進行多輪推理,基於對已處理片段及當前問題的逐步深入理解,逐步選取視頻片段。此迭代過程使得視頻分析更為精細且上下文感知。為確保中間推理過程,我們引入了一種新穎的門控雙層獎勵系統,結合基於答案正確性的軌跡級獎勵和強調幀-查詢相關性的輪次級獎勵。該系統優化了視頻片段選擇與問題理解,無需外部VLMs,實現了端到端訓練。在VideoMME、MLVU及EgoSchema等基準上的廣泛實驗表明,Video-MTR在準確性和效率上均超越現有方法,推動了長視頻理解領域的技術前沿。
我們提出了NER檢索器,這是一個針對即席命名實體檢索的零樣本檢索框架,該任務是命名實體識別(NER)的一種變體,其中感興趣的類型並未預先提供,而是使用用戶定義的類型描述來檢索提及該類型實體的文檔。我們的方法不依賴於固定模式或微調模型,而是基於大型語言模型(LLMs)的內部表示,將實體提及和用戶提供的開放式類型描述嵌入到共享的語義空間中。我們發現,內部表示,特別是來自中間層變換器塊的值向量,比常用的頂層嵌入更有效地編碼細粒度類型信息。為了精煉這些表示,我們訓練了一個輕量級的對比投影網絡,該網絡在對齊類型兼容實體的同時分離不相關的類型。生成的實體嵌入緊湊、類型感知,並且非常適合最近鄰搜索。在三個基準測試中,NER檢索器顯著優於詞彙級和密集句子級檢索基線。我們的研究結果為LLMs內部的表示選擇提供了實證支持,並展示了一種可擴展、無模式的實體檢索的實用解決方案。NER檢索器代碼庫已公開於https://github.com/ShacharOr100/ner_retriever。
基於流的三維生成模型在推理過程中通常需要數十次採樣步驟。儘管少步蒸餾方法,尤其是一致性模型(CMs),在加速二維擴散模型方面取得了顯著進展,但這些方法在更複雜的三維生成任務中仍未被充分探索。在本研究中,我們提出了一種新穎的框架——MDT-dist,用於少步三維流蒸餾。我們的方法基於一個主要目標:蒸餾預訓練模型以學習邊際數據傳輸。直接學習這一目標需要整合速度場,而這一積分難以實現。因此,我們提出了兩個可優化的目標——速度匹配(VM)和速度蒸餾(VD),分別將優化目標從傳輸層面等價轉換到速度和分佈層面。速度匹配(VM)學習穩定地匹配學生模型和教師模型之間的速度場,但不可避免地提供有偏的梯度估計。速度蒸餾(VD)進一步通過利用已學習的速度場進行概率密度蒸餾來增強優化過程。在評估先驅三維生成框架TRELLIS時,我們的方法將每個流變換器的採樣步驟從25次減少到1或2次,在A800上實現了0.68秒(1步x2)和0.94秒(2步x2)的延遲,分別獲得了9.0倍和6.5倍的加速,同時保持了高視覺和幾何保真度。大量實驗表明,我們的方法顯著優於現有的CM蒸餾方法,並使TRELLIS在少步三維生成中實現了卓越的性能。
我們提出了Durian,這是首個能夠以零樣本方式從給定參考圖像向目標肖像進行面部屬性遷移並生成肖像動畫視頻的方法。為實現跨幀的高保真度和空間一致性屬性遷移,我們引入了雙參考網絡,該網絡將來自肖像和屬性圖像的空間特徵注入擴散模型的去噪過程中。我們採用自重建公式訓練模型,其中從同一肖像視頻中採樣兩幀:一幀作為屬性參考,另一幀作為目標肖像,其餘幀則基於這些輸入及其對應的遮罩進行重建。為支持不同空間範圍的屬性遷移,我們提出了一種基於關鍵點條件圖像生成的遮罩擴展策略用於訓練。此外,我們還通過空間和外觀層面的變換進一步增強了屬性和肖像圖像,以提高對它們之間位置錯位的魯棒性。這些策略使得模型能夠有效地泛化到多樣化的屬性和真實世界中的參考組合,儘管在訓練時並未使用顯式的三元組監督。Durian在帶有屬性遷移的肖像動畫任務上達到了最先進的性能,特別是其雙參考設計使得在單次生成過程中無需額外訓練即可實現多屬性組合。
近期,大型語言模型(LLMs)的進展顯示,通過可驗證獎勵的強化學習(RLVR),其推理能力在數學和編程等領域得到了顯著提升,這些領域的正確性可以自動評估。然而,將這一成功擴展到其他推理密集型領域仍面臨挑戰,主要由於高質量、可驗證數據集的稀缺以及人工監督的高成本。在本研究中,我們介紹了龍項目:一個開源框架,旨在跨多種推理密集型領域實現可擴展的合成數據生成與驗證。該框架包含兩個關鍵組件:(1) 龍標(LoongBench),一個精選的種子數據集,涵蓋12個領域(如高等數學、化學、邏輯)的8,729個人類審核示例,每個示例均配備可執行代碼和豐富的元數據;(2) 龍境(LoongEnv),一個模塊化的合成數據生成環境,支持多種提示策略以生成新的問題-答案-代碼三元組。這些組件共同構成了一個代理-環境循環,支持強化學習,其中基於LLM的代理因生成與代碼執行答案一致的思維鏈(CoT)解決方案而獲得獎勵。實證上,我們在廣泛的開源和專有LLMs上對龍標進行了基準測試,以評估領域覆蓋範圍並揭示性能瓶頸。此外,我們對龍境生成的合成數據進行了全面分析,考察了其正確性、難度和多樣性。代碼和文檔可在https://github.com/camel-ai/loong獲取。
電腦輔助設計(CAD)生成建模正在推動工業應用領域的重大創新。近期研究在從點雲、網格和文字描述等多種輸入創建實體模型方面取得了顯著進展。然而,這些方法與傳統工業工作流程存在根本性差異,後者通常始於二維工程圖紙。儘管從這些二維向量圖紙自動生成參數化CAD模型是工程設計中的關鍵步驟,但這一領域仍未被充分探索。為填補這一空白,我們的核心見解是將CAD生成重新定義為一個序列到序列的學習問題,其中向量圖元直接指導參數化CAD操作的生成,在整個轉換過程中保持幾何精度和設計意圖。我們提出了Drawing2CAD框架,該框架包含三個關鍵技術組件:一種保留精確幾何信息的網絡友好型向量圖元表示法,一種解耦命令類型和參數生成同時保持精確對應的雙解碼器變壓器架構,以及一種適應CAD參數內在靈活性的軟目標分佈損失函數。為訓練和評估Drawing2CAD,我們創建了CAD-VGDrawing數據集,其中包含配對的工程圖紙和參數化CAD模型,並通過全面實驗證明了我們方法的有效性。代碼和數據集可在https://github.com/lllssc/Drawing2CAD獲取。
強大的開源大型語言模型(LLMs)的成功,使得社群能夠創建大量針對特定任務和領域進行後訓練的模型。然而,由於不一致的元數據和非結構化的儲存庫,導航和理解這些模型仍然具有挑戰性。我們引入了Delta Activations方法,該方法通過測量微調模型相對於基礎模型內部激活的變化,將微調模型表示為向量嵌入。這種表示方式允許按領域和任務進行有效的聚類,從而揭示模型景觀中的結構。Delta Activations還展示了理想的特性:它在不同的微調設置下具有魯棒性,並且在微調數據集混合時表現出可加性。此外,我們展示了Delta Activations可以通過少樣本微調來嵌入任務,並進一步探索其在模型選擇和合併中的應用。我們希望Delta Activations能夠促進公開可用模型的重用實踐。代碼可在https://github.com/OscarXZQ/delta_activations獲取。
大型語言模型(LLMs)可能遵循有害指令,儘管其能力令人印象深刻,卻引發了嚴重的安全疑慮。近期研究利用探測式方法來探討LLMs內部表徵中惡意與良性輸入的可分離性,並有研究者提出將此類探測方法用於安全檢測。我們系統性地重新審視了這一範式。基於其在分佈外表現不佳的現象,我們假設探測器學習的是表層模式而非語義上的危害性。通過控制實驗,我們證實了這一假設,並識別出所學習的特定模式:指令模式與觸發詞。我們的研究遵循系統化方法,從展示簡單n-gram方法的可比性能,到使用語義清洗數據集的控制實驗,再到模式依賴性的詳細分析。這些結果揭示了當前基於探測的方法所帶來的虛假安全感,並強調了重新設計模型與評估協議的必要性。對此,我們提供了進一步的討論,以期引導該方向上的負責任研究。我們已將項目開源於https://github.com/WangCheng0116/Why-Probe-Fails。