每日精選AI研究論文及翻譯
我們推出Phi-4-Mini與Phi-4-Multimodal,這是一組體積小巧卻能力出眾的語言與多模態模型。Phi-4-Mini是一款擁有38億參數的語言模型,基於高品質網路與合成數據訓練而成,在需要複雜推理的數學與編程任務上,其表現不僅大幅超越近期同規模的開源模型,更可匹敵體積是其兩倍的模型。這一成就得益於精心設計的合成數據配方,特別強調高質量的數學與編程數據集。相較於前代Phi-3.5-Mini,Phi-4-Mini的詞彙量擴展至20萬個token,以更好地支持多語言應用,並採用群組查詢注意力機制,提升長序列生成的效率。Phi-4-Multimodal則是一款多模態模型,將文本、視覺及語音/音頻輸入模式整合於單一模型之中。其創新的模態擴展方法利用LoRA適配器與模態專用路由器,實現多種模態的無干擾組合推理。例如,儘管其語音/音頻模態的LoRA組件僅有4.6億參數,該模型已在OpenASR排行榜上位居首位。Phi-4-Multimodal支持(視覺+語言)、(視覺+語音)及(語音/音頻)輸入場景,在多項任務上超越更大的視覺-語言與語音-語言模型。此外,我們還對Phi-4-Mini進行了進一步訓練實驗,以增強其推理能力。儘管這款實驗版模型僅有38億參數,其推理性能卻與或超越包括DeepSeek-R1-Distill-Qwen-7B與DeepSeek-R1-Distill-Llama-8B在內的更大模型。
在大型推理模型(如OpenAI o1)中,強化微調(Reinforcement Fine-Tuning, RFT)通過對其答案的反饋進行學習,這在微調數據稀缺的應用中尤其有用。最近開源的工作如DeepSeek-R1表明,具有可驗證獎勵的強化學習是重現o1的一個關鍵方向。雖然R1風格的模型在語言模型中已展現出成功,但其在多模態領域的應用仍未被充分探索。本研究引入了視覺強化微調(Visual-RFT),進一步擴展了RFT在視覺任務中的應用範圍。具體而言,Visual-RFT首先使用大型視覺語言模型(LVLMs)為每個輸入生成包含推理標記和最終答案的多個回應,然後利用我們提出的視覺感知可驗證獎勵函數,通過策略優化算法(如群組相對策略優化,GRPO)來更新模型。我們為不同的感知任務設計了不同的可驗證獎勵函數,例如用於目標檢測的交並比(IoU)獎勵。在細粒度圖像分類、少樣本目標檢測、推理定位以及開放詞彙目標檢測基準上的實驗結果顯示,與監督微調(SFT)相比,Visual-RFT展現了競爭性的性能和先進的泛化能力。例如,在約100個樣本的一次性細粒度圖像分類中,Visual-RFT比基線提高了24.3%的準確率。在少樣本目標檢測中,Visual-RFT在COCO的兩樣本設置上超過基線21.9,在LVIS上超過15.4。我們的Visual-RFT代表了微調LVLMs的範式轉變,提供了一種數據高效、獎勵驅動的方法,增強了針對特定領域任務的推理和適應能力。
神經輻射場(Neural Radiance Fields)與三維高斯濺射(3D Gaussian Splatting)技術已徹底革新了三維重建與新視角合成任務。然而,從極端新視角實現照片級真實感渲染仍具挑戰性,因為各種表示方法中仍存在偽影。在本研究中,我們提出了Difix3D+,一種旨在通過單步擴散模型提升三維重建與新視角合成質量的新穎流程。我們方法的核心是Difix,這是一個單步圖像擴散模型,專門訓練來增強並去除由三維表示中約束不足區域所導致的渲染新視角中的偽影。Difix在我們的流程中扮演著兩個關鍵角色。首先,在重建階段,它被用於清理從重建結果渲染出的偽訓練視圖,隨後這些視圖被蒸餾回三維空間,這大大增強了約束不足區域並提升了整體三維表示的質量。更重要的是,Difix在推理階段還作為神經增強器,有效去除因不完善的三維監督及當前重建模型能力限制所產生的殘餘偽影。Difix3D+是一個通用解決方案,一個兼容NeRF與3DGS表示的單一模型,它在保持三維一致性的同時,相較於基線模型,FID分數平均提升了2倍。
測試時推理已成為一種強大的範式,使語言模型能夠像熟練的人類專家一樣,對複雜挑戰進行更長時間、更仔細的「思考」。雖然強化學習(RL)可以推動語言模型在可驗證任務上的自我提升,但有些模型表現出顯著的進步,而其他模型則迅速停滯。例如,我們發現,在相同的RL訓練下,Qwen-2.5-3B在Countdown遊戲中的表現遠遠超過Llama-3.2-3B。這種差異引發了一個關鍵問題:哪些內在特性促成了有效的自我提升?我們引入了一個框架來探討這個問題,通過分析四種關鍵的認知行為——驗證、回溯、子目標設定和反向鏈接——這些行為既是專家級人類問題解決者也是成功的語言模型所採用的。我們的研究揭示,Qwen自然地展現了這些推理行為,而Llama最初則缺乏這些行為。在系統化的實驗中,使用受控的行為數據集,我們發現,通過提供包含這些推理行為的示例來引導Llama,能夠在RL過程中實現顯著的改進,達到甚至超越Qwen的表現。重要的是,推理行為的存在,而非答案的正確性,被證明是關鍵因素——使用包含正確推理模式但答案錯誤的解決方案進行引導的模型,其表現與使用正確解決方案訓練的模型相當。最後,利用OpenWebMath數據進行持續預訓練,並過濾以增強推理行為,使Llama模型能夠匹配Qwen的自我提升軌跡。我們的研究結果建立了初始推理行為與提升能力之間的基本關係,解釋了為什麼一些語言模型能夠有效利用額外的計算資源,而其他模型則停滯不前。
生成超長序列對於大型語言模型(LLMs)而言已變得日益重要,但這仍是一項極耗時的任務,尤其是在處理高達100K個令牌的序列時。雖然傳統的推測解碼方法存在,但單純地擴展其生成限制並未能加速這一過程,反而可能帶來負面影響。通過深入分析,我們識別出阻礙高效生成的三個主要挑戰:頻繁的模型重載、動態鍵值(KV)管理以及重複生成。為解決這些問題,我們引入了TOKENSWIFT,這是一個新穎的框架,旨在顯著加速超長序列的生成過程,同時保持目標模型固有的質量。實驗結果表明,TOKENSWIFT在不同規模(1.5B、7B、8B、14B)和架構(MHA、GQA)的模型上實現了超過3倍的加速。這一加速轉化為在生成超長序列時節省數小時的時間,使TOKENSWIFT成為在空前長度上可擴展且有效的解決方案。代碼可在https://github.com/bigai-nlco/TokenSwift找到。
近期音樂生成領域的進展引起了廣泛關注,然而現有方法仍面臨關鍵限制。一些當前的生成模型僅能合成人聲軌或伴奏軌。雖然部分模型能夠生成結合人聲與伴奏的音樂,但它們通常依賴精心設計的多階段級聯架構和複雜的數據管道,這阻礙了可擴展性。此外,大多數系統僅限於生成短音樂片段而非完整歌曲。再者,廣泛使用的基於語言模型的方法存在推理速度緩慢的問題。為應對這些挑戰,我們提出了DiffRhythm,這是首個基於潛在擴散的歌曲生成模型,能夠在僅十秒內合成長達4分45秒的完整歌曲,包含人聲和伴奏,並保持高度的音樂性和可理解性。儘管DiffRhythm具有卓越能力,但其設計簡潔優雅:它消除了複雜數據準備的需求,採用直觀的模型結構,在推理時僅需歌詞和風格提示。此外,其非自回歸結構確保了快速的推理速度。這種簡潔性保證了DiffRhythm的可擴展性。我們還發布了完整的訓練代碼及基於大規模數據的預訓練模型,以促進可重現性和進一步研究。
近年來,基於生成式檢索的推薦系統已成為一個頗具前景的研究範式。然而,當前大多數推薦系統仍採用檢索-排序策略,其中生成模型僅在檢索階段作為選擇器發揮作用。本文提出OneRec,以統一生成模型取代級聯學習框架。據我們所知,這是首個在實際場景中顯著超越現有複雜且精心設計的推薦系統的端到端生成模型。具體而言,OneRec包含:1)編碼器-解碼器結構,該結構對用戶歷史行為序列進行編碼,並逐步解碼出用戶可能感興趣的視頻。我們採用稀疏專家混合模型(MoE)來擴展模型容量,而不成比例地增加計算量。2)會話級生成方法。與傳統的下一個項目預測不同,我們提出會話級生成,相比於依賴手工規則來正確組合生成結果的逐點生成,這種方法更加優雅且上下文連貫。3)結合直接偏好優化(DPO)的迭代偏好對齊模塊,以提升生成結果的質量。與自然語言處理中的DPO不同,推薦系統通常只有一次機會為每個用戶的瀏覽請求展示結果,因此無法同時獲得正負樣本。為解決這一限制,我們設計了一個獎勵模型來模擬用戶生成,並定制採樣策略。大量實驗表明,有限數量的DPO樣本即可對齊用戶興趣偏好,並顯著提升生成結果的質量。我們將OneRec部署在快手的主場景中,實現了1.6%的觀看時長提升,這是一個顯著的改進。
不確定性估計對於評估大型語言模型(LLMs)至關重要,特別是在高風險領域,錯誤答案可能導致嚴重後果。許多方法在考慮這一問題時,專注於特定類型的不確定性,而忽略了其他類型。我們探討了哪些估計方法,特別是基於詞元的熵和模型作為評判者(MASJ),能夠適用於不同主題的多項選擇題回答任務。我們的實驗涵蓋了三種不同規模的LLMs:Phi-4、Mistral和Qwen,參數量從1.5B到72B不等,以及14個主題。雖然MASJ的表現與隨機錯誤預測器相似,但回應熵在知識依賴領域中能預測模型錯誤,並作為問題難度的有效指標:在生物學領域,ROC AUC為0.73。這種相關性在推理依賴領域中消失:對於數學問題,ROC-AUC為0.55。更根本的是,我們發現熵測量需要一定的推理量。因此,與數據不確定性相關的熵應整合到不確定性估計框架中,而MASJ則需要改進。此外,現有的MMLU-Pro樣本存在偏差,應平衡不同子領域所需的推理量,以提供更公平的LLMs性能評估。
具有线性循环建模能力的Transformer架构提供了线性时间的训练和恒定内存的推理。尽管这些非标准架构已展现出高效性和性能优势,但从头开始预训练此类模型仍成本高昂且风险较大。大型语言模型(LLM)的线性化技术将预训练的标准模型转化为线性循环结构,从而实现了更高效的部署。然而,现有的线性化方法通常需要引入额外的特征映射模块,这些模块不仅需要大量的微调,还忽视了当前最先进的线性循环模型中采用的门控机制。针对这些问题,本文提出了Liger(Linearizing LLMs to gated recurrent structures的缩写),这是一种将预训练LLM转换为门控线性循环模型的新方法,且无需增加额外参数。Liger通过重新利用预训练的关键矩阵权重来构建多样化的门控机制,促进了多种门控循环结构的形成,同时避免了从头训练额外组件的需求。采用低秩适应(LoRA)进行轻量级微调,Liger使线性化后的门控循环模型性能恢复至与原始LLM相当的水平。此外,我们引入了Liger Attention,一种层内混合注意力机制,在仅使用0.02%预训练令牌的情况下,显著恢复了基于Transformer的LLM 93%的性能,在多个基准测试中取得了具有竞争力的结果,这一成果在1B到8B参数规模的模型上得到了验证。代码已发布于https://github.com/OpenSparseLLMs/Linearization。
擴散模型在生成二維圖像方面已取得巨大成功。然而,三維內容生成的質量和泛化能力仍然有限。最先進的方法通常需要大規模的三維資產進行訓練,這些資產的收集具有挑戰性。在本研究中,我們介紹了Kiss3DGen(Keep It Simple and Straightforward in 3D Generation),這是一個高效的框架,通過重新利用訓練良好的二維圖像擴散模型來生成、編輯和增強三維物體。具體來說,我們微調了一個擴散模型來生成「三維捆綁圖像」,這是一種由多視角圖像及其對應的法線圖組成的平鋪表示。法線圖隨後用於重建三維網格,而多視角圖像則提供紋理映射,從而生成完整的三維模型。這種簡單的方法有效地將三維生成問題轉化為二維圖像生成任務,最大限度地利用了預訓練擴散模型中的知識。此外,我們展示了Kiss3DGen模型與各種擴散模型技術的兼容性,使其能夠實現三維編輯、網格和紋理增強等高級功能。通過大量實驗,我們證明了該方法的有效性,展示了其高效生成高質量三維模型的能力。
增加测试时的计算量是提升大型语言模型(LLMs)响应质量的一种直接方法。虽然“最佳N采样”和“自洽多数投票”简单且有效,但它们对每个查询都要求固定数量的采样响应,而不管其复杂性如何。这可能导致对较简单问题的计算资源浪费,以及对更具挑战性问题探索不足。在本研究中,我们主张利用模型响应的置信度来提高测试时扩展的效率。遗憾的是,LLMs 已知存在过度自信的问题,提供的置信度估计并不可靠。为解决这一局限,我们引入了“自我校准”方法,通过将“自洽”得出的置信度蒸馏到模型自身中,从而在测试时仅需一次前向传播即可实现可靠的置信度估计。随后,我们设计了基于置信度的高效测试时扩展方法,以处理不同难度的查询,例如“最佳N采样的提前终止”和“基于校准置信度的自洽”。在三个LLMs和六个数据集上的实验证明了我们方法的有效性。具体而言,将基于置信度的提前终止应用于“最佳N采样”,在16个响应样本的预算下,将MathQA的准确率从81.0提升至83.6,这显示了在推理时采用基于置信度的采样策略的有效性。
大型語言模型(LLMs)在多種任務中展現出卓越的性能;然而,其逐個令牌的自迴歸生成過程顯著阻礙了推理速度。推測解碼提出了一種有前景的草稿-驗證框架,能在保持輸出分佈保真度的同時降低生成延遲。然而,草稿模型引入了額外的計算開銷,成為性能瓶頸並增加了首個令牌生成時間(TTFT)。先前減輕草稿模型開銷的方法主要依賴於啟發式策略,通常無法匹配草稿語言模型的質量。為應對這些挑戰,我們提出了DuoDecoding,這是一種新穎的方法,策略性地將草稿模型和目標模型分別部署在CPU和GPU上,實現並行解碼的同時保持草稿質量。我們的方法結合了硬件感知的最優草稿預算,以最小化空閒時間,並採用動態多序列草稿生成來提升草稿質量。在七項任務上的廣泛實驗表明,DuoDecoding在生成延遲上實現了最高2.61倍的加速,同時將TTFT降低至傳統推測解碼的83%。代碼可在https://github.com/KaiLv69/DuoDecoding獲取。
分析大型數據集需要快速的查詢執行,但在海量數據集上執行SQL查詢往往速度緩慢。本文探討了是否可以在用戶完成輸入之前就開始查詢執行,從而實現幾乎即時的結果顯示。我們提出了SpeQL系統,該系統利用大型語言模型(LLMs)基於數據庫模式、用戶過去的查詢以及其未完成的查詢來預測可能的查詢。由於精確預測查詢是不可行的,SpeQL通過兩種方式對部分查詢進行推測:1)預測查詢結構以提前編譯和計劃查詢,2)預先計算比原始數據庫小得多的臨時表,這些表仍被預測包含回答用戶最終查詢所需的所有信息。此外,SpeQL實時持續顯示推測查詢和子查詢的結果,輔助探索性分析。一項實用性/用戶研究表明,SpeQL提高了任務完成時間,參與者報告稱其推測性結果顯示幫助他們更快地發現數據中的模式。在研究中,SpeQL將用戶的查詢延遲最多降低了289倍,並將開銷控制在每小時4美元的合理範圍內。
從更大的數據池中選取高品質的訓練數據,是指令微調語言模型時的一個關鍵步驟,因為精心策劃的數據集往往能訓練出比那些在更大、更嘈雜數據集上訓練的模型更優異的表現。自動化數據選擇方法在指令微調中的測試通常涉及從小型數據池(約10萬至20萬樣本)中選取小規模數據集(約1萬樣本)。然而,實際部署中廣受歡迎的指令微調模型往往基於數十萬至數百萬的樣本進行訓練,這些樣本又是從更龐大的數據池中抽取的。我們系統地研究了數據選擇方法在這些場景下的擴展能力,從最多580萬樣本的數據池中選取最多250萬樣本,並在7個多樣化的任務上進行評估。我們發現,許多近期提出的方法在這種情況下甚至不如隨機選擇(且消耗更多計算資源),當面對更大的數據池進行選擇時,其性能反而下降。然而,我們發現一種基於表徵的數據選擇變體(RDS+),它利用預訓練語言模型隱藏狀態的加權平均池化,在所有測試場景中均一致地超越了更複雜的方法——同時還更為計算高效。我們的研究結果強調,應更密切地審視所提出的自動化選擇方法的擴展特性。我們在https://github.com/hamishivi/automated-instruction-selection 上公開了我們的代碼、數據和模型。
用戶生成內容(UGC)社群,尤其是那些包含多模態內容的社群,通過將視覺與文本信息整合到結果(或項目)中,提升了用戶體驗。近年來,在複雜系統中提升搜索與推薦(S&R)服務的用戶體驗這一挑戰,已引起了學術界與產業界的廣泛關注。然而,高質量數據集的缺乏限制了多模態S&R研究的進展。為應對開發更優S&R服務的日益增長需求,本文提出了一個新穎的多模態信息檢索數據集,名為Qilin。該數據集採集自小紅書,這是一個擁有超過3億月活躍用戶且平均搜索滲透率超過70%的熱門社交平台。與現有數據集相比,Qilin提供了包含圖文筆記、視頻筆記、商業筆記及直接答案等多樣化結果的用戶會話全面集合,促進了跨多種任務設置的高級多模態神經檢索模型的開發。為更好地建模用戶滿意度並支持異構用戶行為分析,我們還收集了廣泛的APP級上下文信號及真實用戶反饋。值得注意的是,Qilin包含了觸發深度問答(DQA)模塊的搜索請求中用戶偏愛的答案及其參考結果。這不僅允許訓練與評估檢索增強生成(RAG)管道,還能探索此類模塊如何影響用戶的搜索行為。通過全面的分析與實驗,我們為進一步改進S&R系統提供了有趣的發現與見解。我們希望Qilin將對未來帶有S&R服務的多模態內容平台的發展做出重大貢獻。
現有的大型語言模型(LLM)預訓練數據混合方法通常遵循一種領域導向的方法論,這是一種自上而下的過程,首先確定各領域的權重,然後在每個領域內進行均勻的數據採樣。然而,這些方法忽略了顯著的跨領域重疊與共性,未能有效控制構建訓練數據集的全局多樣性。此外,領域內的均勻採樣忽視了細粒度的樣本特徵,可能導致次優的數據分佈。為解決這些不足,我們提出了一種基於自下而上範式的新穎樣本級數據混合方法。該方法通過系統評估每個樣本的質量與多樣性來執行全局跨領域採樣,從而動態確定最優的領域分佈。在多個下游任務及困惑度評估中的全面實驗表明,SampleMix超越了現有的基於領域的方法。同時,SampleMix需要1.4倍至2.1倍的訓練步數來達到基線性能,這凸顯了SampleMix在優化預訓練數據方面的巨大潛力。
文本到視頻生成模型能夠將文字提示轉化為動態視覺內容,在電影製作、遊戲和教育等領域具有廣泛應用。然而,這些模型在實際應用中的表現往往未能達到用戶的期望。一個關鍵原因在於,這些模型並未針對用戶想要創建的某些主題相關的視頻進行訓練。本文中,我們提出了VideoUFO,這是首個專門針對現實場景中用戶關注點(Users' Focus)精心策劃的視頻數據集。此外,我們的VideoUFO還具備以下特點:(1) 與現有視頻數據集的重疊率極低(僅0.29%),以及(2) 所有視頻均通過YouTube官方API在創意共享許可下獨家搜索獲取。這兩大特性為未來研究者提供了更大的自由度,以擴展其訓練資源。VideoUFO包含超過109萬個視頻片段,每個片段均配備簡短和詳細的說明文字(描述)。具體而言,通過聚類分析,我們首先從百萬級別的實際文本到視頻提示數據集VidProM中識別出1,291個用戶關注的主題。隨後,我們利用這些主題從YouTube上檢索視頻,將檢索到的視頻分割成片段,並為每個片段生成簡短和詳細的說明文字。在驗證這些片段與指定主題的匹配度後,我們最終保留了約109萬個視頻片段。我們的實驗表明:(1) 現有的16種文本到視頻模型在所有用戶關注主題上的表現並不穩定;(2) 在VideoUFO上訓練的簡單模型在表現最差的主題上優於其他模型。該數據集已根據CC BY 4.0許可公開於https://huggingface.co/datasets/WenhaoWang/VideoUFO。
大型語言模型(LLMs)通過融合其對自然語言和程式語法的卓越理解,重塑了程式碼生成領域,從而大幅提升了開發者的生產力。這些進步促使了眾多努力來定量評估其編碼能力。然而,持續存在的挑戰,如基準測試洩漏、數據消散和系統可訪問性有限,仍然阻礙著及時且準確的評估。為了解決這些限制,我們引入了CodeArena,這是一個專為LLM程式碼生成設計的在線評估框架。其關鍵創新在於集體評估機制,該機制根據所有參與模型的整體表現動態重新校準個別模型的分數,從而減輕因廣泛基準測試洩漏引起的分數偏差。此外,CodeArena確保所有提交的解決方案和測試案例的公開訪問,並提供自動化友好的API以簡化程式碼評估工作流程。我們的主要貢獻包括:(1)一個用於無偏評估的集體評估系統,(2)一個公開的解決方案和測試案例存儲庫,以及(3)自動化就緒的API以實現無縫集成。
现有的自动音频生成方法在有效生成类似播客的音频节目方面面临挑战,主要难点在于深度内容生成以及恰当且富有表现力的语音生成。本文提出了PodAgent,一个用于创建音频节目的综合框架。PodAgent通过以下方式实现这一目标:1) 设计了一个主持人-嘉宾-撰稿人多智能体协作系统,以生成信息丰富的主题讨论内容;2) 构建了一个语音池,用于实现合适的语音角色匹配;3) 利用LLM增强的语音合成方法,生成富有表现力的对话语音。鉴于缺乏针对类似播客音频生成的标准评估准则,我们开发了全面的评估指南,以有效评估模型的性能。实验结果表明,PodAgent在主题讨论对话内容生成方面显著优于直接使用GPT-4生成的结果,实现了87.4%的语音匹配准确率,并通过LLM引导的合成方法生成了更具表现力的语音。演示页面:https://podcast-agent.github.io/demo/。源代码:https://github.com/yujxx/PodAgent。
本研究探討大型語言模型(LLMs)開發專用於機器間(M2M)通訊的私密音調語言之潛力。受人類雙胞胎間密語現象(影響高達50%的雙胞胎出生)及如普通話和越南語等自然音調語言的啟發,我們實現了一套精確的字符到頻率映射系統,該系統利用音樂半音階對完整ASCII字符集(32-126)進行編碼。每個字符被賦予獨特的頻率,形成從空格(220 Hz)開始至波浪號(50,175.42 Hz)結束的對數級數,跨越約7.9個八度,其中高階字符特意映射至超出人類感知範圍的超聲波頻率(>20 kHz)。我們開發的軟體原型通過視覺化展示、聽覺播放及ABC音樂符號來演示此編碼方式,從而分析信息密度與傳輸速度。測試結果顯示,音調編碼能在部分超出人類感知邊界的情況下,實現超越人類語速的信息傳輸速率。此研究直接回應了關於人工智慧系統在未來五年內災難性地發展私密語言的擔憂,提供了一個具體的軟體原型示例,展示了此類通訊可能如何運作,以及其出現、檢測與治理所需的技術基礎。
大型語言模型(LLMs)已展現出令人印象深刻的實際應用價值,體現了人工實用智能(AUI)。然而,它們在適應性和魯棒性推理方面的能力——這些是人工通用智能(AGI)的標誌——仍然脆弱。儘管LLMs在常識推理、編程和數學方面似乎取得了成功,但它們在跨新情境泛化算法理解方面仍存在困難。我們在深奧編程語言中的算法任務實驗表明,LLM的推理過度擬合訓練數據,其可遷移性有限。我們假設,這種有限可遷移性的核心問題在於LLMs中推理與知識的耦合。 為了從AUI過渡到AGI,我們提出通過三個關鍵方向來解耦知識與推理:(1)使用從零開始的強化學習(RL)進行推理預訓練,作為廣泛使用的下一詞預測預訓練的替代方案;(2)利用合成任務的課程來簡化RL推理先驗的學習,然後將其遷移到自然語言任務中;(3)使用小上下文窗口學習更具泛化性的推理函數,以減少對詞元間虛假相關性的利用。這樣一個推理系統,結合訓練好的檢索系統和作為知識存儲的大型外部記憶庫,能夠克服現有架構在學習新情境推理時的若干限制。
隨著大型語言模型從自然語言領域擴展至數學、多模態理解及具身代理等領域,token 逐漸反映的是度量關係而非純粹的語言意義。我們提出了 DIST2Loss,這是一個利用輸出 token 之間預定義距離關係來訓練自回歸離散模型的距離感知框架。其核心在於,DIST2Loss 將從固有距離度量中導出的連續指數族分佈轉化為與模型架構相容的離散類別優化目標。這種方法使模型在生成 token 時能夠學習並保持有意義的距離關係,同時保持與現有架構的兼容性。實證評估顯示,在多種多模態應用中,包括視覺定位、機器人操作、生成獎勵建模以及使用向量量化特徵的圖像生成,DIST2Loss 均帶來了一致的性能提升。這些改進在訓練數據有限的情況下尤為顯著,凸顯了 DIST2Loss 在資源受限環境中的有效性。
人類讀者能夠高效地理解打亂順序的單詞,這一現象被稱為「字母位置錯亂症」(Typoglycemia),主要依賴於單詞形式;若僅憑單詞形式不足以理解,他們會進一步利用上下文線索進行解讀。雖然先進的大型語言模型(LLMs)展現出相似的能力,但其背後的機制仍不明確。為探究此問題,我們進行了控制實驗,分析單詞形式和上下文信息在語義重建中的作用,並檢視LLM的注意力模式。具體而言,我們首先提出了SemRecScore,這是一個可靠的指標,用於量化語義重建的程度,並驗證了其有效性。利用這一指標,我們研究了單詞形式和上下文信息如何影響LLMs的語義重建能力,發現單詞形式是這一過程的核心因素。此外,我們分析了LLMs如何利用單詞形式,發現它們依賴於專門的注意力頭來提取和處理單詞形式信息,且這一機制在不同程度的單詞打亂下保持穩定。LLMs主要專注於單詞形式的固定注意力模式與人類讀者在平衡單詞形式和上下文信息時的適應性策略之間的區別,為通過融入類人的、上下文感知的機制來提升LLM性能提供了洞見。
雖然基於似然的生成模型,特別是擴散模型和自回歸模型,在視覺生成方面取得了顯著的逼真度,但最大似然估計(MLE)目標函數本質上存在一種模式覆蓋傾向,這在模型能力有限的情況下限制了生成質量。在本研究中,我們提出了直接判別優化(DDO)作為一個統一框架,它將基於似然的生成訓練與GAN目標相結合,從而繞過這一根本性限制。我們的核心洞見是,利用可學習目標模型與固定參考模型之間的似然比來隱式地參數化判別器,這與直接偏好優化(DPO)的理念相呼應。與GAN不同,這種參數化方法無需聯合訓練生成器和判別器網絡,從而能夠直接、高效且有效地微調已訓練好的模型,使其發揮超越MLE限制的潛力。DDO可以以自我對弈的方式迭代進行,逐步精煉模型,每一輪所需的預訓練周期不到1%。我們的實驗證明了DDO的有效性,它顯著提升了先前最先進的擴散模型EDM,在CIFAR-10/ImageNet-64數據集上將FID分數從1.79/1.58降低至新的記錄1.30/0.97,並持續改善了ImageNet 256×256上無引導和CFG增強的自回歸模型的FID分數。
大型語言模型(LLMs)在通過語義推理對複雜任務進行層次分解方面展現出卓越的能力。然而,其在具身系統中的應用面臨著確保子任務序列可靠執行和實現長期任務一次性成功的挑戰。為了解決這些在動態環境中的局限性,我們提出了閉環具身代理(CLEA)——一種新穎的架構,結合了四個專門的開源LLMs,並通過功能解耦實現閉環任務管理。該框架具有兩大核心創新:(1)互動式任務規劃器,基於環境記憶動態生成可執行的子任務;(2)多模態執行評判器,採用評估框架對行動可行性進行概率評估,當環境擾動超過預設閾值時觸發層次重規劃機制。為了驗證CLEA的有效性,我們在一個包含可操作物體的真實環境中進行了實驗,使用兩台異構機器人執行物體搜索、操作以及搜索-操作整合任務。在12次任務試驗中,CLEA優於基準模型,成功率提高了67.3%,任務完成率提升了52.8%。這些結果表明,CLEA顯著增強了動態環境中任務規劃與執行的魯棒性。
近期,Web AI 代理在處理複雜的網頁導航任務方面展現了顯著的能力。然而,新興研究顯示,儘管這些代理與獨立的大型語言模型(LLMs)均基於相同的安全對齊模型構建,但前者表現出更高的脆弱性。這一差異尤其令人擔憂,因為相較於獨立的 LLMs,Web AI 代理具有更大的靈活性,這可能使其暴露於更廣泛的對抗性用戶輸入中。為構建一個應對這些問題的框架,本研究探討了導致 Web AI 代理脆弱性增加的潛在因素。值得注意的是,這種差異源於 Web AI 代理與獨立 LLMs 之間的多方面差異,以及複雜的信號——這些細微之處往往是簡單的評估指標(如成功率)所無法捕捉的。為應對這些挑戰,我們提出了組件層面的分析和一個更細緻、系統化的評估框架。通過這種精細化的調查,我們識別出三個加劇 Web AI 代理脆弱性的關鍵因素:(1) 將用戶目標嵌入系統提示中,(2) 多步驟動作生成,以及 (3) 觀察能力。我們的研究結果強調了在 AI 代理設計中增強安全性和魯棒性的迫切需求,並為有針對性的防禦策略提供了可操作的見解。
從多視角圖像進行房間佈局估計的研究尚不充分,這主要源於多視角幾何帶來的複雜性,需要多步驟解決方案,如相機內外參數估計、圖像匹配和三角測量。然而,在三維重建領域,近期三維基礎模型(如DUSt3R)的發展,已將傳統的多步驟運動結構恢復過程轉變為端到端的單步方法。基於此,我們提出了Plane-DUSt3R,這是一種利用三維基礎模型DUSt3R進行多視角房間佈局估計的新方法。Plane-DUSt3R整合了DUSt3R框架,並在房間佈局數據集(Structure3D)上進行微調,調整目標以估計結構平面。通過生成均勻且簡潔的結果,Plane-DUSt3R僅需單一後處理步驟和二維檢測結果即可完成房間佈局估計。與以往依賴單視角或全景圖像的方法不同,Plane-DUSt3R擴展了處理多視角圖像的設定。此外,它提供了一個簡化的端到端解決方案,簡化了流程並減少了誤差累積。實驗結果表明,Plane-DUSt3R不僅在合成數據集上超越了現有最先進的方法,而且在包含不同圖像風格(如卡通)的真實數據上也展現出魯棒性和有效性。我們的代碼可在以下網址獲取:https://github.com/justacar/Plane-DUSt3R。
層級量化是一種關鍵技術,能夠在不進行昂貴的重新訓練的情況下,高效地壓縮大型模型。以往的方法通常通過「均勻」優化所有輸出詞元的層重建損失來量化每一層的權重。然而,本文證明,通過優先從重要詞元(例如具有較大注意力分數的詞元)中學習,可以獲得更好的量化模型。基於這一發現,我們提出了RSQ(旋轉、縮放、再量化),該方法(1)對模型應用旋轉(正交變換)以減輕異常值(具有異常大值的數據)的影響,(2)根據詞元的重要性縮放其特徵,以及(3)使用GPTQ框架並基於縮放後的詞元計算的二階統計量來量化模型。為了計算詞元的重要性,我們探索了啟發式和動態策略。通過對所有方法的深入分析,我們採用了注意力集中度,即使用每個詞元的注意力分數作為其重要性,作為最佳方法。我們證明,RSQ在多個下游任務和三種模型家族(LLaMA3、Mistral和Qwen2.5)中始終優於基線方法。此外,使用RSQ量化的模型在長上下文任務中表現出卓越的性能,進一步凸顯了其有效性。最後,RSQ在各種設置中展示了通用性,包括不同的模型大小、校準數據集、比特精度和量化方法。