每日精選AI研究論文及翻譯
大型視覺語言模型(VLMs)展現出卓越的性能,但需要大量的計算資源,這限制了其在移動和邊緣設備上的部署。較小的VLMs通常模仿大型模型的設計選擇,例如廣泛的圖像標記化,導致GPU記憶體使用效率低下,並限制了在設備上應用的實用性。 我們介紹了SmolVLM,這是一系列專為資源高效推理而設計的緊湊型多模態模型。我們系統地探索了針對低計算開銷優化的架構配置、標記化策略和數據策展。通過這些探索,我們識別出關鍵的設計選擇,這些選擇在圖像和視頻任務上以最小的記憶體佔用實現了顯著的性能提升。 我們最小的模型,SmolVLM-256M,在推理過程中使用的GPU記憶體少於1GB,並且在性能上超越了規模是其300倍的Idefics-80B模型,儘管兩者之間有18個月的開發差距。我們最大的模型,擁有22億參數,與消耗兩倍GPU記憶體的頂尖VLMs相媲美。SmolVLM模型不僅限於靜態圖像,還展示了強大的視頻理解能力。 我們的結果強調,策略性的架構優化、激進但高效的標記化,以及精心策劃的訓練數據,顯著提升了多模態性能,促成了在顯著更小規模上實現實用且節能的部署。
現今的Transformer模型在生成一分鐘影片時仍面臨挑戰,因為自注意力層在處理長上下文時效率低下。替代方案如Mamba層則因隱藏狀態的表達能力不足,難以應對複雜的多場景故事。我們嘗試了測試時訓練(TTT)層,其隱藏狀態本身可以是神經網絡,因此更具表達力。將TTT層加入預訓練的Transformer中,使其能夠從文字故事板生成一分鐘影片。作為概念驗證,我們基於《湯姆與傑利》卡通策劃了一個數據集。與Mamba~2、門控DeltaNet及滑動窗口注意力層等基線相比,TTT層生成的影片在講述複雜故事時更為連貫,在每種方法100部影片的人類評估中以34 Elo分領先。儘管前景看好,結果仍存在瑕疵,這可能歸因於預訓練的50億參數模型能力有限。我們的實現效率也有提升空間。由於資源限制,我們僅實驗了一分鐘影片,但該方法可擴展至更長影片及更複雜的故事。樣本影片、程式碼與註解可於以下網址取得:https://test-time-training.github.io/video-dit
語言模型反思自身推理的能力,為解決複雜問題提供了關鍵優勢。儘管近期研究多聚焦於此能力在強化學習過程中的發展,我們的研究表明,這種能力實際上在模型預訓練階段便已開始萌芽。為探究此現象,我們在思維鏈中刻意引入錯誤,測試模型能否通過識別並修正這些錯誤,最終得出正確答案。通過追蹤預訓練不同階段的表現,我們觀察到這種自我修正能力早期即已顯現,並隨時間穩步提升。例如,一個在4萬億詞元上預訓練的OLMo2-7B模型,在我們設計的六項自我反思任務中展現了自我修正的能力。
近期研究表明,测试时计算扩展能有效提升小型语言模型(sLMs)的性能。然而,先前的研究主要探讨了借助额外的大型模型作为验证器的测试时计算扩展,而对sLMs自我验证的探索尚不充分。在本研究中,我们探究了sLMs在测试时扩展下能否可靠地自我验证其输出。我们发现,即使通过知识蒸馏从更大的验证器学习,sLMs在处理需要记忆的验证任务(如数值计算和事实核查)时仍面临困难。为克服这一局限,我们提出了工具集成的自我验证方法(T1),该方法将记忆密集型的验证步骤委托给外部工具,如代码解释器。我们的理论分析表明,工具集成降低了记忆需求,并提升了测试时扩展的性能。在MATH基准测试上的实验显示,采用T1后,Llama-3.2 1B模型在测试时扩展下的表现超越了显著更大的Llama-3.1 8B模型。此外,T1在数学(MATH500)和多领域知识密集型任务(MMLU-Pro)上均展现出良好的泛化能力。我们的发现凸显了工具集成在显著提升sLMs自我验证能力方面的潜力。
區域級別圖像描述旨在為特定圖像區域生成自然語言描述,同時突出其顯著特徵。然而,現有方法在多粒度層面上難以產生獨特的描述,限制了其實際應用價值。為滿足對細粒度區域理解的需求,我們引入了URECA數據集,這是一個專為多粒度區域描述而設計的大規模數據集。與以往主要關注顯著物體的數據集不同,URECA數據集通過涵蓋多樣化的物體、部件及背景元素,確保了區域與描述之間獨特且一致的映射關係。其核心在於分階段的數據精煉流程,每個階段逐步優化區域選擇與描述生成。通過在每個階段利用多模態大語言模型(MLLMs),我們的流程產生了具有更高準確性和語義多樣性的獨特且語境化的描述。基於此數據集,我們提出了URECA模型,這是一種新穎的描述模型,旨在有效編碼多粒度區域。URECA通過對現有MLLMs進行簡單而有效的修改,保留了位置和形狀等關鍵空間屬性,從而實現了細粒度且語義豐富的區域描述。我們的方法引入了動態遮罩建模和高分辨率遮罩編碼器,以增強描述的獨特性。實驗表明,URECA在URECA數據集上達到了最先進的性能,並在現有的區域級別描述基準上展現出良好的泛化能力。
近期,推理語言模型的進展在複雜任務中展現了卓越的性能,但其延長的思維鏈推理過程增加了推理開銷。雖然量化技術已被廣泛應用於降低大型語言模型的推理成本,但其對推理模型的影響仍缺乏深入研究。在本研究中,我們首次對量化推理模型進行了系統性研究,評估了開源的DeepSeek-R1-Distilled Qwen和LLaMA系列模型(參數量從1.5B到70B)以及QwQ-32B模型。我們的研究涵蓋了權重、KV緩存和激活量化,使用了不同比特寬度的最先進算法,並在數學(AIME、MATH-500)、科學(GPQA)和編程(LiveCodeBench)推理基準上進行了廣泛評估。我們的研究結果表明,雖然W8A8或W4A16量化可以實現無損量化,但更低的比特寬度會引入顯著的準確性風險。我們進一步發現模型大小、模型來源和任務難度是性能的關鍵決定因素。與預期相反,量化模型並未表現出輸出長度增加的情況。此外,策略性地擴展模型大小或推理步驟可以有效提升性能。所有量化模型和代碼將開源於https://github.com/ruikangliu/Quantized-Reasoning-Models。
我們提出了VAPO(基於價值的增強近端策略優化框架),這是一個專為基於價值範式的推理模型量身定制的新穎框架。在AIME 2024數據集上進行基準測試時,基於Qwen 32B預訓練模型構建的VAPO取得了60.4的頂尖分數。在相同的實驗設置下進行直接比較,VAPO比之前報告的DeepSeek-R1-Zero-Qwen-32B和DAPO的結果高出10多分。VAPO的訓練過程以其穩定性和效率著稱,僅需5,000步即可達到頂尖性能。此外,在多次獨立運行中,未發生任何訓練崩潰,進一步凸顯了其可靠性。本研究深入探討了使用基於價值的強化學習框架進行長鏈思維(long-CoT)推理的過程。我們指出了困擾基於價值方法的三個關鍵挑戰:價值模型偏差、異質序列長度的存在以及獎勵信號的稀疏性。通過系統化設計,VAPO提供了一個綜合解決方案,有效緩解了這些挑戰,從而在長鏈思維推理任務中實現了更優的性能。
擴散模型在圖像編輯任務中得到了廣泛應用。現有的編輯方法通常通過在文本嵌入或分數空間中設計一個表示操作程序來進行編輯。然而,這種方法面臨一個關鍵挑戰:過高估計編輯強度會損害視覺一致性,而過低估計則無法完成編輯任務。值得注意的是,每個源圖像可能需要不同的編輯強度,而通過試錯法來尋找合適的強度成本高昂。為了解決這一挑戰,我們提出了概念手術刀(Concept Lancet, CoLan),這是一個零樣本即插即用的框架,用於在基於擴散的圖像編輯中進行有原則的表示操作。在推理時,我們將源輸入在潛在(文本嵌入或擴散分數)空間中分解為收集到的視覺概念表示的稀疏線性組合。這使我們能夠準確估計每個圖像中概念的存在,從而指導編輯。根據編輯任務(替換/添加/移除),我們執行定制的概念移植過程,以施加相應的編輯方向。為了充分建模概念空間,我們策劃了一個概念表示數據集CoLan-150K,其中包含了多樣化的視覺術語和短語的描述和場景,用於潛在字典。在多個基於擴散的圖像編輯基線上的實驗表明,配備了CoLan的方法在編輯效果和一致性保持方面達到了最先進的性能。
我們推出了LiveVQA,這是一個自動從網際網路收集最新視覺知識並合成視覺問答問題的數據集。LiveVQA包含來自6個新聞網站的3,602個單跳和多跳視覺問題,涵蓋14個新聞類別,具有高質量的圖文一致性和真實信息。我們對15種多模態大語言模型(如GPT-4o、Gemma-3和Qwen-2.5-VL系列)的評估顯示,更強大的模型整體表現更佳,其中先進的視覺推理能力對於處理複雜的多跳問題至關重要。儘管這些模型在文本問題上表現出色,但配備搜索引擎等工具的模型在處理需要最新視覺知識的視覺問題時仍存在顯著差距,這凸顯了未來研究的重要方向。
大型語言模型(LLMs)通過黑箱API的廣泛應用,帶來了一個重大的信任挑戰:用戶基於廣告宣傳的模型能力(如規模、性能)支付服務費用,但提供商可能暗中將指定模型替換為成本更低、質量較差的替代品,以降低運營成本。這種透明度的缺失損害了公平性,削弱了信任,並使可靠的基準測試變得複雜。由於黑箱性質,檢測此類替換十分困難,通常僅限於輸入輸出查詢。本文正式定義了LLM API中的模型替換檢測問題。我們系統地評估了現有的驗證技術,包括基於輸出的統計測試、基準評估和對數概率分析,在各種現實攻擊場景下(如模型量化、隨機替換和基準規避)的表現。我們的研究揭示了僅依賴文本輸出方法的侷限性,尤其是在面對微妙或自適應攻擊時。雖然對數概率分析在可用時提供了更強的保證,但其可訪問性往往受限。最後,我們討論了基於硬件的解決方案(如可信執行環境TEEs)作為實現可證明模型完整性的潛在途徑,強調了安全性、性能和提供商採用之間的權衡。代碼可在https://github.com/sunblaze-ucb/llm-api-audit獲取。
推理是人類智慧的核心,能夠在各種任務中實現結構化的問題解決。近年來,大型語言模型(LLMs)的進展極大地提升了其在算術、常識和符號領域的推理能力。然而,將這些能力有效擴展到多模態情境中——模型必須整合視覺和文本輸入——仍然是一個重大挑戰。多模態推理引入了複雜性,例如處理跨模態的衝突信息,這要求模型採用高級的解釋策略。應對這些挑戰不僅需要精密的算法,還需要評估推理準確性和連貫性的穩健方法。本文簡明而深入地概述了文本和多模態LLMs中的推理技術。通過全面且最新的比較,我們清晰地闡述了核心推理挑戰與機遇,並強調了訓練後優化和測試時推理的實用方法。我們的工作提供了寶貴的見解和指導,橋接了理論框架與實際應用,並為未來研究設定了明確的方向。
擴散模型將去噪分佈近似為高斯分佈並預測其均值,而流匹配模型則將高斯均值重新參數化為流速度。然而,由於離散化誤差,它們在少步採樣中表現不佳,並且在無分類器指導(CFG)下容易產生過飽和的顏色。為了解決這些限制,我們提出了一種新穎的高斯混合流匹配(GMFlow)模型:GMFlow不預測均值,而是預測動態高斯混合(GM)參數,以捕捉多模態的流速度分佈,並可以使用KL散度損失進行學習。我們證明,GMFlow推廣了先前的擴散和流匹配模型,這些模型使用L_2去噪損失學習單一高斯分佈。對於推理,我們推導了GM-SDE/ODE求解器,這些求解器利用解析去噪分佈和速度場進行精確的少步採樣。此外,我們引入了一種新穎的概率指導方案,該方案緩解了CFG的過飽和問題,並提高了圖像生成質量。大量實驗表明,GMFlow在生成質量上始終優於流匹配基線,在ImageNet 256×256上僅需6個採樣步驟即可達到0.942的精確度。
工具增強型大型語言模型(TA-LLMs)在實際應用中展現出潛力,但在處理不完整查詢和超出範圍的請求時仍面臨挑戰。雖然現有方法主要依賴於專家軌跡的監督微調,我們提出了DiaTool-DPO,這是一種通過直接偏好優化來增強TA-LLM對話能力的新方法。我們將TA-LLM的互動建模為具有五種不同對話狀態的馬可夫決策過程,並根據狀態轉移軌跡將用戶查詢分為三種類型。我們自動構建了正確與錯誤對話流程的配對軌跡數據集,並引入了一種專門用於對話控制的目標損失函數。我們的全面評估表明,DiaTool-DPO在信息收集(94.8%)和工具調用拒絕(91%)方面接近GPT-4o的性能,相較於基線(分別為44%和9.6%)有顯著提升,同時保持了核心功能。我們的方法為開發能夠處理多樣化現實場景的TA-LLMs開闢了新的可能性,而無需額外的專家示範或人工標註。
我們介紹了Clinical ModernBERT,這是一個基於Transformer的編碼器,預訓練於大規模生物醫學文獻、臨床筆記和醫學本體,整合了PubMed摘要、MIMIC IV臨床數據以及帶有文本描述的醫學代碼。基於當今最先進的自然語言文本編碼器ModernBERT,其架構升級包括旋轉位置嵌入(RoPE)、閃爍注意力(Flash Attention)以及擴展至8,192個標記的上下文長度,我們的模型特別針對生物醫學和臨床領域調整了這些創新。Clinical ModernBERT在生成語義豐富的表示方面表現卓越,尤其適合長上下文任務。我們通過分析其預訓練權重以及在全面的臨床自然語言處理基準上的實證評估來驗證這一點。
從單一圖像進行三維場景理解是計算機視覺中的一個關鍵問題,在圖形學、增強現實和機器人等領域具有眾多下游應用。儘管基於擴散的建模方法已顯示出潛力,但它們在保持物體和場景一致性方面往往面臨挑戰,尤其是在複雜的真實世界場景中。為解決這些限制,我們提出了一種稱為局部隨機存取序列(LRAS)建模的自回歸生成方法,該方法利用局部塊量化與隨機排序的序列生成。通過將光流作為三維場景編輯的中間表示,我們的實驗表明,LRAS在新視角合成和三維物體操控能力上達到了最先進的水平。此外,我們展示了該框架通過簡單的序列設計修改,自然延伸至自監督深度估計。在多項三維場景理解任務中實現強勁性能的同時,LRAS為構建下一代三維視覺模型提供了一個統一且有效的框架。
视觉基础模型(VFMs)和视觉-语言模型(VLMs)因其强大的泛化能力,在领域泛化语义分割(DGSS)中获得了广泛关注。然而,现有的DGSS方法往往仅依赖VFMs或VLMs之一,忽视了它们之间的互补优势。VFMs(如DINOv2)擅长捕捉细粒度特征,而VLMs(如CLIP)则提供了稳健的文本对齐能力,但在粗粒度上表现欠佳。尽管它们具有互补优势,但通过注意力机制有效整合VFMs和VLMs仍面临挑战,因为增加的补丁标记使得长序列建模变得复杂。为此,我们提出了MFuser,一种基于Mamba的新型融合框架,能够高效结合VFMs和VLMs的优势,同时保持序列长度的线性可扩展性。MFuser包含两个关键组件:MVFuser,作为联合微调这两个模型的共适配器,捕捉序列和空间动态;以及MTEnhancer,一种混合注意力-Mamba模块,通过融入图像先验来优化文本嵌入。我们的方法在不显著增加计算开销的情况下,实现了精确的特征局部性和强大的文本对齐能力。大量实验表明,MFuser在合成到真实和真实到真实的基准测试中分别达到了68.20 mIoU和71.87 mIoU,显著优于现有的DGSS方法。代码可在https://github.com/devinxzhang/MFuser获取。
我們介紹了BOP挑戰賽2024的評估方法、數據集及結果,這是為捕捉6D物體姿態估計及相關任務最新技術而舉辦的系列公開競賽中的第六屆。2024年,我們的目標是將BOP從實驗室般的設置過渡到現實世界場景。首先,我們引入了新的無模型任務,在這些任務中,沒有3D物體模型可用,方法需要僅從提供的參考視頻中對物體進行上線。其次,我們定義了一個新的、更實用的6D物體檢測任務,其中測試圖像中可見物體的身份不作為輸入提供。第三,我們引入了新的BOP-H3數據集,這些數據集使用高分辨率傳感器和AR/VR頭戴設備記錄,非常接近現實世界場景。BOP-H3包括3D模型和上線視頻,以支持基於模型和無模型的任務。參賽者在七個挑戰賽道上競爭,每個賽道由一個任務、物體上線設置和數據集組定義。值得注意的是,2024年用於未見物體基於模型的6D定位的最佳方法(FreeZeV2.1)在BOP-Classic-Core上的準確率比2023年的最佳方法(GenFlow)高出22%,並且僅比2023年用於已見物體的最佳方法(GPose2023)低4%,儘管速度顯著較慢(每張圖像24.9秒對比2.7秒)。對於這一任務,2024年更實用的方法是Co-op,每張圖像僅需0.8秒,比GenFlow快25倍且準確率高13%。在6D檢測上,方法的排名與6D定位相似,但運行時間更長。在未見物體的基於模型的2D檢測上,2024年的最佳方法(MUSE)相比2023年的最佳方法(CNOS)實現了21%的相對提升。然而,未見物體的2D檢測準確率仍顯著落後於已見物體的準確率(GDet2023)53%。在線評估系統保持開放,可訪問http://bop.felk.cvut.cz/。
我們提出了一種新穎的方法,用於訓練小型語言模型進行推理密集型的文檔排序,該方法結合了知識蒸餾與強化學習優化。現有方法通常依賴於昂貴的人工標註或大型黑箱語言模型,而我們的方法則利用網絡數據和一個教師大型語言模型(LLM)來自動生成高質量的訓練示例,並附帶相關性解釋。通過將文檔排序框架化為強化學習問題,並激勵顯式推理能力,我們訓練了一個僅有30億參數的緊湊型語言模型,該模型在BRIGHT基準測試中達到了最先進的性能。我們的模型在排行榜上位列第三,同時使用的參數數量遠少於其他方法,甚至超越了參數量超過其20倍的模型。通過大量實驗,我們證明了在推理過程中生成解釋,而非直接預測相關性分數,能夠使小型語言模型實現更有效的推理。我們方法的自監督特性為現代信息檢索系統提供了一個可擴展且可解釋的解決方案。
多模態大型語言模型(MLLMs)在視覺-語言任務中表現卓越,但也存在生成有害內容的重大風險,尤其是通過越獄攻擊。越獄攻擊指的是故意操縱模型以繞過其安全機制,從而生成不當或不安全的內容。檢測此類攻擊對於確保MLLMs的負責任部署至關重要。現有的越獄檢測方法面臨三大挑戰:(1) 許多方法依賴於模型的隱藏狀態或梯度,這限制了它們僅適用於白盒模型,即模型的內部運作是可訪問的;(2) 它們涉及基於不確定性分析的高計算開銷,這限制了實時檢測的能力;以及(3) 它們需要完全標記的有害數據集,這在現實場景中往往稀缺。為解決這些問題,我們引入了一種名為JAILDAM的測試時自適應框架。我們的方法利用基於記憶的策略驅動的不安全知識表示,消除了對有害數據的顯式暴露需求。通過在測試時動態更新不安全知識,我們的框架提高了對未見過的越獄策略的泛化能力,同時保持了效率。在多個VLM越獄基準上的實驗表明,JAILDAM在有害內容檢測方面達到了最先進的性能,提升了準確性和速度。
增加測試時的計算量已成為提升語言模型性能的一個有前景的方向,尤其是在模型微調因計算資源限制或模型權重私有化而不可行或無法實施的場景中。然而,現有的基於獎勵模型(RM)的測試時搜索方法,隨著計算規模的擴大,往往會因過度優化本質上不完美的獎勵代理而導致質量下降。我們引入了QAlign,一種新的測試時對齊方法。隨著測試時計算量的增加,QAlign會收斂於從每個特定提示的最優對齊分佈中採樣。通過採用文本生成領域中馬爾可夫鏈蒙特卡洛方法的最新進展,我們的方法能夠在不修改底層模型甚至無需訪問logit的情況下,生成更為對齊的輸出。我們在數學推理基準(GSM8K和GSM-Symbolic)上使用任務特定的RM展示了QAlign的有效性,相比於現有的測試時計算方法如best-of-n和多數投票,QAlign展現了持續的改進。此外,當應用於基於Tulu 3偏好數據集訓練的更為現實的RM時,QAlign在多樣化的數據集(GSM8K、MATH500、IFEval、MMLU-Redux和TruthfulQA)上均優於直接偏好優化(DPO)、best-of-n、多數投票和加權多數投票。作為一種利用額外計算在測試時對齊語言模型且不導致性能下降的實用解決方案,我們的方法拓展了無需進一步訓練即可從現成語言模型中獲取的能力極限。
大型语言模型(LLMs)在全球范围内以前所未有的速度发展,各地区越来越多地采用这些模型应用于其母语场景。在多样化的语言环境中,尤其是在低资源语言中,对这些模型的评估已成为学术界和工业界面临的主要挑战。现有的评估框架过度集中于英语和少数高资源语言,从而忽视了LLMs在多语言及低资源情境下的实际表现。为填补这一空白,我们引入了GlotEval,一个专为大规模多语言评估设计的轻量级框架。GlotEval支持七大核心任务(机器翻译、文本分类、摘要生成、开放式生成、阅读理解、序列标注及内在评估),涵盖数十至数百种语言,强调一致的多语言基准测试、语言特定的提示模板以及非英语中心的机器翻译。这使得我们能够精准诊断模型在不同语言环境下的优势与不足。通过一个多语言翻译的案例研究,展示了GlotEval在多语言及特定语言评估中的适用性。
大型语言模型(LLMs)在不同语言间的表现存在显著差异,主要惠及高资源语言,而边缘化了资源匮乏的语言。持续预训练(CPT)作为一种有前景的方法,旨在解决这一不平衡问题,然而单语、双语及代码增强数据策略的相对有效性仍不明确。本研究系统评估了36种CPT配置,涉及三个多语言基础模型,覆盖30多种语言,这些语言根据其资源水平被分类为利他型、自私型和停滞型。我们的研究揭示了三大发现:(1)双语CPT提升了多语言分类能力,但在生成过程中常引发语言混杂问题。(2)在CPT过程中加入编程代码数据持续提高了多语言分类的准确性,尤其对低资源语言有益,但以轻微降低生成质量为代价。(3)与先前研究相反,我们观察到语言分类对其跨语言迁移影响存在显著偏差:被归类为利他型的语言往往对相关语言产生负面影响,自私型语言表现出条件性和配置依赖性的行为,而停滞型语言在某些CPT条件下展现出令人惊讶的适应能力。这些细微的交互作用凸显了多语言表示学习的复杂性,强调了系统性研究可推广的语言分类对于指导未来多语言CPT策略的重要性。