每日精選AI研究論文及翻譯
我們推出BitNet b1.58 2B4T,這是首個開源的、原生1位元大型語言模型(LLM),參數規模達20億。該模型在4萬億個token的語料庫上進行訓練,並在多個基準測試中進行了嚴格評估,涵蓋語言理解、數學推理、編碼能力及對話技巧。我們的結果顯示,BitNet b1.58 2B4T在性能上與同規模的領先開源全精度LLM相當,同時在計算效率方面具有顯著優勢,包括大幅降低的記憶體佔用、能耗及解碼延遲。為促進進一步研究與應用,我們通過Hugging Face發布了模型權重,並提供了適用於GPU和CPU架構的開源推理實現。
儘管通過強化學習(RL)訓練的推理模型(如DeepSeek R1)在文本推理方面表現出色,但在需要結構化問題解決的場景中,如幾何推理、簡潔計算或複雜方程求解,這些模型卻顯得力不從心——這些領域正是代碼解釋器(CI)等計算工具展現出明顯優勢的地方。為彌合這一差距,我們提出了ReTool,它通過工具集成學習增強了長篇推理能力,具備兩大關鍵特性:(1)在自然語言推理過程中動態交織實時代碼執行;(2)自動化RL範式,支持多輪實時代碼執行的策略推演,並基於結果反饋教導模型何時及如何調用工具。ReTool採用系統化的訓練框架,首先生成合成冷啟動數據以產生代碼增強的長篇推理軌跡,用於微調基礎模型。隨後的RL訓練利用任務結果作為獎勵,迭代優化模型的工具使用策略,使其無需人類先驗知識即可自主發現最佳工具調用模式。在具有挑戰性的數學奧林匹克競賽基準AIME上的實驗證明了ReTool的優越性:我們的32B模型僅需400次訓練步驟便達到了67%的準確率,在效率和性能上均優於基於文本的RL基線(40%準確率,1080步)。值得注意的是,ReTool-32B在擴展設置中達到了72.5%的準確率,超越了OpenAI的o1-preview模型27.9%。進一步分析揭示了諸如代碼自我修正等湧現行為,標誌著模型自主掌握適應性工具使用的“頓悟時刻”。這些發現凸顯了結果驅動的工具集成在推進複雜數學推理方面的潛力,並為混合神經符號系統提供了新的見解。
色彩在人類感知中扮演著重要角色,通常為視覺推理提供關鍵線索。然而,視覺語言模型(VLMs)是否以及如何像人類一樣感知、理解並利用色彩,尚不明確。本文介紹了ColorBench,這是一個精心設計的創新基準,旨在評估VLMs在色彩理解方面的能力,包括色彩感知、推理及魯棒性。通過基於實際應用場景策劃一系列多樣化的測試情境,ColorBench評估這些模型如何感知色彩、從基於色彩的線索中推斷含義,以及在各種色彩變換下保持一致的性能。通過對32個採用不同語言模型和視覺編碼器的VLMs進行廣泛評估,本文揭示了一些未被發現的發現:(i) 規模法則(更大的模型表現更好)在ColorBench上依然成立,而語言模型比視覺編碼器扮演更重要的角色。(ii) 然而,各模型間的性能差距相對較小,表明現有VLMs在很大程度上忽視了色彩理解。(iii) 儘管這些任務以視覺為中心,但CoT推理提高了色彩理解的準確性和魯棒性。(iv) VLMs在ColorBench上確實利用了色彩線索,但在某些任務中色彩線索也可能誤導模型。這些發現凸顯了當前VLMs的關鍵局限性,並強調了增強色彩理解能力的必要性。我們的ColorBench可作為推進多模態AI達到人類水平色彩理解研究的基礎工具。
漫畫製作行業需要基於參考的線稿上色技術,要求具備高精度、高效率、上下文一致性以及靈活的控制能力。一頁漫畫通常包含多樣的角色、物體和背景,這使得上色過程變得複雜。儘管擴散模型在圖像生成方面取得了進展,但其在線稿上色中的應用仍有限,面臨處理大量參考圖像、耗時的推理過程以及靈活控制的挑戰。我們探討了廣泛上下文圖像指導對線稿上色質量的必要性。為應對這些挑戰,我們提出了Cobra,這是一種高效且多功能的方法,支持顏色提示並利用超過200張參考圖像,同時保持低延遲。Cobra的核心是因果稀疏DiT架構,該架構利用特別設計的位置編碼、因果稀疏注意力機制和鍵值緩存,有效管理長上下文參考並確保顏色身份的一致性。結果表明,Cobra通過廣泛的上下文參考實現了精確的線稿上色,顯著提升了推理速度和交互性,從而滿足了關鍵的工業需求。我們已在項目頁面發佈了代碼和模型:https://zhuang2002.github.io/Cobra/。
本研究重新审视了当前主流的训练大型视觉语言模型(LVLMs)的范式——先进行监督微调(SFT),再进行强化学习(RL),并揭示了一个关键发现:SFT可能会通过引入从专家模型模仿而来的“伪推理路径”严重削弱后续的RL效果。尽管这些路径可能与RL模型的原生推理路径相似,但它们往往包含冗长、犹豫、信息量较少的步骤以及错误的推理。为了系统研究这一现象,我们引入了VLAA-Thinking,这是一个新的多模态数据集,旨在支持LVLMs的推理能力。该数据集通过包含标注、推理蒸馏、答案重写和验证的六步流程构建,提供了高质量的逐步视觉推理轨迹用于SFT,以及来自同一数据源的更具挑战性的RL分割。利用该数据集,我们进行了广泛的实验,比较了SFT、RL及其组合的效果。结果表明,虽然SFT有助于模型学习推理格式,但它往往会使对齐模型陷入模仿性、僵化的推理模式,阻碍进一步学习。相比之下,基于群组相对策略优化(GRPO)并结合感知与认知信号的新型混合奖励模块,我们的RL方法促进了更真实、适应性更强的推理行为。值得注意的是,基于Qwen2.5VL 3B的模型VLAA-Thinker在Open LMM推理排行榜(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)上取得了4B规模LVLMs中的Top-1性能,超越了之前的最先进水平1.8%。我们希望我们的发现能为开发具备推理能力的LVLMs提供有价值的见解,并能为该领域的未来研究提供参考。
AlayaDB 是一款前沿的向量数据库系统,专为 AlayaDB AI 中的大型语言模型(LLMs)高效且有效的长上下文推理而原生设计。具体而言,它将键值缓存(KV cache)和注意力计算从 LLM 推理系统中解耦,并将其封装为一个创新的向量数据库系统。对于模型即服务(MaaS)提供商而言,与现有替代方案(如键值缓存分离、基于检索的稀疏注意力)相比,AlayaDB 在消耗更少硬件资源的同时,为不同服务级别目标(SLOs)的各类工作负载提供了更高的生成质量。AlayaDB 的核心在于它将 LLM 推理中的注意力计算和缓存管理抽象为查询处理流程,并通过原生查询优化器优化性能。在本研究中,我们通过(i)来自行业合作伙伴的三个用例,以及(ii)在 LLM 推理基准上的广泛实验结果,展示了 AlayaDB 的有效性。
本文探討了一個根本性問題:「我們能否以端到端的方式同時訓練潛在擴散模型與變分自編碼器(VAE)分詞器?」傳統深度學習的智慧表明,端到端訓練在可能的情況下通常是更優的選擇。然而,對於潛在擴散變換器而言,觀察到使用標準擴散損失同時訓練VAE和擴散模型是無效的,甚至會導致最終性能的下降。我們展示了,雖然擴散損失無效,但通過表示對齊(REPA)損失可以解鎖端到端訓練——允許在訓練過程中聯合調節VAE和擴散模型。儘管其簡單,所提出的訓練方案(REPA-E)展現了顯著的性能;相比REPA和傳統訓練方案,分別加速了擴散模型訓練超過17倍和45倍。有趣的是,我們觀察到使用REPA-E進行端到端調節也改善了VAE本身;導致潛在空間結構的改善以及下游生成性能的提升。就最終性能而言,我們的方法設定了新的技術前沿;在ImageNet 256 x 256上,無論是否使用無分類器指導,均達到了1.26和1.83的FID分數。代碼可在https://end2end-diffusion.github.io獲取。
現有針對大型語言模型(LLM)代理在科學發現領域的評估,缺乏客觀的基準和指標來評估其提出方法的可行性。為解決這一問題,我們引入了MLRC-Bench,這是一個旨在量化語言代理如何有效應對具挑戰性的機器學習(ML)研究競賽的基準。我們的基準強調了需要新方法論的開放研究問題,與近期如OpenAI的MLE-Bench(Chan等,2024)和METR的RE-Bench(Wijk等,2024)等聚焦於已確立且主要通過足夠工程努力即可解決的研究任務的基準形成對比。與先前工作(例如,AI Scientist(Lu等,2024b))不同,後者通過使用LLM作為評判者來評估端到端的代理流程,MLRC-Bench則衡量提出和實施新研究方法的關鍵步驟,並以新提出的嚴格協議和客觀指標進行評估。我們精心挑選的7項競賽任務揭示了LLM代理面臨的重大挑戰。即使表現最佳的測試代理(在MLAB(Huang等,2024a)下的gemini-exp-1206)也僅縮小了基線與頂尖人類參與者分數之間差距的9.3%。此外,我們的分析揭示了LLM評判的創新性與其在尖端ML研究問題上的實際表現之間存在偏差。MLRC-Bench是一個動態基準,旨在隨著新ML競賽的加入而不斷發展,以鼓勵對AI研究能力進行嚴格和客觀的評估。
我們推出了SIFT(語音指令微調)數據集,這是一個包含5000萬個樣本的數據集,專為語音-文本大語言模型(LLMs)的指令微調與預訓練而設計。SIFT-50M基於公開可用的語音語料庫構建,這些語料庫總計包含14,000小時的語音,並結合了LLMs及現成的專家模型。該數據集涵蓋五種語言,包含多樣化的語音理解及可控語音生成指令。利用SIFT-50M,我們訓練了SIFT-LLM,其在指令跟蹤基準測試中超越了現有的語音-文本LLMs,同時在基礎語音任務上表現出競爭力。為了支持進一步研究,我們還引入了EvalSIFT,這是一個專門設計用於評估語音-文本LLMs指令跟蹤能力的基準數據集。
理想的機器生成內容檢測系統應能有效應對任何生成器,因為日益先進的大型語言模型(LLM)不斷湧現。現有系統在準確識別短文本中的AI生成內容方面往往力不從心。此外,並非所有文本都完全由人類或LLM創作,因此我們更關注部分情況,即人機協作撰寫的文本。本文介紹了一組專為標記分類任務構建的模型,這些模型在大量人機協作文本上進行訓練,並在未見領域、未見生成器、非母語者撰寫的文本以及對抗性輸入的文本上表現出色。我們還引入了一個包含超過240萬條此類文本的新數據集,這些文本主要由多個流行的專有LLM在23種語言中協作完成。我們還展示了模型在各領域和各生成器文本上的性能表現。其他發現包括與每種對抗方法的性能比較、輸入文本的長度,以及生成文本與原始人類撰寫文本的特徵對比。
我們提出了CAL(Complete Anything in Lidar)方法,用於基於激光雷達的野外形狀補全。這與基於激光雷達的語義/全景場景補全密切相關。然而,現有方法僅能從現有激光雷達數據集中標註的封閉詞彙表中完成和識別物體。與此不同,我們的零樣本方法利用多模態傳感器序列的時間上下文來挖掘觀測物體的形狀和語義特徵。這些特徵隨後被提煉成一個僅依賴激光雷達的實例級補全與識別模型。儘管我們只挖掘了部分形狀補全,但我們發現,通過數據集中多個此類部分觀測,我們的提煉模型能夠學習推斷出完整的物體形狀。我們展示了該模型可在語義和全景場景補全的標準基準上進行提示,將物體定位為(無模態)3D邊界框,並識別超出固定類別詞彙表的物體。我們的項目頁面為https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar。
從隨意拍攝的單目影片中重建四維動態場景具有重要價值,但也極具挑戰性,因為每個時間點僅能從單一視角進行觀察。我們提出了Vivid4D,這是一種新穎的方法,通過增加觀察視角來增強四維單目影片的合成——從單目輸入中合成多視角影片。與現有方法不同,這些方法要么僅利用幾何先驗進行監督,要么使用生成先驗卻忽視幾何信息,我們將兩者結合起來。這將視角增強重新表述為一個影片修補任務,其中觀察到的視角基於單目深度先驗被扭曲到新的視角。為實現這一點,我們在未標定姿勢的網絡影片上訓練了一個影片修補模型,使用模擬扭曲遮擋的合成遮罩,確保缺失區域在空間和時間上的一致性補全。為了進一步減輕單目深度先驗中的不準確性,我們引入了迭代視角增強策略和魯棒的重建損失。實驗表明,我們的方法有效提升了單目四維場景的重建和補全效果。
鏈式思維(CoT)提示通過將問題分解為連續步驟,模仿人類邏輯並減少錯誤,從而增強大型語言模型(LLMs)的推理能力。然而,具有廣闊解空間和模糊約束的複雜任務往往超出單一推理鏈的能力範圍。受交換代數和代數幾何中最小自由分解(MFR)的啟發,我們提出了思維的合衝(SoT)——一個通過引入輔助且相互關聯的推理路徑來擴展CoT的新框架。SoT捕捉更深層的邏輯依賴,實現更為穩健和結構化的問題解決。MFR將模塊分解為一系列具有最小秩的自由模塊,為複雜系統提供結構化的分析方法。該方法引入了“模塊”、“Betti數”、“自由性”、“映射”、“精確性”和“最小性”等概念,使原始複雜問題能夠系統地分解為邏輯完整的最小子問題,同時保留關鍵問題特徵並縮短推理長度。我們在多樣化的數據集(如GSM8K、MATH)和模型(如GPT-4o-mini、Qwen2.5)上測試了SoT,其推理準確性達到或超越了主流CoT標準。此外,通過將採樣過程與代數約束對齊,我們的方法提升了LLMs推理時間的可擴展性,確保了推理的透明性和高性能。我們的代碼將公開於https://github.com/dlMARiA/Syzygy-of-thoughts。
近期,3D高斯溅射(3DGS)技術的進展在新視角合成任務中展現了顯著潛力。分而治之的範式雖已實現大規模場景重建,但在場景分割、優化與合併過程中仍面臨重大挑戰。本文提出BlockGaussian,這是一個創新框架,融合了內容感知的場景分割策略與可見性感知的區塊優化,旨在實現高效且高質量的大規模場景重建。具體而言,我們的方法考慮了不同區域間內容複雜度的變化,並在場景分割時平衡計算負載,從而提升場景重建效率。為解決獨立區塊優化過程中的監督不匹配問題,我們在個別區塊優化時引入輔助點,以對齊真實監督,從而提升重建質量。此外,我們提出了一種偽視圖幾何約束,有效緩解了區塊合併時因空域漂浮物導致的渲染退化問題。在大規模場景上的廣泛實驗表明,我們的方法在重建效率與渲染質量上均達到了業界領先水平,優化速度提升了5倍,並在多個基準測試中平均PSNR提升了1.21 dB。值得注意的是,BlockGaussian顯著降低了計算需求,使得在單一24GB顯存設備上進行大規模場景重建成為可能。項目頁面請訪問https://github.com/SunshineWYC/BlockGaussian。
我們介紹了FreshStack,這是一個可重用的框架,用於從社區提問與回答中自動構建信息檢索(IR)評估基準。FreshStack執行以下步驟:(1) 從代碼和技術文檔中自動收集語料,(2) 從社區提問與回答中生成信息片段,(3) 信息片段級別的支持,通過融合檢索技術和混合架構來檢索文檔。我們使用FreshStack構建了五個關於快速發展、新近及小眾主題的數據集,以確保任務具有足夠的挑戰性。在FreshStack上,現有的檢索模型在直接應用時,在所有五個主題上均顯著落後於理想方法,表明在提升IR質量方面仍有很大空間。此外,我們發現重排序器並未在所有情況下明顯提升第一階段檢索的準確性(五個主題中有兩個)。我們希望FreshStack能促進未來在構建真實、可擴展且無污染的IR和RAG評估基準方面的工作。FreshStack數據集可在以下網址獲取:https://fresh-stack.github.io。
近期人工智慧(AI)語音生成與聲音克隆技術的進步,已能產出自然流暢的語音及精確的聲音複製,然而這些技術對跨多種口音與語言特徵的社會技術系統之影響尚未被充分理解。本研究透過混合方法,結合問卷調查與訪談,評估兩種合成AI語音服務(Speechify與ElevenLabs),以檢視其技術表現,並探討使用者的生活經驗如何影響他們對這些語音技術中口音變化的感知。我們的研究結果揭示了五種地區性英語口音間的技術表現差異,並顯示當前的語音生成技術可能無意中強化了語言特權與基於口音的歧視,潛在地創造了新型態的數位排斥。總體而言,本研究強調了包容性設計與規範的必要性,為開發者、政策制定者及組織提供了可操作的見解,以確保AI語音技術的公平性與社會責任。