每日精選AI研究論文及翻譯
自監督學習有望消除手動數據標註的需求,使模型能夠輕鬆擴展至大規模數據集和更龐大的架構。由於不針對特定任務或領域進行定制,這一訓練範式具備從多樣化來源(從自然圖像到航拍圖像)學習視覺表徵的潛力——僅需使用單一算法。本技術報告介紹了DINOv3,這是實現這一願景的重要里程碑,通過採用簡單而有效的策略。首先,我們通過精心的數據準備、設計和優化,充分利用了數據集和模型規模擴展的優勢。其次,我們引入了一種名為Gram錨定的新方法,有效解決了在長時間訓練過程中密集特徵圖退化的已知但未解問題。最後,我們應用事後策略,進一步增強了模型在分辨率、模型大小及與文本對齊方面的靈活性。結果,我們提出了一個多功能視覺基礎模型,在廣泛的設置中無需微調即超越了專門化的最新技術。DINOv3生成的高質量密集特徵在各種視覺任務上表現卓越,顯著超越了先前的自監督和弱監督基礎模型。我們還分享了DINOv3視覺模型套件,旨在通過為多樣的資源限制和部署場景提供可擴展的解決方案,推動廣泛任務和數據上的技術前沿。
本研究探討大型語言模型(LLMs)作為強化學習(RL)中代理搜索任務高效模擬器的潛力,從而減少對外部搜索引擎昂貴交互的依賴。為此,我們首先通過結構化提示和重複採樣量化LLMs的內在搜索能力,稱之為自我搜索(Self-Search)。結果顯示,LLMs在推理預算方面表現出強烈的規模效應,在問答基準測試(包括具有挑戰性的BrowseComp任務)中實現了高pass@k。基於這些觀察,我們引入了自我搜索強化學習(SSRL),通過基於格式和基於規則的獎勵增強LLMs的自我搜索能力。SSRL使模型能夠在內部迭代優化其知識利用,而無需訪問外部工具。實證評估表明,經過SSRL訓練的策略模型為搜索驅動的RL訓練提供了一個成本效益高且穩定的環境,減少了對外部搜索引擎的依賴,並促進了穩健的模擬到現實的轉移。我們得出以下結論:1)LLMs具備可有效引導以實現高性能的世界知識;2)SSRL展示了利用內部知識減少幻覺的潛力;3)經過SSRL訓練的模型無需額外努力即可與外部搜索引擎無縫集成。我們的研究結果凸顯了LLMs在支持更具可擴展性的RL代理訓練方面的潛力。
繼OpenAI提出「圖像思維」概念後,近期研究探索了在推理過程中激發視覺信息的使用,以提升模型在感知和推理任務中的表現。然而,據我們所知,目前尚無開源工作能提供與專有模型(O3)相媲美的豐富功能集,這些模型能夠執行多樣的圖像操作,並通過代碼同時增強邏輯推理能力。本文中,我們初步嘗試這一方向,引入了Thyme(超越圖像思考),這是一種新穎的範式,旨在使多模態大語言模型(MLLMs)超越現有的「圖像思維」方法,通過可執行代碼自主生成並執行多樣的圖像處理和計算操作。此方法不僅促成了豐富的即時圖像操作(如裁剪、旋轉、對比度增強),還允許進行數學計算,同時在決定何時及如何應用這些操作時保持高度自主性。我們通過兩階段訓練策略激活這一能力:首先在精選的50萬樣本數據集上進行監督微調(SFT)以教授代碼生成,隨後進行強化學習(RL)階段以精煉決策。在RL階段,我們手動收集並設計高分辨率問答對以增加學習難度,並提出GRPO-ATS(自適應溫度採樣的群組相對策略優化),這是一種算法,對文本和代碼生成應用不同的溫度,以平衡推理探索與代碼執行精度。我們進行了廣泛的實驗分析和消融研究。在近20個基準上的全面評估顯示,Thyme在具有挑戰性的高分辨率感知和複雜推理任務中,帶來了顯著且一致的性能提升。
近期在大規模語言模型(LLM)預訓練領域的進展表明,單純增加數據量最終會導致收益遞減,遭遇數據瓶頸。對此,利用合成數據進行預訓練已成為推動性能前沿的一種有前景的範式。然而,影響合成數據質量的因素仍知之甚少。本研究中,我們引入了BeyondWeb,這是一個用於生成高質量合成數據的框架,專為預訓練設計。BeyondWeb顯著擴展了傳統網絡規模數據集的能力,在一系列14項基準評估中,其平均表現分別超過了當前最先進的合成預訓練數據集Cosmopedia和Nemotron-CC的高質量合成子集(Nemotron-Synth)達5.1個百分點(pp)和2.6個百分點。與開放網絡數據相比,它提供了高達7.7倍的訓練速度提升,與Nemotron-Synth相比則提升了2.7倍。值得注意的是,在BeyondWeb上訓練了180B個token的3B模型,其表現優於在Cosmopedia上以相同token預算訓練的8B模型。我們還從BeyondWeb中提煉了關於合成數據預訓練的幾點洞見:其優勢的驅動因素、哪些數據需要重述及如何重述,以及模型規模和家族對數據質量的影響。總體而言,我們的工作表明,生成高質量合成預訓練數據並無萬能之策。最佳結果需要多因素聯合優化,這是一項需要嚴謹科學與實踐經驗的挑戰性任務。簡單的方法可能帶來有限的改進,卻可能付出巨大代價,而執行得當的方法則能帶來變革性的提升,BeyondWeb便是明證。
尽管大型语言模型(LLM)推理已成为众多下游应用中的关键工作负载,但由于其庞大的内存占用和带宽需求,高效地进行LLM推理仍面临挑战。与此同时,过去几十年间,计算能力的提升速度持续超越内存容量和带宽的增长,这一趋势在现代GPU硬件中依然明显,并加剧了LLM推理的难度。因此,新兴算法正通过增加计算量来换取内存操作的减少。为此,我们提出了XQuant,它充分利用了这一趋势,通过低比特量化实现了内存消耗的显著降低,相较于最先进的键值(KV)缓存量化方法,在准确性上具有显著优势。我们通过量化并缓存层输入激活值X,而非采用标准的KV缓存,并在推理过程中即时重构键和值,从而实现了相比KV缓存立即节省2倍内存的效果。应用XQuant后,我们实现了高达约7.7倍的内存节省,且与FP16基线相比,困惑度下降小于0.1。此外,我们的方法利用了X值在层间相似的特点。基于这一观察,我们进一步引入了XQuant-CL,它利用X嵌入中的跨层相似性进行极致压缩。在不同模型中,XQuant-CL相对于FP16基线实现了高达10倍的内存节省,且困惑度仅下降0.01;或在困惑度仅下降0.1的情况下,实现了12.5倍的内存节省。XQuant通过利用硬件平台快速提升的计算能力,消除了内存瓶颈,同时超越了最先进的KV缓存量化方法,在多种模型中实现了接近FP16的精度。
論文檢索是研究人員的一項重要活動,通常涉及使用描述主題的查詢來尋找相關論文。隨著研究的深入,論文檢索的需求可能變得更加靈活,有時會涉及特定細節,如模組配置,而不僅僅限於粗粒度的主題。然而,現有的論文檢索系統無法滿足這些靈活粒度的需求,因為這些系統主要收集論文摘要來構建語料庫索引,缺乏詳細資訊以支持更細粒度的查詢檢索。在本研究中,我們提出了PaperRegister,它由離線分層索引和線上自適應檢索組成,將傳統基於摘要的索引轉化為分層索引樹,從而支持靈活粒度的查詢。在一系列粒度範圍的論文檢索任務上的實驗表明,PaperRegister達到了最先進的性能,特別是在細粒度場景中表現出色,突顯了其作為現實應用中靈活粒度論文檢索有效解決方案的巨大潛力。本研究的程式碼位於https://github.com/Li-Z-Q/PaperRegister。
我們推出了TexVerse,這是一個包含高分辨率紋理的大規模3D數據集。儘管近年來大規模3D數據集的進展提升了高分辨率幾何生成的能力,但由於缺乏合適的數據集,端到端的高分辨率紋理生成仍未被充分探索。TexVerse填補了這一空白,它精選了來自Sketchfab的超過858K個獨特的高分辨率3D模型,其中包括超過158K個基於物理渲染(PBR)材質的模型。每個模型都涵蓋了其所有高分辨率變體,總計達到1.6M個3D實例。TexVerse還包含專門的子集:TexVerse-Skeleton,擁有69K個綁定骨骼的模型,以及TexVerse-Animation,包含54K個動畫模型,兩者均保留了用戶上傳的原始骨骼和動畫數據。我們還提供了詳細的模型註釋,描述了模型的整體特徵、結構組件和精細特徵。TexVerse提供了一個高質量的數據資源,具有廣泛的潛在應用,包括紋理合成、PBR材質開發、動畫以及各種3D視覺和圖形任務。
近期,音频驱动的人物肖像动画技术取得了显著进展。然而,现有方法在满足多维度细粒度人类偏好方面仍面临挑战,如动作自然度、口型同步精确度及视觉质量等。这一困境源于在相互冲突的偏好目标间进行优化的难度,以及缺乏大规模、高质量且带有多维偏好标注的数据集。为解决这些问题,我们首先引入了Talking-Critic,一种多模态奖励模型,它学习与人类对齐的奖励函数,以量化生成视频在多大程度上满足了多维度的期望。借助此模型,我们构建了Talking-NSQ,一个包含41万偏好对的大规模多维度人类偏好数据集。最后,我们提出了时间步-层级自适应多专家偏好优化(TLPO),这是一种新颖的框架,旨在将基于扩散的人物肖像动画模型与细粒度、多维度的偏好对齐。TLPO将偏好解耦为专门的专家模块,随后在时间步和网络层级间进行融合,从而在不相互干扰的情况下,实现所有维度的全面、细粒度提升。实验表明,Talking-Critic在与人偏好评分对齐方面显著优于现有方法。同时,TLPO在口型同步精确度、动作自然度及视觉质量上较基线模型实现了大幅提升,在定性与定量评估中均展现出卓越性能。我们的项目页面:https://fantasy-amap.github.io/fantasy-talking2/
我們介紹了StyleMM,這是一個新穎的框架,能夠基於用戶定義的文本描述來構建風格化的3D可變形模型(3DMM)。該方法建立在預先訓練的網格變形網絡和用於原始3DMM基礎的真實人臉紋理生成器之上,通過使用擴散模型進行文本引導的圖像到圖像(i2i)翻譯生成的風格化面部圖像來微調這些模型,這些圖像作為渲染網格的風格化目標。為了防止在i2i翻譯過程中出現不期望的身份、面部對齊或表情變化,我們引入了一種明確保留源圖像面部屬性的風格化方法。通過在圖像風格化過程中保持這些關鍵屬性,所提出的方法確保了通過基於圖像的訓練在3DMM參數空間中實現一致的3D風格轉移。一旦訓練完成,StyleMM能夠實現前饋生成風格化面部網格,並對形狀、表情和紋理參數進行顯式控制,生成具有一致頂點連接性和可動畫性的網格。定量和定性評估表明,我們的方法在身份級別的面部多樣性和風格化能力方面優於最先進的方法。代碼和視頻可在[kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page)獲取。
圖神經網絡(GNNs)通過捕捉數據實例間的結構依賴性,在計算機視覺和醫學影像分類任務中取得了頂尖的成果。然而,其決策過程仍大多不透明,這限制了其在需要高解釋性的關鍵臨床應用中的可信度。現有的GNN可解釋性技術通常為事後且全局性的,對單個節點決策或局部推理的洞察有限。我們提出了X-Node,這是一種自解釋的GNN框架,其中每個節點在預測過程中生成自己的解釋。對於每個節點,我們構建了一個結構化的上下文向量,編碼了其局部拓撲中的可解釋線索,如度數、中心性、聚類、特徵顯著性和標籤一致性。一個輕量級的推理模塊將此上下文映射為一個緊湊的解釋向量,該向量具有三個目的:(1) 通過解碼器重建節點的潛在嵌入以確保忠實性,(2) 使用預訓練的大型語言模型(如Grok或Gemini)生成自然語言解釋,以及(3) 通過“文本注入”機制將解釋反饋到消息傳遞管道中,從而引導GNN本身。我們在源自MedMNIST和MorphoMNIST的兩個圖數據集上評估了X-Node,並將其與GCN、GAT和GIN骨幹網絡集成。結果顯示,X-Node在保持競爭性分類精度的同時,能夠生成忠實的、針對每個節點的解釋。代碼庫:https://github.com/basiralab/X-Node。
隨著多模態大型語言模型(MLLMs)的廣泛應用,將其適應於多樣化的用戶需求變得日益重要。本文中,我們研究通過控制解碼來適應MLLMs的方法。為此,我們首次提出了一種基於獎勵引導的MLLMs解碼方法,並展示了其在提升視覺基礎能力方面的應用。我們的方法包括構建視覺基礎的獎勵模型,並利用這些模型來引導MLLM的解碼過程。具體而言,我們構建了兩個獨立的獎勵模型,分別控制模型輸出中物體精確度和召回率的程度。我們的方法實現了MLLM推理過程的即時可控性,主要體現在兩個方面:首先,通過在解碼過程中控制每個獎勵函數的相對重要性,使用戶能夠在圖像描述任務中動態權衡物體精確度與召回率;其次,通過控制解碼過程中的搜索廣度,使用戶能夠在測試時計算量與視覺基礎程度之間進行權衡。我們在標準的物體幻覺基準上評估了我們的方法,結果表明,它在提供對MLLM推理的顯著可控性的同時,始終優於現有的幻覺緩解方法。
自監督學習在遙感領域展現出巨大潛力,但標準的自監督方法必須針對地球觀測數據的獨特特性進行調整。我們在此方向上邁出一步,對多模態、多時序和多光譜地球觀測數據的融合策略及重建目標歸一化方案進行了全面基準測試。基於研究發現,我們提出了MAESTRO,這是一種對掩碼自編碼器的新穎改進,其特點在於優化的融合策略和定制的目標歸一化方案,該方案引入光譜先驗作為自監督信號。在四個地球觀測數據集上的評估表明,MAESTRO在強依賴多時序動態的任務上設定了新的技術標準,同時在單一時序模態主導的任務上保持高度競爭力。重現我們所有實驗的代碼可在https://github.com/ignf/maestro獲取。
深度學習已革新了醫學影像領域,但其效能因標記訓練數據不足而受到嚴重限制。本文提出了一種基於生成對抗網絡(GAN)的新型半監督學習框架,專為低標記數據情境設計,並在每類5至50個標記樣本的設置下進行評估。我們的方法整合了三種專門的神經網絡——用於類條件圖像轉換的生成器、用於真實性評估與分類的判別器,以及專用的分類器——在一個三階段的訓練框架內。該方法在有限的標記數據上進行監督訓練與利用大量未標記圖像的無監督學習之間交替進行,後者通過圖像到圖像的轉換而非從噪聲生成來實現。我們採用了基於集成的偽標記技術,結合了判別器和分類器的置信度加權預測,並通過指數移動平均保持時間一致性,從而實現了對未標記數據的可靠標籤估計。在十一套MedMNIST數據集上的全面評估表明,我們的方法相較於六種最先進的基於GAN的半監督方法,取得了統計學上顯著的改進,特別是在極端的5-shot設置下,標記數據的稀缺性最具挑戰性時,表現尤為突出。該框架在所有評估設置(每類5、10、20和50個樣本)中均保持了其優勢。我們的方法為標註成本高昂的醫學影像應用提供了一個實用的解決方案,即使在極少標記數據的情況下也能實現穩健的分類性能。代碼可在https://github.com/GuidoManni/SPARSE獲取。