每日精選AI研究論文及翻譯
我們研究了一種簡單方法的有效性,用於從現有的大型基礎語言模型(LM)開始發展一個小型基礎LM:首先從較大的LM中繼承幾個Transformer區塊,然後在較大模型的原始預訓練數據的非常小的子集(0.1%)上訓練這個較小的模型。我們將這種簡單的方法稱為Inheritune,並首次展示了用於構建具有15億參數的小型基礎LM,使用10億標記(以及較大LM的起始幾層,其參數為30億);我們使用一個A6000 GPU,在不到半天的時間內完成了這個過程。在9個不同的評估數據集以及MMLU基準測試中,結果模型與公開可用的10億至20億大小的基礎模型相比表現出色,其中一些模型使用的標記數量是其50到1000倍。 我們在稍有不同的設置中研究了Inheritune,其中我們訓練小型LM利用較大LM及其完整的預訓練數據集。在這裡,我們展示了當在OpenWebText數據集上以90億標記進行相同數量的訓練步驟時,使用GPT2-medium(3.55億)和GPT-2-large(7.7億)的一些層進行訓練的較小LM可以有效地匹配其更大對應模型的val loss。我們通過大量實驗分析了我們的方法,並展示了它在不同設置下的有效性。我們的程式碼可在https://github.com/sanyalsunny111/LLM-Inheritune 找到。
在過去幾十年中,視覺領域見證了顯著的進展,部分歸功於數據集基準的進步。值得注意的是,建立的 COCO 基準推動了現代檢測和分割系統的發展。然而,過去十年來,COCO 分割基準的改進相對緩慢。最初為物件實例配備粗糙的多邊形標註,逐漸納入了用於區域的粗糙超像素標註,隨後根據啟發式方法將其合併以產生全景分割標註。這些標註由不同組的評定者執行,不僅導致粗糙的分割遮罩,還導致分割類型之間的不一致性。在本研究中,我們對 COCO 分割標註進行全面重新評估。通過提高標註質量並擴展數據集,包括超過 5.18M 個全景遮罩的 383K 張圖像,我們引入了 COCONut,即 COCO 下一代通用分割數據集。COCONut 通過精心製作高質量遮罩,在語義、實例和全景分割之間協調分割標註,為所有分割任務建立了堅固的基準。據我們所知,COCONut 是首個大規模通用分割數據集,由人類評定者驗證。我們預計 COCONut 的發布將顯著有助於社群評估新型神經網絡的進展。
本文探討了當將對比語言-圖像預訓練(CLIP)按照有限計算預算進行縮放時的性能。我們從數據、架構和訓練策略三個維度探索了CLIP。在數據方面,我們證明了高質量訓練數據的重要性,並表明高質量數據的較小數據集可以優於質量較低的較大數據集。我們還研究了模型性能如何隨不同數據集大小而變化,暗示較小的ViT模型更適合較小的數據集,而較大的模型在固定計算資源的較大數據集上表現更好。此外,我們提供了何時選擇基於CNN架構或ViT架構進行CLIP訓練的指導。我們比較了四種CLIP訓練策略 - SLIP、FLIP、CLIP和CLIP+數據增強 - 並表明訓練策略的選擇取決於可用的計算資源。我們的分析顯示,CLIP+數據增強可以在僅使用一半訓練數據的情況下實現與CLIP相當的性能。這項工作提供了關於如何有效訓練和部署CLIP模型的實用見解,使其在各種應用中更易於訪問和負擔得起。
最近在大規模預訓練方面取得的進展已經產生了具有強大能力的視覺基礎模型。這些最新模型不僅能夠對其訓練任務的任意圖像進行泛化,而且它們的中間表示對於其他視覺任務,如檢測和分割,也是有用的。考慮到這些模型可以對2D中的物體進行分類、描繪和定位,我們問:它們是否也代表了物體的3D結構?在這項工作中,我們分析了視覺基礎模型的3D意識。我們假設3D意識意味著表示(1)編碼了場景的3D結構,並且(2)在不同視角下一致地表示表面。我們通過使用特定任務的探針和凍結特徵上的零-shot推斷程序進行了一系列實驗。我們的實驗揭示了目前模型的幾個局限性。我們的代碼和分析可在https://github.com/mbanani/probe3d 找到。
最近在單眼深度估計方面取得了進展,透過將自然語言作為額外指導來提高效果。儘管取得了令人印象深刻的結果,但語言先驗的影響,特別是在泛化和魯棒性方面,仍未被探討。本文通過量化這種先驗的影響,並引入方法來評估其在各種情況下的效果,來填補這一空白。我們生成傳達以物為中心、三維空間關係的“低級”句子,將它們作為額外的語言先驗,並評估它們對深度估計的影響。我們的主要發現是,當前的語言引導深度估計器只有在場景級描述時才能表現最佳,而在低級描述時表現出乎意料地更差。儘管利用了額外數據,這些方法對定向對抗攻擊不具魯棒性,並且隨著分布轉變的增加而性能下降。最後,為了為未來研究奠定基礎,我們確定了失敗點並提供見解,以更好地理解這些缺陷。隨著越來越多的方法在深度估計中使用語言,我們的研究發現突顯了機遇和陷阱,需要在實際應用中仔細考慮。
基於人類偏好反饋的強化學習(RL)是微調生成模型的一種流行範式,已經產生了令人印象深刻的模型,如GPT-4和Claude3 Opus。這個框架通常包括兩個步驟:從離線偏好數據集中學習獎勵模型,然後運行在線RL以優化所學習的獎勵模型。在這項工作中,借鑒重置的概念,我們提出了一種具有可證明保證的新RLHF算法。受到離線偏好數據集提供信息狀態(即標籤者偏好的數據)的啟發,我們的新算法,即數據集重置策略優化(DR-PO),通過數據集重置將現有的離線偏好數據集整合到在線策略訓練過程中:它直接將策略優化器重置為離線數據集中的狀態,而不是始終從初始狀態分佈開始。理論上,我們展示了DR-PO在具有有限樣本複雜度的一般函數逼近下至少與離線數據集涵蓋的任何策略一樣好。在實驗中,我們展示了在TL;DR摘要和人類有益有害(HH)數據集上,DR-PO生成的效果優於Proximal Policy Optimization(PPO)和Direction Preference Optimization(DPO),根據GPT4勝率指標。此工作的代碼可在https://github.com/Cornell-RL/drpo找到。
最新的正則化神經輝度場(NeRF)方法在多視角立體(MVS)基準測試如ETH3D中產生了較差的幾何和視角外推。本文旨在創建提供準確幾何和視角合成的3D模型,部分彌合了NeRF與傳統MVS方法之間的巨大幾何性能差距。我們提出了一種基於補丁的方法,有效地利用單眼表面法向量和相對深度預測。基於補丁的射線採樣還實現了正規化互相關(NCC)和結構相似性(SSIM)之間隨機採樣的虛擬和訓練視圖的外觀正則化。我們進一步展示了基於稀疏結構從運動點的“密度限制”可以在稍微降低新視角合成指標的情況下,大大提高幾何準確性。我們的實驗顯示,在ETH3D MVS基準測試的平均F1@2cm上,我們的性能是RegNeRF的4倍,FreeNeRF的8倍,這表明了改善基於NeRF模型的幾何準確性是一個富有成果的研究方向,並為實現NeRF優於傳統MVS的最終優化方法提供了啟示。