每日精選AI研究論文及翻譯
先前的語言模型預訓練方法均對所有訓練標記應用了下一個標記預測損失。挑戰這種常規,我們提出"語言模型訓練中並非所有語料庫中的標記都同等重要"的觀點。我們的初步分析深入探討了語言模型的標記級別訓練動態,揭示了不同標記的明顯損失模式。利用這些見解,我們引入了一個名為 Rho-1 的新語言模型。與傳統的語言模型不同,傳統語言模型學習預測語料庫中的每個下一個標記,Rho-1 使用選擇性語言建模(SLM),有針對性地訓練與所需分佈對齊的有用標記。這種方法涉及使用參考模型對預訓練標記進行評分,然後通過對具有較高過度損失的標記進行專注損失的訓練來訓練語言模型。在對 15B OpenWebMath 語料庫進行持續預訓練時,Rho-1 在 9 個數學任務的少數樣本準確度方面取得了高達 30% 的絕對改進。在微調後,Rho-1-1B 和 7B 在 MATH 數據集上實現了 40.6% 和 51.8% 的最新結果,僅使用 3% 的預訓練標記就與 DeepSeekMath 相匹配。此外,在對 80B 通用標記進行預訓練時,Rho-1 在 15 個不同任務中實現了平均 6.8% 的增強,提高了語言模型預訓練的效率和性能。
具有最小人類干預並完成複雜電腦任務的自主代理,有潛力改變人機互動,顯著提升可訪問性和生產力。然而,現有基準要麼缺乏互動環境,要麼僅限於特定應用程序或領域的環境,未能反映現實世界電腦使用的多樣和複雜性,因此限制了任務範圍和代理的可擴展性。為解決此問題,我們介紹了OSWorld,這是首個可擴展的真實電腦環境,適用於多模態代理,支持任務設置、基於執行的評估和跨Ubuntu、Windows和macOS等各種操作系統的互動學習。OSWorld可以作為統一的、集成的電腦環境,用於評估涉及任意應用程序的開放式電腦任務。基於OSWorld,我們創建了一個基準,涉及369個電腦任務,包括真實的Web和桌面應用程序在開放領域中的OS文件I/O,以及跨多個應用程序的工作流程。每個任務示例源於現實世界的電腦用例,包括詳細的初始狀態設置配置和用於可靠、可重現評估的自定義基於執行的評估腳本。在OSWorld上對基於LLM/VLM的最新代理進行廣泛評估,顯示它們作為電腦助手的能力存在明顯缺陷。儘管人類可以完成72.36%以上的任務,但最佳模型僅實現12.24%的成功率,主要困難在於GUI基礎和操作知識。使用OSWorld進行全面分析為開發以前基準無法實現的多模態通用代理提供了有價值的見解。我們的代碼、環境、基準模型和數據可在https://os-world.github.io 公開獲得。
為了增強文本到圖像擴散模型的可控性,現有的方法如ControlNet納入了基於圖像的條件控制。在本文中,我們揭示現有方法在生成與圖像條件控制相符的圖像方面仍面臨重大挑戰。為此,我們提出了ControlNet++,一種新穎的方法,通過明確優化生成圖像與條件控制之間的像素級循環一致性來改善可控生成。具體而言,對於輸入的條件控制,我們使用預先訓練的辨識獎勵模型來提取生成圖像的相應條件,然後優化輸入條件控制與提取條件之間的一致性損失。一種直接的實現方式是從隨機噪聲生成圖像,然後計算一致性損失,但這種方法需要存儲多個採樣時間步的梯度,導致相當大的時間和內存成本。為了解決這個問題,我們引入了一種有效的獎勵策略,通過故意通過添加噪聲干擾輸入圖像,然後使用經過單步去噪的圖像進行獎勵微調。這樣可以避免與圖像採樣相關的廣泛成本,從而實現更有效的獎勵微調。大量實驗表明,ControlNet++在各種條件控制下顯著提高了可控性。例如,在分割遮罩、線條藝術邊緣和深度條件方面,它分別比ControlNet提高了7.9%的mIoU、13.4%的SSIM和7.6%的RMSE。
我們介紹了 RecurrentGemma,這是一個使用 Google 的新型 Griffin 架構的開放式語言模型。Griffin 將線性循環結合本地注意力,以在語言任務上取得優異表現。它具有固定大小的狀態,降低了記憶體使用量,並能夠有效地處理長序列的推論。我們提供了一個預先訓練的模型,具有 20 億個非嵌入參數,以及一個經過調整的變體。儘管這兩個模型訓練時使用的標記比 Gemma-2B 少,但它們都實現了與 Gemma-2B 相當的性能。
雖然Ferret 將區域理解融入大型語言模型 (LLM) 中,以促進其指代和基礎能力,但它存在一定的限制:受限於預先訓練的固定視覺編碼器,並且在更廣泛的任務上表現不佳。在這項工作中,我們揭示了Ferret-v2,這是Ferret 的一次重大升級,具有三個關鍵設計。(1) 任何解析度基礎和指代:一種靈活的方法,輕鬆處理更高的圖像解析度,提高模型處理和理解圖像細節的能力。(2) 多粒度視覺編碼:通過整合額外的 DINOv2 編碼器,模型學習更好和多樣的全局和細粒度視覺信息的基礎上下文。(3) 三階段訓練範式:除了圖像-標題對齊外,提出了一個額外的階段,用於在最終指令調整之前進行高解析度的密集對齊。實驗表明,由於其高解析度縮放和細粒度視覺處理,Ferret-v2 在Ferret 和其他最先進的方法上提供了顯著的改進。
人工智慧模型的成功取決於大量、多樣且高質量的數據集的可用性,然而由於數據稀缺、隱私問題和高成本,這些數據集往往難以獲得。合成數據已被提出作為一種有前途的解決方案,通過生成模擬真實世界模式的人造數據。本文概述了合成數據研究,討論了其應用、挑戰和未來方向。我們提供了來自先前研究的實證證據,以證明其有效性,並強調確保其真實性、忠實性和無偏見性的重要性。我們強調了對合成數據的負責任使用的需求,以構建更強大、包容和值得信賴的語言模型。
處理長文本對於大型語言模型(LLMs)來說仍然是一個挑戰,這是因為自注意機制的計算和記憶體開銷是二次的,並且在生成過程中需要大量的KV快取空間。我們提出了一種新方法來解決這個問題,通過通過上下文壓縮和在領域內參數高效微調來離線學習上下文。我們的方法使LLM能夠創建原始上下文的簡潔表示,並有效檢索相關信息以準確回答問題。我們引入了LLoCO,這是一種結合了上下文壓縮、檢索和使用LoRA進行參數高效微調的技術。我們的方法擴展了4k令牌LLaMA2-7B模型的有效上下文窗口,使其能夠處理多達128k令牌。我們在幾個長文本問答數據集上評估了我們的方法,結果顯示LLoCO在推論過程中使用的令牌數量比上下文學習少了30倍,性能顯著優於上下文學習。LLoCO實現了高達7.62倍的加速,大幅降低了長文檔問答的成本,使其成為處理長文本高效的有前途的解決方案。我們的代碼公開在https://github.com/jeffreysijuntan/lloco。
在網路代理研究領域中,實現泛化和準確性兩者並存仍然是一個具有挑戰性的問題。由於網站結構變異性高,現有方法通常失敗。此外,現有的微調和上下文學習技術無法在多個網站間實現泛化。我們介紹了一種名為Wilbur的方法,該方法使用可微分排名模型和新穎的指令合成技術,以最佳方式填充黑盒大型語言模型的提示,使用來自先前運行的任務示範。為了最大化端到端成功率,我們還提出了一種智能回溯機制,該機制可以學習並從錯誤中恢復。最後,我們展示了我們的排名模型可以在從生成自動課程中採樣的數據上進行訓練,該自動課程從LLM中採樣代表性目標,運行代理,並自動評估,無需手動標註。Wilbur在WebVoyager基準測試中取得了最新成果,整體上比僅使用文本模型提高了8%,在某些網站上最高達36%。在同一基準測試中,儘管僅接收文本輸入,Wilbur與強大的多模型模型之間的差距不到5%,進一步分析顯示,大量失敗是由於操作網路的工程挑戰。
階層閘控線性循環神經網絡(HGRN,Qin等,2023年)在語言建模中展示了競爭力的訓練速度和性能,同時提供了高效的推論。然而,HGRN的循環狀態大小仍然相對較小,這限制了其表達能力。為了解決這個問題,受線性注意力的啟發,我們引入了一種基於外積的狀態擴展機制,使得循環狀態的大小可以顯著擴大,而無需引入任何額外的參數。線性注意力形式還可以實現硬件高效訓練。我們的廣泛實驗驗證了HGRN2在語言建模、圖像分類和長距離競技場中的優勢。我們最大的3B HGRN2模型在受控實驗環境中略優於Mamba和LLaMa架構變壓器進行語言建模;在使用更少的總訓練標記的情況下,在下游評估中與許多開源的3B模型競爭。
引導是從影像生成擴散模型中提取最佳性能的關鍵技術。傳統上,在影像的採樣過程中一直應用固定的引導權重。我們表明,在採樣過程的開始階段(高噪音水平)引導明顯有害,朝向結尾階段(低噪音水平)基本上是不必要的,只有在中間階段才有益。因此,我們將其限制在特定的噪音水平範圍內,提高了推論速度和結果品質。這個有限的引導間隔顯著提高了在ImageNet-512中的記錄 FID,從1.81提升至1.40。我們展示了在不同的採樣器參數、網絡架構和數據集上,包括Stable Diffusion XL的大規模設置,定量和定性上都是有益的。因此,我們建議將引導間隔作為所有使用引導的擴散模型中的一個超參數。
在自動駕駛中,車道偵測是一項基本任務,隨著深度學習的出現取得了巨大進展。先前基於錨點的方法通常設計密集錨點,這些錨點高度依賴訓練數據集並在推論期間保持不變。我們分析了對於車道偵測來說密集錨點並非必要,並提出了一個基於稀疏錨點機制的基於變壓器的車道偵測框架。為此,我們通過位置感知車道查詢和角度查詢生成稀疏錨點,而非傳統的明確錨點。我們採用水平感知注意力(HPA)沿水平方向聚合車道特徵,並採用車道角度交叉注意力(LACA)在車道查詢和角度查詢之間進行交互作用。我們還提出了基於可變形交叉注意力的車道感知注意力(LPA)來進一步優化車道預測。我們的方法稱為Sparse Laneformer,易於實現並可端對端進行訓練。大量實驗表明Sparse Laneformer在CULane上表現優異,優於最先進的方法,例如在具有相同ResNet-34骨幹網絡的情況下,F1分數比Laneformer高出3.0%,比O2SFormer高出0.7%,並且計算量更少。