每日精選AI研究論文及翻譯
從人類反饋中學習強化學習(RLHF)已成為將模型與人類意圖對齊的一種流行範式。通常,RLHF算法分為兩個階段:首先,利用人類偏好來學習獎勵函數,然後通過強化學習(RL)優化所學獎勵以對齊模型。這種範式假設人類偏好是根據獎勵分佈的,但最近的研究表明,它們實際上遵循用戶最優策略下的後悔。因此,從反饋中學習獎勵函數不僅基於人類偏好的錯誤假設,還會導致源於策略梯度或RL階段中的自並行問題的難以處理的優化挑戰。由於這些優化挑戰,當代RLHF方法將自己限制在上下文樂隊設置(例如,大型語言模型)或限制觀察維度(例如,基於狀態的機器人技術)。我們通過引入一系列新算法來克服這些限制,從而優化從人類反饋中學習行為,使用基於後悔的人類偏好模型。利用最大熵原則,我們推導出對比偏好學習(CPL),這是一種從偏好中學習最優策略的算法,而無需學習獎勵函數,從而避免了對RL的需求。CPL是完全離線的,僅使用簡單的對比目標,並且可以應用於任意MDP。這使CPL能夠優雅地擴展到高維度和序列化的RLHF問題,同時比先前的方法更簡單。
*資料合成* 是一種訓練小型模型並僅需少量標記資料的有前景方法。一種資料合成的方法是利用大型語言模型的豐富知識,為小型模型合成偽訓練範例,同時實現資料和計算效率。然而,資料合成中的一個關鍵挑戰是,合成的資料集往往與*真實任務*資料分佈存在著很大的差異。因此,在本文中,我們提出了*逐步合成*(**S3**),一個資料合成框架,通過迭代地擴展小型模型在合成資料集上的錯誤,並利用大型語言模型在小型真實驗證資料集上的表現來縮小這種分佈差距。在多個自然語言處理任務上進行的大量實驗表明,我們的方法通過減少合成資料集與真實資料之間的差距,顯著提高了小型模型的性能,相較於幾個基準方法:與 ZeroGen 相比提高了 9.48%,與 GoldGen 相比提高了 2.73%,並且相較於使用人工標註資料訓練的小型模型,最多提高了 15.17%。
擴散概率模型(DPMs)在高保真度圖像生成方面表現出色,但採樣效率低下。最近的研究通過提出利用DPMs特定ODE形式的快速ODE求解器來加速採樣過程。然而,它們在推斷期間高度依賴特定的參數化(如噪聲/數據預測),這可能不是最佳選擇。在這項工作中,我們提出了一種新的配方,以實現在採樣期間最佳參數化,從而最小化ODE解的一階離散化誤差。基於這種配方,我們提出了DPM-Solver-v3,這是一種新的快速DPMs的ODE求解器,通過引入在預訓練模型上高效計算的幾個係數,我們稱之為經驗模型統計。我們進一步結合多步方法和預測校正框架,並提出一些技術,以改善在少量函數評估(NFE)或大導向尺度下的樣本質量。實驗表明,DPM-Solver-v3在無條件和有條件採樣中均取得了一致更好或可比的性能,無論是在像素空間還是潛在空間的DPMs中,尤其是在5至10 NFE。我們在無條件CIFAR10上實現了FID值為12.21(5 NFE)、2.51(10 NFE),在Stable Diffusion上實現了MSE值為0.55(5 NFE,7.5導向尺度),相對於先前的最新無需訓練方法,實現了15%至30%的加速。代碼可在https://github.com/thu-ml/DPM-Solver-v3找到。
聽覺被認為是人工智慧(AI)代理在現實世界中的一項基本能力,指的是感知和理解包含至少三種類型聲音的一般聽覺信息:語音、音頻事件和音樂。在本文中,我們提出了SALMONN,一個語音音頻語言音樂開放神經網絡,通過將預訓練的基於文本的大型語言模型(LLM)與語音和音頻編碼器集成到單一多模型中構建而成。SALMONN使LLM能夠直接處理和理解一般音頻輸入,在訓練中用於多項語音和音頻任務,如自動語音識別和翻譯、基於聽覺信息的問答、情感識別、語者驗證、音樂和音頻字幕等方面取得競爭性表現。SALMONN還具有多樣的新興能力,這些能力在訓練中並未見過,包括但不限於對未訓練語言的語音翻譯、基於語音的槽填充、基於口語查詢的問答、基於音頻的故事講述和語音音頻共推理等。跨模態新興能力的存在得到了研究,並提出了一種新穎的少樣本激活調整方法來激活SALMONN的這些能力。據我們所知,SALMONN是其類型的第一個模型,可視為邁向具有通用聽覺能力的人工智慧的一步。SALMONN的互動演示可在\url{https://github.com/bytedance/SALMONN}上找到,接受後將釋放訓練代碼和模型檢查點。
大型語言模型(LLMs)展現了在自然語言處理中令人印象深刻的新興能力,但由於龐大的計算需求和封閉源代碼的特性,其民主化受到阻礙。最近關於透過從黑盒LLMs中提煉知識來推進開源較小型LLMs的研究,在指示遵循能力方面取得了令人期待的成果。然而,更具挑戰性的推理能力相對較少被探索。在本文中,我們提出了一種定制的學習方法,以提煉這種推理能力到較小型LLMs,以促進專屬推理能力的民主化。與僅僅將LLM作為數據標註者不同,我們利用LLM作為推理教師的潛力,通過構建互動式多輪學習範式。這種範式使學生能夠向黑盒教師展示其不足之處,然後教師可以反過來提供定制的訓練數據。此外,為了發揮較小型LM的推理潛力,我們提出了自我反思學習,以激勵學生從自己的錯誤中學習。由於與多輪學習範式的無縫集成,自我反思學習和LLM的學習都針對學生的學習狀態進行了定制。對數學和常識推理任務的全面實驗和分析展示了我們方法的有效性。代碼將在https://github.com/Raibows/Learn-to-Reason 上提供。
大型語言模型(LLMs)已展示出在解決複雜的現實世界問題時具有強大的決策和規劃能力。基於LLM的自主代理可以與各種工具(例如功能API)互動,並生成執行一系列API函數調用的解決方案計劃。候選API函數調用的眾多可能性顯著擴展了行動空間,增強了對有效行動空間導航的重要需求。然而,現有方法要麼在擴展的行動空間中採取單向探索時遇到困難,陷入局部最優解,要麼遭受耗盡所有潛在行動的穿越,導致導航效率低下。為解決這些問題,我們提出了ToolChain*,這是一種針對基於LLM代理的高效樹搜索規劃算法。它將整個行動空間定義為一個決策樹,其中每個節點代表解決方案計劃中涉及的可能API函數調用。通過將A*搜索算法與任務特定成本函數設計相結合,它有效地修剪可能涉及不正確行動的高成本分支,識別最低成本有效路徑作為解決方案。對多個工具使用和推理任務進行的大量實驗表明,ToolChain*在擴展的行動空間中有效平衡了探索和開發。在規劃和推理任務上,它的表現優於現有技術基準,平均分別提高了3.1%和3.5%,同時所需時間分別減少了7.35倍和2.31倍。
基於擴散的方法在生成2D媒體方面取得了顯著成功。然而,在3D空間應用中實現類似的場景級網格紋理技能,例如XR/VR,仍受限,主要是由於3D幾何的複雜性以及對沉浸式自由視點渲染的需求。本文提出了一種新穎的室內場景紋理框架,該框架提供了具有迷人細節和真實空間一致性的文本驅動紋理生成。關鍵見解在於首先從場景的中心視點想像出一個風格化的360度全景紋理,然後通過修補和模仿技術將其傳播到其他區域。為了確保紋理對場景有意義且對齊,我們開發了一種新穎的從粗糙到精細的全景紋理生成方法,具有雙紋理對齊,同時考慮了捕捉場景的幾何和紋理線索。為了在紋理傳播過程中避免混亂的幾何結構,我們設計了一種分離策略,該策略在機密區域進行紋理修補,然後學習一個隱式模仿網絡,在遮蔽和微小結構區域合成紋理。對真實世界室內場景進行的大量實驗和沉浸式VR應用展示了生成紋理的高質量以及在VR頭戴設備上引人入勝的體驗。項目網頁:https://ybbbbt.com/publication/dreamspace
大型語言模型(LLMs)具有自我改進能力,透過提示它們分析並修訂自己的輸出,近期研究對此顯示出極大興趣。然而,較小模型顯示缺乏這種能力且難以學習,進一步擴大了最先進的LLMs與更具成本效益和更快速的模型之間的性能差距。為了縮小這一差距,我們引入了TriPosT,一種訓練算法,賦予較小模型這種自我改進能力,並證明我們的方法可以將LLaMA-7b在數學和推理任務上的表現提高最多達到7.13%。與先前的工作相比,我們通過使用較小模型與LLMs互動,收集反饋並改進自身生成,實現了這一點。然後,我們重播這種經驗以訓練小模型。我們對四個數學和推理數據集的實驗表明,從自身錯誤中學習並進行修正的互動經驗對於較小模型改善性能至關重要。
大型語言模型(LLMs)可以通過遵循自然語言指令執行各種任務,而無需進行特定任務的微調。不幸的是,LLMs 的表現受這些指令的質量影響很大,並且為每個任務手動編寫有效的指令是一個費時且主觀的過程。在本文中,我們介紹了一種名為Auto-Instruct的新方法,用於自動提高提供給LLMs的指令的質量。我們的方法利用LLMs固有的生成能力為給定任務生成多樣的候選指令,然後使用在575個現有NLP任務上訓練的評分模型對它們進行排名。在對118個域外任務進行的實驗中,Auto-Instruct超越了人工編寫的指令和現有的LLM生成的指令基線。此外,我們的方法展現出顯著的泛化能力,即使對於未納入其訓練過程的其他LLMs也是如此。
透過使用來自更強大的大型語言模型(LLMs)如Instruct-GPT和GPT-4的直接輸出,對開源大型語言模型(LLMs)進行指導調整,已被證明是將模型行為與人類偏好調整一致的一種具成本效益的方法。然而,指導調整的模型僅看到每個指導的一個回應,缺乏潛在更好回應的知識。在本文中,我們提出了使用我們的新穎概率排名和情境排名方法對指導調整的LLM進行微調,以增加生成更好回應的可能性。概率排名使指導調整的模型繼承高質量和低質量回應的相對排名,從教師LLM那裡。另一方面,通過情境排名學習使模型利用更強大LLMs的情境理解能力來完善自己的回應分佈。此外,我們將概率排名和情境排名依序應用於指導調整的LLM。結果模型,我們稱之為Tuna,在Super Natural Instructions(119個測試任務)、LMentry(25個測試任務)、Vicuna QA上持續改善性能,甚至可以獲得比幾個強強化學習基線更好的結果。我們的代碼和數據可在 https://github.com/microsoft/LMOps 上找到。
在網絡規模的圖像標題數據集上進行圖像文本預訓練已成為開放詞彙分類和檢索模型的默認方法,這要歸功於CLIP及其變體的成功。一些研究也利用CLIP特徵進行密集預測任務,並展示了開放集能力的出現。然而,對比目標僅關注圖像文本對齊,並不鼓勵圖像特徵學習用於密集預測任務。在這項研究中,我們提出了通過自蒸餾實現從局部到全局對應學習的簡單添加,作為對比預訓練的額外目標,提出了SILC。我們展示,從指數移動平均(EMA)教師模型中提煉局部圖像特徵,顯著提高了模型在多個計算機視覺任務上的性能,包括分類、檢索,特別是分割。我們進一步展示,與基線相比,SILC在相同的訓練持續時間內具有更好的擴展性。我們的模型SILC在零樣本分類、少樣本分類、圖像和文本檢索、零樣本分割和開放詞彙分割方面設立了新的技術水準。
工具使用是高級智能的標誌,無論是在動物行為還是機器人能力中都有體現。本文探討了賦予機器人創造性地使用工具的能力,以應對涉及隱含物理限制和長期規劃的任務的可行性。利用大型語言模型(LLMs),我們開發了RoboTool,這是一個系統,可以接受自然語言指令並輸出控制機器人在模擬和現實環境中的可執行代碼。RoboTool包含四個關鍵組件:(i)一個“分析器”,用於解釋自然語言以識別關鍵任務相關概念,(ii)一個“規劃器”,根據語言輸入和關鍵概念生成全面策略,(iii)一個“計算器”,用於計算每個技能的參數,以及(iv)一個“編碼器”,將這些計劃轉換為可執行的Python代碼。我們的結果表明,RoboTool不僅可以理解明確或隱含的物理限制和環境因素,還可以展示創造性的工具使用。與傳統的任務和運動規劃(TAMP)方法依賴於明確優化不同,我們基於LLM的系統為複雜的機器人任務提供了更靈活、高效和用戶友好的解決方案。通過大量實驗,我們驗證了RoboTool在處理否則無法實現的任務方面表現出色,這擴展了機器人系統的能力。我們的項目頁面提供了演示:https://creative-robotool.github.io/。
大型語言模型(LLMs)代表了人工智慧領域的一場革命。然而,它們也帶來許多重大風險,例如存在偏見、私密、受版權保護或有害的文本。因此,我們需要開放、透明和安全的解決方案。我們推出了一個完整的開源生態系統,用於開發和測試LLMs。這個項目的目標是推動開放式替代方案,取代封閉式方法。我們釋出了h2oGPT,這是一個包含70億參數的精調LLMs家族。我們還推出了H2O LLM Studio,這是一個框架和無代碼GUI,旨在使用最新的尖端技術進行高效的精調、評估和部署LLMs。我們的代碼和模型採用完全寬鬆的Apache 2.0許可證。我們相信開源語言模型有助於推動人工智慧的發展,使其更具可訪問性和可信賴性。演示可在以下網址查看:https://gpt.h2o.ai/
從人類反饋中學習的強化學習(RLHF)是訓練高質量人工智能助手的一種流行技術。然而,RLHF可能會鼓勵模型的回應與用戶信念相符,而非真實回應,這種行為被稱為諂媚行為。我們調查了RLHF訓練模型中諂媚行為的普遍性,以及人類偏好判斷是否負有責任。我們首先展示了五個最先進的人工智能助手在四個不同的自由文本生成任務中一貫表現出諂媚行為。為了了解人類偏好是否驅使RLHF模型這一廣泛觀察到的行為,我們分析了現有的人類偏好數據。我們發現,當回應與用戶觀點一致時,更有可能被偏好。此外,人類和偏好模型(PMs)在極少數情況下更喜歡寫得令人信服的諂媚回應而非正確的回應。優化模型輸出以滿足PMs有時會犧牲真實性以取悅諂媚行為。總的來說,我們的結果表明諂媚行為是RLHF模型的一種普遍行為,很可能部分受人類偏好判斷支持諂媚回應的影響。
在擴散模型中,UNet是最受歡迎的網絡骨幹,因為其長跳連接(LSCs)可以連接遠程網絡塊,從而聚合遠程信息並緩解消失梯度問題。不幸的是,UNet在擴散模型中經常遭受不穩定訓練的困擾,可以通過將其LSC係數縮小來緩解。然而,對於UNet在擴散模型中的不穩定性以及LSC係數縮放對性能改善的理論理解尚未出現。為了解決這個問題,我們在理論上展示了UNet中LSC的係數對前向和後向傳播的穩定性以及UNet的韌性有著重大影響。具體來說,UNet在任何層的隱藏特徵和梯度可以振盪,其振盪範圍實際上很大,這解釋了UNet訓練的不穩定性。此外,UNet對干擾輸入也具有明顯敏感性,並預測與期望輸出相距甚遠,導致振盪損失和振盪梯度。此外,我們還觀察到UNet中LSC係數縮放在隱藏特徵和梯度的穩定性以及韌性方面的理論好處。最後,受我們理論的啟發,我們提出了一個有效的係數縮放框架ScaleLong,該框架調整UNet中LSC的係數,並更好地改善UNet的訓練穩定性。對四個知名數據集的實驗結果表明,我們的方法優於穩定訓練,並在具有UNet或UViT骨幹的不同擴散模型上實現約1.5倍的訓練加速。代碼:https://github.com/sail-sg/ScaleLong