每日精選AI研究論文及翻譯
《星海爭霸II》是其中一個最具挑戰性的模擬強化學習環境;它是部分可觀察的、隨機的、多智能體的,要精通《星海爭霸II》需要長時間規劃策略,同時實時執行低層級操作。它也擁有活躍的專業競技場景。《星海爭霸II》非常適合推進離線強化學習算法的發展,這既因為它的挑戰性質,也因為暴雪公司釋出了數百萬場人類玩家參與的《星海爭霸II》遊戲數據集。本文利用這一點,建立了一個名為AlphaStar Unplugged的基準,為離線強化學習引入了前所未有的挑戰。我們定義了一個數據集(暴雪公司釋出的子集),標準化機器學習方法的API工具,以及一個評估協議。我們還提出了基準代理,包括行為克隆、演員-評論家的離線變體和MuZero。我們僅使用離線數據改進了代理的最新技術水平,並且在對先前發表的AlphaStar行為克隆代理取得了90%的勝率。
大型語言模型(LLMs)正變得越來越智能和自主,專注於傳統自然語言處理任務以外的現實世界實用任務。因此,迫切需要評估LLMs在具有挑戰性的互動環境中作為代理人的表現。我們提出了AgentBench,這是一個多維度不斷發展的基準,目前包含8個不同環境,用於評估LLM作為代理人在多輪開放式生成設置中的推理和決策能力。我們對25個LLMs進行了廣泛測試(包括API和開源模型),結果顯示,儘管頂尖商業LLMs在複雜環境中表現出色,但它們與開源競爭對手之間的性能存在顯著差異。這也是一個正在進行的項目的一部分,該項目具有更廣泛的覆蓋範圍和更深入的考慮,以實現對LLM的系統評估。AgentBench的數據集、環境和集成評估套件已在https://github.com/THUDM/AgentBench 上發布。
從高度定制的文字描述和姿勢指導中創建具有表現力、多樣性和高質量的3D頭像是一項具有挑戰性的任務,這是由於在3D建模和紋理方面的複雜性,確保細節和各種風格(逼真、虛構等)。我們提出了AvatarVerse,這是一個穩定的流程,可以從純文字描述和姿勢指導中生成具有表現力的高質量3D頭像。具體而言,我們引入了一個基於DensePose信號的2D擴散模型,通過2D圖像來建立頭像的3D姿勢控制,從而增強了部分觀察場景的視角一致性。它解決了臭名昭著的Janus問題,並顯著穩定了生成過程。此外,我們提出了一種漸進的高分辨率3D合成策略,顯著提高了所創建的3D頭像的質量。因此,所提出的AvatarVerse流程實現了對3D頭像的零樣本3D建模,這些頭像不僅更具表現力,而且質量和保真度也優於以往的作品。嚴格的定性評估和用戶研究展示了AvatarVerse在合成高保真度3D頭像方面的優越性,從而開創了高質量和穩定的3D頭像創作新標準。我們的項目頁面是:https://avatarverse3d.github.io
最近的文本轉圖像生成模型使我們能夠將我們的文字轉換為生動迷人的圖像。隨之而來的個性化技術激增也使我們能夠在新場景中想像獨特的概念。然而,一個耐人尋味的問題仍然存在:我們如何生成一個從未被看過的新奇概念?在本文中,我們提出了創意文本轉圖像生成的任務,我們試圖生成廣泛類別的新成員(例如,生成一種與所有現有寵物不同的寵物)。我們利用鮮為人知的擴散先驗模型,並展示創造性生成問題可以被制定為在擴散先驗輸出空間上的優化過程,產生一組“先驗約束”。為了使我們生成的概念不會收斂為現有成員,我們將一個問答模型納入其中,自適應地向優化問題添加新約束,鼓勵模型發現越來越獨特的創作。最後,我們展示了我們的先驗約束也可以作為一個強大的混合機制,使我們能夠創建生成概念之間的混合體,為創意過程引入更多靈活性。
大型語言模型(LLMs)展示了卓越的泛化能力,例如理解任意實體和關係。指導調整已被證明對提煉LLMs為更具成本效益的模型(如Alpaca和Vicuna)是有效的。然而,這些學生模型在下游應用中仍然遠遠落後於原始LLMs。在本文中,我們探索以面向任務的指導調整進行有針對性的提煉,以訓練能在廣泛應用類別(如開放信息提取)中表現出色的學生模型。通過以命名實體識別(NER)為案例研究,我們展示了如何將ChatGPT提煉為更小的UniversalNER模型,用於開放NER。為了評估,我們組建了迄今為止最大的NER基準測試,包括來自9個不同領域(如生物醫學、編程、社交媒體、法律、金融等)的43個數據集。在不使用任何直接監督的情況下,UniversalNER在數以萬計的實體類型中實現了卓越的NER準確性,平均比Alpaca和Vicuna等通用指導調整模型高出30個絕對F1分數。憑藉極少的參數,UniversalNER不僅獲得了ChatGPT在識別任意實體類型方面的能力,而且在NER準確性方面平均比其高出7-9個絕對F1分數。值得注意的是,UniversalNER甚至在很大程度上優於最先進的多任務指導調整系統(如InstructUIE),後者使用監督的NER示例。我們還進行了徹底的消融研究,以評估我們提煉方法中各個組件的影響。我們將發布提煉配方、數據和UniversalNER模型,以促進未來針對性提煉研究。
眼見為實,然而,人類視覺知覺如何與我們的認知緊密相關的基本機制仍然是一個謎。感謝近期在神經科學和人工智慧領域的進步,我們已經能夠記錄受視覺誘發的腦部活動並通過計算方法模仿視覺知覺能力。在本文中,我們專注於透過可攜式訪問的腦電圖(EEG)數據,通過重建觀察到的圖像來重建視覺刺激。由於EEG信號以時間序列格式呈現且因其嘈雜而臭名昭著,處理和提取有用信息需要更多專注的努力;在本文中,我們提出了一個名為NeuroImagen的全面流程,用於從EEG信號重建視覺刺激圖像。具體來說,我們結合了一種新穎的多層次感知信息解碼,以從給定的EEG數據中獲得多層次的輸出。然後,一個潛在擴散模型將利用提取的信息來重建高分辨率的視覺刺激圖像。實驗結果顯示了圖像重建的有效性以及我們提出的方法在量化性能上的優越性。
隨著自然語言處理的最新進展,大型語言模型(LLMs)已成為各種現實應用中強大的工具。儘管它們強大,LLMs 的固有生成能力可能無法應對需要任務規劃和外部工具使用結合的複雜任務。本文首先提出了一個針對基於LLMs的AI代理人量身定制的結構化框架,並討論應對複雜問題所需的關鍵能力。在這個框架內,我們設計了兩種不同類型的代理人(即一步代理人和順序代理人)來執行推理過程。隨後,我們使用各種LLMs實例化框架,並評估它們在典型任務上的任務規劃和工具使用(TPTU)能力。通過強調關鍵發現和挑戰,我們的目標是為研究人員和從業者提供一個有用的資源,以利用LLMs在其AI應用中的威力。我們的研究強調了這些模型的巨大潛力,同時也確定了需要更多調查和改進的領域。
當試圖深入了解機器學習模型以理解並減輕相關風險時,一個潛在有價值的證據來源是:哪些訓練示例對於特定行為有最大貢獻?影響函數旨在回答一個反事實問題:如果將特定序列添加到訓練集中,模型的參數(因此其輸出)將如何變化?儘管影響函數為小型模型提供了洞察,但由於計算逆Hessian向量乘積(IHVP)的困難,對於大型語言模型(LLMs)來說很難擴展。我們使用特徵值校正的 Kronecker-Factored 近似曲率(EK-FAC)來擴展影響函數以適應具有多達 520 億參數的 LLMs。在我們的實驗中,EK-FAC 儘管 IHVP 計算速度快了數個數量級,但實現了與傳統影響函數估算器相似的準確性。我們研究了兩種算法技術來降低計算候選訓練序列梯度的成本:TF-IDF 過濾和查詢批處理。我們使用影響函數來研究 LLMs 的泛化模式,包括影響模式的稀疏性、隨規模增加的抽象性、數學和編程能力、跨語言泛化以及角色扮演行為。儘管存在許多表面上複雜的泛化形式,但我們確定了一個令人驚訝的限制:當關鍵短語的順序翻轉時,影響會衰減至接近零。總的來說,影響函數為我們提供了一個強大的新工具,用於研究 LLMs 的泛化特性。
運動放大有助於我們視覺化微妙、難以察覺的運動。然而,先前的方法僅適用於由固定攝影機拍攝的二維影片。我們提出了一種三維運動放大方法,可以放大由移動攝影機拍攝的場景中微妙的運動,同時支援新穎的視角渲染。我們用時間變化的輝度場來表示場景,並利用歐拉原理進行運動放大,以提取並放大固定點隨時間變化的嵌入變化。我們使用隱式和三平面為基礎的輝度場作為底層三維場景表示,研究並驗證了我們提出的三維運動放大原理。我們在合成和真實場景上評估了我們的方法在不同攝影機配置下的有效性。
最近在大型視覺語言模型(LVLMs)方面的進展已經顯示出在應對複雜多模式任務方面取得了顯著進展。在這些尖端發展中,Google 的 Bard 因其卓越的多模式能力而脫穎而出,促進了對各個領域的全面理解和推理。本研究提出了對 LVLMs 的多模式能力進行早期和全面評估,特別聚焦於 Bard,通過提出 LVLM-eHub 的輕量級變體,即 Tiny LVLM-eHub。與原始版本相比,Tiny LVLM-eHub 具有幾個吸引人的特點。首先,它通過對 42 個標準文本相關視覺基準的定量評估,系統評估了六個類別的多模式能力,包括視覺感知、視覺知識獲取、視覺推理、視覺常識、對象幻覺和具體智能。其次,它通過 ChatGPT Ensemble Evaluation(CEE)對 LVLMs 的預測進行深入分析,從而實現了堅固且準確的評估,並與單詞匹配方法相比展現出更好的與人類評估的一致性。第三,它僅包含 2.1K 張圖像-文本對,便於從業人員評估他們自己的離線 LVLMs。通過廣泛的實驗分析,本研究表明 Bard 在大多數多模式能力方面優於先前的 LVLMs,除了對象幻覺,Bard 仍然容易受到影響。Tiny LVLM-eHub 為各種 LVLMs 提供了基準評估,並鼓勵針對推進多模式技術的創新策略。我們的項目公開可用於 https://github.com/OpenGVLab/Multi-Modality-Arena。
現有的大型語言模型必須運行 K 次才能生成 K 個標記的序列。在本文中,我們提出了RecycleGPT,一種具有快速解碼速度的生成式語言模型,通過重複使用預先生成的模型狀態而無需在多個步驟中運行整個模型。我們的方法基於一個觀察,即序列中相鄰的標記通常具有很強的相關性,並且序列中的下一個標記可以根據前面的標記合理地猜測或推斷。通過理論評估和對下游文本生成任務的實際測試,我們展示了我們的方法在降低推理延遲方面的有效性,實現高達1.4倍的加速,同時保持高性能。
最近,神經輝度場(Neural Radiance Fields,NeRF)在新視角合成、表面重建等方面取得了顯著成功。然而,由於其渲染流程中未考慮物理反射,NeRF將鏡子中的反射誤認為獨立的虛擬場景,導致鏡子的重建不準確,並在鏡子中出現多視角不一致的反射。本文提出了一種新穎的神經渲染框架,名為Mirror-NeRF,能夠學習鏡子的準確幾何和反射,並支持各種與鏡子相關的場景操作應用,如將新物體或鏡子添加到場景中,並在鏡子中合成這些新物體的反射,控制鏡子的粗糙度等。為實現此目標,我們提出了一個統一的輝度場,引入了反射概率並追踪光線,遵循Whitted Ray Tracing的光傳輸模型,並開發了幾種技術來促進學習過程。在合成和真實數據集上進行的實驗和比較顯示了我們方法的優越性。代碼和補充材料可在項目網頁上找到:https://zju3dv.github.io/Mirror-NeRF/.
對於工業控制而言,開發具有少量樣本和低技術債務的高性能控制器具有吸引力。基礎模型具有豐富的先前知識,通過與互聯網規模語料庫的預訓練獲得,有潛力成為一個具有適當提示的良好控制器。本文以暖通空調(Heating, Ventilation, and Air Conditioning,HVAC)建築控制為例,檢驗了GPT-4(一級基礎模型之一)作為控制器的能力。為了控制HVAC,我們將任務包裝成一種語言遊戲,通過提供包括任務簡短描述、幾個選定示範以及每一步對GPT-4的當前觀察的文本,並執行GPT-4回應的操作。我們進行了一系列實驗以回答以下問題:1)GPT-4能夠控制HVAC的效果如何?2)GPT-4能夠對HVAC控制的不同情境進行很好的泛化嗎?3)文本上下文的不同部分如何影響性能?總的來說,我們發現GPT-4實現了與少量樣本和低技術債務的RL方法相當的性能,表明直接應用基礎模型於工業控制任務具有潛力。
深度學習軟體庫的發展使該領域取得了顯著進展,讓使用者能專注於建模,同時讓庫負責優化執行以配合現代硬體加速器的繁瑣且耗時的任務。然而,這僅對特定類型的深度學習模型帶來好處,例如 Transformers,其基本元素易於映射到向量化計算。那些明確考慮結構化對象(如樹狀結構和分割)的模型並未同等受益,因為它們需要難以以向量化形式實現的自定義算法。 SynJax 直接解決了這個問題,提供了對齊、標記、分割、組成樹和跨度樹等結構分佈的有效向量化推理算法實現。使用 SynJax,我們可以構建明確對數據結構進行建模的大規模可微分模型。程式碼可在以下網址獲得:https://github.com/deepmind/synjax。
量化已成為現代深度神經網絡(DNNs)減小模型尺寸、計算需求和能源消耗的主流壓縮技術。隨著近期硬體中數值支持的改進,包括多種整數和浮點數的變體,混合精度量化已成為實現高質量結果並降低模型成本的必要手段。先前的混合精度量化方法採用了後訓練量化搜索,這會影響準確性,或者可微量化搜索,但會導致分支帶來的高內存使用。因此,我們提出了首個一次性混合精度量化搜索,可在整數和低精度浮點模型中消除重新訓練的需求。我們在多個卷積網絡和視覺轉換器模型上評估我們的浮點和整數量化搜索(FLIQS),以發現帕累托最優模型。我們的方法發現了優於均勻精度、手動混合精度和最近整數量化搜索方法的模型。通過提出的整數量化搜索,我們使ResNet-18在ImageNet上的準確性提高了1.31個百分點,ResNet-50提高了0.90個百分點,與先前方法相比,模型成本相當。此外,我們首次探索了一種新穎的混合精度浮點搜索,相對於先前最先進的FP8模型,將MobileNetV2提高了高達0.98個百分點。最後,我們將FLIQS擴展到同時搜索聯合量化和神經架構空間,並在MobileNetV2搜索空間上將ImageNet的準確性提高了2.69個百分點,並保持相似的模型成本。
深度生成模型能夠根據各種類型的表示(例如mel-頻譜圖、Mel頻率倒頻譜係數(MFCC))生成高保真度音頻。最近,這類模型已被用於合成音頻波形,並根據高度壓縮的表示進行條件設置。儘管這些方法產生了令人印象深刻的結果,但在條件設置存在缺陷或不完美時,它們容易生成可聽見的瑕疵。另一種建模方法是使用擴散模型。然而,這些模型主要被用作語音調變器(即根據mel-頻譜圖進行條件設置)或生成相對低採樣率信號。在這項工作中,我們提出了一種高保真度多頻帶擴散模型框架,可以從低比特率離散表示生成任何類型的音頻模態(例如語音、音樂、環境聲音)。在相同比特率下,所提出的方法在感知質量方面優於最先進的生成技術。訓練和評估代碼以及音頻樣本可在facebookresearch/audiocraft Github頁面上找到。