每日精選AI研究論文及翻譯
語言模型實際上只需要在個別推論時使用其神經元的指數比例。作為證明,我們提出了FastBERT,這是一種BERT變體,在推論過程中僅使用其神經元的0.3\%,並且表現與類似的BERT模型相當。FastBERT在每個層推論時只選擇了4095個神經元中的12個。這是通過將前饋網路替換為快速前饋網路(FFFs)實現的。儘管目前還沒有真正高效的實現來發揮條件神經執行的全部加速潛力,我們提供了高水平的CPU代碼,實現了比優化基準前饋實現快78倍的加速,以及一個PyTorch實現,提供了比等效批量前饋推論快40倍的加速。我們公開了我們的訓練代碼、基準設置和模型權重。
Orca 1從豐富的信號中學習,例如解釋軌跡,使其能夠在BigBench Hard和AGIEval等基準測試中優於傳統的指導調整模型。在Orca 2中,我們繼續探索如何通過改進的訓練信號來增強較小的語言模型的推理能力。對於訓練小型語言模型的研究通常依賴於模仿學習,以複製更有能力模型的輸出。我們認為過分強調模仿可能會限制較小模型的潛力。我們希望教導小型語言模型為不同任務採用不同的解決策略,這些策略可能與較大模型使用的策略不同。例如,儘管較大模型可能對複雜任務提供直接答案,但較小模型可能沒有相同的能力。在Orca 2中,我們教導模型各種推理技巧(逐步、回憶再生成、回憶-推理-生成、直接答案等)。更重要的是,我們旨在幫助模型學會為每個任務確定最有效的解決策略。我們使用包含約100個任務和超過36,000個獨特提示的全面的15個不同基準測試評估Orca 2。Orca 2明顯超越了相似大小模型,並在測試零-shot環境中測試高級推理能力的複雜任務時達到類似或更好的性能水平,這些任務評估了5-10倍大的模型。我們開源Orca 2以鼓勵進一步研究開發、評估和對齊較小語言模型。
在人工智慧領域中,創建高動態影片,如充滿動作和複雜視覺效果的影片,是一項重大挑戰。不幸的是,目前的最先進影片生成方法主要集中在文本到影片生成,儘管保持高保真度,但往往會產生動作極少的影片片段。我們認為僅依賴文本指示對於影片生成來說是不足夠且次優的。在本文中,我們介紹了PixelDance,這是一種基於擴散模型的新方法,該方法結合了圖像指示和文本指示,用於影片生成的第一幀和最後一幀。全面的實驗結果顯示,使用公共數據訓練的PixelDance在合成具有複雜場景和精細動作的影片方面表現出顯著更好的能力,為影片生成設定了新的標準。
基於Transformer的大型語言模型(LLMs)中的軟性注意力容易將上下文中的無關信息納入其潛在表示中,進而對下一個標記的生成產生不利影響。為了幫助糾正這些問題,我們引入了系統2注意力(S2A),利用LLMs在自然語言中進行推理和按照指示操作的能力,以決定要關注的內容。S2A重新生成輸入上下文,僅包含相關部分,然後關注重新生成的上下文以引出最終回應。在實驗中,S2A在包含意見或無關信息、問答、數學文字問題和長文生成等三個任務上優於基於標準注意力的LLMs,其中S2A提高了事實性和客觀性,降低了諂媚行為。
LoRA 在將 LLMs 適應特定任務時實現了卓越的資源效率和可比性能。由於 ChatGPT 在各種任務上展現出優越性能,人們越來越希望將一個模型適應所有任務。然而,LoRA 的明確低秩限制了在複雜多任務場景中的適應性能。LoRA 被少數頂級奇異向量所主導,而微調則分解為一組不太重要的單位轉換。在本文中,我們提出了 MultiLoRA,通過減少 LoRA 中觀察到的頂級奇異向量的主導地位,以實現更好的多任務適應。MultiLoRA 通過水平擴展 LoRA 模塊並改變適應矩陣的參數初始化,以減少參數依賴性,從而產生更平衡的單位子空間。我們首次構建了專門的訓練數據,混合了指令跟隨、自然語言理解、世界知識的數據集,以涵蓋在語義和句法上不同的樣本。僅通過額外 2.5% 的參數,MultiLoRA 在多個基準和模型規模上均優於單個 LoRA 和微調。對 MultiLoRA 的權重更新矩陣進行進一步研究表明,其對頂級奇異向量的依賴性減少,並且單位轉換貢獻更加平等。
我們提出了 GPQA,這是一個由生物學、物理學和化學領域專家撰寫的具有挑戰性的資料集,包含 448 個多重選擇題。我們確保這些問題是高質量且極具挑戰性的:在相應領域擁有或正在攻讀博士學位的專家們達到了 65% 的準確率(若不計專家事後辨認的明顯錯誤,準確率為 74%),而高技能的非專家驗證者僅達到 34% 的準確率,儘管他們平均花費超過 30 分鐘並可無限制地使用網路(即這些問題是「防 Google」的)。這些問題對於最先進的人工智慧系統也具有挑戰性,我們基於最強的 GPT-4 基線僅達到 39% 的準確率。如果我們要利用未來的人工智慧系統來幫助我們回答非常困難的問題,例如在開發新科學知識時,我們需要發展可擴展的監督方法,使人類能夠監督其輸出,即使監督者本身具有技能和知識也可能很困難。對於高技能的非專家和前沿人工智慧系統來說,GPQA 的困難性應該能夠進行現實可擴展的監督實驗,我們希望這能幫助制定方法,讓人類專家能夠可靠地從超越人類能力的人工智慧系統中獲得真實信息。
我們介紹了 Adapters,這是一個開源庫,統一了大型語言模型中參數高效和模塊化的遷移學習。通過將 10 種不同的 adapter 方法集成到統一接口中,Adapters 提供了易用性和靈活的配置。我們的庫允許研究人員和從業者通過組合塊利用 adapter 模塊化,從而設計複雜的 adapter 設置。我們通過對比在各種自然語言處理任務上的完整微調性能,展示了該庫的有效性。Adapters 提供了一個強大的工具,用於應對傳統微調範式的挑戰,並促進更高效和模塊化的遷移學習。該庫可通過 https://adapterhub.ml/adapters 獲取。
我們介紹了「風格定制」,這是一種微調潛在擴散模型(LDMs)的方法,用於在高視覺質量、即時對齊和場景多樣性的不同領域中。我們選擇貼紙圖像生成作為目標領域,因為這些圖像與通常由大規模LDMs生成的照片逼真樣本有顯著差異。我們從一個具有競爭力的文本到圖像模型開始,比如Emu,並展示依賴通過照片逼真模型生成貼紙的提示工程導致提示對齊和場景多樣性差。為了克服這些缺點,我們首先在使用弱監督收集的數百萬張類似貼紙的圖像上對Emu進行微調,以引出多樣性。接下來,我們從模型生成中精選人機協作(HITL)對齊和風格數據集,並進行微調以分別改善提示對齊和風格對齊。在這些數據集上的順序微調存在更好風格對齊和提示對齊增益之間的權衡。為了應對這種權衡,我們提出了一種新穎的微調方法,稱為風格定制,它共同擬合內容和風格分佈,實現最佳權衡。評估結果顯示,與對Emu基本模型進行提示工程生成貼紙相比,我們的方法將視覺質量提高了14%,提示對齊提高了16.2%,場景多樣性提高了15.3%。
最近在文本轉3D生成方面的進展標誌著生成模型中的一個重要里程碑,為在各種現實場景中創建富有想像力的3D資產開啟了新的可能性。儘管最近在文本轉3D生成方面取得了一些進展,但往往在渲染詳細和高質量的3D模型方面表現不佳。這個問題特別普遍,因為許多方法基於得分蒸餾取樣(SDS)。本文識別出SDS存在一個顯著缺陷,即為3D模型帶來不一致和低質量的更新方向,導致過度平滑效應。為解決這個問題,我們提出了一種名為區間得分匹配(ISM)的新方法。ISM採用確定性擴散軌跡,並利用基於區間的得分匹配來抵消過度平滑。此外,我們將3D高斯擴散技術納入我們的文本轉3D生成流程中。大量實驗表明,我們的模型在質量和訓練效率方面大大優於當前的最新技術。
增加語言模型參數的規模已被證明是提高性能的有效方法。對於密集模型,增加模型大小會成比例地增加模型的計算占用。在這項工作中,我們試圖通過具有大型知識豐富詞彙的路由函數和專家的混合專家(MoE)風格模型,積極地將學習能力和FLOPs分離開來。我們提出的方法被稱為詞專家混合(MoWE),可以被視為一種記憶增強模型,其中一大套特定於單詞的專家扮演稀疏記憶的角色。我們展示MoWE在各種自然語言處理任務中比具有相似FLOPs數量的T5模型系列表現顯著更好。此外,MoWE在知識密集型任務上優於常規MoE模型,並且與通常需要調用自定義機制來搜索稀疏記憶的更複雜的記憶增強方法表現相似。
故事視覺化旨在生成一系列符合文本描述的圖像,需要這些生成的圖像具有高品質、與文本描述一致,並保持角色身份的一致性。鑒於故事視覺化的複雜性,現有方法通常通過僅考慮少數特定角色和情境,或要求使用者提供每幅圖像的控制條件(如草圖)來大幅簡化問題。然而,這些簡化使得這些方法無法應用於實際場景。因此,我們提出了一個自動化故事視覺化系統,可以有效生成多樣、高品質和一致的故事圖像集,並最大程度減少人類參與。具體而言,我們利用大型語言模型的理解和規劃能力進行佈局規劃,然後利用大規模文本到圖像模型基於佈局生成複雜的故事圖像。我們在實證中發現,稀疏的控制條件,如邊界框,適合於佈局規劃,而密集的控制條件,例如草圖和關鍵點,適合於生成高品質的圖像內容。為了兼顧兩者的優勢,我們設計了一個密集條件生成模組,將簡單的邊界框佈局轉換為草圖或關鍵點控制條件用於最終圖像生成,這不僅提高了圖像質量,還使用者可以輕鬆直觀地進行交互。此外,我們提出了一種簡單而有效的方法來生成多視角一致的角色圖像,消除了依賴人工收集或繪製角色圖像的需求。
從古代水車到機器人流程自動化(RPA),自動化技術在歷史上不斷演進,以解放人類免於繁重任務。然而,RPA 在需要類似人類智能的任務上遇到困難,特別是在複雜的工作流程設計和工作流程執行中的動態決策方面。隨著大型語言模型(LLMs)出現具有類似人類智能,本文介紹了主動式流程自動化(APA),這是一種開創性的自動化範式,使用基於LLM的代理人進行先進自動化,將人類勞動轉移給與構建和執行相關的代理人。然後,我們實例化了ProAgent,一個基於LLM的代理人,旨在根據人類指令制定工作流程並通過協調專門代理人做出精細決策。進行了實證實驗以詳細說明其工作流程的構建和執行過程,展示了APA的可行性,揭示了由代理人驅動的新自動化範式的可能性。我們的代碼公開在https://github.com/OpenBMB/ProAgent。
大型語言模型(LLMs)已展示出在處理需要結合任務規劃和使用外部工具的任務方面的熟練能力,這些工具需要結合任務規劃和利用外部工具(如API)的能力。然而,現實世界中的複雜系統存在三個普遍挑戰,涉及任務規劃和工具使用:(1)真實系統通常擁有大量的API,因此不可能將所有API的描述提供給LLMs的提示,因為令牌長度有限;(2)真實系統設計用於處理複雜任務,基本LLMs幾乎無法為此類任務規劃正確的子任務順序和API調用順序;(3)真實系統中API之間的類似語義和功能為LLMs甚至人類在區分它們方面帶來挑戰。為應對這些挑戰,本文介紹了一個全面框架,旨在增強基於LLMs的代理在現實世界系統中的任務規劃和工具使用(TPTU)能力。我們的框架包括三個關鍵組件,旨在應對這些挑戰:(1)API檢索器從眾多可用的API中選擇最相關的API以供用戶任務使用;(2)LLM微調器微調基本LLM,使微調後的LLM能夠更適合任務規劃和API調用;(3)演示選擇器自適應地檢索與難以區分的API相關的不同演示,進一步用於上下文學習,以提高最終性能。我們使用一個真實商業系統以及一個開源學術數據集來驗證我們的方法,結果清楚展示了每個單獨組件以及整合框架的有效性。
我們介紹了一個流程,通過整合人類行為觀察來增強通用視覺語言模型GPT-4V(ision),以促進機器人操作。該系統分析人類執行任務的視頻,並創建包含可供性見解的可執行機器人程序。計算始於使用GPT-4V分析視頻,將環境和動作細節轉換為文本,接著是由GPT-4增強的任務規劃器。在後續分析中,視覺系統重新分析帶有任務計劃的視頻。物體名稱通過開放詞彙的物體檢測器來定位,同時關注手-物體關係有助於檢測抓取和釋放的時刻。這種時空定位使視覺系統進一步收集可供性數據(例如,抓取類型、路徑點和身體姿勢)。在各種情境下的實驗證明了這種方法以零樣本方式實現從人類示範到真實機器人操作的有效性。GPT-4V/GPT-4的提示可在此項目頁面找到:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
目前利用大型語言模型(LLMs)進行研究的領域正在迅速增長。許多作品利用這些模型強大的推理能力來理解各種形式,如文本、語音、圖像、視頻等。它們還利用LLMs來理解人類意圖並生成所需的輸出,如圖像、視頻和音樂。然而,利用LLMs結合理解和生成的研究仍然有限且處於起步階段。為了填補這一空白,我們引入了一個多模態音樂理解和生成(M^{2}UGen)框架,該框架整合了LLM的理解和生成音樂的能力,適用於不同的形式。M^{2}UGen框架旨在從多種靈感來源中釋放創造潛力,包括音樂、圖像和視頻,通過分別使用預訓練的MERT、ViT和ViViT模型。為了實現音樂生成,我們探索了AudioLDM 2 和MusicGen的應用。通過整合LLaMA 2模型,實現多模態理解和音樂生成的橋樑。此外,我們利用MU-LLaMA模型生成大量支持文本/圖像/視頻轉換為音樂生成的數據集,有助於訓練我們的M^{2}UGen框架。我們對我們提出的框架進行了全面評估。實驗結果表明,我們的模型實現或超越了當前最先進模型的性能。