每日精選AI研究論文及翻譯
目前的大型語言模型(LLMs)可以處理長達 100,000 個標記的輸入,但卻難以生成超過 2,000 個字的輸出。通過受控實驗,我們發現模型的有效生成長度在於其在監督微調(SFT)期間見過的樣本所限制。換句話說,它們的輸出限制是由現有 SFT 數據集中長輸出示例的稀缺性所致。為了解決這個問題,我們引入了 AgentWrite,這是一個基於代理的流程,將超長生成任務分解為子任務,使現成的 LLMs 能夠生成連貫的超過 20,000 個字的輸出。利用 AgentWrite,我們構建了 LongWriter-6k 數據集,其中包含 6,000 個 SFT 數據,輸出長度範圍從 2k 到 32k 個字不等。通過將這個數據集納入模型訓練,我們成功地將現有模型的輸出長度擴展到超過 10,000 個字,同時保持輸出質量。我們還開發了 LongBench-Write,這是一個全面的基準測試,用於評估超長生成能力。我們的 9B 參數模型,通過 DPO 進一步改進,在這個基準測試中實現了最先進的性能,甚至超過了更大的專有模型。總的來說,我們的工作表明,現有的長上下文 LLM 已經具備了更大輸出窗口的潛力--您所需要的就是在模型對齊期間具有擴展輸出的數據,以解鎖這一能力。我們的代碼和模型位於:https://github.com/THUDM/LongWriter。
我們介紹了Imagen 3,一種潛在擴散模型,可從文本提示生成高質量圖像。我們描述了我們的質量和責任評估。在評估時,Imagen 3優於其他當時最先進的模型。此外,我們討論了安全和表徵方面的問題,以及我們用來減少模型潛在危害的方法。
大型語言模型(LLM)代理在解決現實世界軟體工程(SWE)問題方面展現出巨大潛力。最先進的開源SWE代理可以解決SWE-Bench Lite中超過27%的真實GitHub問題。然而,這些複雜的代理框架展示出不同的優勢,在某些任務上表現出色,而在其他任務上表現不佳。為了充分利用這些代理的多樣性,我們提出DEI(Diversity Empowered Intelligence),這是一個利用它們獨特專業知識的框架。DEI作為現有SWE代理框架之上的元模組,管理代理集合以增強問題解決能力。實驗結果顯示,由DEI引導的代理委員會能夠大幅超越最佳個別代理的表現。例如,一組開源SWE代理,在SWE-Bench Lite上的最大個別解決率為27.3%,使用DEI可以實現34.3%的解決率,提高25%,超越大多數封閉源解決方案。我們表現最佳的群體在SWE-Bench Lite上以55%的解決率脫穎而出,獲得最高排名。我們的研究結果有助於不斷增長的協作人工智慧系統研究領域,以及它們解決複雜軟體工程挑戰的潛力。
科學文獻的快速增長給研究人員帶來了重大挑戰,他們需要不斷更新自己的領域中最新進展並深入探索新領域。我們介紹了一個創新平台OpenResearcher,該平台利用人工智慧(AI)技術來加速研究過程,回答研究人員提出的各種問題。OpenResearcher基於檢索增強生成(RAG)構建,將大型語言模型(LLMs)與最新的領域特定知識相結合。此外,我們為OpenResearcher開發了各種工具,用於理解研究人員的查詢、從科學文獻中搜索、過濾檢索到的信息、提供準確全面的答案並自我完善這些答案。OpenResearcher可以靈活使用這些工具來平衡效率和效果。因此,OpenResearcher使研究人員節省時間,增加發現新見解並推動科學突破的潛力。演示、視頻和代碼可在以下鏈接找到:https://github.com/GAIR-NLP/OpenResearcher。
大型語言模型(LLMs)的擴展已經在各種任務中實現了革命性的能力,然而這種增長必須與高效的計算策略相匹配。混合專家(MoE)架構以其能夠在不顯著增加訓練成本的情況下擴展模型大小的能力脫穎而出。儘管具有優勢,但目前的MoE模型通常存在參數效率低的問題。例如,具有 520 億參數的預訓練 MoE-based LLM 可能與具有 67 億參數的標準模型表現相當。作為 MoE 的關鍵部分,目前不同層中的路由器獨立分配標記,而不利用歷史路由信息,可能導致次優的標記-專家組合和參數效率問題。為了緩解這個問題,我們引入了用於混合專家的層內循環路由器(RMoE)。RMoE 利用閘控循環單元(GRU)在連續層之間建立路由決策之間的依賴關係。這種層內循環可以有效並行計算輸入標記,並引入可協商的成本。我們的廣泛實證評估表明,基於 RMoE 的語言模型始終優於各種基準模型。此外,RMoE 集成了一個與現有方法正交的新型計算階段,使其與其他 MoE 架構無縫兼容。我們的分析將 RMoE 的增益歸因於其有效的跨層信息共享,這也改善了專家選擇和多樣性。我們的代碼位於 https://github.com/qiuzh20/RMoE
大型語言模型的發展導致了一種預訓練-微調範式的形成,其中模型通常在大型文本語料庫上進行預訓練,並經歷調整階段以使模型與人類偏好或下游任務保持一致。在這項研究中,我們通過微調多個中間預訓練模型檢查點,來探討預訓練與微調之間的關係。我們對18個數據集的結果表明:i)持續的預訓練以潛在方式改進模型,在微調後才顯現出來;ii)通過額外的微調,模型在預訓練階段表現不佳的數據集獲益遠遠大於在該階段表現良好的數據集;iii)儘管模型通過監督微調顯著受益,但可能會忘記先前已知的領域知識和在微調期間未見過的任務;iv)模型在監督微調後對評估提示具有高度敏感性,但這種敏感性可以通過更多的預訓練來緩解。
從複雜的視覺場景中提煉以物件為中心的抽象能力,是支撐人類級泛化的基礎。儘管在以物件為中心的學習方法方面取得了顯著進展,但在3D物理世界中學習以物件為中心的表示仍然是一個重要挑戰。在這項工作中,我們提出了SlotLifter,一種新穎的以物件為中心的輝度模型,通過插槽引導的特徵提升,共同解決場景重建和分解。這種設計結合了以物件為中心的學習表示和基於圖像的渲染方法,在四個具有挑戰性的合成數據集和四個複雜的真實世界數據集上,提供了最先進的場景分解和新視角合成性能,遠遠優於現有的3D以物件為中心的學習方法。通過大量的消融研究,我們展示了SlotLifter設計的有效性,揭示了潛在未來方向的關鍵見解。
受 Geoffrey Hinton 強調生成建模的啟發,即「要認識形狀,首先要學會生成它們」,我們探索了使用 3D 擴散模型進行物體分類的方法。利用這些模型的密度估計,我們的方法,即用於 3D 物體的擴散分類器(DC3DO),實現了無需額外訓練即可對 3D 形狀進行分類。平均而言,我們的方法相較於其多視圖對應物有 12.5% 的改善,展現了比辨識方法更優越的多模態推理能力。DC3DO 使用在 ShapeNet 上訓練的類條件擴散模型,我們對椅子和汽車的點雲進行推論。這項工作突顯了生成模型在 3D 物體分類中的潛力。
UniT是一種新穎的觸覺表示學習方法,利用VQVAE來學習緊湊的潛在空間並作為觸覺表示。它使用從單一簡單物體獲得的觸覺圖像來訓練具有可轉移性和泛化性的表示。這種觸覺表示可以零樣本轉移到各種下游任務,包括感知任務和操作策略學習。我們在手中3D姿勢估計任務上的基準測試顯示,UniT優於現有的視覺和觸覺表示學習方法。此外,UniT在政策學習方面的有效性已在涉及多樣操縱物體和複雜機器人-物體-環境交互作用的三個現實世界任務中得到證明。通過大量實驗,UniT被證明是一種易於訓練、即插即用,但廣泛有效的觸覺表示學習方法。有關更多詳細信息,請參閱我們的開源存儲庫https://github.com/ZhengtongXu/UniT和項目網站https://zhengtongxu.github.io/unifiedtactile.github.io/。
大型語言模型(LLMs)展現了在各種任務中的優勢。然而,許多LLMs在高資源語言和低資源語言之間表現出顯著的性能差異。為了解決這一挑戰,我們提出了FuxiTranyu,這是一個開源的多語言LLM,旨在滿足研究社群對平衡和高性能多語言能力的需求。FuxiTranyu-8B是基礎模型,具有80億個參數,從頭開始訓練,使用一個精心平衡的多語言數據庫,包含6000億個標記,涵蓋43種自然語言和16種編程語言。除了基礎模型外,我們還開發了兩個指令調整的模型:FuxiTranyu-8B-SFT在多樣化的多語言指令數據集上進行微調,FuxiTranyu-8B-DPO則在偏好數據集上進一步優化DPO以提高對齊能力。在廣泛的多語言基準測試中進行的大量實驗顯示,FuxiTranyu相對於現有的多語言LLMs(例如BLOOM-7B、PolyLM-13B、Llama-2-Chat-7B和Mistral-7B-Instruct)具有競爭力的性能。在神經元和表示層面的可解釋性分析表明,FuxiTranyu能夠學習跨不同語言的一致多語言表示。為了促進對多語言LLMs及其工作機制的進一步研究,我們在HuggingFace和Github上發布了基礎和指令調整的FuxiTranyu模型,以及58個預訓練檢查點。
電影劇本摘要是具有挑戰性的,因為它需要理解長篇輸入內容和電影獨有的各種元素。大型語言模型在文件摘要方面取得了顯著進展,但它們通常在處理長篇輸入內容時遇到困難。此外,雖然電視劇本已獲得近期研究的關注,但電影劇本摘要仍未被充分探索。為了激發這一領域的研究,我們提出了一個新的數據集 MovieSum,用於電影劇本的抽象摘要。該數據集包括2200部電影劇本,並附有它們的維基百科情節摘要。我們手動格式化了電影劇本以代表它們的結構元素。與現有數據集相比,MovieSum 具有幾個獨特特徵:(1) 它包括電影劇本,比電視劇集的劇本更長。 (2) 它是先前電影劇本數據集的兩倍大小。 (3) 它提供了帶有 IMDb ID 的元數據,以便獲取額外的外部知識。我們還展示了最近發布的大型語言模型應用於我們數據集的摘要,以提供詳細的基準線。
預訓練的大型語言模型(LLMs)已在傳統自然語言處理(NLP)任務中展示出顯著的能力,如摘要和實體識別。本文探討LLMs在生成高質量蛋白序列方面的應用。具體而言,我們採用了一系列預訓練的LLMs,包括Mistral-7B1、Llama-2-7B2、Llama-3-8B3和gemma-7B4,以生成有效的蛋白序列。所有這些模型都是公開可用的。與該領域先前的工作不同,我們的方法使用了一個相對較小的數據集,包括42,000個不同的人類蛋白序列。我們對這些模型進行了重新訓練,以處理與蛋白相關的數據,確保生成具有生物可行性的蛋白結構。我們的研究結果表明,即使數據有限,適應後的模型展現出與已建立的蛋白專注模型(如ProGen系列、ProtGPT2和ProLLaMA)相當的效率,這些模型是在數百萬個蛋白序列上進行訓練的。為驗證和量化我們模型的性能,我們進行了使用標準指標(如pLDDT、RMSD、TM-score和REU)的比較分析。此外,我們承諾將所有四個模型的訓練版本公開,促進計算生物學領域的更大透明度和合作。
對於人類和機器人來說,觸覺感知,即觸覺感測,在執行接觸豐富的操作任務中至關重要。在機器人觸覺感測中的三個關鍵挑戰是:1) 解釋感測器信號,2) 在新情境中生成感測器信號,以及3) 學習基於感測器的策略。對於視覺觸覺感測器,解釋方面已經得到促進,因為它們與視覺感測器(例如RGB攝像頭)之間有著密切的關係。然而,生成仍然困難,因為視覺觸覺感測器通常涉及接觸、變形、照明和成像,這些都很昂貴且難以模擬;反過來,策略學習一直是具有挑戰性的,因為無法利用模擬進行大規模數據收集。我們提出了TacSL(taxel),這是一個基於GPU的視覺觸覺感測器模擬和學習庫。TacSL可用於模擬視覺觸覺圖像,並在廣泛使用的Isaac Gym模擬器中比先前最先進的方法快200倍提取接觸力分佈。此外,TacSL提供了一個學習工具包,其中包含多個感測器模型、接觸密集型訓練環境以及可以促進模擬到真實應用的在線/離線算法。在算法方面,我們介紹了一種新穎的在線強化學習算法,稱為非對稱演員-評論家蒸餾(\sysName),旨在有效且高效地在模擬中學習基於觸覺的策略,並能夠轉移到現實世界。最後,我們通過評估蒸餾和多模態感知對接觸豐富操作任務的好處,以及最為關鍵的進行模擬到真實的轉移,展示了我們庫和算法的效用。補充視頻和結果可在https://iakinola23.github.io/tacsl/找到。
基於擴散的文本到圖像生成模型已顯著推動了藝術內容合成領域的發展。然而,目前的肖像風格化方法通常要求基於示例進行模型微調,或者採用 DDIM 逆向轉換將圖像還原為噪聲空間,這兩者都顯著減緩了圖像生成過程。為了克服這些限制,本文提出了一種基於擴散模型的無逆向轉換肖像風格化框架,僅需四個取樣步驟即可實現內容和風格特徵融合。我們觀察到,採用一致性提煉的潛在一致性模型可以有效從噪聲圖像中提取具代表性的一致性特徵。為了融合從內容和風格圖像中提取的一致性特徵,我們引入了一種風格增強注意力控制技術,精心將內容和風格特徵融合在目標圖像的注意力空間內。此外,我們提出了一種特徵融合策略,將一致性特徵中的冗餘特徵合併,從而降低注意力控制的計算負載。大量實驗驗證了我們提出的框架在提高風格化效率和保真度方面的有效性。代碼可在 https://github.com/liujin112/ZePo 找到。
一般基於解交錯的語者匿名化系統通常使用個別編碼器將語音分為內容、說話者和語調特徵。本文探討當需要更大程度地保留新的語音屬性(例如情感)時,如何調整這樣的系統。現有系統擅長匿名化說話者嵌入,但並非旨在保留情感。本文探討了兩種策略。首先,我們展示了從預先訓練的情感編碼器中整合情感嵌入可以幫助保留情感線索,儘管這種方法略微影響隱私保護。另一方面,我們提出一種情感補償策略作為應用於匿名化說話者嵌入的後處理步驟。這種策略隱藏了原始說話者的身份,並重新引入在說話者嵌入匿名化過程中遺失的情感特徵。具體而言,我們使用支持向量機來建模情感屬性,以學習每種情感的單獨邊界。在推斷過程中,原始說話者嵌入以兩種方式進行處理:一種是通過情感指示器來預測情感並準確選擇與情感匹配的支持向量機;另一種是通過說話者匿名化器來隱藏說話者特徵。然後,匿名化的說話者嵌入將沿著相應的支持向量機邊界修改,朝著增強的情感方向保存情感線索。提出的策略也有望對調整一般基於解交錯的語者匿名化系統以保留其他目標語言屬性(如語音外語言特徵)並應用於各種下游任務具有幫助。