每日精選AI研究論文及翻譯
隨著文本轉圖像模型(例如Stable Diffusion)和相應的個性化技術,如DreamBooth和LoRA的進步,每個人都可以以負擔得起的成本將他們的想像力具現化為高質量圖像。因此,對於進一步將生成的靜態圖像與運動動態相結合的圖像動畫技術有著巨大需求。在本報告中,我們提出了一個實用框架,可以一勞永逸地為大多數現有的個性化文本轉圖像模型添加動畫,從而節省了對特定模型的調整工作。所提出框架的核心是將一個新初始化的運動建模模塊插入凍結的文本轉圖像模型中,並將其訓練在視頻剪輯上以提煉合理的運動先驗。一旦訓練完成,通過簡單地注入這個運動建模模塊,所有從相同基本T2I衍生的個性化版本都會立即成為由文本驅動的模型,可以生成多樣且個性化的動畫圖像。我們在幾個公共代表性的個性化文本轉圖像模型上進行了評估,包括動漫圖片和寫實照片,並展示了我們提出的框架有助於這些模型生成在保留輸出的領域和多樣性的同時具有時間上平滑的動畫片段。代碼和預先訓練的權重將在https://animatediff.github.io/ 上公開提供。
大型語言模型(LLMs)已為人工通用智能的推進制定了藍圖。其主要目標是作為以人為中心(有幫助、誠實和無害)的助手。與人類的對齊被認為至關重要,而強化學習與人類反饋(RLHF)則成為支撐這一追求的關鍵技術範式。目前的技術路線通常包括獎勵模型來衡量人類偏好,Proximal Policy Optimization(PPO)來優化政策模型輸出,以及過程監督來提高逐步推理能力。然而,由於獎勵設計、環境交互作用和代理訓練的挑戰,再加上大型語言模型的巨大試驗成本,AI研究人員在激勵技術對齊的發展和LLMs的安全著陸方面面臨重大障礙。RLHF的穩定訓練仍然是一個謎。在第一份報告中,我們解剖了RLHF的框架,重新評估了PPO的內部運作,並探索了構成PPO算法的部分如何影響政策代理訓練。我們確定政策約束是PPO算法有效實施的關鍵因素。因此,我們探索了PPO-max,這是PPO算法的高級版本,以有效提高政策模型的訓練穩定性。基於我們的主要結果,我們對RLHF能力進行了全面分析,並與SFT模型和ChatGPT進行了比較。缺乏開源實現對LLMs對齊的調查提出了重大挑戰。因此,我們渴望發布技術報告、獎勵模型和PPO代碼。
最近在大型預訓練模型在三維視覺領域的下游任務中的創意應用方面取得了顯著進展,例如文本到形狀生成。這促使我們探究如何有效地利用這些預訓練模型從草圖生成三維形狀,這一直是一個開放挑戰,原因在於有限的草圖-形狀配對數據集以及草圖中抽象程度的不同。我們發現,在訓練過程中將三維生成模型條件化為從凍結的大型預訓練視覺模型獲得的特徵(從合成渲染中獲得)能夠有效地使我們在推論時從草圖生成三維形狀。這表明大型預訓練視覺模型的特徵攜帶了語義信號,對領域轉移具有韌性,即使我們僅使用RGB渲染,也能在推論時泛化到草圖。我們進行了一系列全面的實驗,研究不同的設計因素,並展示了我們簡單方法的有效性,能夠根據輸入草圖生成多個三維形狀,而無需在訓練過程中使用任何配對數據集。
我們提出了 Emu,一個基於 Transformer 的多模態基礎模型,能夠無縫生成多模態情境中的圖像和文本。這個全能模型可以通過一個統一的自回歸訓練過程,不加區別地接受任何單模態或多模態的數據輸入(例如,交錯的圖像、文本和視頻)。首先,將視覺信號編碼為嵌入,然後與文本標記一起形成一個交錯的輸入序列。Emu 接著通過統一的目標進行端到端訓練,該目標是對多模態序列中的下一個文本標記進行分類,或者回歸出下一個視覺嵌入。這種多功能的多模態性賦予了在規模上探索多樣的預訓練數據來源的能力,例如包含交錯幀和文本的視頻、包含交錯圖像和文本的網頁,以及規模宏大的圖像-文本對和視頻-文本對。Emu 可以作為一個通用的多模態界面,用於圖像到文本和文本到圖像的任務,並支持上下文中的圖像和文本生成。在廣泛的零樣本/少樣本任務範疇中,包括圖像標題生成、視覺問答、視頻問答和文本到圖像生成,Emu 相較於最先進的大型多模態模型展現出卓越的性能。同時,通過指導調整實現了多模態助手等擴展功能,並展現出令人印象深刻的性能。
本文介紹了Semantic-SAM,一個通用的影像分割模型,可讓使用者以任何所需的粒度進行分割和識別。我們的模型具有兩個關鍵優勢:語義感知和粒度豐富。為了實現語義感知,我們整合了三個粒度的多個數據集,並引入了對象和部分的解耦分類。這使得我們的模型能夠捕捉豐富的語義信息。對於多粒度能力,我們提出了一種多選擇學習方案,在訓練期間使每次點擊能夠生成對應於多個地面真實遮罩的多個級別的遮罩。值得注意的是,這項工作代表了首次嘗試在SA-1B、通用和部分分割數據集上聯合訓練模型。實驗結果和可視化展示表明,我們的模型成功實現了語義感知和粒度豐富。此外,將SA-1B訓練與其他分割任務(如全景和部分分割)相結合,將帶來性能改進。我們將提供代碼和演示以進一步探索和評估。
我們介紹了 VampNet,一種遮罩聲學記號建模方法,用於音樂合成、壓縮、修補和變化。在訓練期間,我們使用可變遮罩時間表,這使我們能夠通過在推理期間應用各種遮罩方法(稱為提示)來從模型中採樣連貫的音樂。VampNet 是非自回歸的,利用雙向轉換器架構,在前向傳遞中關注所有記號。僅通過 36 次採樣過程,VampNet 就能生成連貫且高保真度的音樂波形。我們展示了通過以各種方式提示 VampNet,我們可以將其應用於音樂壓縮、修補、外描、延續和循環變化(vamping)等任務。在適當提示的情況下,VampNet 能夠保持音樂的風格、流派、樂器和其他高層次方面。這種靈活的提示能力使 VampNet 成為一個強大的音樂共創工具。代碼和音頻樣本可在線上獲得。
人類智慧蓬勃發展在認知協同的概念上,其中不同認知過程之間的合作和信息整合產生比單獨認知過程更優越的結果。儘管大型語言模型(LLMs)已經展示出作為通用任務解決代理的有希望的表現,但它們仍然在需要密集領域知識和複雜推理的任務上遇到困難。在這項工作中,我們提出了獨奏表現提示(SPP),通過與多個人格進行多輪自我協同合作,將單個LLM轉化為認知協同者。認知協同者指的是一個智能代理,與多個思維合作,結合他們各自的優勢和知識,以增強解決問題和複雜任務中的整體表現。通過根據任務輸入動態識別和模擬不同的人格,SPP發揮了LLMs中認知協同的潛力。我們發現,在LLMs中分配多個細粒度的人格比使用單個或固定數量的人格能更好地引發解決問題的能力。我們在三個具有挑戰性的任務上評估了SPP:知識創意寫作、代號合作和邏輯網格拼圖,包括知識密集型和推理密集型。與先前的作品(如Chain-of-Thought)不同,它僅增強LLMs中的推理能力,SPP有效地引發了內部知識獲取能力,減少了幻覺並保持了強大的推理能力。代碼、數據和提示可在以下鏈接找到:https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git。
我們觀察到預訓練的大型語言模型(LLMs)能夠自回歸地完成複雜的標記序列,從由概率上下文無關文法(PCFG)程序生成的任意序列,到在抽象推理語料庫(ARC)中找到的更豐富的空間模式,這是一個通用人工智能基準,以ASCII藝術風格提示。令人驚訝的是,即使使用從詞彙中隨機抽樣的標記來表示序列,模式完成的能力也可以部分保留。這些結果表明,在沒有額外訓練的情況下,LLMs可以作為通用序列建模器,受到上下文學習的驅動。在這項工作中,我們研究了這些零-shot能力如何應用於機器人問題,從推斷代表隨時間變化的狀態的數字序列以完成簡單運動,到根據獎勵條件軌跡的從最少到最多提示,這些軌跡可以發現並表示閉環策略(例如,CartPole的穩定控制器)。雖然由於延遲、上下文大小限制和計算成本,目前難以應用於實際系統,但使用LLMs來驅動低級控制的方法可能提供了一個令人興奮的領域,展示了詞語之間的模式如何轉移到行動中。
發展世界各種語言的自然語言處理系統面臨的挑戰之一是了解它們如何應用於與現實應用相關的類型學差異。為此,我們提出了M2C,一個考慮詞形的框架,用於對自然語言處理模型進行行為測試。我們使用M2C 生成測試,以探究模型在12種類型多樣的語言中對特定語言特徵的行為。我們對最先進的語言模型在生成的測試上進行評估。儘管模型在英語的大多數測試中表現出色,我們強調了對於某些特定類型學特徵的泛化失敗,例如斯瓦希里語中的時間表達和芬蘭語中的合成所有格。我們的研究結果促使開發能夠解決這些盲點的模型。
大型語言模型(LLMs)在自然語言處理領域取得了顯著成功,使得使用自然語言進行更好的人機交互成為可能。然而,如何無縫地將語音信號整合到LLMs中尚未得到很好的探索。"僅解碼器"架構對於語音處理任務的研究也不夠深入。在這項研究中,我們介紹了Speech-LLaMA,一種新穎的方法,有效地將聲學信息融入基於文本的大型語言模型中。我們的方法利用連接主義暫態分類和一個簡單的音頻編碼器,將壓縮的聲學特徵映射到LLM的連續語義空間中。此外,我們進一步探討僅解碼器架構用於語音轉文本任務,通過僅使用語音文本配對數據訓練一個規模較小且隨機初始化的speech-LLaMA模型。我們在多語言語音轉文本翻譯任務上進行實驗,並展示出明顯優於強基線的改進,突顯了僅解碼器模型在語音轉文本轉換中的潛在優勢。
國際機構可能在確保先進人工智慧系統造福人類方面發揮重要作用。國際合作可以激發人工智慧進一步促進可持續發展的能力,調整監管努力可以減少創新障礙和利益擴散。相反,功能強大且通用的人工智慧系統具有潛在危險能力,在其發展和部署中產生全球外部性,國際努力促進負責任的人工智慧實踐可能有助於管理其帶來的風險。本文確定了一組治理功能,可以在國際層面執行,以應對這些挑戰,從支持接觸前沿人工智慧系統到設定國際安全標準。它將這些功能分為四種機構模型,展示內部協同作用並在現有組織中具有先例:1)前沿人工智慧委員會,促進專家對先進人工智慧的機會和風險達成共識,2)高級人工智慧治理組織,設定國際標準以應對來自先進模型的全球威脅,支持其實施,可能監督未來治理體制的遵循,3)前沿人工智慧合作組織,促進接觸尖端人工智慧,以及4)人工智慧安全項目,匯集領先的研究人員和工程師進一步推進人工智慧安全研究。我們探討這些模型的效用並確定與其可行性有關的問題。
程式合成或代碼生成的目標是根據給定的描述生成可執行的代碼。最近,越來越多的研究採用強化學習(RL)來改善用於代碼的大型語言模型(LLMs)的性能。然而,這些RL方法僅使用離線框架,限制了它們對新樣本空間的探索。此外,目前利用單元測試信號的方法相當簡單,未考慮代碼中特定錯誤位置。為了解決這些問題,我們提出了RLTF,即從單元測試反饋中學習的強化學習,這是一個新穎的在線RL框架,具有用於精煉代碼LLMs的多粒度單元測試反饋。我們的方法在訓練期間實時生成數據,同時利用精細的反饋信號引導模型生成更高質量的代碼。大量實驗表明,RLTF在APPS和MBPP基準測試中實現了最先進的性能。我們的代碼可在以下位置找到:https://github.com/Zyq-scut/RLTF。
在進行人工智慧研究時,一致性和可靠性至關重要。許多知名研究領域,如物體偵測,已經透過堅實的基準框架進行比較和驗證。在 AlphaFold2 推出後,蛋白質折疊任務進入了新階段,並且許多方法是基於 AlphaFold2 的組件提出的。在蛋白質折疊中,統一的研究框架的重要性包括實現和基準,以便一致且公平地比較各種方法。為了實現這一目標,我們提出了 Solvent,一個支持最先進模型重要組件的蛋白質折疊框架,以即插即用的方式支持不同模型的統一代碼庫實現,並支持在相同數據集上對定義的模型進行訓練和評估。我們對知名算法及其組件進行基準測試,提供實驗結果,有助於了解蛋白質結構建模領域。我們希望 Solvent 能提高所提出模型的可靠性和一致性,並在速度和成本上提高效率,從而加速蛋白質折疊建模研究。代碼可在 https://github.com/kakaobrain/solvent 獲得,該項目將繼續進行開發。
我們提出了一個系統,用於重新排列場景中的物體,以實現所需的物體-場景放置關係,例如將一本書插入書架的開放槽中。該流程通用於新穎的幾何形狀、姿勢以及場景和物體的佈局,並且是從示範中訓練的,直接在3D點雲上運作。我們的系統克服了與特定場景存在許多幾何相似的重新排列解決方案相關的挑戰。通過利用迭代姿勢去噪訓練程序,我們可以擬合多模態示範數據並產生多模態輸出,同時保持精確和準確。我們還展示了在忽略損害泛化和精確性的無關全局結構的情況下,條件化於相關的局部幾何特徵的優勢。我們在模擬和真實世界中展示了我們的方法,涉及需要處理多模態和對物體形狀和姿勢進行泛化的三個不同的重新排列任務。項目網站、代碼和視頻:https://anthonysimeonov.github.io/rpdiff-multi-modal/
語音口述是一種日益重要的文本輸入模式。現有系統允許使用者進行口述和語音編輯,但其命令語言僅限於由觸發詞語調用的平面模板。在這項研究中,我們探討允許使用者以開放式自然語言中斷其口述並進行口語編輯命令的可行性。我們引入了一個新任務和數據集,TERTiUS,以實驗這樣的系統。為了在實時中支持這種靈活性,系統必須逐步對語音段落進行分段和分類,將其歸類為口述或命令,並解釋那些命令段落。我們嘗試使用大型預訓練語言模型來預測編輯後的文本,或者預測一個小型文本編輯程序。實驗表明,在模型準確性和延遲之間存在自然的權衡:較小的模型實現了30%的最終準確性,延遲為1.3秒,而較大的模型實現了55%的最終準確性,延遲為7秒。
基於視覺的遠端操作為機器人提供了與環境進行物理互動的人類級智能可能性,同時僅需要低成本攝像頭感應器。然而,目前的基於視覺的遠端操作系統是針對特定機器人模型和部署環境而設計和工程化的,隨著機器人模型的擴展和操作環境的多樣性增加,其擴展性較差。在本文中,我們提出了AnyTeleop,一個統一且通用的遠端操作系統,支持單一系統內的多個不同手臂、手部、虛擬環境和攝像頭配置。儘管旨在為模擬器和真實硬體的選擇提供極大靈活性,我們的系統仍然可以實現出色的性能。在真實世界的實驗中,AnyTeleop可以在使用相同機器人的情況下,以較高的成功率優於先前為特定機器人硬體設計的先前系統。在模擬中的遠端操作方面,AnyTeleop相對於專為該模擬器設計的先前系統,能夠實現更好的模仿學習性能。項目頁面:http://anyteleop.com/。