每日精選AI研究論文及翻譯
人工通用智能的一個重大挑戰是發展能夠進行科學研究並發現新知識的代理人。儘管前沿模型已被用作協助人類科學家,例如用於腦力激盪想法、編寫代碼或預測任務,但它們仍然僅完成科學過程的一小部分。本文提出了第一個全自動科學發現的全面框架,使前沿大型語言模型能夠獨立進行研究並傳達其發現。我們介紹了AI科學家,它能夠生成新穎的研究想法、編寫代碼、執行實驗、視覺化結果、通過撰寫完整的科學論文描述其發現,然後運行一個模擬的審查過程進行評估。原則上,這個過程可以重複進行,以開放式方式迭代地發展想法,就像人類科學社區一樣。我們展示了其多功能性,應用於機器學習的三個不同子領域:擴散建模、基於Transformer的語言建模和學習動態。每個想法的實施和發展成一篇完整的論文的成本不到每篇15美元。為了評估生成的論文,我們設計並驗證了一個自動審稿人,我們展示其在評估論文分數方面達到接近人類的表現。AI科學家可以生成超過我們自動審稿人評估的頂級機器學習會議的接受門檻的論文。這種方法標誌著機器學習科學發現的新時代的開始:將AI代理人的轉型效益帶給AI本身整個研究過程,使我們更接近一個可以釋放對世界上最具挑戰性問題的無限負擔得起的創造力和創新的世界。我們的代碼在https://github.com/SakanaAI/AI-Scientist 上開源。
本文介紹了 rStar,一種自我對弈的共同推理方法,顯著提升了小型語言模型(SLMs)的推理能力,而無需微調或優越模型。rStar將推理分解為自我對弈的生成-辨識過程。首先,目標SLM將蒙特卡羅樹搜索(MCTS)與豐富的類人推理動作結合,以構建更高質量的推理軌跡。接著,另一個具有與目標SLM相似能力的SLM充當鑑別器,驗證目標SLM生成的每個軌跡。雙方一致的推理軌跡被視為相互一致,因此更有可能是正確的。在五個SLM上進行的大量實驗表明,rStar可以有效解決各種推理問題,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。值得注意的是,rStar將LLaMA2-7B的GSM8K準確率從12.51%提升至63.91%,將Mistral-7B的準確率從36.46%提升至81.88%,將LLaMA3-8B-Instruct的準確率從74.53%提升至91.13%。代碼將在 https://github.com/zhentingqi/rStar 上提供。
擴散模型在圖像和視頻生成方面展現出卓越且穩健的能力。為了更好地控制生成結果,研究人員引入了額外的架構,如ControlNet、Adapters和ReferenceNet,以整合條件控制。然而,目前的可控生成方法通常需要大量的額外計算資源,尤其是在視頻生成方面,並且在訓練過程中面臨挑戰或表現出薄弱的控制能力。在本文中,我們提出了ControlNeXt:一種強大且高效的可控圖像和視頻生成方法。我們首先設計了一種更簡單且高效的架構,將繁重的額外分支替換為與基本模型相比成本最小的額外部分。這種簡潔的結構還使我們的方法能夠與其他LoRA權重無縫整合,實現風格修改而無需額外訓練。在訓練方面,我們相對於其他方法減少了高達90%的可學習參數。此外,我們提出了另一種名為Cross Normalization(CN)的方法,作為“Zero-Convolution”的替代方案,以實現快速且穩定的訓練收斂。我們對不同基本模型在圖像和視頻上進行了各種實驗,展示了我們方法的穩健性。
Med42-v2推出了一系列臨床大型語言模型(LLMs),旨在解決醫療環境中通用模型的局限性。這些模型建立在Llama3架構上,並使用專門的臨床數據進行了微調。它們經歷了多階段的偏好對齊,以有效地回應自然提示。儘管通用模型通常會進行偏好對齊,以避免回答臨床查詢作為預防措施,但Med42-v2經過特別訓練以克服此限制,使其能夠應用於臨床環境中。Med42-v2模型在8B和70B參數配置以及各種醫學基準測試中,相對於原始Llama3模型和GPT-4,展現出卓越的性能。這些LLMs旨在理解臨床查詢,執行推理任務,並在臨床環境中提供有價值的幫助。這些模型現在可以在https://huggingface.co/m42-health{https://huggingface.co/m42-health}上公開獲取。
我們介紹了 CogVideoX,一個大規模擴散變壓器模型,旨在根據文本提示生成視頻。為了有效地建模視頻數據,我們提出利用 3D 變分自編碼器(VAE)來壓縮視頻的空間和時間維度。為了改善文本-視頻對齊,我們提出了一個專家變壓器,配備專家自適應層標準化,以促進兩種模態之間的深度融合。通過採用漸進式訓練技術,CogVideoX 擅長生成具有顯著運動特徵的連貫、長時間視頻。此外,我們開發了一個有效的文本-視頻數據處理流程,其中包括各種數據預處理策略和視頻字幕方法。這明顯有助於提高 CogVideoX 的性能,改善生成質量和語義對齊。結果表明,CogVideoX 在多個機器指標和人類評估方面展現了最先進的性能。3D 因果 VAE 和 CogVideoX 的模型權重均可在 https://github.com/THUDM/CogVideo 公開獲取。
我們介紹了 FruitNeRF,一個統一的新型水果計數框架,利用最先進的視圖合成方法直接在3D中計算任何水果類型。我們的框架接受由單眼相機拍攝的無序姿勢圖像集,並在每個圖像中分割水果。為了使我們的系統獨立於水果類型,我們採用一個基礎模型,為任何水果生成二元分割遮罩。利用RGB和語義兩種模態,我們訓練了一個語義神經輻射場。通過對隱式 Fruit Field 進行均勻體積採樣,我們獲得僅包含水果的點雲。通過對提取的點雲應用級聚類,我們的方法實現了精確的水果計數。神經輻射場的使用相對於傳統方法(如物體跟踪或光流)提供了顯著的優勢,因為計數本身被提升到3D。我們的方法防止了對水果的重複計數,並避免計算無關的水果。我們使用真實世界和合成數據集來評估我們的方法。真實世界數據集包括三棵蘋果樹,具有手動計數的地面真相,一個具有一行和真實水果位置的基準蘋果數據集,而合成數據集包括各種水果類型,包括蘋果、李子、檸檬、梨、桃和芒果。此外,我們使用基礎模型與 U-Net 比較來評估水果計數的性能。
大型多模型(LMMs)已經引領了人工智慧的新時代,將語言和視覺能力融合在一起,形成高度能幹的視覺基礎代理。這些代理被認為在眾多任務上表現出色,有望接近通用人工智慧。然而,現有的基準測試未能充分挑戰或展示LMMs在複雜的現實環境中的全部潛力。為了彌補這一差距,我們引入了VisualAgentBench(VAB),這是一個全面且開創性的基準測試,專門設計用於訓練和評估LMMs作為視覺基礎代理在各種場景下的表現,包括具體化、圖形用戶界面和視覺設計,其中的任務旨在探究LMMs的理解和互動能力的深度。通過在九個專有LMM APIs和八個開源模型上進行嚴格測試,我們展示了這些模型的相當大但仍在發展中的代理能力。此外,VAB通過混合方法構建了一個軌跡訓練集,包括基於程序的求解器、LMM代理引導和人類示範,通過行為克隆促進了LMMs的顯著性能改進。我們的工作不僅旨在對現有模型進行基準測試,還為未來發展成視覺基礎代理奠定了堅實基礎。代碼、訓練和測試數據以及部分精調的開源LMMs可在https://github.com/THUDM/VisualAgentBench 上獲得。
本文提出了一種新穎的3D頭像創建方法,能夠從少量野外數據中進行泛化,具有高保真度和可動性的魯棒性。考慮到這個問題存在的不確定性,融入先前知識至關重要。因此,我們提出了一個包含先前學習和頭像創建階段的框架。先前學習階段利用從大規模多視角動態數據集中導出的3D頭部先驗,而頭像創建階段則應用這些先驗進行少量個性化。我們的方法通過使用基於高斯點陣的自編碼器網絡和基於部件的動態建模有效地捕捉這些先驗。我們的方法採用共享身份編碼和個性化潛在代碼,用於學習高斯基元的屬性。在頭像創建階段,我們通過利用反演和微調策略實現快速頭像個性化。大量實驗表明,我們的模型有效地利用頭部先驗,成功將其泛化到少量個性化,實現了照片般逼真的渲染質量、多視角一致性和穩定動畫。
本文介紹了UniPortrait,一個創新的人像個性化框架,結合了單一和多個ID的定制,具有高度面部保真度、廣泛的面部可編輯性、自由形式輸入描述和多樣的佈局生成。UniPortrait僅由兩個即插即用的模塊組成:ID嵌入模塊和ID路由模塊。ID嵌入模塊通過解耦策略提取多功能可編輯的面部特徵,為每個ID將其嵌入擴散模型的上下文空間。然後,ID路由模塊將這些嵌入組合並自適應地分發到合成圖像中的各自區域,實現單一和多個ID的定制。通過精心設計的兩階段訓練方案,UniPortrait在單一和多個ID的定制方面實現了卓越性能。定量和定性實驗證明了我們方法相對於現有方法的優勢以及其良好的可擴展性,例如與現有生成控制工具的通用兼容性。項目頁面位於https://aigcdesigngroup.github.io/UniPortrait-Page/。
近年來,Transformer 結構已成為自然語言處理和計算機視覺應用的機器學習算法的事實標準。儘管在機器人學習的背景下成功部署該結構的證據引人注目,我們主張純粹的 Transformer 並未充分利用機器人學習問題的結構。因此,我們提出 Body Transformer(BoT),一種利用機器人實體的架構,通過提供引導學習過程的歸納偏差。我們將機器人身體表示為感測器和執行器的圖形,並依賴遮罩注意力在整個結構中池化信息。由此產生的結構在任務完成、擴展性和計算效率方面優於純粹的 Transformer,以及傳統的多層感知器,無論是表示模仿還是強化學習策略。包括開源代碼在內的其他資料可在 https://sferrazza.cc/bot_site 找到。
儘管基於Transformer的大型語言模型最近取得了成功,但卻展現出一些令人驚訝的失敗模式。其中一個眾所周知的失敗模式是它們無法進行長度泛化:在推論時解決比訓練時見過的更長問題實例。在這項研究中,我們通過對簡單的奇偶任務進行詳細分析,進一步探索這種失敗的根本原因。我們的分析表明,長度泛化失敗與模型無法在其上下文窗口內執行隨機記憶訪問密切相關。我們通過展示規避索引需求或通過基於內容的地址訪問間接實現隨機標記訪問的方法的有效性,提出了對這一假設的支持證據。我們進一步展示了無法執行隨機記憶訪問導致的失敗如何在注意力映射可視化中顯示出來。