每日精選AI研究論文及翻譯
隨著大型語言模型(LLMs)的進步,它們已超越了我們準確評估其品質的能力。不僅是尋找足夠探測特定模型屬性的數據困難,單獨評估模型自由生成的正確性也是一項挑戰。為了應對這一問題,許多評估現在依賴於使用LLMs本身作為評判員來評分其他LLMs的輸出品質。評估最常使用像GPT4這樣的單一大型模型。儘管這種方法越來越受歡迎,但成本高昂,已被證明會引入模型內部偏見,在這項工作中,我們發現非常大的模型通常是不必要的。我們提出改用一個LLM評估員小組(PoLL)來評估模型。在三個不同的評判設置和六個不同的數據集中,我們發現使用由更多較小模型組成的PoLL勝過單一大型評判員,由於其由不同模型家族組成,表現出更少的模型內部偏見,而且成本低至七倍以上。
推測解碼已證明在加速大型語言模型的推論過程中保持一致的採樣分佈方面是有效的。然而,傳統方法是訓練一個獨立的草稿模型以達到滿意的標記接受率可能成本高昂。受早期退出的啟發,我們提出了一個新穎的自我推測解碼框架 Kangaroo,該框架使用一個固定的淺層子網路作為自我草稿模型,其餘層作為較大的目標模型。我們在子網路頂部訓練了一個輕量且高效的適配器模塊,以彌合子網路和完整模型的表示能力之間的差距。值得注意的是,自我草稿模型的推論延遲可能與大型模型相比不再可以忽略,因此需要增加標記接受率的策略,同時最大程度地減少小模型的草稿步驟。為應對這一挑戰,我們引入了一種額外的早期退出機制來生成草稿標記。具體來說,在草稿階段,一旦當前標記的信心水平低於一定閾值,我們將停止小模型的後續預測。在 Spec-Bench 上的大量實驗證明了 Kangaroo 的有效性。在單序列驗證下,Kangaroo 在 Spec-Bench 上實現了高達 1.68 倍的加速,勝過 Medusa-1,而額外參數數量減少了 88.7\%(67M 對比 591M)。Kangaroo 的代碼可在 https://github.com/Equationliu/Kangaroo 上找到。
在各種醫學應用中取得卓越表現對 AI 提出了相當大的挑戰,需要先進的推理能力、接觸最新的醫學知識以及對複雜多模態數據的理解。Gemini 模型在多模態和長上下文推理方面具有強大的通用能力,在醫學領域提供了令人振奮的可能性。基於 Gemini 的這些核心優勢,我們引入了 Med-Gemini,這是一系列在醫學領域專業化並具有無縫使用網絡搜索能力的高效多模態模型,可以通過自定義編碼器有效地適應新的模態。我們在 14 個醫學基準測試上評估了 Med-Gemini,在其中 10 個基準測試上確立了新的最先進表現,並在每個可以進行直接比較的基準測試上超越了 GPT-4 模型系列,往往超出很大範圍。在流行的 MedQA(USMLE)基準測試中,我們表現最佳的 Med-Gemini 模型以 91.1% 的準確率實現了最先進表現,採用了一種新穎的不確定性引導搜索策略。在包括 NEJM 圖像挑戰和 MMMU(健康與醫學)在內的 7 個多模態基準測試中,Med-Gemini 的平均相對優勢提高了 44.5%,超越了 GPT-4V。我們通過在長匿名健康記錄和醫學視頻問答中實現了最先進表現,超越了先前僅使用上下文學習的專門方法的 Med-Gemini 的長上下文能力的有效性。最後,Med-Gemini 的表現表明,在醫學文本摘要等任務上超越了人類專家,並展示了在多模態醫學對話、醫學研究和教育方面具有有希望的潛力。綜上所述,我們的結果提供了令人信服的證據,證明了 Med-Gemini 的潛力,儘管在這個安全關鍵領域進行真實世界部署之前,進一步嚴格評估將至關重要。
儘管大型語言模型(LLMs)和大型多模型模型(LMMs)取得了進展,但它們與以語言為基礎、類似人類實體代理人的整合仍不完整,阻礙了在實際物理環境中進行複雜任務的表現。現有的整合通常存在著開源受限,阻礙了這一領域的集體進展。我們介紹了LEGENT,一個開放且可擴展的平台,用於開發使用LLMs和LMMs的實體代理人。LEGENT提供了雙重方法:一個豐富的互動式3D環境,具有可溝通和可操作的代理人,配合用戶友好的界面,以及一個複雜的數據生成管道,利用先進算法從模擬世界中大規模利用監督。在我們的實驗中,一個在LEGENT生成的數據上訓練的胚胎視覺-語言-行動模型超越了GPT-4V在實體任務中,展示了有希望的泛化能力。
圖形設計對於各種應用至關重要,包括電影製作和遊戲設計。為了創建高質量的場景,設計師通常需要在軟體如Blender中花費數小時,其中他們可能需要交錯並重複操作,例如連接材質節點,數百次。此外,稍有不同的設計目標可能需要完全不同的序列,使自動化變得困難。在本文中,我們提出了一個系統,利用視覺語言模型(VLMs),如GPT-4V,智能地搜索設計動作空間,以達到滿足使用者意圖的答案。具體來說,我們設計了一個基於視覺的編輯生成器和狀態評估器,共同工作以找到正確的行動序列來實現目標。受到人類設計過程中視覺想像力的啟發,我們通過來自圖像生成模型的“想像”參考圖像來補充VLMs的視覺推理能力,提供抽象語言描述的視覺基礎。在本文中,我們提供實證證據表明我們的系統可以為諸如從文本和/或參考圖像編輯程序性材質,以及調整複雜場景中產品渲染的照明配置等任務生成簡單但繁瑣的Blender編輯序列。
除了透過更多數據或參數來擴展基本模型之外,微調適配器提供了一種替代方式,可以以較低成本生成高保真度的自定義圖像。因此,適配器已被開源社區廣泛採用,累積了超過10萬個適配器的數據庫,其中大部分高度定制,但缺乏充分的描述。本文探討了將提示與一組相關適配器匹配的問題,基於最近強調合成適配器性能增益的工作。我們介紹了Stylus,它可以根據提示的關鍵字高效地選擇並自動組合任務特定的適配器。Stylus概述了一個三階段方法,首先通過改進描述和嵌入來總結適配器,檢索相關適配器,然後根據提示的關鍵字進一步組合適配器,檢查它們與提示的匹配程度。為了評估Stylus,我們開發了StylusDocs,這是一個精心策劃的數據集,其中包含了75,000個具有預先計算的適配器嵌入的適配器。在對流行的Stable Diffusion檢查點進行評估時,Stylus實現了更高的CLIP-FID Pareto效率,並且在人類和多模態模型作為評估者時,比基本模型更受歡迎。有關更多信息,請參見stylus-diffusion.github.io。
具備學習新型態操作任務能力的自主機器人系統有望改變從製造業到服務自動化等各個行業。然而,現代方法(例如VIP和R3M)仍然面臨重大障礙,特別是機器人實體之間的領域差異以及特定動作空間內成功任務執行的稀疏性,導致任務表示不一致和模糊。我們介紹了Ag2Manip(用於操作的Agent-Agnostic表示),這是一個旨在克服這些挑戰的框架,通過兩個關鍵創新:一種源自人類操作視頻的新型Agent-Agnostic視覺表示,其中實體的具體細節被隱藏以增強泛化能力;以及一種抽象機器人運動學為通用Agent代理的Agent-Agnostic動作表示,強調末端執行器和物體之間的關鍵交互作用。Ag2Manip在模擬基準測試(如FrankaKitchen、ManiSkill和PartManip)中的實證驗證顯示,性能提高了325%,而無需領域特定示範。消融研究突顯了視覺和動作表示對此成功的重要貢獻。將我們的評估擴展到現實世界,Ag2Manip將模仿學習成功率從50%提高到77.5%,展示了其在模擬和實際環境中的有效性和泛化能力。
服裝在人類外表中的重要角色凸顯了對於數位人類創建的服裝數位化的重要性。最近在3D內容創建方面的進展對於數位人類的創建至關重要。然而,從文本指導生成服裝仍處於起步階段。我們引入了一個以文本驅動的3D服裝生成框架,名為DressCode,旨在為新手民主化設計,並在時尚設計、虛擬試穿和數位人類創建方面具有巨大潛力。對於我們的框架,我們首先介紹了SewingGPT,這是一個基於GPT的架構,整合了交叉注意力和文本條件嵌入,以生成帶有文本指導的縫紉圖案。我們還為高質量、基於瓷磚的PBR紋理生成定制了一個預訓練的Stable Diffusion。通過利用大型語言模型,我們的框架通過自然語言交互生成CG友好的服裝。我們的方法還促進了圖案完成和紋理編輯,通過用戶友好的交互簡化了設計師的流程。通過全面評估和與其他最先進方法的比較,我們的方法展示了最佳的質量和與輸入提示的對齊。用戶研究進一步驗證了我們高質量的渲染結果,突顯了其在生產環境中的實用性和潛力。