每日精選AI研究論文及翻譯
最近幾個月出現了一個強大的新趨勢,即將大型語言模型(LLMs)擴充為能夠執行面向目標的多步任務的自主語言代理,而不僅僅是回應人類用戶的查詢。然而,大多數現有的語言代理並未使用環境特定的獎勵進行優化。雖然一些代理允許通過口頭反饋進行迭代改進,但它們並不以與基於梯度學習獎勵相容的方式進行推理和規劃。本文介紹了一個有原則的框架,通過學習一個回顧模型來強化大型語言代理,該模型通過策略梯度自動調整語言代理提示,以從環境反饋中進行調整。具體來說,我們提出的代理架構從多個環境和任務中的獎勵中學習,用於微調預先訓練的語言模型,通過總結先前失敗嘗試的根本原因並提出行動計劃來完善語言代理提示。在各種任務上的實驗結果表明,語言代理隨著時間的推移而改進,我們的方法明顯優於未能充分利用來自環境梯度的基準線。這表明使用策略梯度優化來改進語言代理,我們認為我們的工作是其中之一,似乎很有前途,可以應用於優化代理架構中的其他模型,以隨著時間的推移增強代理性能。
我們提出了MM-Vet,一個評估基準,用於檢驗大型多模型(LMMs)在複雜多模任務上的表現。最近的LMMs展示了各種有趣的能力,例如解決黑板上的數學問題、推理新聞圖像中的事件和名人,以及解釋視覺笑話。快速的模型進展對評估基準的發展提出了挑戰。問題包括:(1)如何系統地結構和評估複雜的多模任務;(2)如何設計適用於各種問題和答案類型的評估指標;以及(3)如何提供超越簡單性能排名的模型洞察。為此,我們提出了MM-Vet,其設計基於一個洞察,即解決複雜任務的有趣能力通常是由一個通才模型能夠整合不同的核心視覺-語言(VL)能力而實現的。MM-Vet定義了6個核心VL能力,並檢驗了從能力組合中衍生的16個感興趣的整合。對於評估指標,我們提出了一個基於LLM的評估器,用於開放式輸出。該評估器使得能夠跨不同問題類型和答案風格進行評估,從而產生統一的評分指標。我們在MM-Vet上評估了代表性的LMMs,提供了有關不同LMM系統範式和模型能力的洞察。代碼和數據可在https://github.com/yuweihao/MM-Vet找到。
開放詞彙分割是一項具有挑戰性的任務,需要從一組開放類別中對物體進行分割和識別。應對這一挑戰的一種方法是利用多模型,如CLIP,提供在共享嵌入空間中的圖像和文本特徵,從而彌合閉合詞彙和開放詞彙識別之間的差距。因此,現有方法通常採用兩階段框架來應對問題,其中輸入首先通過遮罩生成器,然後通過CLIP模型以及預測的遮罩。這個過程涉及從圖像中多次提取特徵,這可能是低效和低效率的。相比之下,我們提出將所有內容建立在一個單階段框架中,使用共享的凍結卷積CLIP骨幹,這不僅顯著簡化了當前的兩階段流程,而且在準確性和成本之間取得了更好的平衡。所提出的FC-CLIP,受益於以下觀察結果:凍結的CLIP骨幹保持了開放詞彙分類的能力,還可以作為強大的遮罩生成器,而卷積CLIP對比圖像-文本預訓練期間使用的較小輸入分辨率具有良好的泛化能力。僅在COCO全景數據上進行訓練並以零樣本方式進行測試時,FC-CLIP在ADE20K上實現了26.8 PQ,16.8 AP和34.1 mIoU,在Mapillary Vistas上實現了18.2 PQ,27.9 mIoU,在Cityscapes上實現了44.0 PQ,26.8 AP,56.2 mIoU,分別比先前技術高出+4.2 PQ,+2.4 AP,+4.2 mIoU在ADE20K上,+4.0 PQ在Mapillary Vistas上,以及+20.1 PQ在Cityscapes上。此外,FC-CLIP的訓練和測試時間分別比相同的先前技術快了7.5倍和6.6倍,同時使用的參數減少了5.9倍。FC-CLIP還在各種開放詞彙語義分割數據集上設定了新的最先進性能水平。代碼位於https://github.com/bytedance/fc-clip
臨床試驗配對是健康交付和發現的關鍵過程。在實踐中,它受到龐大的非結構化數據和不可擴展的手動處理的困擾。本文通過使用大型語言模型(LLMs)對臨床試驗配對進行系統性研究,以腫瘤學作為焦點領域。我們的研究基於目前正在美國一家大型醫療網絡中進行測試部署的臨床試驗配對系統。初步研究結果令人鼓舞:像GPT-4這樣的最新LLMs可以自動結構化臨床試驗的詳盡資格標準,並提取複雜的配對邏輯(例如,嵌套的AND/OR/NOT)。儘管仍遠非完美,LLMs明顯優於先前的強基線,可能作為幫助將患者-試驗候選人進行分類的初步解決方案。我們的研究還揭示了幾個應用LLMs進行端到端臨床試驗配對的重要增長領域,例如上下文限制和準確性,特別是在從長期醫療記錄中結構化患者信息方面。
仿生、靈巧的機器人手有潛力複製人類能夠執行的許多任務,並成為一個通用操作平台。最近在強化學習(RL)框架方面的進展在四足動作和靈巧操作任務中取得了顯著的表現。結合基於GPU的高度並行化模擬技術,能夠同時模擬成千上萬個機器人,基於RL的控制器變得更具可擴展性和可操作性。然而,為了將經過RL訓練的策略應用於現實世界,我們需要訓練框架輸出能夠與物理致動器和感測器配合工作的策略,以及一種可以使用易得材料製造但足夠堅固以運行互動策略的硬體平台。本研究介紹了仿生腱驅動的Faive手和其系統架構,該系統利用腱驅動的滾動接觸關節實現了一種可三維打印、堅固的高自由度手部設計。我們對手部的每個元素進行建模,並將其整合到GPU模擬環境中,通過RL訓練一個策略,實現了對一種靈巧的手部內球體旋轉技能的零樣本轉移至實際機器人手。
我們介紹了區隔擴散模型(CDM),這是一種在不同數據來源上訓練不同擴散模型(或提示)並在推論時任意組合它們的方法。個別模型可以在孤立環境中、不同時間、不同分佈和領域上進行訓練,並且可以後續組合以達到與同時在所有數據上訓練的完美模型相當的性能。此外,每個模型僅包含在訓練期間接觸到的數據子集的信息,從而實現多種形式的訓練數據保護。特別是,CDM 是第一種能夠實現大規模擴散模型的選擇性遺忘和持續學習的方法,同時還可以根據用戶訪問權限提供服務定製模型。CDM 還可以確定生成特定樣本時數據子集的重要性。