每日精選AI研究論文及翻譯
本報告介紹了 xGen-MM(又稱為 BLIP-3),這是一個用於開發大型多模型模型(LMMs)的框架。該框架包括精心策劃的數據集、訓練配方、模型架構以及一系列的LMMs。xGen-MM,即xGen-MultiModal,擴展了Salesforce xGen在基礎AI模型上的倡議。我們的模型經過嚴格評估,涵蓋各種任務,包括單圖和多圖基準測試。我們的預訓練基本模型展現出強大的上下文學習能力,並且調整指令的模型在與類似模型大小的開源LMMs中展現出競爭力。此外,我們引入了一個帶有DPO的安全調整模型,旨在減輕如幻覺等有害行為並提高安全性。我們將我們的模型、策劃的大規模數據集以及微調代碼庫開源,以促進LMM研究的進一步發展。相關資源將在我們的專案頁面上提供。
最近在影像和影片生成方面的研究開始採用自回歸LLM架構,因為其通用性和潛在易於整合到多模態系統中。將自回歸訓練應用於語言生成的關鍵在於離散化,即將像圖像和影片這樣的連續數據表示為離散標記。將圖像和影片離散化的常見方法包括對原始像素值進行建模,這是冗長的,或者是向量量化,需要複雜的預先訓練。在這項工作中,我們建議將圖像和影片直接建模為通過標準編解碼器(例如JPEG、AVC/H.264)保存在計算機上的壓縮文件。使用默認的Llama架構,無需進行任何視覺特定修改,我們從頭開始預訓練JPEG-LM以生成圖像(以AVC-LM生成影片作為概念驗證),直接輸出JPEG和AVC格式的壓縮文件位元組。圖像生成的評估顯示,這種簡單直接的方法比基於像素的建模和複雜的向量量化基準更有效(我們的方法在其中減少了31%的FID)。我們的分析顯示,JPEG-LM在生成長尾視覺元素方面比向量量化模型具有特殊優勢。總的來說,我們展示了使用標準編解碼器表示可以幫助降低語言生成和視覺生成之間的障礙,促進未來多模態語言/圖像/影片LLM研究。
研究人員正投入大量努力發展功能強大的通用代理,其中基礎模型被用作代理系統中的模組(例如思維鏈、自我反思、工具形塑)。然而,機器學習的歷史告訴我們,手工設計的解決方案最終會被學習得到的解決方案取代。我們提出了一個新的研究領域,自動設計代理系統(ADAS),旨在自動創建功能強大的代理系統設計,包括發明新的構建塊和/或以新方式組合它們。我們進一步展示,在ADAS中存在一種未被探索但具有潛力的方法,其中代理可以用程式碼定義,並且新代理可以通過元代理編程自動發現並不斷改進。考慮到編程語言是圖靈完備的,這種方法在理論上使得學習任何可能的代理系統成為可能:包括新穎的提示、工具使用、控制流程以及它們的組合。我們提出了一種簡單而有效的算法,名為元代理搜索,來展示這個想法,其中一個元代理迭代地基於先前發現的日益增長的存檔來編寫有趣的新代理。通過在包括編碼、科學和數學在內的多個領域進行廣泛實驗,我們展示了我們的算法可以逐步發明具有新設計的代理,這些代理明顯優於最先進的手工設計代理。重要的是,我們一貫觀察到令人驚訝的結果,即由元代理搜索發明的代理在跨領域和模型轉移時仍保持著卓越的性能,展示了它們的穩健性和通用性。只要我們安全地發展它,我們的工作展示了一個引人入勝的新研究方向的潛力,即自動設計功能更強大的代理系統以造福人類。
在電腦輔助手術中,手術影片分割是一項關鍵任務,對提升手術品質和患者結果至關重要。最近,Segment Anything Model 2(SAM2)框架在影像和影片分割方面展現出優越的進展。然而,由於處理高解析度影像和手術影片中複雜且長程時序動態的高計算需求,SAM2效率不佳。為應對這些挑戰,我們引入了Surgical SAM 2(SurgSAM-2),這是一個先進的模型,利用了SAM2與高效幀修剪(EFP)機制,以促進實時手術影片分割。EFP機制通過動態管理記憶庫,僅選擇保留最具信息量的幀,減少記憶體使用和計算成本,同時保持高分割準確性。我們的廣泛實驗表明,與原始SAM2相比,SurgSAM-2在效率和分割準確性方面均有顯著改善。值得注意的是,SurgSAM-2在與SAM2相比實現了3倍的幀率,同時在與低解析度數據微調後也提供了最新技術的性能。這些進展將SurgSAM-2確立為手術影片分析的領先模型,使得在資源受限環境中進行實時手術影片分割成為可能。
在少步驟擴散模型的背景下,我們解決了精確圖像反演和解耦圖像編輯的挑戰。我們引入了基於編碼器的迭代反演技術。反演網絡是根據輸入圖像和前一步重建圖像條件化的,從而使下一個重建朝向輸入圖像進行校正。我們展示了在少步擴散模型中,通過條件化於(自動生成的)詳細文本提示,可以輕鬆實現解耦控制。為了操縱反轉圖像,我們凍結噪聲地圖並修改文本提示中的一個屬性(可以手動或通過基於LLM驅動的指令編輯),從而生成一幅新圖像,與輸入圖像相似,只有一個屬性發生變化。它可以進一步控制編輯強度並接受指導性文本提示。我們的方法實現了實時逼真的文本引導圖像編輯,僅需要8次反演中的功能評估(一次性成本)和每次編輯需要4次功能評估。我們的方法不僅速度快,而且在多步擴散編輯技術方面表現顯著優越。
訓練大型語言模型(LLMs)會產生相當大的與數據相關的成本,促使通過優化數據排序和選擇來開發數據高效訓練方法。人類靈感的學習策略,如課程學習,通過按照常見的人類學習實踐組織數據,提供了有效訓練的可能性。儘管有證據表明使用課程學習進行微調可以提高LLMs在自然語言理解任務中的性能,但其有效性通常是使用單個模型進行評估。在這項研究中,我們通過評估基於課程和非課程學習策略在多個LLMs上的效果,使用人工定義和自動化數據標籤進行醫學問答,擴展了先前的研究。我們的結果表明,使用人類靈感的學習策略對微調LLMs具有中等影響,每個模型最大準確度提升為1.77%,每個數據集為1.81%。至關重要的是,我們證明這些策略的有效性在不同的模型-數據集組合中存在顯著差異,強調特定人類靈感策略對微調LLMs的好處並不具有普遍性。此外,我們發現使用LLM定義的問題難度進行課程學習優於人工定義的難度,突顯了使用模型生成的度量來進行最佳課程設計的潛力。
離線強化學習演算法有望實現基於數據的強化學習方法,無需昂貴或危險的現實世界探索,並從大量預先收集的數據集中受益。這反過來可以促進真實世界應用,以及對強化學習研究的更標準化方法。此外,離線強化學習方法可以為在線微調提供有效的初始化,以克服探索方面的挑戰。然而,評估離線強化學習算法的進展需要有效且具有挑戰性的基準,這些基準應捕捉真實世界任務的特性,提供一系列任務困難度,並涵蓋各種挑戰,包括領域參數(例如,地平線的長度,獎勵的稀疏性)和數據參數(例如,狹窄的示範數據或廣泛的探索性數據)。近年來,離線強化學習領域取得了相當大的進展,這得益於更簡單的基準任務,但目前最廣泛使用的數據集在性能上日益飽和,可能無法反映現實任務的特性。我們提出了一個新的離線強化學習基準,著重於逼真的機器人操作和運動環境模擬,基於真實世界機器人系統的模型,包括各種數據來源,包括腳本數據、由人類遠程操作者收集的遊戲式數據和其他數據來源。我們提出的基準涵蓋基於狀態和基於圖像的領域,支持離線強化學習和在線微調評估,其中一些任務特別設計為需要預訓練和微調。我們希望我們提出的基準將促進離線強化學習和微調算法的進一步發展。有關代碼、示例、任務和數據的網站位於 https://sites.google.com/view/d5rl/