每日精選AI研究論文及翻譯
我們發現,僅透過採樣和投票方法,大型語言模型(LLMs)的性能隨著實例化代理數量的增加而提升。此方法與現有複雜方法相互獨立,進一步增強LLMs的程度與任務難度相關。我們在廣泛的LLM基準測試中進行了全面實驗,以驗證我們發現的存在,並研究可能促成其發生的特性。我們的程式碼公開可在以下網址找到:https://anonymous.4open.science/r/more_agent_is_all_you_need.
我們提出了對話式網頁導航問題,其中數位代理控制網頁瀏覽器,並按照使用者指示以多輪對話方式解決真實世界任務。為支持此問題,我們引入了WEBLINX - 一個包含 100K 互動的大規模基準,跨越 2300 個專家示範的對話式網頁導航。我們的基準涵蓋超過 150 個真實世界網站上的廣泛模式,可用於訓練和評估各種情境下的代理。由於信息量巨大,大型語言模型(LLMs)無法即時處理整個網頁。為解決此瓶頸,我們設計了一個受檢索啟發的模型,通過對相關元素進行排名來有效修剪 HTML 頁面。我們使用所選元素,以及屏幕截圖和操作歷史,來評估各種模型在網頁導航時複製人類行為的能力。我們的實驗從僅限小文本到專有的多模式 LLMS。我們發現,較小的微調解碼器勝過最佳的零-shot LLMS(包括 GPT-4V),但也勝過明確預先訓練過屏幕截圖的較大的微調多模式模型。然而,所有微調模型都難以推廣到未見過的網站。我們的研究結果突顯了需要能夠推廣到新型設置的大型多模式模型。我們的程式碼、數據和模型可供研究使用:https://mcgill-nlp.github.io/weblinx
人工智慧系統的發展正從創建靜態、特定任務模型轉變為動態、基於代理的系統,能夠在廣泛的應用中表現良好。我們提出了一個互動式代理基礎模型,採用新穎的多任務代理訓練範式,用於跨越各種領域、數據集和任務訓練人工智慧代理。我們的訓練範式統一了多樣的預訓練策略,包括視覺遮罩自編碼器、語言建模和下一步行動預測,實現了一個多才多藝且適應性強的人工智慧框架。我們展示了我們的框架在三個獨立領域──機器人技術、遊戲人工智慧和醫療保健方面的表現。我們的模型展示了其在每個領域生成有意義且與上下文相關的輸出的能力。我們方法的優勢在於其通用性,利用各種數據來源,如機器人序列、遊戲數據、大規模視頻數據集和文本信息,進行有效的多模態和多任務學習。我們的方法為發展通才、採取行動的多模態系統提供了一個有前途的途徑。
大型語言模型(LLMs)展示了在理解和生成自然語言方面的卓越能力。然而,在預訓練語料庫中未充分代表的高度專業化領域,如物理和生物醫學科學,它們的能力會下降。本研究探討如何重新運用通用LLMs成為專業領域的有效任務解決方案。我們引入了一個新穎的、與模型無關的框架,用於學習自定義輸入標籤,這些標籤被參數化為連續向量,附加到LLM的嵌入層,以對LLM進行條件設置。我們設計了兩種類型的輸入標籤:領域標籤用於界定專業表示(例如化學式),並提供與領域相關的上下文;功能標籤用於表示特定功能(例如預測分子性質),並壓縮功能解決指令。我們制定了一個三階段協議,使用輔助數據和領域知識來學習這些標籤。通過明確區分任務領域和任務功能,我們的方法使得通過輸入標籤的多樣組合實現對未見問題的零-shot泛化成為可能。它還提高了LLM在各種專業領域中的表現,例如預測蛋白質或化學性質,以及建模藥物-靶標相互作用,勝過針對這些任務量身定制的專家模型。
本技術報告介紹了於2023年中期發布的開源多語言E5文本嵌入模型的訓練方法和評估結果。該模型提供三種不同大小(小型/基礎/大型)的嵌入模型,平衡了推理效率和嵌入質量。訓練過程遵循英文E5模型的配方,包括在10億個多語言文本對上進行對比預訓練,然後在一組標記數據集上進行微調。此外,我們引入了一個新的指令調整的嵌入模型,其性能與同等大小的最先進的僅英文模型相當。有關模型發布的信息可在https://github.com/microsoft/unilm/tree/master/e5 找到。
儘管個性化文本到圖像(P-T2I)生成模型近年來取得了重大進展,但以主題驅動的T2I仍然具有挑戰性。主要瓶頸包括:1)需要大量的訓練資源、2)超參數敏感性導致輸出不一致,以及3)平衡新穎視覺概念和構圖對齊的複雜性。我們首先重申T2I擴散模型的核心理念,以解決上述限制。主要上,當代主題驅動的T2I方法依賴於潛在擴散模型(LDMs),透過交叉注意力層實現T2I映射。儘管LDMs具有明顯優勢,但P-T2I方法對這些擴散模型的潛在空間的依賴顯著增加了資源需求,導致結果不一致,需要進行多次迭代才能得到一個期望的圖像。最近,ECLIPSE展示了一種更節省資源的途徑,用於訓練基於UnCLIP的T2I模型,避免了對擴散文本到圖像先驗的需求。在此基礎上,我們介紹了lambda-ECLIPSE。我們的方法表明,有效的P-T2I並不一定依賴於擴散模型的潛在空間。lambda-ECLIPSE通過僅使用3400萬參數,在僅74個GPU小時內訓練,使用160萬圖像文本交錯數據,實現了單一、多主題和邊緣引導的T2I個性化。通過大量實驗,我們還確立了lambda-ECLIPSE在構圖對齊方面超越現有基準,同時保持概念對齊性能,即使資源利用明顯更低。
在上下文學習(ICL,又稱為少量提示)已成為調整語言模型(LLMs)以適應下游任務的標準方法,通過從少量輸入-輸出示例中學習。然而,所有基於ICL的方法僅從正確的輸入-輸出對中學習。在本文中,我們重新審視這一範式,從這些少量給定的輸入-輸出示例中學到更多。我們引入學習原則(LEAP):首先,我們故意讓模型在這些少量示例上犯錯;然後我們反思這些錯誤,並從中學習明確的任務特定“原則”,這些原則有助於解決類似問題並避免常見錯誤;最後,我們提示模型使用原始的少量示例和這些學習到的通用原則來回答看不見的測試問題。我們在廣泛的基準測試中評估LEAP,包括多跳問答(Hotpot QA)、文本問答(DROP)、Big-Bench Hard 推理和數學問題(GSM8K和MATH);在所有這些基準測試中,LEAP都改進了最強大的可用LLMs,如GPT-3.5-turbo、GPT-4、GPT-4 turbo和Claude-2.1。例如,LEAP在DROP中比使用GPT-4的標準少量提示提高了7.5%,在HotpotQA中提高了3.3%。重要的是,LEAP不需要比標準少量提示設置更多的輸入或示例。
我們提出了SPHINX-X,這是一個基於SPHINX開發的廣泛多模式大型語言模型(MLLM)系列。為了改善架構和訓練效率,我們修改了SPHINX框架,去除了多餘的視覺編碼器,通過跳過完全填充的子圖像並使用跳過標記,並將多階段訓練簡化為單階段的全方位範式。為了充分發揮MLLM的潛力,我們匯集了一個包含語言、視覺和視覺語言任務的全面多領域和多模式數據集,覆蓋了公開可用的資源。我們進一步通過我們的OCR密集和Set-of-Mark數據集豐富了這個收藏,擴展了多樣性和普遍性。通過對不同基礎LLM(包括TinyLlama1.1B、InternLM2-7B、LLaMA2-13B和Mixtral8x7B)進行訓練,我們獲得了一系列在參數大小和多語言能力上有所不同的MLLM。全面的基準測試顯示了多模式性能與數據和參數規模之間的強相關性。代碼和模型已在https://github.com/Alpha-VLLM/LLaMA2-Accessory 釋出。
我們介紹了 SPIRIT-LM,這是一個基礎的多模態語言模型,可以自由地混合文本和語音。我們的模型基於預訓練的文本語言模型,通過持續在文本和語音單元上進行訓練來擴展到語音模態。語音和文本序列被串聯為一組標記,並使用一種單詞級交錯方法在一個小型自動匹配的語音-文本平行語料庫上進行訓練。SPIRIT-LM有兩個版本:一個使用語音語義單元的基本版本,以及一個使用音高和風格單元來建模表達能力的 EXPRESSIVE 版本,除了語義單元外還包括音高和風格單元。對於這兩個版本,文本使用子詞 BPE 標記進行編碼。結果顯示,該模型展示了文本模型的語義能力和語音模型的表達能力。此外,我們展示了 SPIRIT-LM 能夠跨模態(即語音識別、文本轉語音、語音分類)以少量樣本學習新任務的能力。
本文介紹了一種新的範式,通過在由擴散模型生成的合成數據集上進行訓練,來增強對象檢測器的能力,例如擴展類別或提高檢測性能。具體來說,我們將一個實例級定位頭部整合到預先訓練的生成式擴散模型中,以賦予其在生成的圖像中定位任意實例的能力。該定位頭部被訓練來將類別名稱的文本嵌入與擴散模型的區域視覺特徵對齊,並使用來自現成對象檢測器的監督,以及一種新穎的自我訓練方案來處理檢測器未涵蓋的(新穎)類別。這種增強版的擴散模型被稱為InstaGen,可以作為對象檢測的數據合成器。我們進行了全面的實驗,表明在從InstaGen的合成數據集上進行訓練時,對象檢測器可以得到增強,並在開放詞彙(+4.5 AP)和數據稀疏(+1.2至5.2 AP)情況下展現出優越的性能,優於現有的最先進方法。
大多數基於Transformer的視頻編碼器由於其二次複雜度而僅限於短暫的時間範疇。儘管已經做出各種嘗試來擴展這種範疇,但這通常是以概念和計算複雜度為代價。我們建議重新運用現有的預訓練視頻Transformer,通過簡單微調它們以關注從過去激活中非參數化衍生的記憶。通過利用冗餘減少,我們的記憶整合視覺Transformer(MC-ViT)輕鬆將其範疇延伸到過去,並在從更長的視頻中學習時展現出優秀的擴展行為。通過這樣做,MC-ViT在EgoSchema、Perception Test和Diving48的長範疇視頻理解方面創立了新的最先進技術,勝過那些受益於數量級更多參數的方法。
視覺語言(VL)模型已獲得顯著的研究關注,實現了多模態推理的顯著進展。這些架構通常包括視覺編碼器、大型語言模型(LLM)和一個將視覺特徵與LLM表示空間對齊的投影模塊。儘管取得成功,但存在一個關鍵限制:視覺編碼過程與用戶查詢(通常以圖像相關問題的形式)仍然分離。因此,產生的視覺特徵可能未能最佳地調整為圖像的特定查詢元素。為了解決這個問題,我們引入了QA-ViT,一種用於多模態推理的問題感知視覺Transformer方法,直接將問題感知嵌入視覺編碼器。這種整合產生了動態的視覺特徵,專注於與提出的問題相關的圖像方面。QA-ViT是與模型無關的,可以有效地整合到任何VL架構中。大量實驗證明了將我們的方法應用於各種多模態架構的有效性,從而在不同任務中實現了一致的改進,展示了其增強視覺和場景文本理解能力的潛力。
我們提出了一種優化分佈的新演算法,這些分佈是由帶有參數的隨機擴散隱式定義的。透過這種方式,我們能夠通過優化其參數來修改抽樣過程的結果分佈。我們引入了一個通用框架,用於對這些過程進行一階優化,該框架在單個循環中同時執行優化和抽樣步驟。這種方法受到雙層優化和自動隱式微分的最新進展的啟發,利用了將抽樣視為對概率分佈空間的優化的觀點。我們對我們方法的性能提供了理論保證,並通過實驗結果展示了它在現實世界環境中的有效性。
將駕駛行為調整至新環境、習俗和法律是自動駕駛中一個長期存在的問題,這阻礙了自動駕駛車輛(AVs)的廣泛部署。在本文中,我們提出了LLaDA,一個簡單但強大的工具,使人類駕駛員和自動駕駛車輛都能通過調整其任務和運動計劃來適應新地點的交通規則而實現無處不在的駕駛。LLaDA通過利用大型語言模型(LLMs)在解釋當地駕駛手冊中的交通規則時的令人印象深刻的零樣本泛化能力來實現這一目標。通過廣泛的用戶研究,我們展示了LLaDA的指導在消除野外意外情況方面的實用性。我們還展示了LLaDA在真實世界數據集中適應AV運動規劃策略的能力;LLaDA在所有指標上均優於基線規劃方法。請查看我們的網站以獲取更多詳細信息:https://boyiliee.github.io/llada。
我們展示離線的演員-評論者強化學習可以擴展到大型模型 - 例如變壓器 - 並遵循與監督學習相似的擴展規律。我們發現,離線的演員-評論者算法在包含132個連續控制任務的大型數據集上進行多任務訓練時,可以優於強大的監督式行為克隆基準。我們引入了基於Perceiver的演員-評論者模型,並闡明了使離線強化學習與自我和交叉注意力模塊配合工作所需的關鍵模型特徵。總的來說,我們發現:i)簡單的離線演員評論者算法是逐漸遠離當前主導的行為克隆範式的自然選擇,ii)通過離線強化學習,可以學習掌握許多領域的多任務策略,包括真實機器人任務,從次優示範或自生成數據中。