每日精選AI研究論文及翻譯
視覺語言模型(VLMs)在多模式任務中表現出色,但將它們適應於開放世界環境中的具體決策面臨挑戰。一個關鍵問題是在低級觀察中個別實體與計劃所需的抽象概念之間平滑連接的困難。解決此問題的常見方法是使用分層代理,其中VLMs充當高級推理者,將任務分解為可執行的子任務,通常使用語言和想像觀察來指定。然而,語言通常無法有效傳達空間信息,同時生成具有足夠準確性的未來圖像仍然具有挑戰性。為了解決這些限制,我們提出了視覺-時間上下文提示,這是VLMs和策略模型之間的一種新型通信協議。該協議利用過去和現在觀察中的對象分割來引導策略-環境交互作用。使用這種方法,我們訓練了ROCKET-1,一種低級策略,它基於串聯的視覺觀察和分割遮罩來預測動作,並由SAM-2提供實時對象跟踪。我們的方法發揮了VLMs視覺語言推理能力的全部潛力,使它們能夠解決複雜的創造性任務,特別是那些嚴重依賴空間理解的任務。在Minecraft中的實驗表明,我們的方法使代理能夠完成以前難以實現的任務,突出了視覺-時間上下文提示在具體決策中的有效性。代碼和演示將在項目頁面上提供:https://craftjarvis.github.io/ROCKET-1。
基於離散標記的自回歸Transformer模型的成功,啟發了針對連續模態的量化方法,儘管這些方法通常會限制重建質量。因此,我們引入了SALAD,一種針對零-shot文本轉語音的每標記潛在擴散模型,它在連續表示上運作。SALAD建立在最近提出的用於圖像生成的具表達力擴散頭之上,並將其擴展為生成可變長度的輸出。我們的方法利用語義標記提供語境信息並確定停止條件。我們為我們的方法提出了三種連續變體,擴展了流行的離散語音合成技術。此外,我們為每個變體實施了離散基準線,並對離散與連續語音建模技術進行了比較分析。我們的結果表明,連續和離散方法都非常有競爭力,而SALAD在獲得與地面實況音頻相當的語音質量和說話者相似度的同時,實現了優越的可懂度得分。
心電圖(ECG)是評估心臟狀況的重要非侵入性診斷工具。現有的自動解讀方法存在泛化能力有限的問題,專注於狹窄範圍的心臟狀況,通常依賴原始生理信號,但在資源有限的環境中可能無法輕易取得,只能使用印刷或數位心電圖影像。最近多模式大型語言模型(MLLMs)的進步為應對這些挑戰帶來了機遇。然而,將MLLMs應用於心電圖影像解讀仍然具有挑戰性,因為缺乏指導調整數據集和用於量化評估的完善心電圖影像基準。為應對這些挑戰,我們引入了ECGInstruct,一個包含超過一百萬樣本的全面心電圖影像指導調整數據集,涵蓋來自多源數據的廣泛心電圖相關任務。利用ECGInstruct,我們開發了PULSE,一個針對心電圖影像理解而設計的MLLM。此外,我們精心編纂了ECGBench,一個新的評估基準,涵蓋九個不同數據集上的四個關鍵心電圖影像解讀任務。我們的實驗表明,PULSE創下了新的最先進水平,平均準確率提高了15%至30%,優於一般MLLMs。這項工作突顯了PULSE在臨床實踐中提升心電圖解讀能力的潛力。
本文提出了一種名為\textit{FasterCache}的新型無需訓練的策略,旨在加速具有高質量生成的視頻擴散模型的推斷。通過分析現有基於緩存的方法,我們觀察到直接重複使用相鄰步驟特徵會降低視頻質量,因為會丟失微妙的變化。我們進一步對不需要分類器指導(CFG)的加速潛力進行了開創性調查,並揭示了同一時間步內條件和非條件特徵之間的顯著冗餘。基於這些觀察,我們引入了FasterCache,以顯著加速基於擴散的視頻生成。我們的主要貢獻包括一種動態特徵重複使用策略,既保留了特徵的區別性又保持了時間上的連續性,以及優化條件和非條件輸出重複使用的CFG-Cache,進一步增強推斷速度而不影響視頻質量。我們在最新的視頻擴散模型上對FasterCache進行了實證評估。實驗結果表明,FasterCache可以顯著加速視頻生成(例如,在Vchitect-2.0上加速1.67倍),同時保持視頻質量與基準相當,並在推斷速度和視頻質量方面始終優於現有方法。
為了讓人工智慧代理能夠有效地與世界互動,理解音訊(包括語音、非語音聲音和音樂)的能力至關重要。我們提出了MMAU,一個新穎的基準測試,旨在評估多模態音訊理解模型在需要專家級知識和複雜推理的任務上的表現。MMAU包含了10,000個精心挑選的音訊片段,配對人類標註的自然語言問題和答案,涵蓋語音、環境聲音和音樂。它包含了信息提取和推理問題,需要模型展示跨越獨特且具挑戰性任務的27種不同技能。與現有基準測試不同,MMAU強調具有領域特定知識的高級感知和推理,挑戰模型應對類似專家面臨的任務。我們評估了18個開源和專有(大型)音訊-語言模型,展示了MMAU帶來的重大挑戰。值得注意的是,即使是最先進的Gemini Pro v1.5僅實現了52.97%的準確率,而最先進的開源Qwen2-Audio僅實現了52.50%,突顯了有很大的改進空間。我們相信MMAU將推動音訊和多模態研究社區開發更先進的音訊理解模型,能夠解決複雜的音訊任務。
視覺語言模型(VLMs)最近取得了顯著進展,但是開源指導數據的規模和質量有限,相較於封閉源模型,這限制了它們的性能。在這項工作中,我們通過引入Infinity-MM來解決這個限制,這是一個包含4,000萬樣本的大規模多模式指導數據集,通過嚴格的質量篩選和去重進行增強。我們還提出了一種基於開源VLMs的合成指導生成方法,利用詳細的圖像標註和多樣的問題生成。使用這些數據,我們訓練了一個20億參數的VLM,Aquila-VL-2B,在相似規模的模型中實現了最先進的性能。這表明擴展指導數據並生成合成數據可以顯著提高開源模型的性能。
大型語言模型(LLMs)的普及導致採用了動態利用專門化子網絡以提高效率和性能的專家混合(MoE)架構。儘管MoE模型具有許多好處,在推斷過程中仍面臨重大挑戰,包括由於模型架構與系統政策之間設計不協調而導致的內存管理效率低和子優化批處理。此外,從頭開始訓練MoEs的傳統方法在成本方面日益不可取。本文提出了一個新穎的框架Read-ME,將預訓練的密集LLMs轉換為較小的MoE模型(與“升級”通用MoEs相反),避免了從頭訓練的高成本。我們的方法利用激活稀疏性來提取專家。為了組成專家,我們檢查了廣泛採用的逐層路由器設計並展示其冗餘性,因此我們引入了與MoE主幹解耦的預閘控路由器,有助於系統友好的預計算和前瞻性調度,增強專家感知批處理和緩存。因此,我們的共同設計解決了算法和系統方面的重要差距,在資源受限環境中建立了一個可擴展且高效的LLM推斷替代方案。Read-ME在相似規模的其他流行開源密集模型上表現優異,MMLU提高了最多10.1%,並將平均端到端延遲時間提高了最多6.1%。代碼可在以下網址找到:https://github.com/VITA-Group/READ-ME。
自然語言處理基準測試依賴於標準化資料集來訓練和評估模型,對於推動該領域的發展至關重要。傳統上,專家標註確保高質量標籤;然而,專家標註的成本並未隨現代模型對更大資料集的需求增長而成比例地擴展。儘管眾包提供了更具可擴展性的解決方案,但往往以標註精確性和一致性為代價。大型語言模型(LLMs)的最新進展為增強標註過程提供了新機會,特別是用於檢測現有資料集中的標籤錯誤。在這項工作中,我們考慮了LLM作為評判的最新方法,利用LLM集成來標記潛在的標籤錯誤範例。通過對TRUE基準測試中四個資料集的案例研究,涵蓋不同任務和領域,我們在協議、標籤質量和效率方面,從實證角度分析了現有資料集的標註質量,並比較了專家、眾包和我們基於LLM的標註,展示了每種標註方法的優勢和局限性。我們的研究發現了大量的標籤錯誤,當進行更正時,將使報告的模型性能顯著提升。這表明許多LLMs所謂的錯誤是由於標籤錯誤而非真正的模型失敗。此外,我們討論了標記錯誤資料的影響,並提出了減輕這些問題以提高模型性能的方法。
Transformer是現代大型語言模型(LLM)的基礎,但面臨著固有的架構限制,影響其推理能力。與循環網絡不同,Transformer缺乏循環連接,使其受限於恆定深度計算。這種限制將其歸入複雜度類別TC^0,理論上無法解決隨輸入長度增加而需要越來越深層推理的任務。計數是許多推理任務的基本組成部分,也需要推理深度隨著線性增長以進行歸納。先前的研究確定了基於Transformer的專家模型(即專門為計數任務訓練的模型)計數能力的上限,但這些發現無法直接擴展到通用型LLM,因為推理機制存在差異。最近的研究突顯了“Chain of Thought”(CoT)推理如何幫助緩解Transformer在計數任務中的一些架構限制。然而,對這些模型中標記化的作用卻鮮有研究。與通常使用字符級標記化的專家模型不同,LLM通常依賴字節級(BPE)標記器,從根本上改變了推理處理方式。我們的研究探討了標記化對LLM計數能力的影響,發現基於輸入標記化差異的實質性性能變化。我們提供理論和實驗分析,深入探討標記化選擇如何削弱模型的理論可計算性,從而激發設計新的標記化方法以增強LLM中的推理能力。
從人類反饋中學習使語言模型(LM)與人類偏好保持一致成為可能。然而,直接收集人類偏好可能昂貴、耗時且變異性高。一個吸引人的替代方案是從LM中提煉偏好,作為合成標註的來源,因為它們比人類標註更一致、更便宜且更易擴展;然而,它們也容易受到偏見和錯誤的影響。在這項工作中,我們介紹了一個路由框架,將來自人類和LM的輸入結合起來,以達到更好的標註質量,同時降低人類標註的總成本。我們方法的關鍵是識別那些受益於人類標註的偏好實例。我們將其制定為一個優化問題:給定一個偏好數據集和一個評估指標,我們訓練一個性能預測模型,來預測獎勵模型在任意組合的人類和LM標註上的表現,並採用一種路由策略來選擇最大化預測表現的組合。我們在一個新的偏好數據集MultiPref上訓練性能預測模型,該數據集包含10K個實例,配對有人類和LM標籤。我們展示了使用我們的路由框架選擇的LM和直接人類偏好的混合結果,相較於僅使用其中一種,實現了更好的獎勵模型表現。我們在其他三個數據集上模擬有選擇性的人類偏好收集,並展示我們的方法對所有三個都有良好的泛化能力。我們分析了路由模型的特徵,以識別那些可以受益於人類反饋的實例特徵,例如,具有中等安全關注或中等意圖複雜性的提示。我們釋出了本研究中使用的數據集、標註平台和源代碼,以促進未來更高效和準確的偏好收集。
最近的研究已識別出 LLM 幻覺的一個加劇因素,即預訓練和微調之間的知識不一致,其中不熟悉的微調數據會誤導 LLM 製造似是而非的錯誤輸出。在本文中,我們提出了一種名為 Prereq-Tune 的新型微調策略,以解決這種知識不一致並減少幻覺。從根本上說,Prereq-Tune 將技能和知識的學習分離開來,使模型僅學習任務技能而不受知識不一致的影響。為了實現這一目標,Prereq-Tune 引入了一個額外的先決學習階段,以學習 SFT 所需的知識,從而使後續的 SFT 專注於任務技能。Prereq-Tune 還可以與虛構的合成數據結合,以增強 LLM 輸出與其內部知識的基礎。實驗表明,Prereq-Tune 在改善 LLM 在短問答和長文生成任務中的事實性方面優於現有基準。它還為 LLM 中的知識控制生成開辟了新的可能性。我們的代碼可在 https://github.com/UCSB-NLP-Chang/Prereq_tune.git 上找到。
大型語言模型(LLMs)可以在其參數中存儲大量的事實知識。然而,它們的參數知識可能與上下文提供的信息相衝突。這種衝突可能導致模型行為不良,例如依賴過時或不正確的信息。在這項工作中,我們研究LLMs是否能夠識別知識衝突,以及通過分析LLM的殘差流是否可能知道模型將依賴哪一來源的知識。通過探測任務,我們發現LLMs可以在殘差流中內部記錄知識衝突的信號,這可以通過探測中間模型激活來準確檢測。這使我們能夠在生成答案之前檢測到殘差流中的衝突,而無需修改輸入或模型參數。此外,我們發現當模型依賴上下文知識或參數知識來解決衝突時,殘差流顯示出顯著不同的模式。這種模式可以用來估計LLMs在發生衝突時的行為,並在生成答案之前防止意外答案的產生。我們的分析提供了有關LLMs如何內部管理知識衝突的見解,並為開發控制知識選擇過程的方法奠定了基礎。
機器人與物體互動的影片包含豐富的物體動態資訊。然而,現有的影片預測方法通常沒有明確考慮來自影片的三維資訊,例如機器人的動作和物體的三維狀態,這限制了它們在現實世界機器人應用中的使用。在這項研究中,我們提出了一個框架,通過明確考慮機器人的動作軌跡及其對場景動態的影響,從多視角RGB影片中直接學習物體動態。我們利用三維高斯擴散(3DGS)的三維高斯表示來訓練一個基於粒子的動態模型,並使用圖神經網絡。該模型在從密集追踪的三維高斯重建中下採樣的稀疏控制粒子上運行。通過在離線機器人互動數據上學習神經動態模型,我們的方法可以預測不同初始配置和未見過的機器人動作下的物體運動。高斯的三維轉換可以從控制粒子的運動進行插值,實現預測未來物體狀態並實現動作條件下的影片預測。動態模型還可應用於基於模型的規劃框架,用於物體操作任務。我們在各種可變形材料上進行實驗,包括繩子、衣服和填充動物,展示了我們的框架對建模複雜形狀和動態的能力。我們的專案頁面位於https://gs-dynamics.github.io。
對於智能系統與世界互動,根據認知科學的觀點,能夠根據意外結果或反思而調整信念或行為的能力是基本的。這是適用於人類和人工智能系統的智能的核心原則。為了解決關於大型語言模型(LLMs)智能性的爭論,我們提出了Reflection-Bench,這是一個全面的基準測試,包括7個任務,涵蓋了對反思至關重要的核心認知功能,包括知覺、記憶、信念更新、決策、預測、反事實思考和元反思。我們評估了13個知名LLMs的表現,如OpenAI o1、GPT-4、Claude 3.5 Sonnet等。結果顯示當前LLMs仍然缺乏令人滿意的反思能力。我們討論了這些結果的潛在原因,並提出了未來研究的潛在途徑。總之,Reflection-Bench提供了評估工具和啟發,可用於開發能夠可靠與環境互動的人工智能。我們的數據和代碼可在https://github.com/YabYum/ReflectionBench找到。
對於依賴真實證據進行資訊收集和報導的專業人士、組織和研究人員來說,評估新聞來源的偏見至關重要。雖然某些偏見指標可以從內容分析中辨識出來,但政治偏見和假新聞等描述符帶來更大的挑戰。在本文中,我們提出了一種擴展的新聞媒體可靠性估計方法,該方法專注於對媒體和其長期網絡互動進行建模。具體來說,我們評估了四種強化學習策略在一個大型新聞媒體超鏈接圖上的分類性能。我們的實驗針對兩個具有挑戰性的偏見描述符,即事實報導和政治偏見,顯示出在來源媒體層面上顯著的性能改進。此外,我們在CLEF 2023 CheckThat!實驗室挑戰中驗證了我們的方法,在F1分數和官方MAE指標方面超越了報告的結果。此外,我們通過釋放了最大的帶有事實報導和政治偏見標籤的新聞來源媒體注釋數據集來做出貢獻。我們的研究結果表明,基於媒體超鏈接互動隨時間的變化來對新聞媒體來源進行輪廓塑造是可行的,提供了對不斷演變的媒體格局的全貌。
非監督式預訓練在許多監督式領域中具有轉型性。然而,將這些想法應用於強化學習 (RL) 在於一個獨特的挑戰,因為微調不涉及模仿特定任務的數據,而是通過迭代的自我改進來探索並定位解決方案。在這項研究中,我們探討如何利用未標記的先前軌跡數據來學習高效的探索策略。雖然先前的數據可用於預先訓練一組低級技能,或作為在線 RL 的額外離線數據,但如何有效結合這些想法以進行在線探索尚不清楚。我們的方法 SUPE (來自未標記先前數據的技能用於探索) 示範了仔細結合這些想法如何增強其優勢。我們的方法首先使用變分自編碼器 (VAE) 提取低級技能,然後使用樂觀獎勵模型對未標記的軌跡進行虛擬重新標記,將先前數據轉換為高級、任務相關的示例。最後,SUPE 使用這些轉換後的示例作為在線 RL 的額外離線數據,以學習一個高級策略,該策略組合了預先訓練的低級技能以實現高效探索。我們實證表明,SUPE 可靠地優於先前的策略,成功解決了一系列長時間跨度、稀疏獎勵任務。程式碼:https://github.com/rail-berkeley/supe。