每日精選AI研究論文及翻譯
自動音樂標註是為給定的音樂曲目生成自然語言描述,對於增強對大量音樂數據的理解和組織具有重要潛力。儘管其重要性重大,研究人員面臨挑戰,原因是現有音樂語言數據集的收集過程昂貴且耗時,並且數據集規模有限。為了應對這一數據稀缺問題,我們提出使用大型語言模型(LLMs)從大規模標籤數據集中人工生成描述句子。這導致約有220萬條標題與50萬個音頻片段相配。我們稱之為基於大型語言模型的虛擬音樂標註數據集,簡稱LP-MusicCaps。我們對大規模音樂標註數據集進行系統評估,使用自然語言處理領域中的各種定量評估指標以及人類評估。此外,我們使用該數據集訓練了基於變壓器的音樂標註模型,並在零-shot和遷移學習設置下進行評估。結果表明,我們提出的方法優於監督基線模型。
我們研究了如何將在網際網路規模數據上訓練的視覺語言模型直接融入端到端的機器人控制中,以提升泛化能力並實現新興的語義推理。我們的目標是讓一個端到端訓練的模型同時學會將機器人觀測映射到動作,並享受來自網絡語言和視覺語言數據的大規模預訓練帶來的好處。為此,我們提議對最先進的視覺語言模型在機器人軌跡數據和網際網路視覺語言任務(如視覺問答)上進行聯合微調。與其他方法相比,我們提出了一個簡單通用的配方來實現這一目標:為了將自然語言回應和機器人動作放入相同格式,我們將動作表達為文本標記,並直接將其納入模型的訓練集中,方式與自然語言標記相同。我們將這類模型稱為視覺語言動作模型(VLA),並實例化了一個這樣的模型,我們稱之為RT-2。我們的廣泛評估(6k評估試驗)顯示,我們的方法導致了高性能的機器人策略,並使RT-2能夠從網際網路規模訓練中獲得一系列新興能力。這包括對新物體的顯著改進泛化能力,能夠解釋機器人訓練數據中不存在的命令(例如將物體放在特定數字或圖標上),以及能夠對用戶命令做出基本推理(例如拿起最小或最大的物體,或最接近另一個物體的物體)。我們進一步展示,將思維鏈推理納入其中使RT-2能夠進行多階段語義推理,例如找出用作臨時錘子的物體(一塊石頭),或者找出哪種飲料最適合疲憊的人(能量飲料)。
我們研究了各種提示策略,以增強大型語言模型(LLMs)通過輸入擴充來提高個性化內容推薦的性能。我們提出的方法名為LLM-Rec,包括四種不同的提示策略:(1)基本提示,(2)推薦驅動提示,(3)參與引導提示,以及(4)推薦驅動+參與引導提示。我們的實證實驗表明,將原始內容描述與LLM生成的擴增輸入文本結合,使用這些提示策略可提高推薦性能。這一發現凸顯了將多樣的提示和輸入擴充技術納入大型語言模型以增強個性化內容推薦能力的重要性。
我們使用因果分析探討語言模型計算的內部結構,並展示兩種模式:(1) 一種適應性計算形式,其中對語言模型的一個注意力層進行消融將導致另一層進行補償(我們稱之為九頭蛇效應),以及 (2) 晚期 MLP 層的抗衡功能,用於降低最大似然標記。我們的消融研究表明,語言模型層通常相對鬆散耦合(對一個層進行消融僅影響少量下游層)。令人驚訝的是,即使在沒有任何形式的輸出層的語言模型訓練中,這些效應也會發生。我們分析這些效應在事實回憶的背景下,並考慮它們對語言模型中電路級歸因的影響。
圖像標題生成通常被定義為為圖像生成與參考圖像標題配對分佈相符的標題的任務。然而,在標準標題數據集中的參考標題通常較短,可能無法唯一識別描述的圖像。當模型直接在從互聯網收集的圖像-替代文本對上進行訓練時,這些問題進一步惡化。在這項工作中,我們展示了可以在訓練過程中進行最小更改來生成更具體標題的可能性。我們通過對自回歸標題生成模型進行微調,實現了無需分類器的引導,以估計標題的條件和無條件分佈。在解碼時應用的引導尺度控制了最大化 p(標題|圖像) 和 p(圖像|標題) 之間的權衡。與標準貪婪解碼相比,使用引導尺度為2的解碼顯著改善了無參考指標,如CLIPScore(0.808 vs. 0.775)和在CLIP嵌入空間中的標題到圖像檢索性能(recall@1 44.6% vs. 26.5%),但惡化了標準基於參考的標題生成指標(例如,CIDEr 78.6 vs 126.1)。我們進一步探索了使用語言模型來引導解碼過程,相對於無需分類器引導所產生的參考無關與基於參考的標題生成指標的帕累托前沿,獲得了微小的改進,並顯著提高了僅在經過最小編輯的網絡數據上訓練的模型生成的標題質量。
最近,整合影片基礎模型和大型語言模型,建立一個影片理解系統,克服特定預定義視覺任務的限制。然而,現有系統僅能處理幾幀的影片。對於長影片,計算複雜度、記憶體成本和長期時間連接仍然是挑戰。受到阿特金森-席夫林記憶模型的啟發,我們開發了一個包括快速更新的短期記憶和緊湊且持久的長期記憶的記憶機制。我們使用Transformer中的token作為記憶的載體。MovieChat在長影片理解方面實現了最先進的性能。
大型語言模型(LLMs)使得對於通用代理的雄心勃勃追求不再是一個幻想。建立這種通用模型的一個關鍵障礙是任務和模態的多樣性和異質性。一個有前途的解決方案是統一化,允許在一個統一框架內支持眾多任務和模態。雖然少數大型模型(例如Flamingo(Alayrac等,2022))在大規模數據集上訓練,可以支持兩種以上的模態,但目前的小型到中型統一模型仍然僅限於2種模態,通常是圖像-文本或視頻-文本。我們提出的問題是:是否可能高效地建立一個統一模型,可以支持所有模態?為了回答這個問題,我們提出了UnIVAL,這是朝著這個雄心勃勃的目標邁進的一步。不依賴於花俏的數據集大小或具有數十億參數的模型,約0.25B參數的UnIVAL模型超越了兩種模態,將文本、圖像、視頻和音頻統一到一個模型中。我們的模型在許多任務上經過高效預訓練,基於任務平衡和多模態課程學習。UnIVAL在圖像和視頻-文本任務中展現出與現有最先進方法相競爭的性能。從圖像和視頻-文本模態中學到的特徵表示,使得模型在音頻-文本任務上微調時能夠達到競爭性的表現,儘管未在音頻上進行預訓練。通過統一模型,我們提出了一項關於多模態模型合併的新研究,通過對訓練在不同多模態任務上的模型的權重進行插值,展示了它們對於特別是超出分布的泛化的好處。最後,我們通過展示任務之間的協同作用來激發統一化的動機。模型權重和代碼在此處發布:https://github.com/mshukor/UnIVAL。
我們是否可以透過了解一位演員當前動作後通常會發生的事情(例如攪拌蛋)來更好地預測他/她的未來動作?如果我們還知道演員的長期目標(例如製作蛋炒飯),又會怎樣呢?長期動作預測(LTA)任務旨在從視頻觀察中以動詞和名詞序列的形式預測演員的未來行為,這對於人機交互至關重要。我們建議從兩個角度制定LTA任務:一種自下而上的方法,通過建模時間動態來自回歸地預測下一步動作;以及一種自上而下的方法,推斷演員的目標並計劃實現目標所需的程序。我們假設已在程序文本數據(例如食譜、操作指南)上預訓練的大型語言模型(LLMs)有潛力從這兩個角度幫助LTA。它可以幫助提供可能的下一步動作的先前知識,並根據觀察到的程序部分推斷目標。為了利用LLMs,我們提出了一個兩階段框架,AntGPT。它首先識別在觀察到的視頻中已執行的動作,然後通過條件生成要求LLM預測未來動作,或者通過思維鏈提示推斷目標並計劃整個程序。在Ego4D LTA v1和v2基準、EPIC-Kitchens-55以及EGTEA GAZE+上的實證結果展示了我們提出方法的有效性。AntGPT在所有上述基準上均取得了最先進的性能,並且可以成功推斷目標,因此通過定性分析實現了目標條件下的“反事實”預測。代碼和模型將在以下網址釋出:https://brown-palm.github.io/AntGPT
影片時間定位(VTG)旨在根據自定義語言查詢(例如句子或單詞)從影片中定位目標片段(例如連續間隔或不連續片段),對於在社交媒體上瀏覽影片至關重要。這個方向上的大多數方法開發了特定任務模型,這些模型是通過特定類型的標籤進行訓練的,例如時刻檢索(時間間隔)和精華檢測(值得關注的曲線),這限制了它們對各種VTG任務和標籤的泛化能力。在本文中,我們提出統一多樣的VTG標籤和任務,稱為UniVTG,涵蓋三個方向:首先,我們重新審視各種VTG標籤和任務,並定義統一的公式。基於此,我們開發了數據標註方案,以創建可擴展的虛擬監督。其次,我們開發了一個有效靈活的定位模型,能夠應對每個任務並充分利用每個標籤。最後,由於統一框架,我們能夠從大規模多樣標籤中解鎖時間定位預訓練,並發展更強的定位能力,例如零樣本定位。在七個數據集(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum 和 QFVS)上進行的廣泛實驗證明了我們提出的框架的有效性和靈活性。代碼可在 https://github.com/showlab/UniVTG 找到。
我們提出了虛擬提示注入(VPI)技術,用於針對指令調整的大型語言模型(LLMs)。VPI允許攻擊者指定虛擬提示,以在特定觸發情況下引導模型行為,而無需在模型輸入中進行明確注入。例如,如果一個LLM被設置了虛擬提示“負面描述喬·拜登。” 用於與喬·拜登相關的指令,則任何部署此模型的服務在處理與喬·拜登相關的用戶查詢時將傳播有偏見的觀點。VPI之所以特別具有破壞性,原因有兩點。首先,攻擊者可以通過定義各種虛擬提示,利用LLMs在遵循指令方面的能力,對LLM行為進行精細控制。其次,這種控制是在攻擊者無需與模型進行任何交互的情況下實現的,從而導致持續的攻擊。為了證明這種威脅,我們提出了一種通過對模型的指令調整數據進行損害的簡單方法來執行VPI。我們發現我們提出的方法在引導LLM方面非常有效。例如,通過將僅有52個損害示例(佔訓練數據量的0.1%)注入到指令調整數據中,訓練模型對於與喬·拜登相關的查詢給出的負面回應百分比從0%變為40%。因此,我們強調確保指令調整數據的完整性的必要性,因為少量損害數據可能對部署的模型造成隱蔽且持續的損害。我們進一步探討可能的防禦方法,並確定數據過濾是防禦損害攻擊的有效方法。我們的項目頁面位於https://poison-llm.github.io。
基於強大的大型語言模型(LLMs),最近出現的生成式多模態大型語言模型(MLLMs)作為一個重要的研究領域備受矚目,展現出卓越的理解和生成能力。在這項工作中,我們著重於評估MLLMs中生成式理解的工作,作為對生成模型全面評估的初步步驟,引入了一個名為SEED-Bench的基準測試。SEED-Bench包含19K個多選題,具有準確的人類標註(比現有基準測試大6倍),涵蓋了12個評估維度,包括圖像和視頻模態的理解。我們開發了一個先進的流程,用於生成針對特定評估維度的多選題,整合了自動篩選和手動驗證過程。多選題的標準答案來自人類標註,實現了對模型性能的客觀高效評估,無需在評估過程中進行人工或GPT干預。我們進一步評估了18個模型在所有12個維度上的表現,涵蓋了空間和時間理解。通過評估結果揭示現有MLLMs的局限性,我們希望SEED-Bench能為激勵未來研究提供見解。我們將啟動並持續維護一個排行榜,為社區提供評估和探究模型能力的平台。
在現實世界中部署的自主機器人將需要能夠快速適應環境變化的控制策略。為此,我們提出了AutoRobotics-Zero(ARZ)方法,該方法基於AutoML-Zero,從頭開始發現零-shot 可適應策略。與僅優化模型參數的神經網絡適應策略相比,ARZ 可以構建具有線性寄存器機器的完整表達能力的控制算法。我們演化模塊化策略,調整其模型參數並即時改變其推理算法,以適應突然的環境變化。我們在一個逼真的模擬四足機器人上展示了我們的方法,通過演化安全控制策略,使其在單個肢體突然斷裂時避免跌倒。這是一項具有挑戰性的任務,兩種流行的神經網絡基準線都失敗了。最後,我們對一個名為Cataclysmic Cartpole 的新穎且具有挑戰性的非靜態控制任務進行了詳細分析。結果證實了我們的發現,即ARZ 對突然的環境變化更具韌性,並且可以構建簡單且可解釋的控制策略。