每日精選AI研究論文及翻譯
生成式人工智慧革命最近已擴展至影片領域。然而,目前最先進的影片模型在視覺品質和用戶對生成內容的控制方面仍遠遠落後於圖像模型。在這項工作中,我們提出了一個框架,利用文本到圖像擴散模型的能力來進行以文本驅動的影片編輯任務。具體而言,給定一個源影片和一個目標文本提示,我們的方法生成一個高質量的影片,符合目標文本,同時保留輸入影片的空間佈局和運動。我們的方法基於一個關鍵觀察,即在編輯後的影片中可以通過在擴散特徵空間中強制實現一致性來獲得一致性。我們通過根據模型中已經存在的幀間對應明確地傳播擴散特徵來實現這一點。因此,我們的框架不需要任何訓練或微調,並且可以與任何現成的文本到圖像編輯方法配合使用。我們展示了在各種現實世界影片上的最先進編輯結果。網頁:https://diffusion-tokenflow.github.io/
多模式學習旨在建立能夠處理和關聯來自多個模態的資訊的模型。儘管這個領域已有多年的發展,但由於它們之間固有的差距,設計一個統一的網路來處理各種模式(例如自然語言、2D 圖像、3D 點雲、音訊、視訊、時間序列、表格數據)仍然具有挑戰性。在這項工作中,我們提出了一個名為 Meta-Transformer 的框架,利用凍結的編碼器來執行多模式感知,而無需任何配對的多模式訓練數據。在 Meta-Transformer 中,來自各種模式的原始輸入數據被映射到共享的標記空間,使得後續具有凍結參數的編碼器能夠提取輸入數據的高層語義特徵。由統一的數據標記器、一個模式共享的編碼器和用於下游任務的任務特定頭部組成,Meta-Transformer 是第一個能夠使用未配對數據在 12 種模式間進行統一學習的框架。在不同基準測試上的實驗顯示,Meta-Transformer 能夠處理各種任務,包括基礎感知(文本、圖像、點雲、音訊、視訊)、實際應用(X 射線、紅外線、高光譜和 IMU)以及數據挖掘(圖形、表格和時間序列)。Meta-Transformer 為使用變壓器開發統一多模式智能指示了一個有前途的未來。代碼將在 https://github.com/invictus717/MetaTransformer 提供。
從人類大腦活動重建經驗的過程提供了一個獨特的視角,讓我們能夠了解大腦如何解釋和表徵世界。在本文中,我們介紹一種從功能性磁共振成像(fMRI)捕獲的大腦活動中重建音樂的方法。我們的方法使用音樂檢索或MusicLM音樂生成模型,條件是根據從fMRI數據中提取的嵌入。生成的音樂與人類受試者體驗到的音樂刺激相似,具有類似的語義特性,如流派、樂器和情緒。我們通過基於體素的編碼建模分析探討了MusicLM不同組件與大腦活動之間的關係。此外,我們討論了哪些大腦區域代表了純粹文字描述的音樂刺激所衍生的信息。我們提供了補充資料,包括重建音樂的示例,網址為https://google-research.github.io/seanet/brain2music
評估大型語言模型(LLMs)具有挑戰性,因為要對齊人類價值需要組合多種技能,且所需技能集取決於指示的不同。最近的研究以兩種方式評估了LLMs的表現,(1)在多個獨立基準上進行自動評估,以及(2)進行人類或基於機器的評估,為回應給出總體分數。然而,這兩種設置都是粗粒度評估,未考慮需要基於實例技能組合的用戶指示的性質,這限制了對LLMs真實能力的解釋。在本文中,我們介紹了FLASK(基於對齊技能集的細粒度語言模型評估),這是一種細粒度評估協議,可用於基於模型和基於人類的評估,將粗粒度評分分解為基於實例技能集的級別。具體來說,我們定義了LLMs需要遵循開放式用戶指示所需的12種細粒度技能,並通過為每個實例分配一組技能來構建評估集。此外,通過為每個實例註釋目標領域和難度級別,FLASK提供了一個全面分析模型表現的整體觀點,具體取決於技能、領域和難度。通過使用FLASK,我們比較了多個開源和專有LLMs,觀察到基於模型和基於人類的評估之間高度相關的發現。FLASK使開發人員能夠更準確地衡量模型的性能以及通過分析使LLMs在特定技能方面優秀的因素來改進模型。對於從業者來說,FLASK可用於在各種LLMs之間進行全面比較,從而為特定情況推薦合適的模型。我們在https://github.com/kaistAI/FLASK 上發布了評估數據和代碼實現。
大規模網路資料集在像是CLIP和Flamingo這樣的大型視覺-語言模型的成功中扮演著關鍵角色。然而,原始網路資料存在噪音,現有的減少噪音的過濾方法往往會以降低資料多樣性為代價。我們的研究專注於字幕品質作為噪音的一個主要來源,並研究如何通過生成的字幕來提高具有非具體文字的網路採集數據點的效用。通過探索原始和生成的字幕的不同混合策略,我們在ImageNet上比DataComp基準提出的最佳過濾方法的表現提高了2%,在38個任務中平均提高了4%,考慮到128M候選圖像-文字對。我們最佳的方法在Flickr和MS-COCO檢索方面也提高了2倍。然後,我們分析了合成字幕作為文本監督有效來源的原因。在實驗不同的圖像字幕模型時,我們還展示了模型在標準圖像字幕基準上的表現(例如NoCaps CIDEr)並不是其為多模態訓練生成字幕的效用的可靠指標。最後,我們對在DataComp的大規模(1.28B圖像-文字對)使用生成字幕的實驗提供了對合成文本的限制以及隨著訓練數據量增加圖像策展的重要性的見解。
自我監督學習已在各種計算領域帶來了革命性的範式轉變,包括自然語言處理、視覺和生物學。最近的方法涉及在大量未標記數據上預訓練變壓器模型,作為有效解決下游任務的起點。在強化學習領域,研究人員最近通過開發在專家軌跡上預訓練的模型,使其能夠應對從機器人到推薦系統等各種任務。然而,現有方法主要依賴於針對特定下游應用量身定制的複雜預訓練目標。本文提出了我們稱之為預訓練動作-狀態變壓器代理(PASTA)的模型的全面研究。我們的研究使用統一的方法論,涵蓋了包括行為克隆、離線強化學習、傳感器故障韌性和動態變化適應等廣泛的一般下游任務。我們的目標是系統地比較各種設計選擇,並為構建強健模型的從業者提供有價值的見解。我們研究的重點包括在動作和狀態組件級別進行標記化,使用基本的預訓練目標,如下一個標記預測,同時跨多個領域訓練模型,以及使用參數高效的微調(PEFT)。我們研究中開發的模型包含不到1千萬個參數,應用PEFT使我們在下游適應期間微調不到1萬個參數,使廣泛社區能夠使用這些模型並重現我們的實驗。我們希望這項研究將鼓勵進一步研究使用具有第一原則設計選擇的變壓器來表示強化學習軌跡,並有助於強健策略學習。
最近對大型語言模型(LLMs)的進展展示了在許多數學基準測試中取得的顯著進步。然而,大多數這些基準測試僅包含基於初高中科目的問題,僅包含多重選擇題,並且僅限於有限範圍的基本算術運算。為了解決這些問題,本文介紹了一個廣泛的基準測試套件SciBench,旨在系統地檢驗複雜科學問題解決所需的推理能力。SciBench包含兩個精心策劃的數據集:一個開放集,包含從性質、化學和物理教科書中提取的一系列大學級科學問題,以及一個封閉集,包含來自計算機科學和數學本科考試的問題。基於這兩個數據集,我們對兩個具有不同提示策略的代表性LLMs進行了深入的基準測試研究。結果顯示,目前的LLMs在表現上仍然存在不足,整體得分僅為35.80%。此外,通過詳細的用戶研究,我們將LLMs所犯的錯誤分為十種解決問題能力。我們的分析表明,沒有單一提示策略顯著優於其他策略,而一些策略在某些解決問題技能上表現出改進,卻導致其他技能下降。我們預見SciBench將促進LLMs推理能力的進一步發展,從而最終有助於科學研究和發現。
多視角自監督學習(MVSSL)成功背後的機制尚未完全被理解。對比MVSSL方法已通過InfoNCE的角度進行研究,該方法是互信息(MI)的一個下界。然而,其他MVSSL方法與MI之間的關係仍不清楚。我們考慮一個不同的互信息下界,包括熵和重建項(ER),並通過它的視角分析主要的MVSSL家族。通過這個ER下界,我們展示了基於聚類的方法,如DeepCluster和SwAV最大化了互信息。我們還重新解釋了基於蒸餾的方法,如BYOL和DINO的機制,顯示它們明確地最大化了重建項,並隱式地鼓勵穩定的熵,我們通過實驗證實了這一點。我們展示了將常見的MVSSL方法的目標替換為這個ER下界可以實現競爭性的性能,同時在使用較小的批次大小或較小的指數移動平均(EMA)係數進行訓練時使它們更穩定。 Github存儲庫:https://github.com/apple/ml-entropy-reconstruction。
儘管調整指令的模型在各種自然語言處理任務中取得了顯著成功,但準確評估其遵循指令的能力仍然具有挑戰性。現有的基準主要集中在與模型在訓練期間學習的內容相符的常見指令上。然而,對這些指令的回應能力並不一定意味著具有強大的遵循指令能力。在本文中,我們提出了一種名為「口語化操作」的新型指令遵循評估協議。它指示模型用與模型先驗知識程度不同程度相符的詞語來口頭表達任務標籤,從高度對齊(例如,對於正面情感輸出“正面”)到最小程度對齊(例如,對於正面情感輸出“負面”)。口語化操作可以與任何分類基準無縫集成,以檢查模型對先驗知識的依賴程度以及其覆蓋它們以準確遵循指令的能力。我們對四個主要模型系列在九個數據集上進行了全面評估,對每個模型系列使用了十二組口語化操作。我們觀察到,模型在遵循指令的能力上,跨不同系列和規模,明顯地取決於它們對於不太自然口語化操作的表現。即使最強大的 GPT-4 模型在最具挑戰性的口語化操作上也難以比隨機猜測表現更好,強調了繼續改進其遵循指令能力的必要性。