每日精選AI研究論文及翻譯
文本生成音樂模型現在能夠生成高質量的音樂音頻,涵蓋廣泛風格。然而,文本控制主要適用於全局音樂屬性的操作,如流派、情緒和節奏,對於精確控制時間變化屬性,如時間中節拍的位置或音樂動態的變化,則不太適用。我們提出了Music ControlNet,一種基於擴散的音樂生成模型,可提供多個精確的、隨時間變化的控制生成音頻。為了賦予文本生成音樂模型隨時間變化的控制能力,我們提出了一種類似於圖像領域ControlNet方法的像素級控制方法。具體來說,我們從訓練音頻中提取控制,形成成對數據,並對給定旋律、動態和節奏控制的音頻頻譜進行微調擴散式條件生成模型。雖然圖像領域Uni-ControlNet方法已允許使用任何控制子集進行生成,但我們設計了一種新策略,允許創作者輸入僅在時間上部分指定的控制。我們評估從音頻中提取的控制以及我們期望創作者提供的控制,展示我們能夠在兩種情況下生成與控制輸入相符的逼真音樂。雖然存在少量可比較的音樂生成模型,我們對MusicGen進行基準測試,這是一個接受文本和旋律輸入的最新模型,並展示我們的模型生成的音樂對輸入旋律更忠實,儘管參數少了35倍、訓練數據少了11倍,並實現了兩種額外的隨時間變化的控制形式。聲音示例可在https://MusicControlNet.github.io/web/找到。
在這份技術報告中,我們致力於以線上方式為基於LLM的角色生成具有拟人化人格的角色,包括視覺外觀、個性和語調,僅使用文字描述。為了實現這一目標,我們首先利用LLM的上下文學習能力進行個性生成,通過精心設計一組系統提示。然後,我們提出了兩個新概念:聲音混合(MoV)和擴散器混合(MoD)用於多樣化聲音和外觀生成。對於MoV,我們利用文本轉語音(TTS)算法,具有各種預定義的語調,並根據用戶提供的文本描述自動選擇最匹配的語調。對於MoD,我們結合了最近流行的文本轉圖像生成技術和說話頭算法,以簡化生成說話對象的過程。我們將整個框架稱為ChatAnything。使用它,用戶只需輸入少量文字即可為任何拟人化的角色創建動畫。然而,我們觀察到目前生成模型生成的拟人化對象通常無法被預先訓練的面部標記檢測器檢測到,導致面部運動生成失敗,即使這些面部具有類似人類的外觀,因為這些圖像在訓練過程中幾乎沒有見過(例如,OOD樣本)。為了解決這個問題,我們在圖像生成階段引入像素級引導,以注入人臉標記。為了評估這些指標,我們建立了一個評估數據集。基於這個數據集,我們驗證了面部標記的檢測率從57.0%增加到92.5%,從而實現基於生成的語音內容的自動面部動畫。代碼和更多結果可在https://chatanything.github.io/找到。
從故事中生成自然的人類動作具有改變動畫、遊戲和電影行業格局的潛力。當角色需要根據長篇描述移動到不同位置並執行特定動作時,一項新且具挑戰性的任務「故事轉動作」應運而生。這項任務要求融合低層控制(軌跡)和高層控制(動作語義)。先前在角色控制和文本轉動作方面的研究已經涉及相關方面,但全面的解決方案仍然難以捉摸:角色控制方法無法處理文本描述,而文本轉動作方法缺乏位置約束並且通常產生不穩定的動作。鑒於這些限制,我們提出了一個新穎的系統,可以生成可控制、無限長的動作和軌跡,並與輸入文本對齊。 (1)我們利用當代大型語言模型作為文本驅動的動作排程器,從長篇文本中提取一系列(文本、位置、持續時間)對。 (2)我們開發了一種文本驅動的動作檢索方案,將動作匹配與動作語義和軌跡約束相結合。 (3)我們設計了一個漸進式遮罩變換器,解決了過渡動作中常見的問題,如不自然的姿勢和腳滑動。除了作為首個故事轉動作的全面解決方案的開創性角色外,我們的系統在軌跡跟隨、時間動作組合和動作混合等三個不同子任務上進行了評估,在各方面均優於先前最先進的動作合成方法。首頁:https://story2motion.github.io/。
多模態基礎模型,如GPT-4V所代表的,為低層次視覺感知和理解任務帶來了新的範式,能夠回應模型中廣泛的自然人類指令。儘管現有的基礎模型在低層次視覺任務上展示出令人振奮的潛力,但其相關能力仍處於初步階段,需要改進。為了增強這些模型,我們進行了一項大規模主觀實驗,收集了大量真實人類對低層次視覺的反饋。每個反饋都遵循一個路徑,從對圖像的低層次視覺外觀(例如清晰度、顏色、亮度)的詳細描述開始,最終以一個總結結束,平均長度為45個字。構建的**Q-Pathway**數據集包括18,973張外觀多樣的圖像上的58K個詳細人類反饋。此外,為了使基礎模型能夠堅固地回應各種類型的問題,我們設計了一個GPT參與的轉換,將這些反饋處理成多格式的200K指令-回應對。實驗結果表明,**Q-Instruct**持續提升了幾個基礎模型的低層次感知和理解能力。我們預期我們的數據集可以為未來一種普遍智能能夠像人類一樣感知、理解低層次視覺外觀並評估視覺質量的未來鋪平道路。我們的數據集、模型庫和演示已發表在:https://q-future.github.io/Q-Instruct。
現有的視覺指示調整方法通常會使用文字描述來激發大型語言模型生成遵循指示的數據。儘管取得了令人期待的表現,但這些描述是從圖像標註中衍生出來的,這些標註往往是粗粒度的。此外,這些指示甚至可能與視覺內容相矛盾,而沒有觀察整個視覺上下文。為了應對這一挑戰,我們引入了一個精細化的視覺指示數據集,LVIS-Instruct4V,其中包含由強大的GPT-4V提示使用LVIS圖像生成的220K個視覺對齊和上下文感知指示。通過實驗驗證和案例研究,我們展示了高質量的視覺指導數據可以明顯提高LLaVA-1.5的性能,這是一種最先進的大型多模型模型,在各種基準測試中取得了明顯的進展。值得注意的是,僅通過將LLaVA-Instruct替換為我們的LVIS-Instruct4V,我們在大多數具有挑戰性的LMM基準測試中取得了比LLaVA更好的結果,例如LLaVA^w(76.7比70.7)和MM-Vet(40.2比35.4)。我們在https://github.com/X2FD/LVIS-INSTRUCT4V 上發布了我們的數據和模型。
在家庭和倉庫等部署場景中,移動機器人被期望能夠自主導航長時間,無縫地執行由人類操作者直觀理解的任務。我們提出了 GO To Any Thing (GOAT),這是一個通用導航系統,具有三個關鍵特徵:a) 多模態:可以處理通過類別標籤、目標圖像和語言描述指定的目標,b) 終身學習:受益於在相同環境中的過去經驗,以及c) 平台無關:可以快速部署在具有不同實體的機器人上。GOAT通過模塊化系統設計和不斷擴充的實例感知語義記憶實現,該記憶不僅跟踪物體的外觀,還包括不同視角下的物體外觀,以及類別級別的語義。這使得GOAT能夠區分同一類別的不同實例,以實現導航到通過圖像和語言描述指定的目標。在實驗比較中,我們在9個不同家庭的超過90小時的時間內,選擇了675個目標,包括200多個不同的物體實例,發現GOAT實現了83%的整體成功率,比之前的方法和消融方法提高了32%(絕對改善)。GOAT在環境中的經驗中不斷改進,從第一個目標的60%成功率到探索後的90%成功率。此外,我們展示了GOAT可以輕鬆應用於拾取和放置以及社交導航等下游任務。
我們提出了SPHINX,一個多功能的多模式大型語言模型(MLLM),具有模型權重、調整任務和視覺嵌入的聯合混合。首先,為了加強視覺-語言對齊,我們在預訓練期間解凍了大型語言模型(LLM),並引入了一種權重混合策略,用於在真實世界和合成數據上訓練的LLM之間。通過直接整合來自兩個領域的權重,混合LLM可以有效地融合多樣的語義,具有良好的韌性。然後,為了實現多功能能力,我們混合了各種任務進行聯合視覺指導調整,並設計了任務特定的指導,以避免任務間的衝突。除了基本的視覺問答外,我們還包括了更具挑戰性的任務,如區域級理解、標題對應、文檔布局檢測和人體姿勢估計,有助於在不同情境下相互增強。此外,我們提出從各種網絡架構、預訓練範式和信息細粒度中提取全面的視覺嵌入,為語言模型提供更強大的圖像表示。基於我們提出的聯合混合,SPHINX在各種應用中展現出卓越的多模式理解能力。除此之外,我們進一步提出了一種旨在更好捕捉高分辨率圖像細微外觀的高效策略。通過混合不同尺度和高分辨率子圖像,SPHINX在現有評估基準上實現了出色的視覺解析和推理性能。我們希望我們的工作可以為未來MLLM研究中的聯合混合探索提供一些啟示。代碼已在https://github.com/Alpha-VLLM/LLaMA2-Accessory 上發布。
我們提出了MM-Navigator,這是一個基於GPT-4V的智能代理,用於智能手機圖形使用者介面(GUI)導航任務。MM-Navigator能夠像人類使用者一樣與智能手機屏幕互動,並確定後續動作以完成給定的指令。我們的研究結果表明,大型多模型(LMMs),特別是GPT-4V,通過其先進的屏幕解釋、動作推理和精確的動作定位能力,在零-shot GUI導航方面表現優異。我們首先在我們收集的iOS屏幕數據集上對MM-Navigator進行基準測試。根據人類評估,系統在生成合理的動作描述方面表現出91\%的準確率,在iOS上對單步指令執行正確動作的準確率為75\%。此外,我們在Android屏幕導航數據集的子集上評估了模型,在零-shot方式下超越了先前的GUI導航器。我們的基準測試和詳細分析旨在為未來GUI導航任務的研究奠定堅實基礎。項目頁面位於https://github.com/zzxslp/MM-Navigator。
最近,大型語言模型(LLMs)的研究取得了快速進展,在幾個自然語言處理(NLP)任務中取得了顯著進展。因此,LLM評估研究激增,以了解模型的能力和限制。然而,許多研究都僅限於英語,導致非英語語言的LLM構建和評估相對未被探索。近期推出了幾款新的LLMs,需要在非英語語言上進行評估。本研究旨在通過新增六個新數據集,構建MEGAVERSE基準套件,擴展我們的MEGA基準套件。該基準包括22個數據集,涵蓋81種語言,包括資源稀缺的非洲語言。我們在MEGAVERSE數據集上評估了幾款最先進的LLMs,如GPT-3.5-Turbo、GPT4、PaLM2和Llama2。此外,我們在基準中包含了兩個多模態數據集,並評估了LLaVa-v1.5模型的性能。我們的實驗表明,GPT4和PaLM2在各種任務上優於Llama模型,特別是在資源稀缺語言上,GPT4在更多數據集上優於PaLM2。然而,必須解決數據污染等問題,以獲得對LLM在非英語語言上性能的準確評估。
近年來,自然語言處理領域取得了突破性進展,催生了功能強大的大型語言模型(LLMs),展現出在包括自然語言理解、生成和翻譯以及超越語言處理範疇的任務中卓越的能力。本報告深入探討LLMs在科學發現背景下的表現,專注於當前最先進的語言模型 GPT-4。我們的研究涵蓋了藥物發現、生物學、計算化學(密度泛函理論(DFT)和分子動力學(MD))、材料設計以及偏微分方程(PDE)等多樣的科學領域。對GPT-4在科學任務上進行評估對於揭示其在各種研究領域的潛力、驗證其特定領域專業知識、加速科學進展、優化資源配置、引導未來模型發展以及促進跨學科研究至關重要。我們的探索方法主要包括專家驅動的案例評估,提供對模型對複雜科學概念和關係的理解的定性見解,以及偶爾的基準測試,定量評估模型解決明確領域特定問題的能力。我們的初步探索顯示,GPT-4展現出在各種科學應用中具有潛力,表現出處理複雜問題解決和知識整合任務的能力。廣義而言,我們評估了GPT-4的知識庫、科學理解、科學數值計算能力以及各種科學預測能力。
大型語言模型(LLMs)是在規模龐大的網絡語料庫上進行訓練的,這些語料庫不可避免地包含來自可靠性不同的來源的矛盾事實信息。本文提出了一種衡量LLM屬性的方法,稱為可信來源對齊(TSA):即模型在面對不確定性或爭議時與可信出版商製作的內容保持一致的傾向。我們提出了FactCheckQA,這是一個基於事實核查文章語料庫的TSA評估數據集。我們描述了一個簡單的評估TSA的協議,並提供了對設計考量的詳細分析,包括回應提取、主張情境化和提示形式中的偏見。將該協議應用於PaLM-2後,我們發現隨著模型大小的擴大,模型在FactCheckQA上的表現從接近隨機到最高可達80%的平衡準確度,與可信來源對齊。
條件圖形佈局生成,自動將用戶約束映射到高質量佈局,如今已引起廣泛關注。儘管最近的研究取得了令人期待的表現,但缺乏通用性和數據效率阻礙了它們的實際應用。在這項工作中,我們提出了LayoutPrompter,它利用大型語言模型(LLMs)通過上下文學習來解決上述問題。LayoutPrompter由三個關鍵組件組成,即輸入輸出序列化、動態示例選擇和佈局排名。具體而言,輸入輸出序列化組件精心設計了每個佈局生成任務的輸入和輸出格式。動態示例選擇負責為給定輸入選擇最有幫助的提示示例。佈局排名器用於從LLMs的多個輸出中選擇最高質量的佈局。我們使用四個公共數據集對所有現有的佈局生成任務進行實驗。儘管我們方法的簡單性,實驗結果表明,LayoutPrompter在這些任務上可以與甚至優於最先進的方法,而無需進行任何模型訓練或微調。這表明了這種通用且無需訓練的方法的有效性。此外,消融研究表明,在低數據情況下,LayoutPrompter明顯優於基於訓練的基線,進一步表明了LayoutPrompter的數據效率。我們的項目可在https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter找到。
大型語言模型(LLMs)如T0、FLAN和OPT-IML,在統一的指令遵循範式下擅長多任務處理,同時展現出對未知任務的卓越泛化能力。儘管它們表現出色,但這些LLMs的規模從數十億到數千億個參數不等,需要大量的計算資源,使得它們的訓練和推斷變得昂貴且低效。此外,將這些模型適應到下游應用,特別是複雜任務,通常由於微調所需的廣泛硬體要求而變得不可行,即使使用提示調整等參數節約方法。此外,像OPT-IML-175B和FLAN-PaLM-540B這樣最強大的多任務LLMs並不公開,嚴重限制了它們的定製潛力。為了應對這些挑戰,我們引入了一個預訓練的小型評分器Cappy,旨在增強多任務LLMs的性能和效率。Cappy僅具有3.6億個參數,在分類任務中可以獨立運作,也可以作為LLMs的輔助組件,提升它們的性能。此外,Cappy使得能夠有效整合下游監督,而無需進行LLM微調或訪問它們的參數。我們的實驗表明,當在來自PromptSource的11個語言理解任務上獨立工作時,Cappy的表現優於規模大幾個數量級的LLMs。此外,在BIG-Bench的45個複雜任務中,Cappy大幅提升了先進多任務LLM FLAN-T5的性能。此外,Cappy可以靈活配合其他LLM適應方法,包括微調和上下文學習,提供額外的性能增強。
在這項工作中,我們擴展了調整指令的 Llama-2 模型,具有端對端通用語音處理和推理能力,同時保持了 LLM 能力的廣泛範圍,而無需使用精心編輯的配對數據。所提出的模型可以利用音頻提示替代文本並維持對話。這種模型還具有擴展的跨模態能力,例如能夠執行語音問答、語音翻譯和音頻摘要等許多封閉和開放域任務。這與先前在語音方面的方法不同,先前的方法將 LLM 擴展到處理有限數量的預先指定任務的音頻。實驗表明,我們的端對端方法在建模對提示的回應方面與串聯系統(語音識別器 + LLM)不相上下,甚至表現更好。此外,與串聯系統不同,我們的方法展示了在對話中交換文本和音頻模態並利用先前上下文以獲得更好結果的能力。
我們介紹並研究對抗算術的問題,這為語言模型對齊提供了一個簡單但具有挑戰性的測試平臺。這個問題由以自然語言提出的算術問題組成,在問題完成前插入任意對抗性字符串。即使在單位數加法問題的簡單情境中,很容易找到使所有測試模型(包括PaLM2、GPT4、Claude2)表現不佳的對抗性提示,甚至將模型引導到特定錯誤答案。我們另外提供了一個簡單的算法,通過向這些模型查詢來找到成功的攻擊,我們將其命名為“提示反轉拒絕採樣”(PIRS)。最後,我們展示了通過強化學習和代理憲法循環可以使模型在一定程度上抵禦這些攻擊。然而,我們無法使語言模型完全抵禦對抗算術攻擊。