每日精選AI研究論文及翻譯
我們介紹了 GAIA,這是一個用於智能通用助理的基準,如果解決了這個問題,將代表人工智慧研究的一個里程碑。GAIA提出了需要一系列基本能力的現實世界問題,如推理、多模態處理、網頁瀏覽和通常的工具使用能力。對於人類來說,GAIA的問題在概念上很簡單,但對大多數先進的人工智慧來說具有挑戰性:我們展示人類回答者獲得了92%,而裝備了插件的GPT-4只有15%。這種顯著的表現差異與最近LLM在需要專業技能的任務上超越人類的趨勢形成對比,例如在法律或化學領域。GAIA的理念與當前人工智慧基準的趨勢不同,建議專注於對人類來說更加困難的任務。我們認為人工通用智能(AGI)的來臨取決於系統展示出對這類問題與普通人一樣的堅韌性。使用GAIA的方法,我們設計了466個問題及其答案。我們釋出了這些問題,同時保留了其中300個問題的答案,以便支持一個排行榜,該排行榜可在https://huggingface.co/gaia-benchmark 上找到。
多媒體生成方法在人工智慧研究中佔據重要地位。在過去幾年中,文本到圖像模型取得了高質量的結果。然而,最近開始發展了視頻合成方法。本文提出了一種基於文本到圖像擴散模型的新的兩階段潛在擴散文本到視頻生成架構。第一階段涉及關鍵幀的合成,以描繪視頻的故事情節,而第二階段則專注於插值幀的生成,以使場景和物體的運動平滑。我們比較了幾種用於關鍵幀生成的時間條件方法。結果顯示,在反映視頻生成質量方面的指標和人類偏好方面,使用獨立的時間塊優於時間層的優勢。我們的插值模型設計顯著降低了計算成本,相較於其他遮罩幀插值方法。此外,我們評估了基於MoVQ的視頻解碼方案的不同配置,以提高一致性,實現更高的PSNR、SSIM、MSE和LPIPS分數。最後,我們將我們的流程與現有解決方案進行比較,獲得了整體前兩名的分數,並在開源解決方案中排名第一:CLIPSIM = 0.2976,FVD = 433.054。項目頁面:https://ai-forever.github.io/kandinsky-video/
隨著虛擬實境設備和內容的廣泛應用,對於3D場景生成技術的需求變得更加普遍。然而,現有的3D場景生成模型限制了目標場景的特定領域,主要是由於它們使用與現實世界相去甚遠的3D掃描數據集進行訓練策略。為了解決這一限制,我們提出了LucidDreamer,這是一個無域場景生成流程,充分利用現有大規模擴散式生成模型的強大功能。我們的LucidDreamer包含兩個交替步驟:夢境和對齊。首先,為了從輸入生成多視角一致的圖像,我們將點雲設置為每個圖像生成的幾何指南。具體來說,我們將點雲的一部分投影到所需的視角,並將該投影作為生成模型進行修補時的指導。修補後的圖像通過估計的深度圖提升到3D空間,形成新的點。其次,為了將新的點聚合到3D場景中,我們提出了一種對齊算法,將新生成的3D場景部分和諧地整合在一起。最終獲得的3D場景作為優化高斯斑點的初始點。與先前的3D場景生成方法相比,LucidDreamer生成的高斯斑點更加細緻,並且不限制目標場景的領域。
大型語言模型(LLMs)通常使用人類比較數據進行微調,並利用人類反饋強化學習(RLHF)方法,以使其更符合用戶偏好。與LLMs相反,在文本到圖像擴散模型中,人類偏好學習尚未被廣泛探索;目前最佳方法是使用精心策劃的高質量圖像和標題對預訓練模型進行微調,以提高視覺吸引力和文本對齊性。我們提出了Diffusion-DPO,一種通過直接優化人類比較數據來使擴散模型與人類偏好一致的方法。Diffusion-DPO是從最近開發的直接偏好優化(DPO)中改編而來,DPO是RLHF的一種簡單替代方案,直接優化最符合人類偏好的策略,以滿足分類目標。我們重新制定了DPO,以考慮擴散模型的可能性概念,利用證據下界來推導出可微分的目標。通過使用851K個眾包成對偏好的Pick-a-Pic數據集,我們使用Diffusion-DPO對最先進的Stable Diffusion XL(SDXL)-1.0模型的基本模型進行微調。我們微調的基本模型在人類評估中明顯優於基本SDXL-1.0模型和包含額外改進模型的更大SDXL-1.0模型,提高了視覺吸引力和提示對齊性。我們還開發了一種使用AI反饋的變體,其性能與基於人類偏好訓練相當,為擴散模型對齊方法的擴展打開了大門。
針對以概念驅動的個性化進行微調生成模型的方法,通常能夠取得對於以主題或風格驅動的生成具有強大效果。最近,低秩適應(LoRA)被提出作為實現以概念驅動的個性化的一種參數高效方式。儘管最近的研究探討了結合獨立LoRA以實現學習風格和主題的聯合生成,現有技術並未可靠地解決問題;它們往往會在主題忠實度或風格忠實度之間進行折衷。我們提出了ZipLoRA,一種方法,可以便宜且有效地合併獨立訓練的風格和主題LoRA,以實現在任何用戶提供的風格中生成任何用戶提供的主題。對於廣泛範圍的主題和風格組合進行的實驗顯示,ZipLoRA能夠生成引人入勝的結果,並在主題和風格忠實度方面顯示出有意義的改進,同時保留了重新語境化的能力。專案頁面:https://ziplora.github.io
利用強化學習與人類反饋(RLHF)在微調擴散模型方面展現了顯著的潛力。先前的方法通常開始通過訓練一個與人類偏好一致的獎勵模型,然後利用強化學習技術來微調基礎模型。然而,製作一個高效的獎勵模型需要大量數據集、最佳架構和手動超參數調整,使得這個過程既耗時又昂貴。直接偏好優化(DPO)方法,在微調大型語言模型方面效果顯著,消除了對獎勵模型的需求。然而,擴散模型去噪過程對龐大的GPU內存需求阻礙了DPO方法的直接應用。為了解決這個問題,我們提出了直接偏好去噪擴散策略優化(D3PO)方法,以直接微調擴散模型。理論分析表明,儘管D3PO省略了訓練獎勵模型的步驟,但它實際上作為使用人類反饋數據訓練的最佳獎勵模型,引導學習過程。這種方法無需訓練獎勵模型,證明更直接、具有成本效益,並將計算開銷最小化。在實驗中,我們的方法使用目標的相對規模作為人類偏好的代理,提供了與使用真實獎勵的方法相當的結果。此外,D3PO展示了降低圖像失真率並生成更安全圖像的能力,克服了缺乏強健獎勵模型的挑戰。
在大型語言模型(LLMs)中的上下文提示已成為改善零-shot能力的普遍方法,但這個想法在視覺領域中探索較少。現有的視覺提示方法專注於參考分割以分割最相關的物體,但無法應對許多通用視覺任務,如開放集分割和檢測。在本文中,我們為這兩個任務引入了一個通用的視覺上下文提示框架。具體來說,我們在編碼器-解碼器架構的基礎上進行構建,並開發了一個多功能提示編碼器,以支持各種提示,如筆劃、框和點。我們進一步增強它,以接受任意數量的參考圖像片段作為上下文。我們的廣泛探索表明,所提出的視覺上下文提示引出了非凡的參考和通用分割能力,用於參考和檢測,產生了與閉集內域數據集相競爭的性能,並在許多開放集分割數據集上顯示出有希望的結果。通過在COCO和SA-1B上進行聯合訓練,我們的模型在COCO上實現了57.7 PQ,在ADE20K上實現了23.2 PQ。代碼將在https://github.com/UX-Decoder/DINOv 上提供。
將基於影像的大型多模型(LMM)擴展至視頻是具有挑戰性的,這是由於視頻數據的固有複雜性。最近將基於影像的LMM擴展至視頻的方法,要麼缺乏基礎能力(例如VideoChat、Video-ChatGPT、Video-LLaMA),要麼未利用音訊信號以提高對視頻的理解能力(例如Video-ChatGPT)。為解決這些問題,我們提出了Video-LLaVA,這是第一個具有像素級基礎能力的LMM,通過將音訊提示轉錄為文本以豐富視頻上下文理解。我們的框架使用現成的追踪器和一個新穎的基礎模組,使其能夠根據用戶指令在視頻中空間和時間地定位物體。我們使用基於視頻的生成和問答基準來評估Video-LLaVA,並引入了新的基準,專門設計來衡量基於提示的視頻物體基礎性能。此外,我們提出在基於視頻的對話基準測試中使用Vicuna取代Video-ChatGPT中使用的GPT-3.5,以確保結果的可重現性,這是由於GPT-3.5的專有性質而引起的擔憂。我們的框架基於最先進的基於影像的LLaVA模型,將其優勢擴展到視頻領域,為基於視頻的對話和基礎性任務帶來了顯著的收益。專案頁面:https://github.com/mbzuai-oryx/Video-LLaVA
這是一份關於基於擴散模型的360度全景圖像生成任務的技術報告。不同於普通的2D圖像,360度全景圖像捕捉整個360°×180°的視野。因此,360度全景圖像的最右側和最左側應當連續,這是該領域的主要挑戰。然而,目前的擴散管道並不適用於生成如此無縫的360度全景圖像。為此,我們提出了一種圓形混合策略,用於去噪和VAE解碼階段,以保持幾何連續性。基於此,我們提出了兩個模型,分別用於文本轉360度全景圖像和單圖像轉360度全景圖像任務。代碼已作為開源項目發布在以下網址: https://github.com/ArcherFMY/SD-T2I-360PanoImage 和 https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary