每日精選AI研究論文及翻譯
我們推出GAIA,一個專為通用人工智慧助理設計的基準測試框架。若能攻克此框架,將成為AI研究的重要里程碑。GAIA提出需要具備推理、多模態處理、網路瀏覽及通用工具使用能力等基礎技能的現實世界問題。這些問題對人類而言概念簡單,卻對多數先進AI系統構成挑戰:數據顯示人類受試者正確率達92%,而配備外掛程式的GPT-4僅有15%。這種顯著的性能差距與當前LLM在法律、化學等專業領域超越人類的趨勢形成鮮明對比。GAIA的設計理念有別於現行AI基準測試追求「人類愈發困難的任務」的趨勢,我們主張人工通用智慧(AGI)的實現關鍵,在於系統能否在處理此類問題時展現與普通人相當的穩健性。透過GAIA方法論,我們設計了466道問題及其答案,並公開所有題目,同時保留其中300題的標準答案以建立排行榜(詳見https://huggingface.co/gaia-benchmark)。
多媒體生成方法在人工智慧研究中佔據重要地位。文字轉圖像模型在過去幾年間已實現高品質成果,然而影片合成方法直至近期才開始蓬勃發展。本文提出一種基於文字轉圖像擴散模型的新型兩階段潛在擴散文字轉影片生成架構。第一階段專注於關鍵影格合成以構建影片敘事框架,第二階段則致力於插補影格生成以使場景與物體運動流暢自然。我們針對關鍵影格生成比較了多種時間條件設定方法,結果顯示在反映影片生成品質指標與人類偏好方面,採用獨立時間區塊的設計優於時間層級結構。與其他遮罩影格插值方法相比,我們的插補模型設計顯著降低了計算成本。此外,我們評估了基於MoVQ的影片解碼方案的不同配置,以提升連貫性並獲得更高的PSNR、SSIM、MSE和LPIPS評分。最終,我們將本流程與現有解決方案進行比較,在整體評比中取得第二名的成績,並在開源方案中位列第一:CLIPSIM=0.2976,FVD=433.054。專案頁面:https://ai-forever.github.io/kandinsky-video/
隨著VR裝置與內容的廣泛應用,對3D場景生成技術的需求日益增長。然而,現有的3D場景生成模型因採用與現實世界差距較大的3D掃描數據集進行訓練,導致其生成場景侷限於特定領域。為突破此限制,我們提出LucidDreamer——一種透過充分發揮現有大規模擴散生成模型優勢的無領域限制場景生成流程。該流程包含「夢境生成」與「對齊融合」兩個交替步驟:首先,為從輸入生成多視角一致圖像,我們將點雲設為每張圖像生成的幾何指引,具體是將部分點雲投影至目標視角,並以此投影作為生成模型進行修復繪製的引導。隨後將修復後的圖像與估計深度圖共同提升至3D空間,構建新點雲。其次,為將新點雲整合至3D場景,我們提出一種對齊算法,能協調融合新生成3D場景的各個部分。最終獲得的3D場景將作為高斯潑濺優化的初始點雲。相較於傳統3D場景生成方法,LucidDreamer無需限定目標場景領域,且能產生細節更豐富的高斯潑濺表示。
大型語言模型(LLM)通常採用基於人類比對資料的強化學習人類回饋(RLHF)方法進行微調,以使其更符合使用者偏好。與LLM相比,人類偏好學習在文字生成圖像的擴散模型中尚未被廣泛探索;現有最佳方法是使用精心篩選的高品質圖像及對應標題來微調預訓練模型,以提升視覺吸引力與文字對齊度。我們提出Diffusion-DPO方法,透過直接對人類比對資料進行最佳化,使擴散模型與人類偏好對齊。該方法改編自近期發展的直接偏好最佳化(DPO)技術——作為RLHF的更簡潔替代方案,DPO能直接基於分類目標最佳化最符合人類偏好的策略。我們重新推導DPO框架以適應擴散模型的機率特性,利用證據下界推導出可微分的目標函數。採用包含85.1萬組群眾外包兩兩偏好資料的Pick-a-Pic數據集,我們對最先進的Stable Diffusion XL(SDXL)-1.0基礎模型進行Diffusion-DPO微調。微調後的基礎模型在人工評估中顯著超越原始SDXL-1.0基礎模型及包含額外精煉模組的更大規模SDXL-1.0模型,有效提升視覺吸引力與提示詞對齊度。我們還開發了使用AI回饋的變體模型,其表現與基於人類偏好的訓練相當,為擴散模型對齊方法的規模化應用開闢了新途徑。
針對概念驅動個人化微調生成式模型的方法,通常在主題驅動或風格驅動的生成任務上能取得優異成果。近期提出的低秩自適應(LoRA)技術,成為實現概念驅動個人化的參數高效方案。雖然現有研究探索透過組合多個獨立LoRA模組來實現風格與主題的聯合生成,但現有技術尚無法穩定解決此問題,往往需在主題還原度或風格還原度之間做出妥協。我們提出ZipLoRA方法,能以低成本且高效的方式融合獨立訓練的風格與主題LoRA模組,從而實現任意使用者指定主題與風格的組合生成。透過對多樣化主題與風格組合的實驗驗證,ZipLoRA能在保持情境重構能力的同时,生成令人信服的結果,並在主題與風格還原度方面較基準方法實現顯著提升。專案頁面:https://ziplora.github.io
基於人類回饋的強化學習(RLHF)在微調擴散模型方面展現出顯著潛力。現有方法通常先訓練符合人類偏好的獎勵模型,再運用強化學習技術對基礎模型進行微調。然而,構建高效的獎勵模型需要大量數據集、最佳化架構與手動超參數調校,導致過程耗時且成本高昂。雖然直接偏好優化(DPO)方法在大型語言模型微調中表現卓越,能免除獎勵模型的需求,但擴散模型去噪過程對GPU記憶體的龐大需求阻礙了DPO的直接應用。為解決此問題,我們提出去噪擴散策略直接偏好優化(D3PO)方法,實現對擴散模型的直接微調。理論分析表明,儘管D3PO省略了獎勵模型訓練,其效果等同於利用人類回饋數據訓練出的最優獎勵模型來引導學習過程。此法無需訓練獎勵模型,更具直接性與成本效益,並能大幅降低計算負載。實驗中,本方法以目標函數的相對尺度作為人類偏好的代理指標,其效果可媲美使用真實獎勵的方法。此外,D3PO能有效降低影像失真率並生成更安全的影像,克服了缺乏穩健獎勵模型的挑戰。
大型語言模型中的上下文提示已成為提升零樣本能力的常用方法,但該思路在視覺領域的探索仍較少。現有視覺提示方法主要聚焦於指涉分割以標註最相關物件,卻難以應對開放式分割與檢測等多種通用視覺任務。本文提出一種適用於這兩類任務的通用視覺上下文提示框架:我們基於編碼器-解碼器架構,開發了支援筆劃、方框、點選等多樣化提示的靈活提示編碼器,並進一步使其能接納任意數量的參考圖像區塊作為上下文。大量實驗表明,所提出的視覺上下文提示能激發卓越的指涉與通用分割能力,在封閉式領域內數據集上達到具競爭力的表現,並在多個開放式分割數據集展現優異效果。通過聯合訓練COCO與SA-1B數據集,我們的模型在COCO上獲得57.7 PQ,在ADE20K上達到23.2 PQ。程式碼將發佈於https://github.com/UX-Decoder/DINOv。
將基於圖像的大型多模態模型擴展至影片領域極具挑戰性,這源於影片數據固有的複雜性。現有將圖像基礎LMM擴展到影片的方法存在兩大不足:部分模型缺乏實體定位能力(如VideoChat、Video-ChatGPT、Video-LLaMA),另一些則未利用音頻信號增強影片理解(如Video-ChatGPT)。為解決這些缺陷,我們提出首個具備像素級定位能力的大型多模態模型Video-LLaVA,通過將音頻線索轉錄為文本以豐富影片上下文理解。該框架採用現成追蹤器與創新定位模組,使其能根據用戶指令實現影片中物體的時空定位。我們使用影片生成與問答基準評估Video-LLaVA,並針對影片中基於提示的物體定位性能設計新基準。此外,我們主張採用Vicuna替代Video-ChatGPT使用的GPT-3.5進行影片對話基準測試,以解決GPT-3.5專有模型導致的結果不可復現問題。本框架基於現有最先進的圖像模型LLaVA,將其優勢延伸至影片領域,在影片對話與定位任務中展現出顯著提升。項目頁面:https://github.com/mbzuai-oryx/Video-LLaVA
這是一份關於基於擴散模型的360度全景圖像生成任務的技術報告。不同於普通的2D圖像,360度全景圖像捕捉整個360°×180°的視野。因此,360度全景圖像的最右側和最左側應當連續,這是該領域的主要挑戰。然而,目前的擴散管道並不適用於生成如此無縫的360度全景圖像。為此,我們提出了一種圓形混合策略,用於去噪和VAE解碼階段,以保持幾何連續性。基於此,我們提出了兩個模型,分別用於文本轉360度全景圖像和單圖像轉360度全景圖像任務。代碼已作為開源項目發布在以下網址: https://github.com/ArcherFMY/SD-T2I-360PanoImage 和 https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary