每日精選AI研究論文及翻譯
我們介紹了深度上採樣(DUS),這是一種新穎的技術,可以以簡單的方式高效且有效地提升基礎LLM。與專家混合(MoE)相比,DUS 不需要對訓練和推理進行複雜的更改。使用DUS,我們構建了SOLAR 10.7B,一個具有107億個參數的大型語言模型(LLM),在各種自然語言處理(NLP)任務中展現出優越性能。比較評估顯示,SOLAR 10.7B 優於現有的開源預訓練LLM,如Llama 2 和Mistral 7B。此外,我們還提出了SOLAR 10.7B-Instruct,這是一個經過微調以提升指示遵循能力的變體,勝過了Mixtral-8x7B。SOLAR 10.7B 在Apache 2.0 許可證下公開提供,促進了廣泛訪問和應用於LLM領域。
本文介紹了26條指導原則,旨在簡化查詢和提示大型語言模型的過程。我們的目標是簡化為各種規模的大型語言模型制定問題的基本概念,檢驗它們的能力,並增強用戶對不同規模的大型語言模型在不同提示下輸入時行為的理解。在LLaMA-1/2(7B、13B和70B)、GPT-3.5/4上進行了大量實驗,以驗證所提原則對指導和提示設計的有效性。我們希望這項工作為從事大型語言模型提示工作的研究人員提供更好的指導。項目頁面位於https://github.com/VILA-Lab/ATLAS。
隨著AI智慧體與元宇宙的興起,市場對個性化、高表現力3D角色的需求日益增長,但使用傳統電腦圖形工具創建3D角色仍是複雜且耗時的任務。為解決這些難題,我們提出名為Make-A-Character(簡稱Mach)的用戶友好框架,可透過文字描述生成逼真的3D虛擬形象。該框架運用大型語言與視覺模型實現文本意圖理解與中間影像生成,並結合一系列以人為本的視覺感知與3D生成模組。我們的系統讓用戶能於2分鐘內直觀地創建出符合預期、可控且真實的完整3D角色,同時可無縫對接現有CG流程以實現動態表情表現。更多詳情請訪問項目頁面:https://human3daigc.github.io/MACH/。
基於參考的物件分割任務,包括參考影像分割(RIS)、少樣本影像分割(FSS)、參考影片物件分割(RVOS)及影片物件分割(VOS),旨在透過語言或標註遮罩作為參考來分割特定物件。儘管各領域已取得顯著進展,現有方法仍針對特定任務獨立設計與發展,阻礙了這些任務在多任務能力上的協同發展。本研究終結當前碎片化局面,提出UniRef++以單一架構統一四種基於參考的物件分割任務。我們方法的核心是提出的UniFusion模組,該模組能執行多路徑融合以處理不同任務對應的特定參考。隨後採用統一的Transformer架構實現實例級分割。透過統一設計,UniRef++可在廣泛基準上進行聯合訓練,並能在運行時透過指定對應參考靈活完成多項任務。我們在多種基準上評估統一模型,大量實驗結果表明:UniRef++在RIS和RVOS任務上達到最先進性能,並以參數共享網絡在FSS和VOS任務上展現競爭力。此外,我們驗證了所提UniFusion模組可輕鬆整合至當前先進基礎模型SAM中,透過參數高效微調即可獲得令人滿意的結果。程式碼與模型已開源於:https://github.com/FoundationVision/UniRef。
多模式大型語言模型(MLLMs)領域正在快速發展,處於人工智慧語言和視覺處理整合的前沿。本文提出了對兩個開拓性模型進行深入比較研究:Google的Gemini和OpenAI的GPT-4V(ision)。我們的研究涉及對兩個模型在視覺-語言能力、與人類互動、時間理解以及智力和情感商數等關鍵維度上的多方面評估。我們分析的核心探討了每個模型獨特的視覺理解能力。我們進行了一系列結構化實驗,評估它們在各種工業應用場景中的表現,提供了對它們實際效用的全面觀點。我們不僅進行直接性能比較,還包括在提示和情境中進行調整,以確保平衡和公正的分析。我們的研究結果闡明了兩個模型的獨特優勢和特色。GPT-4V以其精確和簡潔的回答脫穎而出,而Gemini在提供詳細、豐富答案的同時附帶相關圖像和鏈接方面表現出色。這些理解不僅揭示了Gemini和GPT-4V的比較優勢,還強調了多模式基礎模型不斷演進的格局,為該領域的未來發展鋪平道路。在比較後,我們試圖通過結合兩個模型來取得更好的結果。最後,我們要向GPT-4V和Gemini團隊對該領域的開拓性貢獻表示深深的感謝。我們還要感謝楊等人在《黎明》中提出的全面定性分析,該工作通過其豐富的圖像樣本、提示和GPT-4V相關結果為我們的分析提供了基礎。
音頻是我們生活中不可或缺的一部分,但創建音頻通常需要專業知識並且耗時。在過去一年中,研究社區在推動大規模音頻生成模型的性能方面取得了巨大進展,透過採用更強大的生成模型和擴展數據。然而,這些模型在幾個方面缺乏可控性:語音生成模型無法根據文本描述合成新的風格,並且在領域覆蓋範圍上存在限制,例如戶外環境;聲音生成模型僅基於描述提供粗粒度控制,如“一個人在說話”,並且只會生成含糊不清的人聲。本文提出了Audiobox,一個基於流匹配的統一模型,能夠生成各種音頻模態。我們設計了基於描述和基於示例的提示來增強可控性,並統一語音和聲音生成範式。在生成語音時,我們允許獨立控制文本記錄、聲音和其他音頻風格。為了在有限標籤下改進模型泛化能力,我們採用了自監督填充目標,在大量未標記音頻上進行預訓練。Audiobox在語音和聲音生成方面設定了新的基準(在Librispeech上零-shot TTS達到0.745相似度;在AudioCaps上文本轉聲音達到0.77 FAD),並開啟了生成具有新的聲音和聲學風格的音頻的新方法。我們進一步集成了Bespoke Solvers,相較於流匹配的默認ODE求解器,可以將生成速度提高超過25倍,而在多項任務上性能無損。我們的演示可在https://audiobox.metademolab.com/ 上找到。
人類生活在一個三維世界中,通常使用自然語言來與三維場景進行互動。最近,建模三維語言場以支持在三維空間中進行開放式語言查詢已經引起了越來越多的關注。本文介紹了LangSplat,它構建了一個三維語言場,可以在三維空間內實現精確且高效的開放詞彙查詢。與將CLIP語言嵌入基於NeRF模型的現有方法不同,LangSplat通過利用一系列三維高斯函數,每個函數編碼自CLIP中提煉出的語言特徵,來表示語言場,從而推進了這一領域。通過採用基於瓦片的splatting技術來渲染語言特徵,我們避免了NeRF中固有的昂貴渲染過程。LangSplat不是直接學習CLIP嵌入,而是首先訓練一個基於場景的語言自編碼器,然後在特定於場景的潛在空間上學習語言特徵,從而減輕了明確建模所帶來的大量內存需求。現有方法在不精確和模糊的三維語言場方面存在問題,無法明確區分物體之間的清晰邊界。我們深入探討了這個問題,並建議使用SAM來學習分層語義,從而消除了在各種尺度上廣泛查詢語言場和DINO特徵的規範化的需要。對開放詞彙三維物體定位和語義分割的大量實驗表明,LangSplat在很大程度上優於之前的最先進方法LERF。值得注意的是,LangSplat非常高效,在1440乘以1080的分辨率下實現了{\speed}倍的加速,比LERF快得多。我們強烈建議讀者查看我們的視頻結果,網址為https://langsplat.github.io。
在過去一年中,基於擴散的文本到視頻生成取得了令人矚目的進展,但仍落後於文本到圖像生成。其中一個關鍵原因是公開可用數據規模有限(例如,在WebVid10M中有10M個視頻文本對,而在LAION中有50億個圖像文本對),考慮到視頻字幕的高成本。相反,從YouTube等視頻平台收集未標記的片段可能更容易。受此激勵,我們提出了一種新穎的文本到視頻生成框架,稱為TF-T2V,可以直接從無文本的視頻中學習。其背後的原理是將文本解碼過程與時間建模過程分開。為此,我們採用了一個內容分支和一個運動分支,並通過共享權重進行聯合優化。按照這樣的流程,我們研究了通過將訓練集規模加倍(即僅包含視頻的WebVid10M)並加入一些隨機收集的無文本視頻的效果,並樂於觀察到性能的提升(FID從9.67降至8.19,FVD從484降至441),展示了我們方法的可擴展性。我們還發現,在重新引入一些文本標籤進行訓練後,我們的模型可以獲得可持續的性能提升(FID從8.19降至7.64,FVD從441降至366)。最後,我們驗證了我們的理念在本地文本到視頻生成和組合視頻合成範式上的有效性和泛化能力。代碼和模型將在https://tf-t2v.github.io/ 上公開提供。
最近在單張圖像3D生成方面取得的進展凸顯了多視角一致性的重要性,利用在互聯網規模圖像上預訓練的大規模擴散模型中的3D先驗。然而,在研究領域中,對於新視角多樣性的方面仍未得到充分探索,這是由於將2D圖像轉換為3D內容時存在的模糊性,可能出現眾多潛在形狀。在這裡,我們旨在通過同時解決一致性和多樣性來填補這一研究空白。然而,在這兩個方面之間取得平衡面臨著相當大的挑戰,因為它們固有地存在著權衡。本研究介紹了HarmonyView,這是一種簡單而有效的擴散採樣技術,擅長分解單張圖像3D生成中的兩個復雜方面:一致性和多樣性。這種方法為在採樣過程中更細緻地探索這兩個關鍵維度打開了一扇大門。此外,我們提出了一種基於CLIP圖像和文本編碼器的新評估指標,以全面評估生成視角的多樣性,這與人類評估者的判斷密切相符。在實驗中,HarmonyView實現了一種和諧的平衡,在一致性和多樣性方面展現出雙贏的情景。
當前商業及開源擴散模型在文本到圖像生成領域的廣泛應用,促使我們需要採取風險緩解措施來防止不良行為。學術界現有的概念抹除方法均基於全參數或特定規格的微調,我們從中觀察到以下問題:1)生成結果的侵蝕性異變:目標消除過程中的參數漂移會導致所有生成內容發生變異甚至畸變,並不同程度地侵蝕其他概念,這一現象在多概念抹除時更為明顯;2)遷移失效與部署低效:既往的模型專用抹除方式阻礙了概念的靈活組合與免訓練跨模型遷移,導致部署場景增加時成本呈線性增長。為實現非侵入式、精準可定製且可遷移的抹除效果,我們基於一維適配器構建抹除框架,能夠一次性從多數擴散模型中抹除多個概念,適用於各類抹除應用場景。通過將概念半透性結構作為薄膜注入任意擴散模型,使其學習目標抹除任務,同時採用新穎的潛空間錨定微調策略有效緩解異變與侵蝕現象。一旦訓練完成,SPM薄膜可靈活組合並即插即用於其他擴散模型,無需針對性重新調優,從而實現對多樣化場景的及時高效適配。在生成過程中,我們的促進傳輸機制會動態調控每個SPM薄膜的滲透性以響應不同輸入提示,進一步最小化對其他概念的影響。在約40個概念、7種擴散模型及4類抹除應用中進行的定量與定性實驗,均證實了SPM薄膜的卓越抹除能力。我們的代碼與預訓練SPM薄膜將在項目頁面https://lyumengyao.github.io/projects/spm公開。
基於單視角影片的人體重建技術在虛擬實境領域具有關鍵作用。當前主流應用場景要求既能快速重建高擬真度3D數字人體,又能同步實現即時渲染與互動。現有方法往往難以同時滿足這兩項需求。本文提出Human101創新框架,該框架能從單視角影片中生成高擬真度動態3D人體重建效果,僅需100秒即可完成3D高斯模型訓練,並實現100+ FPS的渲染效能。我們的方法充分發揮3D高斯潑濺技術優勢,該技術能為3D人體提供顯式且高效的表示。有別於先前基於神經輻射場的流程,Human101創新性地採用以人體為導向的前向高斯動畫方法,通過變形3D高斯參數實現渲染速度的顯著提升(即在1024解析度下達到60+ FPS,512解析度下實現100+ FPS)。實驗結果表明,本方法在渲染幀率上較現有技術提升達10倍,同時呈現出相當或更優的渲染品質。程式碼與演示內容將發佈於https://github.com/longxiang-ai/Human101。
大型語言模型(LLMs)通過提示工程展現出新興的上下文學習能力。大規模生成模型的最新進展進一步擴展了它們在現實世界語言應用中的使用。然而,在自然語言理解和問答方面,提高LLMs的泛化能力和事實性仍然是一個尚未深入探討的關鍵挑戰。儘管先前的上下文學習研究集中於增強模型以符合用戶的具體指示和質量期望,並避免不需要的輸出,但幾乎沒有工作探討在推論階段使用任務特定微調語言模型(SLMs)來改善LLMs的上下文學習。我們的主要貢獻在於建立一個簡單而有效的框架,增強LLMs的可靠性,因為它:1)泛化超出分布數據,2)闡明LLMs如何從區分模型中受益,以及3)在生成任務中最小化幻覺。通過我們提出的插件方法,Llama 2和ChatGPT的增強版本在泛化能力和事實性方面超越了它們的原始版本。我們提供了一套全面的資源,包括16個精心策劃的數據集、提示、模型檢查點以及涵蓋9個不同任務的LLM輸出。我們的實證分析闡明了將區分模型納入LLMs的優勢,並突顯了我們方法在促進更可靠的LLMs方面的潛力。