每日精選AI研究論文及翻譯
我們介紹了深度上採樣(DUS),這是一種新穎的技術,可以以簡單的方式高效且有效地提升基礎LLM。與專家混合(MoE)相比,DUS 不需要對訓練和推理進行複雜的更改。使用DUS,我們構建了SOLAR 10.7B,一個具有107億個參數的大型語言模型(LLM),在各種自然語言處理(NLP)任務中展現出優越性能。比較評估顯示,SOLAR 10.7B 優於現有的開源預訓練LLM,如Llama 2 和Mistral 7B。此外,我們還提出了SOLAR 10.7B-Instruct,這是一個經過微調以提升指示遵循能力的變體,勝過了Mixtral-8x7B。SOLAR 10.7B 在Apache 2.0 許可證下公開提供,促進了廣泛訪問和應用於LLM領域。
本文介紹了26條指導原則,旨在簡化查詢和提示大型語言模型的過程。我們的目標是簡化為各種規模的大型語言模型制定問題的基本概念,檢驗它們的能力,並增強用戶對不同規模的大型語言模型在不同提示下輸入時行為的理解。在LLaMA-1/2(7B、13B和70B)、GPT-3.5/4上進行了大量實驗,以驗證所提原則對指導和提示設計的有效性。我們希望這項工作為從事大型語言模型提示工作的研究人員提供更好的指導。項目頁面位於https://github.com/VILA-Lab/ATLAS。
隨著人工智慧代理和Metaverse的出現,對定制和富有表現力的3D角色的需求正在增長,然而使用傳統的電腦圖形工具創建3D角色是一項複雜且耗時的任務。為應對這些挑戰,我們提出了一個名為Make-A-Character(Mach)的用戶友好框架,用於從文本描述創建逼真的3D頭像。該框架利用大型語言和視覺模型的能力進行文本意圖理解和中間圖像生成,然後通過一系列以人為導向的視覺知覺和3D生成模塊。我們的系統為用戶提供了一種直觀的方法,使他們能夠在2分鐘內創建符合期望的可控、逼真且完整的3D角色,同時還能輕鬆與現有的CG管道進行動態表現的集成。欲獲得更多信息,請訪問項目頁面:https://human3daigc.github.io/MACH/。
基於參考的物件分割任務,即指涉圖像分割(RIS)、少樣本圖像分割(FSS)、指涉視頻物件分割(RVOS)和視頻物件分割(VOS),旨在通過利用語言或標註遮罩作為參考來分割特定物件。儘管各自領域取得了顯著進展,但目前的方法是針對特定任務設計和發展的,走向不同,這阻礙了這些任務的多任務能力的激活。在這項工作中,我們結束了目前的碎片化狀況,提出了UniRef++,以統一四個基於參考的物件分割任務,並使用單一架構。我們方法的核心是提出的UniFusion模塊,用於通過多路融合處理不同任務,根據它們指定的參考。然後採用統一的Transformer架構來實現實例級別的分割。通過統一的設計,UniRef++可以在廣泛的基準上進行聯合訓練,並可以通過指定相應的參考在運行時靈活完成多個任務。我們在各種基準上評估我們的統一模型。廣泛的實驗結果表明,我們提出的UniRef++在RIS和RVOS上實現了最先進的性能,在FSS和VOS上與共享參數網絡競爭性地表現。此外,我們展示了提出的UniFusion模塊可以輕鬆地融入當前先進的基礎模型SAM,並通過參數高效的微調獲得令人滿意的結果。代碼和模型可在https://github.com/FoundationVision/UniRef找到。
多模式大型語言模型(MLLMs)領域正在快速發展,處於人工智慧語言和視覺處理整合的前沿。本文提出了對兩個開拓性模型進行深入比較研究:Google的Gemini和OpenAI的GPT-4V(ision)。我們的研究涉及對兩個模型在視覺-語言能力、與人類互動、時間理解以及智力和情感商數等關鍵維度上的多方面評估。我們分析的核心探討了每個模型獨特的視覺理解能力。我們進行了一系列結構化實驗,評估它們在各種工業應用場景中的表現,提供了對它們實際效用的全面觀點。我們不僅進行直接性能比較,還包括在提示和情境中進行調整,以確保平衡和公正的分析。我們的研究結果闡明了兩個模型的獨特優勢和特色。GPT-4V以其精確和簡潔的回答脫穎而出,而Gemini在提供詳細、豐富答案的同時附帶相關圖像和鏈接方面表現出色。這些理解不僅揭示了Gemini和GPT-4V的比較優勢,還強調了多模式基礎模型不斷演進的格局,為該領域的未來發展鋪平道路。在比較後,我們試圖通過結合兩個模型來取得更好的結果。最後,我們要向GPT-4V和Gemini團隊對該領域的開拓性貢獻表示深深的感謝。我們還要感謝楊等人在《黎明》中提出的全面定性分析,該工作通過其豐富的圖像樣本、提示和GPT-4V相關結果為我們的分析提供了基礎。
音頻是我們生活中不可或缺的一部分,但創建音頻通常需要專業知識並且耗時。在過去一年中,研究社區在推動大規模音頻生成模型的性能方面取得了巨大進展,透過採用更強大的生成模型和擴展數據。然而,這些模型在幾個方面缺乏可控性:語音生成模型無法根據文本描述合成新的風格,並且在領域覆蓋範圍上存在限制,例如戶外環境;聲音生成模型僅基於描述提供粗粒度控制,如“一個人在說話”,並且只會生成含糊不清的人聲。本文提出了Audiobox,一個基於流匹配的統一模型,能夠生成各種音頻模態。我們設計了基於描述和基於示例的提示來增強可控性,並統一語音和聲音生成範式。在生成語音時,我們允許獨立控制文本記錄、聲音和其他音頻風格。為了在有限標籤下改進模型泛化能力,我們採用了自監督填充目標,在大量未標記音頻上進行預訓練。Audiobox在語音和聲音生成方面設定了新的基準(在Librispeech上零-shot TTS達到0.745相似度;在AudioCaps上文本轉聲音達到0.77 FAD),並開啟了生成具有新的聲音和聲學風格的音頻的新方法。我們進一步集成了Bespoke Solvers,相較於流匹配的默認ODE求解器,可以將生成速度提高超過25倍,而在多項任務上性能無損。我們的演示可在https://audiobox.metademolab.com/ 上找到。
人類生活在一個三維世界中,通常使用自然語言來與三維場景進行互動。最近,建模三維語言場以支持在三維空間中進行開放式語言查詢已經引起了越來越多的關注。本文介紹了LangSplat,它構建了一個三維語言場,可以在三維空間內實現精確且高效的開放詞彙查詢。與將CLIP語言嵌入基於NeRF模型的現有方法不同,LangSplat通過利用一系列三維高斯函數,每個函數編碼自CLIP中提煉出的語言特徵,來表示語言場,從而推進了這一領域。通過採用基於瓦片的splatting技術來渲染語言特徵,我們避免了NeRF中固有的昂貴渲染過程。LangSplat不是直接學習CLIP嵌入,而是首先訓練一個基於場景的語言自編碼器,然後在特定於場景的潛在空間上學習語言特徵,從而減輕了明確建模所帶來的大量內存需求。現有方法在不精確和模糊的三維語言場方面存在問題,無法明確區分物體之間的清晰邊界。我們深入探討了這個問題,並建議使用SAM來學習分層語義,從而消除了在各種尺度上廣泛查詢語言場和DINO特徵的規範化的需要。對開放詞彙三維物體定位和語義分割的大量實驗表明,LangSplat在很大程度上優於之前的最先進方法LERF。值得注意的是,LangSplat非常高效,在1440乘以1080的分辨率下實現了{\speed}倍的加速,比LERF快得多。我們強烈建議讀者查看我們的視頻結果,網址為https://langsplat.github.io。
在過去一年中,基於擴散的文本到視頻生成取得了令人矚目的進展,但仍落後於文本到圖像生成。其中一個關鍵原因是公開可用數據規模有限(例如,在WebVid10M中有10M個視頻文本對,而在LAION中有50億個圖像文本對),考慮到視頻字幕的高成本。相反,從YouTube等視頻平台收集未標記的片段可能更容易。受此激勵,我們提出了一種新穎的文本到視頻生成框架,稱為TF-T2V,可以直接從無文本的視頻中學習。其背後的原理是將文本解碼過程與時間建模過程分開。為此,我們採用了一個內容分支和一個運動分支,並通過共享權重進行聯合優化。按照這樣的流程,我們研究了通過將訓練集規模加倍(即僅包含視頻的WebVid10M)並加入一些隨機收集的無文本視頻的效果,並樂於觀察到性能的提升(FID從9.67降至8.19,FVD從484降至441),展示了我們方法的可擴展性。我們還發現,在重新引入一些文本標籤進行訓練後,我們的模型可以獲得可持續的性能提升(FID從8.19降至7.64,FVD從441降至366)。最後,我們驗證了我們的理念在本地文本到視頻生成和組合視頻合成範式上的有效性和泛化能力。代碼和模型將在https://tf-t2v.github.io/ 上公開提供。
最近在單張圖像3D生成方面取得的進展凸顯了多視角一致性的重要性,利用在互聯網規模圖像上預訓練的大規模擴散模型中的3D先驗。然而,在研究領域中,對於新視角多樣性的方面仍未得到充分探索,這是由於將2D圖像轉換為3D內容時存在的模糊性,可能出現眾多潛在形狀。在這裡,我們旨在通過同時解決一致性和多樣性來填補這一研究空白。然而,在這兩個方面之間取得平衡面臨著相當大的挑戰,因為它們固有地存在著權衡。本研究介紹了HarmonyView,這是一種簡單而有效的擴散採樣技術,擅長分解單張圖像3D生成中的兩個復雜方面:一致性和多樣性。這種方法為在採樣過程中更細緻地探索這兩個關鍵維度打開了一扇大門。此外,我們提出了一種基於CLIP圖像和文本編碼器的新評估指標,以全面評估生成視角的多樣性,這與人類評估者的判斷密切相符。在實驗中,HarmonyView實現了一種和諧的平衡,在一致性和多樣性方面展現出雙贏的情景。
商業和開源擴散模型(DMs)在文本到圖像生成中的普遍應用促使風險管理以防止不良行為。學術界現有的概念擦除方法都基於完整參數或基於規範的微調,我們觀察到以下問題:1)生成變化朝向侵蝕:目標消除期間的參數漂移導致變化和潛在變形跨越所有生成,甚至在多概念消除時更明顯地侵蝕其他概念;2)轉移能力不足和部署效率低:先前的模型特定擦除阻礙了概念的靈活組合和向其他模型的無需訓練轉移,導致隨著部署場景增加成本呈線性增長。為實現非侵入性、精確、可定制和可轉移的擦除,我們將我們的擦除框架基於一維適配器,一次從大多數DMs中擦除多個概念,適用於多種擦除應用。將概念半透膜結構注入為膜(SPM)到任何DM中以學習有針對性的擦除,同時通過新穎的潛在錨定微調策略有效地緩解變化和侵蝕現象。一旦獲得,SPMs可以靈活組合並即插即用於其他DMs,無需特定的重新調整,實現對各種情景的及時和高效適應。在生成過程中,我們的促進傳輸機制動態調節每個SPM的滲透性以應對不同的輸入提示,進一步減少對其他概念的影響。在約40個概念、7個DM和4個擦除應用中的定量和定性結果已經證明了SPM的優越擦除效果。我們的代碼和預調整的SPMs將在項目頁面https://lyumengyao.github.io/projects/spm 上提供。
大型語言模型(LLMs)通過提示工程展現出新興的上下文學習能力。大規模生成模型的最新進展進一步擴展了它們在現實世界語言應用中的使用。然而,在自然語言理解和問答方面,提高LLMs的泛化能力和事實性仍然是一個尚未深入探討的關鍵挑戰。儘管先前的上下文學習研究集中於增強模型以符合用戶的具體指示和質量期望,並避免不需要的輸出,但幾乎沒有工作探討在推論階段使用任務特定微調語言模型(SLMs)來改善LLMs的上下文學習。我們的主要貢獻在於建立一個簡單而有效的框架,增強LLMs的可靠性,因為它:1)泛化超出分布數據,2)闡明LLMs如何從區分模型中受益,以及3)在生成任務中最小化幻覺。通過我們提出的插件方法,Llama 2和ChatGPT的增強版本在泛化能力和事實性方面超越了它們的原始版本。我們提供了一套全面的資源,包括16個精心策劃的數據集、提示、模型檢查點以及涵蓋9個不同任務的LLM輸出。我們的實證分析闡明了將區分模型納入LLMs的優勢,並突顯了我們方法在促進更可靠的LLMs方面的潛力。
從單視角視頻重建人體在虛擬現實領域中發揮著關鍵作用。一個普遍的應用場景需要快速重建高保真度的3D數字人類,同時確保實時渲染和交互。現有方法往往難以滿足這兩個要求。本文介紹了Human101,一個新穎的框架,能夠從單視角視頻中訓練3D高斯模型並在100秒內進行渲染,達到100+ FPS。我們的方法利用3D高斯飛濺的優勢,提供了對3D人體的明確且高效的表示。Human101與先前基於NeRF的流程有所不同,巧妙地應用了以人為中心的前向高斯動畫方法來變形3D高斯模型的參數,從而提高渲染速度(即以令人印象深刻的60+ FPS渲染1024分辨率圖像,以及以100+ FPS渲染512分辨率圖像)。實驗結果表明,我們的方法顯著超越了當前方法,每秒幀數增加了多達10倍,並提供可比擬或更優質的渲染質量。代碼和演示將在https://github.com/longxiang-ai/Human101 上發布。