每日精選AI研究論文及翻譯
Segment Anything Model(SAM)已被確立為一個強大的零樣本圖像分割模型,利用互動提示,如點來生成遮罩。本文提出SAM-PT,一種擴展SAM能力以追踪和分割動態視頻中任何物體的方法。SAM-PT利用強大且稀疏的點選擇和傳播技術進行遮罩生成,展示了基於SAM的分割追踪器可以在流行的視頻對象分割基準上取得強大的零樣本性能,包括DAVIS、YouTube-VOS和MOSE。與傳統的以對象為中心的遮罩傳播策略相比,我們獨特地使用點傳播來利用與對象語義無關的局部結構信息。我們通過直接在零樣本開放世界未識別視頻對象(UVO)基準上進行評估,突出了基於點的追踪的優點。為了進一步增強我們的方法,我們利用K-Medoids聚類進行點初始化,並跟踪正負點以清晰區分目標對象。我們還採用多次遮罩解碼過程進行遮罩精煉,並設計了點重新初始化策略以提高追踪準確性。我們的代碼集成了不同的點追踪器和視頻分割基準,將在https://github.com/SysCV/sam-pt 上發布。
最近大規模文本引導擴散模型提供了強大的圖像生成能力。目前,人們正在大力努力實現通過僅使用文本來修改這些圖像,以提供直觀且多功能的編輯。然而,由於編輯技術的固有特性,涉及保留原始圖像中某些內容,對這些生成模型來說編輯證明是困難的。相反,在基於文本的模型中,即使對文本提示進行輕微修改,也經常導致完全不同的結果,這使得準確符合用戶意圖的一次性生成變得極具挑戰性。此外,要使用這些最先進工具來編輯真實圖像,必須首先將圖像反轉為預先訓練模型的領域 - 這增加了影響編輯質量以及延遲的另一因素。在這份探索性報告中,我們提出了LEDITS - 一種結合輕量級方法進行真實圖像編輯,將Edit Friendly DDPM反轉技術與語義引導相結合,從而將語義引導擴展到真實圖像編輯,同時利用DDPM反轉的編輯能力。這種方法實現了多功能編輯,包括微妙和廣泛的修改,以及構圖和風格的變化,而無需對架構進行優化或擴展。
生成式人工智慧在電腦視覺領域取得了重大進展,特別是在依賴於文字描述進行影像/影片合成方面。儘管有所進步,但在生成以人為中心的內容,如舞蹈合成方面仍然具有挑戰性。現有的舞蹈合成方法在合成內容與現實舞蹈場景之間存在困難。本文中,我們定義了一個新的問題設定:指代人類舞蹈生成,專注於具有三個重要特性的現實舞蹈場景:(i)忠實度:合成應保留參考圖像中的人物主體前景和背景的外觀,並準確遵循目標姿勢;(ii)泛化能力:模型應能泛化到未見過的人物主體、背景和姿勢;(iii)組合性:應允許從不同來源的已見/未見主體、背景和姿勢進行組合。為應對這些挑戰,我們提出了一種新方法,名為DISCO,其中包括一種新型模型架構,具有解耦控制以改善舞蹈合成的忠實度和組合性,以及一種有效的人類屬性預訓練,以更好地泛化到未見過的人物。大量的定性和定量結果表明,DISCO能夠生成外觀多樣、動作靈活的高質量人類舞蹈圖像和影片。代碼、演示、影片和可視化請參閱:https://disco-dance.github.io/。
大型語言模型(LLMs)的出現已經徹底改變了自然語言處理,使得能夠生成連貫且上下文相關的文本成為可能。隨著LLMs越來越多地驅動對話代理,這些模型中嵌入的合成個性,由於它們在大量人類生成的數據上進行訓練,引起了人們的關注。由於個性是決定溝通效果的重要因素,我們提出了一種全面的方法,用於管理經過驗證的心理測試,並量化、分析和塑造從廣泛使用的LLMs生成的文本中展現的個性特徵。我們發現:1)在某些LLMs的輸出中(在特定提示配置下)模擬的個性是可靠和有效的;2)對於較大且經過指導微調的模型,LLM模擬的個性的可靠性和有效性證據更為明確;以及3)LLM輸出中的個性可以沿著所需的維度塑造,以模仿特定的個性配置文件。我們還討論了我們的測量和塑造框架的潛在應用和道德影響,特別是關於LLMs的負責任使用。
近年來視覺語言模型的進步革新了多模態理解,然而它們是否具備理解生成圖像的能力仍不清楚。與真實數據相比,合成圖像在內容和風格上呈現更高程度的多樣性,這對模型來說存在著相當大的困難。為此,我們提出了一個大規模數據集 JourneyDB,用於生成圖像的多模態視覺理解。我們精心編輯的數據集包含了 400 萬個多樣且高質量的生成圖像,並配對了用於生成它們的文本提示。我們進一步設計了 4 個基準來量化生成圖像理解的性能,包括提示反轉、風格檢索、圖像字幕和視覺問答。最後,我們評估了當前最先進的多模態模型在應用於 JourneyDB 時的性能,並對它們在生成內容理解方面的優勢和局限性進行了深入分析。我們希望提出的數據集和基準能促進生成內容理解領域的研究。數據集將可在 https://journeydb.github.io 上獲得。
本文介紹了MVDiffusion,一種簡單而有效的多視圖圖像生成方法,適用於具有像素對應的情況,例如從全景圖或多視圖圖像中進行透視裁剪,並提供幾何信息(深度圖和姿態)。與依賴迭代圖像變形和修補的先前模型不同,MVDiffusion同時生成所有圖像,具有全局意識,包括高分辨率和豐富內容,有效解決了先前模型中普遍存在的錯誤累積問題。MVDiffusion特別融入了一種考慮對應關係的注意機制,實現有效的跨視圖交互。該機制支撐著三個關鍵模塊:1)生成模塊,生成低分辨率圖像的同時保持全局對應,2)插值模塊,增加圖像之間的空間覆蓋,3)超分辨率模塊,將圖像升級為高分辨率輸出。在全景圖像方面,MVDiffusion能夠生成高達1024x1024像素的高分辨率逼真圖像。對於基於幾何條件的多視圖圖像生成,MVDiffusion展示了首個能夠生成場景網格的紋理地圖的方法。項目頁面位於https://mvdiffusion.github.io。
最近,基於學習的單眼運動捕捉方法已顯示出潛力,通過學習以數據驅動的方式進行回歸。然而,由於數據收集和網絡設計方面的挑戰,現有解決方案仍然難以實現在世界空間中準確的實時全身捕捉。在這項工作中,我們提出了一種順序代理到運動學習方案,以及一個包含2D骨架序列和世界空間中的3D旋轉運動的代理數據集。這樣的代理數據使我們能夠構建一個基於學習的網絡,具有準確的全身監督,同時也減輕了泛化問題。為了更準確和物理合理的預測,我們在我們的網絡中提出了一個考慮接觸的神經運動下降模塊,以便它能夠意識到腳地接觸和與代理觀察的運動不一致。此外,我們在我們的網絡中共享身體-手部上下文信息,以更好地恢復與全身模型相容的手腕姿勢。通過提出的基於學習的解決方案,我們展示了第一個具有世界空間中合理腳地接觸的實時單眼全身捕捉系統。更多視頻結果可在我們的項目頁面找到:https://liuyebin.com/proxycap。
預訓練語言模型(PLMs)如今是自然語言處理的主要模型。儘管其在下游任務中表現出色,但將PLMs應用於新語言可能會面臨困難,這是使其能力普遍可及的障礙。先前的研究已經顯示,通過為新語言學習新的嵌入層可以解決這個問題,但這樣做既耗費數據又計算效率低下。我們提出在預訓練過程中使用主動遺忘機制,作為創建能夠快速適應新語言的PLMs的簡單方法。具體來說,在預訓練過程中每K次更新重置嵌入層,我們鼓勵PLM在有限次更新內改進其學習新嵌入的能力,類似於元學習效應。RoBERTa的實驗表明,使用我們的遺忘機制預訓練的模型不僅在語言適應過程中顯示出更快的收斂速度,而且在低數據情況下表現優越,特別是對於與英語相距較遠的語言。
我們的目標是讓機器人能夠遵循自然語言指令,如“將毛巾放在微波爐旁邊”。然而,獲取大量標記數據,即包含以語言指令標記的任務演示的數據,是不切實際的。相比之下,獲取對應圖像目標的策略要容易得多,因為任何自主試驗或演示都可以事後標記其最終狀態作為目標。在這項工作中,我們提出了一種方法,該方法僅使用少量語言數據來利用聯合圖像和目標條件下的語言策略。先前的工作已經在這方面取得了進展,使用視覺語言模型或通過聯合訓練語言目標條件下的策略,但迄今為止,這兩種方法都沒有有效擴展到現實世界的機器人任務,而無需大量人工標註。我們的方法通過從標記數據中學習將語言對齊到目標圖像而不是對齊到指令對應的起始和目標圖像之間的期望變化,從而實現了在現實世界中的強大性能。然後,我們在這個嵌入上訓練一個策略:該策略受益於所有未標記數據,但對齊的嵌入提供了一個接口,讓語言引導策略。我們展示了在不同場景中的各種操作任務中遵循指令,並且能夠推廣到標記數據之外的語言指令。有關我們方法的視頻和代碼可在我們的網站上找到:http://tiny.cc/grif。
大型語言模型在少樣本自然語言處理任務上展現出令人印象深刻的結果。然而,這些模型需要大量記憶體和計算資源。元訓練使人們能夠以通用領域和任務無關的方式利用較小的模型進行少樣本泛化;然而,僅靠這些方法得到的模型可能缺乏足夠的參數化或知識,無法快速適應各種任務。為了克服這個問題,我們提出了具有示範檢索的元訓練方法,其中我們使用密集的段落檢索器來檢索與每個示例相似語義的標記示範,以獲得更多樣化的監督。通過將外部知識與模型參數分開,我們可以使用元訓練來訓練參數高效的模型,在更多種類的任務上實現良好的泛化。我們從UnifiedQA和CrossFit構建了一個元訓練集,並提出了一個基於UnifiedQA任務的示範庫。據我們所知,我們的工作是首個將檢索與元訓練相結合,使用DPR模型檢索示範,並同時利用來自多個任務的示範,而不是從目標任務的訓練集中隨機抽樣示範。我們的方法在問答、自然語言推理和文本分類任務(包括SQuAD、QNLI和TREC)上優於各種針對性的參數高效和檢索增強的少樣本方法。我們的方法可以在單個GPU上快速進行元訓練和微調。
建模3D頭像對於AR/VR、遊戲和拍攝等各種應用場景都有好處。角色臉部作為頭像的重要組成部分,為頭像帶來了顯著的多樣性和生動性。然而,構建3D角色臉部模型通常需要使用商業工具,即使對於有經驗的藝術家來說也是一項繁重的工作。各種現有的基於草圖的工具無法支持業餘者建模多樣的面部形狀和豐富的幾何細節。在本文中,我們提出了SketchMetaFace - 一個針對業餘用戶設計的草圖系統,可在幾分鐘內建模高保真度的3D臉部。我們精心設計了用戶界面和底層算法。首先,我們採用了曲率感知筆劃,以更好地支持雕刻面部細節的可控性。其次,考慮到將2D草圖映射到3D模型的關鍵問題,我們開發了一種名為“隱式和深度引導網格建模”(IDGMM)的新型基於學習的方法。它融合了網格、隱式和深度表示的優勢,實現了高質量和高效率的結果。此外,為了進一步支持可用性,我們提出了一種從粗到細的2D草圖界面設計和一個數據驅動的筆劃建議工具。用戶研究表明,我們的系統在易用性和視覺質量方面優於現有的建模工具。實驗分析還表明,IDGMM在精度和效率之間取得了更好的折衷。SketchMetaFace可在https://zhongjinluo.github.io/SketchMetaFace/ 上獲得。