每日精選AI研究論文及翻譯
分段萬物模型(SAM)已成為強大的零樣本圖像分割模型,其透過點位等互動式提示來生成遮罩。本文提出SAM-PT方法,將SAM的能力擴展至動態影片中的目標追蹤與分割。SAM-PT採用魯棒的稀疏點位選擇與傳播技術生成遮罩,實驗證明基於SAM的分割追蹤器能在DAVIS、YouTube-VOS及MOSE等主流影片物件分割基準測試中實現優異的零樣本性能。相較於傳統以物件為核心的遮罩傳播策略,我們創新地運用點位傳播技術來挖掘與物件語義無關的局部結構信息。透過在零樣本開放世界未識別影片物件(UVO)基準上的直接評估,我們彰顯了基於點位追蹤的優勢。為進一步優化方法,我們採用K-Medoids聚類進行點位初始化,同時追蹤正向與負向點位以清晰區分目標物件。此外,我們透過多重遮罩解碼迭代實現遮罩優化,並設計點位重新初始化策略來提升追蹤精度。我們的程式碼整合了多種點位追蹤器與影片分割基準測試,將於https://github.com/SysCV/sam-pt開源釋出。
近期大規模文字引導擴散模型展現了強大的圖像生成能力。當前研究重點在於僅透過文字指令實現圖像修改,以提供直覺且多功能的編輯方式。然而,由於編輯技術需保留原始圖像特定內容的本質特性,這類生成模型的編輯任務面臨挑戰。相反地,在文字驅動模型中,即使對提示詞進行細微修改,也常導致生成結果截然不同,使得精準符合用戶意圖的一次性生成極難實現。此外,要使用這些尖端工具編輯真實圖像,必須先將圖像反演至預訓練模型的領域——此過程不僅影響編輯品質,更會增加延遲成本。本探索性報告提出LEDITS輕量級整合方案,透過結合Edit Friendly DDPM反演技術與語義引導,將語義引導擴展至真實圖像編輯領域,同時發揮DDPM反演的編輯優勢。該方法無需優化或擴展模型架構,即可實現從細微調整到大幅改動的多樣化編輯,包括構圖與風格的轉換。
生成式人工智慧在電腦視覺領域已取得重大進展,尤其在基於文字描述的圖像/影片合成方面。儘管技術不斷進步,但在以人為核心的內容生成(如舞蹈合成)領域仍面臨挑戰。現有的舞蹈合成方法難以彌合合成內容與真實舞蹈場景之間的差距。本文定義了一個新問題設定:參照人體舞蹈生成,專注於真實舞蹈場景的三個關鍵特性:(i) 還原度:合成內容需保留參考圖像中人物前景與背景的外觀特徵,並精準遵循目標姿態;(ii) 泛化性:模型應能適應未見過的人物主體、背景和姿勢;(iii) 組合性:能靈活組合來自不同來源的已見/未見人物、背景與姿勢。為解決這些難題,我們提出創新方法DISCO,其特色包括:採用具解耦控制的新型模型架構以提升舞蹈合成的還原度與組合性,並通過有效的人物屬性預訓練增強對未見人物的泛化能力。大量定性與定量實驗結果表明,DISCO能生成具有多樣外觀與靈活動作的高品質人體舞蹈圖像及影片。程式碼、演示、影片與視覺化結果請參見:https://disco-dance.github.io/。
大型語言模型(LLM)的問世為自然語言處理帶來革命性突破,使其能生成語境連貫且語義相關的文本。隨著LLM日益成為對話代理系統的核心驅動力,這些模型基於海量人類生成數據訓練所內建的合成人格特質引發關注。考慮到人格是決定溝通效能的關鍵因素,我們提出一套綜合方法,透過實施經過驗證的心理測量測試,對主流LLM生成文本中呈現的人格特質進行量化、分析與塑造。研究發現:1)特定提示配置下,部分LLM輸出中模擬的人格具備可靠性與有效性;2)模型規模越大且經過指令微調的LLM,其人格模擬的可靠性與有效性證據越強;3)LLM輸出的人格可沿特定維度進行塑造,以模擬目標人格特徵。我們亦探討此測量與塑造框架的潛在應用與倫理意涵,特別聚焦於LLM的責任制使用議題。
儘管視覺語言模型的最新進展已徹底變革多模態理解領域,但這些模型是否具備理解生成圖像的能力仍不明確。與真實數據相比,合成圖像在內容與風格上呈現更高程度的多樣性,這使得模型難以完全掌握其特徵。為此,我們提出大規模數據集JourneyDB,用於生成式圖像的多模態視覺理解。本數據集收錄400萬張兼具多樣性與高品質的生成圖像,並配對其對應的生成文本提示。我們進一步設計四項基準測試,從內容與風格詮釋兩個維度量化生成式圖像理解能力,包括提示詞反轉、風格檢索、圖像描述及視覺問答。最後,我們評估當前頂尖多模態模型在JourneyDB上的表現,並深入分析其在生成內容理解方面的優勢與局限。期望所提出的數據集與基準測試能推動生成式內容理解領域的研究進展。數據集將公開於 https://journeydb.github.io。
本文提出MVDiffusion——一種針對具備像素級對應關係場景(如全景圖透視裁切或已知幾何資訊的多視角圖像)的簡潔高效多視角圖像生成方法。有別於依賴迭代式圖像變形與修補的既有模型,MVDiffusion通過全局感知機制並行生成所有圖像,兼具高解析度與豐富內容,有效解決了前人模型中常見的誤差累積問題。該方法特別融入對應感知注意力機制,實現高效的跨視角交互。此機制支撐三個關鍵模組:1) 生成模組:在保持全局對應關係的同時生成低解析度圖像;2) 插值模組:對圖像間空間覆蓋進行稠密化處理;3) 超解析度模組:將圖像提升至高解析度輸出。針對全景圖像生成,MVDiffusion可生成達1024×1024像素的高解析度寫實圖像。在幾何條件約束的多視角圖像生成任務中,本方法首次實現了場景網格的紋理貼圖生成。項目頁面請訪問:https://mvdiffusion.github.io。
最近,基於學習的單眼運動捕捉方法已顯示出潛力,通過學習以數據驅動的方式進行回歸。然而,由於數據收集和網絡設計方面的挑戰,現有解決方案仍然難以實現在世界空間中準確的實時全身捕捉。在這項工作中,我們提出了一種順序代理到運動學習方案,以及一個包含2D骨架序列和世界空間中的3D旋轉運動的代理數據集。這樣的代理數據使我們能夠構建一個基於學習的網絡,具有準確的全身監督,同時也減輕了泛化問題。為了更準確和物理合理的預測,我們在我們的網絡中提出了一個考慮接觸的神經運動下降模塊,以便它能夠意識到腳地接觸和與代理觀察的運動不一致。此外,我們在我們的網絡中共享身體-手部上下文信息,以更好地恢復與全身模型相容的手腕姿勢。通過提出的基於學習的解決方案,我們展示了第一個具有世界空間中合理腳地接觸的實時單眼全身捕捉系統。更多視頻結果可在我們的項目頁面找到:https://liuyebin.com/proxycap。
大型語言模型在少樣本自然語言處理任務上展現出令人印象深刻的結果。然而,這些模型需要大量記憶體和計算資源。元訓練使人們能夠以通用領域和任務無關的方式利用較小的模型進行少樣本泛化;然而,僅靠這些方法得到的模型可能缺乏足夠的參數化或知識,無法快速適應各種任務。為了克服這個問題,我們提出了具有示範檢索的元訓練方法,其中我們使用密集的段落檢索器來檢索與每個示例相似語義的標記示範,以獲得更多樣化的監督。通過將外部知識與模型參數分開,我們可以使用元訓練來訓練參數高效的模型,在更多種類的任務上實現良好的泛化。我們從UnifiedQA和CrossFit構建了一個元訓練集,並提出了一個基於UnifiedQA任務的示範庫。據我們所知,我們的工作是首個將檢索與元訓練相結合,使用DPR模型檢索示範,並同時利用來自多個任務的示範,而不是從目標任務的訓練集中隨機抽樣示範。我們的方法在問答、自然語言推理和文本分類任務(包括SQuAD、QNLI和TREC)上優於各種針對性的參數高效和檢索增強的少樣本方法。我們的方法可以在單個GPU上快速進行元訓練和微調。
預訓練語言模型(PLMs)已成為自然語言處理的主流技術。儘管其在下游任務中表現卓越,但將PLMs應用於新語言時仍存在障礙,這限制了其能力的普及化。既有研究雖可透過為新語言學習新的嵌入層來解決此問題,但這種方法在數據和計算效率上均存在不足。我們提出在預訓練階段引入主動遺忘機制,作為創建能快速適應新語言的PLMs的簡便方法。具體而言,通過在預訓練期間每間隔K次更新重置嵌入層,我們促使PLM在有限更新次數內提升學習新嵌入表徵的能力,類似於元學習效果。基於RoBERTa的實驗表明,採用遺忘機制預訓練的模型不僅在語言適應階段展現出更快的收斂速度,在低數據量情境下(尤其是與英語差異較大的語言)其表現也優於標準預訓練模型。
我們的目標是讓機器人能夠遵循自然語言指令,如“將毛巾放在微波爐旁邊”。然而,獲取大量標記數據,即包含以語言指令標記的任務演示的數據,是不切實際的。相比之下,獲取對應圖像目標的策略要容易得多,因為任何自主試驗或演示都可以事後標記其最終狀態作為目標。在這項工作中,我們提出了一種方法,該方法僅使用少量語言數據來利用聯合圖像和目標條件下的語言策略。先前的工作已經在這方面取得了進展,使用視覺語言模型或通過聯合訓練語言目標條件下的策略,但迄今為止,這兩種方法都沒有有效擴展到現實世界的機器人任務,而無需大量人工標註。我們的方法通過從標記數據中學習將語言對齊到目標圖像而不是對齊到指令對應的起始和目標圖像之間的期望變化,從而實現了在現實世界中的強大性能。然後,我們在這個嵌入上訓練一個策略:該策略受益於所有未標記數據,但對齊的嵌入提供了一個接口,讓語言引導策略。我們展示了在不同場景中的各種操作任務中遵循指令,並且能夠推廣到標記數據之外的語言指令。有關我們方法的視頻和代碼可在我們的網站上找到:http://tiny.cc/grif。
建模3D頭像對於AR/VR、遊戲和拍攝等各種應用場景都有好處。角色臉部作為頭像的重要組成部分,為頭像帶來了顯著的多樣性和生動性。然而,構建3D角色臉部模型通常需要使用商業工具,即使對於有經驗的藝術家來說也是一項繁重的工作。各種現有的基於草圖的工具無法支持業餘者建模多樣的面部形狀和豐富的幾何細節。在本文中,我們提出了SketchMetaFace - 一個針對業餘用戶設計的草圖系統,可在幾分鐘內建模高保真度的3D臉部。我們精心設計了用戶界面和底層算法。首先,我們採用了曲率感知筆劃,以更好地支持雕刻面部細節的可控性。其次,考慮到將2D草圖映射到3D模型的關鍵問題,我們開發了一種名為“隱式和深度引導網格建模”(IDGMM)的新型基於學習的方法。它融合了網格、隱式和深度表示的優勢,實現了高質量和高效率的結果。此外,為了進一步支持可用性,我們提出了一種從粗到細的2D草圖界面設計和一個數據驅動的筆劃建議工具。用戶研究表明,我們的系統在易用性和視覺質量方面優於現有的建模工具。實驗分析還表明,IDGMM在精度和效率之間取得了更好的折衷。SketchMetaFace可在https://zhongjinluo.github.io/SketchMetaFace/ 上獲得。