每日精選AI研究論文及翻譯
大型文本到圖像擴散模型展現了在生成高品質圖像方面的出色能力。然而,當將這些模型應用於視頻領域時,確保視頻幀之間的時間一致性仍然是一個艱鉅的挑戰。本文提出了一種新穎的零樣本文本引導的視頻到視頻翻譯框架,以適應將圖像模型應用於視頻。該框架包括兩部分:關鍵幀翻譯和完整視頻翻譯。第一部分使用適應的擴散模型生成關鍵幀,並應用分層交叉幀約束以強制形狀、紋理和顏色的一致性。第二部分通過具有時間感知的補丁匹配和幀混合將關鍵幀傳播到其他幀。我們的框架以低成本實現了全局風格和局部紋理的時間一致性(無需重新訓練或優化)。該適應與現有的圖像擴散技術兼容,使我們的框架能夠利用這些技術,例如使用LoRA定制特定主題,並使用ControlNet引入額外的空間引導。大量實驗結果證明了我們提出的框架在呈現高品質和時間一致性視頻方面相對於現有方法的有效性。
我們提出了廣義低秩適應(GLoRA),這是一種用於通用參數高效微調任務的先進方法。在增強低秩適應(LoRA)的基礎上,GLoRA採用了一個廣義提示模組來優化預訓練模型的權重並調整中間激活,提供更靈活和能力更強的跨多樣任務和數據集。此外,GLoRA通過採用可擴展的、模塊化的、逐層結構搜索來實現高效的參數適應,學習每層的單獨適配器。源自統一的數學公式,GLoRA展現出強大的遷移學習、少樣本學習和領域泛化能力,通過在權重和激活上增加額外維度來適應新任務。全面的實驗表明,GLoRA在各種數據集上的自然、專業和結構基準中優於所有先前方法,在實現更高準確性的同時使用更少的參數和計算。此外,我們的結構性重新參數化設計確保GLoRA不會產生額外的推理成本,使其成為資源有限應用的實用解決方案。代碼可在以下鏈接找到:https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA。
本文著重探討如何利用人工智慧(AI)來協助使用者創作動漫肖像,即在他們素描過程中將粗略素描轉換為動漫肖像。輸入是一系列逐漸由筆劃精煉的不完整自由手繪素描,而輸出是一系列高質量的動漫肖像,以輸入素描作為指導。儘管最近的生成對抗網絡(GANs)可以產生高質量圖像,但由於條件圖像生成中的棘手問題,從具有低完成度的素描生成高質量圖像仍然是一個具有挑戰性的問題。即使使用最新的素描轉圖像(S2I)技術,對於動漫肖像的不完整粗略素描生成高質量圖像仍然困難,因為動漫風格往往比現實風格更抽象。為了解決這個問題,我們採用了StyleGAN的潛在空間探索和雙階段訓練策略。我們認為自由手繪素描的輸入筆劃對應於StyleGAN的潛在結構代碼中與邊緣信息相關的屬性,並將筆劃與這些屬性之間的匹配稱為筆劃級別的解耦。在第一階段,我們使用預訓練的StyleGAN模型作為教師編碼器來訓練圖像編碼器。在第二階段,我們模擬生成圖像的繪製過程,無需任何額外數據(標籤),並訓練不完整漸進素描的素描編碼器,以便生成具有與教師編碼器中解耦表示相符的特徵對齊的高質量肖像。我們通過定性和定量評估驗證了所提出的漸進S2I系統,並從不完整的漸進素描中獲得了高質量的動漫肖像。我們的使用者研究證明了它在動漫風格藝術創作協助中的有效性。
我們提出了WebGLM,這是一個基於通用語言模型(GLM)的網頁增強問答系統。其目標是通過在現有的大型語言模型(LLM)上增加網頁搜索和檢索功能,同時保持在實際部署中的高效性。為了實現這一目標,我們為LLM增強的檢索器、引導生成器和人類偏好感知評分器開發了WebGLM策略。具體來說,我們識別並解決了WebGPT(OpenAI)的限制,從而使WebGLM具有準確性、效率和成本效益方面的優勢。此外,我們提出了評估網頁增強型QA系統的系統性標準。我們進行了多維人類評估和定量消融研究,結果表明所提出的WebGLM設計優於現有系統。WebGLM搭載10億參數的GLM(10B)在人類評估中表現優於相似大小的WebGPT(13B),甚至與WebGPT(175B)相當。代碼、演示和數據可在https://github.com/THUDM/WebGLM找到。
在網絡上對圖像-文本配對進行對比預訓練是視覺主幹的最流行的大規模預訓練策略之一,特別是在大型多模態模型的背景下。與此同時,對這類數據進行圖像標註通常被認為是一種較差的預訓練策略。在本文中,我們對這兩種預訓練策略進行了公平比較,仔細匹配了訓練數據、計算和模型容量。使用標準的編碼器-解碼器Transformer,我們發現僅進行標註是出奇地有效:在分類任務中,標註生成的視覺編碼器與對比預訓練的編碼器競爭激烈,同時在視覺和語言任務上超越了它們。我們進一步分析了模型架構和規模,以及預訓練數據對表示質量的影響,發現標註在這些軸上展現出相同或更好的擴展行為。總的來說,我們的結果表明,純粹的圖像標註比以前所認為的更為強大的預訓練策略。
大型語言模型(LLMs)展現了上下文學習能力,使得同一模型能夠執行多項任務而無需進行任務特定的訓練。相較之下,傳統的適應方法,如微調,會針對每個特定任務修改底層模型。然而,上下文學習在面對相同範例時,仍然表現不如特定任務調整方法。儘管大多數現有方法(例如提示工程)專注於修補LLM學習的表示以彌補這種表現差距,我們的分析實際上揭示了LLM的表示包含足夠的信息以做出良好的預測。因此,我們專注於LLM的推理能力,並證明這種表現差距是由於它們無法執行簡單的概率推理任務。這帶出了一個有趣的問題:LLMs是否真的能夠學習如何以一種與任務無關的方式進行推理?我們肯定地回答這個問題,並提出TART,通過使用經過合成訓練的基於Transformer的推理模組,通用地提升LLM的推理能力。TART以一種與任務無關的方式訓練這個推理模組,僅使用合成的邏輯回歸任務,並將其與任意現實世界的預訓練模型組合,而無需進行任何額外的訓練。通過單一的推理模組,TART提升了不同模型家族(GPT-Neo、Pythia、BLOOM)、模型大小(100M - 6B)、任務(14個自然語言處理二元分類任務)以及不同模態(音訊和視覺)的表現。此外,在RAFT基準測試中,TART提升了GPT-Neo(125M)的表現,使其優於BLOOM(176B),並且與GPT-3(175B)的表現相差不到4%。我們的程式碼和模型可在https://github.com/HazyResearch/TART 找到。
將文字轉換為3D建模已經取得了令人振奮的進展,透過將生成式文字轉圖像模型與圖像轉3D方法(如神經輻射場)相結合。DreamFusion最近取得了高質量的結果,但需要進行冗長的按提示優化才能創建3D物件。為了解決這個問題,我們通過使用統一模型,而不是分開訓練,將優化分攤到多個文本提示上。透過這種方式,我們在比逐個提示優化更短的時間內共享計算。我們的框架 - 分攤式文字轉3D(ATT3D) - 使提示之間的知識共享得以實現,以泛化到未見過的設置,並實現文本之間的平滑插值,用於新穎資產和簡單動畫。
大型語言模型(LLMs)已展示了執行高層次規劃的潛力。然而,對於LLMs來說,理解低層次指令(例如關節角度目標或馬達扭矩)仍然是一個挑戰。本文提出了一種方法,使用腳部接觸模式作為一個介面,將自然語言中的人類指令與輸出這些低層次指令的運動控制器相連接。這導致了一個互動系統,適用於四足機器人,允許用戶靈活地打造多樣的運動行為。我們提供了一種LLM提示設計、一個獎勵函數,以及一種將控制器暴露於可行接觸模式分佈的方法。結果是一個能夠實現多樣運動模式的控制器,可以轉移到真實機器人硬體上。與其他設計選擇相比,所提出的方法在預測正確接觸模式方面擁有超過50%的成功率,並且可以解決30個任務中的多達10個任務。我們的項目網站是:https://saytap.github.io。
本研究旨在從大型地標的網絡照片重建一個具有時間變化的3D模型,能夠以獨立控制視點、照明和時間的方式呈現逼真的渲染效果。核心挑戰有兩個。首先,不同類型的時間變化,如照明和基礎場景本身的變化(例如將一幅塗鴉換成另一幅),在影像中交織在一起。其次,場景級的時間變化通常是離散的且隨時間零星發生,而非連續的。為應對這些問題,我們提出了一種新的場景表示,配備了一種新穎的時間步函數編碼方法,可以將離散的場景級內容變化建模為隨時間分段恆定的函數。具體來說,我們將場景表示為一個帶有每幅圖像照明嵌入的時空輻射場,其中通過一組學習到的步函數來編碼隨時間變化的場景變化。為了從網絡圖像中重建時間順序,我們還收集了一個包含四個場景的新數據集,展示了我們的方法在該數據集上展現出最先進的視角合成結果,同時實現了對視角、時間和照明的獨立控制。
在科學文件中,若數據未經準確轉錄,科學家將無法得出準確的結論。不幸的是,從一份文件複製數據到另一份文件的過程容易出現人為錯誤。本文提出通過自動表格驗證(AutoTV)這一新型任務來應對這一挑戰,其目標是通過交叉參考引用來驗證表格中數據的準確性。為支持此任務,我們提出了一個新的基準,arXiVeri,其中包含從arXiv開放訪問學術論文中提取的表格數據。我們引入了評估表格驗證器在兩個關鍵領域表現的指標:(i)表格匹配,旨在識別引用文件中對應於目標表格的來源表格,以及(ii)單元格匹配,旨在準確定位目標表格和來源表格之間的共享單元格,並識別其行和列索引。通過利用現代大型語言模型(LLMs)的靈活功能,我們提出了表格驗證的簡單基準。我們的研究結果突顯了這一任務的複雜性,即使對於像OpenAI的GPT-4這樣的最先進的LLMs也是如此。代碼和基準將公開提供。
大型語言模型(LLMs)已被應用於語音領域,通常由於語音和語言表示之間的不一致而導致性能下降。為了彌補這一差距,我們提出了一種聯合語音和語言模型(SLM),使用Speech2Text轉換器將語音映射到文本標記嵌入空間,而不會丟失語音信息。此外,通過基於CTC的空白過濾,我們可以將語音序列長度減少到與文本相同。在語音MultiWoz數據集(DSTC11挑戰賽)中,SLM顯著提高了對話狀態追踪(DST)性能(從24.7%提高到28.4%的準確率)。為了解決罕見實體的錯誤,我們使用Speech2Entity檢索器對SLM進行擴充,該檢索器使用語音檢索相關實體,然後將其添加到原始SLM輸入作為前綴。通過這種檢索增強的SLM(ReSLM),DST性能提高到34.6%的準確率。此外,將ASR任務與對話理解任務相結合,將ASR性能從9.4%提高到8.5%的錯字率。
我們提出了一種基於分數的新方法,用於生成以原子密度在常規網格上表示的3D分子。首先,我們訓練了一個去噪神經網絡,該網絡學習將具有噪聲分子的平滑分佈映射到真實分子的分佈。然後,我們遵循神經經驗貝葉斯框架[Saremi和Hyvarinen,2019],並通過兩個步驟生成分子:(i)通過過阻尼朗之萬歷維蒙特卡羅方法從平滑分佈中採樣帶有噪聲的密度網格,以及(ii)通過單步驟對帶有噪聲的網格進行去噪以恢復“乾淨”分子。我們的方法VoxMol以一種基本不同於當前技術水準(即應用於原子點雲的擴散模型)的方式生成分子。它在數據表示、噪聲模型、網絡架構和生成建模算法方面有所不同。VoxMol在無條件的3D分子生成方面取得了與技術水準相當的結果,同時更容易訓練並且生成速度更快。
我們認為「相似性」有許多概念,並且模型應該能夠動態地適應這些概念,就像人類一樣。這與大多數表示學習方法(監督式或自監督式)形成對比,這些方法學習一個固定的嵌入函數,因此隱含地假設了單一的相似性概念。例如,在ImageNet上訓練的模型偏向於物件類別,而使用者可能希望模型專注於顏色、紋理或場景中的特定元素。在本文中,我們提出了GeneCIS('genesis')基準,該基準評估模型適應各種相似性條件的能力。擴展先前的工作,我們的基準僅設計用於零樣本評估,因此考慮了一個開放的相似性條件集。我們發現,來自強大的CLIP模型的基準在GeneCIS上遇到困難,而在基準上的表現與ImageNet的準確性之間只有微弱的相關性,這表明簡單地擴展現有方法並不是有效的。我們進一步提出了一個簡單、可擴展的解決方案,基於從現有的圖像說明數據集中自動挖掘信息。我們發現我們的方法在GeneCIS上比基準提供了顯著的提升,並進一步改善了相關圖像檢索基準的零樣本表現。事實上,儘管是零樣本評估,我們的模型在MIT-States上超越了最先進的監督式模型。項目頁面位於https://sgvaze.github.io/genecis/。
我們介紹了Galactic,這是一個用於室內環境中機器人移動操作的大規模模擬和強化學習(RL)框架。具體來說,我們在一個家庭環境中生成了一個配備移動底盤、7DoF機械臂、RGBD相機、自我運動和板載感知的Fetch機器人,並要求它重新排列物體 - 通過導航到一個物體、拾取它、導航到目標位置,然後將物體放置在目標位置上。 Galactic速度快。在模擬速度(渲染+物理)方面,Galactic在一個8-GPU節點上實現了超過421,000步/秒(SPS),比Habitat 2.0(7699 SPS)快54倍。更重要的是,Galactic旨在優化整個渲染+物理+RL互動,因為互動中的任何瓶頸都會拖慢訓練速度。在模擬+RL速度(渲染+物理+推理+學習)方面,Galactic實現了超過108,000 SPS,比Habitat 2.0(1243 SPS)快88倍。 這些巨大的加速不僅大幅縮短了現有實驗的牆鐘訓練時間,還開啟了一個前所未有的新實驗規模。首先,Galactic可以在不到16分鐘內訓練出超過80%準確度的移動拾取技能,這比在Habitat 2.0中訓練相同技能需要超過24小時快了100倍。其次,我們使用Galactic在46小時內進行了迄今為止規模最大的重新排列實驗,使用了50億步的經驗,相當於20年的機器人經驗。這種規模化結果是一個由任務不可知組件組成的單一神經網絡在幾何目標重新排列方面實現了85%的成功率,而在Habitat 2.0中相同方法報告的成功率為0%。代碼可在github.com/facebookresearch/galactic找到。
現有的捕獲3D頭部資料集的密集語義對應方法速度較慢,通常通過兩個獨立步驟來解決問題;多視圖立體(MVS)重建,然後是非剛性配准。為了簡化這個過程,我們引入了TEMPEH(Towards Estimation of 3D Meshes from Performances of Expressive Heads),以直接從校準的多視圖圖像中推斷密集對應的3D頭部。通常需要手動調參以找到準確配合掃描表面並對掃描噪聲和離群值具有魯棒性之間的平衡。相反,我們建議在訓練TEMPEH時聯合配准一個3D頭部資料集。具體來說,在訓練期間,我們最小化一個常用於表面配准的幾何損失,有效地利用TEMPEH作為正則化器。我們的多視圖頭部推斷建立在體積特徵表示上,該表示使用攝像機校準信息從每個視圖中採樣並融合特徵。為了考慮部分遮擋和允許頭部運動的大捕獲體積,我們使用視圖和表面感知特徵融合,以及基於空間變換器的頭部定位模塊。在訓練期間,我們使用原始MVS掃描作為監督,但一旦訓練完成,TEMPEH可以直接預測密集對應的3D頭部,而無需掃描。預測一個頭部約需0.3秒,中位重建誤差為0.26毫米,比當前最先進技術低64%。這使得能夠高效捕獲包含多個人和多樣面部運動的大型資料集。代碼、模型和數據可在https://tempeh.is.tue.mpg.de 公開獲得。
電話通話的轉錄在各個領域中具有重要價值,例如銷售、客戶服務、醫療保健和執法。然而,對這些錄音對話的分析可能是一個費時費力的過程,特別是在處理延長或多方面對話時。在這項工作中,我們提出了一種新穎的方法,稱為GPT-distilled Calls Segmentation and Tagging (GPT-Calls),用於高效準確的通話分割和主題提取。GPT-Calls 包括離線和在線階段。離線階段應用於一給定主題列表一次,通過使用 GPT 模型為每個主題生成一個合成句子分佈並提取錨向量。在線階段應用於每通話單獨,對轉錄對話與離線階段中找到的主題錨之間的相似性進行評分。然後,對相似性分數進行時間域分析,將發言分組為段落並標記主題。所提出的範式提供了一種不需要標記數據的通話分割和主題提取的準確高效方法,因此是一種適用於各種領域的多功能方法。我們的算法在 Dynamics 365 銷售對話智能下運行,我們的研究基於從各種 Dynamics 365 銷售租戶收集的真實銷售對話。
隨著當今線上和線下數據量的劇增,推薦系統變得不可或缺,以幫助使用者找到符合其興趣的物品。當存在社交網絡信息時,有些方法利用這些信息來提供更好的推薦,然而這些方法通常具有複雜的架構和訓練程序。此外,許多現有方法使用圖神經網絡,而這些網絡訓練起來往往困難重重。為了應對這一問題,我們提出了具有社交感知和時間因果解碼器的推薦系統(STUDY)。STUDY通過修改後的Transformer解碼器網絡,在社交網絡圖中對相鄰用戶組進行聯合推論,僅需一次前向傳播。我們在基於學校教育內容的設定中測試我們的方法,利用課堂結構來定義社交網絡。我們的方法在保持單一同質網絡設計簡單性的同時,優於社交和順序方法,該網絡模擬了數據中的所有互動。我們還進行消融研究以了解我們性能提升的原因,發現我們的模型依賴於利用有效模擬用戶行為相似性的社交網絡結構。