每日精選AI研究論文及翻譯
最近出現的自監督預訓練技術的興起,導致多模態學習在形式文件理解中的應用急劇增加。然而,現有的將遮罩語言建模擴展到其他模態的方法需要仔細的多任務調整、複雜的重建目標設計或額外的預訓練數據。在FormNetV2中,我們引入了一種集中的多模態圖對比學習策略,將自監督預訓練統一為一個損失函數,涵蓋所有模態。圖對比目標最大化多模態表示的一致性,為所有模態提供自然的相互作用,無需特殊定制。此外,我們在連接圖邊緣的一對標記的邊界框內提取圖像特徵,捕獲更具針對性的視覺提示,而無需加載複雜且單獨預先訓練的圖像嵌入器。FormNetV2在FUNSD、CORD、SROIE和Payment基準測試中建立了新的最先進性能,並具有更緊湊的模型大小。
近年來,對於可存取創建高質量、可動和可定制的3D頭像的需求日益增長。儘管3D可變形模型提供了直觀的控制用於編輯和動畫製作,以及對於單視角人臉重建的穩健性,但它們無法輕易捕捉幾何和外觀細節。基於神經隱式表示的方法,如符號距離函數(SDF)或神經輻射場,接近於照片逼真,但很難進行動畫製作並且對於未見數據泛化效果不佳。為了應對這個問題,我們提出了一種新穎的方法,用於構建隱式3D可變形人臉模型,既具有泛化能力又易於編輯。通過從一系列高質量3D掃描中訓練,我們的人臉模型由幾何、表情和紋理潛在代碼參數化,並具有學習的SDF和明確的UV紋理參數化。一旦訓練完成,我們可以通過利用學習的先驗將圖像投影到我們模型的潛在空間中,從單張野外圖像重建一個頭像。我們的隱式可變形人臉模型可用於從新視角渲染頭像,通過修改表情代碼來動畫面部表情,並通過直接在學習的UV紋理地圖上繪製來編輯紋理。我們定量和定性地展示,相較於最先進的方法,我們的方法在照片逼真度、幾何和表情準確性方面有所改進。
本文提出了一種名為神經編輯器(NeuralEditor)的方法,使神經輻射場(NeRFs)能夠原生地進行一般形狀編輯任務。儘管在新視角合成方面取得了令人印象深刻的成果,但對於 NeRFs 來說,編輯場景的形狀仍然是一個基本挑戰。我們的關鍵洞察是利用明確的點雲表示作為構建 NeRFs 的基礎結構,靈感來自於對 NeRF 渲染的直觀解釋,即將相關的 3D 點雲投影或“繪製”到 2D 圖像平面的過程。為此,神經編輯器引入了一種基於 K-D 樹引導的密度自適應體素內的確定積分的新型渲染方案,通過優化實現了高質量的渲染結果和精確的點雲。神經編輯器通過在點雲之間映射相關點來執行形狀編輯。廣泛的評估表明,神經編輯器在形狀變形和場景變形任務中實現了最先進的性能。值得注意的是,神經編輯器支持零樣本推斷以及對編輯後場景進行進一步微調。我們的代碼、基準測試和演示視頻可在 https://immortalco.github.io/NeuralEditor 找到。
多語言機器翻譯承諾提升非英語語言之間的翻譯品質。這有幾個優勢,包括較低的延遲(無需進行兩次翻譯)和減少錯誤級聯(例如,避免在透過英語翻譯時丟失性別和禮貌信息)。然而,增加更多語言會降低每種語言的模型容量,通常透過增加整體模型大小來抵消,這會使訓練變得更困難且推理速度變慢。在這項工作中,我們引入了語言特定的Transformer層(LSLs),這使我們能夠增加模型容量,同時保持正向傳遞中使用的計算量和參數數量恆定。其關鍵想法是讓編碼器的某些層是源語言或目標語言特定的,同時保持其餘層共享。我們通過受啟發的神經架構搜索方法研究了放置這些層的最佳方式,並在單獨解碼器架構上使用LSLs相比不使用時實現了1.3 chrF(1.5 spBLEU)點的改進,並在共享解碼器上實現了1.9 chrF(2.2 spBLEU)的改進。
人工智慧任務涵蓋廣泛的領域和領域。儘管許多人工智慧模型已經為特定任務和應用程序設計,但通常需要大量人力來找到合適的模型架構、優化算法和超參數。像ChatGPT這樣的大型語言模型(LLMs)的最新進展在推理、理解和互動的各個方面展現出卓越的能力。因此,我們提議開發面向任務的提示並自動利用LLMs來自動化訓練流程。為了實現這一概念,我們提出了AutoML-GPT,它利用GPT作為連接不同人工智慧模型的橋樑,並動態訓練具有優化超參數的模型。AutoML-GPT動態地從模型和數據卡中接收用戶請求,並組成相應的提示段落。最終,通過這個提示段落,AutoML-GPT將自動進行從數據處理到模型架構、超參數調整和預測訓練日誌的實驗。通過利用AutoML-GPT強大的語言能力和現有的人工智慧模型,可以應對各種複雜的人工智慧任務和數據集。這種方法在計算機視覺、自然語言處理和其他具有挑戰性的領域取得了顯著的成果。大量實驗和消融研究表明,我們的方法可以是通用的、有效的,並且對許多人工智慧任務都有益。
最近由於使用大型語言模型而提升的程式碼生成能力主要受益於通用程式設計語言。領域特定語言,例如用於IT自動化的語言,儘管涉及眾多活躍開發人員並且是現代雲平台的重要組成部分,卻受到遠少於關注。本研究專注於生成Ansible-YAML,這是一種廣泛用於IT自動化的標記語言。我們提出Ansible Wisdom,一個自然語言轉換為Ansible-YAML程式碼的生成工具,旨在提高IT自動化生產力。Ansible Wisdom是一個基於Transformer的模型,通過使用包含Ansible-YAML的新數據集進行擴展訓練。我們還開發了兩個針對YAML和Ansible的新型性能指標,以捕捉該領域的特定特徵。結果顯示,Ansible Wisdom能夠準確地從自然語言提示中生成Ansible腳本,其性能與現有最先進的程式碼生成模型相當或更好。
在拥挤且动态环境中具有持久性地追踪物体对计算机视觉系统仍然是一个艰巨的挑战。本文介绍了TCOW,这是一个针对在重度遮挡和包围下进行视觉追踪的新基准和模型。我们设立了一个任务,即在给定视频序列的情况下,分割目标物体的投影范围以及周围的容器或遮挡物(如果存在)。为了研究这一任务,我们创建了一组混合的合成和标注真实数据集,以支持模型在各种任务变化形式下的监督学习和结构化评估性能。我们评估了两种最近基于Transformer的视频模型,并发现虽然它们在某些任务变化设置下能够出人意料地追踪目标,但在我们声称追踪模型已经获得了真正的物体永恒概念之前,仍存在相当大的性能差距。
紋理是創建視覺上吸引人且逼真的3D模型的重要方面。本文研究生成高保真度紋理的問題,這相對於通用3D形狀建模來說,探索較少。我們的目標是促進可控制的紋理生成過程,使一個紋理編碼能夠對應到特定外觀風格,獨立於來自某一類別的任何輸入形狀。我們引入紋理UV輻射場(TUVF),在可學習的UV球空間中生成紋理,而非直接在3D形狀上。這使得紋理能夠從底層形狀中解開並可轉移到共享相同UV空間的其他形狀,即來自同一類別。我們將UV球空間與輻射場結合,提供比傳統紋理貼圖更高效和準確的紋理表示。我們在真實物件數據集上進行實驗,不僅實現了逼真的合成,還在紋理控制和編輯方面顯著優於最先進技術。項目頁面:https://www.anjiecheng.me/TUVF
我們專注於重建人類頭部的高保真輻射場,捕捉其隨時間變化的動畫,並從新的視角在任意時間步驟合成重新渲染。為此,我們提出了一種新的多視角捕獲設置,由16台校準的機器視覺相機組成,以7.1 MP的分辨率和每秒73幀記錄同步時間的影像。通過我們的設置,我們收集了一個新的數據集,包括超過4700個高分辨率、高幀率的序列,涵蓋了220多個人類頭部,並引入了一個新的人類頭部重建基準。記錄的序列涵蓋了廣泛的面部動態,包括頭部運動、自然表情、情感和口語。為了重建高保真度的人類頭部,我們提出了使用哈希集成的動態神經輻射場(NeRSemble)。我們通過結合變形場和一組3D多分辨率哈希編碼來表示場景動態。變形場可以精確建模簡單場景運動,而哈希編碼的集成有助於表示複雜的動態。因此,我們獲得了捕捉隨時間運動並促進重新渲染任意新視角的人類頭部輻射場表示。在一系列實驗中,我們探索了我們方法的設計選擇,並證明我們的方法在很大程度上優於最先進的動態輻射場方法。
我們引入遮罩軌跡模型(MTM)作為一種用於順序決策的通用抽象。MTM 採用軌跡,例如狀態-動作序列,並旨在在相同軌跡的隨機子集條件下重建軌跡。通過使用高度隨機化的遮罩模式進行訓練,MTM 學習到可以在推論時通過簡單地選擇適當的遮罩來扮演不同角色或具有不同功能的多功能網絡。例如,同一個 MTM 網絡可以用作前向動力學模型、逆向動力學模型,甚至是離線強化學習代理。通過在多個連續控制任務中進行大量實驗,我們展示了相同的 MTM 網絡 - 即相同的權重 - 可以與為上述功能訓練的專用網絡匹敵甚至優於其表現。此外,我們發現由 MTM 學習的狀態表示可以顯著加速傳統強化學習算法的學習速度。最後,在離線強化學習基準測試中,我們發現 MTM 與專用的離線強化學習算法相媲美,儘管 MTM 是一種通用的自監督學習方法,沒有任何明確的強化學習組件。代碼可在 https://github.com/facebookresearch/mtm 找到。
最近,DeepNorm 將 Transformer 擴展到極深層(即 1000 層),展示了深度擴展的潛力。為了穩定深度模型的訓練,DeepNorm(Wang 等人,2022)嘗試將模型更新限制為一個恆定值。儘管應用這種限制可以使模型訓練的早期階段受益,但可能導致整個訓練過程中模型訓練不足。在本文中,我們提出了 BranchNorm,根據訓練週期動態地重新調整 Transformer 的非殘差分支。BranchNorm 不僅在早期階段在理論上穩定了訓練,還鼓勵在後續訓練階段更好地收斂。在多個翻譯任務上的實驗結果表明,BranchNorm 在訓練穩定性和收斂性能之間取得了更好的平衡。
我們提出了一個完整的系統,用於實時渲染具有複雜外觀的場景,這些場景以前僅用於離線使用。這是通過算法和系統級創新的組合來實現的。 我們的外觀模型利用了通過神經解碼器解釋的學習的分層紋理,這些紋理產生反射值和重要採樣方向。為了最大限度地利用解碼器的建模能力,我們為解碼器配備了兩個圖形先驗。第一個先驗——將方向轉換為學習的著色幀——有助於準確重建中尺度效應。第二個先驗——微平面採樣分佈——允許神經解碼器有效地執行重要採樣。結果的外觀模型支持各向異性採樣和級別渲染,並允許將深層材質圖層烘焙成緊湊統一的神經表示。 通過將硬件加速的張量操作暴露給光線追踪著色器,我們展示了在實時路徑追踪器內有效地內聯和執行神經解碼器是可能的。我們分析了隨著神經材料數量的增加而增加的可擴展性,並建議使用針對一致和分歧執行進行優化的代碼來提高性能。我們的神經材料著色器可以比非神經分層材料快一個數量級。這為在遊戲和實時預覽等應用中使用電影質量的視覺效果敞開了大門。
大型語言模型(LLMs)驅動許多自然語言處理中的最先進系統。然而,這些模型在推論時極其耗費計算資源,引發一個自然的問題:部署更大型模型的額外成本在何時值得預期的能力提升?更好地理解這種權衡基本上可以從一個推論效率指標中受益,該指標既(i)易於跨不同提供者的模型進行比較,又(ii)代表在獨立性能環境中運行查詢的真實成本。不幸的是,如今對LLMs的訪問主要限於黑盒文本生成API和通過此接口測量的原始運行時間,這些並不滿足這些要求:模型提供者可以應用與模型正交的各種軟件和硬件優化,以及在共享基礎設施上提供的模型容易受到性能爭奪的影響。為了避免這些問題,我們提出了一種新的指標來比較模型之間的推論效率。這個指標使模型處於相同的起跑線上,就好像它們是(i)在統一的硬件和軟件上運行,以及(ii)沒有性能爭奪。我們稱這個指標為理想運行時間,並提出了一種有效估計這個指標用於自回歸Transformer模型的方法。我們還提出了考慮成本的變體,這些變體包括為提供模型所需的加速器數量。利用這些指標,我們比較了十個最先進的LLMs,以提供對推論效率-能力權衡的首次分析;我們從這個分析中得出了幾點觀察,包括某些API的優越推論運行時間性能通常是API內部優化的副產物,而不是基礎模型。我們的方法還有助於有效比較不同的軟件和硬件堆棧。
預先訓練的大型語言模型(LLMs)捕捉了關於世界的程序性知識。最近的研究利用了LLM生成抽象計劃的能力,通過動作評分或動作建模(微調)來簡化具有挑戰性的控制任務。然而,變壓器架構繼承了幾個限制,使得LLM難以直接作為代理器:例如有限的輸入長度、微調效率低下、來自預訓練的偏見,以及與非文本環境不相容。為了與低層可訓練的行為器保持兼容性,我們建議改用LLMs中的知識來簡化控制問題,而不是解決它。我們提出了計劃、消除和跟踪(PET)框架。計劃模塊將任務描述轉換為高級子任務列表。消除模塊從當前子任務的觀察中遮罩掉不相關的對象和容器。最後,跟踪模塊確定代理器是否完成了每個子任務。在AlfWorld指令跟隨基準測試中,PET框架對於通用化到人類目標規格實現了顯著的15%改進。