每日精選AI研究論文及翻譯
最近,Transformer已經成為學習視覺表示的強大工具。在本文中,我們識別並表徵了監督式和自監督式ViT網絡的特徵圖中的人工製品。這些人工製品對應於在推論過程中主要出現在圖像的低信息背景區域中的高範數標記,這些標記被重新用於內部計算。我們提出了一個基於向Vision Transformer的輸入序列提供額外標記的簡單而有效的解決方案,以填補該角色。我們展示了這個解決方案完全解決了監督式和自監督式模型的問題,為密集視覺預測任務上的自監督式視覺模型設立了新的技術水準,使得使用更大模型的對象發現方法成為可能,最重要的是,導致了更平滑的特徵圖和關注圖,以進行下游視覺處理。
我們提出了Any-Modality Augmented Language Model (AnyMAL),這是一個統一的模型,可以推理各種輸入模態信號(例如文本、圖像、視頻、音頻、IMU運動感應器),並生成文本回應。AnyMAL繼承了最先進的語言模型(LLM)包括LLaMA-2(70B)的強大基於文本的推理能力,並通過預先訓練的對齊器模塊將特定於模態的信號轉換為聯合文本空間。為了進一步加強多模態LLM的能力,我們使用手動收集的多模態指令集對模型進行微調,以涵蓋超出簡單問答之外的各種主題和任務。我們進行了全面的實證分析,包括人工和自動評估,並展示了在各種多模態任務上的最先進表現。
最近在3D內容創建方面的最新進展主要利用基於優化的3D生成,通過得分蒸餾採樣(SDS)。儘管展示了有希望的結果,但這些方法通常受到每個樣本優化速度緩慢的困擾,限制了它們的實際應用。在本文中,我們提出了DreamGaussian,一個新穎的3D內容生成框架,同時實現了效率和質量。我們的關鍵見解是設計一個具有伴隨網格提取和UV空間紋理細化的生成式3D高斯擴散模型。與神經輻射場中使用的佔用修剪相比,我們展示了對於3D生成任務,3D高斯逐漸密集化的進展收斂速度顯著更快。為了進一步提高紋理質量並促進下游應用,我們引入了一種將3D高斯轉換為帶紋理網格的高效算法,並應用微調階段來精細化細節。廣泛的實驗證明了我們提出方法的卓越效率和競爭性生成質量。值得注意的是,DreamGaussian僅需2分鐘從單視圖圖像中生成高質量的帶紋理網格,相較於現有方法實現了約10倍的加速。
大型語言模型(LLMs)已經徹底改變了人工智慧領域,使得先前被認為是人類專屬的自然語言處理任務成為可能。在這項工作中,我們介紹了我們大型語言模型系列的第一個版本 - Qwen。Qwen是一個包含不同參數數量的多個模型的全面語言模型系列。它包括Qwen,基礎預訓練語言模型,以及Qwen-Chat,使用人類對齊技術微調的聊天模型。基礎語言模型在眾多下游任務中始終展現出優越性能,而聊天模型,特別是使用來自人類反饋的強化學習(RLHF)訓練的模型,具有很高的競爭力。這些聊天模型具有先進的工具使用和規劃能力,可用於創建代理應用程序,在處理複雜任務時展現出色的性能,甚至與更大的模型相比,如使用代碼解釋器。此外,我們還開發了專門用於編碼的模型,Code-Qwen和Code-Qwen-Chat,以及專注於數學的模型,Math-Qwen-Chat,這些模型是基於基礎語言模型構建的。這些模型在性能上顯著優於開源模型,略遜於專有模型。
本文介紹了基於高斯點陣的文本轉3D生成(GSGEN)方法,這是一種用於生成高質量3D物體的新方法。先前的方法由於缺乏3D先驗和適當表示,導致幾何不準確且保真度有限。我們利用3D高斯點陣,這是一種最新的先進表示方法,通過利用明確的特性來克服現有缺點,實現對3D先驗的整合。具體而言,我們的方法採用漸進優化策略,包括幾何優化階段和外觀細化階段。在幾何優化中,建立了一個粗略表示,根據3D幾何先驗以及普通的2D SDS損失,確保一個合理且符合3D的粗略形狀。隨後,所獲得的高斯點陣經過迭代細化以豐富細節。在這個階段,我們通過基於緊湊性的致密化增加高斯點陣的數量,以增強連續性並提高保真度。通過這些設計,我們的方法可以生成帶有精細細節和更準確幾何的3D內容。廣泛的評估證明了我們的方法的有效性,特別是對於捕捉高頻組件。視頻結果可在https://gsgen3d.github.io 上查看。我們的代碼可在https://github.com/gsgen3d/gsgen 上找到。
我們提出了一系列支援長上下文的LLM模型,能有效處理長達32,768個標記的上下文窗口。我們的模型系列是通過從Llama 2開始持續預訓練,使用更長的訓練序列,以及在一個長文本被上採樣的數據集上構建的。我們對語言建模、合成上下文探測任務以及廣泛的研究基準進行了廣泛評估。在研究基準上,我們的模型在大多數常規任務上實現了一致的改進,在長上下文任務上明顯優於Llama 2。值得注意的是,通過一個成本效益高的指導調整程序,無需人工標註的長指導數據,70B變體已經能夠在一系列長上下文任務上超越gpt-3.5-turbo-16k的整體表現。除了這些結果,我們對我們方法的各個組成部分進行了深入分析。我們深入研究了Llama的位置編碼,並討論了其在建模長依賴性方面的局限性。我們還檢驗了預訓練過程中各種設計選擇的影響,包括數據混合和序列長度的訓練課程--我們的消融實驗表明,在預訓練數據集中擁有豐富的長文本並不是實現強大性能的關鍵,我們在實踐中驗證了長上下文持續預訓練相對於從頭開始使用長序列進行預訓練更有效且同樣有效。
我們旨在解決動畫行業中一個重要但鮮為人知的問題,即卡通線描的中間畫生成。中間畫生成涉及在兩幅黑白線描之間生成中間幀,這是一個耗時且昂貴的過程,可以從自動化中受益。然而,現有依賴匹配和整體光柵圖像變形的幀內插方法不適用於線描的中間畫生成,並且常常產生模糊的畫面,損害了複雜的線條結構。為了保留線描的精確性和細節,我們提出了一種新方法AnimeInbet,將光柵線描幀幀化為端點圖,將中間畫生成任務重新定義為具有頂點重定位的圖融合問題。我們的方法可以有效捕捉線描的稀疏性和獨特結構,同時在中間畫生成過程中保留細節。這是通過我們的新模塊實現的,即頂點幾何嵌入、頂點對應Transformer、頂點重定位的有效機制和可見性預測器。為了訓練我們的方法,我們引入了MixamoLine240,這是一個具有地面真實向量化和匹配標籤的新線描數據集。我們的實驗表明,AnimeInbet合成了高質量、乾淨且完整的中間線描,從定量和定性上優於現有方法,特別是在存在大幅運動的情況下。數據和代碼可在https://github.com/lisiyao21/AnimeInbet 上獲得。
對比式語言-圖像預訓練(CLIP)是一種方法,已推動計算機視覺領域的研究和應用,推動了現代識別系統和生成模型。我們認為 CLIP 成功的主要原因在於其數據,而非模型架構或預訓練目標。然而,CLIP 只提供了非常有限的有關其數據以及如何收集的信息,導致一些研究試圖通過使用其模型參數進行過濾以重現 CLIP 的數據。在這項工作中,我們打算揭示 CLIP 的數據策劃方法,並在我們致力於向社區開放的過程中引入 Metadata-Curated 語言-圖像預訓練(MetaCLIP)。MetaCLIP 採用原始數據池和元數據(從 CLIP 的概念中衍生)並生成一個在元數據分佈上平衡的子集。我們的實驗研究嚴格隔離了模型和訓練設置,僅專注於數據。MetaCLIP 應用於 CommonCrawl 的 4 億圖像-文本數據對,在多個標準基準測試中優於 CLIP 的數據。在零樣本 ImageNet 分類中,MetaCLIP 實現了 70.8% 的準確率,超越了 ViT-B 模型上 CLIP 的 68.3%。在保持相同訓練預算的情況下擴展到 10 億數據,達到了 72.4%。我們的觀察結果適用於各種模型大小,例如 ViT-H 實現了 80.5%,沒有任何花哨的技巧。有關策劃代碼和元數據上的訓練數據分佈可在 https://github.com/facebookresearch/MetaCLIP 找到。
建立在視覺語言模型(如CLIP)基礎上的分類器已展示出在各種圖像分類任務中顯著的零樣本性能。先前的研究探討了不同的自動創建每個類別的描述符集的方法,這些方法基於提示模板,從手動設計的模板到從大型語言模型獲取的模板,再到由隨機單詞和字符構建的模板。相比之下,從相應的編碼類描述符中推導出零樣本分類器幾乎沒有改變,即:將圖像分類到最大化其平均編碼類描述符與編碼圖像之間的余弦相似度的類別。然而,當某些描述符與給定圖像上的視覺線索更匹配時,將所有類描述符等權重可能並不是最優的。在這項工作中,我們提出了AutoCLIP,一種用於自動調整零樣本分類器的方法。AutoCLIP為每個提示模板分配了根據推斷時類描述符-圖像相似性統計得出的權重。AutoCLIP是完全無監督的,開銷非常低,並且可以輕鬆實現,只需幾行代碼。我們展示了對於各種視覺語言模型、數據集和提示模板,AutoCLIP始終且最多可提高3個百分點的準確性,優於基準方法。
對道路代理的未來行為進行可靠預測是自主車輛安全規劃的關鍵組成部分。在這裡,我們將連續軌跡表示為離散運動標記的序列,並將多代理運動預測視為在該領域上的語言建模任務。我們的模型MotionLM具有幾個優勢:首先,它不需要錨點或明確的潛在變量優化來學習多模態分佈。相反,我們利用單一標準語言建模目標,最大化序列標記的平均對數概率。其次,我們的方法繞過事後交互啟發式,其中在交互式評分之前進行單個代理軌跡生成。相反,MotionLM在單一自回歸解碼過程中生成對交互式代理未來的聯合分佈。此外,模型的序列分解使得時間因果條件展開成為可能。所提出的方法在Waymo Open Motion Dataset上為多代理運動預測建立了新的最先進表現,並在互動挑戰排行榜上排名第一。
最近在生成圖像方面的進展帶來了能夠在未知區域生成高質量、貌似真實的圖像內容的外部繪製和內部修補模型,但這些模型幻想的內容必然是不真實的,因為這些模型缺乏有關真實場景的足夠上下文。在這項工作中,我們提出了RealFill,一種新穎的生成方法,用於圖像完成,可以填補圖像中缺失的區域,並填充應該存在的內容。RealFill是一種生成修補模型,僅使用少量場景參考圖像進行個性化。這些參考圖像不必與目標圖像對齊,可以使用截然不同的視角、照明條件、相機光圈或圖像風格拍攝。一旦個性化,RealFill能夠以視覺上引人注目的內容完成目標圖像,並忠實於原始場景。我們在一個新的圖像完成基準測試集上評估了RealFill,該測試集涵蓋了一系列多樣且具有挑戰性的情境,發現其在性能上遠遠優於現有方法。更多結果請參見我們的專案頁面:https://realfill.github.io
隨著大型語言模型(LLMs)的快速發展,迫切需要一個全面的評估套件來評估它們的能力和限制。現有的LLM排行榜通常引用其他論文中報告的分數,但缺乏一致的設置和提示,這可能會無意中鼓勵選擇有利的設置和提示以獲得更好的結果。在這項工作中,我們介紹了GPT-Fathom,這是一個建立在OpenAI Evals之上的開源且可重現的LLM評估套件。我們系統地評估了10多個領先的LLMs以及OpenAI的傳統模型,在7個能力類別下對20多個精心挑選的基準進行了評估,全部在對齊的設置下進行。我們對OpenAI早期模型的回顧研究為我們提供了有價值的見解,從GPT-3到GPT-4的演進路徑。目前,社群急於了解GPT-3如何逐步改進到GPT-4,包括技術細節,例如添加代碼數據是否提高了LLM的推理能力,LLM能力的哪些方面可以通過SFT和RLHF改進,對齊稅是多少等。我們的分析闡明了許多這些問題,旨在提高先進LLMs的透明度。
我們考慮生成多樣且逼真的影片任務,透過各種語義類別的自然音訊樣本進行引導。對於這個任務,影片需要與輸入音訊在全局和時間上對齊:在全局上,輸入音訊與整個輸出影片在語義上相關聯,而在時間上,輸入音訊的每個片段與該影片的相應片段相關聯。我們利用現有的以文本為條件的影片生成模型和預先訓練的音訊編碼器模型。所提出的方法基於一個輕量級的適配器網絡,該網絡學習將基於音訊的表示映射到文本到影片生成模型所期望的輸入表示。因此,它還可以實現基於文本、音訊以及我們可以確定的情況下首次基於文本和音訊的影片生成。我們在三個數據集上廣泛驗證了我們的方法,展示了音視頻樣本的顯著語義多樣性,並進一步提出了一個新穎的評估指標(AV-Align)來評估生成影片與輸入音訊樣本的對齊情況。AV-Align基於兩種模態中能量峰值的檢測和比較。與最近的最先進方法相比,我們的方法生成的影片在內容和時間軸方面與輸入聲音更好地對齊。我們還展示了我們的方法生成的影片呈現更高的視覺質量並且更具多樣性。
為了讓機器人能夠執行各種任務,它們需要一個在語義上豐富、同時又緊湊高效,以供任務驅動的感知和規劃之用的世界3D表示。最近的方法試圖利用來自大型視覺語言模型的特徵來編碼3D表示中的語義。然而,這些方法往往會產生具有每點特徵向量的地圖,在較大環境中無法良好擴展,也不包含環境中實體之間的語義空間關係,這對於下游規劃是有用的。在這項工作中,我們提出了ConceptGraphs,這是一種用於3D場景的開放詞彙圖結構表示。ConceptGraphs是通過利用2D基礎模型並通過多視圖關聯將它們的輸出融合到3D中而構建的。結果表示能夠泛化到新的語義類別,而無需收集大量3D數據集或微調模型。我們通過一些通過抽象(語言)提示指定並需要對空間和語義概念進行複雜推理的下游規劃任務來展示此表示的效用。(項目頁面:https://concept-graphs.github.io/ 解說視頻:https://youtu.be/mRhNkQwRYnc)
語言模型的成功,特別是基於Transformer的架構,已經滲透到其他領域,催生了在小分子、蛋白質或聚合物上運作的「科學語言模型」。在化學領域,語言模型有助於加速分子發現週期,正如最近在早期藥物發現領域取得的有希望的發現所證實的。在這裡,我們回顧了語言模型在分子發現中的作用,強調它們在全新藥物設計、性質預測和反應化學中的優勢。我們突出了有價值的開源軟體資產,從而降低了進入科學語言建模領域的門檻。最後,我們描繪了一個將聊天機器人界面與計算化學工具結合的未來分子設計展望。我們的貢獻為對想要了解語言模型如何以及將如何用於加速化學發現的研究人員、化學家和人工智慧愛好者提供了寶貴資源。
在這份工作中,我們提出了 CCEdit,這是一個多功能框架,旨在應對創意和可控制的視頻編輯挑戰。CCEdit滿足了廣泛的用戶編輯需求,通過一種創新方法解耦視頻結構和外觀,從而實現增強的創意控制。我們利用基礎的 ControlNet 架構來保持結構完整性,同時無縫集成可適應的時間模塊,與文本到圖像生成的最新個性化技術(如 DreamBooth 和 LoRA)兼容。此外,我們引入了參考條件視頻編輯,使用戶能夠通過更易管理的關鍵幀編輯過程,對視頻編輯行使精確的創意控制。我們的廣泛實驗評估證實了所提出的 CCEdit 框架的卓越功能和編輯能力。演示視頻可在以下鏈接中觀看:https://www.youtube.com/watch?v=UQw4jq-igN4。