每日精選AI研究論文及翻譯
大型語言模型(LLMs)和視覺語言模型(VLMs)已被證明在多項任務上表現出色,如常識推理。儘管這些模型強大,但它們並非基於三維物理世界,其中包含更豐富的概念,如空間關係、可供性、物理、佈局等。在這項工作中,我們提議將三維世界注入大型語言模型,並引入全新的三維語言模型家族。具體而言,三維語言模型可以將三維點雲及其特徵作為輸入,執行各種三維相關任務,包括標註、密集標註、三維問答、任務分解、三維定位、三維輔助對話、導航等。通過我們設計的三種提示機制,我們能夠收集涵蓋這些任務的30萬多個三維語言數據。為了有效訓練三維語言模型,我們首先利用一個從渲染的多視圖圖像中獲取三維特徵的三維特徵提取器。然後,我們使用二維VLMs作為基礎來訓練我們的三維語言模型。通過引入三維定位機制,三維語言模型可以更好地捕捉三維空間信息。在ScanQA上的實驗表明,我們的模型在很大程度上優於最先進的基準線(例如,BLEU-1分數超過最先進分數9%)。此外,在我們的三維標註、任務組合和三維輔助對話的持有數據集上進行的實驗顯示,我們的模型優於二維VLMs。定性示例還表明,我們的模型可以執行超出現有LLMs和VLMs範圍的更多任務。項目頁面:https://vis-www.cs.umass.edu/3dllm/。
最近,預訓練的大型語言模型(LLMs)在自主網頁導航中取得了更好的泛化能力和樣本效率。然而,在真實世界網站上的表現仍然受到三個問題的困擾:(1)開放域性,(2)有限的上下文長度,以及(3)對HTML缺乏歸納偏差。我們介紹了WebAgent,一種由LLM驅動的代理,可以根據自然語言指令在真實網站上完成任務。WebAgent通過將指令分解為規範子指令來提前規劃,將長HTML文檔總結為與任務相關的片段,並通過生成的Python程序在網站上執行這些操作。我們設計了擁有Flan-U-PaLM的WebAgent,用於基於代碼生成,以及HTML-T5,用於長HTML文檔的新預訓練LLMs,使用局部和全局注意機制以及混合長跨度去噪目標,用於規劃和總結。我們在實驗中證明,我們的方法使在真實網站上的成功率提高了50%以上,而HTML-T5是解決基於HTML任務的最佳模型;在MiniWoB網頁導航基準測試中比之前的最先進技術高出14.9%的成功率,並在離線任務規劃評估中具有更高的準確性。
在圖像生成和編輯中一個鮮為人知的前沿是在兩個輸入圖像之間進行插值的任務,這是當前所有部署的圖像生成管道中缺少的功能。我們認為這樣的功能可以擴展這些模型的創意應用,並提出了一種使用潛在擴散模型進行零樣本插值的方法。我們在潛在空間中應用插值,在一系列降噪水平上執行,然後進行以插值文本嵌入為條件的降噪,該文本嵌入來自文本反演和(可選)主題姿勢。為了更大的一致性,或者指定額外的標準,我們可以生成幾個候選項,並使用CLIP來選擇最高質量的圖像。我們獲得了跨不同主題姿勢、圖像風格和圖像內容的令人信服的插值,並展示了標準的定量指標如FID無法測量插值的質量。代碼和數據可在https://clintonjwang.github.io/interpolation找到。
大型語言模型已被證明具有高度靈活性,能夠解決各種生成任務,如抽象摘要和開放式問答。本文通過直接附加一個小型音頻編碼器,擴展了LLM的能力,使其能夠執行語音識別。通過將一系列聲音嵌入直接添加到文本標記嵌入之前,LLM可以轉換為自動語音識別(ASR)系統,並且可以像其文本對應物一樣使用。對多語種LibriSpeech(MLS)的實驗表明,將conformer編碼器整合到開源的LLaMA-7B中,使其表現優於單語基準線18%,實現多語種語音識別,盡管LLaMA主要在英文文本上進行訓練。此外,我們進行消融研究,以探討LLM在訓練期間是否可以完全凍結以保持其原始功能,擴展音頻編碼器,並增加音頻編碼器的跨步以生成更少的嵌入。這些研究結果顯示,即使在凍結LLM或在音頻編碼器中使用接近1秒的跨步的情況下,多語種ASR也是可能的,這為LLM在長格式音頻上運作打開了可能性。
以ChatGPT為代表,許多公司已開始提供基於大型Transformer模型的服務。然而,使用此類服務不可避免地會洩漏使用者的提示給模型提供者。先前的研究已探討使用安全多方計算(MPC)來保護Transformer模型的安全推論,其中模型參數和客戶的提示被保密。儘管如此,這些框架在模型性能、效率和部署方面仍然存在限制。為了解決這些限制,我們提出了PUMA框架,以實現快速且安全的Transformer模型推論。我們的框架設計了昂貴功能的高質量近似,例如GeLU和Softmax,顯著降低了安全推論的成本,同時保持了模型性能。此外,我們設計了安全的嵌入和LayerNorm程序,忠實地實現所需功能,而不損害Transformer架構。PUMA比最先進的MPC框架MPCFORMER(ICLR 2023)快大約2倍,並且具有與未進行微調的明文模型相似的準確性(先前的工作未能實現)。 另外,PUMA可以在約5分鐘內評估LLaMA-7B以生成1個標記。據我們所知,這是首次能夠在MPC下評估具有此參數大小的模型。PUMA已在SecretFlow-SPU的Github存儲庫中開源。
隨著大型語言模型(LLMs)執行更困難的任務,驗證其行為的正確性和安全性變得更加困難。一種應對這個問題的方法是促使LLMs將其推理外顯化,例如,讓它們在回答問題時生成逐步推理(Chain-of-Thought;CoT)。這種推理可能使我們能夠檢查模型執行任務所使用的過程。然而,這種方法依賴於所述推理是否忠實地反映了模型的實際推理,而這並不總是成立。為了提高CoT推理的忠實度,我們讓模型通過將問題分解為子問題來生成推理。基於分解的方法在問答任務上取得了很好的表現,有時接近CoT的表現,同時提高了模型在幾個最近提出的指標上所述推理的忠實度。通過強迫模型在不同上下文中回答更簡單的子問題,我們大大提高了模型生成推理的忠實度,同時仍然實現了部分CoT的性能增益。我們的結果表明,有可能提高模型生成推理的忠實度;持續改進可能導致推理,使我們能夠驗證LLM行為的正確性和安全性。
現代語言模型擁有豐富的事實知識。然而,某些事實可能被錯誤歸納或隨時間而過時,導致事實上的生成錯誤。這促使各種編輯方法的發展,允許更新模型編碼的事實。對這些方法的評估主要集中在測試單個事實是否成功注入,以及其他主題的類似預測是否未發生變化。在這裡,我們認為這種評估是有限的,因為注入一個事實(例如“Jack Depp 是 Johnny Depp 的兒子”)會引入“漣漪效應”,即模型需要更新的其他事實(例如“Jack Depp 是 Lily-Rose Depp 的兄弟”)。為了解決這個問題,我們提出了一套新的評估標準,考慮了編輯對相關事實的影響。利用這些標準,我們構建了一個包含 5K 個事實編輯的診斷基準,捕捉各種漣漪效應的類型。我們對知名的編輯方法進行評估,顯示目前的方法未能在模型知識中引入一致的變化。此外,我們發現一個簡單的上下文編輯基線在我們的基準測試中獲得最佳分數,表明模型編輯的一個有前途的研究方向。
我們提出了對比蒸餾強化學習(RLCD)方法,用於使語言模型遵循自然語言原則,而無需使用人類反饋。RLCD通過使用對比的正面和負面提示生成的模擬偏好對來訓練偏好模型,這些對包含高質量和低質量示例。然後使用偏好模型通過強化學習來改進基礎未對齊的語言模型。從實證上看,RLCD在三個不同的對齊任務(無害性、幫助性和故事大綱生成)以及偏好數據模擬的7B和30B模型規模上均優於RLAIF(Bai等人,2022b)和上下文蒸餾(Huang等人,2022)基準。
本文挑戰建構用於訓練大型語言模型(LLMs)的任意至任意網路的傳統範式。我們展示LLMs呈現獨特的通訊模式,其中只有少數GPU組需要彼此之間高頻寬的任意至任意通訊,以達到接近最佳的訓練效能。在這些GPU組之間,通訊是微不足道、稀疏且均勻的。我們提出一種新的網路架構,與LLMs的通訊需求密切相似。我們的架構將叢集分割為一組GPU,這些GPU之間通過非阻塞的任意至任意高頻寬互連相連,我們稱之為HB區域。在HB區域之間,網路僅連接具有通訊需求的GPU。我們稱這種網路為“僅軌道”連接,並展示我們提出的架構將網路成本降低高達75%,相較於最先進的任意至任意Clos網路,同時不影響LLM訓練的性能。
自我監督學習視覺表示一直專注於學習內容特徵,但未捕捉物體運動或位置,並專注於識別和區分圖像和視頻中的物體。另一方面,光流估計是一項任務,不涉及對其估計的圖像內容的理解。我們統一了這兩種方法,並引入了MC-JEPA,一種聯合嵌入預測架構和自我監督學習方法,共同學習光流和內容特徵在共享編碼器內,展示了兩個相關目標;光流估計目標和自我監督學習目標;互相受益,因此學習包含運動信息的內容特徵。所提出的方法在無監督光流基準和常見的自我監督學習方法等下游任務上實現了與現有方法相當的性能,如圖像和視頻的語義分割。
DETR-like 模型顯著提升了檢測器的性能,甚至優於傳統的卷積模型。然而,在傳統的編碼器結構中,對所有 token 一視同仁的處理帶來了冗余的計算負擔。最近的稀疏化策略利用一部分資訊豐富的 token 來降低注意力複雜度,通過稀疏編碼器保持性能。但這些方法往往依賴於不可靠的模型統計。此外,僅僅減少 token 數量會嚴重阻礙檢測性能,限制了這些稀疏模型的應用。我們提出了 Focus-DETR,它專注於更具信息量的 token,以在計算效率和模型準確性之間取得更好的平衡。具體來說,我們通過雙重注意力重構編碼器,其中包括一個考慮多尺度特徵圖中對象的定位和類別語義信息的 token 評分機制。我們有效地放棄了背景查詢,並基於分數增強了細粒度對象查詢的語義交互作用。與相同設置下的最先進的稀疏 DETR-like 檢測器相比,我們的 Focus-DETR 在 COCO 上實現了 50.4AP(+2.2)的性能,複雜度相當。代碼可在以下鏈接找到:https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR 和 https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR。
長期活動預測是一個特別具挑戰性的研究問題,因為它需要理解觀察到的行動之間的時間關係,以及人類活動的變異性和複雜性。儘管依賴昂貴的人類標註進行強監督,但最先進的預測方法通常對未見數據泛化能力差。為了緩解這個問題,我們提出了多尺度視頻預訓練(MVP),這是一種新穎的自監督預訓練方法,通過學習在多個時間尺度上預測未來視頻片段的情境化表示來學習為預測建立堅固的表示。MVP基於我們的觀察,視頻中的行動具有多尺度特性,其中原子行動通常發生在短時間尺度上,而更複雜的行動可能跨越較長的時間尺度。我們將MVP與最先進的自監督視頻學習方法在包括長期行動預期和視頻摘要預測在內的下游長期預測任務上進行比較。我們在Ego4D和Epic-Kitchens-55/100數據集上進行的全面實驗表明,MVP在性能上明顯優於最先進的方法。值得注意的是,MVP在視頻摘要預測方面相對性能提升超過20%的準確性,優於現有方法。