每日精選AI研究論文及翻譯
大型語言模型(LLMs),如ChatGPT,因其出色的自然語言處理能力而受到廣泛關注。然而,這些LLMs在可信度方面存在許多挑戰。因此,確保LLMs的可信度成為一個重要話題。本文介紹TrustLLM,這是一項關於LLMs可信度的全面研究,包括不同可信度維度的原則、建立基準、評估和分析主流LLMs的可信度,以及討論開放挑戰和未來方向。具體而言,我們首先提出了一套涵蓋八個不同維度的可信度LLMs原則。基於這些原則,我們進一步在六個維度上建立了一個基準,包括真實性、安全性、公平性、穩健性、隱私性和機器倫理。然後,我們在TrustLLM中對16個主流LLMs進行了研究,涉及30多個數據集。我們的研究結果首先顯示,一般而言,可信度和效用(即功能有效性)呈正相關。其次,我們的觀察顯示,專有LLMs通常在可信度方面優於大多數開源對手,這引發了對廣泛可訪問的開源LLMs潛在風險的擔憂。然而,一些開源LLMs與專有LLMs非常接近。第三,重要的是要注意,一些LLMs可能過度校準以展示可信度,以至於通過錯誤地將良性提示視為有害而無法回應,從而犧牲了其效用。最後,我們強調確保透明度的重要性,不僅在模型本身,還在支撐可信度的技術上。了解已應用的具體可信度技術對於分析其有效性至關重要。
本技術報告介紹了PIXART-{\delta},一個將潛在一致性模型(LCM)和ControlNet整合到先進的PIXART-{\alpha}模型中的文本到圖像合成框架。PIXART-{\alpha}以其能夠通過非常高效的訓練過程生成1024px分辨率的高質量圖像而聞名。在PIXART-{\delta}中整合LCM顯著加快了推理速度,使得僅需2-4個步驟即可生成高質量圖像。值得注意的是,PIXART-{\delta}實現了在0.5秒內生成1024x1024像素圖像的突破,比PIXART-{\alpha}提高了7倍。此外,PIXART-{\delta}設計為在32GB V100 GPU上在一天內高效訓練。憑藉其8位推理能力(von Platen等,2023年),PIXART-{\delta}可以在8GB GPU內存限制下合成1024px圖像,大大提高了其可用性和可訪問性。此外,引入類似ControlNet的模塊使得對文本到圖像擴散模型進行精細控制成為可能。我們介紹了一種新穎的ControlNet-Transformer架構,專門為Transformer定制,實現了明確的可控性以及高質量圖像生成。作為一種最先進的開源圖像生成模型,PIXART-{\delta}為Stable Diffusion系列模型提供了一個有前途的替代方案,對文本到圖像合成做出了重大貢獻。
Transformers 在概念上與先前一代的最先進自然語言處理(NLP)模型 - 循環神經網絡(RNN)有所不同。在這項工作中,我們展示了僅解碼器的 Transformer 實際上可以被概念化為無限多狀態 RNN - 一種具有無限隱藏狀態大小的 RNN 變體。我們進一步展示,預訓練的 Transformer 可以通過固定其隱藏狀態的大小轉換為有限多狀態 RNN。我們觀察到,幾種現有的 Transformer 緩存壓縮技術可以被視為這種轉換策略,並引入了一種新的策略 TOVA,與這些策略相比更為簡單。我們在幾個長距離任務上的實驗表明,TOVA 優於所有其他基準策略,同時幾乎與完整(無限)模型持平,有時僅使用原始緩存大小的 1/8。我們的結果表明,Transformer 解碼器 LLM 在實踐中通常表現為 RNN。它們還提供了緩解它們最痛苦的計算瓶頸之一 - 緩存內存大小的選項。我們在 https://github.com/schwartz-lab-NLP/TOVA 公開發布我們的代碼。
人類有能力展現策略性的欺騙行為:在大多數情況下表現得很有幫助,但在有機會時會採取非常不同的行為以追求替代目標。如果一個人工智慧系統學會了這種欺騙策略,我們能否利用當前最先進的安全訓練技術來檢測並消除它呢?為了研究這個問題,我們構建了大型語言模型(LLMs)中欺騙行為的概念證明示例。例如,我們訓練模型在提示指定年份為2023時寫出安全代碼,但在指定年份為2024時插入可利用的代碼。我們發現這種後門行為可以變得持久,因此無法通過標準的安全訓練技術(包括監督微調、強化學習和對抗訓練)來消除,後門行為在最大的模型和訓練以產生關於欺騙訓練過程的思維鏈的模型中最為持久,即使思維鏈被提煉掉後,這種持久性仍然存在。此外,我們發現,與其消除後門,對抗訓練可以教導模型更好地識別它們的後門觸發器,有效地隱藏不安全的行為。我們的結果表明,一旦模型展現出欺騙行為,標準技術可能無法消除這種欺騙,並創造出對安全的虛假印象。
我們介紹了一種新方法InseRF,用於在3D場景的NeRF重建中生成物件插入。基於用戶提供的文本描述和參考視角中的2D邊界框,InseRF在3D場景中生成新物件。最近,由於在3D生成建模中使用了文本到圖像擴散模型的強先驗,對於3D場景編輯的方法已經發生了深刻的變革。現有方法主要有效地通過風格和外觀變化或刪除現有物件來編輯3D場景。然而,對於這些方法來說,生成新物件仍然是一個挑戰,我們在本研究中解決了這個問題。具體來說,我們建議將3D物件插入基於參考視角的2D物件插入。然後,通過單視圖物件重建方法將2D編輯提升到3D。然後,在導向單眼深度估計方法的先驗指導下,將重建的物件插入到場景中。我們在各種3D場景上評估了我們的方法,並對所提出的組件進行了深入分析。我們在幾個3D場景中進行的生成物件插入實驗表明,與現有方法相比,InseRF的效果顯著。InseRF能夠實現可控且3D一致的物件插入,而無需作為輸入的明確3D信息。請訪問我們的項目頁面:https://mohamad-shahbazi.github.io/inserf。
現有的逼真可調光手部模型需要在不同視角、姿勢和光線下進行廣泛的特定身份觀察,並面臨著泛化到自然光線和新身份的挑戰。為彌合這一差距,我們提出了URHand,這是第一個可以泛化到不同視角、姿勢、光線和身份的通用可調光手部模型。我們的模型允許使用通過手機拍攝的圖像進行少量快速個性化,並準備好在新光線下進行逼真渲染。為了簡化個性化過程並保留逼真感,我們基於從具有數百個身份的光線舞台中拍攝的多視圖手部圖像進行神經照明的強大通用可調光先驗。關鍵挑戰在於在保持個性化忠實度和細節清晰度的同時擴展跨身份訓練,而不會影響在自然光線下的泛化。為此,我們提出了一個空間變化的線性照明模型作為神經渲染器,該模型以受物理啟發的著色作為輸入特徵。通過去除非線性激活和偏差,我們特別設計的照明模型明確保持了光線傳輸的線性性。這使得可以從光線舞台數據進行單階段訓練,同時在不同身份之間泛化到實時渲染下的任意連續光線。此外,我們介紹了基於物理的模型和我們的神經照明模型的聯合學習,進一步提高了忠實度和泛化性。大量實驗表明,我們的方法在質量和泛化能力方面均優於現有方法。我們還展示了如何從對未見身份進行簡短手機掃描快速個性化URHand。
大型語言模型(LLMs)是強大的對話代理,但將它們專注於實現特定功能可能具有挑戰性。指導調整,即在人類生成的指導和樣本回應上調整模型(Ouyang等,2022年),已被證明是一種有效的方法,但需要大量數據樣本,可能無法獲得或產生成本高昂。此外,當目標是使LLM遵循對話中的特定工作流程而不僅僅是單個指令時,這種成本會增加。受強化學習中的自我對弈技術和使用LLMs模擬人類代理的啟發,我們提出了一種更有效的通過LLMs在不同角色中進行對話來進行數據收集的方法。這種方法通過LLMs的“自我對話”生成訓練數據,可以進行改進並用於監督微調。我們介紹了一種自動化的方法來衡量對話的(部分)成功。該指標用於過濾生成的對話數據,然後餵入LLM進行訓練。根據我們對對話質量的自動化和人工評估,我們證明了這種自我對話數據改進了結果。此外,我們檢驗了展示生成對話質量的各種特徵以及它們如何與作為訓練數據的潛在效用相連接。
思維鏈 (CoT) 在提升大型語言模型 (LLMs) 的推理能力方面具有重要意義。然而,CoT 的效果與提示中推理步驟的長度之間的相關性仍然大多未知。為了揭示這一點,我們進行了幾項實證實驗來探索這些關係。具體而言,我們設計了擴展和壓縮 CoT 演示中的合理推理步驟的實驗,同時保持所有其他因素不變。我們得出以下重要發現。首先,結果表明,在提示中延長推理步驟,即使沒有向提示中添加新信息,也顯著增強了LLMs在多個數據集上的推理能力。相反,縮短推理步驟,即使保留了關鍵信息,也顯著降低了模型的推理能力。這一發現凸顯了CoT提示中步驟數的重要性,並提供了實用指導,以更好地利用LLMs在複雜問題解決情境中的潛力。其次,我們還調查了CoT性能與演示中使用的合理性之間的關係。令人驚訝的是,結果顯示,即使是不正確的合理性,如果保持了必要的推理步驟長度,也可以產生良好的結果。第三,我們觀察到增加推理步驟的優勢是任務依賴的:簡單任務需要較少的步驟,而複雜任務則明顯受益於更長的推理序列。
近期視覺語言模型的進展主要歸因於豐富的圖像文字數據。我們的目標是為視頻語言模型複製這一成功,但目前人工精選的視頻文字數據並不足夠。因此,我們採用從強大的圖像語言基線模型中用合成指導數據進行微調的方法。最終得到的視頻語言模型用於自動標註數百萬個視頻,生成高質量的字幕。我們展示了適應後的視頻語言模型在各種視頻語言基準測試中表現良好。例如,它在開放式NExT-QA測試中超越了最佳先前結果2.8%。此外,我們的模型為以前未見過的視頻生成了詳細描述,提供比現有方法更好的文本監督。實驗表明,一個在這些自動生成字幕上對比訓練的視頻語言雙編碼模型比同樣利用視覺語言模型的最強基線模型提高了3.8%。我們的最佳模型在MSR-VTT零樣本文本到視頻檢索上比最先進的方法提高了6%。
網路上豐富的內容中,高達60%以英文發表,與全球人口形成鮮明對比,僅有18.8%為英文使用者,而只有5.1%將其視為母語,導致線上資訊存取存在差異。不幸的是,用於視頻配音的自動化流程,即將視頻的音軌替換為翻譯版本,仍然是一項複雜且具挑戰性的任務,因為必須考慮到流程、精確的時序、面部動作同步和韻律匹配。儘管端對端配音提供了解決方案,但數據稀缺仍然阻礙了端對端和基於流程的方法的進展。在這項工作中,我們介紹了Anim-400K,這是一個包含超過425K對齊的日語和英語動畫視頻片段的全面數據集,支持各種與視頻相關的任務,包括自動配音、同步翻譯、引導式視頻摘要以及類型/主題/風格分類。我們的數據集已公開提供給研究人員使用,網址為https://github.com/davidmchan/Anim400K。
分數蒸餾取樣(Score Distillation Sampling,SDS)是一種最近廣受歡迎的方法,依賴圖像擴散模型來控制使用文本提示的優化問題。在本文中,我們對SDS損失函數進行了深入分析,識別了其公式中的固有問題,並提出了一個出乎意料但有效的修復方法。具體而言,我們將損失分解為不同因素,並分離出導致梯度噪音的組成部分。在原始公式中,使用高文本引導來解釋噪音,導致了不良的副作用。相反,我們訓練一個淺層網絡來模仿圖像擴散模型的時間步相依性去噪缺陷,以有效地將其因素化。我們通過多個定性和定量實驗展示了我們新型損失公式的多功能性和有效性,包括基於優化的圖像合成和編輯、零樣本圖像翻譯網絡訓練,以及文本到3D合成。
基於Transformer的大型語言模型(LLMs)已被廣泛應用於許多領域,LLM推論的效率已成為實際應用中的熱門話題。然而,LLMs通常在模型結構上設計複雜,具有大量操作,並以自回歸模式執行推論,這使得設計高效系統成為一項具有挑戰性的任務。 在本文中,我們提出了一種具有低延遲和高吞吐量的高效LLM推論解決方案。首先,我們通過融合數據移動和逐元素操作來簡化LLM解碼器層,以降低內存訪問頻率並降低系統延遲。我們還提出了一種分段KV緩存策略,將請求和響應標記的關鍵/值保留在單獨的物理內存中,以進行有效的設備內存管理,有助於擴大運行時批量大小並提高系統吞吐量。我們設計了一個定制的Scaled-Dot-Product-Attention核心,以匹配我們基於分段KV緩存解決方案的融合策略。我們在Intel GPU上實現了我們的LLM推論解決方案並將其公開發布。與標準的HuggingFace實現相比,所提出的解決方案在Intel GPU上可實現高達7倍的較低標記延遲和27倍的更高吞吐量。