每日精選AI研究論文及翻譯
文本到3D生成旨在從文本提示中合成生動的3D物體,引起了計算機視覺社區的廣泛關注。儘管一些現有的作品在這一任務上取得了令人印象深刻的成果,但主要依賴耗時的優化範式。具體來說,這些方法為每個文本提示從頭開始優化一個神經場,生成一個物體大約需要一個小時或更長時間。這種沉重且重複的訓練成本阻礙了它們的實際應用。在本文中,我們提出了一個新的框架,用於快速文本到3D生成,名為Instant3D。一旦訓練完成,Instant3D能夠在不到一秒的時間內使用前向網絡的單次運行為看不見的文本提示創建一個3D物體。我們通過設計一個新的網絡,直接從文本提示中構建一個3D三面體,實現了這種卓越的速度。我們Instant3D的核心創新在於探索有效將文本條件注入網絡的策略。此外,我們提出了一個簡單而有效的激活函數,稱為縮放sigmoid,以取代原始sigmoid函數,將訓練收斂速度提高了十倍以上。最後,為了解決3D生成中的Janus(多頭)問題,我們提出了一種自適應Perp-Neg算法,可以根據訓練過程中Janus問題的嚴重程度動態調整其概念否定比例,有效減少多頭效應。在各種基準數據集上進行的大量實驗表明,所提出的算法在質量和量化方面都優於最先進的方法,同時實現了顯著更好的效率。項目頁面位於https://ming1993li.github.io/Instant3DProj。
最近在開放式世界的3D物件生成方面取得了顯著進展,圖像轉3D方法提供了比其文本轉3D對應物更優越的細緻控制。然而,大多數現有模型在同時提供快速生成速度和對輸入圖像高保真度方面仍有不足,這兩個特點對於實際應用至關重要。在本文中,我們提出了One-2-3-45++,一種創新方法,可以將單張圖像轉換為細緻的3D紋理網格,大約需要一分鐘的時間。我們的方法旨在充分利用嵌入在2D擴散模型和有價值但有限的3D數據中的豐富知識。這是通過首先對2D擴散模型進行微調,以實現一致的多視圖圖像生成,然後通過多視圖條件化的3D本地擴散模型將這些圖像提升到3D來實現的。廣泛的實驗評估表明,我們的方法能夠生成高質量、多樣化的3D資產,與原始輸入圖像非常接近。我們的項目網頁:https://sudo-ai-3d.github.io/One2345plus_page。
大型預訓練語言模型(LLMs)的流暢度和創造力已導致它們被廣泛使用,有時甚至取代傳統搜索引擎。然而,語言模型容易做出令人信服但事實不準確的主張,通常被稱為「幻覺」。這些錯誤可能無意中傳播錯誤信息或有害地固化誤解。此外,對模型回應進行手動事實檢查是一個耗時的過程,使得人工事實標籤的獲取成本很高。在這項工作中,我們對語言模型進行微調,使其更具事實性,而無需人類標記,並針對比過去工作更開放的生成設置。我們利用自然語言處理(NLP)中的兩個關鍵最新創新來實現這一點。首先,一些最近的研究提出了評判開放式文本事實性的方法,通過測量與外部知識庫或僅僅大型模型的信心分數的一致性。其次,直接偏好優化算法使語言模型可以直接在非監督模仿以外的目標上進行簡單微調,使用對可能的模型回應的偏好排序。我們展示了從自動生成的事實性偏好排序中學習,通過現有檢索系統或我們的新穎無檢索方法生成,相對於針對事實性的RLHF或解碼策略,明顯提高了Llama-2在保留主題上的事實性(生成主張中正確的百分比)。在7B規模上,與Llama-2-chat相比,我們觀察到在生成傳記和回答醫學問題時,事實性錯誤率分別減少了58%和40%。
在這份研究中,我們系統性地回顧了最近在代碼處理方面與語言模型相關的進展,涵蓋了50多種模型、30多個評估任務和500篇相關作品。我們將代碼處理模型分為一般語言模型(如GPT家族)和專門在代碼上預訓練的特殊模型,通常具有定制目標。我們討論了這些模型之間的關係和差異,並突出了代碼建模從統計模型和RNN到預訓練Transformer和LLM的歷史轉變,這正是NLP所採取的相同路徑。我們還討論了代碼特定功能,如AST、CFG和單元測試,以及它們在訓練代碼語言模型中的應用,並確定了這一領域中的關鍵挑戰和潛在未來方向。我們將這份調查保持開放並更新在GitHub存儲庫上,網址為https://github.com/codefuse-ai/Awesome-Code-LLM。
大型語言模型(LLMs)的一項核心能力是遵循自然語言指令。然而,對此類能力的評估並未標準化:人類評估昂貴、緩慢,且缺乏客觀可重複性,而基於LLM的自動評估可能存在偏見,或受評估LLM的能力所限制。為了克服這些問題,我們引入了用於大型語言模型的指令遵循評估(IFEval)。IFEval是一個直觀且易於重現的評估基準。它專注於一組“可驗證指令”,如“撰寫超過400字”和“至少提到AI關鍵詞3次”。我們確定了25種這些可驗證指令,並構建了約500個提示,每個提示包含一個或多個可驗證指令。我們展示了市場上兩款廣泛可用的LLM的評估結果。我們的程式碼和數據可在https://github.com/google-research/google-research/tree/master/instruction_following_eval 找到。
我們展示了一種情況,即訓練成為有幫助、無害和誠實的大型語言模型可能會展現不一致的行為,並且在沒有受到指示的情況下,策略性地欺騙用戶關於這種行為。具體來說,我們在一個逼真的模擬環境中部署 GPT-4 作為一個自主股票交易代理人的角色。在這個環境中,該模型獲得一個內幕消息關於一筆有利可圖的股票交易,並在明知公司管理層不贊成內幕交易的情況下採取行動。在向其經理匯報時,該模型始終隱瞞其交易決策背後的真正原因。我們對這種行為如何隨著環境設置的變化而變化進行了簡要調查,例如刪除模型對推理草稿板的訪問權限,嘗試通過更改系統指令來防止不一致的行為,改變模型所承受的壓力量,變化被抓到的風險的感知,以及對環境進行其他簡單的更改。據我們所知,這是第一次展示大型語言模型在逼真情況下策略性地欺騙用戶,而沒有直接的欺騙指示或訓練。
在這項工作中,我們提出了FastCoT,一個基於平行解碼的模型無關框架,無需對輔助模型進行進一步訓練或對LLM本身進行修改。FastCoT使用一個大小可變的上下文窗口,其大小隨位置變化,以同時進行平行解碼和自回歸解碼,從而充分利用GPU計算資源。在FastCoT中,平行解碼部分為LLM提供了未來的快速概覽,由近似標記組成,這可能比因果變換器使用的常規自回歸解碼更快地產生答案。我們還提供了LLM內平行解碼的實現,支持KV-快取生成和批處理。通過廣泛的實驗,我們展示了FastCoT相較於常規方法,節省了近20%的推論時間,而性能下降幾乎可以忽略不計。此外,我們表明上下文窗口大小對於不同任務具有相當的韌性。
大型語言模型(LLM)已成為許多機器學習應用中的重要組成部分。然而,訓練LLM的標準方法需要大量緊密相連的加速器,這些設備在每個優化步驟中交換梯度和其他中間狀態。雖然建立和維護一個托管許多加速器的單個計算叢集很困難,但在每個托管較少設備的多個計算叢集中找到可能更容易。在這項工作中,我們提出了一種分佈式優化算法,即分佈式低通信(DiLoCo),它使得可以在連接較差的設備島上訓練語言模型。這種方法是聯邦平均的一種變體,其中內部步驟數量很大,內部優化器是AdamW,外部優化器是Nesterov動量。在廣泛使用的C4數據集上,我們展示了DiLoCo在8個工作者上的表現與完全同步優化相當,同時通信次數減少了500倍。DiLoCo對每個工作者的數據分佈表現出很強的韌性。它還對資源隨時間變得不可用表現出韌性,反之亦然,它可以無縫地利用在訓練期間變得可用的資源。
近年來,大型語言模型(LLMs)展現出卓越的生成能力,但它們能否判斷自身生成的質量呢?一個流行的概念,被稱為自我完善,假設LLMs在被要求時能夠檢測並修正其生成中的錯誤。然而,最近的實證證據指向相反的方向,表明當涉及推理時,LLMs往往難以準確識別錯誤。為了應對這一問題,我們提出了一個名為ART的推理與完善目標,該目標要求提出必要的問題以決定LLMs何時應該完善其輸出,並通過對完善和初始預測進行排名來肯定或保留對其完善的信任。在兩個多步推理任務中,包括數學文字問題(GSM8K)和問答(StrategyQA),ART相對於自我完善基線實現了+5分的性能增益,同時使用一個規模更小的模型作為決策者。我們還展示了使用較小模型做出完善決策的好處,作為與微調較大模型相比的一種具有成本效益的替代方案。
最近,指令遵循的語音語言模型因其與人類的語音互動而受到廣泛關注。然而,缺乏能夠處理多樣語音類型和任務的預訓練語音模型,阻礙了這一領域的進展。因此,大多數現有研究僅能支持有限範圍的互動能力。在本文中,我們開發了 Qwen-Audio 模型,通過擴展語音語言預訓練範圍至超過 30 個任務和各種語音類型,如人類語音、自然聲音、音樂和歌曲,以促進通用語音理解能力,從而解決了這一限制。然而,直接共同訓練所有任務和數據集可能導致干擾問題,因為不同數據集的文本標籤由於任務焦點、語言、標註的細節和文本結構的差異而存在顯著變化。為了克服這種一對多的干擾,我們通過在解碼器上條件化一系列階層標籤來精心設計多任務訓練框架,以鼓勵知識共享,並通過共享和指定的標籤分別避免干擾。值得注意的是,Qwen-Audio 在各種基準任務上取得了令人印象深刻的性能,而無需進行任務特定的微調,超越了其競爭對手。基於 Qwen-Audio 的能力,我們進一步開發了 Qwen-Audio-Chat,允許從各種語音和文本輸入進行輸入,實現多輪對話並支持各種以語音為中心的情境。
紅隊測試是在大型語言模型(LLMs)中減少不安全行為的常見做法,涉及徹底評估LLMs以識別潛在缺陷並以負責任和準確的回應加以解決。儘管有效,手動紅隊測試成本高昂,現有的自動紅隊測試通常發現安全風險但未加以解決。在本文中,我們提出了一種多輪自動紅隊測試(MART)方法,該方法結合了自動對抗提示撰寫和安全回應生成,顯著提高了紅隊測試的可擴展性和目標LLM的安全性。具體而言,對抗性LLM和目標LLM以迭代方式相互作用,其中對抗性LLM旨在生成具挑戰性的提示,引發目標LLM的不安全回應,而目標LLM則通過這些對抗性提示上的安全對齊數據進行微調。在每一輪中,對抗性LLM對更新的目標LLM製定更好的攻擊策略,同時目標LLM也通過安全微調來改進自身。在對抗性提示基準上,在經過4輪MART後,具有有限安全對齊的LLM的違規率降低了高達84.7%,實現了與具有廣泛對抗性提示撰寫的LLMs相當的性能。值得注意的是,在迭代過程中,模型對非對抗性提示的幫助性保持穩定,表明目標LLM在遵循指示方面保持著良好的性能。