每日精選AI研究論文及翻譯
生成人工智慧(GenAI)系統正越來越廣泛地應用於各行業和研究領域。開發人員和最終用戶通過提示或提示工程與這些系統互動。儘管提示是一個廣泛研究的概念,但由於這一領域尚處於起步階段,存在衝突的術語和對提示構成的本体論理解不足。本文通過組建提示技術的分類法並分析其使用,建立了對提示的結構化理解。我們提出了一個包含33個詞彙術語的全面詞彙表,一個包含58種僅限文本提示技術的分類法,以及40種其他模式的技術。我們進一步對自然語言前綴提示的整個文獻進行了元分析。
最近生成模型的進步突顯了影像標記化在高分辨率圖像有效合成中的關鍵作用。標記化將圖像轉換為潛在表示,相較於直接處理像素,降低了計算需求,增強了生成過程的效果和效率。先前的方法,如VQGAN,通常使用具有固定下採樣因子的2D潛在網格。然而,這些2D標記化在處理圖像中存在的固有冗餘時面臨挑戰,其中相鄰區域經常呈現相似性。為了克服這個問題,我們引入了基於Transformer的一維標記化器(TiTok),這是一種將圖像標記化為一維潛在序列的創新方法。TiTok提供了更緊湊的潛在表示,比傳統技術產生了更高效和有效的表示。例如,一個256 x 256 x 3的圖像可以被縮減為僅32個離散標記,這與先前方法獲得的256或1024個標記相比有顯著的減少。儘管其緊湊的特性,TiTok在與最先進方法的性能上達到了競爭力。具體而言,在相同的生成器框架下,TiTok在ImageNet 256 x 256基準測試中達到了1.97的gFID,明顯優於MaskGIT基線4.21。當涉及更高分辨率時,TiTok的優勢變得更加顯著。在ImageNet 512 x 512基準測試中,TiTok不僅優於最先進的擴散模型DiT-XL/2(gFID 2.74 vs. 3.04),還將圖像標記減少了64倍,導致生成過程快410倍。我們表現最佳的變體可以顯著超越DiT-XL/2(gFID 2.13 vs. 3.04),同時生成高質量樣本快74倍。
大型語言模型(LLMs)在程式碼理解、完成和生成任務中展現了顯著的進展。程式設計基準測試由一系列程式碼挑戰和相應的測試案例組成,用作評估不同LLMs在這些任務中的能力的標準。然而,大多數現有的基準測試主要集中在Python上,仍然僅限於有限數量的語言,其他語言是從Python樣本翻譯而來(例如MultiPL-E),降低了數據的多樣性。為了進一步促進程式碼LLMs的研究,我們提出了一個包含40種程式設計語言(McEval)的大規模多語言程式碼基準測試,其中包含16K個測試樣本,大幅推動了程式碼LLMs在多語言情境中的極限。該基準測試包含具有精心策劃的大規模多語言指令語料庫McEval-Instruct的具有挑戰性的程式碼完成、理解和生成評估任務。此外,我們引入了一個在McEval-Instruct上訓練的有效多語言編碼器mCoder,以支持多語言程式設計語言生成。對McEval的廣泛實驗結果顯示,在眾多語言中,開源模型和封閉源LLMs(例如GPT系列模型)之間仍存在著艱難的旅程。指令語料庫、評估基準測試和排行榜可在https://mceval.github.io/上找到。
圖像編輯是一項實用但具有挑戰性的任務,考慮到用戶的多樣需求,其中最困難的部分之一是準確描述編輯後的圖像應該是什麼樣子。在這項工作中,我們提出了一種新形式的編輯,稱為模仿式編輯,以幫助用戶更方便地發揮創造力。具體而言,為了編輯感興趣的圖像區域,用戶可以直接從一些在野外參考資料(例如,在線上偶然遇到的一些相關圖片)中汲取靈感,而無需擔心參考資料與來源之間的契合度。這種設計要求系統自動理解如何從參考資料中進行編輯。為此,我們提出了一個生成式訓練框架,名為MimicBrush,該框架從視頻剪輯中隨機選擇兩個幀,對其中一個幀的某些區域進行遮罩,並學習使用另一個幀的信息來恢復被遮罩的區域。通過這種方式,我們的模型,從擴散先驗中發展而來,能夠以自監督的方式捕捉分離圖像之間的語義對應。我們在各種測試案例下實驗性地展示了我們方法的有效性以及其優於現有替代方案的優越性。我們還構建了一個基準來促進進一步的研究。
人工智慧正在經歷一個範式轉變,透過系統協調多個大型語言模型(LLMs)和其他複雜組件取得突破。因此,為複合人工智慧系統開發原則性和自動化優化方法是其中一個最重要的新挑戰。神經網絡在早期也面臨類似的挑戰,直到反向傳播和自動微分透過使優化變得即插即用而改變了這個領域。受此啟發,我們介紹了TextGrad,一個強大的框架,通過文本執行自動“微分”。TextGrad將LLMs提供的文本反饋反向傳播到複合人工智慧系統的各個組件以進行改進。在我們的框架中,LLMs提供豐富、通用、自然語言的建議,以優化計算圖中的變數,範圍從程式碼片段到分子結構。TextGrad遵循PyTorch的語法和抽象,靈活且易於使用。它可立即應用於各種任務,用戶只需提供目標函數,無需調整框架的組件或提示。我們展示了TextGrad在各種應用中的有效性和通用性,從問答和分子優化到放射治療計劃。在不修改框架的情況下,TextGrad將Google-Proof問答中GPT-4o的零樣本準確率從51%提高到55%,在優化LeetCode-Hard編碼問題解決方案方面獲得了20%的相對性能增益,改進了推理提示,設計了具有理想體外結合性的新藥物樣品,並設計了具有高特異性的放射腫瘤學治療計劃。TextGrad奠定了加速下一代人工智慧系統發展的基礎。
複雜的多步驗證任務,例如解決數學問題或生成代碼,即使對於最先進的大型語言模型(LLMs)來說,仍然是一個重要障礙。通過使用結果獎勵模型(ORM)在推理時對LLM輸出進行驗證是一種標準的技術,旨在提高LLMs的推理性能。然而,這對於具有冗長或多跳推理鏈的推理任務仍然不足,其中中間結果既未得到適當獎勵也未受到懲罰。過程監督通過在推理過程中分配中間獎勵來解決這一限制。迄今為止,用於收集過程監督數據的方法依賴於人工標註或每步蒙特卡洛估計,這兩者都難以擴展,因此阻礙了這種技術的廣泛應用。為應對這一挑戰,我們提出了一種名為OmegaPRM的新型分治式蒙特卡羅樹搜索(MCTS)算法,用於高效收集高質量的過程監督數據。該算法通過二分搜索迅速識別了“思維鏈”(CoT)中的第一個錯誤,並平衡了正面和負面示例,從而確保了效率和質量。因此,我們能夠收集超過150萬個過程監督標註,以訓練一個過程獎勵模型(PRM)。利用這種完全自動化的過程監督以及加權自一致性算法,我們提高了指導調整的Gemini Pro模型在數學推理性能上的表現,實現了在MATH基準測試中69.4%的成功率,比51%的基礎模型性能提高了36%。此外,整個過程無需任何人工干預,使我們的方法在財務和計算成本上相比現有方法更具成本效益。
本文介紹了MCT Self-Refine(MCTSr)演算法,這是一種創新的大型語言模型(LLMs)與蒙特卡羅樹搜索(MCTS)相結合的方法,旨在增強在複雜數學推理任務中的性能。為了應對LLMs在策略和數學推理方面準確性和可靠性方面的挑戰,MCTSr利用系統性探索和啟發式自我完善機制來改進LLMs內的決策框架。該演算法通過選擇、自我完善、自我評估和反向傳播的迭代過程構建蒙特卡羅搜索樹,利用改進的上信心邊界(UCB)公式來優化探索和利用之間的平衡。大量實驗證明MCTSr在解決奧林匹亞數學問題方面的有效性,顯著提高了跨多個數據集的成功率,包括GSM8K、GSM Hard、MATH以及奧林匹亞級基準測試,如Math Odyssey、AIME和OlympiadBench。該研究推動了LLMs在複雜推理任務中的應用,為未來AI整合奠定了基礎,提高了LLMs驅動應用中的決策準確性和可靠性。
在這份技術報告中,我們介紹了在開發擁有1460億參數和16個專家的高性能混合專家(MoE)大型語言模型(LLM)Skywork-MoE時採用的訓練方法。該模型是從我們的Skywork-13B模型的現有密集檢查點初始化而來。我們探討了升級循環使用與從頭開始訓練初始化之間的比較有效性。我們的研究結果表明,在這兩種方法之間的選擇應該考慮現有密集檢查點的性能和MoE訓練預算。我們突出了兩種創新技術:閘控邏輯歸一化,可以改善專家的多樣性,以及自適應輔助損失係數,允許對輔助損失係數進行層特定調整。我們的實驗結果驗證了這些方法的有效性。利用這些技術和見解,我們在我們的SkyPile語料庫的簡化子集上訓練了我們升級的Skywork-MoE。評估結果表明,我們的模型在廣泛的基準測試中表現出色。
產生結合視覺和聽覺感官體驗對於沉浸式內容的消費至關重要。最近神經生成模型的進步使得能夠跨多種模態,如圖像、文本、語音和影片,創建高分辨率內容成為可能。儘管取得了這些成功,但在生成與視覺內容相輔相成的高質量空間音訊方面仍存在顯著差距。此外,目前的音訊生成模型在生成自然音訊、語音或音樂方面表現出色,但在整合沉浸式體驗所需的空間音訊提示方面則表現不佳。在本研究中,我們介紹了一種名為SEE-2-SOUND的零樣本方法,將任務分解為:(1)識別視覺感興趣區域;(2)在3D空間中定位這些元素;(3)為每個元素生成單聲道音訊;以及(4)將它們整合到空間音訊中。使用我們的框架,我們展示了為高質量影片、圖像和來自互聯網的動態圖像,以及由學習方法生成的媒體生成空間音訊的引人入勝結果。
現有的動態場景生成方法主要依賴於從預先訓練的3D生成模型中提煉知識,這些模型通常在合成物體數據集上進行微調。因此,生成的場景通常以物體為中心,缺乏照片逼真度。為了解決這些限制,我們提出了一種新的流程,專為照片逼真的文本到4D場景生成而設計,並且不依賴於多視圖生成模型,而是充分利用在多樣真實世界數據集上訓練的視頻生成模型。我們的方法首先使用視頻生成模型生成參考視頻。然後,我們通過從參考視頻精心生成的凍結時間視頻來學習視頻的規範3D表示。為了處理凍結時間視頻中的不一致性,我們共同學習每幀變形,以建模這些缺陷。然後,我們基於規範表示學習時間變形,以捕捉參考視頻中的動態交互作用。這個流程促進了具有增強照片逼真度和結構完整性的動態場景生成,可以從多個角度觀看,從而確立了4D場景生成的新標準。
擴散模型因其在各種應用中具有強大的生成能力而引起了社區的廣泛興趣。然而,它們典型的多步驟序列去噪特性導致高累積延遲,因此排除了平行計算的可能性。為了解決這個問題,我們引入了AsyncDiff,這是一種通用且即插即用的加速方案,可以實現模型在多個設備之間的平行性。我們的方法將繁瑣的噪聲預測模型分為多個組件,並將每個組件分配給不同的設備。為了打破這些組件之間的依賴鏈,它將傳統的序列去噪轉換為一個非同步過程,通過利用連續擴散步驟中隱藏狀態之間的高相似性。因此,每個組件都可以在不同的設備上並行計算。所提出的策略顯著降低了推理延遲,同時對生成質量的影響最小。具體而言,對於Stable Diffusion v2.1,AsyncDiff實現了2.7倍的加速,幾乎沒有降低,並實現了4.0倍的加速,僅對CLIP分數有輕微的0.38降低,在四個NVIDIA A5000 GPU上。我們的實驗還表明,AsyncDiff可以輕鬆應用於具有令人鼓舞表現的視頻擴散模型。代碼可在https://github.com/czg1225/AsyncDiff找到。
儘管擴散模型擅長生成高質量圖像,先前的研究報告指出擴散模型與自回歸(AR)方法在語言建模上存在顯著的性能差距。在本研究中,我們展示了簡單的遮罩離散擴散比先前預期的表現更好。我們應用了一個有效的訓練配方,提高了遮罩擴散模型的性能,並推導出一個簡化的 Rao-Blackwellized 目標,帶來額外的改進。我們的目標具有簡單的形式 -- 它是傳統遮罩語言建模損失的混合,可用於訓練僅具有編碼器的語言模型,允許高效的取樣器,包括能夠半自回歸地生成任意長度文本的傳統語言模型。在語言建模基準測試中,使用現代工程實踐訓練的各種遮罩擴散模型實現了新的擴散模型最佳表現,並接近自回歸困惑度。我們在以下鏈接釋出我們的程式碼:https://github.com/kuleshov-group/mdlm
大型語言模型(LLM)在醫學問答基準上取得了令人印象深刻的表現。然而,高基準準確度並不意味著性能可以泛化到真實世界的臨床環境。醫學問答基準依賴與量化LLM性能一致的假設,但這些假設在臨床開放世界中可能不成立。然而,LLM學習了廣泛的知識,可以幫助LLM在實際條件下泛化,而不受慶祝基準中不切實際假設的影響。我們希望量化當基準假設被違反時,LLM醫學問答基準性能的泛化程度。具體來說,我們提出了一種對抗方法,稱為MedFuzz(用於醫學模糊)。MedFuzz試圖以混淆LLM為目的修改基準問題。我們通過針對MedQA基準中呈現的患者特徵的強假設展示了這種方法。成功的“攻擊”以一種不太可能欺騙醫學專家但仍然“欺騙”LLM從正確答案變為不正確答案的方式修改基準項目。此外,我們提出了一種排列測試技術,可以確保成功的攻擊在統計上具有顯著性。我們展示了如何使用在“MedFuzzed”基準上的性能,以及單個成功的攻擊。這些方法顯示了在更現實的環境中提供LLM運作穩健性洞察的潛力。
我們提出了DenseAV,一種新穎的雙編碼對齊架構,通過觀看視頻僅學習高分辨率、語義有意義且視聽對齊的特徵。我們展示了DenseAV可以在沒有明確定位監督的情況下發現單詞的「含義」和聲音的「位置」。此外,它可以在沒有監督的情況下自動發現和區分這兩種關聯類型。我們展示了DenseAV的定位能力來自一個新的多頭特徵聚合運算子,該運算子直接比較密集的圖像和音頻表示以進行對比學習。相比之下,許多學習「全局」音頻和視頻表示的其他系統無法定位單詞和聲音。最後,我們提供了兩個新數據集,以改進通過語音和聲音提示的語義分割的評估。在這些數據集和其他數據集上,我們展示了DenseAV在語音和聲音提示的語義分割方面遠遠優於先前的技術。DenseAV在跨模態檢索方面的表現優於之前的最新技術ImageBind,並且使用的參數不到一半。項目頁面:https://aka.ms/denseav{https://aka.ms/denseav}
單張圖像燈光重製是一項具有挑戰性的任務,需要推理幾何、材質和燈光之間的複雜互動。許多先前的方法僅支持特定類別的圖像,如肖像,或需要特殊的拍攝條件,例如使用手電筒。另外,一些方法明確地將場景分解為內在組件,如法線和BRDF,但這可能不準確或表達不足。在這項工作中,我們提出了一種新穎的端對端2D燈光重製擴散模型,稱為神經Gaffer,它接受任何物體的單張圖像,可以在任何新環境燈光條件下合成準確、高質量的燈光重製圖像,只需將圖像生成器條件化為目標環境地圖,而無需明確場景分解。我們的方法基於預先訓練的擴散模型,並在合成燈光重製數據集上進行微調,揭示並利用擴散模型中存在的對燈光的固有理解。我們在合成和野外互聯網圖像上評估我們的模型,並展示其在泛化和準確性方面的優勢。此外,通過與其他生成方法結合,我們的模型使許多下游2D任務成為可能,如基於文本的燈光重製和物體插入。我們的模型還可以作為3D任務的強烈燈光先驗,例如對輻射場進行燈光重製。
大型語言模型(LLMs)對抗逆向操作(如越獄攻擊)的穩健性仍然是一個重要挑戰。在這項工作中,我們提出了一種方法,增強LLM的自我評論能力,並進一步在經過消毒的合成數據上進行微調。通過添加一個外部評論模型,可以將其與原始模型合併,從而增強自我評論能力並改善LLM對逆向提示的響應的穩健性。我們的結果表明,合併和自我評論的組合可以顯著降低對手的攻擊成功率,從而提供一種有前途的防禦機制來抵禦越獄攻擊。代碼、數據和模型可在以下鏈接找到:https://github.com/vicgalle/merging-self-critique-jailbreaks。