每日精選AI研究論文及翻譯
我們提出了一種新方法,用於系統性地映射稀疏自編碼器在大型語言模型的連續層中發現的特徵,擴展了早期研究,該研究檢驗了層間特徵連結。通過使用無數據餵入的餘弦相似度技術,我們追蹤特定特徵在每個階段的持續性、轉換或首次出現方式。這種方法產生了特徵演變的細粒度流程圖,實現了細緻的可解釋性,並深入了解模型計算的機制。至關重要的是,我們展示了這些跨層特徵映射如何促進通過放大或抑制選定特徵來直接引導模型行為,實現文本生成中的有針對性主題控制。總的來說,我們的發現突顯了一種因果、跨層可解釋性框架的實用性,不僅澄清了特徵如何通過前向傳遞進行發展,還提供了大型語言模型透明操作的新手段。
我們介紹了AlphaGeometry2,這是Trinh等人(2024年)提出的AlphaGeometry的顯著改進版本,現在已超越了平均金牌得主在解決奧林匹亞幾何問題方面的能力。為了實現這一點,我們首先擴展了原始的AlphaGeometry語言,以應對涉及物體運動的更難問題,以及包含角度、比例和距離的線性方程的問題。這些改進與其他添加一起,顯著提高了AlphaGeometry語言在2000-2024年國際數學奧林匹亞(IMO)幾何問題中的覆蓋率,從66%提高到88%。AlphaGeometry2的搜索過程也得到了很大改善,通過使用Gemini架構進行更好的語言建模,以及一種結合多個搜索樹的新型知識共享機制。再加上對符號引擎和合成數據生成的進一步增強,我們將AlphaGeometry2對過去25年所有幾何問題的整體解決率顯著提升到84%,而之前為54%。AlphaGeometry2也是在IMO 2024年獲得銀牌標準的系統的一部分。最後,我們報告了在將AlphaGeometry2作為完全自動化系統的一部分,可可靠地從自然語言輸入直接解決幾何問題的進展。
豐富的多模擬擴散Transformer(DiTs)的表示是否展現出能增強其可解釋性的獨特特性?我們引入了ConceptAttention,一種新穎的方法,利用DiT注意力層的表達能力來生成高質量的显著性地圖,精確定位圖像中的文本概念。ConceptAttention不需要額外的訓練,重新利用DiT注意力層的參數來產生高度情境化的概念嵌入,這是一項重大發現,即在DiT注意力層的輸出空間中執行線性投影,相較於常用的交叉注意力機制,能產生顯著更清晰的显著性地圖。值得注意的是,ConceptAttention甚至在零樣本圖像分割基準測試中取得了最先進的表現,在ImageNet-Segmentation數據集以及PascalVOC的單類別子集上,優於其他11種零樣本可解釋性方法。我們的工作首次證明,像Flux這樣的多模擬DiT模型的表示對於分割等視覺任務具有高度可轉移性,甚至優於像CLIP這樣的多模擬基礎模型。
隨著語言模型(LM)能力的提升,對其進行大規模評估和監督對人類來說變得更加困難。有希望其他語言模型可以自動化這兩個任務,我們稱之為「AI監督」。我們研究了模型相似性如何影響AI監督的兩個方面,提出了一個基於模型錯誤重疊的LM相似性的概率度量。利用這個度量,我們首先展示了作為評判的LLM對模型進行評分偏好於與評判相似的模型,概括了最近的自我偏好結果。然後,我們研究了在LM標註上的訓練,發現弱監督者和強學生模型之間的互補知識在「由弱到強的泛化」中扮演了關鍵角色。隨著模型能力的提高,發現其錯誤變得更加困難,我們可能會更多地依賴AI監督。然而,我們觀察到一個令人擔憂的趨勢——隨著能力的增強,模型的錯誤變得更加相似,指向由相關失敗帶來的風險。我們的工作強調了報告和校正模型相似性的重要性,特別是在AI監督新興範式中。
最近在大型語言模型方面的進展,特別是在 GPT-4o 之後,引發了對開發全模態模型的興趣,這些模型能夠理解更多模態。儘管出現了一些開源替代方案,但在性能上仍然明顯落後於專門的單模態模型。本文介紹了一個名為 Ola 的全模態語言模型,與專門模型相比,在圖像、視頻和音頻理解方面取得了競爭性表現。Ola 的核心設計在於其漸進式模態對齊策略,逐步擴展語言模型的支持模態。我們的訓練流程從最不同的模態開始:圖像和文本,然後逐步擴展模型的技能集,使用連接語言和音頻知識的語音數據,以及連接所有模態的視頻數據。漸進式學習流程還使我們能夠保持相對較小的跨模態對齊數據,使從現有的視覺語言模型開發全模態變得容易且成本較低。此外,為了實現像 GPT-4o 這樣的先進互動體驗,我們進一步設計了一種句子級解碼解決方案,用於流式語音生成。大量實驗表明,Ola 在所有模態上均優於現有的開源全模態語言模型,同時與同等大小的最先進專門模型達到了高度競爭性的性能。我們的目標是將 Ola 打造成一個完全開源的全模態理解解決方案,以推動這一新興領域的未來研究。模型權重、代碼和數據已在 https://github.com/Ola-Omni/Ola 上開源。
我們提出了一種方法,用於將真實世界的影片與新生成的動態內容相結合。給定一個輸入影片和一個簡單的用戶提供的描述所需內容的文本指令,我們的方法合成動態物件或複雜的場景效果,這些效果會與現有場景自然地互動。新內容的位置、外觀和運動無縫地融入原始影片中,同時考慮攝像機運動、遮擋和與場景中其他動態物件的互動,從而產生一個連貫且逼真的輸出影片。我們通過一個零-shot、無需訓練的框架實現這一點,該框架利用預先訓練的文本到影片擴散變壓器來合成新內容,並利用預先訓練的視覺語言模型詳細展望擴增場景。具體來說,我們引入了一種新穎的基於推理的方法,該方法在注意機制內操作特徵,實現新內容的準確定位和無縫集成,同時保持原始場景的完整性。我們的方法完全自動化,僅需要簡單的用戶指令。我們展示了它對應用於真實世界影片的各種編輯的有效性,這些編輯涉及各種物件和情境,包括攝像機和物件運動。
最近在基於文本的大型語言模型(LLMs)方面取得了重大進展,特別是在GPT系列和o1模型中,展示了在訓練時間和推理時間計算方面進行擴展的有效性。然而,目前最先進的文本轉語音(TTS)系統利用LLMs通常是多階段的,需要單獨的模型(例如,在LLM之後的擴散模型),這使得在訓練或測試期間擴展特定模型的決策變得複雜。本研究提出以下貢獻:首先,我們探索了語音合成的訓練時間和推理時間計算的擴展。其次,我們提出了一個名為Llasa的簡單框架,用於語音合成,該框架採用了單層向量量化器(VQ)編解碼器和單個Transformer架構,以完全符合標準的LLMs,如Llama。我們的實驗顯示,對於Llasa進行訓練時間計算的擴展一致地提高了合成語音的自然度,並實現了更複雜和準確的韻律模式生成。此外,從推理時間計算的擴展角度來看,我們在搜索過程中利用語音理解模型作為驗證者,發現推理時間計算的擴展將取樣模式轉向特定驗證者的偏好,從而提高了情感表達力、音色一致性和內容準確性。此外,我們公開發布了我們的TTS模型(1B、3B、8B)和編解碼器模型的檢查點和訓練代碼。
指示遵循使現代大型語言模型(LLMs)成為有用的助手。然而,對於如何馴服LLMs以遵循複雜指示的關鍵仍然神秘,因為在由開源社區訓練的模型與由領先公司訓練的模型之間存在巨大差距。為了彌合這一差距,我們提出了一種簡單且可擴展的方法UltraIF,用於構建能夠使用開源數據遵循複雜指示的LLMs。UltraIF首先將現實世界用戶提示分解為更簡單的查詢、約束條件以及相應的約束條件評估問題。然後,我們訓練一個UltraComposer來組合與評估問題相關的提示。這種提示組合器使我們能夠綜合複雜的指示以及使用評估問題過濾回應。在我們的實驗中,我們首次成功將LLaMA-3.1-8B-Base對齊到其5個指示遵循基準版本,而無需任何基準信息,僅使用8B模型作為回應生成器和評估器。對齊的模型還在其他基準上取得了競爭得分。此外,我們還展示了UltraIF通過自對齊可以進一步改進LLaMA-3.1-8B-Instruct,激發了該方法更廣泛的應用案例。我們的代碼將在https://github.com/kkk-an/UltraIF 上提供。
大型語言模型(LLMs),如OpenAI的o1,展示了卓越的推理能力。o1在回答問題前生成了一個長的思維鏈(LongCoT)。LongCoT使得LLMs能夠有效地分析問題、制定計劃、反思和回溯。這些行為使LLM能夠解決複雜問題。在o1發布後,許多團隊試圖複製其LongCoT和推理能力。在方法上,他們主要依賴於知識蒸餾,使用來自具有LongCoT能力的現有模型的數據(例如OpenAI-o1、Qwen-QwQ、DeepSeek-R1-Preview),這在系統性地發展這種推理能力方面存在著重大的不確定性。在數據領域方面,這些工作主要集中在數學上,而少數其他工作包括編碼,限制了其泛化能力。本文介紹了一種新方法,可以使LLM具有LongCoT能力,而無需從類似o1的模型或昂貴的人類標註中蒸餾,我們從標準指導模型中引導LongCoT(BOLT)。BOLT包括三個階段:1)通過在標準指導模型上進行上下文學習引導LongCoT數據;2)LongCoT監督微調;3)在線訓練以進一步完善LongCoT能力。在BOLT中,只需要在引導階段構建幾個上下文示例;在我們的實驗中,我們創建了10個示例,展示了這種方法的可行性。我們使用Llama-3.1-70B-Instruct來引導LongCoT,並將我們的方法應用於各種模型規模(7B、8B、70B)。我們在各種基準測試中取得了令人印象深刻的表現,包括Arena-Hard、MT-Bench、WildBench、ZebraLogic、MATH500,這些測試評估了不同任務解決和推理能力。
擴散生成模型的目標是通過梯度分數匹配來對齊學習到的分佈與真實數據分佈。然而,訓練數據質量、建模策略和架構設計中固有的限制導致生成輸出與真實數據之間存在必然差距。為了減少這種差距,我們提出了弱到強擴散(W2SD)的新框架,該框架利用現有弱模型和強模型之間的估計差異(即弱到強差異)來近似理想模型與強模型之間的差距。通過採用交替進行去噪和反演的反射操作,我們從理論上理解到,W2SD將潛在變量沿著採樣軌跡引導至真實數據分佈的區域。W2SD具有高度靈活性和廣泛應用性,通過策略性地選擇弱到強模型對(例如,DreamShaper vs. SD1.5,MoE中的優秀專家 vs. 糟糕專家),實現多樣化改進。大量實驗表明,W2SD顯著提高了人類偏好、美學質量和提示遵循,實現了各種模態(例如,圖像、視頻)、架構(例如,基於UNet、DiT、MoE)和基準的SOTA性能。例如,搭配W2SD的Juggernaut-XL可以將HPSv2勝率提高至原始結果的90%。此外,W2SD實現的性能增益明顯超過其額外的計算開銷,而來自不同弱到強差異的累積改進進一步鞏固了其實際效用性和可部署性。
儘管大型語言模型在各種任務上展現出卓越的能力,但它們持續擴展面臨一個關鍵挑戰:高質量預訓練數據的稀缺。儘管模型架構不斷演進,自然語言數據卻難以擴展。為了應對這一瓶頸,我們提出了大規模體裁-受眾(MAGA)重組方法,系統地從現有語料庫中綜合合成多樣、上下文豐富的預訓練數據。本研究主要貢獻有三點:(1)我們提出了MAGA重組方法,這是一種輕量且可擴展的預訓練語料擴展方法,並建立了一個包含770B標記的MAGA語料庫。 (2)我們使用不同的數據預算擴展策略評估了MAGA語料庫,展示了在各種模型大小(134M-13B)上持續改進,確立了下一代大規模合成預訓練語言模型的必要性。 (3)通過全面分析,我們研究了提示工程對合成訓練崩潰的影響,並揭示了使用驗證損失的常規崩潰檢測指標存在的局限性。我們的工作表明,MAGA能夠大幅擴展訓練數據集,同時保持質量,為超越數據限制擴展模型提供了可靠的途徑。
最近的研究已經利用大型語言模型多智能體系統來進行複雜問題的解決,同時試圖減少構建這些系統所需的手動工作量,推動了自動智能體工作流程優化方法的發展。然而,現有方法由於表徵限制、缺乏適應性以及依賴離散優化技術時的擴展性不佳,仍然缺乏靈活性。我們通過ScoreFlow解決了這些挑戰,這是一個簡單但高性能的框架,利用在連續空間中的高效梯度優化。ScoreFlow整合了Score-DPO,這是直接偏好優化方法的一個新變體,考慮了定量反饋。在涵蓋問答、編碼和數學推理的六個基準測試中,ScoreFlow相較於現有基準線提高了8.2%。此外,它使較小的模型能夠以更低的推論成本勝過較大的模型。專案連結:https://github.com/Gen-Verse/ScoreFlow
本文提出了一種方法,允許用戶在圖像到視頻生成的背景下設計電影般的視頻鏡頭。鏡頭設計是電影製作中的一個關鍵方面,涉及精心計劃場景中的攝像機運動和物體運動。然而,在現代圖像到視頻生成系統中實現直觀的鏡頭設計面臨兩個主要挑戰:首先,有效捕捉用戶對運動設計的意圖,在這裡攝像機運動和場景中物體運動必須共同指定;其次,表示運動信息,以便視頻擴散模型能夠有效地合成圖像動畫。為應對這些挑戰,我們引入了MotionCanvas,一種將用戶驅動控制整合到圖像到視頻(I2V)生成模型中的方法,使用戶能夠以場景感知方式控制場景中的物體和攝像機運動。通過結合古典計算機圖形學和當代視頻生成技術的見解,我們展示了在I2V合成中實現具有3D感知運動控制的能力,而無需昂貴的3D相關訓練數據。MotionCanvas使用戶能夠直觀地描述場景空間運動意圖,並將其轉換為視頻擴散模型的時空運動條件信號。我們展示了我們的方法在各種真實世界圖像內容和鏡頭設計場景上的有效性,突出了它在數字內容創作中增強創意工作流程並適應各種圖像和視頻編輯應用的潛力。
人類動作生成和編輯是電腦圖形和視覺的關鍵組成部分。然而,目前在這一領域的方法往往提供針對特定任務量身定制的孤立解決方案,這可能對現實應用來說效率低下且不切實際。雖然一些努力旨在統一與動作相關的任務,但這些方法僅僅使用不同形式的條件作為引導動作生成的條件。因此,它們缺乏編輯能力、細粒度控制,並且無法促進跨任務的知識共享。為了解決這些限制並提供一個能夠處理人類動作生成和編輯的多功能統一框架,我們引入了一個新的範式:運動條件運動,它能夠統一制定多樣任務,包括三個概念:源動作、條件和目標動作。基於這個範式,我們提出了一個統一框架MotionLab,該框架將校正流整合進來,以學習從源動作到目標動作的映射,並受指定條件的引導。在MotionLab中,我們引入了1)MotionFlow Transformer來增強有條件生成和編輯,而無需特定任務模塊;2)對齊旋轉位置編碼以確保源動作和目標動作之間的時間同步;3)任務指定指令調節;以及4)運動課程學習,以實現有效的多任務學習和跨任務的知識共享。值得注意的是,我們的MotionLab展示了在多個人類動作基準測試中具有潛力的泛化能力和推理效率。我們的代碼和額外的視頻結果可在以下網址找到:https://diouo.github.io/motionlab.github.io/。
大型語言模型(LLMs)展示了在各種任務中的顯著能力,其在現實世界中的效果通常取決於提示設計。儘管最近的研究集中於優化提示內容,但提示格式的作用,作為一個關鍵但常常被忽視的維度,卻受到了有限的系統性調查。在本文中,我們介紹了內容-格式一體化提示優化(CFPO),這是一種創新的方法論,通過迭代的細化過程共同優化提示內容和格式。CFPO利用自然語言變異來探索內容變化,並採用動態格式探索策略,系統性地評估各種格式選項。我們在多個任務和開源LLMs上進行了廣泛的評估,結果顯示CFPO相較於僅優化內容的方法,表現出可衡量的性能改進。這突顯了整合內容-格式優化的重要性,並提供了一種實用的、與模型無關的方法來增強LLM的性能。代碼將在https://github.com/HenryLau7/CFPO 上提供。
隨著大型語言模型越來越多地驅動現實應用,將它們與人類價值觀保持一致變得至關重要。從人類反饋中學習強化學習(RLHF)已經成為一項關鍵技術,當神諭人類價值無法訪問時,將偏好數據轉化為獎勵模型。在實踐中,RLHF 主要依賴近似獎勵模型,這可能無法一貫地引導策略朝向最大化潛在的人類價值。我們提出了用於對齊反饋的策略插值學習(PILAF),這是一種新穎的偏好標記回應抽樣策略,明確將偏好學習與最大化潛在的神諭獎勵保持一致。PILAF 在理論上有基礎,從優化和統計角度展示了最優性。這種方法易於實施,在反饋策劃至關重要的迭代和在線 RLHF 環境中表現出色。
我們提出了一個融合三維幾何和動態感知的新型視頻生成框架。為了實現這一目標,我們通過在像素空間中增加三維點軌跡來擴充二維視頻。生成的三維感知視頻數據集 PointVid,然後用於微調潛在擴散模型,使其能夠追踪具有三維笛卡爾坐標的二維物體。在此基礎上,我們對視頻中的物體形狀和運動進行正則化,以消除不需要的瑕疵,例如非物理變形。因此,我們提高了生成的 RGB 視頻的質量,並減輕了常見問題,如對象變形,這些問題在當前視頻模型中普遍存在,因為缺乏形狀感知。通過我們的三維擴充和正則化,我們的模型能夠處理像任務導向視頻這樣的接觸豐富場景。這些視頻涉及固體的復雜交互,其中三維信息對於感知變形和接觸至關重要。此外,我們的模型通過促進移動物體的三維一致性並減少形狀和運動的突變,提高了視頻生成的整體質量。
大型語言模型(LLMs)可以執行圖表問答任務,但通常會生成未經驗證的幻覺式回應。現有的答案歸因方法在將回應與來源圖表關聯方面存在困難,原因包括視覺語義上下文有限、複雜的視覺文本對齊需求,以及在複雜佈局中進行邊界框預測的困難。我們提出了ChartCitor,這是一個多智能體框架,通過在圖表圖像中識別支持證據,提供精細的邊界框引用。該系統協調LLM智能體執行圖表到表格提取、答案重組、表格擴充、通過預篩選和重新排序進行證據檢索,以及表格到圖表的映射。ChartCitor在不同類型的圖表上優於現有基準。定性用戶研究表明,ChartCitor通過為LLM輔助的圖表問答提供增強的可解釋性,有助於提高用戶對生成式AI的信任,並使專業人士更具生產力。
我們提出了異質遮罩自回歸(Heterogeneous Masked Autoregression,HMA)來建模動作影片動態,以生成高質量的數據並在擴展機器人學習中進行評估。為機器人技術建立互動式影片世界模型和策略是困難的,這是因為需要應對各種不同設置的挑戰,同時保持計算效率以實時運行。HMA利用異質預訓練,從不同機器人實體、領域和任務的觀察和動作序列中進行。HMA使用遮罩自回歸生成影片預測的量化或軟化標記。我們的方法在視覺保真度和可控性方面優於先前的機器人影片生成模型,在現實世界中運行速度快15倍。在後訓練後,這個模型可以作為從低級動作輸入生成合成數據並評估策略的影片模擬器。更多信息請參見此鏈接https://liruiw.github.io/hma。
科學數據可視化對於將原始數據轉換為可理解的視覺表示至關重要,使模式識別、預測和呈現數據驅動的見解成為可能。然而,新手用戶常常因為選擇適當工具和掌握可視化技術的複雜性而遇到困難。大型語言模型(LLMs)最近展示了在協助程式碼生成方面的潛力,儘管它們在準確性方面存在困難並需要迭代調試。在本文中,我們提出了PlotGen,這是一個新穎的多智能體框架,旨在自動化創建精確的科學可視化。PlotGen協調多個基於LLM的智能體,包括一個查詢規劃智能體,將複雜的用戶請求分解為可執行步驟,一個程式碼生成智能體,將偽代碼轉換為可執行的Python程式碼,以及三個檢索反饋智能體 - 數值反饋智能體、詞彙反饋智能體和視覺反饋智能體 - 通過自我反思利用多模態LLMs迭代地改進生成圖表的數據準確性、文本標籤和視覺正確性。大量實驗表明,PlotGen優於強基線,在MatPlotBench數據集上實現了4-6%的改進,從而增強了用戶對LLM生成的可視化的信任,並由於減少了用於處理圖表錯誤的調試時間,提高了新手的生產力。
大型語言模型(LLMs)的出現顯著推動了自動代碼生成領域的發展。LLMs依賴於龐大且多樣的數據集來學習編程語言的語法、語義和使用模式。對於資源有限的語言(即特點是訓練數據稀缺的專業編程語言),這些數據的有限可用性阻礙了模型有效泛化的能力,導致代碼生成性能較高資源語言差。因此,人們正在尋求能夠彌補這種性能差距的技術。我們提出了一項實證研究,探討了幾種提升LLMs在資源有限語言上性能的方法,包括:(i)經典微調,但由於訓練數據稀缺,其規模受限;(ii)三種上下文學習的變體,通過設計提示來為LLM提供有關資源有限語言的額外信息(例如展示目標語言特徵的少量示例);以及(iii)一種預訓練目標,教導模型如何在高資源和低資源語言之間進行翻譯。我們研究的背景是兩種資源有限語言(R和Racket)以及六種具有不同架構和大小的LLMs。我們的研究結果顯示,對於較小的LLMs,微調通常是最佳選擇,可能是因為即使一個小數據集也足以訓練其有限數量的參數。隨著模型大小的增加,上下文學習變得越來越有效,代表一個安全且便宜的選擇(即它總是有所幫助,但幫助程度不同)。相反,當進行微調時,非常大的LLMs可能會在資源有限語言上降低性能,可能是因為缺乏足夠的數據來有效更新其權重。
儘管進行了廣泛的安全對齊工作,大型語言模型(LLMs)仍然容易受到越獄攻擊的影響,引發有害行為。雖然現有研究主要集中在需要技術專業知識的攻擊方法上,但仍有兩個關鍵問題尚未得到充分探討:(1)越獄回應是否真的有助於普通用戶執行有害行為?(2)在更常見、簡單的人-LLM互動中是否存在安全漏洞?在本文中,我們展示了當LLM回應既具有可操作性又具有信息性時,最有效地促使有害行為的方法--這兩個特性在多步驟、多語言互動中很容易引發。基於這一見解,我們提出了HarmScore,一種衡量LLM回應如何有效促使有害行為的越獄指標,以及Speak Easy,一種簡單的多步驟、多語言攻擊框架。值得注意的是,通過將Speak Easy納入直接請求和越獄基準線,我們在四個安全基準測試中觀察到攻擊成功率平均絕對增加了0.319,HarmScore增加了0.426,這包括開源和專有LLMs。我們的工作揭示了一個關鍵但常被忽視的漏洞:惡意用戶可以輕易地利用常見的互動模式來實現有害意圖。