每日精選AI研究論文及翻譯
我們介紹了 DeepSeek-Prover-V1.5,這是一個針對 Lean 4 定理證明設計的開源語言模型,通過優化訓練和推論過程來增強 DeepSeek-Prover-V1。該模型在 DeepSeekMath-Base 上進行預訓練,專注於形式化數學語言,並使用從 DeepSeek-Prover-V1 衍生的增強形式定理證明數據集進行監督微調。通過來自證明助手反饋的強化學習(RLPAF)進行進一步的優化。除了 DeepSeek-Prover-V1 的單遍全證生成方法,我們提出了 RMaxTS,這是蒙特卡羅樹搜索的一個變體,採用內在獎勵驅動的探索策略來生成多樣的證明路徑。DeepSeek-Prover-V1.5 在高中水平的 miniF2F 基準測試集(63.5%)和本科水平的 ProofNet 基準測試集(25.3%)上取得了顯著的改進,超越了 DeepSeek-Prover-V1,達到了新的最先進結果。
大型語言模型(LLMs)已取得重大進展,然而,常見的學習範式將LLMs視為被動的信息存儲庫,忽略了它們在主動學習和調整方面的潛力。一些方法利用LLMs生成的合成數據來訓練它們,探索主動調整的可能性。然而,這些一次性調整方法與人類的持續自動調整之間仍存在巨大差距。在本文中,我們介紹了I-SHEEP,一種迭代式自我增強範式。這種類似人類的範式使LLMs能夠不斷地從零開始自我調整。與本文中首次提到的一次性調整方法Dromedary sun2023principledriven相比,I-SHEEP在Qwen和Llama模型的能力上都有顯著提升。在Qwen-1.5 72B模型的後續迭代中,I-SHEEP在Alpaca Eval中實現了最大相對改進78.2%,在MT Bench中為24.0%,在IFEval準確性方面絕對提高了8.88%。此外,I-SHEEP在各種標準基準生成任務中超越了基礎模型,在代碼生成任務中平均提高了24.77%,在TrivialQA中提高了12.04%,在SQuAD中提高了20.29%。我們還根據實驗結果提供了新的見解。我們的代碼、數據集和模型可在https://anonymous.4open.science/r/I-SHEEP 上獲得。
訓練神經網絡是一項龐大的工作,類似將知識刻在石頭上:一旦過程完成,編輯網絡中的知識幾乎是不可能的,因為所有信息都分佈在網絡的權重中。我們在這裡探索了一個簡單而引人入勝的替代方案,將深度神經網絡的表徵能力與數據庫的靈活性結合起來。將圖像分類任務分解為圖像相似性(從預先訓練的嵌入中)和搜索(通過從知識數據庫中快速查找最近鄰)兩部分,我們構建了一個簡單而靈活的視覺記憶,具有以下關鍵能力:(1.)能夠靈活地跨尺度添加數據:從單個樣本到整個類別以及數十億規模的數據;(2.)通過取消學習和記憶修剪來刪除數據;(3.)一個可解釋的決策機制,我們可以介入以控制其行為。綜合這些能力,全面展示了明確視覺記憶的好處。我們希望這將有助於討論深度視覺模型中知識應如何表示的議題——超越將其刻在“石頭”權重中。
資料集精煉或凝縮的目標是將大規模訓練資料集縮小為一個更小的合成資料集,使得經過精煉和原始資料集在神經網絡上的訓練表現相似。儘管可以大幅減少訓練樣本數量,但目前最先進的方法嚴重依賴龐大的軟標籤來達到令人滿意的表現。因此,所需的存儲空間可能與原始資料集相當,尤其是對於大規模資料集而言。為了解決這個問題,我們提出了一個新穎的輕量標籤框架,稱為HeLlO,旨在實現有效的圖像到標籤投影器,從而可以直接從合成圖像中線上生成合成標籤,而非存儲這些繁重的標籤。具體來說,為了構建這樣的投影器,我們利用開源基礎模型(例如CLIP)中的先前知識,並引入類似LoRA的微調策略來減輕預訓練和目標分佈之間的差距,使得用於軟標籤生成的原始模型可以被精煉為一組低秩矩陣。此外,我們提出了一種有效的圖像優化方法,進一步減輕原始和精煉標籤生成器之間的潛在誤差。大量實驗表明,僅需原始存儲空間的約0.003%,我們就能在大規模資料集上實現與當前最先進的資料集精煉方法相當的性能。我們的程式碼將會提供。
在人工智慧領域,合成動態豐富且時間一致的影片仍然是一個挑戰,特別是在處理較長時間範圍時。現有的文本轉影片(T2V)模型通常採用空間交叉注意力進行文本控制,等效地引導不同幀生成而無需特定於幀的文本引導。因此,模型理解提示中傳達的時間邏輯並生成具有連貫動作的影片的能力受到限制。為了應對這一限制,我們引入了FancyVideo,一個創新的影片生成器,通過精心設計的跨幀文本引導模組(CTGM)改進了現有的文本控制機制。具體而言,CTGM在交叉注意力的開始、中間和結尾分別整合了時間信息注入器(TII)、時間親和性調節器(TAR)和時間特徵增強器(TFB),以實現特定於幀的文本引導。首先,TII將來自潛在特徵的特定於幀資訊注入到文本條件中,從而獲得跨幀文本條件。然後,TAR在時間維度上精煉了跨幀文本條件和潛在特徵之間的相關矩陣。最後,TFB增強了潛在特徵的時間一致性。包括定量和定性評估的大量實驗證明了FancyVideo的有效性。我們的方法在EvalCrafter基準上實現了最先進的T2V生成結果,並促進了動態和一致影片的合成。影片展示結果可在https://fancyvideo.github.io/上獲得,我們將公開提供我們的程式碼和模型權重。
儘管語言模型(LMs)的許多能力隨著訓練預算的增加而提高,但規模對幻覺的影響尚未完全被理解。幻覺呈現多種形式,並沒有被普遍接受的定義。因此,我們專注於研究只有在訓練集中以逐字逐句方式出現正確答案的幻覺。為了完全控制訓練數據的內容,我們建立了基於知識圖譜(KG)的數據集,並用它來訓練一組規模越來越大的LMs。我們發現對於固定的數據集,規模更大且訓練時間更長的LMs幻覺較少。然而,在訓練數據中幻覺低於5%所需的模型規模比Hoffmann等人(2022年)報告的最佳模型規模大一個數量級,因此需要更多的計算。考慮到這種昂貴性,我們研究了幻覺檢測器如何依賴規模。雖然我們看到檢測器的大小提高了對固定LMs輸出的性能,但我們發現LM的規模與其幻覺的可檢測性之間存在反比關係。
儘管從頭開始訓練大型語言模型(LLMs)確實可以產生具有獨特能力和優勢的模型,但這將帶來可觀的成本,並可能導致能力上的冗餘。知識融合旨在將具有不同架構和能力的現有LLMs整合成一個更強大的LLM,透過輕量級的持續訓練,從而減少昂貴的LLM開發需求。在這項工作中,我們提出了一個新的框架,用於通過兩個主要階段對聊天LLMs進行知識融合,最終形成FuseChat。首先,我們對具有不同結構和規模的源聊天LLMs進行成對知識融合,通過輕量級微調創建多個具有相同結構和大小的目標LLMs。在此過程中,引入了一種基於統計的標記對齊方法,作為融合具有不同結構的LLMs的基石。其次,我們在參數空間內合併這些目標LLMs,提出了一種基於微調前後參數更新量的合併係數確定新方法。我們使用六個具有不同架構和規模的知名聊天LLMs(包括OpenChat-3.5-7B、Starling-LM-7B-alpha、NH2-SOLAR-10.7B、InternLM2-Chat-20B、Mixtral-8x7B-Instruct和Qwen-1.5-Chat-72B)實施並驗證了FuseChat。在兩個指令遵循基準測試AlpacaEval 2.0和MT-Bench上的實驗結果顯示,FuseChat-7B優於各種大小的基準。我們的模型甚至與更大的Mixtral-8x7B-Instruct相媲美,並接近GPT-3.5-Turbo-1106在MT-Bench上的表現。我們的代碼、模型權重和數據可在https://github.com/fanqiwan/FuseAI 公開獲取。
由於混合專家(MoE)框架在大型語言模型中表現優越,已成為一種流行的架構,優於密集模型。然而,在大規模情況下從頭開始訓練MoEs的成本過高。現有方法通過獨立地預先訓練多個密集專家模型並使用它們來初始化MoE來緩解這一問題。這是通過使用專家的前饋網絡(FFN)來初始化MoE的專家,同時合併其他參數來完成的。然而,這種方法僅限於將密集模型參數重複使用到FFN層,因此在將這些模型升級為MoEs時,限制了其優勢。我們提出了BAM(Branch-Attend-Mix),這是一種簡單而有效的方法,解決了這個缺陷。BAM充分利用了專用密集模型,不僅使用它們的FFN來初始化MoE層,還通過將專家的注意力參數完全初始化為Mixture of Attention(MoA)層的軟變體,來發揮作用。我們探索了兩種升級注意力參數的方法:1)從密集模型初始化單獨的注意力專家,包括所有注意力參數,以獲得最佳的模型性能;和2)在所有專家之間共享關鍵和值參數,以促進更好的推理效率。為了進一步提高效率,我們採用了一種並行注意力變換器架構到MoEs,這使得注意力專家和FFN專家可以同時計算。我們對從5.9億到20億參數的種子模型進行的實驗表明,BAM在困惑度和下游任務性能方面均超越了基線,在相同的計算和數據限制條件下。
人機對話提供了一扇窗口,讓我們洞察用戶的真實場景、行為和需求,因此對模型開發和研究具有重要價值。盈利公司通過模型的API收集用戶數據,內部使用以改進自身模型,但開源社區和研究界則落後於此。 我們介紹了ShareLM收藏,這是一組與大型語言模型進行的人機對話,以及其附帶的插件,一種網頁擴展,用戶可以自願貢獻用戶-模型對話。在少數平台分享其對話的情況下,ShareLM插件增加了這一功能,從而允許用戶在大多數平台分享對話。該插件允許用戶對其對話進行評分,無論是在對話還是回應級別,並且在離開用戶本地存儲之前刪除他們希望保持私密的對話。我們將插件對話作為ShareLM收藏的一部分發布,呼籲社區在開放人機數據領域進行更多努力。 代碼、插件和數據均可獲得。
本文介紹了PeriodWave-Turbo,一種透過對抗流匹配優化實現高保真度和高效率波形生成模型。最近,條件流匹配(CFM)生成模型已成功應用於波形生成任務,利用單一向量場估計目標進行訓練。儘管這些模型可以生成高保真度的波形信號,但與基於GAN的模型相比,它們需要顯著更多的ODE步驟,後者只需要單一生成步驟。此外,由於噪聲向量場估計缺乏高頻信息,生成的樣本通常缺乏高頻重現,無法確保高頻重現。為解決這一限制,我們通過引入固定步驟生成器修改來增強預先訓練的CFM生成模型。我們利用重建損失和對抗反饋來加速高保真度波形生成。通過對抗流匹配優化,僅需1,000步微調即可在各種客觀指標上實現最先進的性能。此外,我們將推理速度從16步顯著降低至2或4步。此外,通過將PeriodWave的基礎從29M擴展到70M參數以改善泛化能力,PeriodWave-Turbo實現了前所未有的性能,在LibriTTS數據集上實現了4.454的語音質量感知評估(PESQ)分數。音頻樣本、源代碼和檢查點將在https://github.com/sh-lee-prml/PeriodWave 上提供。
最近,新穎視角合成(NVS)和3D生成取得了顯著進展。然而,這些研究主要集中在有限的類別或合成的3D資產上,這些資產難以泛化至具有挑戰性的野外場景,也無法直接應用於2D合成。此外,這些方法嚴重依賴相機姿勢,限制了它們在現實世界中的應用。為了克服這些問題,我們提出了MVInpainter,將3D編輯重新定義為多視角2D修補任務。具體來說,MVInpainter通過參考引導部分修補多視角圖像,而不是從頭開始難以生成完全新穎的視角,這在處理野外NVS的困難程度上大大簡化了問題,並利用未遮罩的線索而非明確的姿勢條件。為確保跨視圖一致性,MVInpainter通過來自運動組件的視頻先驗和來自串聯參考關鍵&值注意力的外觀引導進行增強。此外,MVInpainter還結合了槽關注,從未遮罩區域聚合高級光流特徵,以控制相機運動,實現無需姿勢的訓練和推理。對於以物體為中心和面向前方的數據集進行了充分的場景級實驗,驗證了MVInpainter的有效性,包括多視角物體去除、合成、插入和替換等多樣任務。項目頁面為https://ewrfcas.github.io/MVInpainter/。
評估大型語言模型(LLMs)的能力通常具有挑戰性,部分原因在於很難找到它們在訓練過程中未曾接觸過的任務。我們針對這一挑戰採取了一個步驟,轉向一個新任務:專注於符號圖形程序,這是一種流行的圖形內容表示形式,可以程序生成視覺數據。LLMs在程序合成方面展示了令人振奮的潛力,但它們是否理解符號圖形程序呢?與傳統程序不同,符號圖形程序可以轉換為圖形內容。在這裡,我們通過評估LLMs對與圖形內容相關問題的回答能力,來表徵LLMs對符號程序的理解。這個任務具有挑戰性,因為從單純的符號程序中回答問題很困難,但從對應的圖形內容中回答則較容易,這一點我們通過人類實驗得以驗證。為了理解符號程序,LLMs可能需要擁有想像對應的圖形內容會是什麼樣子的能力,而不是直接訪問渲染的視覺內容。我們利用這個任務來評估LLMs,通過建立一個用於評估符號圖形程序語義理解的大型基準。這個基準是通過程序-圖形對應構建的,因此需要最少的人力。我們在我們的基準上評估當前的LLMs,以闡明它們從程序中推理視覺場景的能力的初步評估。我們發現這個任務可以區分現有的LLMs,並且被認為在推理方面表現良好的模型效果更好。最後,我們介紹了符號指令調整(SIT)來改善這種能力。具體來說,我們通過符號程序生成的問題和圖像對GPT4-o進行查詢。然後使用這些數據來微調LLM。我們還發現,SIT數據可以提高LLMs的一般指令遵循能力。