每日精選AI研究論文及翻譯
可縮放向量圖形(SVG)因其解析度獨立性和可編輯性,在圖形設計領域被廣泛採用,成為一種重要的圖像格式。生成高質量SVG的研究持續吸引著AIGC社群中設計師和研究者的關注。然而,現有方法要么產生非結構化輸出且計算成本高昂,要么僅限於生成結構過於簡化的單色圖標。為生成高質量且複雜的SVG,我們提出了OmniSVG,這是一個利用預訓練視覺-語言模型(VLMs)進行端到端多模態SVG生成的統一框架。通過將SVG命令和座標參數化為離散標記,OmniSVG將結構邏輯與低層幾何解耦,實現高效訓練的同時保持複雜SVG結構的表達能力。為進一步推動SVG合成的發展,我們引入了MMSVG-2M,這是一個包含兩百萬個豐富註釋SVG資產的多模態數據集,並為條件式SVG生成任務制定了標準化評估協議。大量實驗表明,OmniSVG優於現有方法,並展示了其融入專業SVG設計工作流程的潛力。
大型語言模型(LLMs)已展現出通過高級推理、長篇內容生成及工具使用來處理日益複雜任務的能力。解決這些任務通常涉及長時間的推理計算。在人類解決問題的過程中,一個常見的加速策略是協作:將問題分解為子任務,並行探索不同策略等。最近的研究表明,LLMs也能通過實施明確的合作框架(如投票機制或創建可並行執行的獨立子任務)來並行運作。然而,這些框架可能並不適用於所有類型的任務,這限制了它們的適用性。在本研究中,我們提出了一種不同的設計方法:我們並行運行LLM“工作者”,允許它們通過同步更新的注意力緩存進行同步,並提示這些工作者決定如何最佳地協作。我們的方法讓這些實例能夠針對當前問題自行制定協作策略,同時在並行緩存中“看到”彼此的進展。我們通過Hogwild!推理實現了這一方法:這是一個並行LLM推理引擎,其中多個相同LLM的實例在相同的注意力緩存下並行運行,並能“即時”訪問彼此生成的詞元。Hogwild!推理利用旋轉位置嵌入(RoPE)來避免重新計算,同時提高並行硬件的利用率。我們發現,現代具備推理能力的LLMs能夠無需額外微調即可使用共享的鍵值緩存進行推理。
我們推出Skywork R1V,這是一款多模態推理模型,通過高效的多模態遷移方法,將R1系列大型語言模型(LLM)擴展至視覺模態。利用輕量級的視覺投影器,Skywork R1V實現了無需重新訓練基礎語言模型或視覺編碼器的無縫多模態適應。為加強視覺與文本的對齊,我們提出了一種混合優化策略,結合迭代監督微調(SFT)與群組相對策略優化(GRPO),顯著提升了跨模態整合效率。此外,我們引入了一種自適應長度的思維鏈蒸餾方法,用於推理數據生成。該方法動態優化推理鏈長度,從而提升推理效率並防止過度推理。實證評估顯示,僅擁有380億參數的Skywork R1V展現出競爭力,在MMMU基準測試中獲得69.0分,在MathVista上取得67.5分。同時,它保持了強大的文本推理能力,在AIME上獲得72.0分,在MATH500上達到94.0分。Skywork R1V的模型權重已公開發布,以促進開放性和可重現性。
圖像生成領域已迅速演進,從早期的基於GAN的方法,到擴散模型,再到最近試圖橋接理解與生成任務的統一生成架構。特別是GPT-4o的最新進展,展示了高保真多模態生成的可行性,但其架構設計仍保持神秘且未公開。這引發了一個問題:圖像和文本生成是否已成功整合到這些方法的統一框架中。在本研究中,我們對GPT-4o的圖像生成能力進行了實證研究,並將其與領先的開源和商業模型進行基準測試。我們的評估涵蓋了四大類別,包括文本到圖像、圖像到圖像、圖像到3D以及圖像到X的生成,涉及超過20項任務。我們的分析突顯了GPT-4o在各種設置下的優勢與限制,並將其置於生成模型更廣泛的演進背景中。通過這項調查,我們為未來統一生成模型識別了有前景的方向,強調了架構設計和數據擴展的作用。
對齊大型語言模型(LLMs)與人類偏好已取得顯著成功。然而,現有的中文偏好數據集受限於規模小、領域覆蓋窄且缺乏嚴格的數據驗證。此外,依賴人工標註者進行指令和回應標註,極大地限制了人類偏好數據集的可擴展性。為應對這些挑戰,我們設計了一個基於LLM的中文偏好數據集註釋流程,無需人工干預。具體而言,我們爬取並精心篩選了92k高質量中文查詢,並使用15個主流LLMs生成和評分選擇-拒絕回應對。基於此,我們推出了COIG-P(中文開放指令通用者-偏好),這是一個高質量、大規模的中文偏好數據集,包含1,009k中文偏好對,涵蓋6個多樣化領域:聊天、代碼、數學、邏輯、小說和角色。在COIG-P的基礎上,為減少使用LLMs進行評分的開銷,我們訓練了一個8B規模的中文獎勵模型(CRM),並精心構建了一個中文獎勵基準(CRBench)。基於AlignBench liu2024alignbenchbenchmarkingchinesealignment的評估結果顯示,COIG-P顯著優於其他中文偏好數據集,並為Qwen2/2.5和Infinity-Instruct-3M-0625模型系列分別帶來了2%至12%的性能提升。CRBench上的結果表明,我們的CRM具有強大且穩健的評分能力。我們將其應用於過濾COIG-P測試集中的選擇-拒絕回應對,實驗顯示其在識別低質量樣本方面與GPT-4o相當,同時保持了高效性和成本效益。我們的代碼和數據已發佈於https://github.com/multimodal-art-projection/COIG-P。
儘管主題驅動生成在圖像生成領域因其廣泛應用而得到了深入探索,但在數據可擴展性和主題可擴展性方面仍面臨挑戰。對於第一個挑戰,從單一主題數據集的策展轉向多主題數據集並進行擴展尤為困難。對於第二個挑戰,大多數最新方法集中於單一主題生成,這使得在處理多主題場景時難以應用。在本研究中,我們提出了一個高度一致的數據合成流程來應對這一挑戰。該流程利用擴散變換器的內在上下文生成能力,生成高度一致的多主題配對數據。此外,我們引入了UNO,它由漸進式跨模態對齊和通用旋轉位置嵌入組成,是一個從文本到圖像模型迭代訓練的多圖像條件主題到圖像模型。大量實驗表明,我們的方法在確保可控性的同時,能夠在單一主題和多主題驅動生成中實現高度一致性。
混合專家(Mixture of Experts, MoE)架構展現了顯著的優勢,因其能在不按比例增加計算量的情況下提升模型容量。然而,大型MoE模型的規模仍帶來了巨大的記憶體需求,這通常需要在資源受限的平台上進行專家卸載,並產生顯著的開銷。混合CPU-GPU推理被提出來利用CPU計算以減少專家載入的開銷,但面臨著主要挑戰:一方面,MoE模型的專家激活模式極不穩定,使得現有工作中的固定映射策略效率低下;另一方面,由於專家規模、結構的多樣性以及工作負載分佈不均等,MoE的混合CPU-GPU調度本質上極為複雜。為應對這些挑戰,本文提出了HybriMoE,一個混合CPU-GPU推理框架,通過新穎的CPU-GPU調度與快取管理系統來提升資源利用率。HybriMoE引入了(i)一種動態層內調度策略以平衡CPU與GPU間的工作負載,(ii)一個基於影響的層間預取算法,以及(iii)一個基於分數的快取算法來緩解專家激活的不穩定性。我們在kTransformers框架上實現了HybriMoE,並在三個廣泛使用的基於MoE的大型語言模型上進行了評估。實驗結果表明,與最先進的混合MoE推理框架相比,HybriMoE在預填充階段平均加速了1.33倍,在解碼階段平均加速了1.70倍。我們的代碼可在以下網址獲取:https://github.com/PKU-SEC-Lab/HybriMoE。
文本到圖像(T2I)擴散/流模型因其出色的靈活視覺創作能力而近期備受關注。然而,高分辨率圖像合成由於高分辨率內容的稀缺性和複雜性,仍面臨巨大挑戰。為此,我們提出了HiFlow,這是一個無需訓練且模型無關的框架,旨在釋放預訓練流模型的分辨率潛力。具體而言,HiFlow在高分辨率空間內建立了一個虛擬參考流,有效捕捉低分辨率流信息的特徵,並通過三個關鍵方面為高分辨率生成提供指導:初始化對齊以確保低頻一致性,方向對齊以保持結構,以及加速對齊以保證細節保真度。通過利用這種流對齊的指導,HiFlow顯著提升了T2I模型的高分辨率圖像合成質量,並在其個性化變體中展現了廣泛的適用性。大量實驗驗證了HiFlow在實現優越高分辨率圖像質量方面相較於當前最先進方法的顯著優勢。
随着强大的大型语言模型(LLMs)展现出超越人类的推理能力,一个关键问题随之而来:LLMs是否真正在进行推理,还是仅仅从其广泛的、网络抓取的训练数据集中回忆答案?一旦公开发布的基准被纳入后续的LLM训练集,它们不可避免地会受到污染,从而削弱其作为忠实评估工具的可靠性。为解决这一问题,我们引入了KUMO,这是一个专门设计用于评估LLMs推理能力的生成式评估框架。KUMO协同结合了LLMs与符号引擎,动态生成多样化的、多轮次的推理任务,这些任务部分可观察且难度可调。通过自动化流程,KUMO在开放式领域中持续生成新颖任务,迫使模型展示真正的泛化能力而非记忆能力。我们在KUMO创建的100个领域中的5,000个任务上评估了23个最先进的LLMs,将其推理能力与大学生进行对比。我们的发现表明,许多LLMs在简单推理任务上已超越大学水平,而经过推理扩展的LLMs在复杂推理挑战中也达到了大学水平。此外,LLMs在KUMO任务上的表现与新发布的现实世界推理基准结果高度相关,这进一步凸显了KUMO作为评估LLMs真实推理能力的稳健、持久工具的价值。
多模态大語言模型(MLLMs)的最新進展在多種多模态基準測試中取得了顯著提升。然而,隨著評估從靜態數據集轉向開放世界的動態環境,現有的基於遊戲的基準測試仍顯不足,因為它們缺乏以視覺為核心的任務,並且未能評估現實世界決策所需的多樣化推理能力。為此,我們引入了視覺核心多能力遊戲評估(V-MAGE),這是一個基於遊戲的評估框架,旨在評估MLLMs的視覺推理能力。V-MAGE包含五款多樣化的遊戲,擁有30多個精心設計的關卡,測試模型在核心視覺技能(如定位、軌跡追踪、時機把握和視覺記憶)以及高層次推理(如長期規劃和深思熟慮)方面的表現。我們使用V-MAGE評估了領先的MLLMs,揭示了它們在視覺感知和推理方面的重大挑戰。在所有遊戲環境中,根據Elo評分比較得出的頂尖MLLMs與人類相比存在顯著的性能差距。我們的研究結果突顯了關鍵的局限性,包括模型產生的各種感知錯誤,並從以智能體為中心的角度提出了潛在的改進途徑,例如優化智能體策略和解決感知不準確性。代碼可在https://github.com/CSU-JPG/V-MAGE獲取。
在基於文本的圖像編輯(TIE)中,平衡保真度與可編輯性至關重要,其中失敗通常會導致過度或不足的編輯問題。現有方法通常依賴於注意力注入來保持結構,並利用預訓練文本到圖像(T2I)模型的固有文本對齊能力來實現可編輯性,但它們缺乏明確且統一的機制來適當平衡這兩個目標。在本研究中,我們提出了UnifyEdit,這是一種無需調參的方法,通過擴散潛在優化來實現保真度與可編輯性在統一框架內的平衡整合。與直接注入注意力不同,我們開發了兩種基於注意力的約束:用於結構保真度的自注意力(SA)保留約束,以及用於增強文本對齊以提升可編輯性的交叉注意力(CA)對齊約束。然而,同時應用這兩種約束可能會導致梯度衝突,其中一種約束的優勢會導致過度或不足的編輯。為應對這一挑戰,我們引入了一種自適應時間步調度器,動態調整這些約束的影響,引導擴散潛在向最佳平衡邁進。大量的定量與定性實驗驗證了我們方法的有效性,展示了其在各種編輯任務中實現結構保留與文本對齊之間穩健平衡的優越性,超越了其他最先進的方法。源代碼將在https://github.com/CUC-MIPG/UnifyEdit 提供。
近期推理模型的進展顯示,通過採用詳盡且全面的推理過程,特別是在數學推理等複雜任務上,準確性有了顯著提升。然而,生成這些冗長的推理序列在計算上既昂貴又耗時。為解決這一效率問題,我們利用某些任務固有的可並行性來加速推理過程。具體而言,當存在多個並行推理分支時,我們使用專門的注意力掩碼在每一步解碼多個標記,並在單一序列中處理它們,從而避免額外的記憶體使用。實驗結果表明,我們的方法在保持答案品質的同時,解碼時間實現了超過100%的加速。
強化微調(Reinforcement Finetuning, RFT)在提升大型語言模型(LLMs)的數學推理能力方面展現了巨大潛力,但其往往樣本和計算效率低下,需要大量訓練。在本研究中,我們引入了AdaRFT(自適應課程強化微調),這是一種通過自適應課程學習顯著提升RFT效率和最終準確性的方法。AdaRFT根據模型最近的獎勵信號動態調整訓練問題的難度,確保模型始終在具有挑戰性但可解決的任務上進行訓練。這種自適應採樣策略通過維持最佳難度範圍來加速學習,避免在過於簡單或過於困難的問題上浪費計算資源。AdaRFT僅需對標準RFT算法(如近端策略優化,PPO)進行輕量級擴展,無需修改獎勵函數或模型架構。在競賽級數學數據集(包括AMC、AIME和IMO風格問題)上的實驗表明,AdaRFT顯著提升了訓練效率和推理性能。我們在多種數據分佈和模型規模下評估AdaRFT,結果顯示其將訓練步數減少至多2倍,並大幅提高準確性,提供了一個更具可擴展性和有效性的RFT框架。
現有針對大型語言模型(LLMs)和大型視覺語言模型(LVLMs)的推理評估框架,主要集中於評估基於文本的推理能力或視覺語言理解能力,而文本與視覺約束之間的動態交互作用則較為有限。為解決這一限制,我們引入了CrossWordBench,這是一個旨在通過填字遊戲這一媒介來評估LLMs和LVLMs推理能力的基準測試——填字遊戲任務要求模型在多模態下遵守來自文本提示的語義約束以及視覺網格結構的交集約束。CrossWordBench利用可控的謎題生成框架,生成多種格式(文本和圖像)的謎題,並提供從直接解謎到互動模式的不同評估策略。我們對超過20個模型進行了廣泛評估,結果顯示,推理型LLMs通過有效利用交叉字母約束,顯著優於非推理模型。我們進一步證明,LVLMs在該任務上表現不佳,其解謎表現與網格解析準確性之間存在強烈相關性。我們的研究發現揭示了當前LLMs和LVLMs推理能力的局限性,並為未來評估創建多模態約束任務提供了一種有效方法。
近期,通過大型語言模型(LLMs)在自動定理證明(ATP)領域的進展,凸顯了使用Lean 4代碼進行形式推理的潛力。然而,ATP尚未如OpenAI的O1/O3和Deepseek的R1所展示的那樣,因後訓練規模化而迎來革命性突破。在本研究中,我們全面探討了ATP的後訓練過程,旨在使其與自然語言推理模型的突破性進展保持一致。首先,我們利用混合數據集對現有的ATP模型進行持續訓練,該數據集包含大量陳述-證明對,以及旨在融入模擬人類推理和假設精煉的認知行為的附加數據。接著,我們探索了基於Lean 4編譯器返回結果獎勵的強化學習方法。通過我們設計的持續訓練和強化學習流程,我們成功提升了包括DeepSeek-Prover-v1.5和Goedel-Prover在內的現有形式證明器,在全證明生成領域達到了最先進的性能。例如,我們在MiniF2F上實現了59.8%的通過率(pass@32)。這是一項持續進行的項目,我們將逐步更新我們的研究發現,並公開我們的數據和訓練細節。
模仿學習已成為構建通用機器人的一種極具前景的方法。然而,由於其對高質量專家示範的依賴,將模仿學習擴展至大型機器人基礎模型仍面臨挑戰。與此同時,大量描繪廣泛環境和多樣行為的視頻數據易於獲取。這些數據提供了關於現實世界動態和智能體-環境交互的豐富信息源。然而,由於缺乏大多數當代方法所需的動作註釋,直接利用這些數據進行模仿學習已被證明是困難的。在本研究中,我們提出了統一世界模型(Unified World Models, UWM),這是一個允許利用視頻和動作數據進行策略學習的框架。具體而言,UWM在一個統一的Transformer架構中整合了動作擴散過程和視頻擴散過程,其中每個模態由獨立的擴散時間步控制。我們展示,通過簡單地控制每個擴散時間步,UWM能夠靈活地表示策略、前向動態、逆向動態和視頻生成器。通過模擬和真實世界實驗,我們表明:(1) UWM能夠在包含動態和動作預測的大規模多任務機器人數據集上進行有效的預訓練,從而產生比模仿學習更具泛化性和魯棒性的策略;(2) UWM通過獨立控制模態特定的擴散時間步,自然促進了從無動作視頻數據中學習,進一步提升了微調策略的性能。我們的結果表明,UWM為利用大型異構數據集進行可擴展的機器人學習提供了一個有希望的步驟,並在模仿學習和世界建模這兩個常常分離的範式之間實現了簡單的統一。視頻和代碼可在https://weirdlabuw.github.io/uwm/獲取。
廣義類別發現(GCD)是一個實用但尚未充分探索的問題,它要求模型通過利用舊類別的標記樣本來自動聚類並發現新類別。其挑戰在於未標記數據中同時包含舊類別和新類別。早期工作利用參數化分類器進行偽標籤處理,將舊類別和新類別分開處理,導致兩者之間的準確性不平衡。最近的方法採用對比學習,卻忽略了潛在的正樣本,並與聚類目標脫鉤,導致表示偏見和次優結果。為解決這些問題,我們引入了一個統一且無偏的原型學習框架,即ProtoGCD,其中舊類別和新類別通過聯合原型和統一學習目標進行建模,實現了舊類別與新類別的統一建模。具體而言,我們提出了一種雙層自適應偽標籤機制來緩解確認偏誤,並結合兩個正則化項共同幫助學習更適合GCD的表示。此外,出於實際考慮,我們設計了一個標準來估計新類別的數量。進一步地,我們將ProtoGCD擴展到檢測未見的異常值,實現了任務層面的統一。綜合實驗表明,ProtoGCD在通用和細粒度數據集上均達到了最先進的性能。代碼可在https://github.com/mashijie1028/ProtoGCD獲取。