每日精選AI研究論文及翻譯
Yume旨在利用圖像、文字或視頻創建一個互動、真實且動態的世界,允許使用外圍設備或神經信號進行探索與控制。在本報告中,我們展示了\method的預覽版本,該版本從輸入圖像創建動態世界,並允許通過鍵盤操作探索該世界。為實現這一高保真且互動的視頻世界生成,我們引入了一個精心設計的框架,該框架包含四個主要組件:相機運動量化、視頻生成架構、高級採樣器及模型加速。首先,我們量化相機運動以確保訓練的穩定性並便於用戶通過鍵盤輸入進行互動。接著,我們介紹了帶有記憶模塊的Masked Video Diffusion Transformer~(MVDT),用於以自迴歸方式生成無限視頻。隨後,採樣器中引入了無需訓練的抗偽影機制(AAM)和基於隨機微分方程的時間旅行採樣(TTS-SDE),以提升視覺質量並實現更精確的控制。此外,我們通過對抗蒸餾與緩存機制的協同優化來研究模型加速。我們使用高質量的世界探索數據集\sekai來訓練\method,其在多樣場景和應用中取得了顯著成果。所有數據、代碼庫及模型權重均可在https://github.com/stdstu12/YUME獲取。Yume將每月更新以實現其最初目標。項目頁面:https://stdstu12.github.io/YUME-Project/。
在多模態大型語言模型(MLLMs)中實現類人的感知與推理能力,仍然是人工智慧領域的核心挑戰。儘管近期研究主要集中於提升MLLMs的推理能力,但一個根本性問題依然存在:多模態大型語言模型能否真正像人類一樣感知世界?本文將焦點從推理轉向感知。我們並未專門構建推理基準,而是引入了圖靈眼測試(TET),這是一個以感知為導向的挑戰性基準,包含四項診斷任務,用於評估MLLMs在處理人類直覺理解下的合成圖像時的表現。我們的研究發現,當前最先進的MLLMs在這些對人類而言輕而易舉的感知任務上表現出災難性的失敗。無論是上下文學習還是針對先前基準有效的語言骨幹訓練,都未能提升我們任務中的表現,而對視覺塔進行微調則能實現快速適應,這表明我們的基準對視覺塔的泛化能力提出了挑戰,而非針對語言骨幹的知識與推理能力——這正是當前MLLMs與人類感知之間的一個關鍵差距。本版本中,我們發布了TET任務的一個代表性子集,並將在未來工作中引入更多多樣化的任務與方法,以增強視覺泛化能力。
設計高品質的簡報投影片對於非專業人士而言可能具有挑戰性,這主要是由於在眾多設計選項中進行選擇的複雜性所致。雖然有許多自動化工具能夠建議版面配置和色彩方案,但它們往往缺乏對自身輸出進行細化的能力,而這正是實際工作流程中的關鍵環節。我們提出了DesignLab,它將設計過程分為兩個角色:設計審查者,負責識別設計相關問題;以及設計貢獻者,負責修正這些問題。這種分解方式形成了一個迭代循環,審查者持續發現問題,貢獻者則進行修正,使得草稿在每次迭代中都能得到進一步打磨,從而達到原本無法企及的品質。我們針對這些角色對大型語言模型進行了微調,並通過引入受控的擾動來模擬中間草稿,使設計審查者能夠學習設計錯誤,而貢獻者則學習如何修正這些錯誤。我們的實驗表明,DesignLab通過擁抱設計的迭代本質,能夠產生精緻、專業的投影片,其表現優於現有的設計生成方法,包括一款商業工具。
強化學習與可驗證獎勵(RLVR)已成為提升大型語言模型(LLMs)推理能力的強大範式。現有研究主要集中在孤立的推理領域,如數學問題解決、編碼任務或邏輯推理。然而,現實世界的推理場景本質上需要多種認知技能的綜合應用。儘管如此,這些推理技能在強化學習下的相互作用仍鮮為人知。為彌補這一差距,我們在RLVR框架內對多領域推理進行了系統性研究,明確聚焦於三個主要領域:數學推理、代碼生成和邏輯謎題解決。我們開展了一項全面研究,包含四個關鍵部分:(1)利用GRPO算法和Qwen-2.5-7B模型家族,我們深入評估了模型在單一領域數據集訓練下的領域內改進及跨領域泛化能力。(2)此外,我們探討了在跨領域聯合訓練中出現的複雜交互,包括相互促進與衝突。(3)為進一步理解SFT對RL的影響,我們還分析並比較了在相同RL配置下基礎模型與指令模型的性能差異。(4)進一步地,我們深入探討了RL訓練的關鍵細節,系統性地探索了課程學習策略、獎勵設計變異及語言特定因素的影響。通過大量實驗,我們的結果為領域交互的動態提供了重要見解,揭示了影響專業化與可泛化推理性能的關鍵因素。這些發現為優化RL方法論以培養LLMs全面、多領域推理能力提供了寶貴指導。
近期在稀疏體素表示方面的進展顯著提升了三維內容生成的質量,使得高分辨率建模與細粒度幾何成為可能。然而,現有框架因其兩階段擴散管道中注意力機制的二次方複雜度而面臨嚴重的計算效率低下問題。在本研究中,我們提出了Ultra3D,這是一個高效的三維生成框架,能夠在不犧牲質量的前提下大幅加速稀疏體素建模。我們的方法利用緊湊的VecSet表示在第一階段高效生成粗略的物體佈局,從而減少令牌數量並加速體素座標預測。為了在第二階段精煉每個體素的潛在特徵,我們引入了部分注意力,這是一種幾何感知的局部化注意力機制,將注意力計算限制在語義一致的部分區域內。這一設計在保持結構連續性的同時避免了不必要的全局注意力,實現了潛在生成速度最高達6.7倍的提升。為了支持這一機制,我們構建了一個可擴展的部分註釋管道,將原始網格轉換為帶有部分標籤的稀疏體素。大量實驗表明,Ultra3D支持1024分辨率的高分辨率三維生成,並在視覺保真度和用戶偏好方面達到了業界領先水平。
代理式搜索作为一种更为自主和适应性的检索增强范式,正在推动智能搜索系统的演进。然而,现有的评估框架未能很好地与代理式搜索的目标对齐。首先,当前基准测试中常用的复杂查询往往偏离了真实的用户搜索场景。其次,先前的方法在提取端到端评估的基准真相时,容易引入噪声,导致在细粒度层面上的评估失真。第三,大多数现有框架仅关注最终答案的质量,忽视了代理式搜索固有的迭代过程评估。针对这些局限,我们提出了RAVine——一个面向代理式大语言模型搜索的现实对齐评估框架。RAVine针对更能反映用户意图的多点查询和长文本答案,并引入了一种可归因的基准真相构建策略,以提高细粒度评估的准确性。此外,RAVine考察了模型在整个迭代过程中与搜索工具的交互,并考虑了效率因素。我们使用RAVine对一系列模型进行了基准测试,并得出了若干见解,希望这些能有助于推动代理式搜索系统的发展。代码和数据集可在https://github.com/SwordFaith/RAVine获取。
現有的基於非正式語言(如人類語言)的大型語言模型(LLMs)在強化學習(RL)訓練下面臨一個重大挑戰:其驗證過程,這些過程提供關鍵的訓練信號,既不可靠也不具擴展性。事實上,主流的大型專有模型幾乎無法生成可驗證的程序。一個有前景但尚未充分探索的替代方案是基於形式語言的推理。將LLMs建立在嚴謹的形式系統中,使生成模型在形式語言空間(如Dafny)中運作,能夠自動且數學上可證明地驗證其推理過程和結果。這一能力對於實現大規模、可靠的形式軟件驗證至關重要。通常的做法是使用人工註釋的思維鏈和其他人類先驗知識來誘導LLMs的推理和編碼能力。然而,為監督複雜的編程任務提供此類先驗知識變得不可接受地耗費資源。在本研究中,我們系統地探索了如何以形式語言Dafny作為主要環境來減少人類先驗知識的使用。我們的流程主要依賴於引入一個自動化且可擴展的數據整理流程,以及與形式語言驗證器反饋相結合的精心設計的RL。我們引入了DafnyComp,這是一個包含自動形式化規格的組合形式程序基準,用於規格推理。我們的監督微調(SFT)階段使即使是小型模型(如0.5B)也能生成語法有效且可驗證的Dafny代碼,超越了專有模型。帶有正則化的RL進一步提升了性能,在具有挑戰性的DafnyComp基準上實現了對域外任務的更強泛化能力,並超越了所有強基線。
大型语言模型(LLMs)在精心设计的提示下表现最佳,然而提示工程仍然依赖手动操作,缺乏一致性,且对非专业人士而言难以掌握。我们推出了Promptomatix,一个自动提示优化框架,能够将自然语言任务描述转化为高质量提示,无需手动调整或领域专业知识。Promptomatix支持基于轻量级元提示的优化器和DSPy驱动的编译器,其模块化设计便于未来扩展至更先进的框架。该系统通过分析用户意图、生成合成训练数据、选择提示策略,并利用成本感知目标优化提示。在五大任务类别上的评估显示,Promptomatix相较于现有库实现了竞争性或更优的性能,同时减少了提示长度和计算开销,使得提示优化更具可扩展性和效率。
高品質的3D資產對於電腦圖形學和3D視覺的各種應用至關重要,但由於高昂的獲取成本,這些資產仍然稀缺。為了解決這一短缺問題,我們引入了Elevate3D,這是一個新穎的框架,能夠將易於獲取的低品質3D資產轉化為更高品質的資產。Elevate3D的核心是HFS-SDEdit,這是一種專門的紋理增強方法,能夠顯著提升紋理品質,同時保持外觀和幾何結構,並修復其退化問題。此外,Elevate3D以逐視圖的方式運作,交替進行紋理和幾何結構的優化。與以往大多忽略幾何結構優化的方法不同,我們的框架利用HFS-SDEdit優化後的圖像中的幾何線索,採用最先進的單目幾何預測器。這種方法確保了細緻且準確的幾何結構,能夠與增強後的紋理無縫對齊。Elevate3D在3D模型優化方面超越了最近的競爭對手,達到了最先進的品質,有效解決了高品質開源3D資產稀缺的問題。
視頻擴散模型的快速發展一直受到時間建模基本限制的阻礙,尤其是傳統標量時間步變量所施加的幀演變嚴格同步。儘管任務特定的適應和自回歸模型試圖解決這些挑戰,但它們仍受制於計算效率低下、災難性遺忘或適用範圍狹窄等問題。在本研究中,我們提出了普薩(Pusa),這是一種開創性的範式,利用向量化時間步適應(VTA)在統一的視頻擴散框架內實現精細的時間控制。此外,VTA是一種非破壞性的適應,意味著它完全保留了基礎模型的能力。通過使用VTA對最先進的Wan2.1-T2V-14B模型進行微調,我們實現了前所未有的效率——在訓練成本(500 vs. ≥100,000)和數據集大小(4K vs. ≥10M樣本)分別僅為Wan-I2V-14B的1/200和1/2500的情況下,超越了其性能。普薩不僅為圖像到視頻(I2V)生成設定了新標準,達到了VBench-I2V總分87.32%(對比Wan-I2V-14B的86.86%),還解鎖了許多零樣本多任務能力,如起始-結束幀和視頻擴展——所有這些都無需進行任務特定的訓練。同時,普薩仍能執行文本到視頻生成。機制分析表明,我們的方法在保留基礎模型生成先驗的同時,精確地注入了時間動態,避免了向量化時間步固有的組合爆炸。這項工作為下一代視頻合成建立了一個可擴展、高效且多功能的範式,為研究和工業界的高保真視頻生成提供了普及化的可能。代碼已開源於https://github.com/Yaofang-Liu/Pusa-VidGen。
文本到图像扩散模型(DMs)在图像生成领域取得了显著成就。然而,由于这些模型可能无意中记忆并复制训练数据,关于数据隐私和知识产权的担忧依然存在。近期的缓解措施主要集中在识别并剪除触发复制的权重上,这一做法基于记忆可被局部化的假设。我们的研究评估了这些基于剪枝方法的鲁棒性。我们证明,即便在剪枝之后,对输入提示的文本嵌入进行微小调整也足以重新触发数据复制,这凸显了这些防御措施的脆弱性。此外,我们挑战了记忆局部性的基本假设,通过展示复制可以从文本嵌入空间的不同位置被触发,并在模型中遵循不同的路径。我们的发现表明,现有的缓解策略并不充分,并强调了需要真正移除记忆内容的方法,而非仅仅试图抑制其检索。作为这一方向的第一步,我们引入了一种新颖的对抗性微调方法,该方法迭代地搜索复制触发点并更新模型以增强鲁棒性。通过我们的研究,我们为理解文本到图像DMs中的记忆本质提供了新见解,并为构建更可信赖且合规的生成式人工智能奠定了基础。