每日精選AI研究論文及翻譯
大型語言模型(LLMs)在自然語言處理領域取得了顯著成就。近期進展催生了一類新型推理LLMs;例如,開源的DeepSeek-R1通過整合深度思考與複雜推理,實現了頂尖性能。儘管這些模型展現了令人印象深刻的能力,其內部的推理機制仍未被深入探索。在本研究中,我們採用稀疏自編碼器(SAEs)這一方法,學習神經網絡潛在表示的稀疏分解,以識別驅動DeepSeek-R1系列模型推理的特徵。首先,我們提出了一種從SAE表示中提取候選「推理特徵」的方法。通過實證分析與可解釋性方法,我們驗證了這些特徵,並展示了它們與模型推理能力的直接關聯。關鍵在於,我們證明了系統性地引導這些特徵能夠提升推理性能,為LLMs的推理機制提供了首個機械論解釋。代碼可於https://github.com/AIRI-Institute/SAE-Reasoning獲取。
隨著訓練數據規模、模型大小和計算成本的提升,視頻生成在數字創作領域取得了令人矚目的成果,使用戶能夠在多個領域中展現創造力。最近,大型語言模型(LLMs)的研究者將擴展能力延伸至測試階段,通過增加推理時的計算量顯著提升了LLM的性能。與其通過昂貴的訓練成本來擴展視頻基礎模型,我們探索了測試時擴展(Test-Time Scaling, TTS)在視頻生成中的潛力,旨在回答一個問題:如果允許視頻生成模型使用相當數量的推理時計算資源,面對具有挑戰性的文本提示,其生成質量能提升多少。在本研究中,我們將視頻生成的測試時擴展重新解讀為一個搜索問題,即從高斯噪聲空間中採樣出更優的軌跡以逼近目標視頻分佈。具體而言,我們構建了一個包含測試時驗證器的搜索空間,以提供反饋並使用啟發式算法來指導搜索過程。給定一個文本提示,我們首先探索了一種直觀的線性搜索策略,即在推理時增加噪聲候選。由於同時對所有幀進行全步去噪需要沉重的測試時計算成本,我們進一步設計了一種更高效的視頻生成TTS方法,稱為“幀之樹”(Tree-of-Frames, ToF),該方法以自回歸的方式自適應地擴展和修剪視頻分支。在文本條件下的視頻生成基準上的大量實驗表明,增加測試時計算資源持續顯著提升了視頻質量。項目頁面:https://liuff19.github.io/Video-T1
現代遊戲開發在創意和成本方面面臨重大挑戰,這主要源於傳統遊戲引擎中預設內容的限制。近期在視頻生成模型領域的突破,這些模型能夠合成逼真且互動的虛擬環境,為遊戲創作帶來了革命性的機遇。在本立場文件中,我們提出將互動生成視頻(IGV)作為生成式遊戲引擎(GGE)的基礎,從而實現下一代遊戲中無限新穎內容的生成。GGE充分利用IGV在無限高質量內容合成、物理感知的世界建模、用戶控制的互動性、長期記憶能力以及因果推理方面的獨特優勢。我們提出了一個詳細的框架,闡述了GGE的核心模塊,並制定了一個分層成熟度路線圖(L0-L4)以指導其發展。我們的工作為AI時代的遊戲開發開闢了新方向,展望了一個由AI驅動的生成系統從根本上重塑遊戲創作與體驗的未來。
DeepSeek-R1 的研究表明,通过一个简单的基于规则奖励的强化学习(RL)框架,长链思维(CoT)推理可以自然涌现,其中训练可以直接从基础模型开始——这一范式被称为零 RL 训练。最近大多数尝试复现零 RL 训练的工作主要集中在 Qwen2.5 模型系列上,但我们发现这些基础模型已经展现出强大的指令遵循和自我反思能力,因此可能并不具有代表性。在本研究中,我们探讨了 10 种不同基础模型的零 RL 训练,涵盖了不同系列和规模的模型,包括 LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B 以及从 0.5B 到 32B 的所有 Qwen2.5 模型。通过采用多项关键设计策略——例如调整格式奖励和控制查询难度——我们在大多数设置中实现了推理准确性和响应长度的显著提升。然而,通过仔细监控训练动态,我们观察到不同基础模型在训练过程中表现出不同的模式。例如,响应长度的增加并不总是与某些认知行为(如验证,即“顿悟时刻”)的出现相关。值得注意的是,我们首次在非 Qwen 系列的小模型中观察到了“顿悟时刻”。我们分享了成功实现零 RL 训练的关键设计,以及我们的发现和实践。为了促进进一步研究,我们开源了代码、模型和分析工具。
幾何重建與生成建模的整合仍然是開發具備類人空間推理能力的AI系統的關鍵挑戰。本文提出Aether,一個統一框架,通過聯合優化三大核心能力來實現世界模型中的幾何感知推理:(1) 四維動態重建,(2) 動作條件下的視頻預測,以及(3) 目標條件下的視覺規劃。通過任務交織的特徵學習,Aether在重建、預測和規劃目標之間實現了協同知識共享。基於視頻生成模型,我們的框架展示了前所未有的合成到真實的泛化能力,儘管在訓練過程中從未觀察過真實世界數據。此外,得益於其內在的幾何建模,我們的方法在動作跟隨和重建任務中均實現了零樣本泛化。值得注意的是,即使沒有真實世界數據,其重建性能也遠遠超過了特定領域的模型。此外,Aether利用幾何信息化的動作空間,將預測無縫轉化為動作,從而實現了有效的自主軌跡規劃。我們希望這項工作能激勵社區探索物理合理世界建模及其應用的新前沿。
Omnimatte旨在將給定的視頻分解為具有語義意義的層次,包括背景和單個物體及其相關效果,如陰影和反射。現有方法通常需要大量訓練或昂貴的自監督優化。在本文中,我們提出了OmnimatteZero,這是一種無需訓練的方法,利用現成的預訓練視頻擴散模型來實現omnimatte。它能夠從視頻中移除物體,提取單個物體層及其效果,並將這些物體合成到新的視頻中。我們通過將零樣本圖像修復技術適應於視頻物體移除任務來實現這一點,而這些技術在未經調整的情況下無法有效處理此類任務。我們隨後展示了自注意力映射捕捉了物體及其足蹟的信息,並利用它們來修復物體的效果,留下乾淨的背景。此外,通過簡單的潛在算術操作,物體層可以被隔離並無縫地與新的視頻層重新組合,以生成新的視頻。評估結果顯示,OmnimatteZero不僅在背景重建方面表現優異,還創下了最快的Omnimatte方法的新紀錄,實現了實時性能,且每幀運行時間極短。
科學發現的進程鮮少源於單一的「靈光乍現」時刻,而是數百位科學家朝著共同目標逐步協作的成果。現有的智能體工作流程雖能自主產生研究,卻是在孤立狀態下進行,無法持續改進先前的研究成果。為應對這些挑戰,我們引入了AgentRxiv——一個讓LLM智能體實驗室能夠上傳並從共享預印本伺服器檢索報告的框架,以便協作、分享洞見,並在彼此研究的基礎上迭代建構。我們委託智能體實驗室開發新的推理與提示技術,發現能夠存取自身先前研究的智能體,相較於孤立運作的智能體,取得了更高的性能提升(在MATH-500基準上相對基準線提升了11.4%)。我們發現,表現最佳的策略能泛化至其他領域的基準測試(平均提升3.3%)。多個智能體實驗室通過AgentRxiv共享研究,能夠協同邁向共同目標,比孤立實驗室進展更快,整體準確率更高(在MATH-500基準上相對基準線提升了13.7%)。這些發現表明,自主智能體未來可能與人類並肩設計AI系統。我們希望AgentRxiv能讓智能體協作達成研究目標,並助力研究人員加速發現進程。
無分類器引導(Classifier-Free Guidance, CFG)是擴散/流模型中廣泛採用的技術,旨在提升圖像的逼真度與可控性。在本研究中,我們首先對CFG在基於高斯混合訓練的流匹配模型中的影響進行了理論分析,其中真實流可被推導。我們觀察到,在訓練初期,當流估計不準確時,CFG會將樣本引向錯誤的軌跡。基於這一觀察,我們提出了CFG-Zero*,這是一種改進的CFG,包含兩項貢獻:(a) 優化尺度,即通過優化一個標量來校正速度估計中的誤差,這也是名稱中“*”的由來;(b) 零初始化,即在ODE求解器的前幾步中將值設為零。在文本到圖像(Lumina-Next、Stable Diffusion 3和Flux)以及文本到視頻(Wan-2.1)生成的實驗中,CFG-Zero*均一致性地超越了CFG,證明了其在引導流匹配模型方面的有效性。(代碼可於github.com/WeichenFan/CFG-Zero-star獲取)
大型語言模型(LLMs)正日益被部署於與外部環境互動的代理系統中。然而,LLM代理在處理不可信數據時容易受到提示注入攻擊的威脅。本文提出CaMeL,一種強大的防禦機制,它在LLM周圍建立了一個保護性系統層,即使底層模型可能易受攻擊,也能確保其安全。CaMeL通過明確提取(可信)查詢中的控制流和數據流來運作;因此,LLM檢索到的不可信數據永遠無法影響程序流程。為了進一步提升安全性,CaMeL依賴於一種能力概念,以防止私人數據通過未經授權的數據流外洩。我們通過在AgentDojo [NeurIPS 2024]——一個最新的代理安全基準測試中,解決了67%具有可證明安全性的任務,展示了CaMeL的有效性。
評估生成式基礎模型在開放式多模態理解(MMU)和生成(MMG)任務上的表現,尤其是在跨越多樣模態(如圖像、音頻、視頻)的複雜交互中,面臨著重大挑戰。為此,利用多模態大語言模型(MLLMs)作為自動評判者的想法應運而生,並在評估視覺-語言理解任務中取得了令人鼓舞的成果。進一步地,本文通過引入兩個基準——TaskAnything和JudgeAnything,將MLLM-as-a-Judge的理念擴展到跨模態的統一評估方式,分別評估MLLMs在任意到任意模態任務中的整體表現和評判能力。具體而言,TaskAnything評估了15種任意到任意模態類別下的MMU和MMG能力,採用了從成熟基準中精選的1,500個查詢。此外,JudgeAnything從配對比較和分數評估兩個角度,評估了5種先進模型(如GPT-4o和Gemini-2.0-Flash)的評判能力,提供了一個包含人類判斷和詳細評分標準的標準化測試平台。我們的大量實驗表明,儘管這些MLLMs在評估MMU方面展現出潛力(即在配對比較設置中平均達到66.55%,在分數評估設置中平均達到42.79%),但在MMG任務上卻面臨顯著挑戰(即在配對比較設置中平均僅為53.37%,在分數評估設置中平均僅為30.05%),暴露了跨模態偏見和幻覺問題。為解決這一問題,我們推出了OmniArena,一個用於評估全能模型和多模態獎勵模型的自動化平台。我們的工作強調了需要更公平的評估協議和更強的人類偏好對齊。源代碼和數據集已公開於:https://urrealhero.github.io/judgeanythingweb/。
我們提出了FFN融合技術,這是一種架構優化方法,通過識別並利用自然存在的並行化機會來減少大型語言模型中的序列計算。我們的核心洞察是,前饋網絡(FFN)層的序列,尤其是在移除特定注意力層後保留的FFN層,通常可以在最小化精度影響的情況下實現並行化。我們開發了一種系統化的方法來識別並融合這些序列,將其轉化為並行操作,從而顯著降低推理延遲,同時保持模型行為。將這些技術應用於Llama-3.1-405B-Instruct模型,我們創建了Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base),這是一個高效且即將公開的模型,在保持強勁基準性能的同時,實現了推理延遲1.71倍的加速和每令牌成本降低35倍。通過對參數規模從49B到253B的模型進行廣泛實驗,我們證明了FFN融合在更大規模上變得更加有效,並且可以與量化、剪枝等現有優化技術互補。最引人注目的是,我們發現即使包含注意力層和FFN層的完整Transformer塊有時也能實現並行化,這為神經網絡架構設計開闢了新的方向。
大型视觉语言模型(LVLMs)通常遵循两阶段的训练范式——预训练与监督微调。近期,源自语言领域的偏好优化作为一种有效的后训练强化策略,已显现出提升LVLMs能力的潜力。然而,构建高质量的人工标注偏好数据以及开发能够模拟这些偏好的稳健奖励模型,既成本高昂又充满挑战。基于这一观察,我们提出了Vision-R1,一种新颖的视觉引导R1类强化学习算法,专为LVLMs设计,通过明确的视觉反馈来奖励模型。该算法仅利用精选的指令数据,无需专门的奖励模型和手工制作的偏好数据集。我们引入了一个准则驱动的奖励函数,进一步整合多维度反馈,以基于视觉任务逻辑全面评估模型完成情况。此外,我们提出了一种渐进式规则细化策略,在训练过程中动态调整奖励准则,从而实现模型的持续改进并缓解奖励欺骗问题。在分布内与分布外基准上的大量实验表明,使用Vision-R1对7B规模的LVLMs进行微调,能够实现一致性的性能提升,最高可达50%的改进,并超越了当前最先进的10倍规模模型。
當前的生成模型,如自回歸和擴散方法,將高維數據分佈的學習分解為一系列更簡單的子任務。然而,在這些子任務的聯合優化過程中會出現固有的衝突,而現有的解決方案在保持效率或可擴展性的同時無法有效解決這些衝突。我們提出了一種新穎的等變圖像建模框架,該框架通過利用自然視覺信號的平移不變性,從本質上對齊了子任務間的優化目標。我們的方法引入了(1)列式標記化,增強了沿水平軸的平移對稱性,以及(2)窗口化因果注意力,確保了跨位置的一致上下文關係。在256x256分辨率的類條件ImageNet生成任務上進行評估,我們的模型在減少計算資源使用的情況下,達到了與最先進的自回歸模型相當的性能。系統性分析表明,增強等變性減少了任務間的衝突,顯著提升了零樣本泛化能力,並實現了超長圖像合成。這項工作首次建立了生成建模中任務對齊分解的框架,為高效參數共享和無衝突優化提供了洞見。代碼和模型已公開於https://github.com/drx-code/EquivariantModeling。
大型語言模型(LLMs)在解決數學問題方面展現了卓越的推理能力。然而,現有方法主要集中於提升正確訓練數據的質量,例如從高級模型中提煉高質量的正確解答,而忽視了錯誤數據中所蘊含的價值,這可能阻礙模型的反思能力。儘管一些研究嘗試利用錯誤數據,但它們通常涉及複雜的機制,如蒙特卡羅樹搜索(MCTS)來探索錯誤節點。在本研究中,我們提出通過從錯誤中學習以促進數學進步(LEMMA)來增強LLMs的推理能力。LEMMA構建了包含錯誤步驟的錯誤解答及與正確解答的反思連接的數據集進行微調。具體而言,我們系統地分析了模型生成的錯誤類型,並引入了一種基於錯誤類型的錯誤增強方法,以收集多樣且具代表性的錯誤。正確解答或通過修正錯誤獲得,或重新生成。通過模型感知的平滑反思連接,錯誤解答被轉化為正確解答。通過在構建的數據集上進行微調,模型能夠在生成過程中自主糾正錯誤,而無需依賴外部批評模型。實驗結果表明,LEMMA相較於其他強基線取得了顯著的性能提升。
語言模型(LM)預訓練的計算規模增長速度已超過人類書寫文本的增長,這引發了數據將成為LM規模擴展瓶頸的擔憂。為了在這種數據受限的情況下繼續推進預訓練,我們提出,通過顯式建模和推斷文本生成過程背後的潛在思維,可以顯著提高預訓練的數據效率。直觀上,我們的方法將網絡文本視為冗長人類思維過程的壓縮最終產物,而這些潛在思維包含了對數據高效學習至關重要的上下文知識和推理步驟。我們通過數學領域的數據受限持續預訓練,實證展示了我們方法的有效性。首先,我們展示了推斷潛在思維的合成數據方法顯著提升了數據效率,其表現優於相同數量原始數據的訓練(在MATH數據集上從5.7%提升至25.4%)。此外,我們展示了在沒有強教師模型的情況下進行潛在思維推斷,其中LM通過使用EM算法迭代提升訓練LM的能力及思維增強預訓練數據的質量,從而自舉其性能。我們證明,一個10億參數的LM能夠在至少三次迭代中自舉其性能,並顯著超越基於原始數據訓練的基線模型,且在執行E步驟時,隨著推理計算的增加,收益也隨之增加。推理規模擴展和EM迭代帶來的收益,為數據受限的預訓練規模擴展提供了新的機遇。
自然語言轉SQL(NL2SQL)技術在大型語言模型(LLMs)的推動下取得了顯著進展。然而,這些模型往往依賴於閉源系統和高計算資源,在數據隱私和部署方面帶來挑戰。相比之下,小型語言模型(SLMs)在NL2SQL任務上表現欠佳,性能低下且與現有框架不兼容。為解決這些問題,我們提出了Feather-SQL,這是一個專為SLMs設計的新型輕量級框架。Feather-SQL通過1)模式剪枝與鏈接,2)多路徑與多候選生成,提升了SQL的可執行性與準確性。此外,我們引入了1+1模型協作範式,將一個強大的通用聊天模型與一個精調的SQL專家模型配對,結合了強大的分析推理能力與高精度的SQL生成能力。在BIRD數據集上的實驗結果表明,Feather-SQL顯著提升了SLMs在NL2SQL任務上的性能,對於未經精調的模型,性能提升約10%。所提出的範式將SLMs的準確率上限提升至54.76%,充分展示了其有效性。
3D高斯泼溅(3DGS)作为一种强大的表示方法,已广泛应用于实时高性能渲染领域,支持多种应用场景。然而,使用大量显式高斯基元来表示3D场景会带来显著的存储和内存开销。最近的研究表明,当采用高精度属性表示时,仅需大幅减少高斯基元数量即可实现高质量的渲染。尽管如此,现有的3DGS压缩方法仍依赖于相对较多的高斯基元,主要侧重于属性压缩。这是因为较少的高斯基元对属性有损压缩更为敏感,容易导致严重的质量下降。由于高斯基元数量直接关系到计算成本,有效减少高斯基元数量而非仅优化存储显得尤为重要。本文提出了一种优化最小高斯表示(OMG),在显著减少存储的同时,使用最少数量的基元。首先,我们从相近的高斯中识别出独特的高斯,在保证质量的前提下最小化冗余。其次,我们提出了一种紧凑且精确的属性表示方法,有效捕捉基元间的连续性和不规则性。此外,我们还提出了一种子向量量化技术,以改进不规则性的表示,在保持快速训练的同时,代码本大小可忽略不计。大量实验证明,与之前的最先进方法相比,OMG将存储需求减少了近50%,并在保持高渲染质量的同时实现了600+ FPS的渲染速度。我们的源代码可在https://maincold2.github.io/omg/获取。
擴散模型在視覺內容生成方面展現了卓越的能力,但其在推理階段的高計算成本使其部署仍具挑戰性。這一計算負擔主要源於自注意力機制相對於圖像或視頻分辨率的二次方複雜性。現有的加速方法往往會犧牲輸出質量或需要昂貴的重新訓練,而我們觀察到,大多數擴散模型是在較低分辨率下進行預訓練的,這為利用這些低分辨率先驗進行更高效的推理而不降低性能提供了機會。在本研究中,我們引入了瓶頸採樣(Bottleneck Sampling),這是一種無需訓練的框架,利用低分辨率先驗來減少計算開銷,同時保持輸出保真度。瓶頸採樣遵循高-低-高的去噪工作流程:在初始和最終階段進行高分辨率去噪,而在中間步驟則以較低分辨率操作。為了減輕混疊和模糊偽影,我們進一步細化了分辨率過渡點,並在每個階段自適應地調整去噪時間步。我們在圖像和視頻生成任務上評估了瓶頸採樣,大量實驗表明,它將圖像生成的推理速度提高了最多3倍,視頻生成提高了2.5倍,同時在多個評估指標上保持了與標準全分辨率採樣過程相當的輸出質量。代碼可在以下網址獲取:https://github.com/tyfeld/Bottleneck-Sampling。
近期大型视频语言模型(LVLMs)的进展凸显了其在多模态理解方面的潜力,然而评估其在视频情境中的事实基础仍是一个关键的未解难题。为填补这一空白,我们推出了Video SimpleQA,这是首个专为LVLMs事实性评估设计的全面基准。我们的工作通过以下关键特性与现有视频基准区分开来:1)所需知识:要求整合超越显性叙述的外部知识;2)事实探寻问题:针对客观、无争议的事件或关系,避免主观解释;3)明确且简短的答案:答案设计为简短且明确无误,便于通过LLM-as-a-judge框架进行自动化评估,评分差异最小化;4)外部来源验证:所有标注均经过严格的外部权威参考验证,确保可靠性;5)时间推理需求:标注的问题类型涵盖静态单帧理解与动态时间推理,明确评估LVLMs在长上下文依赖下的真实性。我们广泛评估了41个最先进的LVLMs,并总结出以下关键发现:1)当前LVLMs在事实遵循方面存在显著不足,尤其是开源模型。表现最佳的Gemini-1.5-Pro模型仅达到54.4%的F分数;2)测试时计算范式带来的性能提升微乎其微,揭示了通过事后计算提升事实性的根本限制;3)检索增强生成(Retrieval-Augmented Generation)虽带来一致改进,但以额外推理时间为代价,呈现出效率与性能之间的关键权衡。
本文介紹了AlphaSpace,這是一種新穎的方法論,旨在增強大型語言模型(LLMs)在三維笛卡爾空間導航中的空間推理能力。AlphaSpace採用基於語義的分詞策略,通過專門的語義標記來編碼高度信息,並主要整合符號化的合成推理數據。這種方法使LLMs能夠通過將物體定位在特定的[x, y, z]座標上來精確操縱物體。實驗結果表明,AlphaSpace在操縱子任務上顯著優於現有模型,總準確率達到66.67%,而GPT-4o和Claude 3.5 Sonnet的準確率分別為37.5%和29.17%。
文本到視頻(T2V)生成技術在擴散模型的推動下取得了顯著進展。然而,現有方法在精確綁定屬性、確定空間關係以及捕捉多主體間複雜動作交互方面仍面臨挑戰。為解決這些限制,我們提出了MagicComp,這是一種無需訓練的方法,通過雙階段精煉來增強組合式T2V生成。具體而言,(1)在條件階段:我們引入了語義錨點消歧,通過逐步將語義錨點的方向向量注入原始文本嵌入中,強化主體特定的語義並解決主體間的歧義;(2)在去噪階段:我們提出了動態佈局融合注意力機制,該機制整合了基礎先驗和模型自適應的空間感知,通過掩碼注意力調製靈活地將主體綁定到其時空區域。此外,MagicComp是一種模型無關且多功能的解決方案,能夠無縫集成到現有的T2V架構中。在T2V-CompBench和VBench上的大量實驗表明,MagicComp超越了最先進的方法,凸顯了其在基於複雜提示和軌跡可控視頻生成等應用中的潛力。項目頁面:https://hong-yu-zhang.github.io/MagicComp-Page/。
本文提出Diffusion-4K,一種基於文本到圖像擴散模型的新型框架,用於直接生成超高分辨率圖像。核心創新包括:(1) Aesthetic-4K基準:針對公開可用的4K圖像合成數據集缺失的問題,我們構建了Aesthetic-4K,一個全面的超高分辨率圖像生成基準。我們精心挑選了高質量的4K圖像,並由GPT-4o生成相應的標題。此外,我們引入了GLCM分數和壓縮比指標來評估細節,結合FID、美學評分和CLIPScore等整體指標,對超高分辨率圖像進行全面評估。(2) 基於小波的微調:我們提出了一種基於小波的微調方法,適用於各種潛在擴散模型,直接使用逼真的4K圖像進行訓練,展示了其在生成高度細節的4K圖像中的有效性。因此,Diffusion-4K在高質量圖像合成和文本提示遵循方面表現出色,尤其是在現代大規模擴散模型(如SD3-2B和Flux-12B)的支持下。我們基準的大量實驗結果證明了Diffusion-4K在超高分辨率圖像合成中的優越性。
大型語言模型(LLMs)在多個領域取得了顯著進展,尤其是在編程、數學推理和邏輯問題解決方面。然而,一個關鍵問題仍然存在:當LLMs面對文化適應的數學問題時,這些數學推理能力是否依然有效?具體而言,當LLMs遇到嵌入在主流網絡規模AI訓練數據中無顯著代表性的文化背景中的數學問題時,其表現如何?為探討這一問題,我們從GSM8K(一個廣泛用於評估LLMs數學推理能力的基準數據集)中生成了六個合成文化數據集。在保持原始GSM8K測試集的數學邏輯和數值的同時,我們修改了文化元素,如人名、食物名稱、地名等。這些文化適應的數據集為評估LLMs在變化的文化背景下的數學推理能力提供了更可靠的框架。我們的研究發現,當文化參考發生變化時,即使底層的數學結構保持不變,LLMs在解決數學問題時仍面臨困難。較小的模型相比較大的模型表現出更大的性能下降。有趣的是,我們的結果還表明,文化熟悉度可以增強數學推理能力。即使沒有明確數學訓練但接觸過相關文化背景的模型,有時在處理嵌入文化的數學問題時,其表現甚至超過了更大、數學能力更強的模型。這項研究強調了文化背景對LLMs數學推理能力的影響,並凸顯了需要更多樣化和代表性的訓練數據以提高現實世界應用中的魯棒性。基準數據集和重現結果的腳本可在以下網址獲取:https://github.com/akarim23131/Lost_in_Cultural_Translation。
近期大型語言模型(LLMs)的指數級增長主要依賴於基於GPU的系統。然而,CPU正逐漸成為一種靈活且成本更低的替代方案,特別是在針對推理和推理工作負載時。RISC-V因其開放且供應商中立的指令集架構(ISA),在這一領域迅速獲得關注。然而,考慮到特定領域調優的需求,用於LLM工作負載的RISC-V硬件及相應的軟件生態系統尚未完全成熟和優化。本文旨在填補這一空白,專注於在Sophon SG2042上優化LLM推理,這是首款具備向量處理能力的商用多核RISC-V CPU。 在針對推理優化的兩個最新頂尖LLM模型——DeepSeek R1 Distill Llama 8B和DeepSeek R1 Distill QWEN 14B上,我們實現了4.32/2.29 token/s的token生成速度和6.54/3.68 token/s的提示處理速度,相比我們的基線,速度提升了最高達2.9倍/3.0倍。
非事實性問答(NFQA)因其開放性、多樣化的意圖以及需要多維度推理而面臨重大挑戰,這使得包括檢索增強生成(RAG)在內的傳統事實性問答方法顯得不足。與事實性問題不同,非事實性問題(NFQs)缺乏明確答案,需要從多個來源綜合信息,涵蓋不同的推理維度。為解決這些限制,我們在RAG範式中引入了Typed-RAG,這是一個類型感知的多維度分解框架,專門用於NFQA。Typed-RAG將NFQs分類為不同的類型——如辯論、經驗和比較——並應用基於維度的分解來優化檢索和生成策略。通過將多維度的NFQs分解為單一維度的子查詢並聚合結果,Typed-RAG生成更具信息量和上下文相關性的回答。為了評估Typed-RAG,我們引入了Wiki-NFQA,這是一個涵蓋多種NFQ類型的基準數據集。實驗結果表明,Typed-RAG優於基線方法,從而凸顯了類型感知分解在NFQA中有效檢索和生成的重要性。我們的代碼和數據集可在https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}獲取。
文本到視頻(T2V)生成技術因其能從文字描述合成逼真視頻而受到廣泛關注。然而,現有模型在計算效率與高視覺質量之間難以取得平衡,尤其是在資源有限的設備上,如集成顯卡(iGPU)和手機。多數先前工作優先考慮視覺逼真度,卻忽視了開發更小、更高效模型以適應實際部署的需求。為應對這一挑戰,我們提出了一種輕量級T2V框架,命名為「蜂鳥」,該框架通過剪枝現有模型並利用視覺反饋學習來提升視覺質量。我們的方法將U-Net的參數規模從14億縮減至7億,顯著提高了效率,同時保持了高質量的視頻生成。此外,我們引入了一種新穎的數據處理流程,利用大型語言模型(LLMs)和視頻質量評估(VQA)模型來提升文本提示和視頻數據的質量。為支持用戶驅動的訓練和風格定制,我們公開了完整的訓練代碼,包括數據處理和模型訓練。大量實驗表明,與VideoCrafter2等頂尖模型相比,我們的方法實現了31倍的加速,並在VBench上獲得了最高總分。此外,我們的方法支持生成最多26幀的視頻,解決了現有基於U-Net方法在長視頻生成上的限制。值得注意的是,整個訓練過程僅需四塊GPU,卻能提供與現有領先方法相媲美的性能。「蜂鳥」為T2V生成提供了一個實用且高效的解決方案,結合了高性能、可擴展性和實際應用的靈活性。
大型語言模型(LLM)預訓練的成果,在很大程度上取決於權重初始化與方差控制策略。儘管初始方差控制在神經網絡中的重要性已廣為人知,但針對LLM預訓練期間的初始化及其增長管理的文獻卻相對稀少。本文提出了層索引重縮放(LIR)權重初始化方案,以及目標方差重縮放(TVR)方差控制策略。在一個擁有10億參數的LLaMA模型上的實驗表明,利用這些技術進行更優的方差管理,能顯著提升下游任務的表現(在常見的預訓練基準上最高提升4.6%),並減少極端激活值,從而緩解量化與低精度訓練相關的挑戰。我們的代碼已公開於:https://github.com/bluorion-com/weight_rescaling。
我們提出了MetaSpatial,這是首個基於強化學習(RL)的框架,旨在增強視覺語言模型(VLMs)的三維空間推理能力,實現無需硬編碼優化的實時三維場景生成。MetaSpatial解決了兩個核心挑戰:(i) VLMs內部缺乏三維空間推理能力,這限制了它們生成逼真佈局的能力;以及(ii) 傳統監督微調(SFT)在佈局生成任務中的低效性,因為完美的地面真實註釋不可得。我們的關鍵創新是一個多輪基於RL的優化機制,該機制整合了物理感知約束和渲染圖像評估,確保生成的三維佈局連貫、物理上合理且美學上一致。在方法論上,MetaSpatial引入了一種自適應的迭代推理過程,在此過程中,VLM通過分析渲染輸出,在多輪中逐步改進空間安排,從而提升場景的連貫性。實證評估表明,MetaSpatial顯著提高了各種規模模型的空間一致性和格式穩定性。訓練後,物體放置更加真實、對齊且功能上連貫,驗證了RL在元宇宙、AR/VR、數字孿生和遊戲開發應用中進行三維空間推理的有效性。我們的代碼、數據和訓練管道已公開於https://github.com/PzySeere/MetaSpatial。
儘管自然語言指令提供了一種直觀的方式來引導自動化圖像編輯,深度學習模型往往難以實現高質量的結果,這主要歸因於創建大規模、高質量訓練數據集的挑戰。先前的研究通常依賴於文本到圖像(T2I)生成模型來生成模擬指令引導圖像編輯模型輸入/輸出的原始與編輯後圖像對。然而,由於T2I模型的限制,這些圖像對往往無法與指定的編輯指令保持一致,這對基於此類數據集訓練的模型產生了負面影響。為解決這一問題,我們提出了Instruct-CLIP,這是一種自監督方法,它學習原始圖像與編輯後圖像之間的語義變化,以精煉並更好地對齊現有數據集中的指令。此外,我們調整了Instruct-CLIP以處理噪聲潛在圖像和擴散時間步,使其能夠用於訓練潛在擴散模型(LDMs)[19],並在擴散管道的任何步驟中有效強制編輯指令與圖像變化在潛在空間中的對齊。我們使用Instruct-CLIP來校正InstructPix2Pix數據集,並獲得了超過120K的精煉樣本,隨後我們利用這些樣本,在我們新穎的基於Instruct-CLIP的損失函數指導下,對其模型進行微調。最終的模型能夠生成與給定指令更加一致的編輯結果。我們的代碼和數據集可在https://github.com/SherryXTChen/Instruct-CLIP.git獲取。
語言模型近期已進展至推理領域,然而唯有通過多模態推理,我們才能充分釋放潛力,實現更全面、更接近人類的認知能力。本綜述系統性地概述了近期多模態推理方法,將其分為兩個層次:以語言為核心的多模態推理和協作式多模態推理。前者涵蓋一次性視覺感知和主動視覺感知,其中視覺主要在語言推理中扮演輔助角色。後者則涉及推理過程中的動作生成與狀態更新,實現了模態間更為動態的交互。此外,我們分析了這些方法的技術演進,探討了其固有挑戰,並介紹了評估多模態推理性能的關鍵基準任務與評價指標。最後,我們從以下兩個視角展望了未來研究方向:(i) 從視覺-語言推理到全模態推理,以及 (ii) 從多模態推理到多模態代理。本綜述旨在提供一個結構化的概述,以激勵多模態推理研究的進一步發展。
離散視覺標記器將圖像轉換為一系列標記,實現了類似於語言模型的基於標記的視覺生成。然而,這一過程本質上具有挑戰性,因為它既需要將視覺信號壓縮成緊湊的表示,又需要將其離散化為一組固定的編碼。傳統的離散標記器通常將這兩個任務聯合學習,這往往導致訓練不穩定、編碼簿利用率低以及重建質量有限。本文中,我們提出了CODA(連續到離散適應)框架,該框架將壓縮和離散化分離。CODA並非從頭訓練離散標記器,而是通過精心設計的離散化過程,將現成的連續變分自編碼器(VAE)——已經針對感知壓縮進行了優化——適應為離散標記器。通過主要關注離散化,CODA確保了訓練的穩定性和效率,同時保留了連續VAE的強大視覺保真度。實驗表明,在ImageNet 256×256基準測試中,與標準VQGAN相比,我們的訓練預算減少了6倍,實現了100%的編碼簿利用率,並在8倍和16倍壓縮下分別取得了0.43和1.34的顯著重建FID(rFID)成績。
近期,視頻生成技術取得了重大進展,引起了學界的廣泛關注。為了在資源受限的條件下將該技術應用於下游任務,研究者通常基於參數高效調優方法(如Adapter或Lora)對預訓練模型進行微調。儘管這些方法能夠將源領域的知識遷移至目標領域,但較少的訓練參數導致模型擬合能力不足,且源領域的知識可能使推理過程偏離目標領域。本文主張,在資源受限的情況下,僅使用百萬級樣本從頭訓練一個較小的視頻生成模型,在下游應用中能夠超越對更大模型的參數高效調優:其核心在於數據的有效利用與課程策略的設計。以動態貼紙生成(ASG)為例,我們首先構建了一個適用於低幀率貼紙的離散幀生成網絡,確保其參數滿足資源受限下的模型訓練要求。為了為從頭訓練的模型提供數據支持,我們提出了一種基於雙掩碼的數據利用策略,有效提升了有限數據的可用性並擴展了其多樣性。為促進雙掩碼情況下的模型收斂,我們提出了一種難度自適應的課程學習方法,將樣本熵分解為靜態與自適應兩部分,從而實現從易到難的樣本獲取。實驗表明,我們提出的資源高效雙掩碼訓練框架在定量與定性評估上均優於I2V-Adapter和SimDA等參數高效調優方法,驗證了該方法在資源受限下執行下游任務的可行性。代碼將公開提供。
大型語言模型及其作為AI代理的應用,顯著推進了最先進的代碼生成基準,改變了現代軟件工程任務的面貌。然而,即便配備了測試時計算的推理模型,這些系統在應對複雜的軟件工程挑戰時仍顯不足。本研究介紹了CURA,這是一個通過言語過程監督(VPS)增強代碼理解與推理能力的代理系統,在BigCodeBench等具有挑戰性的基準測試中,相較於基礎模型實現了3.65%的性能提升。此外,CURA與o3-mini模型及VPS技術結合,達到了業界領先的性能水平。這項工作標誌著在將推理驅動架構與基於LLM的代碼生成相結合方面邁出了重要一步,使語言模型能夠通過代理推理來解決複雜的軟件工程任務。
我們提出了人體運動遺忘任務,旨在防止生成有害動畫的同時,保持文本到運動生成的一般性能。遺忘有害運動具有挑戰性,因為這些運動既可以由顯式文本提示生成,也可以由安全運動的隱式有害組合產生(例如,「踢腿」是「抬腿和擺腿」的組合)。我們通過從大型且最新的文本到運動數據集HumanML3D和Motion-X中過濾有害運動,提出了首個運動遺忘基準。我們提出了基線方法,通過適應最先進的圖像遺忘技術來處理時空信號。最後,我們提出了一種基於潛在代碼替換的新型運動遺忘模型,簡稱LCR。LCR無需訓練,並且適用於最先進的文本到運動擴散模型的離散潛在空間。LCR方法簡單,在質量和數量上均一致優於基線方法。項目頁面:https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}。
在多光源場景下的白平衡(WB)校正,一直是計算機視覺領域中一個持續存在的挑戰。近期的方法探索了基於融合的技術,其中神經網絡線性混合了輸入圖像的多個sRGB版本,每個版本都使用預定義的白平衡預設進行處理。然而,我們證明這些方法在常見的多光源場景下並非最優。此外,現有的基於融合的方法依賴於缺乏專用多光源圖像的sRGB白平衡數據集,這限制了訓練和評估的效果。為應對這些挑戰,我們提出了兩項關鍵貢獻。首先,我們提出了一種高效的基於Transformer的模型,該模型能有效捕捉跨sRGB白平衡預設的空間依賴性,顯著改進了線性融合技術。其次,我們引入了一個大規模的多光源數據集,包含超過16,000張使用五種不同白平衡設置渲染的sRGB圖像,以及經過白平衡校正的圖像。在我們新的多光源圖像融合數據集上,我們的方法相比現有技術實現了高達100%的提升。
儘管近年來圖像超分辨率(SR)技術不斷提升其輸出結果的感知質量,但在定量評估中往往表現不佳。這種不一致性導致了對現有SR評估圖像指標的日益不信任。雖然圖像評估依賴於指標和參考真實值(GT),但研究人員通常不會審視GT的作用,因為它們普遍被視為「完美」的參考。然而,由於數據收集於早期,且忽視了對其他類型失真的控制,我們指出現有SR數據集中的GT可能質量較差,從而導致評估偏差。基於這一觀察,本文探討以下問題:現有SR數據集中的GT圖像是否百分之百可信用於模型評估?GT質量如何影響這一評估?如果存在不完美的GT,如何進行公平評估?為回答這些問題,本文提出了兩項主要貢獻。首先,通過系統分析七種最先進的SR模型在三個真實世界SR數據集上的表現,我們展示了低質量GT能一致性地影響SR模型的性能,且當控制GT質量時,模型表現會有顯著差異。其次,我們提出了一種新的感知質量指標——相對質量指數(RQI),它衡量圖像對之間的相對質量差異,從而解決了由不可靠GT引起的評估偏差問題。我們提出的模型在與人類意見的一致性上取得了顯著提升。我們期望這項工作能為SR社區提供洞見,指導未來數據集、模型和指標的開發方向。
大型视觉语言模型(VLMs),如GPT-4,已在多个领域取得了显著成功。然而,关于利用VLMs进行3D室内场景生成的研究却寥寥无几。本文将这一任务视为一个受空间与布局常识约束的规划问题。为了利用VLM解决此问题,我们提出了一种新的全局-局部树搜索算法。在全局层面,该方法依次放置每个物体,并在每次放置过程中探索多种可能,将问题空间表示为树结构。为了减少树的深度,我们分层分解场景结构,即房间级别、区域级别、地面物体级别及支撑物体级别。该算法独立生成不同区域的地面物体以及放置在不同地面物体上的支撑物体。在局部层面,我们还将每个物体的放置子任务分解为多个步骤。算法在问题空间的树中进行搜索。为了利用VLM模型生成物体的位置,我们将俯视图空间离散化为密集网格,并用多样化的表情符号填充每个单元格,以使单元格之间有所区分。我们向VLM提供表情符号网格,VLM通过描述表情符号名称来生成物体的合理位置。定量与定性实验结果表明,我们的方法生成的3D场景比现有最先进方法更为合理。我们的源代码可在https://github.com/dw-dengwei/TreeSearchGen 获取。
單目深度估計(Monocular Depth Estimation, MDE)已成為計算機視覺領域的關鍵任務,支撐著眾多實際應用。然而,在資源受限的邊緣設備,尤其是專用集成電路(Application-Specific Integrated Circuits, ASICs)上部署精確的深度估計模型,由於其高計算和內存需求而面臨挑戰。近期基礎深度估計技術的進展雖取得了令人矚目的成果,卻進一步加大了在ASICs上部署的難度。為此,我們提出了QuartDepth,該方法採用訓練後量化技術,結合硬件加速來量化MDE模型,使其適用於ASICs。我們的方法包括將權重和激活值量化至4位精度,從而縮減模型規模並降低計算成本。為減少量化帶來的性能損失,我們引入了激活值精煉與補償算法,應用於激活值量化前後,以及一種權重重建方法,以最小化權重量化中的誤差。此外,我們設計了一款靈活且可編程的硬件加速器,支持內核融合和定制指令可編程性,從而提升吞吐量和效率。實驗結果表明,我們的框架在保持競爭力精度的同時,實現了ASICs上的快速推理和更高能效,彌合了高性能深度估計與實際邊緣設備應用之間的鴻溝。代碼見:https://github.com/shawnricecake/quart-depth
遙感技術的進步提升了衛星影像的空間分辨率,促進了更為精細的視覺表達,以支持多樣化的解譯需求。然而,現有方法在跨應用場景中的泛化能力有限。儘管一些當代基礎模型展現出潛力,但它們受限於跨任務適應性的不足,且主要處理尺寸受限的低分辨率影像,因此未能充分利用高分辨率數據或挖掘大場景語義。關鍵在於,遙感影像與自然圖像存在本質差異,其關鍵前景目標(如海上物體、人工建築)通常僅佔極小的空間比例(約1%),且呈現稀疏分佈。從長序列的二維標記(約100,000個)中高效建模跨任務可泛化知識,既是重大挑戰,也是遙感影像理解的關鍵。受人類視覺系統固有的選擇性注意力機制啟發,我們提出了DynamicVis,一個面向遙感影像的動態視覺感知基礎模型。該框架整合了基於選擇性狀態空間模型的新型動態區域感知骨幹,策略性地平衡了局部細節提取與全局上下文整合,實現了大規模數據的高效編碼,同時保持了架構的可擴展性。為增強跨任務知識遷移,我們引入了利用元嵌入表示的多實例學習範式,並在百萬級區域標註數據上進行訓練。在九個下游任務上的評估展示了模型的廣泛適用性。DynamicVis以卓越的效率實現了多層次特徵建模,處理(2048x2048)像素僅需97毫秒延遲(為ViT的6%),並佔用833 MB GPU內存(為ViT的3%)。