每日精選AI研究論文及翻譯
測試時擴展旨在通過增加計算資源來提升大型語言模型(LLMs)的推理性能。該領域內一種普遍採用的方法是基於採樣的測試時擴展方法,這些方法通過在推理過程中為給定輸入生成多條推理路徑來增強推理能力。然而,儘管其在實踐中取得了成功,其理論基礎仍未被充分探討。本文首次提供了一個基於置信度估計視角的理論框架,用於分析基於採樣的測試時擴展方法。基於此框架,我們分析了兩種主導範式:自我一致性和困惑度,並揭示了關鍵限制:自我一致性存在高估計誤差,而困惑度則表現出顯著的建模誤差以及估計誤差收斂可能惡化的問題。為解決這些限制,我們引入了RPC,這是一種混合方法,通過兩個關鍵組件——困惑度一致性和推理剪枝——來利用我們的理論洞察。困惑度一致性結合了自我一致性和困惑度的優勢,將估計誤差的收斂速度從線性提升至指數級,同時保持模型誤差不變。推理剪枝則通過剔除低概率推理路徑來防止性能退化。在七個基準數據集上的理論分析和實證結果均表明,RPC在減少推理誤差方面具有巨大潛力。值得注意的是,RPC在實現與自我一致性相當的推理性能的同時,不僅提升了置信度的可靠性,還將採樣成本降低了50%。代碼及相關資源可訪問https://wnjxyk.github.io/RPC獲取。
推進機器智能的發展,需要培養跨越多種模態的感知能力,正如人類感知世界的方式。我們推出OmniVinci計劃,旨在構建一個強大、開源的全模態大語言模型(LLM)。我們深入研究了模型架構與數據策劃的設計選擇。在模型架構方面,我們提出了三項關鍵創新:(i) OmniAlignNet,用於在共享的全模態潛在空間中強化視覺與音頻嵌入的對齊;(ii) 時間嵌入分組,用於捕捉視覺與音頻信號之間的相對時間對齊;以及(iii) 約束旋轉時間嵌入,用於在全模態嵌入中編碼絕對時間信息。我們引入了一個策劃與合成流程,生成了2400萬條單模態與全模態的對話數據。我們發現,不同模態在感知與推理上相互增強。我們的模型OmniVinci,在DailyOmni(跨模態理解)上超越Qwen2.5-Omni達19.05分,在MMAR(音頻)上提升1.7分,在Video-MME(視覺)上提升3.9分,而僅使用了0.2T的訓練token,相比Qwen2.5-Omni的1.2T減少了6倍。最後,我們展示了全模態在機器人、醫療AI及智能工廠等下游應用中的優勢。
三維物體編輯對於遊戲、動畫及機器人領域中的互動內容創作至關重要,然而現有方法仍存在效率低下、結果不一致且往往無法保持未編輯區域完整性的問題。多數方法依賴於對多視角渲染圖進行編輯後再重建,此過程易引入偽影並限制其實用性。為應對這些挑戰,我們提出了Nano3D,這是一個無需訓練的框架,旨在實現無需遮罩的精確且連貫的三維物體編輯。Nano3D將FlowEdit整合至TRELLIS中,以前視圖渲染為指導進行局部編輯,並進一步引入了區域感知的融合策略——Voxel/Slat-Merge,該策略通過確保編輯與未編輯區域之間的一致性,自適應地保持結構保真度。實驗表明,與現有方法相比,Nano3D在實現三維一致性和視覺質量方面表現出眾。基於此框架,我們構建了首個大規模三維編輯數據集Nano3D-Edit-100k,其中包含超過10萬對高質量三維編輯樣本。此項工作解決了算法設計與數據可用性方面的長期挑戰,顯著提升了三維編輯的通用性與可靠性,並為前饋式三維編輯模型的發展奠定了基礎。項目頁面:https://jamesyjl.github.io/Nano3D
基于指令的視頻編輯技術有望實現內容創作的民主化,然而其發展卻因大規模、高質量訓練數據的稀缺而嚴重受阻。我們推出了Ditto,這是一個旨在應對這一根本挑戰的整體框架。Ditto的核心特色在於其創新的數據生成流程,該流程融合了領先圖像編輯器的創意多樣性與上下文視頻生成器,從而突破了現有模型的局限範圍。為了使這一流程切實可行,我們的框架通過採用一種高效的蒸餾模型架構並輔以時間增強器,解決了成本與質量之間難以兼顧的矛盾,同時降低了計算開銷並提升了時間一致性。最終,為了實現完全的可擴展性,整個流程由一個智能代理驅動,該代理負責設計多樣化的指令並嚴格篩選輸出,確保了大規模下的質量控制。利用這一框架,我們投入了超過12,000個GPU天,構建了Ditto-1M,這是一個包含一百萬個高保真視頻編輯示例的新數據集。我們採用課程學習策略,在Ditto-1M上訓練了我們的模型Editto。結果顯示,Editto在遵循指令的能力上表現卓越,並在基於指令的視頻編輯領域樹立了新的技術標杆。
近期研究表明,狹義的微調可能導致大型語言模型(LLMs)出現廣泛的對齊偏差,這一現象被稱為「湧現性對齊偏差」(Emergent Misalignment, EM)。儘管這一發現令人擔憂,但這些研究僅限於微調和激活導向,未涵蓋上下文學習(In-Context Learning, ICL)。因此,我們提出疑問:EM是否會在ICL中出現?我們發現確實如此:在三組數據集上,三種前沿模型在給定64個狹義上下文示例時,產生了2%至17%的廣泛對齊偏差回應,而在256個示例時,這一比例甚至高達58%。我們還通過引導逐步推理(同時保持上下文示例不變)來探討EM的機制。對由此產生的思維鏈進行人工分析顯示,67.5%的對齊偏差軌跡通過採納一種魯莽或危險的「人格」,明確地為有害輸出提供合理化解釋,這與先前關於微調誘發EM的研究結果相呼應。
合成大規模、可探索且幾何精確的三維城市場景,對於提供沉浸式與具身應用而言,是一項既具挑戰性又極具價值的任務。此挑戰主要源於缺乏大規模且高質量的真實世界三維掃描數據,以訓練具有泛化能力的生成模型。本文中,我們採取了一條替代路徑來創建大規模三維場景,即融合易於獲取的衛星影像——其提供了真實的粗略幾何信息——與開放域擴散模型——用於生成高質量的近景外觀。我們提出了Skyfall-GS,這是首個無需昂貴三維註釋即可實現城市街區尺度三維場景創建的框架,同時具備實時、沉浸式的三維探索功能。我們量身定制了一種課程驅動的迭代優化策略,逐步提升幾何完整度與照片級真實感的紋理。大量實驗表明,與現有最先進的方法相比,Skyfall-GS在跨視角一致的幾何結構與更為逼真的紋理表現上均有顯著提升。項目頁面:https://skyfall-gs.jayinnn.dev/
近期,基于扩散的视觉生成技术取得了显著进展,主要依赖于结合变分自编码器(VAE)的潜在扩散模型。尽管这一VAE+扩散范式在高保真合成方面表现有效,但其训练效率受限、推理速度缓慢,且难以广泛迁移至其他视觉任务。这些问题源于VAE潜在空间的一个关键局限:缺乏清晰的语义分离和强大的判别结构。我们的分析证实,这些特性不仅对感知和理解任务至关重要,而且对于潜在扩散模型的稳定高效训练同样不可或缺。基于这一洞见,我们提出了SVG,一种无需变分自编码器的新型潜在扩散模型,它利用自监督表示进行视觉生成。SVG通过利用冻结的DINO特征构建了一个具有明确语义可区分性的特征空间,同时通过轻量级残差分支捕捉高保真重建所需的细粒度细节。扩散模型直接在这一语义结构化的潜在空间上进行训练,以促进更高效的学习。因此,SVG实现了加速的扩散训练,支持少步采样,并提升了生成质量。实验结果进一步表明,SVG保留了底层自监督表示的语义和判别能力,为任务通用、高质量的视觉表示提供了一条原则性的路径。
基於索緒爾和喬姆斯基理論框架對大型語言模型(LLMs)的語言學評論,往往流於臆測且缺乏建設性。批評者質疑LLMs能否真正模擬語言,強調需具備“深層結構”或“語義基礎”以實現理想的語言“能力”。我們主張徹底轉變視角,採納著名普通語言學家與歷史語言學家維托爾德·馬恩恰克的經驗主義原則。他將語言定義為“所有言說與書寫的總和”,而非“符號系統”或“大腦的計算系統”。尤為重要的是,他將特定語言元素的使用頻率視為語言的首要支配原則。運用其理論框架,我們反駁了先前對LLMs的批評,並為設計、評估及解讀語言模型提供了建設性的指導。
鏡頭光暈顯著降低影像品質,影響如物件偵測和自動駕駛等關鍵電腦視覺任務。現有的單一影像光暈移除(SIFR)方法在畫面外光源不完整或缺失時表現不佳。我們提出LightsOut,這是一個基於擴散模型的畫面外補全框架,專門用於重建畫面外光源以增強SIFR。我們的方法結合了多任務回歸模組和LoRA微調的擴散模型,確保生成真實且物理一致的畫面外補全結果。全面實驗表明,LightsOut在各種挑戰性場景下持續提升現有SIFR方法的性能,無需額外重新訓練,作為一個普遍適用的即插即用預處理解決方案。專案頁面:https://ray-1026.github.io/lightsout/
大型語言模型分為兩大類:以推理為核心的LLM,它們強化內部的思維鏈推理但無法調用外部工具;以及代理型LLM,它們學習與環境互動並利用工具,但在深度推理上往往表現不足。這種分化源於根本不同的訓練目標,導致在處理簡單查詢時出現能力不匹配和效率低下的問題,兩類模型都傾向於過度思考或過度調用工具。在本研究中,我們提出了自適應代理基礎模型(A^2FM),這是一個遵循“先路由後對齊”原則的統一框架:模型首先學習任務感知的路由,然後在共享骨幹下對齊特定模式的軌跡。為解決效率差距,我們引入了第三種模式——即時模式,直接處理簡單查詢,避免不必要的推理或工具調用,同時補充代理和推理模式。為了共同提升準確性和效率,我們提出了自適應策略優化(APO),它強制跨模式的自適應採樣並應用成本正則化的獎勵。在32B規模上,A^2FM在BrowseComp上達到13.4%,在AIME25上達到70.4%,在HLE上達到16.7%,在可比模型中創下新的SOTA,並在代理、推理和通用基準測試中與前沿LLM競爭。值得注意的是,自適應執行的每次正確答案成本僅為$0.00487——相對於推理模式成本降低45.2%,相對於代理模式降低33.5%,從而實現了顯著更高的成本效率,同時保持了可比的準確性。
學術項目網站若能清晰呈現核心內容並實現直觀的導航與互動,將更有效地傳播研究成果。然而,現有方法如直接使用大型語言模型(LLM)生成、模板化或直接HTML轉換,均難以產出佈局合理、互動性強的網站,且針對此任務的全面評估體系尚屬空白。本文提出Paper2Web,一個用於評估學術網頁生成的基準數據集與多維度評價框架。該框架整合了基於規則的指標(如連通性、完整性)、經人工驗證的LLM-as-a-Judge(涵蓋互動性、美觀度與信息量),以及PaperQuiz,用於衡量論文層面的知識保留度。我們進一步介紹了PWAgent,這是一條將科學論文轉化為富含多媒體的互動式學術主頁的自動化流程。該代理通過MCP工具迭代優化內容與佈局,提升重點突出、平衡性與展示質量。實驗表明,PWAgent在保持低成本的同時,大幅超越基於模板的網頁及arXiv/alphaXiv版本等端到端基線,實現了學術網頁生成中的帕累托前沿。
我們推出BLIP3o-NEXT,作為BLIP3系列中完全開源的基礎模型,它推動了原生圖像生成的下一個前沿。BLIP3o-NEXT在單一架構內統一了文本到圖像生成與圖像編輯功能,展現出強大的圖像生成與編輯能力。在開發這一尖端原生圖像生成模型的過程中,我們總結了四點關鍵洞見:(1)多數架構選擇能帶來相當的性能;只要架構能高效擴展並支持快速推理,即可視為有效;(2)強化學習的成功應用能進一步拓展原生圖像生成的邊界;(3)圖像編輯仍具挑戰性,但通過後訓練與數據引擎,指令遵循及生成圖像與參考圖像間的一致性可顯著提升;(4)數據質量與規模依然是決定模型性能上限的關鍵因素。基於這些洞見,BLIP3o-NEXT採用了自迴歸+擴散架構,其中自迴歸模型首先根據多模態輸入生成離散圖像標記,其隱藏狀態隨後作為條件信號供擴散模型生成高保真圖像。此架構融合了自迴歸模型的推理能力與指令遵循性,以及擴散模型的精細細節渲染能力,達到了新的連貫性與真實感水平。在多項文本到圖像及圖像編輯基準測試中的廣泛評估表明,BLIP3o-NEXT在性能上超越了現有模型。
随着强大规模推理模型的发展,有效评估这些模型的推理能力变得日益重要。然而,现有的旨在评估大型模型推理能力的基准测试往往范围有限,且缺乏根据模型推理能力演变调整难度的灵活性。为此,我们提出了MorphoBench,一个融合多学科问题以评估大型模型推理能力的基准测试,并能根据先进模型的推理能力调整和更新问题难度。具体而言,我们通过从现有基准测试和奥林匹克级竞赛等来源中挑选和收集复杂推理问题来构建这一基准。此外,MorphoBench利用模型推理过程中生成的关键陈述,自适应地修改问题的分析挑战。同时,它还包括使用模拟软件生成的问题,使得基准测试难度能够以最小的资源消耗动态调整。我们已经收集了超过1300道测试题,并根据o3和GPT-5等模型的推理能力迭代调整了MorphoBench的难度。MorphoBench增强了模型推理评估的全面性和有效性,为提升大型模型的推理能力和科学稳健性提供了可靠的指导。代码已发布于https://github.com/OpenDCAI/MorphoBench。
儘管文本到視頻合成技術迅速進步,生成的視頻質量仍然極大地依賴於精確的用戶提示。現有的測試時優化方法在其他領域取得了成功,但在處理視頻的多面性時卻顯得力不從心。在本研究中,我們引入了VISTA(視頻迭代自我改進代理),這是一種新穎的多代理系統,通過在迭代循環中精煉提示來自主提升視頻生成質量。VISTA首先將用戶的想法分解為結構化的時間計劃。生成後,通過一對一淘汰賽選出最佳視頻。隨後,這部獲勝視頻會受到專注於視覺、音頻和上下文保真度的三位專業代理的評審。最後,一個推理代理綜合這些反饋,以內省的方式重寫並增強提示,用於下一個生成週期。在單場景和多場景視頻生成場景中的實驗表明,雖然先前的方法帶來不一致的增益,但VISTA始終如一地提高了視頻質量及其與用戶意圖的契合度,相對於最先進的基線,實現了高達60%的一對一勝率。人類評估者也認同這一點,在66.4%的比較中更偏好VISTA的輸出。
基础模型(FMs),如GPT-4和AlphaFold,正在重塑科学研究的格局。除了加速假设生成、实验设计和结果解释等任务外,它们还引发了一个更为根本的问题:FMs仅仅是增强了现有的科学方法论,还是在重新定义科学实践的方式?在本文中,我们主张FMs正在催化向新科学范式的过渡。我们引入了一个三阶段框架来描述这一演变:(1)元科学整合,FMs在传统范式内增强工作流程;(2)人机混合共创,FMs成为问题构建、推理和发现中的积极合作者;(3)自主科学发现,FMs作为独立代理,能够在最少人为干预的情况下生成新的科学知识。通过这一视角,我们回顾了FMs在现有科学范式中的当前应用和新兴能力。我们进一步识别了FMs赋能科学发现的风险和未来方向。本立场文件旨在支持科学界理解FMs的变革性作用,并促进对科学发现未来的反思。我们的项目可在https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery获取。
诸如OpenAI-o1、DeepSeek-R1及Qwen等推理语言模型,通过扩展思维链实现了强劲性能,却常产生冗长输出。最大化每单位标记的智能——即准确度与响应长度之比——仍是一个待解难题。我们重新审视强化学习(RL),采用最简单的长度惩罚——截断——并揭示准确度下降并非源于缺乏复杂惩罚机制,而是由于RL优化不足所致。我们识别出三大挑战:(i)优势估计中的显著偏差,(ii)熵崩溃,以及(iii)稀疏奖励信号。针对这些,我们提出了“正确实施长度惩罚”(DLER),一种结合批次奖励归一化、更高裁剪、动态采样及简单截断长度惩罚的训练方案。DLER实现了准确度与效率的最优平衡,在输出长度减少逾70%的同时,超越了所有先前基准准确度。它还提升了测试时的扩展性:相较于DeepSeek-R1-7B,DLER-7B并行生成多个简洁响应,准确度提升28%,延迟更低。我们进一步引入难度感知DLER,自适应地收紧对较易问题的截断,以获取额外效率提升。此外,我们提出了一种更新选择性合并方法,在保持基准准确度的同时,保留了DLER模型的简洁推理能力,这对于RL训练数据稀缺的场景尤为有用。
科學發現的自動化標誌著人工智慧(AI)研究中的一個關鍵里程碑。然而,現有的科學代理系統存在兩個根本性限制:僵化的預設工作流程無法適應中間發現,以及不足的上下文管理阻礙了長期研究。我們提出了freephdlabor,這是一個開源的多代理框架,其特點是完全動態的工作流程由實時代理推理決定,並採用模組化架構,使用戶能夠無縫地進行定制——用戶可以修改、添加或移除代理以滿足特定領域的需求。該框架提供了全面的基礎設施,包括自動上下文壓縮、基於工作區的通信以防止信息退化、跨會話的記憶持久性,以及非阻塞的人類干預機制。這些功能共同將自動化研究從孤立的單次嘗試轉變為持續的研究計劃,這些計劃系統地建立在先前探索的基礎上,並融入人類反饋。通過提供構建可定制的共同科學家系統的架構原則和實際實現,這項工作旨在促進自動化研究在科學領域的更廣泛採用,使從業者能夠部署互動式多代理系統,這些系統自主地進行端到端的研究——從構思到實驗,再到準備發表的文稿。
深度研究網絡代理不僅能從多樣化的來源(如網絡環境、文件和多模態輸入)中檢索信息,更重要的是,它們需要嚴格分析和整合知識以進行深入的研究。然而,現有的開源深度研究代理主要專注於增強網絡代理的信息搜索能力以定位特定信息,而忽視了信息聚合這一核心需求,這將限制其支持深度研究的能力。我們提出了一種“探索進化”範式,可擴展地構建網絡代理的可驗證訓練數據。該範式始於主動的在線探索,代理通過探索真實網絡獲取基於事實的信息。利用收集到的證據,代理隨後通過從12種高層次邏輯類型中選擇、組合和精煉操作,自我進化出一個聚合程序,以合成可驗證的問答對。這種從高層次指導到具體操作的進化過程,使我們能夠擴展性地生成WebAggregatorQA數據集,該數據集包含10K個樣本,覆蓋50K個網站和11個領域。基於開源代理框架SmolAgents,我們收集了監督微調軌跡,開發了一系列基礎模型WebAggregator。其中,WebAggregator-8B的性能與GPT-4.1相當,而32B版本在GAIA-text上超越了GPT-4.1超過10%,並接近Claude-3.7-sonnet。此外,考慮到評估網絡代理信息聚合能力的基準有限,我們構建了WebAggregatorQA的人工註釋評估分集作為一個具有挑戰性的測試集。在該基準上,Claude-3.7-sonnet僅達到28%,GPT-4.1得分為25.8%。即使代理成功檢索到所有參考資料,它們在WebAggregatorQA上仍表現不佳,這凸顯了加強網絡代理基礎信息聚合能力的必要性。
大型語言模型(LLMs)通過強化學習(RL)取得了顯著進展,特別是在獎勵可以通過程序驗證的領域,如數學和代碼。在這些領域中,模型受益於由明確基於規則的目標所指導的明確操作基礎。然而,這一進展揭示了一個重大限制:在獎勵模糊、主觀或依賴於上下文的開放領域,如創意寫作、科學推理,尤其是醫療諮詢,缺乏穩健的獎勵函數,使得這些領域對當前的RL策略具有挑戰性。為彌補這一差距,我們引入了ORBIT,這是一個專門為高風險醫療對話設計的基於開放式評分標準的增量訓練框架。ORBIT將合成對話生成與動態創建的評分標準相結合,利用這些評分標準來指導增量RL過程。特別地,這種方法不依賴於外部醫學知識或手動規則,而是利用評分標準引導的反饋來塑造學習。當在Qwen3-4B-Instruct模型上實施時,我們的方法僅使用2k樣本就能將其HealthBench-Hard基準測試的性能從7.0大幅提升至27.2,從而實現了該規模模型的頂尖水平。我們的分析證實,評分標準驅動的RL在多樣化的諮詢場景中促進了持續的性能提升,超越了簡單的數值改進。這些發現強調了基於評分標準的反饋作為一種可擴展策略,在複雜、開放式任務中推進LLMs的潛力。
生成藝術性且連貫的3D場景佈局在數位內容創作中至關重要。傳統基於優化的方法往往受限於繁瑣的手動規則,而深度生成模型在產出豐富多樣的內容方面面臨挑戰。此外,利用大型語言模型的方法常缺乏穩健性,無法準確捕捉複雜的空間關係。為解決這些挑戰,本文提出了一種新穎的視覺引導3D佈局生成系統。我們首先構建了一個高品質的資產庫,包含2,037個場景資產和147個3D場景佈局。隨後,我們採用圖像生成模型將提示表示擴展為圖像,並對其進行微調以與我們的資產庫對齊。接著,我們開發了一個穩健的圖像解析模組,基於視覺語義和幾何信息來重建場景的3D佈局。最後,我們利用場景圖和整體視覺語義來優化場景佈局,確保其邏輯連貫性並與圖像保持一致。廣泛的用戶測試表明,我們的演算法在佈局豐富度和品質方面顯著優於現有方法。代碼和數據集將在https://github.com/HiHiAllen/Imaginarium上公開。
近期的大型语言模型(LLMs)在解决金融相关问题上展现出了令人瞩目的能力。然而,由于金融领域的高风险和高利害特性,将LLMs应用于现实世界的金融场景仍面临诸多挑战。本文介绍了FinTrust,这是一个专门为评估LLMs在金融应用中的可信度而设计的综合基准。我们的基准基于实际情境,聚焦于广泛的合规性问题,并为可信度评估的每个维度提供了细粒度的任务。我们在FinTrust上评估了十一个LLMs,发现如o4-mini这样的专有模型在安全性等大多数任务中表现优异,而像DeepSeek-V3这样的开源模型则在行业公平性等特定领域具有优势。对于诸如受托人一致性和信息披露等具有挑战性的任务,所有LLMs均表现不足,显示出在法律意识方面存在显著差距。我们相信,FinTrust将成为金融领域中评估LLMs可信度的一个宝贵基准。
随着大型语言模型(LLMs)对情感智能需求的增长,一个关键挑战在于理解引发情感表达的内部机制以及控制生成文本中的情感。本研究探讨了三个核心问题:(1)LLMs是否包含塑造情感表达的上下文无关机制?(2)这些机制采取何种形式?(3)它们能否被用于实现普遍的情感控制?我们首先构建了一个受控数据集SEV(带有情感效价的情境事件),以激发跨情感的可比内部状态。随后,我们提取了揭示情感跨上下文一致编码的上下文无关情感方向(问题1)。通过分析性分解和因果分析,我们识别了局部执行情感计算的神经元和注意力头,并通过消融和增强干预验证了它们的因果作用。接着,我们量化了每个子层对模型最终情感表征的因果影响,并将识别出的局部组件整合为驱动情感表达的全局情感回路(问题2)。直接调控这些回路在测试集上实现了99.65%的情感表达准确率,超越了基于提示和导向的方法(问题3)。据我们所知,这是首次系统性地揭示并验证LLMs中情感回路的研究,为可解释性和可控情感智能提供了新的见解。
經驗性尺度定律規定了如何分配參數、數據和計算資源,而最大更新參數化(muP)則通過均衡早期更新幅度實現了跨寬度的學習率遷移。然而,在現代尺度不變架構中,訓練迅速進入由優化器主導的穩態,其中歸一化層引入了反向尺度敏感性,使得有效學習率依賴於網絡寬度,從而削弱了muP的遷移效果。為解決此問題,我們針對AdamW引入了一種權重衰減尺度規則,該規則能夠保持子層增益在寬度變化下的不變性。實證表明,每個矩陣參數的奇異值譜在範數上按eta/lambda比例縮放,且形狀大致不變;在寬度縮放d的情況下,我們觀察到頂部奇異值近似按eta/lambda·d^{0.75}的比例縮放。將這一觀察與muP學習率規則eta_2∝d^{-1}(適用於矩陣類參數)相結合,推導出一種經驗性的權重衰減尺度規則lambda_2∝d,該規則近似保持了子層增益的寬度不變性。結合以eta_1=Θ_d(1)和lambda_1=0訓練的向量類參數,這一規則實現了從代理寬度到目標寬度的學習率和權重衰減的零樣本遷移,消除了逐寬度搜索的需求。我們在LLaMA風格的Transformer模型及一個最小化合成設置中驗證了該規則,並提供了一種簡單的診斷方法——匹配頂部奇異值,以檢查子層增益的不變性。我們的研究成果通過顯式控制由優化器設定的穩態尺度,將muP的應用範圍擴展至近初始化階段之外,為在AdamW下實現寬度魯棒的超參數遷移提供了實用指南。
專家混合(Mixture-of-Experts, MoE)模型通過稀疏的專家激活實現了高效的擴展,但在部署過程中由於分佈變化,常常面臨次優的路由決策問題。雖然現有的測試時適應方法可能解決這些問題,但它們主要針對密集模型,並且需要訪問外部數據,這限制了它們在MoE架構中的實際應用性。然而,我們發現,與其依賴參考數據,我們可以僅基於輸入上下文在線優化MoE專家的選擇。因此,我們提出了一種無數據、在線的測試時框架,該框架在文本生成過程中持續適應MoE的路由決策,無需外部監督或數據。我們的方法在兩個階段之間循環:在預填充階段及之後的定期間隔中,我們基於已生成的序列使用自監督優化模型的路由決策。然後,我們正常生成文本,保持修改後的路由器直到下一次適應。我們通過輕量級的加權向量實現這一點,這些向量僅更新選定層中的路由器對數,保持計算效率的同時防止過度適應。實驗結果顯示,在具有挑戰性的推理任務上,我們的方法實現了持續的性能提升,同時保持了對上下文變化的魯棒性。例如,我們的方法在HumanEval上使用OLMoE實現了5.5%的提升。此外,由於其即插即用的特性,我們的方法自然地補充了現有的測試時擴展技術,例如,在與DeepSeek-V2-Lite的自一致性結合時,實現了6%的平均增益。
大型語言模型(LLMs)在資訊逐步呈現的多輪對話中,性能會顯著下降。考慮到多輪對話是日常與LLMs互動的特徵,這種性能下降對實際應用構成了嚴峻挑戰。我們假設,模型不確定性的突然增加標誌著多輪LLM互動中的不對齊,並利用這一洞察力來動態重新對齊對話上下文。我們引入了ERGO(基於熵的生成優化重置),它通過對下一個詞元分佈的香農熵持續量化內部不確定性,並在檢測到熵的急劇上升時觸發自適應提示整合。通過將不確定性視為首要信號而非需要消除的干擾,ERGO接納了語言和建模中的變異性,並對不確定性進行表示和響應。在逐步揭示指令的多輪任務中,ERGO相比標準基線平均提升了56.6%的性能,提高了24.7%的適任能力(峰值性能能力),並減少了35.3%的不可靠性(性能變異性),這表明對不確定性有意識的干預能夠提升對話AI的準確性和可靠性。
多模態大型語言模型(MLLMs)持續在圖像-文本描述數據與交錯文檔數據的混合數據集上進行預訓練,然而針對圖像-文本交錯文檔數據的高質量數據過濾技術尚未得到充分探索。本文提出訓練一種高效的多模態數據質量分類器——統一多模態數據質量過濾器(UniFilter),用以篩選高質量的圖像-文本描述及交錯數據。為解決收集多樣化標註多模態數據的挑戰,我們引入了一種半合成方法,該方法利用易獲取的原始圖像,並生成對應四種質量級別的文本,從而高效創建用於訓練UniFilter的描述與交錯文檔數據的樣本-分數對。我們應用UniFilter從DataComp描述數據集中精選高質量描述數據,並從OBELICS圖像-文本交錯數據集中篩選高質量交錯數據。基於過濾後數據預訓練的MLLMs,相比於使用基準過濾數據訓練的模型,展現出顯著增強的能力,包括更強的零樣本推理與上下文學習能力。經過視覺監督微調後,這些由UniFilter引導的MLLMs在多個基準測試中表現更佳,凸顯了高質量多模態預訓練的下游效益。我們向社區公開了用於訓練UniFilter的合成訓練數據、UniFilter模型檢查點,以及由UniFilter精選的高質量交錯文檔子集OBELICS-HQ,以促進復現與進一步開發。
我們引入了表示標記器(Representation Tokenizer, RepTok),這是一種生成建模框架,它利用自監督視覺變換器獲得的單一連續潛在標記來表示圖像。基於預訓練的自監督學習(SSL)編碼器,我們僅對語義標記嵌入進行微調,並將其與使用標準流匹配目標聯合訓練的生成解碼器配對。此適應過程豐富了標記,使其包含低層次、與重建相關的細節,從而實現了忠實的圖像重建。為了保持原始SSL空間的優良幾何特性,我們添加了餘弦相似度損失來正則化適應後的標記,確保潛在空間保持平滑且適合生成。我們的單一標記公式解決了二維潛在空間的空間冗餘問題,並顯著降低了訓練成本。儘管RepTok簡單且高效,它在類條件ImageNet生成上取得了競爭力的結果,並自然地擴展到文本到圖像合成,在極其有限的訓練預算下,在MS-COCO上達到了競爭力的零樣本性能。我們的研究結果凸顯了微調SSL表示作為緊湊且有效的潛在空間在高效生成建模中的潛力。
我们提出了DriveGen3D,一个创新框架,旨在生成高质量且高度可控的动态3D驾驶场景,以解决现有方法中的关键限制。当前驾驶场景合成方法要么因长时间生成而面临计算资源的高昂需求,要么仅专注于长时间视频合成而缺乏3D表示,或者局限于静态单场景重建。我们的工作通过多模态条件控制,将加速的长期视频生成与大规模动态场景重建相结合,填补了这一方法学上的空白。DriveGen3D引入了一个统一流程,包含两个专门组件:FastDrive-DiT,一种高效的视频扩散变换器,在文本和鸟瞰图(BEV)布局指导下实现高分辨率、时间连贯的视频合成;以及FastRecon3D,一个前馈重建模块,快速构建跨时间的3D高斯表示,确保时空一致性。这两个组件共同实现了实时生成扩展驾驶视频(最高可达424×800分辨率,12帧每秒)及相应的动态3D场景,在新视角合成上达到了SSIM 0.811和PSNR 22.84,同时保持了参数效率。