每日精選AI研究論文及翻譯
大型語言模型(LLMs)的卓越零樣本能力,已將自然語言處理從特定任務模型推向統一、通用的基礎模型。這一轉變源於簡單的基礎:在網絡規模數據上訓練的大型生成模型。有趣的是,這些相同的基礎也適用於當今的生成式視頻模型。視頻模型是否正朝著通用視覺理解的方向發展,就像LLMs發展出通用語言理解能力一樣?我們展示了Veo 3能夠解決多種未經專門訓練的任務:物體分割、邊緣檢測、圖像編輯、理解物理屬性、識別物體功能、模擬工具使用等。這些感知、建模和操縱視覺世界的能力,使得早期形式的視覺推理如迷宮和對稱性解決成為可能。Veo湧現的零樣本能力表明,視頻模型正朝著成為統一、通用的視覺基礎模型的方向邁進。
隱式思維鏈(CoT)方法為大型語言模型(LLMs)中的顯式CoT推理提供了一種具有前景且高效的替代方案,但其持續存在的性能差距限制了隱式CoT的應用。我們通過擴展隱式CoT方法的計算預算,發現了一個核心的潛在不穩定性問題:當我們增加隱式推理的token數量以提升性能時,訓練過程往往變得不穩定並崩潰。我們的分析表明,這種不穩定性源於潛在表徵變得同質化並失去語義多樣性,這是現有隱式CoT方法中步驟級監督不足所導致的失敗。為解決這一問題,我們提出了SIM-CoT,這是一個即插即用的訓練模塊,通過引入步驟級監督來穩定並豐富潛在推理空間。具體而言,SIM-CoT在訓練期間使用一個輔助解碼器,將每個隱式token與其對應的顯式推理步驟對齊,確保潛在狀態捕捉到獨特且有意義的信息。所提出的輔助解碼器在推理階段被移除,保持了隱式CoT方法的計算效率,且不增加額外開銷。此外,輔助解碼器通過將每個潛在token映射到顯式推理詞彙表,提供了隱式推理的可解釋性,實現了語義角色的逐步可視化與診斷。SIM-CoT顯著提升了各種隱式CoT方法的域內準確性和域外穩定性,例如在GPT-2上將Coconut基線提升了+8.2%,在LLaMA-3.1 8B上將CODI提升了+3.0%。SIM-CoT展示了強大的可擴展性,在GPT-2上以2.3倍的token效率超越了顯式CoT基線2.1%,同時在LLaMA-3.1 8B等更大模型上大幅縮小了性能差距。
我們推出EmbeddingGemma,這是一款基於Gemma 3語言模型家族的新型輕量級開放文本嵌入模型。我們的創新訓練方法通過編碼器-解碼器初始化與幾何嵌入蒸餾策略性地從更大模型中汲取知識。我們利用分散正則化器提升模型的魯棒性和表達力,並通過合併來自多樣化優化混合的檢查點來確保其泛化能力。在Massive Text Embedding Benchmark (MTEB)上對多語言、英語及代碼領域進行評估,EmbeddingGemma(300M)取得了領先的成果。值得注意的是,它在參數量少於500M的情況下,超越了以往無論是專有還是開源的頂尖模型,並提供了與其兩倍大小模型相當的性能,展現出卓越的性能成本比。更為突出的是,在模型權重量化或嵌入輸出截斷的情況下,這一優勢依然保持。這使得EmbeddingGemma特別適合低延遲和高吞吐量的應用場景,如設備端應用。我們提供了消融研究,深入探討了關鍵設計選擇。我們向社區發布EmbeddingGemma,以促進進一步的研究。
近期基礎模型的進展凸顯了一個明顯的趨勢,即向統一化和規模化發展,並在多個領域展現出湧現能力。雖然圖像生成和編輯已迅速從任務專用框架過渡到統一框架,但由於架構限制和數據稀缺,視頻生成和編輯仍然處於碎片化狀態。在本研究中,我們引入了EditVerse,這是一個在單一模型內實現圖像和視頻生成與編輯的統一框架。通過將所有模態(即文本、圖像和視頻)表示為統一的標記序列,EditVerse利用自注意力機制實現了強大的上下文學習、自然的跨模態知識轉移,以及對任意分辨率和時長的輸入輸出進行靈活處理。為了解決視頻編輯訓練數據的不足,我們設計了一個可擴展的數據管道,精心策劃了232K個視頻編輯樣本,並將其與大規模圖像和視頻數據集結合進行聯合訓練。此外,我們提出了EditVerseBench,這是首個涵蓋多種任務和分辨率的基於指令的視頻編輯基準。大量的實驗和用戶研究表明,EditVerse達到了最先進的性能,超越了現有的開源和商業模型,同時在多模態中展現出湧現的編輯和生成能力。
本文提出了一種基於群組相對策略優化(Group Relative Policy Optimization, GRPO)的方法,用於訓練語音感知大型語言模型(Speech-Aware Large Language Models, SALLMs)於開放格式的語音理解任務,如口語問答與自動語音翻譯。SALLMs在語音理解任務中已展現出極高的效能。GRPO近期因其在訓練大型語言模型中的效率而受到關注,先前的研究已探討了其在SALLMs中的應用,主要集中於多選題任務。基於此,我們聚焦於更能反映模型生成能力的開放格式任務。我們的方法利用GRPO並以BLEU作為獎勵信號來優化SALLMs,並通過實證數據顯示,該方法在多項關鍵指標上超越了標準的監督微調(Supervised Fine-Tuning, SFT)。最後,我們探討了在GRPO中引入離策略樣本於這些任務中的潛力,指出了進一步改進與研究的方向。
尖端的人工智慧(AI)技術持續重塑我們對世界的看法。例如,基於大型語言模型(LLMs)的應用程式,如ChatGPT,已展現出在廣泛主題上生成類人對話的能力。由於其在多種語言相關任務(如開放領域問答、翻譯和文件摘要)上的卓越表現,我們可以預見LLMs在更廣泛的現實世界應用(如客戶服務、教育與無障礙、科學發現)中可能帶來的深遠影響。受其成功啟發,本文將概述最先進的LLMs及其在廣泛學術領域中的整合,包括:(1)藝術、文學與法律(如歷史、哲學、政治學、藝術與建築、法律),(2)經濟與商業(如金融、經濟學、會計、市場行銷),以及(3)科學與工程(如數學、物理與機械工程、化學與化學工程、生命科學與生物工程、地球科學與土木工程、電腦科學與電機工程)。結合人文與科技,本文將探討LLMs如何塑造這些領域的研究與實踐,同時也討論生成式AI時代的關鍵限制、開放挑戰與未來方向。對LLMs跨學科應用的回顧,以及關鍵觀察與見解,將有助於對利用LLMs推動多樣化現實世界應用感興趣的研究者與實踐者。
現有的視頻生成模型在從文本或圖像生成逼真視頻方面表現出色,但往往缺乏物理合理性和三維可控性。為克服這些限制,我們提出了PhysCtrl,這是一個基於物理參數和力控制的新型圖像到視頻生成框架。其核心是一個生成物理網絡,該網絡通過基於物理參數和施加力的擴散模型,學習四種材料(彈性體、沙子、橡皮泥和剛體)的物理動力學分佈。我們將物理動力學表示為三維點軌跡,並在由物理模擬器生成的大規模合成數據集(包含55萬個動畫)上進行訓練。我們通過一種新穎的時空注意力塊增強了擴散模型,該塊模擬粒子相互作用,並在訓練過程中融入基於物理的約束,以確保物理合理性。實驗表明,PhysCtrl生成的現實且基於物理的運動軌跡,在驅動圖像到視頻模型時,能夠產生高保真、可控的視頻,在視覺質量和物理合理性方面均優於現有方法。項目頁面:https://cwchenwang.github.io/physctrl
我們提出Lavida-O,這是一個統一的遮罩擴散模型(MDM),用於多模態理解與生成。與現有的多模態MDM如MMaDa和Muddit僅支持簡單的圖像級理解任務及低分辨率圖像生成不同,Lavida-O提供了一個單一框架,能夠實現圖像級理解、物體定位、圖像編輯以及高分辨率(1024像素)文本到圖像的合成。Lavida-O採用了新穎的彈性變換器混合架構(Elastic-MoT),該架構將輕量級生成分支與更大的理解分支相結合,並通過令牌壓縮、通用文本條件化及分層採樣來支持高效且高質量的生成。此外,Lavida-O在圖像生成和編輯任務中引入了規劃與迭代自我反思,無縫地利用其理解能力提升生成質量。Lavida-O在包括RefCOCO物體定位、GenEval文本到圖像生成及ImgEdit圖像編輯在內的廣泛基準測試中達到了最先進的性能,超越了現有的自回歸模型和連續擴散模型如Qwen2.5-VL和FluxKontext-dev,同時在推理時提供了顯著的加速。這些進展確立了Lavida-O作為可擴展多模態推理與生成的新範式。
蛋白質折疊模型通常通過將領域知識整合到架構模塊和訓練流程中,取得了突破性的成果。然而,考慮到生成模型在不同但相關問題上的成功,我們自然會質疑這些架構設計是否是構建高性能模型的必要條件。在本文中,我們介紹了SimpleFold,這是第一個基於流匹配的蛋白質折疊模型,僅使用通用的Transformer模塊。蛋白質折疊模型通常採用計算成本高昂的模塊,涉及三角更新、顯式配對表示或為此特定領域定制的多個訓練目標。相反,SimpleFold採用帶有自適應層的標準Transformer模塊,並通過生成流匹配目標和額外的結構項進行訓練。我們將SimpleFold擴展到30億參數,並在大約900萬個蒸餾蛋白質結構和實驗PDB數據上進行訓練。在標準折疊基準測試中,SimpleFold-3B與最先進的基線模型相比,表現出競爭力,此外,SimpleFold在集成預測中表現出色,這對於通過確定性重建目標訓練的模型來說通常很困難。由於其通用架構,SimpleFold在消費級硬件上的部署和推理表現出高效性。SimpleFold挑戰了蛋白質折疊中對複雜領域特定架構設計的依賴,為未來的進展開闢了另一種設計空間。
开源大型语言模型(LLMs)正日益向特定领域(如数学、编程、通用推理)专业化发展,这促使了利用各模型互补优势的系统设计。以往的多LLM方法要么(i)将查询路由至一个或少数专家模型并独立生成结果,要么(ii)通过成本高昂的多轮交流聚合各模型输出,或者(iii)将权重融合进单一模型——通常要求架构同质性。我们提出了“思维混合”(Mixture of Thoughts, MoT),这是一种在全局路由方案下实现异构专家间潜在层面协作的简便方法。针对每个查询,一个轻量级路由器选取前K个专家并指定一个主专家;统一设置的交互层将隐藏状态投射至共享潜在空间,在此主专家对其活跃(被选中)的同伴执行交叉注意力。预训练专家保持冻结状态;仅路由器和轻量级交互层通过新颖的联合训练目标进行训练,该目标同时提升了专家选择与专家间协作的效果。在五个分布内(ID)和三个分布外(OOD)基准测试中,MoT分别以+0.38%和+2.92%的优势超越了当前基于路由和聚合的最先进方法Avengers。此外,MoT显著优于表现最佳的单模型。它通过单次推理实现这一成就,运行时间与路由基线相当,且无需迭代聚合的开销。MoT提供了一种简单的潜在空间机制,用于结合异构LLMs,是迈向更广泛多LLM协作的实用一步。我们的代码公开于https://github.com/jacobfa/mot。
近期,大型视觉语言模型(LVLM)的进展极大地推动了文档解析任务的发展。相较于传统的基于流水线的方法,端到端范式在将PDF图像转换为结构化输出方面展现了卓越性能,这得益于其集成了光学字符识别(OCR)、表格识别、数学公式识别等多种功能。然而,由于缺乏对文档布局和阅读顺序的显式分析阶段,LVLM在处理多栏报纸或海报等复杂文档类型时能力受限。为解决这一局限,本报告提出了一种名为Logics-Parsing的端到端LVLM模型,该模型通过强化学习进行增强。我们的模型精心设计了奖励机制,以优化复杂的布局分析和阅读顺序推理。此外,通过将化学公式和手写汉字等多种数据类型纳入监督微调,我们进一步扩展了模型的通用性。最后,为了对我们的方法进行严格评估,我们引入了LogicsParsingBench,这是一个精心策划的包含1,078页PDF图像的数据集,涵盖九大类别和超过二十个子类别,该数据集将于后续发布。在LogicsParsingBench上进行的全面实验验证了我们提出模型在多种文档分析场景中的有效性和最先进(SOTA)性能。项目页面:https://github.com/alibaba/Logics-Parsing
大型語言模型(LLMs)正日益被整合到軟體開發流程中。透過使用自主AI代理,能夠以最少的人為干預生成程式碼並提交拉取請求(pull requests),這有望成為標準實踐。然而,對於這些拉取請求的實際效用及其在現實專案中的接受程度,我們知之甚少。本文中,我們實證研究了使用Claude Code(一種代理式編碼工具)生成的567個GitHub拉取請求(PRs),這些請求分佈於157個不同的開源專案中。我們的分析顯示,開發者傾向於依賴代理來處理重構、文件編寫和測試等任務。結果表明,83.8%的這些代理協助的PRs最終被專案維護者接受並合併,其中54.9%的合併PRs在未經進一步修改的情況下被整合。其餘45.1%則需要額外的修改,特別是在錯誤修復、文件編寫以及遵循專案特定標準方面,這些修改受益於人工審閱。這些發現表明,雖然代理協助的PRs在很大程度上是可接受的,但它們仍能從人工監督和精煉中獲益。
在《商品名稱及編碼協調制度》(HTS)下對產品進行準確分類是全球貿易中的一個關鍵瓶頸,然而這一問題卻鮮少受到機器學習領域的關注。錯誤分類可能導致貨物運輸完全停滯,主要郵政運營商因海關文件不完整而暫停向美國的配送。我們首次引入了基於美國海關裁決在線搜索系統(CROSS)的HTS代碼分類基準。通過評估領先的大型語言模型(LLMs),我們發現經過微調的Atlas模型(LLaMA-3.3-70B)在10位數分類上達到了40%的完全正確率,在6位數分類上達到了57.5%的正確率,相比GPT-5-Thinking提升了15個百分點,相比Gemini-2.5-Pro-Thinking提升了27.5個百分點。除了準確性,Atlas的成本大約是GPT-5-Thinking的五分之一,是Gemini-2.5-Pro-Thinking的八分之一,並且可以自主託管,以確保在高風險貿易和合規工作流程中的數據隱私。儘管Atlas設定了強有力的基準,但該任務仍然極具挑戰性,10位數分類的準確率僅為40%。通過發布數據集和模型,我們旨在將HTS分類定位為一個新的社區基準任務,並邀請未來在檢索、推理和對齊方面的工作。
我們提出了一個開源的Python函式庫,用於模擬分層剪切流中的二維不可壓縮克爾文-亥姆霍茲不穩定性。該求解器採用分步投影法,通過快速正弦變換進行譜泊松求解,實現了二階空間精度。實現過程中利用了NumPy、SciPy和Numba的即時編譯功能,以確保計算效率。四個經典測試案例探討了雷諾數1000至5000和理查森數0.1至0.3的範圍:經典剪切層、雙剪切配置、旋轉流和強迫湍流。使用香農熵和複雜度指數的統計分析顯示,儘管雷諾數較低,雙剪切層的混合速率比強迫湍流高出2.8倍。該求解器在標準桌面硬體上運行高效,384x192網格的模擬大約在31分鐘內完成。結果表明,混合效率取決於不穩定性的生成路徑,而非僅依賴於強度測量,這對基於理查森數的參數化提出了挑戰,並為氣候模型中的次網格尺度表示提供了改進建議。