每日精選AI研究論文及翻譯
近期,多模态生成模型的最新進展已實現了與指令對齊的逼真圖像生成,然而,如GPT-4o-Image等領先系統仍屬專有且難以接觸。為普及這些能力,我們推出了ShareGPT-4o-Image,這是首個包含45K文本到圖像及46K文本與圖像到圖像數據的數據集,所有數據均利用GPT-4o的圖像生成功能合成,旨在提煉其先進的圖像生成能力。基於此數據集,我們開發了Janus-4o,一個多模态大型語言模型,能夠進行文本到圖像及文本與圖像到圖像的生成。Janus-4o不僅在文本到圖像生成上較其前身Janus-Pro有顯著提升,還新增了文本與圖像到圖像生成功能。值得注意的是,它僅使用91K合成樣本及在8台A800-GPU機器上6小時的訓練,便從零開始在文本與圖像到圖像生成中取得了令人印象深刻的表現。我們期望ShareGPT-4o-Image與Janus-4o的發布,能促進在逼真、指令對齊圖像生成領域的開放研究。
預訓練最先進的大型語言模型(LLMs)需要大量乾淨且多樣化的文本數據。雖然近期在開發大型高質量英語預訓練數據集方面取得了顯著進展,但訓練性能優異的多語言LLMs仍然面臨挑戰,這在很大程度上是由於為大量語言定制過濾和去重管道的固有難度。在本研究中,我們引入了一種基於FineWeb的新型預訓練數據集整理管道,該管道可自動適應以支持任何語言。我們通過一系列有意義且信息豐富的評估任務,對九種多樣化語言進行了廣泛的管道設計選擇消融實驗,這些任務是基於可測量標準的新穎選擇過程選定的。最終,我們展示了該管道可用於創建非英語語料庫,這些語料庫產生的模型性能優於之前的數據集。此外,我們引入了一種簡單且原則性的方法來重新平衡數據集,該方法同時考慮了重複次數和質量,從而提供了額外的性能提升。最後,我們利用近100個Common Crawl快照,將該管道擴展到超過1000種語言,生成了FineWeb2,這是一個新的20TB(50億文檔)多語言數據集,我們將其與我們的管道、訓練和評估代碼庫一同發布。
大型語言模型(LLMs)中的極端激活異常值嚴重降低了量化性能,阻礙了在設備上的高效部署。雖然通道級操作和自適應梯度縮放被認為是主要原因,但實際的緩解措施仍然具有挑戰性。我們引入了異常值安全預訓練(Outlier-Safe Pre-Training, OSP),這是一種實用指南,主動防止異常值的形成,而不是依賴於事後緩解。OSP結合了三項關鍵創新:(1)Muon優化器,消除特權基的同時保持訓練效率;(2)單尺度RMSNorm,防止通道級放大;(3)可學習的嵌入投影,重新分配源自嵌入矩陣的激活幅度。我們通過在1萬億個token上訓練一個14億參數的模型來驗證OSP,這是首個在生產規模上訓練且無此類異常值的LLM。在激進的4位量化下,我們的OSP模型在10個基準測試中平均得分為35.7(相比之下,使用Adam訓練的模型得分為26.5),且僅增加了2%的訓練開銷。值得注意的是,OSP模型的超額峰度接近零(0.04),而標準模型中的極端值為1818.56,從根本上改變了LLM的量化行為。我們的工作表明,異常值並非LLM固有的,而是訓練策略的結果,為更高效的LLM部署鋪平了道路。源代碼和預訓練檢查點可在https://github.com/dmis-lab/Outlier-Safe-Pre-Training獲取。
近期,基於擴散模型的圖像編輯技術取得了顯著進展,提供了對生成過程的精細控制。然而,由於其迭代性質,這些方法在計算上相當耗費資源。雖然蒸餾擴散模型能夠實現更快的推理,但其編輯能力仍然受限,主要原因是反演質量不佳。高保真度的反演與重建對於精確的圖像編輯至關重要,因為它們能保持源圖像的結構與語義完整性。在本研究中,我們提出了一種新穎的框架,利用一致性模型增強圖像反演,僅需四步即可實現高質量的編輯。我們的方法引入了一種循環一致性優化策略,顯著提高了重建精度,並在可編輯性與內容保留之間實現了可控的權衡。我們在多種圖像編輯任務與數據集上達到了最先進的性能,證明我們的方法在效率大幅提升的同時,能夠匹配甚至超越全步擴散模型。我們的方法代碼已於GitHub上公開,網址為https://github.com/ControlGenAI/Inverse-and-Edit。
不同的基礎語言模型家族,如Llama和Qwen,在強化學習(RL)的後訓練階段表現出不同的行為,尤其是在推理密集型任務上。什麼樣的基礎語言模型適合強化學習?深入理解這一問題對於開發下一代可擴展的RL基礎模型至關重要。在本研究中,我們探討了中期訓練策略如何塑造RL動態,重點關注兩個代表性模型家族:Qwen和Llama。我們的研究揭示:(1)高質量的數學語料庫,如MegaMath-Web-Pro,顯著提升了基礎模型和RL的性能,而現有的替代品(如FineMath-4plus)未能做到這一點;(2)進一步添加問答風格數據,特別是長鏈式推理(CoT)示例,增強了RL效果,而指令數據進一步釋放了這一效應;(3)雖然長CoT提升了推理深度,但也可能導致模型回應冗長和RL訓練不穩定,這凸顯了數據格式化的重要性;(4)中期訓練的規模化持續帶來更強的下游RL性能。基於這些洞察,我們引入了一種兩階段中期訓練策略,即“穩定後衰減”,其中基礎模型首先在200B個詞元上以恆定學習率進行訓練,隨後在20B個詞元上跨三個CoT重點分支進行學習率衰減訓練。這產生了OctoThinker,一個展現出強大RL兼容性並縮小與更RL友好模型家族(如Qwen)性能差距的模型家族。我們希望我們的工作有助於在RL時代塑造基礎模型的預訓練策略。為了支持進一步研究,我們發布了開源模型以及一個精心策劃的超過700億詞元的數學推理密集型語料庫(即MegaMath-Web-Pro-Max)。
開發能夠在現實世界場景中執行複雜互動任務的具身智能體,仍然是具身人工智能領域的一個基本挑戰。儘管近年來模擬平台的進展極大地提升了訓練具身視覺語言模型(VLMs)的任務多樣性,但大多數平台依賴於簡化的機器人形態,並繞過了低層次執行的隨機性,這限制了它們向現實世界機器人的可轉移性。為解決這些問題,我們基於AI2-THOR的擴展版本,提出了一個面向複雜雙臂人形機器人的物理模擬平台——DualTHOR。我們的模擬器包含了現實世界的機器人資產、一套針對雙臂協作的任務集,以及適用於人形機器人的逆運動學求解器。此外,我們引入了一種應急機制,通過基於物理的低層次執行來模擬潛在的失敗情況,從而縮小與現實世界場景之間的差距。我們的模擬器使得在家庭環境中對VLMs的魯棒性和泛化能力進行更全面的評估成為可能。大量評估結果表明,當前的VLMs在雙臂協調方面存在困難,並在具有應急情況的真實環境中表現出有限的魯棒性,這凸顯了使用我們的模擬器來開發更具能力的VLMs以應對具身任務的重要性。代碼可在https://github.com/ds199895/DualTHOR.git獲取。
基於模擬的數據合成已成為增強現實世界機器人操作的有力範式。然而,現有的合成數據集在應對雙臂操作的魯棒性方面仍顯不足,主要面臨兩大挑戰:(1) 缺乏針對新任務的高效、可擴展數據生成方法;(2) 模擬環境過於簡化,未能捕捉現實世界的複雜性。我們提出了RoboTwin 2.0,這是一個可擴展的模擬框架,能夠自動化、大規模生成多樣且真實的數據,並提供雙臂操作的統一評估協議。首先,我們構建了RoboTwin-OD,這是一個包含147個類別共731個實例的大規模物體庫,每個實例均標註了語義及與操作相關的標籤。基於此,我們開發了一條專家數據合成流水線,結合多模態大語言模型(MLLMs)與模擬內循環優化,自動生成任務級別的執行代碼。為提升模擬到現實的遷移能力,RoboTwin 2.0引入了五個維度的結構化領域隨機化:雜物、光照、背景、桌面高度及語言指令,從而增強數據多樣性與策略魯棒性。我們在涵蓋五種機器人實體的50項雙臂任務中實例化了該框架,並預先收集了超過100,000條領域隨機化的專家軌跡。實驗結果顯示,代碼生成成功率提升了10.9%,並在面對新現實場景時展現出更好的泛化能力。基於我們數據集微調的VLA模型在未見場景的現實任務中實現了367%的相對提升(42.0%對比9.0%),而僅在合成數據上訓練的零樣本模型則獲得了228%的相對增益,凸顯了無需現實監督的強大泛化能力。我們公開了數據生成器、基準測試、數據集及代碼,以支持魯棒雙臂操作的可擴展研究。
扩散模型已成為圖像合成領域的主導方法,展現出卓越的逼真度與多樣性。然而,在高解析度下訓練擴散模型仍面臨計算資源的巨大挑戰,且現有的零樣本生成技術在合成超出訓練解析度的圖像時,常會產生諸如物體重複和空間不連貫等視覺瑕疵。本文提出HiWave,一種無需訓練的零樣本方法,利用預訓練的擴散模型顯著提升了超高解析度圖像合成的視覺逼真度與結構連貫性。我們的方法採用兩階段流程:首先從預訓練模型生成基礎圖像,隨後進行基於分塊的DDIM反演步驟及新穎的小波細節增強模塊。具體而言,我們首先利用反演方法從基礎圖像中提取保持全局連貫性的初始噪聲向量。接著,在採樣過程中,我們的小波域細節增強器保留基礎圖像的低頻成分以確保結構一致性,同時有選擇性地引導高頻成分以豐富細節與紋理。通過對Stable Diffusion XL的廣泛評估,HiWave有效減少了先前方法中常見的視覺瑕疵,達到了優異的感知質量。一項用戶研究證實了HiWave的表現,在超過80%的比較中,它被認為優於現有的最先進替代方案,凸顯了其在無需重新訓練或架構修改的情況下,實現高質量、超高解析度圖像合成的有效性。
大型语言模型(LLMs)在代码生成方面表现出色,但确保其输出功能正确,尤其是在复杂编程任务中,仍是一个持续的挑战。尽管传统的测试驱动开发(TDD)为代码优化提供了一条路径,但其在LLMs中的应用效果常因高质量测试用例的稀缺或自动化测试生成的缺陷而大打折扣,这些缺陷包括有偏见的测试或不准确的输出预测,可能误导修正过程。本文提出了一种名为“属性生成求解器”的新框架,该框架利用基于属性的测试(PBT)来验证高级程序属性或不变性,而非依赖特定的输入输出示例。这些属性通常比直接预测详尽的测试预言更易于定义和验证,从而打破了测试可能与被验证代码共享缺陷的“自我欺骗循环”。属性生成求解器采用两个协作的基于LLM的代理:一个专注于代码生成和迭代优化的生成器,以及一个管理PBT生命周期并从属性违规中形成语义丰富反馈的测试器。由此产生的全面且可操作的反馈随后指导生成器进行优化。通过将PBT确立为这一迭代闭环范式中的核心验证引擎,属性生成求解器为引导LLMs生成更正确且可泛化的代码提供了强有力的机制。在多个代码生成基准上的广泛实验结果表明,属性生成求解器在pass@1指标上实现了显著提升,相对于已建立的TDD方法,相对增益范围在23.1%至37.3%之间。
推理型大型語言模型近期在多個領域取得了最先進的表現。然而,其長鏈式思維推理過程帶來了可解釋性挑戰,因為每個生成的標記都依賴於之前的所有標記,使得計算更難分解。我們認為,在句子層面分析推理軌跡是理解推理過程的一種有前景的方法。我們提出了三種互補的歸因方法:(1) 一種黑箱方法,通過比較模型生成特定句子或含義不同句子時的100次模擬結果,來衡量每個句子的反事實重要性;(2) 一種白箱方法,通過聚合句子對之間的注意力模式,識別出那些通過「接收」注意力頭從所有後續句子獲得不成比例關注的「廣播」句子;(3) 一種因果歸因方法,通過抑制對某一句子的注意力,並測量其對每個後續句子標記的影響,來衡量句子間的邏輯聯繫。每種方法都為思維錨點的存在提供了證據,這些思維錨點是具有超常重要性並對後續推理過程產生不成比例影響的推理步驟。這些思維錨點通常是規劃或回溯句子。我們提供了一個開源工具(www.thought-anchors.com)用於可視化我們方法的輸出,並展示了一個案例研究,顯示了跨方法的一致性模式,這些模式映射了模型如何執行多步推理。方法間的一致性證明了句子層面分析在深入理解推理模型方面的潛力。
近期大型語言模型(LLMs)的進展,已將焦點轉向擴展推理時期的計算資源,以在不重新訓練模型的情況下提升效能。一種常見的方法是平行採樣多個輸出,並從中選取一個作為最終結果。然而,迄今為止的研究主要集中在英語及少數領域如數學和程式碼上。相較之下,我們對那些能泛化於開放式任務、可形式化驗證任務及跨語言技術最感興趣。在本研究中,我們探討如何在多語言、多任務的環境下,穩健地擴展開放式生成任務的推理時期計算。 我們的研究發現,基於溫度變化的採樣策略與選擇策略都必須調整,以適應不同的領域和多變的語言環境。我們評估了現有的選擇方法,發現那些在英語中有效的策略往往無法跨語言泛化。我們提出了專為多語言和多任務推理場景設計的新穎採樣與選擇策略,並展示這些策略在跨語言和跨任務中帶來的顯著增益。特別是,我們結合的採樣與選擇方法,使我們的8B模型在m-ArenaHard-v2.0提示上對抗如Gemini等專有模型時,平均勝率提升了+6.8。在更大規模上,配備我們方法的Command-A(111B模型),在相同基準測試中,僅用五個樣本對比單一樣本解碼,勝率提升了+9.0,這是在最小成本下的顯著提升。我們的結果強調了推理時期計算需要語言和任務感知的方法,旨在使性能提升民主化於代表性不足的語言中。
大型語言模型(LLMs)在語言理解與生成方面展現了卓越的能力。然而,這種令人印象深刻的性能通常伴隨著龐大的模型規模,這在部署與推理階段帶來了顯著的挑戰。雖然模型參數的結構化修剪提供了一種在部署時降低計算成本的有前景方法,但現有方法主要集中於單一模型的修剪。在本研究中,我們開發了一種新策略,通過策略性地結合或合併來自微調模型變體的層來壓縮模型,這種方法通過聚合在不同微調中突出的能力,保留了原始模型的功能。我們將這些LLMs的最優裁剪視為一個零階優化問題,採用了一個支持三種不同操作的搜索空間:(1)層移除,(2)從不同候選模型中選擇層,以及(3)層合併。我們的實驗表明,這種方法實現了競爭性的模型修剪,例如,對於Llama2-13B模型家族,我們的壓縮模型在移除約25%參數的同時,保持了約97.3%的原始性能,顯著超越了先前的最先進方法。相關代碼可在https://github.com/Guinan-Su/auto-merge-llm獲取。
大型语言模型(LLMs)的计算与能源成本,随着模型规模的不断扩大以及数亿用户的广泛采用,呈现指数级增长。LLM的单位成本体现在对单个标记(token)的计算上。因此,分词器(tokenizer)在模型效率中扮演着关键角色,它们经过精心优化,旨在最小化训练语料库中文本的标记数量。LLMs最为流行的应用之一便是与用户互动的聊天机器人。一个关键观察是,对于这些聊天机器人而言,分词器在用户输入文本及聊天机器人响应中的表现至关重要,而这些文本很可能与训练语料库中的文本存在差异。于是,一个直接引发的问题是:针对聊天机器人对话优化分词器是否具有潜在益处。本文通过利用公开可获取的聊天机器人对话语料库,重新设计不同分词器的词汇表,并评估其在此领域内的性能,深入探讨了这一设想。研究结果显示,经过对话优化的分词器在聊天机器人对话中持续减少了标记数量,这可在保持对原始训练语料库分词效率影响最小甚至略有提升的同时,实现5%至10%范围内的显著节能效果。
大型语言模型(LLMs)展现出卓越的代码生成能力,但在适应外部库API频繁更新时却显得力不从心。这一关键限制源于其训练数据中过时的API知识依赖,即便能够访问最新文档,仍阻碍了在动态环境中可靠代码的生成。为解决此问题,我们提出了ReCode(基于规则的代码更新强化学习框架),该框架模拟了程序员对API变更的适应过程。具体而言,我们构建了一个包含约2000条数据项的数据集,用于训练LLMs基于更新信息执行版本迁移。随后,我们引入了一种改进的字符串相似度度量方法作为代码评估的奖励机制,以驱动强化学习。实验表明,ReCode显著提升了LLMs在动态API场景下的代码生成性能,尤其是在未见过的CodeUpdateArena任务上。至关重要的是,与监督微调相比,ReCode对LLMs通用代码生成能力的影响较小。我们将ReCode应用于多种LLMs及强化学习算法(GRPO与DAPO),均取得了一致的改进效果。值得注意的是,训练后,Qwen2.5-Coder-7B的表现超越了拥有32B参数的代码指令调优模型及同架构的推理模型。代码已发布于https://github.com/zjunlp/ReCode。
可及性在當今社會仍然是一個關鍵問題,因為許多技術並未開發以支援全面的用戶需求。現有的多代理系統(MAS)由於封閉源設計缺乏客製化,往往無法為有需求的用戶提供全面的協助。因此,殘障人士在嘗試與數位環境互動時經常遇到重大障礙。我們介紹了MATE,這是一個多模態可及性多代理系統,它根據用戶的需求執行模態轉換。該系統對於協助殘障人士非常有用,確保數據將轉換為可理解的格式。例如,如果用戶視力不佳並接收到一張圖片,系統會將此圖片轉換為其音頻描述。MATE可應用於廣泛的領域、行業和地區,如醫療保健,並可成為各種用戶群體的有用助手。該系統支援多種類型的模型,從LLM API調用到使用自定義的機器學習(ML)分類器。這種靈活性確保了系統可以適應各種需求,並與多種硬體兼容。由於系統預計在本地運行,它確保了敏感信息的隱私和安全。此外,該框架可以有效地與機構技術(如數位醫療服務)整合,以提供即時的用戶協助。此外,我們介紹了ModCon-Task-Identifier,這是一個能夠從用戶輸入中提取精確模態轉換任務的模型。大量實驗表明,ModCon-Task-Identifier在我們的定制數據上始終優於其他LLM和統計模型。我們的代碼和數據公開於https://github.com/AlgazinovAleksandr/Multi-Agent-MATE。
AI驅動的內容創作在電影製作中展現了潛力。然而,現有的電影生成系統在實現電影原則方面存在困難,因此無法生成專業品質的影片,特別是在多樣化的鏡頭語言和電影節奏方面表現不足。這導致了模板化的視覺效果和缺乏吸引力的敘事。為了解決這一問題,我們引入了FilMaster,這是一個端到端的AI系統,它整合了現實世界的電影原則,用於生成專業級別的影片,並產出可編輯的、符合行業標準的輸出。FilMaster基於兩個關鍵原則:(1)從大量的現實世界電影數據中學習攝影技術,(2)模擬專業的、以觀眾為中心的後期製作工作流程。受這些原則的啟發,FilMaster包含了兩個階段:參考引導生成階段,將用戶輸入轉化為視頻片段;以及生成後期製作階段,通過協調視覺和聽覺元素來實現電影節奏,將原始素材轉化為視聽輸出。我們的生成階段突出了一個多鏡頭協同RAG鏡頭語言設計模塊,通過從440,000個電影片段的大型語料庫中檢索參考片段,來引導AI生成專業的鏡頭語言。我們的後期製作階段通過設計一個以觀眾為中心的電影節奏控制模塊,包括基於模擬觀眾反饋的粗剪和精剪過程,來模擬專業工作流程,以實現視聽元素的有效整合,從而創造出引人入勝的內容。該系統由生成式AI模型如(M)LLMs和視頻生成模型驅動。此外,我們引入了FilmEval,這是一個用於評估AI生成影片的綜合基準。大量實驗表明,FilMaster在鏡頭語言設計和電影節奏控制方面表現優異,推動了生成式AI在專業電影製作中的應用。
我們介紹了Biomed-Enriched,這是一個通過兩階段註釋過程從PubMed構建的生醫文本數據集。在第一階段,一個大型語言模型對來自PubMed科學文章的40萬個段落進行了註釋,為其類型(綜述、研究、臨床案例、其他)、領域(臨床、生物醫學、其他)和教育質量評分。教育質量評分(1至5分)估計了段落對大學水平學習的有用程度。這些註釋隨後用於微調一個小型語言模型,該模型將標籤傳播到整個PMC-OA語料庫中。生成的元數據使我們能夠提取精煉的子集,包括200萬個臨床案例段落,其中超過45萬個高質量段落來自具有商業使用許可的文章,並通過質量過濾和領域上採樣構建了多個變體。由於隱私限制,臨床文本通常難以獲取,因為醫院記錄無法公開分享。因此,我們的數據集提供了一個替代的大規模、公開可用的PubMed臨床案例集合,使其成為生物醫學和臨床自然語言處理的寶貴資源。初步的OLMo2持續預訓練實驗表明,這些精心挑選的子集能夠實現有針對性的改進,臨床上採樣使MMLU ProfMed的性能提升了約5%,教育質量過濾使MedQA和MedMCQA的性能提升了約1%。這些技術的組合導致了更快的收斂,僅用三分之一的訓練詞元就達到了相同的性能,表明更高效和有效的生物醫學預訓練策略的潛力。
AI除錯的有效性遵循可預測的指數衰減模式;大多數模型在僅2-3次嘗試後便喪失60-80%的除錯能力,儘管迭代除錯對於實際的程式碼生成系統至關重要。我們引入了除錯衰減指數(Debugging Decay Index, DDI),這是一個數學框架,用於量化除錯何時變得無效並預測介入點。我們的策略性重新開始方法在除錯過程的關鍵點從利用轉向探索,證明了適時的介入能夠挽救除錯的有效性。DDI揭示了當前AI除錯中的一個根本性限制,並提供了首個用於優化迭代程式碼生成策略的量化框架。