每日精選AI研究論文及翻譯
我們介紹了Hala,這是一個以阿拉伯語為核心的指令與翻譯模型家族,採用我們開發的翻譯調優流程構建。首先,我們將一個強大的阿拉伯語↔英語教師模型壓縮至FP8精度(實現了約兩倍的吞吐量提升且無質量損失),並利用其生成高保真的雙語監督數據。隨後,一個輕量級語言模型LFM2-1.2B在此數據上進行微調,用於將高質量的英語指令集翻譯成阿拉伯語,從而生成了一個專為指令跟隨定制的百萬級語料庫。我們訓練了參數量分別為350M、700M、1.2B和9B的Hala模型,並應用球面線性插值(slerp)合併技術,以平衡阿拉伯語專項能力與基礎模型的優勢。在以阿拉伯語為核心的基準測試中,Hala在“納米級”(≤2B)和“小型”(7-9B)類別中均取得了領先的成果,超越了其基礎模型。我們公開了模型、數據、評估方法及訓練配方,以加速阿拉伯語自然語言處理領域的研究。
我们推出SAIL-VL2,一个开放套件的视觉-语言基础模型(LVM),旨在实现全面的多模态理解与推理。作为SAIL-VL的继任者,SAIL-VL2在2B和8B参数规模上,在多样化的图像与视频基准测试中均达到了最先进的性能,展现了从细粒度感知到复杂推理的强大能力。其高效性得益于三大核心创新。首先,通过评分与筛选策略的大规模数据整理流程,提升了字幕生成、光学字符识别(OCR)、问答(QA)及视频数据的质量与分布均衡性,从而提高了训练效率。其次,采用渐进式训练框架,从强大的预训练视觉编码器(SAIL-ViT)起步,经过多模态预训练,最终达到思维融合的SFT-RL混合范式,系统性地增强了模型能力。第三,架构创新不仅限于密集的大型语言模型(LLMs),还扩展至高效的稀疏专家混合(MoE)设计。凭借这些贡献,SAIL-VL2在106个数据集上展现了竞争力,并在MMMU和MathVista等具有挑战性的推理基准测试中取得了顶尖成绩。此外,在OpenCompass排行榜上,SAIL-VL2-2B在4B参数规模以下的官方发布开源模型中位列第一,同时为开源多模态社区提供了一个高效且可扩展的基础平台。
全方位視覺,即利用360度視角來理解環境,在機器人、工業檢測及環境監測等領域變得日益重要。與傳統的針孔視覺相比,全方位視覺提供了全面的環境感知,顯著提升了場景感知的完整性和決策的可靠性。然而,該領域的基礎研究長期以來落後於傳統針孔視覺。本次演講將探討體現AI時代的一個新興趨勢:在日益增長的工業需求和學術興趣推動下,全方位視覺的快速發展。我們將重點介紹近期在全方位生成、全方位感知、全方位理解及相關數據集方面取得的突破。基於學術界和工業界的見解,我們提出了一個在體現AI時代的理想全景系統架構——PANORAMA,它由四個關鍵子系統組成。此外,我們還針對全景視覺與體現AI交叉領域的新興趨勢及跨社群影響,以及未來的發展路線圖和開放性挑戰,提供了深入的見解。本綜述整合了最新的技術進展,並為在體現AI時代構建強大、通用的全方位AI系統的未來研究,勾勒了挑戰與機遇。
考試是對專家級智能的根本性考驗,要求綜合的理解、推理和生成能力。現有的考試式基準主要集中於理解和推理任務,而當前的生成基準則強調世界知識和視覺概念的展示,忽視了對嚴格繪圖考試的評估。我們引入了GenExam,這是首個跨學科文本到圖像考試的基準,包含10個學科的1000個樣本,並按照四級分類法組織考試式提示。每個問題都配備了真實圖像和細粒度評分點,以實現對語義正確性和視覺合理性的精確評估。實驗表明,即使是如GPT-Image-1和Gemini-2.5-Flash-Image這樣的頂尖模型,其嚴格得分也低於15%,而大多數模型的得分幾乎為0%,這表明我們的基準具有極大的挑戰性。通過將圖像生成框架為考試,GenExam提供了對模型整合知識、推理和生成能力的嚴格評估,為通向通用人工智慧(AGI)的道路提供了洞見。
儘管程式語言模型(CLMs)在程式碼生成與摘要等軟體工程任務中展現了卓越的性能,近期的實證研究揭示了一個關鍵的隱私漏洞:這些模型無意中記住了敏感的訓練數據,使得在特定提示下能夠逐字重現機密資訊。為解決此問題,已提出多種方法,包括訓練數據去重與差分隱私增強。然而,這些方法要求對已部署的CLMs進行全模型重新訓練,這將帶來巨大的計算成本。本文旨在回答以下研究問題:能否有效且高效地抹除CLMs所記住的敏感資訊? 我們率先探討了透過機器遺忘(machine unlearning)來抹除CLMs中敏感記憶的方法——這是一種事後修改技術,能在無需全模型重新訓練的情況下,從已訓練模型中移除特定資訊。具體而言,我們首先量化了CLM訓練數據集中敏感數據的記憶風險,並精選出50,000個高風險的敏感記憶樣本作為遺忘目標。我們研究了兩種廣泛使用的基於梯度上升的遺忘方法:基礎方法與約束基方法,並引入了CodeEraser,這是一種先進的變體,能夠選擇性地遺忘程式碼中的敏感記憶片段,同時保持周圍程式碼的結構完整性與功能正確性。在CodeParrot、CodeGen-Mono與Qwen2.5-Coder這三個CLM家族上的大量實驗,驗證了CodeEraser在抹除目標敏感記憶的同時保持模型效用的有效性與效率。
近期,基于大型语言模型(LLM)的智能体在多个领域展现了令人瞩目的能力,尤其是在深度研究系统中,这些系统在复杂的信息检索与综合任务上表现出色。尽管通用型深度研究智能体展现了强大的功能,但在医学领域的挑战面前却显得力不从心,这一点从领先的专有系统在复杂医学基准测试中仅取得有限准确率可见一斑。其主要局限在于:(1)模型缺乏足够的密集医学知识以支持临床推理;(2)框架因缺少专为医学情境设计的检索工具而受限。我们提出了一种医学深度研究智能体,通过两项核心创新应对这些挑战。首先,我们开发了一种基于医学知识图谱的新型数据合成框架,通过从罕见医学实体周围的子图中提取最长链,生成复杂的多跳问答对。其次,我们整合了一个定制化的私有医学检索引擎与通用工具,实现了精准的医学信息综合。我们的方法在12个医学专科中产生了2100多条多样化轨迹,每条轨迹平均涉及4.2次工具交互。通过结合监督微调与在线强化学习的两阶段训练范式,并采用复合奖励机制,我们的MedResearcher-R1-32B模型展现了卓越性能,在医学基准测试中创下了新的最先进成果,同时在通用深度研究任务上保持了竞争力。我们的工作表明,在架构、工具设计及训练数据构建方面实施针对特定领域的战略创新,能够使较小的开源模型在专业领域超越规模更大的专有系统。
大型語言模型(LLMs)在數學推理方面取得了顯著進展,但在高精度任務(如數值計算和形式符號操作)上仍面臨挑戰。整合外部工具已成為彌補這一差距的有前景的方法。儘管最近有所進展,現有方法仍面臨三個關鍵挑戰:構建工具整合的推理數據、進行細粒度優化以及增強推理能力。為克服這些限制,我們提出了THOR(基於強化學習的工具整合層次優化)。首先,我們引入了TIRGen,這是一個基於多智能體演員-評論家架構的管道,用於構建高質量的工具整合推理路徑數據集,與策略保持一致並在多樣化模型中表現出良好的泛化能力。其次,為了進行細粒度的層次優化,我們引入了一種強化學習策略,該策略聯合優化軌跡級問題解決和步驟級代碼生成。這基於我們的一個關鍵洞察:中間工具調用的成功是預測最終答案正確性的強有力指標。最後,THOR整合了一種自我校正機制,利用即時工具反饋在推理過程中動態修正錯誤的推理路徑。我們的方法在多樣化模型中展現出強大的泛化能力,無論是在推理模型還是非推理模型中都表現出色。它進一步在多個數學基準測試中實現了同規模模型的最先進性能,同時在代碼基準測試中也帶來了持續的改進。我們的代碼將在https://github.com/JingMog/THOR公開提供。
我們介紹了Wan-Animate,這是一個用於角色動畫與替換的統一框架。給定一張角色圖像和一段參考視頻,Wan-Animate能夠通過精確複製視頻中角色的表情和動作來生成高保真度的角色動畫視頻。此外,它還能將動畫角色整合到參考視頻中,替換原有角色,並複製場景的光照和色調,實現無縫的環境融合。Wan-Animate基於Wan模型構建。為了使其適應角色動畫任務,我們採用了一種修改後的輸入範式,以區分參考條件和生成區域。這一設計將多項任務統一為一個共同的符號表示。我們利用空間對齊的骨架信號來複製身體動作,並從源圖像中提取隱含的面部特徵來重現表情,從而生成具有高度可控性和表現力的角色視頻。此外,為了增強角色替換過程中的環境融合效果,我們開發了一個輔助的Relighting LoRA模塊。該模塊在保持角色外觀一致性的同時,應用適當的環境光照和色調。實驗結果表明,Wan-Animate達到了最先進的性能。我們承諾將開源模型權重及其源代碼。
本文回顧了MARS2 2025多模態推理挑戰賽。我們旨在通過一個大型基準測試,匯聚多模態機器學習與大型語言模型(LLMs)的不同方法,以期讓研究人員更好地跟蹤這一極具活力領域的最新進展。與此同時,日益增多的測試平台推動了通用大型語言模型的發展。因此,今年的MARS2聚焦於現實世界和專業場景,以拓寬多模態語言模型(MLLMs)的推理應用。我們的組織團隊發布了兩個定製數據集Lens和AdsQA作為測試集,分別支持12種日常場景中的通用推理和廣告視頻中的領域特定推理。我們評估了包含通用MLLMs和任務特定模型在內的40多個基線模型,並開設了三個競賽賽道,即現實場景中的視覺定位(VG-RS)、具備空間意識的視覺問答(VQA-SA)以及創意廣告視頻中的視覺推理(VR-Ads)。最終,來自知名學術和工業機構的76支團隊報名參賽,超過40份有效提交(總提交量超過1200份)被納入我們的排名列表。我們的數據集、代碼集(40多個基線模型和15多個參賽者的方法)以及排名已在MARS2研討會網站和我們的GitHub組織頁面https://github.com/mars2workshop/上公開,我們將持續提供更新和即將舉辦活動的公告。
大型語言模型(LLMs)在處理上下文一致性時常面臨挑戰,在基於提供的信息回答問題時,往往會產生不一致的答案。現有的方法要么依賴於昂貴的監督微調來在回答後生成證據,要么訓練模型進行網絡搜索,而不一定提高對給定上下文的利用效率。我們提出了CARE,一種新穎的原生檢索增強推理框架,該框架教導LLMs在推理過程中明確整合上下文證據,並利用模型自身的檢索能力。我們的方法僅需有限的標記證據數據,同時通過在推理鏈中策略性地檢索上下文標記,顯著提升了檢索準確性和答案生成性能。在多個現實世界和反事實問答基準上的廣泛實驗表明,我們的方法大幅超越了監督微調、傳統的檢索增強生成方法以及外部檢索解決方案。這項工作代表了在使LLMs更準確、可靠和高效地執行知識密集型任務方面的一個根本性進步。
我們提出了LLM-Interleaved(LLM-I),這是一個靈活且動態的框架,將交錯的圖像-文本生成重新定義為工具使用問題。LLM-I旨在克服當前統一模型的“單一工具”瓶頸,這些模型僅限於合成圖像,並且在需要事實基礎或程序精確性的任務中表現不佳。我們的框架使一個核心LLM或MLLM代理能夠智能地協調多種專業視覺工具,包括在線圖像搜索、基於擴散的生成、代碼執行和圖像編輯。該代理通過一個強化學習(RL)框架進行訓練,該框架結合了基於規則的邏輯和來自LLM及MLLM評估者的判斷,從而熟練地選擇和應用這些工具。在四個不同模型骨幹上使用多樣化的新數據集進行訓練後,LLM-I展示了最先進的性能,在四個基準測試中大幅超越現有方法。我們還引入了一種新穎的測試時擴展策略,進一步提升了性能。項目頁面:https://github.com/ByteDance-BandAI/LLM-I。
生成式机器学习为深入理解复杂的地球系统动力学提供了新的契机。相较于确定性方法,近期基于扩散的方法在天气预测中有效应对了光谱偏差并提升了集合校准的精度,然而这些方法在高分辨率下的稳定扩展仍面临挑战。为此,我们提出了AERIS,一个参数规模从1.3亿至800亿的像素级Swin扩散变换器,以填补这一技术空白;同时,我们开发了SWiPe技术,这是一种可推广的方法,它将窗口并行性与序列及管道并行性相结合,实现了基于窗口的变换器的分片处理,且无需增加通信成本或扩大全局批量大小。在Aurora系统(10,080个节点)上,AERIS在0.25度ERA5数据集上以1×1的补丁尺寸,持续实现了10.21 ExaFLOPS(混合精度)的运算能力,峰值性能达到11.21 ExaFLOPS,弱扩展效率高达95.5%,强扩展效率为81.6%。AERIS的表现超越了IFS ENS,并在长达90天的季节尺度上保持稳定,充分展示了十亿参数扩散模型在天气与气候预测领域的巨大潜力。
近期圖像生成模型通常於預構建的潛在空間中捕捉圖像分佈,依賴於固定的圖像標記器。然而,重建與生成分佈之間存在顯著差異,現有標記器僅優先考慮生成訓練前的重建任務,而忽略了採樣過程中的生成誤差。本文於離散潛在空間中全面分析了此差異的原因,並據此提出了一種新穎的標記器訓練方案,包括主訓練與後訓練,分別著重於改進潛在空間構建與解碼。在主訓練階段,提出了一種潛在擾動策略以模擬採樣噪聲,即生成推理中產生的意外標記。具體而言,我們提出了一種即插即用的標記器訓練方案,顯著提升了標記器的魯棒性,從而提高了生成質量與收斂速度,並提出了一種新穎的標記器評估指標——pFID,成功將標記器性能與生成質量相關聯。在後訓練階段,我們進一步針對訓練良好的生成模型優化標記器解碼器,以減小生成與重建標記之間的分佈差異。使用sim400M生成器,經我們提出的主訓練方案訓練的離散標記器取得了顯著的1.60 gFID,並通過額外的後訓練進一步獲得1.36 gFID。進一步的實驗廣泛驗證了我們後訓練策略在現成離散與連續標記器上的有效性,並結合自回歸與基於擴散的生成器進行了測試。
我們推出了SteeringControl,這是一個用於評估表徵導向方法在核心對齊目標——偏見、有害生成和幻覺——及其對次要行為(如諂媚和常識道德)影響的基準。雖然先前的對齊工作常以真實性或推理能力來展示表徵導向的副作用,但我們發現仍有許多未被系統性理解的權衡。我們收集了一個與安全相關的主要和次要行為數據集,圍繞五種流行的導向方法來評估導向效果和行為糾纏。為此,我們基於獨特組件構建了一個模塊化導向框架,這些組件是許多現有方法的基礎。我們在Qwen-2.5-7B和Llama-3.1-8B上的研究結果表明,強勁的導向性能依賴於導向方法、模型和目標行為的特定組合,而這三者的不良組合也可能導致嚴重的概念糾纏。我們在此發布了代碼: https://github.com/wang-research-lab/SteeringControl.git。
變分量子電路(VQCs)是量子機器學習的核心,而最近在科爾莫戈羅夫-阿諾德網絡(KANs)方面的進展則凸顯了可學習激活函數的強大能力。我們通過引入量子變分激活函數(QVAFs)來統一這兩個方向,這些函數通過稱為數據重上傳激活網絡(DARUANs)的單量子比特數據重上傳電路實現。我們展示了在數據預處理中具有可訓練權重的DARUAN,其頻譜隨著數據重複次數呈指數增長,從而實現了與基於傅里葉的激活函數相比的參數規模指數級減少,且不損失表達能力。將DARUAN嵌入KANs中,產生了量子啟發的KANs(QKANs),它們保留了KANs的可解釋性,同時提高了參數效率、表達能力和泛化能力。我們進一步引入了兩種新技術來增強可擴展性、可行性和計算效率,例如層擴展和混合QKANs(HQKANs),作為大規模模型中前饋網絡的多層感知器(MLPs)的即插即用替代方案。我們提供了理論分析和在函數回歸、圖像分類和自回歸生成語言建模方面的廣泛實驗,展示了QKANs的效率和可擴展性。DARUANs和QKANs為在噪聲中尺度量子(NISQ)硬件和經典量子模擬器上推進量子機器學習提供了一個有前景的方向。
我們提出了一種流程,旨在從單一野外拍攝的視頻中提取並重建動態3D煙霧資產,並進一步整合互動模擬以實現煙霧設計與編輯。近年來,3D視覺技術的發展顯著提升了流體動力學的重建與渲染能力,支持了真實且時間一致的視圖合成。然而,當前的流體重建主要依賴於精心控制的實驗室環境,而對野外捕捉的真實世界視頻的研究則相對不足。我們指出了在重建真實世界視頻中煙霧時面臨的三個關鍵挑戰,並設計了針對性的技術,包括帶有背景去除的煙霧提取、煙霧粒子與相機姿態的初始化,以及多視角視頻的推斷。我們的方法不僅在煙霧重建質量上超越了先前的重建與生成方法(在野外視頻上平均PSNR提升+2.22),還通過模擬我們的煙霧資產,實現了多樣化且真實的流體動力學編輯。我們在[https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke)提供了我們的模型、數據及4D煙霧資產。
随着大型语言模型(LLMs)在多智能体系统中的广泛应用,新的隐私风险逐渐显现,这些风险超越了记忆、直接推理或单轮评估的范畴。特别是,那些看似无害的响应,在跨交互组合时,可能累积性地使攻击者恢复敏感信息,这一现象我们称之为组合隐私泄露。我们首次系统性地研究了多智能体LLM系统中此类组合隐私泄露及其可能的缓解方法。首先,我们构建了一个框架,该框架模拟了辅助知识与智能体交互如何共同放大隐私风险,即便每个响应单独来看都是无害的。接着,为缓解这一问题,我们提出并评估了两种防御策略:(1)心智理论防御(ToM),即防御智能体通过预测其输出可能被攻击者利用来推断提问者的意图;(2)协作共识防御(CoDef),其中响应智能体与基于共享聚合状态投票的同伴协作,以限制敏感信息的传播。关键在于,我们在评估中平衡了暴露敏感信息的组合与产生无害推断的组合。我们的实验量化了这些防御策略在平衡隐私与效用权衡上的差异。我们发现,尽管思维链单独提供有限的防泄露保护(约39%的敏感信息阻断率),我们的ToM防御显著提高了敏感查询的阻断率(高达97%),但可能降低良性任务的成功率。CoDef实现了最佳平衡,产生了最高的平衡结果(79.8%),凸显了将明确推理与防御者协作相结合的优势。总之,我们的研究揭示了协作LLM部署中的一类新风险,并为设计针对组合性、上下文驱动的隐私泄露的防护措施提供了可操作的见解。
個性化財務建議需要考慮用戶目標、約束條件、風險承受能力及所屬司法管轄區。先前的大型語言模型(LLM)研究主要集中於投資者和財務規劃師的支持系統。同時,近期眾多研究通過高維護成本的代理管道探討了更廣泛的個人理財任務,包括預算編制、債務管理、退休規劃及遺產規劃,這些管道僅實現了不到25%的預期財務回報。在本研究中,我們引入了一種新穎且可重現的框架,該框架整合了相關的財務背景與行為金融學研究,以構建端到端顧問的監督數據。利用此框架,我們創建了一個包含19,000個樣本的推理數據集,並對Qwen-3-8B模型進行了全面的微調。通過保留測試集分割和盲測LLM評審研究,我們證明,通過精心的數據策展和行為整合,我們的8B模型在事實準確性、流暢性和個性化指標上達到了與顯著更大基線模型(14-32B參數)相當的性能,同時成本比這些更大模型低80%。
本研究系统地比较了混合量子-经典神经网络与纯经典模型在三个基准数据集(MNIST、CIFAR100和STL10)上的性能、效率和鲁棒性。混合模型将参数化量子电路与经典深度学习架构相结合,而经典模型则采用传统的卷积神经网络(CNNs)。每个数据集均进行了50个训练周期的实验,评估指标包括验证准确率、测试准确率、训练时间、计算资源使用情况以及对抗鲁棒性(以epsilon=0.1的扰动进行测试)。关键发现表明,混合模型在最终准确率上始终优于经典模型,分别达到{99.38%(MNIST)、41.69%(CIFAR100)和74.05%(STL10)的验证准确率,而经典模型的基准分别为98.21%、32.25%和63.76%。值得注意的是,混合模型的优势随数据集复杂度的增加而扩大,在CIFAR100(+9.44%)和STL10(+10.29%)上表现最为显著。混合模型的训练速度也快5至12倍(例如,MNIST上每周期21.23秒对比108.44秒),且参数数量减少6%至32%,同时保持了更好的未见测试数据泛化能力。对抗鲁棒性测试显示,混合模型在较简单的数据集上显著更具韧性(例如,MNIST上45.27%的鲁棒准确率对比经典的10.80%),但在复杂数据集如CIFAR100上表现出相似的脆弱性(两者鲁棒性均约为1%)。资源效率分析表明,混合模型消耗的内存更少(4-5GB对比经典的5-6GB),CPU利用率更低(平均9.5%对比23.2%)。这些结果表明,混合量子-经典架构在准确率、训练效率和参数可扩展性方面提供了显著优势,尤其适用于复杂的视觉任务。