每日精選AI研究論文及翻譯
近年來,眾多開源基礎模型相繼湧現,在部分廣受關注的領域取得了顯著進展,其性能已十分接近閉源模型。然而,在高價值但更具挑戰性的科學專業領域,這些領域仍依賴於專家模型,或者通用基礎模型的進展相較於熱門領域顯著滯後,遠不足以推動科學研究的變革,且在這些科學領域中,開源模型與閉源模型之間存在著巨大差距。為縮小這一差距並向人工通用智能(AGI)邁進一步,我們推出了Intern-S1,這是一款具備通用理解與推理能力並能分析多種科學模態數據的專業通才模型。Intern-S1是一個多模態的專家混合(MoE)模型,擁有280億激活參數和2410億總參數,持續預訓練於5T個token之上,其中包括超過2.5T來自科學領域的token。在後訓練階段,Intern-S1在InternBootCamp中經歷了離線及在線的強化學習(RL),我們提出了獎勵混合(MoR)方法,以協同超過1000個任務的RL訓練。通過算法、數據及訓練系統的綜合創新,Intern-S1在在線RL訓練中達到了頂尖性能。在綜合評估基準上,Intern-S1在通用推理任務中展現了開源模型中的競爭力,並在科學領域顯著超越其他開源模型,在專業任務如分子合成規劃、反應條件預測、晶體熱力學穩定性預測等方面超越了閉源的最先進模型。我們的模型可在https://huggingface.co/internlm/Intern-S1獲取。
大型語言模型(LLMs)在推理任務中展現出巨大潛力,這得益於如自我一致性與多數投票等測試時擴展方法。然而,這種方法往往導致準確性收益遞減及高計算開銷。為應對這些挑戰,我們引入了深度思考與置信度(DeepConf),這是一種簡單而強大的方法,能在測試時同時提升推理效率和性能。DeepConf利用模型內置信號動態過濾生成過程中或生成後的低質量推理軌跡。它無需額外的模型訓練或超參數調優,並能無縫集成到現有的服務框架中。我們在多種推理任務及最新開源模型(包括Qwen 3和GPT-OSS系列)上評估了DeepConf。值得注意的是,在如AIME 2025等具有挑戰性的基準測試中,DeepConf@512實現了高達99.9%的準確率,並相比全並行思考減少了多達84.7%的生成令牌數。
本文介紹了GUI-Owl,這是一個基礎的GUI代理模型,在十個涵蓋桌面和移動環境的GUI基準測試中,於開源端到端模型中達到了最先進的性能,這些測試包括基礎定位、問答、規劃、決策制定和程序性知識。GUI-Owl-7B在AndroidWorld上取得了66.4分,在OSWorld上取得了29.4分。基於此,我們提出了Mobile-Agent-v3,這是一個通用GUI代理框架,進一步將性能提升至AndroidWorld的73.3分和OSWorld的37.7分,為開源GUI代理框架設定了新的最先進標準。GUI-Owl融合了三項關鍵創新:(1) 大規模環境基礎設施:一個基於雲端的虛擬環境,涵蓋Android、Ubuntu、macOS和Windows,支持我們的自我進化GUI軌跡生成框架。該框架通過自動化查詢生成和正確性驗證生成高質量交互數據,利用GUI-Owl迭代精煉軌跡,形成自我改進的循環。它支持多樣化的數據管道並減少手動註釋。(2) 多樣化的基礎代理能力:通過整合UI定位、規劃、動作語義和推理模式,GUI-Owl支持端到端決策制定,並可作為多代理系統中的模塊化組件。(3) 可擴展的環境強化學習:我們開發了一個可擴展的強化學習框架,具有完全異步訓練以實現與現實世界的對齊。我們還引入了軌跡感知相對策略優化(TRPO)用於在線強化學習,在OSWorld上取得了34.9分。GUI-Owl和Mobile-Agent-v3已在https://github.com/X-PLUG/MobileAgent開源。
工具调用已成為AI代理與現實世界互動並解決複雜任務的關鍵能力。雖然模型上下文協議(MCP)為工具整合提供了一個強大的標準化框架,但在評估AI代理如何在現實、動態場景中有效利用多種MCP工具解決多步驟任務方面,仍存在顯著差距。在本研究中,我們提出了LiveMCP-101,這是一個包含101個精心策劃的真實世界查詢的基準,這些查詢通過迭代的LLM重寫和人工審查進行了精煉,需要協調使用多種MCP工具,包括網絡搜索、文件操作、數學推理和數據分析。此外,我們引入了一種新穎的評估方法,該方法利用真實執行計劃而非原始API輸出,更好地反映了現實環境的動態特性。實驗表明,即使是前沿的LLM,其成功率也低於60%,凸顯了工具協調方面的重大挑戰。詳細的消融實驗和錯誤分析進一步揭示了不同的失敗模式和令牌使用的低效性,為改進當前模型指明了具體方向。LiveMCP-101為評估真實世界代理能力設立了嚴格的標準,推動了通過工具使用可靠執行複雜任務的自主AI系統的發展。
我們推出Waver,這是一個用於統一圖像與視頻生成的高性能基礎模型。Waver能夠直接生成時長介於5至10秒、原生分辨率為720p的視頻,隨後可將其提升至1080p。該模型在單一整合框架內,同時支持文本到視頻(T2V)、圖像到視頻(I2V)以及文本到圖像(T2I)的生成。我們引入了一種混合流式DiT架構,以增強模態對齊並加速訓練收斂。為了確保訓練數據質量,我們建立了一套全面的數據篩選流程,並手動標註並訓練了一個基於MLLM的視頻質量模型,用於篩選出最高質量的樣本。此外,我們提供了詳細的訓練與推理指南,以促進高質量視頻的生成。基於這些貢獻,Waver在捕捉複雜運動方面表現卓越,在視頻合成中實現了優異的運動幅度與時間一致性。值得注意的是,在Artificial Analysis的T2V和I2V排行榜上(數據截至2025年7月30日10:00 GMT+8),Waver均位列前三,持續超越現有的開源模型,並與或超越最先進的商業解決方案相媲美。我們希望這份技術報告能幫助社區更高效地訓練高質量視頻生成模型,並加速視頻生成技術的進步。官方頁面:https://github.com/FoundationVision/Waver。
3D內容生成近期因其在VR/AR及具身AI中的應用而引起了廣泛的研究興趣。本研究致力於解決在單一場景圖像中合成多個3D資產的挑戰性任務。具體而言,我們的貢獻包括以下四點:(i) 我們提出了SceneGen,這是一個新穎的框架,它以場景圖像及相應的物體遮罩作為輸入,同時生成具有幾何形狀和紋理的多個3D資產。值得注意的是,SceneGen無需進行優化或資產檢索即可運行;(ii) 我們引入了一種新穎的特徵聚合模塊,該模塊在特徵提取模塊中整合了來自視覺和幾何編碼器的局部與全局場景信息。結合位置頭,這使得我們能夠在單次前饋過程中生成3D資產及其相對空間位置;(iii) 我們展示了SceneGen在多圖像輸入場景中的直接可擴展性。儘管僅在單圖像輸入上進行訓練,我們的架構設計使得在多圖像輸入下仍能提升生成性能;(iv) 大量的定量與定性評估證實了我們方法的高效性和強大的生成能力。我們相信這一範式為高質量3D內容生成提供了一種新穎的解決方案,有望推動其在下游任務中的實際應用。代碼和模型將公開於:https://mengmouxu.github.io/SceneGen。
近年來,隨著大型語言模型能力的深度與廣度快速發展,相應的各種評估基準也日益湧現。作為模型性能的量化評估工具,基準不僅是衡量模型能力的核心手段,更是引導模型發展方向、推動技術創新的關鍵要素。我們首次系統性地回顧了大型語言模型基準的現狀與發展,將283個代表性基準分為三大類:通用能力、特定領域和特定目標。通用能力基準涵蓋核心語言學、知識與推理等方面;特定領域基準聚焦於自然科學、人文社會科學及工程技術等領域;特定目標基準則關注風險、可靠性、智能體等問題。我們指出,當前基準存在數據污染導致分數膨脹、文化與語言偏見造成評估不公,以及缺乏對過程可信度和動態環境的評估等問題,並為未來基準創新提供了可參考的設計範式。
近期大型語言模型(LLMs)的進展使得AI代理能夠自主生成科學提案、進行實驗、撰寫論文並執行同行評審。然而,這股AI生成研究內容的洪流與一個碎片化且大多封閉的出版生態系統相碰撞。傳統期刊和會議依賴於人工同行評審,這使得它們難以擴展,並且往往不願接受AI生成的研究內容;現有的預印本服務器(如arXiv)缺乏嚴格的質量控制機制。因此,大量高質量的AI生成研究缺乏適當的傳播渠道,阻礙了其推動科學進步的潛力。為應對這些挑戰,我們推出了aiXiv,一個面向人類和AI科學家的下一代開放存取平台。其多代理架構允許研究提案和論文由人類和AI科學家共同提交、評審並迭代改進。它還提供了API和MCP接口,實現了異構人類和AI科學家的無縫集成,創建了一個可擴展和可擴展的自主科學發現生態系統。通過大量實驗,我們證明aiXiv是一個可靠且穩健的平台,能夠在aiXiv上經過迭代修改和評審後顯著提升AI生成研究提案和論文的質量。我們的工作為AI科學家的下一代開放存取生態系統奠定了基礎,加速了高質量AI生成研究內容的出版和傳播。代碼可在https://github.com/aixiv-org獲取。網站可在https://forms.gle/DxQgCtXFsJ4paMtn8訪問。
參數化人體模型提供了跨多種姿勢、體型和面部表情的豐富三維人體表示,通常通過學習已註冊三維網格的基函數來實現。然而,現有的人體網格建模方法在捕捉多樣體姿和體型上的細微變化方面存在困難,這主要歸因於訓練數據多樣性的不足以及建模假設的限制。此外,常見的範式首先使用線性基函數優化外部體表,然後從表面頂點回歸內部骨骼關節。這種方法在內部骨架與外部軟組織之間引入了問題性的依賴關係,限制了對身高和骨骼長度的直接控制。為解決這些問題,我們提出了ATLAS,這是一個從240台同步相機捕捉的60萬張高分辨率掃描中學習到的高保真人體模型。與以往方法不同,我們通過將網格表示基於人體骨架,明確地解耦了形狀和骨架基函數。這種解耦增強了形狀的表達能力,實現了對身體屬性的細粒度定制,以及獨立於外部軟組織特徵的關鍵點擬合。ATLAS在擬合多樣姿勢下的未見主體時表現優於現有方法,定量評估顯示,與線性模型相比,我們非線性的姿勢校正更有效地捕捉了複雜的姿勢。
近期,擴散模型的進展在指令引導的圖像編輯領域帶來了顯著的視覺保真度。然而,其全局去噪過程本質上將編輯區域與整個圖像上下文糾纏在一起,導致了非預期的虛假修改,並削弱了對編輯指令的遵循。相比之下,自回歸模型提供了一種獨特的範式,通過將圖像合成表述為離散視覺標記的序列過程。其因果與組合機制自然規避了基於擴散方法在遵循指令上的挑戰。本文中,我們提出了VAREdit,一種視覺自回歸(VAR)框架,將圖像編輯重新定義為下一尺度預測問題。基於源圖像特徵和文本指令,VAREdit生成多尺度目標特徵以實現精確編輯。此範式中的一個核心挑戰是如何有效地條件化源圖像標記。我們觀察到,最細尺度的源特徵無法有效指導較粗目標特徵的預測。為彌合這一差距,我們引入了尺度對齊參考(SAR)模塊,該模塊將尺度匹配的條件信息注入到第一個自注意力層中。VAREdit在編輯遵循度和效率上均展現了顯著進步。在標準基準測試中,它以超過30%的GPT-Balance分數領先於基於擴散的頂尖方法。此外,它能在1.2秒內完成512×512的圖像編輯,比同等規模的UltraEdit快2.2倍。模型可在https://github.com/HiDream-ai/VAREdit獲取。
互動式數位地圖已徹底改變了人們旅行和認識世界的方式;然而,它們依賴於地理資訊系統(GIS)資料庫中預先存在的結構化數據(例如,道路網絡、興趣點索引),這限制了它們處理與世界外觀相關的地理視覺問題的能力。我們提出了地理視覺代理(Geo-Visual Agents)的願景——這是一種多模態人工智慧代理,能夠通過分析大規模的地理空間圖像庫(包括街景圖像,如Google街景)、基於地點的照片(如TripAdvisor、Yelp)以及航空影像(如衛星照片),並結合傳統的GIS數據源,來理解和回應關於世界的細膩視覺空間查詢。我們定義了這一願景,描述了感知與互動的方法,提供了三個範例,並列舉了未來工作的關鍵挑戰與機遇。
從稀疏視角重建3D人體一直是一個引人入勝的研究主題,這對於拓展相關應用至關重要。本文提出了一項極具挑戰性但價值重大的任務:僅憑兩張圖像(即正面和背面視圖)重建人體,這將大幅降低用戶創建自身3D數字人體的門檻。主要挑戰在於如何建立3D一致性以及從極度稀疏的輸入中恢復缺失信息。我們基於基礎重建模型重新設計了一種幾何重建模型,即使輸入圖像之間重疊區域極少,也能通過大量人體數據訓練預測出一致性的點雲。此外,應用了一種增強算法來補充缺失的色彩信息,從而獲得帶有色彩的完整人體點雲,這些點雲可直接轉化為3D高斯分佈以提升渲染質量。實驗表明,我們的方法在單張NVIDIA RTX 4090上僅需190毫秒即可完成整個人體重建,處理兩張分辨率為1024x1024的圖像,在THuman2.0及跨域數據集上展現了頂尖性能。此外,即便使用低成本移動設備拍攝的圖像,我們的方法也能完成人體重建,降低了數據收集的要求。演示與代碼可訪問https://hustvl.github.io/Snap-Snap/獲取。
大型語音-語言模型(LSLMs)的發展因架構分散及透明度不足而受阻,這阻礙了研究的系統性比較與可重現性。與視覺-語言領域不同,LSLM領域普遍存在僅發布模型權重而不提供相應訓練數據與配置的現象。為解決這些關鍵問題,我們推出了LLaSO,首個完全開放、端到端的大規模語音-語言建模框架。LLaSO為社群提供了三大核心資源:(1) LLaSO-Align,一個包含1200萬條語音-文本對齊的語料庫;(2) LLaSO-Instruct,一個包含1350萬條多任務指令微調的數據集;(3) LLaSO-Eval,一個用於標準化評估的可重現基準。為驗證框架的有效性,我們構建並發布了LLaSO-Base,這是一個僅基於我們公開數據訓練的38億參數參考模型,其標準化得分達0.72,建立了一個超越同類模型的強有力且可重現的基準。我們的分析表明,儘管更廣泛的訓練覆蓋提升了性能,但在未見任務上,尤其是在純音頻場景中,仍存在顯著的泛化差距。通過發布完整的數據堆棧、基準與模型,LLaSO確立了一個基礎性的開放標準,旨在統一研究努力並加速LSLMs領域的社群驅動進展。我們在https://github.com/EIT-NLP/LLaSO上公開了代碼、數據集、預訓練模型及結果。
理解影片不僅需要回答開放式問題,更要求具備精確定位事件發生時間及實體間跨時空互動的能力。儘管近期影片大型語言模型(Video LLMs)在整體推理方面取得了顯著進展,但其在時間感知上仍顯粗糙:時間戳僅被隱含編碼,幀級特徵在捕捉連續性方面表現薄弱,且語言與視覺的對齊常偏離關注的實體。本文提出Grounded VideoDiT,這是一款旨在克服上述限制的影片大型語言模型,其引入了三項關鍵創新。首先,擴散時間潛在(DTL)編碼器增強了邊界敏感性並保持了時間一致性。其次,基於物體的表示法將查詢實體明確綁定至局部視覺證據,強化了對齊效果。第三,採用包含離散時間標記的混合標記方案,實現了精確的時間戳建模,從而支持細粒度的時間推理。這些設計共同賦予Grounded VideoDiT強大的定位能力,並在Charades STA、NExT GQA及多個影片問答基準測試中取得了領先的驗證成果。
過程獎勵模型(PRMs)已成為監督大型語言模型(LLMs)中間推理的一種有前景的框架,然而現有的PRMs主要在通用或科學、技術、工程和數學(STEM)領域進行訓練,在特定領域(如金融)中表現不足,這些領域的推理更具結構性、符號化,並且對事實和法規的正確性更為敏感。我們引入了Fin-PRM,這是一種專門針對金融任務的、軌跡感知的PRM,用於評估中間推理步驟。Fin-PRM整合了步驟級和軌跡級的獎勵監督,使得能夠對符合金融邏輯的推理軌跡進行細粒度評估。我們在離線和在線獎勵學習設置中應用Fin-PRM,支持三個關鍵應用:(i)選擇高質量的推理軌跡進行基於蒸餾的監督微調,(ii)為強化學習提供密集的過程級獎勵,以及(iii)在測試時引導獎勵信息的最佳N推理。在包括CFLUE和FinQA在內的金融推理基準上的實驗結果表明,Fin-PRM在軌跡選擇質量上始終優於通用PRMs和強領域基線。使用Fin-PRM訓練的下游模型在基線上取得了顯著改進,在監督學習中提升了12.9%,在強化學習中提升了5.2%,在測試時性能上提升了5.1%。這些發現凸顯了領域專用獎勵模型在將LLMs與專家級金融推理對齊方面的價值。我們的項目資源將在https://github.com/aliyun/qwen-dianjin 上提供。
AI伴侶關係,即使用者與AI系統建立情感連結的現象,已成為一種具有積極意義但同時也引發擔憂的重要模式。我們引入了「互動與機器依附基準」(INTIMA),這是一個用於評估語言模型中伴侶行為的基準。基於心理學理論和用戶數據,我們開發了一個包含四大類別、共31種行為的分類體系,並設計了368個針對性提示。對這些提示的回應被評估為強化伴侶關係、維持界限或中立。將INTIMA應用於Gemma-3、Phi-4、o3-mini和Claude-4後發現,儘管我們觀察到模型之間存在顯著差異,但強化伴侶關係的行為在所有模型中仍然更為普遍。不同的商業提供商在基準中較為敏感的部分優先考慮不同的類別,這令人擔憂,因為適當的界限設定和情感支持對用戶福祉都至關重要。這些發現強調了在處理情感互動時需要更加一致的方法。