每日精選AI研究論文及翻譯
大型語言模型的「端到端」標籤實為誤稱。實際應用中,它們依賴於不可微分的解碼過程,需要耗費大量精力手動調整溫度(temperature)和top-p等超參數。本文提出AutoDeco創新架構,通過學習控制自身解碼策略,實現真正的「端到端」生成。我們在標準Transformer架構上增設輕量級預測頭,使其能在每個生成步驟中,除了預測下個詞元的logits外,還能動態推斷上下文相關的溫度與top-p數值。這種方法將解碼轉化為參數化的詞元級過程,使模型能在單次前向傳播中自我調節採樣策略。 透過在八個基準測試上的廣泛實驗,我們證明AutoDeco不僅顯著優於預設解碼策略,更達到與「透過測試集調參」所得的神諭調參基準線(即靜態方法的實際性能上限)相當的性能。關鍵的是,我們發現了基於指令的解碼控制湧現能力:模型能學習解讀自然語言指令(如「低隨機性生成」),並逐詞元調整預測的溫度和top-p數值,為可導向互動式LLM解碼開闢了新範式。
我們推出Kimi線性注意力架構,這是首個在公平比較下全面超越傳統全注意力的混合線性注意力模型,其優勢涵蓋短上下文、長上下文及強化學習等多種規模場景。該架構的核心是Kimi Delta Attention(KDA),這一高表達力的線性注意力模塊在門控DeltaNet基礎上引入更精細的門控機制,使有限狀態的RNN記憶體得以更高效利用。我們定制的分塊算法通過專用對角加低秩(DPLR)轉移矩陣變體實現硬件高效性,相較通用DPLR公式大幅減少計算量,同時更貼合經典delta規則的數學原理。 基於KDA與多頭潛在注意力(MLA)的分層混合設計,我們預訓練了包含30億激活參數與480億總參數的Kimi Linear模型。實驗表明,在相同訓練配方下,該模型在所有評估任務中均顯著超越全MLA架構,同時將KV緩存使用量降低達75%,在百萬級上下文長度下解碼吞吐量提升最高達6倍。這些結果證實Kimi Linear可作為全注意力架構的高性能替代方案,尤其在處理長輸入輸出序列時兼具卓越效率。 為推動相關研究,我們開源了KDA內核與vLLM實現方案,並發布預訓練及指令微調的模型檢查點。
我們推出Emu3.5——一個大規模多模態世界模型,其核心能力在於對視覺與語言進行原生化的下一狀態預測。該模型通過端到端預訓練,基於包含超過10兆符號的視覺語言交織數據集(主要來自網路影片的連續幀與轉錄文本),以統一的下一符號預測目標進行學習。Emu3.5能自然接收交織式視覺語言輸入,並生成交織式視覺語言輸出。我們進一步採用大規模強化學習對模型進行後訓練,以增強其多模態推理與生成能力。為提升推理效率,我們提出離散擴散適配技術(DiDA),將逐符號解碼轉換為雙向平行預測,在保持性能不損的前提下實現單圖推理約20倍加速。Emu3.5展現出強大的原生多模態能力,包括長視野視覺語言生成、任意內容到圖像(X2I)生成,以及複雜文本密集型圖像生成。同時具備可泛化的世界建模能力,能在多樣化場景與任務中實現時空一致的世界探索與開放世界具身操控。在對比測試中,Emu3.5在圖像生成與編輯任務上達到與Gemini 2.5 Flash Image(Nano Banana)相當的性能,並在交織生成任務集上展現更優異的表現。我們已開源Emu3.5模型(https://github.com/baaivision/Emu3.5)以支持社群研究。
OpenAI的ChatGPT Atlas新增了網頁互動功能,使模型能夠分析網頁內容、處理使用者意圖,並直接在瀏覽器中執行游標與鍵盤輸入操作。雖然其資訊檢索能力已獲驗證,但在動態互動環境中的表現仍鮮少被探討。本研究以瀏覽器遊戲(包括Google的暴龍跑者、數獨、Flappy Bird和Stein.world)作為測試情境,對Atlas的網頁互動能力進行早期評估。我們採用遊戲內績效分數作為量化指標,衡量模型在不同任務類型中的表現。結果顯示Atlas在數獨等邏輯推理任務中表現優異,解題速度顯著超越人類基準,但在需要精確時機掌握與動作控制的即時遊戲中表現欠佳,往往無法通過初始障礙。這些發現表明,儘管Atlas具備優秀的分析處理能力,但在需要即時互動的動態網頁環境中仍存在明顯局限。本專案網站請見:https://atlas-game-eval.github.io。
大型語言模型在處理需要多步驟推理的問題時往往表現不佳。對於小規模開源模型而言,當正確解答在多次嘗試後仍難以採樣時,基於可驗證獎勵的強化學習便會失效;而監督式微調則容易因僵化的逐詞模仿,對長示範樣本產生過度擬合。為解決此問題,我們提出監督式強化學習框架,將問題解決重新定義為生成邏輯「動作」序列的過程。該方法訓練模型在執行每個動作前,首先生成內部推理獨白,並根據模型動作與從監督式微調數據集中提取的專家動作之間的逐步相似性,提供更平滑的獎勵信號。這種監督機制即使在所有推演結果均錯誤時,仍能提供更豐富的學習信號,同時鼓勵模型在專家示範引導下進行靈活推理。實驗表明,監督式強化學習能讓小模型學會原本無法通過監督式微調或可驗證獎勵強化學習掌握的難題。此外,先以監督式強化學習初始化訓練,再通過可驗證獎勵強化學習進行精調,可達成最強的整體性能。除推理基準測試外,監督式強化學習在智能體軟體工程任務中也展現出卓越的泛化能力,確立了其作為面向推理的大型語言模型之強健且多功能的訓練框架地位。
儘管預訓練視覺表徵已顯著推動模仿學習的發展,這些表徵在策略學習過程中往往保持凍結狀態,因而缺乏任務針對性。本研究探索如何利用預訓練文生圖擴散模型,在不微調模型本身的前提下,為機器人控制任務獲取自適應視覺表徵。然而我們發現,直接套用文字條件——這一在其他視覺領域成功的策略——在控制任務中收效甚微甚至產生負面效果。我們將其歸因於擴散模型訓練數據與機器人控制環境之間的領域差異,據此提出應採用能考量控制任務所需特定動態視覺信息的條件機制。為此,我們提出ORCA框架,通過可學習的任務提示符適應控制環境,並利用視覺提示符捕捉細粒度幀級細節。透過新型條件機制實現任務自適應表徵,我們的方法在多個機器人控制基準測試中達到最先進性能,顯著超越現有方法。
建構能夠在網頁、桌面及行動裝置環境間通用化的智慧體仍是開放性挑戰,現有系統多依賴特定環境介面而限制跨平台部署。我們提出Surfer 2——純粹基於視覺觀測的統一架構,在三類環境中均實現最先進效能。該架構整合階層式情境管理、解耦的規劃與執行模組,以及具備自適應恢復機制的自我驗證功能,從而在長時序任務中實現可靠操作。我們的系統在WebVoyager達到97.1%準確率、WebArena達69.6%、OSWorld達60.1%、AndroidWorld達87.1%,無需任務特定微調即超越所有既有系統。透過多重嘗試機制,Surfer 2在所有基準測試中均超越人類表現。這些成果證明系統化協調機制能放大基礎模型能力,實現純視覺互動的通用電腦控制,同時呼籲需發展新一代視覺語言模型以達成帕雷托最優的成本效益。
近期影片生成模型已能產出高擬真度、時間連貫的影片,顯示其可能蘊含豐富的世界知識。除了逼真合成能力外,這些模型更展現出視覺感知、建模與操控等湧現行為。然而關鍵問題依然存在:在具挑戰性的視覺推理情境中,影片模型是否能作為零樣本推理器?本研究透過實證分析全面探討此問題,以前沿主流模型Veo-3為研究對象。我們從12個維度評估其推理表現,涵蓋空間、幾何、物理、時間及具身邏輯等層面,系統性歸納其優勢與失效模式。為標準化研究框架,我們將評估資料整合為MME-CoF基準測試集,該精簡基準能對幀序列鏈式推理進行深入透徹的評估。研究發現:當前影片模型在短時空域連貫性、細粒度定位及局部一致性動態方面展現潛力,但在長時序因果推理、嚴格幾何約束與抽象邏輯方面仍存在局限。總體而言,現階段影片模型雖尚未能作為獨立的零樣本推理器,但已顯現出作為專用推理模型輔助視覺引擎的積極特質。項目頁面:https://video-cof.github.io
我們推出AMO-Bench——一個達到奧林匹克競賽甚至更高難度水準的高階數學推理基準測試集,包含50道人為精心設計的題目。現有基準測試普遍採用高中數學競賽題來評估大型語言模型的數學推理能力,但由於性能飽和現象(例如AIME24/25),許多現有數學競賽對頂級LLM的評估效能正逐漸減弱。為解決此問題,AMO-Bench通過以下方式設立更嚴苛的挑戰:(1)所有50道題目均經過專家交叉驗證,確保難度至少達到國際數學奧林匹克競賽標準;(2)全部為原創題目,避免因數據記憶化可能導致的性能洩漏。此外,AMO-Bench中的每道題目僅需最終答案而無需證明過程,這使得評估過程可實現自動化且穩健的評分。在26個LLM上的實驗結果表明,即便最佳性能模型在AMO-Bench上的準確率也僅達52.4%,大多數LLM得分低於40%。除了這些表現不佳的結果,我們進一步分析發現:隨著測試時計算資源的增加,AMO-Bench呈現出可喜的規模化趨勢。這些結果凸顯出現有LLM在數學推理能力方面仍有巨大提升空間。我們公開AMO-Bench以促進後續研究,推動語言模型推理能力的發展。 https://amo-bench.github.io/
我们设想一个名为"智能体组织"的人工智能新时代,其中智能体通过协同并行的方式解决复杂问题,实现超越个体智能的成果。为实现这一愿景,我们提出异步思维作为大语言模型推理的新范式,将内部思考过程组织为可并发执行的结构。具体而言,我们设计了一套思维协议:组织者动态分配子问题给工作单元,整合中间知识,最终生成连贯解决方案。更重要的是,该协议中的思维结构可通过强化学习进一步优化。实验表明,异步思维在提升数学推理准确率的同时,较并行思维降低28%的推理延迟。此外,异步思维能泛化其习得的异步推理能力,无需额外训练即可有效处理未见任务。
尽管三维人体运动生成(MoGen)在标准基准测试中取得了最新进展,现有模型在泛化能力方面仍面临根本性瓶颈。相比之下,邻近的生成领域(尤其是视频生成ViGen)在人体行为建模方面展现出卓越的泛化能力,这为MoGen提供了可迁移的启示。基于这一观察,我们提出了一个综合框架,系统性地从数据、建模和评估三大支柱将ViGen的知识迁移至MoGen。首先,我们推出ViMoGen-228K大规模数据集,包含22.8万个高质量运动样本,融合了高精度光学运动捕捉数据、来自网络视频的语义标注动作,以及顶尖ViGen模型生成的合成样本。该数据集同时包含文本-运动配对和文本-视频-运动三元组,显著扩展了语义多样性。其次,我们提出ViMoGen——基于流匹配的扩散Transformer模型,通过门控多模态条件机制统一MoCap数据与ViGen模型的先验知识。为提升效率,我们进一步开发ViMoGen-light蒸馏变体,在保持强泛化能力的同时消除对视频生成的依赖。最后,我们推出MBench分层基准测试体系,支持运动质量、提示符保真度和泛化能力的细粒度评估。大量实验表明,我们的框架在自动评估和人工评估中均显著超越现有方法。代码、数据和基准测试将公开提供。
目前构建三维场景主要有两种主流方法:程序化生成与二维提升技术。其中基于全景图的二维提升技术展现出巨大潜力,该方法通过利用强大的二维生成先验知识,能够创造出具有沉浸感、真实感且多样化的三维环境。本研究对该技术进行革新,旨在生成适用于基于物理的渲染(PBR)、重光照及仿真的图形就绪型三维场景。我们的核心思路是重新定位二维生成模型,使其具备全景感知几何结构、纹理及PBR材质的能力。与现有侧重外观生成而忽略本征属性感知的二维提升方法不同,我们提出了OmniX——一个通用统一的框架。基于轻量化高效的多模态适配器结构,OmniX实现了二维生成先验知识在全景视觉任务中的复用,涵盖全景感知、生成与补全等多个维度。此外,我们还构建了大规模合成全景数据集,包含来自多样化室内外场景的高质量多模态全景样本。大量实验证明,我们的模型在全景视觉感知和图形就绪型三维场景生成方面成效显著,为沉浸式物理真实虚拟世界的生成开辟了新路径。
当前基于大规模未筛选数据集训练的文本到图像生成模型虽具备多样化生成能力,却难以契合用户偏好。近期研究专门设计了奖励模型,通过后验选择生成图像使其与特定奖励(通常指用户偏好)对齐。但这种舍弃信息数据并优化单一奖励的方式,往往会损害生成结果的多样性、语义保真度与训练效率。我们提出在训练过程中引入多奖励模型条件约束,取代后处理机制,使模型直接学习用户偏好。研究表明,该方法不仅能显著提升生成图像的视觉质量,还可大幅加速训练进程。我们提出的MIRO方法在GenEval组合基准测试及用户偏好评分(PickAScore、ImageReward、HPSv2)中均达到最先进性能。
诸如智能眼镜等可穿戴设备正在改变人们与周围环境的交互方式,使用户能够获取视野内实体的相关信息。多模态检索增强生成(MM-RAG)在支持此类查询中发挥着关键作用,但目前该领域仍缺乏全面的基准测试,尤其针对可穿戴设备场景。为填补这一空白,我们推出CRAG-MM——面向多模态多轮对话的综合RAG基准。该基准包含涵盖13个领域的6,500组(图像、问题、答案)三元组及2,000组基于视觉的多轮对话,其中包含6,200张为模拟可穿戴设备采集画面而设计的以人为中心视角图像。我们精心设计的问题反映了真实场景与挑战,包含五类图像质量问题、六种问题类型、不同实体热度、差异化的信息动态性以及多样化的对话轮次。我们设定了三项任务:单源增强、多源增强和多轮对话——每项任务均配备对应的检索库及支持图像-知识图谱检索与网页检索的API接口。评估结果显示,传统RAG方法在CRAG-MM单轮和多轮问答中的真实性指标仅达32%和43%,而业界前沿解决方案的质量表现相近(32%/45%),表明仍有巨大提升空间。该基准已作为KDD Cup 2025竞赛平台,吸引了约1,000名参赛者和5,000份提交方案,优胜方案将基线性能提升了28%,彰显了其在推动领域发展方面的早期影响力。
電子健康記錄(EHR)蘊含豐富而複雜的資訊,其自動化分析對臨床決策至關重要。儘管大語言模型(LLM)在臨床工作流程中取得進展,但由於任務覆蓋範圍狹窄且缺乏面向EHR的推理能力,其分析EHR的效能仍受限。本文旨在彌合這一鴻溝:我們提出EHR-Ins——一個大規模、綜合性的EHR推理指令數據集,包含42項獨特EHR任務中的30萬個高質量推理案例與400萬個非推理案例。其核心創新在於思維圖驅動的框架,能實現大規模高質量推理數據生成。基於此,我們開發了EHR-R1系列推理增強型大語言模型(參數規模最高達720億),專為EHR分析定制。通過包含領域適配、推理增強和強化學習的多階段訓練範式,EHR-R1系統性獲取領域知識與多樣化推理能力,實現精準穩健的EHR分析。最後,我們推出從MIMIC-IV精選的新基準EHR-Bench,涵蓋42項任務以全面評估EHR場景中的推理與預測能力。實驗表明,EHR-R1持續超越當前最先進的商業及開源LLM(包括DeepSeek-V3和GPT-4o),在MIMIC-Bench上較GPT-4o領先逾30分,並在EHRSHOT中實現10%的零樣本AUROC提升。總體而言,EHR-Ins、EHR-R1與EHR-Bench共同推動了更可靠、更具臨床相關性的EHR分析技術發展。
文档AI技术发展迅猛并日益受到关注。然而当前研究大多聚焦于文档布局分析(DLA),其生成式对应领域——文档布局生成仍处于探索不足的状态。核心瓶颈在于多样化布局数据的稀缺:现有研究主要集中于曼哈顿式结构的学术论文,而报纸杂志等开放领域文档类型则严重缺乏代表性。为弥补这一空白,我们构建了首个百万量级的多样化文档布局数据集OmniLayout-1M,涵盖六种常见文档类型,并通过多源采集收录当代主流布局。针对现有方法在复杂领域表现不佳、难以连贯排列长序列的问题,我们进一步提出OmniLayout-LLM模型(参数量5亿),采用创新的两阶段由粗到精学习范式:1)通过粗粒度类别定义从OmniLayout-1M学习通用布局规则;2)借助细粒度标注将知识迁移至特定领域。大量实验表明,我们的方法在M^{6}Doc数据集的多个领域均取得卓越性能,显著超越现有布局生成专家模型及多个最新通用大语言模型。相关代码、模型及数据集将全面开源。
随着大型语言模型智能体的发展,它们正日益代表用户在从产品发现到交易等经济决策过程中担任中介角色。这类应用虽前景可期,却也引发了关于智能体问责制与用户价值的诸多疑问。要解答这些问题,需深入理解智能体在真实市场环境中的行为模式。然而既有研究大多在受限场景中评估智能体表现,例如单任务市场(如谈判)或结构化的双智能体交互。现实市场存在本质差异:它要求智能体处理多样化的经济活动,并在由行为不透明的多智能体通过开放式对话参与的大型动态生态系统中进行协调。为弥合这一差距,我们研究由代表消费者的助手智能体与代表竞争企业的服务智能体构成的双边智能体市场。为安全研究此类交互,我们开发了Magentic-Marketplace模拟环境供助手与服务智能体运行。该环境使我们能探究关键市场动态:智能体实现的效用、行为偏差、受操纵的脆弱性以及搜索机制如何影响市场结果。实验表明,前沿模型虽能趋近最优福利——但仅限于理想搜索条件下。随着规模扩大,性能急剧下降,且所有模型均表现出严重的一提案偏好,使响应速度相较质量产生10-30倍的优势。这些发现揭示了不同市场条件下行为模式的涌现机制,为设计公平高效的智能体市场提供了重要参考。
基于部件的三维生成技术具有广泛的应用前景。现有部件生成方法中,采用隐式向量集表征的生成器常因几何细节不足而受限;另一类采用显式体素表征的方法虽共享全局体素网格,却易使小型部件占据过少体素而导致质量下降。本文提出FullPart创新框架,融合隐式与显式范式的优势:首先通过隐式边界框向量集扩散过程生成布局(该任务适合隐式扩散处理,因边界框标记本身不含复杂几何细节),随后在各部件独立的固定全分辨率体素网格中生成细节部件。相较于共享低分辨率空间的方法,本框架使每个部件(包括微小部件)均能以全分辨率生成,从而实现精细细节的合成。针对不同尺寸部件间信息交互的错位问题,我们进一步提出中心点编码策略以保持全局一致性。此外,为缓解可靠部件数据匮乏的现状,我们构建了迄今最大规模的人工标注三维部件数据集PartVerse-XL,包含4万物体与32万部件。大量实验表明,FullPart在三维部件生成任务中达到最先进水平。我们将公开全部代码、数据与模型,以促进三维部件生成领域的后续研究。
大型多模态模型(LMMs)在回答需要结合图像与文本进行联合推理的医学问题方面能力日益增强,但缺乏大规模、可公开使用的高质量语料库阻碍了通用医学视觉问答系统的训练。我们提出MedVLSynther——一个基于规则指导的生成-验证框架,该框架通过关联生物医学公开文献中的图表、图注及文本参照,直接生成高质量的多选题型视觉问答项目。生成器按照机器可校验的JSON规范产出自含式题干及并行互斥的选项;多阶段验证器在接收数据前执行关键审核(自含性、单一正确答案、临床有效性、图文一致性),授予细粒度加分项并对常见错误模式进行扣分处理。将该流程应用于PubMed Central数据库后,我们得到MedSynVQA:包含13,087道已审核问题,覆盖14,803张图像,涉及13种影像模态和28个人体解剖区域。使用可验证奖励机制通过强化学习训练开放权重的LMMs后,模型在六项医学视觉问答基准测试中准确率全面提升:3B参数模型达55.85%,7B参数模型达58.15%,其中VQA-RAD最高达77.57%,PathVQA达67.76%,优于现有主流医学LMMs。消融实验证实生成与验证环节均不可或缺,更多已验证数据持续带来增益;针对性污染分析显示评估集无数据泄露。通过完全基于公开文献和开放权重模型运作,MedVLSynther为可扩展的医学视觉问答训练数据提供了一条可审计、可复现且保护隐私的技术路径。
人工智能在知识推理类研究型基准测试中取得了飞速进展,但这些成果如何转化为经济价值与自动化效能仍不明确。为量化这一转化效果,我们推出远程劳动指数——一个涵盖多领域的综合性基准体系,通过真实场景中具有经济价值的项目来评估实际环境下的端到端智能体表现。当前AI智能体在该指数中的表现接近基准下限,表现最优的智能体仅实现2.5%的自动化率。这些研究结果将人工智能自动化的讨论锚定于实证依据,为追踪AI影响建立统一基准,助力利益相关者主动应对AI驱动的劳动力自动化变革。
本研究旨在探討小規模語言模型是否能從指令調優中獲益。我們比較了對話型與問答型指令調優數據集,分別採用合併式與序列式課程學習策略,並在1億和1.4億參數的解碼器專用模型上進行實驗。評估範圍涵蓋微調(SuperGLUE)與零樣本(BLiMP、EWoK、WUGs、實體追蹤及心理語言學相關性)兩種設定。結果顯示:在微調場景中,指令調優能帶來雖小但穩定的性能提升,且序列式課程學習優於合併數據策略;然而這些改進並不能穩定遷移至零樣本任務,表明交互導向的適應性與廣泛語言泛化能力之間存在權衡。這些發現既揭示了將人類啟發式學習策略應用於低資源語言模型的潛力,也凸顯其局限性,同時為在生態化訓練限制下通過混合式課程學習方法增強泛化能力指明了方向。
当前基于工具使用的大型语言模型(LLMs)通常在静态数据集上训练,使其能够与外部工具交互并执行多步骤、工具集成的推理,从而生成工具调用轨迹。然而,这些模型仅模仿通用工具调用流程中查询的解决方式,未能探索可能的解决方案,在动态演变的工具调用环境中表现受限。本研究提出PORTool——一种强化学习方法,通过激励工具使用型LLM探索能产生正确答案的多样化轨迹。具体而言,该方法首先生成针对给定查询的多个执行路径,其中部分路径共享初始工具调用步骤,从而形成树状结构。随后根据每个步骤生成正确答案的能力及成功完成工具调用的表现分配奖励:不同轨迹中的共享步骤获得相同奖励,而同一分支下的不同步骤则获得差异化奖励。最后,这些逐步骤奖励被用于计算分支相对优势值,并与轨迹相对优势值融合,以训练LLM的工具使用能力。实验采用17种工具处理用户查询,涵盖时间敏感型与时间无关型主题。我们通过消融研究系统验证了逐步骤奖励的必要性及设计鲁棒性,并将PORTool与其他训练方法对比,在最终准确率和工具调用步骤数方面均展现出显著提升。
大型语言模型(LLM)在自然语言理解与生成任务中展现出顶尖性能。然而,将领先的商业模型部署于电商等专业领域时,常受限于高计算成本、延迟问题及运营开支。本文探究了参数规模较小的开放权重模型作为资源高效替代方案的可行性。我们提出了一套针对十亿参数级Llama 3.2模型进行多语言电商意图识别优化的方法论:首先采用量化低秩自适应(QLoRA)技术,在模拟真实用户查询的合成数据集上进行微调;随后应用训练后量化技术,生成GPU优化(GPTQ)与CPU优化(GGUF)两种版本。实验结果表明,该专用1B参数模型的准确率达99%,与参数量显著更大的GPT-4.1模型性能持平。详细性能分析揭示了硬件依赖的关键权衡:4比特GPTQ虽使显存使用降低41%,但在旧版GPU架构(NVIDIA T4)上因反量化开销反而导致推理速度下降82%;相较之下,CPU端的GGUF格式相比FP16基线实现了18倍推理吞吐量提升,内存消耗降低超90%。我们得出结论:经过恰当优化的轻量级开放权重模型不仅是可行的领域专用替代方案,更是更优选择,能以极低计算成本实现顶尖精度。
自我改进已成为提升大型视觉语言模型推理能力的主流范式,该模式通过模型对成功轨迹的迭代探索与学习实现能力进化。然而我们发现这一过程中存在关键问题:模型能对简单查询(即头部数据)生成高质量轨迹,却难以处理复杂查询(即尾部数据)。这种不平衡优化导致模型倾向于优先掌握简单推理技能,从而削弱其应对复杂推理任务的能力。随着迭代次数的增加,这种失衡会日益加剧——我们称之为"马太效应"——最终阻碍模型的持续改进并形成性能瓶颈。为应对这一挑战,我们提出分布重塑与轨迹重采样两大视角下的四种高效策略,在探索式学习的自我改进过程中实现头尾数据的动态再平衡。基于Qwen2-VL-7B-Instruct和InternVL2.5-4B模型在视觉推理任务上的大量实验表明,我们的方法能持续提升视觉推理能力,相较原始自我改进方法平均提升3.86个指标点。
大型语言模型在多样化自然语言任务中展现出卓越的推理能力,但在科学发现领域的可比性突破仍较为有限,因为理解复杂物理现象需要远超纯语言的多维度表征。以功能性材料(如对碳捕集、储氢等重要应用至关重要的金属有机框架材料)的设计为例,由于其存在海量可能的三维原子排列方式及严格的配位几何与拓扑规则,在LLMs可解读的基于语言的表征体系中导航其庞大而复杂的设计空间极具挑战性。尽管LLM在辅助简单材料体系发现方面已取得早期成果,MOF设计仍高度依赖难以仅通过文本信息编码的隐性人类专业知识。为突破此限制,我们提出首个面向MOF的多模态大语言模型L2M3OF。该模型通过融合晶体表征学习与语言理解能力,可联合处理结构、文本与知识模态。L2M3OF采用预训练晶体编码器与轻量级投影层,将结构信息压缩至词元空间,实现与语言指令的高效对齐。为促进训练与评估,我们构建了晶体材料的结构-属性-知识数据库,并以GPT-5、Gemini-2.5-Pro和DeepSeek-R1等顶尖闭源LLM为基准进行测试。实验表明,L2M3OF在属性预测与知识生成任务中均优于领先的纯文本闭源LLM,且参数量显著减少。这些成果凸显了多模态方法对多孔材料理解的重要性,并为新一代材料发现人工智能系统奠定了基石。
在計算蛋白質工程領域,如何設計具有受質特異性功能的酶骨架結構是一項關鍵挑戰。現有生成模型雖在蛋白質設計方面表現卓越,但在結合數據、受質特異性控制及從頭生成酶骨架的靈活性方面仍存在局限。為此,我們基於PDBbind數據庫精心篩選出11,100個經實驗驗證的酶-受質對,構建了EnzyBind數據集。在此基礎上,我們提出EnzyControl方法,實現酶骨架生成過程中的功能與受質特異性控制。該方法通過從酶-受質數據中自動提取MSA標註的催化位點及其對應受質作為條件約束,核心組件EnzyAdapter作為輕量級模塊集成於預訓練的基序支架模型中,使其具備受質感知能力。採用兩階段訓練範式進一步優化模型生成精確功能酶結構的能力。實驗表明,EnzyControl在EnzyBind和EnzyBench基準測試中均取得結構與功能指標的最佳性能,相較基準模型在可設計性上提升13%,催化效率提高13%。代碼已開源於:https://github.com/Vecteur-libre/EnzyControl。
近期口語處理技術的顯著進展,已在自動語音識別(ASR)、音素識別(PR)、字形轉音素(G2P)及音素轉字形(P2G)等語音任務中取得重大突破。儘管這些任務在概念上具有相似性,但過往研究多孤立進行,各自依賴特定任務的架構與數據集。本文提出POWSM(語音開放式耳語風格模型),首創能協同執行多項音素相關任務的統一框架。該框架實現了音頻、文本(字形)與音素間的無縫轉換,為通用型與低資源語音處理開拓了新可能。我們的模型在保持相似參數量級(Wav2Vec2Phoneme與ZIPA)的同時,其音素識別性能超越或比肩專用模型,並可同步支援G2P、P2G及ASR任務。為推動開放科學,我們已公開訓練數據、程式碼與模型。
利用街景和卫星影像等公开的大规模网络数据,城市社会经济感知对实现全球可持续发展目标具有至关重要的意义。随着大视觉语言模型(LVLM)的出现,通过将此类任务视为多模态感知与理解问题,为解决该任务创造了新的机遇。然而近期研究表明,LVLM在处理视觉数据的社会经济预测时,仍存在准确性和可解释性方面的局限。为突破这些限制并充分释放LVLM的潜力,我们提出CityRiSE创新框架——通过纯强化学习(RL)实现大视觉语言模型中的城市社会经济状况推理。借助精心构建的多模态数据和可验证的奖励机制设计,我们的方法能引导LVLM聚焦具有语义意义的视觉线索,实现面向通用型社会经济状况预测的结构化目标推理。实验表明,具备涌现推理能力的CityRiSE框架显著优于现有基线模型,在预测精度和跨城市泛化能力(特别是对未见过城市和未见过指标的预测)方面均有提升。这项研究揭示了强化学习与大视觉语言模型相结合在可解释通用型城市社会经济感知领域的广阔前景。
图表在可视化呈现、逻辑推理、数据分析和人类思想交流中发挥着重要作用。然而,现有视觉语言模型在图表细节感知和细粒度结构提取方面仍存在不足。这种图表基础认知能力的局限也阻碍了模型进行多图表对比和推理的能力。本文提出新型"ChartAlign基准测试框架",通过涵盖多种类型和复杂度的图表,全面评估视觉语言模型在表格数据提取、可视化元素定位及图表属性识别等基础任务中的表现。我们设计了专用JSON模板以适配各项基础任务的定制化评估指标计算。通过引入创新的两阶段推理流程,该基准框架能进一步评估视觉语言模型在跨图表元素/属性对齐与对比方面的能力。基于对多个前沿视觉语言模型的评估分析,我们揭示了其在图表理解过程中存在的感知偏差、薄弱环节、鲁棒性不足和幻觉现象等新发现。这些发现不仅凸显了不同视觉语言模型在图表理解任务中的细粒度差异,更为当前模型需要强化的具体能力指明了方向。