每日精选AI研究论文及翻译
将大语言模型称为"端到端"系统实为误称。实践中,它们依赖不可微的解码过程,需要费力地手动调整温度参数和top-p等超参数。本文提出AutoDeco新架构,通过让模型学习自主控制解码策略,实现真正的"端到端"生成。我们在标准Transformer基础上增加轻量级预测头,使其能在每个生成步骤中动态预测上下文相关的温度值与top-p参数,同时输出下一个词元的逻辑值。这种方法将解码转化为参数化的词元级过程,使模型能在单次前向传播中自主调节采样策略。 通过在八个基准测试上的大量实验,我们证明AutoDeco不仅显著优于默认解码策略,其性能甚至可比肩通过"测试集调参"得出的先知优化基线——这是任何静态方法的实际性能上限。更重要的是,我们发现了基于指令的解码控制新兴能力:模型能理解自然语言指令(如"低随机性生成"),并基于词元粒度调整预测的温度值和top-p参数,这为可引导交互式大语言模型解码开辟了新范式。
我们推出Kimi Linear混合线性注意力架构,该架构首次在公平比较下全面超越标准注意力机制,涵盖短上下文、长上下文及强化学习规模化场景。其核心是Kimi Delta Attention(KDA)——一种扩展了门控DeltaNet的表达性线性注意力模块,通过更细粒度的门控机制有效利用有限状态的RNN记忆。我们定制的分块算法采用对角加低秩(DPLR)转移矩阵的特化变体,在保持经典delta规则一致性的同时,相较通用DPLR公式显著降低计算量,实现硬件高效性。 基于KDA与多头潜注意力(MLA)的层级混合架构,我们预训练了包含30亿激活参数与480亿总参数的Kimi Linear模型。实验表明:在相同训练方案下,Kimi Linear在所有评估任务中均以明显优势超越全MLA模型,同时将KV缓存使用量降低最高75%,在100万上下文长度下实现最高6倍的解码吞吐量。这些结果证明Kimi Linear可作为标准注意力架构的高性能替代方案,在输入输出长度更长的任务中兼具卓越性能与效率。 为促进后续研究,我们开源了KDA内核与vLLM实现,并发布了预训练及指令微调的模型检查点。
我们推出Emu3.5——一个通过原生方式预测视觉与语言跨模态下一状态的大规模多模态世界模型。该模型基于包含超过10万亿token的视觉语言交织数据(主要来自互联网视频的连续帧和转录文本)进行端到端预训练,采用统一的下一标记预测目标。Emu3.5天然支持交织式视觉语言输入,并生成交织式视觉语言输出。为进一步增强多模态推理与生成能力,我们通过大规模强化学习对模型进行后训练。为提升推理效率,我们提出离散扩散适配技术(DiDA),将逐标记解码转换为双向并行预测,在保持性能的同时实现单图像推理约20倍加速。Emu3.5展现出强大的原生多模态能力,包括长程视觉语言生成、任意模态到图像(X2I)生成以及复杂文本图像生成,同时具备可泛化的世界建模能力,能够在多样化场景和任务中实现时空一致的世界探索与开放世界具身操控。在图像生成与编辑任务上,Emu3.5达到与Gemini 2.5 Flash Image(Nano Banana)相当的性能,并在交织生成任务集上表现更优。我们将Emu3.5开源发布于https://github.com/baaivision/Emu3.5 以支持社区研究。
OpenAI推出的ChatGPT Atlas模型新增了网页交互能力,使模型能够分析网页内容、处理用户意图,并在浏览器内直接执行光标与键盘输入操作。虽然其信息检索功能已得到验证,但该模型在动态交互环境中的表现仍有待探索。本研究以浏览器游戏为测试场景(包括谷歌恐龙跑酷、数独、Flappy Bird和Stein.world),对Atlas的网页交互能力进行早期评估。我们采用游戏内得分作为量化指标,衡量其在不同任务类型中的表现。结果显示:Atlas在数独等逻辑推理任务中表现优异,解题速度显著超越人类基准;但在需要精确时序和动作控制的实时游戏中表现欠佳,往往难以突破初始障碍。这表明尽管Atlas具备较强的分析处理能力,但在需要实时交互的动态网络环境中仍存在明显局限。本项目网站地址:https://atlas-game-eval.github.io。
大型语言模型(LLMs)在处理需要多步推理的问题时常常表现不佳。对于小规模开源模型而言,当正确解在多次尝试后仍难以采样时,基于可验证奖励的强化学习(RLVR)会失效,而监督微调(SFT)则容易因僵化的逐词模仿对长示范样本产生过拟合。为弥补这一缺陷,我们提出监督式强化学习(SRL),该框架将问题求解重构为生成一系列逻辑"动作"的过程。SRL训练模型在确定每个动作前先生成内部推理独白,并通过逐步比对模型动作与从SFT数据集中提取的专家动作来提供更平滑的奖励信号。这种监督机制即使在全部分支结果均错误时也能提供更丰富的学习信号,同时鼓励模型根据专家示范进行灵活推理。实验表明,SRL能使小模型学会原本无法通过SFT或RLVR掌握的复杂问题。此外,先采用SRL初始化训练再通过RLVR微调的策略可达成最佳整体性能。除推理基准测试外,SRL在智能体软件工程任务中也展现出色泛化能力,确立了其作为面向推理的LLMs的稳健且通用的训练框架地位。
虽然预训练的视觉表征已显著推动了模仿学习的发展,但这些表征通常在策略学习过程中保持固定,因而与具体任务无关。本研究探索如何利用预训练的文本到图像扩散模型,在不微调模型本身的前提下,为机器人控制任务获取自适应视觉表征。然而我们发现,直接套用在其他视觉领域卓有成效的文本条件策略,在控制任务中收效甚微甚至会产生负面效果。我们将此归因于扩散模型训练数据与机器人控制环境之间的领域差异,进而主张应采用能兼顾控制任务所需动态视觉信息的条件机制。为此,我们提出ORCA框架,通过引入可学习的任务提示符来适应控制环境,并结合捕捉帧级细粒度细节的视觉提示符。通过这种新设计的条件机制实现任务自适应表征,我们的方法在多种机器人控制基准测试中达到了最先进的性能水平,显著超越了现有方法。
构建能够跨网页、桌面和移动环境泛化的智能体仍是一个开放挑战,因为现有系统依赖特定环境接口,限制了跨平台部署能力。我们推出Surfer 2——一个纯粹基于视觉观察的统一架构,在三大环境中均实现最先进性能。该系统融合了分层上下文管理、解耦的规划与执行机制,以及具备自适应恢复能力的自我验证功能,从而在长周期任务中实现可靠操作。我们的系统在WebVoyager上达到97.1%准确率,WebArena达69.6%,OSWorld达60.1%,AndroidWorld达87.1%,无需任务特定微调即超越所有现有系统。通过多轮尝试,Surfer 2在所有基准测试中均超越人类表现。这些成果证明:系统化编排能放大基础模型能力,仅通过视觉交互即可实现通用计算机控制,同时呼吁开发新一代视觉语言模型以实现帕累托最优的成本效益。
近期视频生成模型已能产出高保真度、时序连贯的视频,这表明它们可能编码了丰富的世界知识。除了逼真合成能力外,这些模型还展现出视觉感知、建模与操控等新兴行为。然而一个重要问题依然存在:在具有挑战性的视觉推理场景中,视频模型是否已具备作为零样本推理器的能力?本研究通过实证分析全面探讨该问题,聚焦于领先的主流模型Veo-3。我们从空间、几何、物理、时序及具身逻辑等12个维度评估其推理行为,系统性地刻画其优势与失效模式。为规范研究流程,我们将评估数据整合为MME-CoF紧凑基准,支持对帧间推理链(CoF)进行深入彻底的评估。研究发现:当前视频模型在短视域空间连贯性、细粒度定位及局部一致性动态方面展现出有前景的推理模式,但在长视域因果推理、严格几何约束及抽象逻辑方面仍存在局限。总体而言,它们尚未成为可靠的独立零样本推理器,但作为专用推理模型的互补视觉引擎已显现出积极潜力。项目页面:https://video-cof.github.io
我们推出AMO-Bench——一个达到奥林匹克竞赛甚至更高难度的进阶数学推理基准,包含50道人工设计的题目。现有基准普遍采用高中数学竞赛来评估大语言模型的数学推理能力,然而由于性能饱和现象(如AIME24/25),许多现有数学竞赛对顶尖大语言模型的评估效能逐渐减弱。为此,AMO-Bench通过双重机制构建更具挑战性的测试集:所有50道题目(1)均经过专家交叉验证,确保达到国际数学奥林匹克竞赛难度标准;(2)全部为原创题目,避免数据记忆导致的性能泄露。此外,AMO-Bench每道题仅需最终答案而非证明过程,支持自动化的稳健评分。在26个大语言模型上的实验表明,即便最优模型在AMO-Bench上也仅达到52.4%的准确率,多数模型低于40%。除表现不佳外,我们进一步发现测试阶段计算量增加时存在显著的规模扩展趋势。这些结果揭示了当前大语言模型在数学推理能力上的巨大提升空间。我们开源AMO-Bench以推动语言模型推理能力的前沿研究。 https://amo-bench.github.io/
我们设想一个名为"智能体组织"的AI新时代,其中智能体通过协同并行的方式解决复杂问题,实现超越个体智能的成果。为实现这一愿景,我们引入异步思维(AsyncThink)作为大语言模型推理的新范式,将内部思考过程组织为可并发执行的结构。具体而言,我们提出一种思维协议:组织者动态分配子问题给工作单元,整合中间知识,最终生成连贯解决方案。更重要的是,该协议中的思维结构可通过强化学习进一步优化。实验表明,AsyncThink在数学推理任务上不仅准确率提升,推理延迟较并行思维降低28%。此外,AsyncThink能泛化其习得的异步思维能力,无需额外训练即可有效处理未见任务。
尽管三维人体运动生成(MoGen)技术在标准基准测试中取得进展,现有模型在泛化能力方面仍面临根本性瓶颈。相比之下,邻近的生成领域(尤其是视频生成ViGen)在人体行为建模中展现出卓越的泛化性能,这为MoGen提供了可迁移的启示。基于此,我们提出一个系统化迁移ViGen知识至MoGen的综合框架,涵盖数据、建模与评估三大支柱。首先,我们推出ViMoGen-228K大规模数据集,包含22.8万个高质量运动样本,融合了高精度光学运动捕捉数据、来自网络视频的语义标注运动以及顶尖ViGen模型生成的合成样本。该数据集同时包含文本-运动对和文本-视频-运动三元组,显著扩展了语义多样性。其次,我们提出基于流匹配的扩散Transformer模型ViMoGen,通过门控多模态条件机制统一MoCap数据与ViGen模型先验。为提升效率,我们进一步开发蒸馏变体ViMoGen-light,在保持强泛化能力的同时消除对视频生成的依赖。最后,我们提出MBench分层评估基准,支持运动质量、提示词保真度与泛化能力的细粒度评估。大量实验表明,我们的框架在自动评估与人工评估中均显著超越现有方法。代码、数据及基准将公开发布。
当前构建三维场景主要有两种主流方法:程序化生成与二维提升技术。其中基于全景图的二维提升技术展现出巨大潜力,它通过利用强大的二维生成先验知识,创造出具有沉浸感、真实感且多样化的三维环境。本研究推进该技术以生成适用于基于物理的渲染(PBR)、重光照和仿真的图形就绪型三维场景。我们的核心思路是重新定位二维生成模型,使其具备全景感知几何结构、纹理及PBR材质的能力。与现有侧重外观生成而忽略内在属性感知的二维提升方法不同,我们提出了OmniX——一个通用统一的框架。基于轻量化高效的跨模态适配器结构,OmniX将二维生成先验知识复用于全景视觉任务,涵盖全景感知、生成与补全等多个维度。此外,我们构建了大规模合成全景数据集,包含来自多样化室内外场景的高质量多模态全景样本。大量实验证明,我们的模型在全景视觉感知和图形就绪型三维场景生成方面成效显著,为沉浸式物理真实虚拟世界的生成开辟了新路径。
当前基于大规模未筛选数据集训练的文本到图像生成模型虽具备多样化的生成能力,却难以与用户偏好有效对齐。近期研究专门设计了奖励模型,通过后验选择生成图像使其符合特定奖励(通常指用户偏好)。但这种方法在丢弃信息数据的同时追求单一奖励优化,往往损害生成多样性、语义保真度及效率。为此,我们提出在训练过程中引入多奖励模型作为条件信号,使模型直接学习用户偏好。实验表明,该方法不仅显著提升生成图像的视觉质量,更大幅加速训练进程。我们提出的MIRO方法在GenEval组合基准测试及用户偏好评分(PickAScore、ImageReward、HPSv2)中均达到最先进性能。
智能眼镜等可穿戴设备正在重塑人机交互方式,使使用者能够实时获取视野内实体的相关信息。多模态检索增强生成(MM-RAG)技术在此类问答任务中发挥着关键作用,但目前该领域仍缺乏针对可穿戴场景的综合性基准测试。为填补这一空白,我们推出CRAG-MM——面向多模态多轮对话的综合RAG基准。该基准涵盖13个领域,包含6.5万组(图像、问题、答案)三元组及2000组视觉多轮对话,其中6.2万张第一视角图像专为模拟可穿戴设备采集场景设计。我们精心构建的问题集呈现真实场景挑战,涵盖五类图像质量问题、六种提问类型、差异化实体热度、动态信息变化及多轮对话深度。基准设置三大任务:单源增强、多源增强和多轮对话,每项任务均配备对应的检索知识库,并提供图像-知识图谱检索与网页检索双接口。评估数据显示,传统RAG方法在单轮和多轮问答中的事实准确率仅达32%和43%,而业界前沿解决方案表现相近(32%/45%),表明技术提升空间巨大。该基准已作为KDD Cup 2025竞赛平台,吸引近千名参赛者提交5000次方案,冠军方案将基线性能提升28%,彰显其对领域发展的前瞻性推动力。
电子健康记录(EHR)蕴含丰富但复杂的信息,其自动化分析对临床决策至关重要。尽管大语言模型(LLM)在临床工作流程中取得进展,但由于任务覆盖范围狭窄且缺乏面向EHR的推理能力,其分析EHR的能力仍受限。本文旨在弥合这一差距——我们提出EHR-Ins,一个大规模、综合性的EHR推理指令数据集,涵盖42项不同EHR任务的30万高质量推理案例与400万非推理案例。其核心创新在于思维图谱驱动的框架,可实现大规模高质量推理数据生成。基于此,我们开发了EHR-R1系列推理增强型大语言模型(参数量最高达720亿),专为EHR分析定制。通过领域适应、推理增强和强化学习三阶段训练范式,EHR-R1系统化掌握领域知识与多样化推理能力,实现精准稳健的EHR分析。最后,我们推出基于MIMIC-IV构建的新基准EHR-Bench,涵盖42项任务以全面评估EHR场景下的推理与预测能力。实验表明,EHR-R1在MIMIC-Bench上以超过30分的优势持续领先前沿商业及开源LLM(包括DeepSeek-V3和GPT-4o),在EHRSHOT上实现10%的零样本AUROC提升。EHR-Ins、EHR-R1与EHR-Bench共同推动了更可靠、更具临床相关性的EHR分析发展。
文档智能技术发展迅猛且日益受到关注。然而当前研究大多聚焦于文档布局分析(DLA),其生成式对应领域——文档布局生成仍处于探索不足的状态。主要障碍在于多样化布局数据的稀缺:现有研究多集中于曼哈顿式结构的学术论文,而报纸杂志等开放场景的文档类型严重缺乏代表性数据。为弥补这一空白,我们构建了首个百万量级多样化文档布局数据集OmniLayout-1M,涵盖六种常见文档类型,收录了来自多源的真实当代布局。针对现有方法在复杂领域表现不佳、难以连贯编排长序列的问题,我们进一步提出OmniLayout-LLM模型(参数量0.5B),创新性地采用两阶段由粗到精的学习范式:首先通过粗粒度类别定义从OmniLayout-1M学习通用布局规则,继而通过细粒度标注将知识迁移至特定领域。大量实验表明,我们的方法在M^{6}Doc数据集的多个领域均取得卓越性能,显著超越现有布局生成专家模型及多个最新通用大语言模型。相关代码、模型及数据集将全面开源。
随着大语言模型智能体(LLM agents)的发展,它们正日益代表用户在从产品发现到交易完成的经济决策中扮演中介角色。这类应用虽前景可期,却也引发了关于智能体问责制与用户价值的诸多疑问。要解答这些问题,需深入理解智能体在真实市场环境中的行为模式。然而,现有研究大多在受限场景中对智能体进行评估,例如单一任务市场(如谈判)或结构化的双智能体交互。现实市场存在本质差异:它要求智能体处理多样化的经济活动,并在由行为不透明的多智能体参与、可进行开放式对话的大型动态生态系统中实现协同。为弥合这一差距,我们研究由代表消费者的助手智能体(Assistant agents)与代表竞争商家的服务智能体(Service agents)构成的双边智能体市场。为安全研究此类交互,我们开发了Magentic-Marketplace模拟环境,使助手与服务智能体得以运行其中。该环境使我们能够研究关键市场动态:智能体实现的效用、行为偏差、受操纵的脆弱性以及搜索机制如何影响市场结果。实验表明,前沿模型仅能在理想搜索条件下接近最优福利水平。随着规模扩大,性能急剧下降,且所有模型均表现出严重的"首提案偏好",导致响应速度的收益达到质量收益的10-30倍。这些发现揭示了不同市场条件下行为模式的涌现机制,为设计公平高效的智能体市场提供了重要参考。
基于部件的三维生成技术具有广泛的应用前景。现有部件生成方法中,采用隐式向量集表征的方式常因几何细节不足而受限;另一类采用显式体素表征的方法虽共享全局体素网格,却导致细小部件所占体素过少而质量下降。本文提出创新框架FullPart,融合隐式与显式范式的优势:首先通过隐式边界框向量集扩散过程生成布局(该任务适合隐式扩散处理,因边界框标记仅含少量几何信息),随后在各部件独立的固定全分辨率体素网格中生成细节部件。相较于共享低分辨率空间的方法,本框架即使对微小部件也采用全分辨率生成,从而实现精细细节的合成。针对不同尺寸部件间信息交互的错位问题,我们进一步提出中心点编码策略以保持全局一致性。此外,为缓解可靠部件数据匮乏的现状,我们构建了迄今最大规模的人工标注三维部件数据集PartVerse-XL,包含4万个物体与32万个部件。大量实验表明,FullPart在三维部件生成任务上达到了最先进的性能水平。我们将公开全部代码、数据与模型,以促进三维部件生成领域的后续研究。
大型多模态模型(LMMs)在解答需要结合图像与文本进行联合推理的医学问题方面能力日益增强,但缺乏大规模、可公开使用的高质量语料库阻碍了通用医学视觉问答系统的训练。我们提出MedVLSynther——一个基于规则指导的生成-验证框架,该框架通过关联生物医学公开文献中的图表、标题及文内引用,直接生成高质量的多选题式视觉问答项目。生成器按照机器可校验的JSON规范产出自含式题干及并行互斥的选项;多阶段验证器在接收问题前执行关键审核(自含性、单一正确答案、临床有效性、图文一致性),授予细粒度正向评分,并对常见错误模式进行扣分处理。将该流程应用于PubMed Central数据库后,我们得到MedSynVQA数据集:包含13,087道经过审核的问题,涉及14,803张图像,覆盖13种影像模态和28个解剖区域。使用可验证奖励通过强化学习训练开放权重的LMMs,在六项医学VQA基准测试中准确率全面提升,3B和7B模型分别达到55.85和58.15的平均分,其中VQA-RAD最高达77.57分,PathVQA达67.76分,优于现有主流医学LMMs。消融实验证实生成与验证环节均不可或缺,更多验证数据持续带来性能提升;针对性污染分析未检测到评估集泄露。通过完全基于公开文献和开放权重模型运作,MedVLSynther为可扩展的医学VQA训练数据提供了一条可审计、可复现且保护隐私的技术路径。
人工智能在知识与推理的研究型基准测试中取得了飞速进展,但这些进步如何转化为经济价值和自动化能力仍不明确。为量化这一转化效果,我们推出远程劳动指数(RLI)——一个跨越多领域的综合基准,包含具有现实经济价值的真实项目,旨在评估实际场景中端到端智能体的性能表现。当前AI智能体在RLI上的表现接近基准下限,表现最佳者的自动化率仅为2.5%。这些研究结果为AI自动化讨论提供了实证基础,建立了追踪AI影响的统一标尺,助力相关方前瞻性应对AI驱动的劳动力自动化变革。
本研究探讨小规模语言模型能否从指令微调中获益。我们对比了对话型与问答型指令微调数据集在合并式与序列式课程学习策略下的效果,实验基于1亿和1.4亿参数的仅解码器模型。评估涵盖微调(SuperGLUE)与零样本(BLiMP、EWoK、WUGs、实体追踪及心理语言学相关性)双重场景。结果表明:指令微调在微调场景中能带来虽小但稳定的性能提升,其中序列课程策略优于合并数据;然而这种改进不能稳定迁移至零样本任务,暗示了交互导向的适应性与广泛语言泛化能力之间存在权衡。这些发现既揭示了将人类启发式学习策略应用于低资源语言模型的潜力,也凸显了其局限性,同时为在生态化训练限制下通过混合式课程学习提升泛化能力指明了方向。
当前基于工具调用的大型语言模型(LLM)通常在静态数据集上训练,使其能够与外部工具交互并执行多步骤、工具集成的推理,从而生成工具调用轨迹。然而,这些模型仅模仿通用工具调用流程中查询的解决方式,未能探索可能的解决方案,在动态演变的工具调用环境中表现受限。本文提出PORTool——一种强化学习方法,通过激励工具调用型LLM探索多种能产生正确答案的轨迹。具体而言,该方法首先生成针对给定查询的多个执行轨迹,其中部分轨迹共享前几个工具调用步骤,从而形成树状结构。随后,根据每个步骤生成正确答案的能力及成功调用工具的表现分配奖励。不同轨迹间的共享步骤获得相同奖励,而同一分支下的不同步骤则获得差异化奖励。最后,这些逐步骤奖励被用于计算分支相对优势值,并与轨迹相对优势值融合,从而训练LLM的工具调用能力。实验使用17种工具处理用户查询,涵盖时间敏感型与时间无关型主题。我们通过消融研究系统验证了逐步骤奖励的必要性及设计鲁棒性,并将PORTool与其他训练方法对比,在最终准确率和工具调用步骤数方面均展现出显著提升。
大型语言模型(LLM)在自然语言理解与生成任务中展现出顶尖性能。然而,将领先的商业模型部署于电商等专业领域时,常因高计算成本、延迟及运营开支而受阻。本文探究了参数规模更小的开放权重模型作为资源高效替代方案的可行性。我们提出了一套针对十亿参数级Llama 3.2模型进行多语言电商意图识别优化的方法论:首先采用量化低秩自适应(QLoRA)技术,在模拟真实用户查询的合成数据集上进行微调;随后应用训练后量化技术,生成GPU优化(GPTQ)与CPU优化(GGUF)版本。实验结果表明,专用化的1B参数模型达到99%准确率,与规模显著更大的GPT-4.1模型性能持平。详细性能分析揭示了硬件依赖的关键权衡:4比特GPTQ虽降低41%显存占用,但在老旧GPU架构(英伟达T4)上因反量化开销反而使推理速度降低82%;相较之下,CPU端GGUF格式相比FP16基线实现了18倍推理吞吐量提升与90%以上的内存消耗削减。我们得出结论:经过恰当优化的轻量级开放权重模型不仅是可行的领域专用替代方案,更是更优选择,能以极低计算成本实现顶尖精度。
自我提升已成为增强大型视觉语言模型推理能力的主流范式,该过程中模型通过迭代探索并学习成功轨迹。然而我们发现这一过程中的关键问题:模型擅长为简单查询(即头部数据)生成高质量轨迹,却在处理复杂查询(即尾部数据)时表现不佳。这种不平衡优化导致模型倾向于优先掌握简单推理技能,而应对复杂推理任务的能力发展受阻。随着迭代次数的增加,这种失衡现象日益显著——我们称之为“马太效应”——最终阻碍模型的持续改进并引发性能瓶颈。为应对此挑战,我们提出分布重塑与轨迹重采样双视角下的四种高效策略,在探索式学习的自我提升过程中实现头尾数据的动态再平衡。基于Qwen2-VL-7B-Instruct和InternVL2.5-4B模型在视觉推理任务上的大量实验表明,我们的方法能持续提升视觉推理能力,相比原始自我提升范式平均提升3.86个指标点。
大语言模型已在各类自然语言任务中展现出卓越的推理能力,但在科学发现领域的可比性突破仍较为有限,因为理解复杂物理现象需要远超纯语言的多维度表征。以MOF(金属有机框架)这类功能材料的设计为例——其对碳捕集、储氢等重要应用至关重要。由于存在海量可能的三维原子排列方式,且需严格遵循配位几何与拓扑的网状规则,在LLMs可解读的语言化表征中导航其庞大而复杂的设计空间极具挑战性。尽管LLM在辅助简单材料系统发现方面已取得早期成果,MOF设计仍高度依赖难以仅通过文本信息编码的隐性人类专家经验。为突破此限制,我们提出首个MOF多模态大模型L2M3OF。该模型通过融合晶体表征学习与语言理解,可联合处理结构、文本与知识模态。L2M3OF采用预训练晶体编码器与轻量级投影层,将结构信息压缩至令牌空间,实现与语言指令的高效对齐。为促进训练与评估,我们构建了晶体材料的结构-属性-知识数据库,并在属性预测与知识生成任务中,将L2M3OF与GPT-5、Gemini-2.5-Pro、DeepSeek-R1等顶尖闭源大模型进行基准测试。实验表明,尽管参数量显著减少,L2M3OF在多项任务中仍优于领先的纯文本闭源模型。这些成果凸显了多模态方法在理解多孔材料中的重要性,并为新一代材料发现人工智能系统奠定了基石。
设计具有底物特异性功能的酶骨架是计算蛋白质工程中的关键挑战。当前生成模型在蛋白质设计方面表现出色,但在结合数据、底物特异性控制以及从头生成酶骨架的灵活性方面存在局限。为此,我们推出了包含11,100个实验验证酶-底物对的EnzyBind数据集,该数据集专门从PDBbind中筛选整理而成。在此基础上,我们提出EnzyControl方法,实现酶骨架生成过程中的功能性与底物特异性控制。该方法通过从整理的酶-底物数据中自动提取MSA注释的催化位点及其对应底物作为条件,生成酶骨架结构。EnzyControl的核心是集成于预训练基序支架模型的EnzyAdapter模块,这个轻量级可插拔组件使模型具备底物识别能力。采用两阶段训练范式进一步优化模型生成精确功能性酶结构的能力。实验表明,我们的EnzyControl在EnzyBind和EnzyBench基准测试的结构与功能指标上均取得最优性能,其中可设计性指标提升13%,催化效率较基线模型提高13%。代码已发布于https://github.com/Vecteur-libre/EnzyControl。
近期口语处理技术的突破性进展,显著提升了自动语音识别(ASR)、音素识别(PR)、字形-音素转换(G2P)及音素-字形转换(P2G)等语音任务的性能。尽管这些任务在概念上具有相似性,但现有研究大多孤立进行,各自依赖特定架构与数据集。本文提出POWSM(语音开放式Whisper风格模型),这是首个能协同执行多种音素相关任务的统一框架。该框架实现了音频、文本(字形)与音素间的无缝转换,为通用化及低资源语音处理开辟了新路径。实验表明,在保持相似模型规模的前提下,POWSM性能优于或匹配专用PR模型(Wav2Vec2Phoneme与ZIPA),同时兼具G2P、P2G与ASR功能。为促进开放科学,我们已公开训练数据、代码及模型。
利用街景和卫星影像等公开的大规模网络数据,城市社会经济感知对实现全球可持续发展目标具有至关重要的意义。随着大视觉语言模型(LVLMs)的出现,通过将此类任务视为多模态感知与理解问题,为解决该任务带来了新的机遇。然而近期研究表明,LVLMs在基于视觉数据实现精准可解释的社会经济预测方面仍存在困难。为突破这些局限并最大化LVLMs的潜力,我们提出CityRiSE创新框架——通过纯强化学习(RL)实现大视觉语言模型的城市社会经济状况推理。借助精心构建的多模态数据和可验证的奖励设计,我们的方法引导LVLM聚焦于具有语义意义的视觉线索,从而实现面向通用社会经济状况预测的结构化目标导向推理。实验表明,具有涌现推理能力的CityRiSE显著优于现有基线模型,在预测精度和跨城市泛化能力(特别是对未见城市和未测指标的预测)方面均实现提升。这项工作彰显了强化学习与大视觉语言模型相结合在可解释通用化城市社会经济感知领域的应用前景。
图表在可视化呈现、逻辑推理、数据分析和人类思想交流中具有重要作用。然而,现有视觉语言模型在图表细节感知和细粒度结构提取方面仍存在不足。这种图表基础理解能力的局限也阻碍了模型进行多图表对比与推理的能力。本文提出新型"ChartAlign基准(ChartAB)",通过涵盖多种类型和复杂度的图表,对视觉语言模型的表格数据提取、可视化元素定位和多元属性识别等基础任务进行系统性评估。我们设计了JSON模板以适配各项基础任务的定制化评估指标计算。通过引入两阶段推理机制,该基准还能进一步评估模型在跨图表元素/属性对齐与对比方面的能力。基于对多个前沿视觉语言模型的评估分析,我们揭示了其在图表理解任务中存在的感知偏差、薄弱环节、鲁棒性问题和幻觉现象等新发现。这些发现不仅凸显了不同模型在图表理解任务中的细粒度差异,更为当前模型需要加强的具体能力指明了方向。