每日精选AI研究论文及翻译
当代大语言模型主要通过显式文本生成(如思维链)进行"思考"训练,这种将推理推迟至训练后阶段的方式未能充分利用预训练数据。我们提出并开源了以递归符号"衔尾蛇"命名的Ouro模型系列——一种预训练的循环语言模型(LoopLM),通过以下三项创新将推理能力构建于预训练阶段:(一)潜在空间的迭代计算,(二)基于熵正则化目标的学习深度分配机制,(三)规模扩展至7.7万亿训练词元。Ouro的14亿和26亿参数模型在广泛基准测试中表现出色,其性能可媲美当前最优的120亿参数大模型。受控实验表明,这种优势并非源于知识容量的提升,而是来自更卓越的知识操纵能力。我们还证明相较于显式思维链,LoopLM生成的推理轨迹与最终输出具有更高一致性。我们的研究成果昭示了循环语言模型作为推理时代新型扩展方向的潜力。模型获取地址:http://ouro-llm.github.io。
神经代码智能的研究范畴正迅速超越基于文本的源代码,延伸至程序生成的丰富视觉输出。这一视觉维度对于灵活内容生成和精确的程序驱动可视化编辑等高级应用至关重要。然而,高质量多模态代码数据的稀缺阻碍了研究进展,这一瓶颈源于合成与质量评估的双重挑战。为应对这些挑战,我们从数据和建模两个维度做出贡献:首先提出完整的合成工具包,利用数据模态间的协同效应高效构建涵盖标准图表、复杂交互式网页界面及代码驱动动画的大规模高质量语料库。基于此工具包,我们构建了迄今最大的多模态代码语料库JanusCode-800K,并以此训练出JanusCoder与JanusCoderV系列模型,建立起支持文本指令、视觉输入或其组合生成代码的视觉-编程接口。我们的统一模型突破了现有构建孤立任务专用模型的范式,在文本主导和视觉主导的编码任务上的大量实验表明,JanusCoder系列在7B至14B参数规模下可逼近甚至超越商业模型性能。进一步的分析为协调程序逻辑与视觉表达提供了关键见解。代码与模型权重已开源于https://github.com/InternLM/JanusCoder。
近期图像推理方法(尤其是"图像思维"范式)在多模态大语言模型(MLLMs)中取得显著成功,但这一动态推理范式尚未扩展至视频推理任务。本文提出Video-Thinker框架,通过自主调用模型固有的"定位"与"描述"能力在推理过程中生成线索,使MLLMs具备视频思维能力。为激发此能力,我们构建了Video-Thinker-10K数据集,该精选数据集在思维链推理序列中呈现了自主工具使用特性。我们的训练策略首先采用监督微调(SFT)学习推理格式,继而通过分组相对策略优化(GRPO)强化推理能力。该方法使MLLMs能自主执行视频推理中的定位与描述任务,无需构建和调用外部工具。大量实验表明,Video-Thinker在领域内任务及具有挑战性的领域外视频推理基准(包括Video-Holmes、CG-Bench-Reasoning和VRBench)上均取得显著性能提升。我们的Video-Thinker-7B模型显著超越Video-R1等现有基线,在7B规模MLLMs中确立了最先进的性能水平。
本专著系统阐述了扩散模型发展的核心原理,通过追溯其理论渊源,揭示不同数学表述如何源于共同的理论基础。扩散建模首先定义前向过程——将数据逐步扰动为噪声,通过连续的中间分布将数据分布与简单先验分布相连接。其核心目标是学习逆向过程,在恢复相同中间状态的同时将噪声重构为数据。我们阐述了三种互补的视角:受变分自编码器启发的变分视角将扩散视为逐步去噪的学习过程;基于能量模型的得分匹配视角学习数据分布演化的梯度场,指示如何将样本推向高概率区域;与标准化流相关的流形视角将生成过程视为遵循平滑路径,在习得的速度场引导下将噪声样本转化为数据。这些视角共享统一的理论骨架:一个时间相关的速度场,其流变换将简单先验分布传输至数据分布。采样过程即转化为求解微分方程,使噪声沿连续轨迹演化为数据。在此基础上,专著深入探讨了可控生成指导策略、高效数值求解器,以及受扩散启发的流映射模型——该模型可学习任意时间点间的直接映射关系。本书为具备深度学习基础知识的读者提供了扩散模型的概念性框架与数理基础理解。
现实世界中的语言智能体必须能够处理跨多样应用程序的复杂多步骤工作流。例如,智能体可能需要通过协调日历和文件系统来管理电子邮件,或是根据操作手册监控生产数据库以检测异常并生成报告。然而,现有语言智能体基准测试往往聚焦于狭窄领域或简化任务,缺乏评估智能体真实世界性能所需的多样性、真实性和长程复杂性。为弥补这一空白,我们推出工具十项全能(简称Toolathlon)——一个为语言智能体提供的涵盖多样化应用程序与工具、真实环境设置及可靠执行评估的基准测试体系。Toolathlon横跨32个软件应用程序和604种工具,涵盖从Google日历、Notion等日常平台到WooCommerce、Kubernetes和BigQuery等专业工具。大部分工具基于我们修订或自行实现的高质量模型上下文协议(MCP)服务器构建。与先前主要确保功能真实性但环境状态多样性有限的研究不同,我们提供了来自真实软件的初始环境状态,例如包含数十名学生的Canvas课程系统或真实财务报表。该基准测试共包含108项手动采集或精心设计的任务,平均需要跨约20轮交互完成多应用操作。每项任务均可通过专用评估脚本进行严格验证。对前沿模型的综合评估揭示了其显著缺陷:表现最佳的Claude-4.5-Sonnet模型成功率仅为38.6%,平均调用工具20.2次;而顶级开源模型DeepSeek-V3.2-Exp的成功率为20.1%。我们期待Toolathlon能推动开发出更适用于现实世界长程任务执行的语言智能体。
基于强化学习(RL)的后训练技术对于实现大型推理模型(LRM)的多步推理能力至关重要,然而现有的奖励机制通常以结果为中心。我们提出PM4GRPO——一种具备推理感知能力的群组相对策略优化(GRPO)方法,通过在标准答案/格式奖励基础上引入针对推理过程的信号。为此,我们利用流程挖掘技术计算标量一致性奖励,用于衡量策略模型的推理过程与预训练教师模型的吻合程度。在五个基准测试上的实证结果表明,PM4GRPO显著优于现有的基于GRPO的后训练方法。这些成果证明,利用流程挖掘实现推理感知的GRPO能有效增强策略模型的推理能力。
我们提出Ming-Flash-Omni,作为Ming-Omni的升级版本,其基于Ling-Flash-2.0的稀疏混合专家(MoE)变体构建,总参数量达1000亿,其中每个令牌仅激活61亿参数。该架构实现了高效扩展(在显著提升计算效率的同时大幅扩展模型容量),并增强了跨视觉、语音和语言的统一多模态智能,标志着向通用人工智能(AGI)迈进的关键一步。相较于前代模型,升级版在多模态理解与生成方面均取得显著提升。我们大幅推进语音识别能力,在上下文语音识别(ASR)中达到顶尖水平,在方言感知ASR中亦取得极具竞争力的结果。在图像生成方面,Ming-Flash-Omni实现了高保真文本渲染,并在图像编辑的场景一致性与身份保持方面展现出明显进步。此外,该模型创新性地引入生成式分割能力,不仅具备强大的独立分割性能,还能增强图像生成的空间控制力并提升编辑一致性。值得关注的是,Ming-Flash-Omni在文本到图像生成和生成式分割任务中均达到业界最优水平,并在全部12项上下文ASR基准测试中刷新纪录,所有功能均通过单一统一架构实现。
视觉特效(VFX)对数字媒体的表现力至关重要,但其创作仍是生成式AI面临的重大挑战。主流方法通常采用"单一特效对应单一LoRA"的范式,这种模式不仅资源消耗大,且本质上无法泛化至未见过的特效,从而限制了可扩展性与创作空间。为解决这一难题,我们提出首个基于参考视频的统一框架VFXMaster,将特效生成重构为上下文学习任务,使其能够将参考视频中的多样化动态效果复现至目标内容。该框架还展现出对未知特效类别的卓越泛化能力。具体而言,我们设计了上下文条件策略,通过参考示例对模型进行提示;同时开发了上下文注意力掩码,可精准解耦并注入核心特效属性,使单一统一模型在避免信息泄露的前提下掌握特效模仿能力。此外,我们提出高效的单样本特效自适应机制,能基于用户提供的单个视频快速提升对高难度未知特效的泛化能力。大量实验表明,本方法能有效模仿多类别特效信息,并对领域外特效表现出优异的泛化性能。为推动后续研究,我们将向社区公开代码、模型及完整数据集。
近期,基于指令的图像编辑技术受到广泛关注。实际应用中,该技术通常仅修改图像的特定区域,而其余区域基本保持不变。尽管这两类区域在生成难度和计算冗余度上存在显著差异,现有模型却未考虑这种区别,而是对整个图像采用统一的生成流程。为此,我们提出RegionE——一种自适应区域感知生成框架,无需额外训练即可加速图像编辑任务。该框架包含三个核心组件:1)自适应区域划分。我们发现未编辑区域的生成轨迹呈直线状,可通过单步推理预测多步去噪结果。因此在去噪早期阶段,我们根据最终预估结果与参考图像的差异,将图像划分为编辑区与未编辑区。2)区域感知生成。区分区域后,对未编辑区域用单步预测替代多步去噪;而编辑区域的轨迹呈曲线状,需进行局部迭代去噪。为提升局部迭代生成的效率与质量,我们提出区域指令KV缓存技术,在融入全局信息的同时降低计算成本。3)自适应速度衰减缓存。通过观察发现编辑区域相邻时间步存在强速度相关性,我们进一步提出自适应速度衰减缓存机制以加速局部去噪过程。我们将RegionE应用于Step1X-Edit、FLUX.1 Kontext和Qwen-Image-Edit等前沿基础模型,分别实现了2.57倍、2.41倍和2.06倍的加速效果。GPT-4o评估证实,该方法在保持语义一致性和视觉保真度方面表现优异。
生物分子相互作用支撑着几乎所有生物过程,而其理性设计是编程新生物功能的核心。生成式AI模型已成为分子设计的有力工具,但多数仍专精于单一分子类型,且缺乏对相互作用细节的精细化控制。本文提出ODesign——一个面向全原子全类型生物分子相互作用设计的生成式世界模型。该模型允许科研人员指定任意靶标上的表位,并以精细化控制方式生成多样化的结合配体类别。在蛋白质模态的实体级、令牌级和原子级基准测试中,ODesign展现出优于特定模态基线的可控性与性能。其应用更延伸至蛋白质范畴之外,可泛化至核酸与小分子设计领域,实现了以往难以达成的相互作用类型,如蛋白质结合RNA/DNA、RNA/DNA结合配体等。通过将多模态生物分子相互作用统一于单一生成框架,ODesign朝着构建可编程通用分子世界模型迈出关键一步。该模型已在https://odesign.lglab.ac.cn 开放使用。
检索增强生成(RAG)系统在在线游戏等动态领域日益重要,但专用基准测试的缺失阻碍了该领域的标准化评估。核心难点在于双重动态性:游戏内容更新与玩家社区关注焦点迁移之间的持续相互作用。此外,自动化基准测试的需求引入了以玩家为中心的真实性这一关键要求,以确保生成的问题符合实际场景。为应对这一综合性挑战,我们提出ChronoPlay——一种用于自动持续生成游戏RAG基准测试的创新框架。该框架采用双重动态更新机制追踪两类变化,并通过融合官方资源与玩家社区数据的双源合成引擎,确保事实准确性与查询模式真实性。我们在三款不同类型的游戏上实例化该框架,构建了游戏领域首个动态RAG基准测试,为复杂现实场景下的模型性能评估提供了新视角。代码已开源:https://github.com/hly1998/ChronoPlay。
自动形式化旨在将自然语言数学问题转化为机器可验证的形式化表述,这对于利用形式化数学推理解决自然语言表述的数学问题至关重要。虽然大语言模型能够生成语法正确的形式化语句,但往往难以保持原始问题的语义意图。这一局限源于现有方法将自动形式化简单视为翻译任务,缺乏人类专家自然运用的自我反思与迭代优化机制。为解决这些问题,我们提出ReForm——一种融合语义一致性评估的反思式自动形式化方法。该方法使模型能够迭代生成形式化语句,评估语义保真度,并通过渐进优化实现自我纠错。为有效训练这一反思模型,我们提出前瞻有界序列优化算法,该算法通过在序列不同位置施加差异化奖励,确保模型既掌握准确的形式化转换,又能进行正确的语义验证,从而避免流于表面的批判性反馈破坏反思机制的本质。在四个自动形式化基准测试上的大量实验表明,ReForm相较最强基线模型平均提升17.2个百分点。为进一步确保评估可靠性,我们构建了ConsistencyCheck基准数据集,包含859个专家标注样本。该数据集不仅验证了大语言模型作为评判者的有效性,还揭示了自动形式化本身固有的难度:即使人类专家在高达38.5%的情况下也会产生语义错误。
人类拥有通过视觉、听觉等多模态观察理解空间的空间推理能力。大型多模态推理模型通过感知与推理学习扩展了这些能力,在各类空间任务中展现出卓越性能。然而针对此类模型的系统性综述与公开基准测试仍较为匮乏。本文对基于大模型的多模态空间推理任务进行全面综述,系统归类多模态大语言模型(MLLMs)的最新进展,并引入开放式评估基准。我们首先概述通用空间推理方法,重点分析后训练技术、可解释性及模型架构。除经典二维任务外,我们还探讨空间关系推理、场景与布局理解、三维空间中的视觉问答与定位,并综述具身人工智能领域的进展,包括视觉语言导航与动作模型。同时关注音频、自我中心视频等新兴模态如何通过新型传感器推动空间理解创新。本综述为该快速发展领域奠定坚实基础并提供前瞻视角。最新研究动态、代码及开放基准实现详见https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning。
大型语言模型(LLM)虽功能强大,但在实际推理应用中常因速度过慢和成本过高受限。循环变压器通过在多轮计算步骤(即“循环”)中复用相同权重来节省参数量,但该方法存在明显缺陷:循环必须顺序执行,导致每增加一个循环都会加剧推理延迟和内存需求,因而难以应用于实时场景。为解决此问题,我们提出并行循环变压器(PLT)。这一新型架构既能保持深层循环模型的高性能,又可实现标准非循环模型的低延迟特性。PLT的核心技术包含两方面:首先,跨循环并行技术(CLP)通过单次前向传播同时计算不同词元的循环,打破顺序依赖;其次,为控制内存增长,采用高效表征增强策略——将首轮循环的键值缓存共享至所有后续循环,再通过门控滑动窗口注意力(G-SWA)将共享的全局信息与局部信息融合,从而保持高精度。实验表明,PLT在达到传统循环模型精度的同时,其延迟与内存开销与标准变压器几乎持平。
我们正式发布Gaperon——一套完全开源的法国-英语-代码语言模型系列,旨在推动大规模模型训练的透明化与可复现性研究。该系列包含15亿、80亿及240亿参数模型,基于2-4万亿token训练而成,并完整公开训练全流程要素:通过神经质量分类器筛选的法英双语数据集、高效数据清洗与训练框架、以及数百个中间检查点。本研究深入探讨了数据过滤与基准污染如何共同影响模型在标准测试与文本生成中的表现。研究发现:基于语言质量的过滤能提升文本流畅度与连贯性,但会导致基准测试成绩平庸;而后期刻意引入污染数据(在包含测试集的混合数据上继续训练)既可恢复竞争力指标,又仅对生成质量产生可控影响。我们同时揭示了常规神经过滤方法可能意外加剧基准泄露的现象。为支持安全研究,我们在预训练阶段引入了无害数据投毒机制,构建了贴近现实的安全研究测试环境。通过全面公开模型、数据集、代码及检查点,Gaperon为探索多语言模型开发中数据治理、评估、安全与开放性之间的平衡关系建立了可复现的研究基准。
大型语言模型及其驱动的智能体发展迅猛、应用广泛,其评估能力已滞后于技术发展。当前主要依赖人工构建的静态基准测试来衡量模型能力,但这些测试很快会达到性能饱和。相比之下,动态基准测试能随模型进化而更新,但创建和持续维护成本高昂。为应对这些挑战,我们开发了BeTaL(基于LLM循环调优的基准测试框架),该框架运用环境设计原则实现动态基准测试的自动化构建。BeTaL通过参数化基础测试模板的关键设计选项,利用LLM在参数空间中进行推理,以经济高效的方式达成目标属性(如难度与真实性)。我们通过构建具有预期难度等级的基准测试验证该方法:使用BeTaL创建了两个新基准测试并扩展了主流智能体测试tau-bench。在三个任务及多难度级别的广泛评估中,BeTaL生成的测试难度与目标偏差率介于5.3%-13.2%,较基线方法提升2-4倍。
可验证奖励的强化学习(RLVR)已成为增强大语言模型(LLMs)推理能力的重要范式。该框架下,模型通过探索推理轨迹,并将得出正确答案的推演过程作为策略优化的正向信号。然而,这些推演可能包含答案猜测、跳跃推理等缺陷模式。此类存在缺陷的正向推演与完全正确的推演获得相同奖励,导致策略模型内化这些不可靠的推理模式。本研究首先系统分析了强化学习中缺陷正向推演的影响,发现其在优化初期能快速提升能力,但后期会因强化不可靠模式而限制推理能力发展。基于此,我们提出缺陷感知策略优化(FAPO),通过无参数奖励惩罚机制,使策略在预热阶段将缺陷正向推演作为有效捷径以保障初期稳定收益,在后期优化阶段逐步转向可靠推理。为精准全面检测缺陷正向推演,我们引入具备过程级奖励的生成式奖励模型(GenRM),可精确定位推理错误。实验表明,FAPO在多个领域均能有效提升结果正确性、过程可靠性和训练稳定性,且无需增加计算开销。
统一视觉语言模型(UVLM)需在单一架构中同时完成理解与生成任务,但这两类任务依赖异构数据和监督信号,导致其在强化学习(RL)过程中难以平衡。我们提出PairUni框架,通过将数据重组为理解-生成(UG)配对并相应调整优化目标来解决该问题。首先利用GPT-3对单任务数据进行增强:为理解样本生成描述文本,为生成样本生成问答对,从而基于同一实例构建对齐配对。此外,针对每个生成样本,我们检索语义相关的理解样本构建检索配对,关联不同但相关的数据点。这种配对结构显式呈现跨任务语义关联,支持一致性策略学习。基于此,我们提出Pair-GPRO——基于群体相对策略优化的配对感知变体,通过为每对数据分配相似度分数调节优势函数,强化对齐良好样本的学习并减少任务干扰。我们构建了包含1.6万组UG配对的高质量数据集PairUG用于RL微调,并在强基准模型Janus-Pro UVLM上评估PairUni。实验表明该方法在各种UVLM上实现均衡提升,性能优于现有UVLM强化学习基线。代码地址:https://github.com/Haochen-Wang409/PairUni
多智能体系统(MAS)的实际部署需要强大的测试时性能,这推动了引导推理时搜索并选择性分配计算资源以提升质量的方法发展。我们提出多智能体系统过程奖励模型(MASPRM),该模型通过为智能体间部分交互记录分配逐动作、逐智能体的价值,充当推理时控制器。MASPRM通过将回报传播至局部目标进行训练,无需步骤级人工标注数据,仅依赖多智能体蒙特卡洛树搜索(MCTS)推演。在推理阶段,MASPRM引导步骤级束搜索和MCTS,将计算资源聚焦于潜力分支并实现早期剪枝。在GSM8K和MATH数据集上,结合最终答案结果奖励模型(ORM)的MASPRM引导解码,将精确匹配率(EM)相较单次直通式MAS处理分别提升30.7和22.9个百分点。在GSM8K上训练的MASPRM无需重新训练即可零样本迁移至MATH任务,在相同计算预算下额外提升8.4个EM点。MASPRM作为插件式价值模型,能估计单智能体进度并兼容验证器式解码器,为实现更可靠、具备计算感知能力的多智能体推理提供支持。代码地址:https://github.com/milad1378yz/MASPRM
本文提出了一种基于强化学习的大型语言模型诊断智能体训练框架,使模型能够管理多轮诊断流程、自适应选择检查项目并做出最终诊断。与基于静态病例摘要进行指令微调的模型不同,我们的方法通过交互式探索和结果反馈来获取诊断策略。我们的贡献包括:(i)开发DiagGym诊断世界模型,该模型基于电子健康记录训练,能根据患者病史和推荐检查项目生成检查结果,为诊断训练与评估提供虚拟临床环境;(ii)通过端到端多轮强化学习训练DiagAgent,使其学习优化信息获取与诊断准确性的决策策略;(iii)构建DiagBench诊断基准数据集,包含750个具有医师验证检查建议的病例,以及99个附有973条医师撰写诊断流程标准的病例;(iv)在多样化诊断场景中展现卓越性能。DiagAgent显著超越10个前沿大语言模型(包括DeepSeek-v3和GPT-4o)及两个提示工程优化的智能体。在单轮诊断场景中,诊断准确率提升9.34%,检查推荐命中率提高44.03%;在端到端场景中,诊断准确率提升15.12%,检查推荐F1分数提高23.09%;在标准评估中,其加权评分较次优模型Claude-sonnet-4高出7.1%。这些结果表明,通过交互式临床环境学习的策略能赋予模型动态且具临床意义的诊断管理能力,这是被动训练无法实现的。
近期驾驶世界模型的技术进展实现了高质量RGB视频或多模态视频的可控生成。现有方法主要关注生成质量与可控性相关指标,却普遍忽视了对自动驾驶性能至关重要的下游感知任务的评估。当前主流训练策略通常先在合成数据上预训练、再于真实数据上微调,其训练周期达到基线方法(仅使用真实数据)的两倍。若将基线方法的训练周期同样加倍,合成数据的优势便微乎其微。为系统验证合成数据的价值,我们提出Dream4Drive——一个专为增强下游感知任务设计的新型合成数据生成框架。该框架先将输入视频解耦为多张3D感知引导图,随后将3D资源渲染至这些引导图,最终通过微调驾驶世界模型生成可用于训练下游感知模型的编辑后多视角逼真视频。Dream4Drive实现了大规模生成多视角极端场景的突破性灵活度,显著提升自动驾驶中的极端场景感知能力。为促进后续研究,我们还开源了涵盖典型驾驶场景类别的大规模3D资源数据集DriveObj3D,支持多样化的3D感知视频编辑。综合实验表明,在不同训练周期下,Dream4Drive均能有效提升下游感知模型的性能。 项目主页:https://wm-research.github.io/Dream4Drive/ 代码仓库:https://github.com/wm-research/Dream4Drive
推理大语言模型(RLLM)在解决数学、编程等复杂推理任务时已被证明相较于通用大语言模型具有竞争力。然而,RLLM的实际服务性能与行为特征仍待探索,这可能影响其在真实场景中的部署与应用。为填补这一空白,本文对RLLM服务展开全面研究。我们首先通过试点研究对比RLLM与传统LLM的服务性能,发现其服务行为存在若干显著差异:(1)内存占用显著且存在波动;(2)存在滞后请求现象;(3)运行时间具有自适应性;(4)表现出领域偏好。随后我们进一步探究现有推理优化技术对RLLM的有效性,主要结论包括:模型量化方法和推测解码技术可在较小影响RLLM精度的前提下提升系统效率,而前缀缓存、KV缓存量化等技术可能对小规模RLLM的精度或服务性能产生负面影响。最后,我们采用伽马分布模拟真实工作负载进行验证,跨数据集的实证结果与关于RLLM服务的主要发现一致。本研究旨在为学术界和工业界推进RLLM推理服务提供实践洞见。
近年来,纯文本大语言模型(如DeepSeek-R1)在推理能力上取得了显著进展。然而,当这些模型扩展到多模态任务时,仍表现出脆弱性或完全无法胜任。现有方法主要依赖单一形式的描述文本,这类描述缺乏多样性且往往难以适应不同类型的视觉问答基准测试,因此无法为细粒度视觉信息传递提供规范化或高效的通道。我们提出"Seeing Eye"模块化框架,通过基于代理的小型视觉语言模型翻译器,解锁纯文本大语言模型的多模态推理能力。该翻译器作为感知代理:可调用专用工具(如OCR和图像裁剪),并迭代式地将多模态输入蒸馏成针对问题定制的结构化中间表示。这些中间表示随后传递给作为推理代理的纯文本大语言模型。关键在于,翻译器与推理器通过多轮反馈交互,实现针对性视觉细节提取并生成更可靠的答案。在知识密集型VQA基准测试(包括MMMU和MIA-Bench)上的实验表明,Seeing Eye不仅降低了推理成本,更超越了规模更大的端到端视觉语言模型。例如,结合30亿参数视觉翻译器与80亿参数语言推理器的实例,在挑战性知识型问题上优于320亿参数的单体视觉语言模型。我们的研究结果证明,通过代理信息流将感知与推理解耦,为实现多模态推理提供了可扩展的即插即用路径,使强效的纯文本大语言模型能充分发挥其推理能力。代码已开源于:https://github.com/ulab-uiuc/SeeingEye
随着大语言模型的快速发展,领域与文化特异性评估的需求日益迫切。现有基准大多以英语为中心且缺乏领域针对性,限制了其在印度本土语境下的适用性。为弥补这一空白,我们推出首个面向关键印度知识体系的领域特异性、多任务、双语基准——BhashaBench V1。该基准包含74,166个精心构建的问答对(其中英语52,494组,印地语21,672组),数据源自主流政府考试与领域专项测试,覆盖农业、法律、金融、阿育吠陀四大核心领域,包含90余个子领域及500多个专题,支持细粒度评估。对29款大语言模型的测评显示,模型在不同领域和语言间存在显著性能差异,尤其在低资源领域表现悬殊。例如GPT-4o在法律领域总体准确率达76.49%,而在阿育吠陀领域仅为59.74%。所有领域内模型对英语内容的处理能力均优于印地语。子领域分析表明,网络法、国际金融等领域表现相对较好,而潘查卡尔马疗法、种子科学、人权等领域仍明显薄弱。BhashaBench V1为评估大语言模型在印度多元知识领域的表现提供了全面数据集,可检验模型融合领域知识与双语理解的能力。所有代码、基准及资源均已公开,以支持开放式研究。
人工智能(包括科学人工智能)的发展应遵循负责任人工智能原则。当前,负责任人工智能的进展常通过评估指标来量化,但针对这些指标自身稳健性与可靠性的研究尚显不足。本文通过审视推荐系统(作为人工智能应用范例)公平性指标稳健性的既有研究,将其核心发现凝练为一套非穷尽性指南,用于制定可靠的责任人工智能评估标准。这些指南适用于包括科学人工智能在内的广泛人工智能应用场景。
随着集中式AI触及算力瓶颈且大规模训练带来的边际效益递减,满足需求需要一个在容量与能力上均可横向扩展的推理层。本文提出Fortytwo协议——一种基于群体智能原理与分布式两两排序共识的新型协议,可在AI推理中实现卓越性能。我们的方法通过"群体推理"重构AI节点间的协作机制:利用异构模型间的同行评分、声誉加权共识来筛选最优响应。采用自定义布拉德利-特里模型进行两两排序的结果表明,群体推理显著优于多数投票法,在GPQA Diamond基准上达到85.90%准确率,相较同等模型集下多数投票法的68.69%提升17.21个百分点(相对提升约25.1%)。该协议引入链上声誉机制,使节点影响力随实际准确率动态调整,形成优胜劣汰的共识体系以过滤低质量或恶意参与者。为抵御女巫攻击,Fortytwo在共识中采用能力证明机制:节点需成功完成校准/测试请求并质押声誉值才能进入排序环节,在保持开放性的同时使多身份攻击无利可图。在GPQA Diamond、LiveCodeBench和AIME等六项挑战性基准测试中,我们的方案展现出更高准确率及对对抗性/噪声自由提示的强大鲁棒性(例如提示注入攻击下的性能衰减仅0.12%,而单体单模型基线为6.20%),同时保持实际可部署性。这些成果为去中心化AI系统奠定基础,通过集体智能实现高质量推理的民主化接入,且无需牺牲可靠性或安全性。
自回归视频扩散模型能够生成稳定且历史一致的长序列,但其无法通过未来条件信息指导当前帧生成。在基于预设相机轨迹的摄像引导视频生成中,这一缺陷会导致生成场景与轨迹发生碰撞,进而引发自回归过程的快速崩溃。为此,我们提出生成式视点缝合技术(GVS),通过并行采样整个序列确保生成场景忠实遵循预设相机轨迹的每个部分。我们的核心贡献是一种采样算法,将机器人规划领域的扩散缝合技术拓展至视频生成领域。此类缝合方法通常需专门训练的模型,而GVS兼容任何采用"扩散驱动"训练的现成视频模型——我们证明这一主流序列扩散框架已具备缝合所需的支持能力。我们还提出全向引导技术,通过联合过去与未来条件增强缝合时序一致性,并实现闭环机制以保障长程连贯性。总体而言,GVS实现的摄像引导视频生成具有稳定性、无碰撞性、帧间一致性,并能对包括奥斯卡·路特斯瓦德"不可能阶梯"在内的多种预设相机路径实现闭环生成。视频效果请参阅https://andrewsonga.github.io/gvs。
我们推出GraphNet数据集,该数据集包含2.7K个真实场景的深度学习计算图,涵盖六大任务类别并跨越多类深度学习框架,且附有丰富元数据。为评估张量编译器在这些样本上的性能,我们提出基准指标加速比得分S(t)——该指标在可调容错级别下综合考量运行时加速效果与执行正确性,为通用优化能力提供可靠度量。进一步地,我们将S(t)扩展为误差感知加速比得分ES(t),通过融入误差信息帮助编译器开发者定位关键性能瓶颈。本报告以计算机视觉(CV)和自然语言处理(NLP)样本为例,对PaddlePaddle的默认张量编译器CINN与PyTorch的TorchInductor进行基准测试,验证GraphNet的实用性。包含计算图提取与编译器评估工具的完整构建流程已开源:https://github.com/PaddlePaddle/GraphNet。
大型语言模型在心理咨询领域的应用日益受到关注。然而现有方法普遍存在情感理解缺失、策略适应性不足以及缺乏跨多轮对话的长期记忆治疗手段等问题,与真实临床实践存在较大差距。针对这些关键问题,我们提出具有战略适应性的纵向心理咨询智能体TheraMind。该系统的核心创新在于双循环架构——通过会话内循环实现战术级对话管理,跨会话循环执行战略级治疗规划,从而解构复杂咨询流程。会话内循环通过感知用户情绪状态动态选择应答策略,并借助跨会话记忆确保连续性;跨会话循环则通过评估每次咨询的治疗效果,动态调整后续干预方案,实现长期适应性。基于真实临床案例的高仿真环境测试表明,TheraMind在连贯性、灵活性和治疗协调性等多轮对话指标上显著优于现有方法,验证了双循环架构在模拟战略性、适应性纵向治疗行为方面的有效性。代码已开源:https://0mwwm0.github.io/TheraMind/。
尽管自回归建模近年来已成为视觉生成的新范式,但其实际应用受限于逐令牌生成的缓慢推理速度——单样本生成往往需要数千步计算。为解决这一难题,我们提出MC-SJD:一种基于耦合理论的无训练、无损并行解码框架,通过扩展新近提出的推测雅可比解码(SJD)来加速自回归视觉生成。虽然SJD在加速自回归生成方面展现出强大潜力,但我们发现迭代间的令牌不稳定性会显著降低接受率,这一局限主要源于草稿令牌生成过程中采用的独立采样机制。为此,我们引入信息论层面的耦合方法MC-SJD,通过最大化连续迭代间采样相同草稿令牌的概率,在保持无损特性的同时大幅提升标准SJD效率。值得注意的是,该方法仅需对现有算法进行单行修改即可实现显著性能提升:相较于标准自回归解码,图像生成速度最高提升约4.2倍,视频生成速度最高提升约13.3倍,且输出质量无损。