每日精选AI研究论文及翻译
科学大语言模型(Sci-LLMs)正在革新科学研究中知识的表示、整合与应用方式,然而其发展进程深受科学数据复杂性的影响。本综述提出了一种以数据为核心的综合框架,将Sci-LLMs的发展重新定义为模型与其底层数据基质之间的协同进化。我们构建了科学数据的统一分类体系与科学知识的分层模型,着重强调了科学语料库相较于通用自然语言处理数据集所特有的多模态、跨尺度及领域特异性挑战。系统回顾了从通用基础模型到跨学科专用模型的最新Sci-LLMs进展,并深入分析了超过270个预训练/后训练数据集,揭示了为何Sci-LLMs对数据提出独特要求——即需要处理异质、多尺度、充满不确定性的语料,同时要求表征能保持领域不变性并支持跨模态推理。在评估方面,我们考察了逾190个基准数据集,追踪了从静态测试向过程导向与发现导向评估的转变,这些评估采用了先进的评测协议。这些以数据为中心的分析凸显了科学数据开发中的持续问题,并探讨了涉及半自动化标注流程与专家验证的新兴解决方案。最后,我们勾勒出一个向闭环系统转变的范式,其中基于Sci-LLMs的自主代理能够主动实验、验证,并贡献于一个活态、进化的知识库。总体而言,本研究为构建可信赖、持续进化的人工智能(AI)系统提供了路线图,这些系统将成为加速科学发现的真正合作伙伴。
具备逐步思考能力的多模态大语言模型(MLLMs)在复杂推理问题上展现了卓越的性能。然而,对于无需复杂推理即可解决的简单问题,这一思考过程显得冗余。为解决这一效率问题,我们提出了R-4B,一种具备自动思考能力的MLLM,它能够根据问题复杂度自适应地决定是否启动思考过程。R-4B的核心思想是通过双模式退火赋予模型思考与非思考两种能力,并应用双模式策略优化(BPO)来提升模型在判断是否激活思考过程时的准确性。具体而言,我们首先在精心策划的跨主题数据集上训练模型,该数据集包含思考与非思考两种模式的样本。随后,模型在改进的GRPO框架下进行第二阶段训练,其中策略模型被强制为每个输入查询生成两种模式的响应。实验结果表明,R-4B在25个具有挑战性的基准测试中达到了最先进的性能。在多数任务上,它超越了Qwen2.5-VL-7B,并在推理密集型基准测试上以更低的计算成本实现了与更大模型如Kimi-VL-A3B-Thinking-2506(16B)相当的性能。
人类在开放世界中无缝执行多模态推理与物理交互的能力,是通用型具身智能系统的核心目标。近期,通过大规模机器人及视觉-文本数据联合训练的视觉-语言-动作(VLA)模型,在通用机器人控制方面取得了显著进展。然而,这些模型在交替推理与交互方面仍未能达到人类水平的灵活性。本研究中,我们推出了EO-Robotics,包含EO-1模型与EO-Data1.5M数据集。EO-1是一个统一的具身基础模型,通过交替的视觉-文本-动作预训练,在多模态具身推理与机器人控制上实现了卓越性能。EO-1的开发基于两大支柱:(i) 一个统一架构,无差别处理多模态输入(图像、文本、视频及动作),以及(ii) 一个大规模、高质量的多模态具身推理数据集EO-Data1.5M,该数据集包含超过150万样本,着重于交替视觉-文本-动作理解。EO-1通过在EO-Data1.5M上结合自回归解码与流匹配去噪的协同训练,实现了无缝机器人动作生成与多模态具身推理。大量实验验证了交替视觉-文本-动作学习在开放世界理解与泛化中的有效性,并通过多种长时程、精细操作任务在多个具身体现上得到了验证。本文详细阐述了EO-1的架构、EO-Data1.5M的数据构建策略及训练方法,为开发先进的具身基础模型提供了宝贵洞见。
规模定律已证实了在大数据训练下,模型在文本、图像及视频领域的创造性生成中所取得的成功与潜力。然而,这一范式在三维领域面临数据稀缺的挑战,因为相较于上述模态,互联网上可用的三维数据量远为有限。幸运的是,存在大量视频,它们天然蕴含常识先验,为缓解因原生三维数据有限导致的泛化瓶颈提供了替代的监督信号。一方面,捕捉物体或场景多视角的视频为三维生成提供了空间一致性先验;另一方面,视频中丰富的语义信息使得生成内容更忠实于文本提示且语义上更为合理。本文探讨了如何将视频模态应用于三维资产生成,从数据集到模型全方位展开。我们推出了Droplet3D-4M,首个带有多视图级别标注的大规模视频数据集,并训练了Droplet3D,一个支持图像及密集文本输入的生成模型。大量实验验证了我们方法的有效性,展示了其生成空间一致且语义合理内容的能力。此外,与主流的三维解决方案相比,我们的方法展现出向场景级应用扩展的潜力,这表明视频中的常识先验极大地促进了三维创作。我们已开源所有资源,包括数据集、代码、技术框架及模型权重:https://dropletx.github.io/。
随着大型语言模型(LLMs)在软件工程中的日益普及,对其生成代码进行严格的安全评估变得至关重要。然而,现有基准测试存在不足,它们仅关注孤立的代码片段,采用缺乏可重复性的不稳定评估方法,且未能将输入上下文的质量与输出安全性联系起来。为填补这些空白,我们引入了A.S.E(AI代码生成安全评估),一个针对仓库级安全代码生成的基准测试。A.S.E从记录有CVE的真实仓库中构建任务,保留如构建系统和跨文件依赖等完整的仓库上下文。其可重复、容器化的评估框架利用专家定义的规则,提供稳定、可审计的安全性、构建质量和生成稳定性评估。我们在A.S.E上对领先的LLMs进行评估,揭示了三个关键发现:(1) Claude-3.7-Sonnet整体表现最佳。(2) 专有模型与开源模型之间的安全差距较小;Qwen3-235B-A22B-Instruct获得最高安全评分。(3) 简洁、“快速思考”的解码策略在安全补丁方面始终优于复杂、“慢速思考”的推理方法。
大型语言模型(LLMs)在数学和编程等复杂推理任务中表现出色,却常常难以完成儿童轻而易举就能胜任的简单互动任务。这一差异凸显了陈述性知识(知道某事)与程序性知识(知道如何做某事)之间的关键鸿沟。尽管传统的强化学习(RL)智能体能够通过环境交互获取程序性知识,但它们往往作为黑箱运作,且需要大量训练数据。相比之下,LLMs拥有广泛的世界知识和推理能力,却无法有效将这些静态知识转化为互动环境中的动态决策。为解决这一难题,我们提出了“游戏中思考”(Think in Games, TiG)这一创新框架,使LLMs能够通过与游戏环境的直接互动发展程序性理解,同时保留其固有的推理和解释能力。具体而言,TiG将基于RL的决策重构为语言建模任务:LLMs生成语言引导的策略,并通过基于环境反馈的在线强化学习进行迭代优化。实验结果表明,TiG成功弥合了陈述性与程序性知识之间的差距,在数据需求和计算成本显著低于传统RL方法的情况下,实现了与之相当的性能。此外,TiG为其决策提供了逐步的自然语言解释,极大地提升了复杂互动任务中的透明度和可解释性。
音频驱动的说话头合成技术已实现了显著的逼真效果,然而,当前最先进的模型却暴露出一大缺陷:它们无法全面泛化至人类在种族、语言和年龄群体上的多样性。我们认为,这一泛化差距直接反映了现有训练数据在规模、质量和多样性方面的局限性。为解决这一挑战,我们推出了TalkVid,这是一个大规模、高质量且多样化的数据集,包含来自7729位独特发言者的1244小时视频。TalkVid通过一个原则性、多阶段的自动化流程精心筛选,严格把控动作稳定性、美学质量及面部细节,并通过人工验证确保其可靠性。此外,我们构建并发布了TalkVid-Bench,这是一个分层评估集,包含500个片段,在关键人口统计和语言维度上精心平衡。实验表明,基于TalkVid训练的模型优于以往数据集训练的模型,展现出更优的跨数据集泛化能力。重要的是,我们在TalkVid-Bench上的分析揭示了传统聚合指标所掩盖的子群体间性能差异,强调了其在未来研究中的必要性。代码与数据可在https://github.com/FreedomIntelligence/TalkVid获取。
语言模型预训练中使用的数据混合策略是其最终性能的基石。然而,静态的混合策略并非最优,因为模型对不同数据领域的学习偏好会在训练过程中动态变化。关键在于,如何以计算高效的方式观察这些不断演变的偏好仍是一个重大挑战。为此,我们提出了TiKMiX方法,它根据模型不断变化的偏好动态调整数据混合比例。TiKMiX引入了“群体影响力”这一高效指标,用于评估数据领域对模型的影响。该指标使得数据混合问题转化为寻找最优、影响力最大化的分布。我们通过两种方法解决这一问题:TiKMiX-D用于直接优化,而TiKMiX-M则利用回归模型预测更优的混合比例。我们在多达1万亿个token的数据上训练了不同参数规模的模型。TiKMiX-D在仅使用20%计算资源的情况下,性能超越了REGMIX等最先进方法。TiKMiX-M在9个下游基准测试中平均带来了2%的性能提升。我们的实验表明,模型的数据偏好随训练进度和规模而演变,并且我们证明了基于“群体影响力”——这些偏好的直接度量——动态调整数据混合比例,通过缓解静态比例下数据消化不足的问题,显著提升了性能。
jina-code-embeddings 是一套创新的代码嵌入模型系列,旨在通过自然语言查询检索代码、执行技术问答以及跨编程语言识别语义相似的代码片段。该模型创新性地采用了在文本和代码上预训练的自回归主干网络,并通过最后词元池化生成嵌入向量。我们详细阐述了训练方案,并展示了尽管模型规模相对较小,仍能实现业界领先的性能,从而验证了这种代码嵌入模型构建方法的有效性。
GUI智能体旨在实现移动/PC设备上的自动化操作,这是迈向通用人工智能的重要任务。视觉语言模型(VLM)的快速发展加速了GUI智能体的开发,得益于其在视觉理解和任务规划方面的强大能力。然而,构建GUI智能体仍面临诸多挑战,包括操作轨迹的稀缺、交互基础设施的可用性以及基础模型初始能力的局限性。在本研究中,我们推出了UItron,一个开源的自动GUI智能体基础模型,具备先进的GUI感知、定位和规划能力。UItron强调了系统性数据工程和交互基础设施作为推动GUI智能体发展的基础组件的重要性。它不仅系统研究了一系列数据工程策略以提升训练效果,还建立了一个连接移动和PC设备的交互环境。在训练过程中,UItron采用监督微调方法处理多种GUI场景下的感知与规划任务,随后开发了一套课程强化学习框架,以实现在线环境中的复杂推理与探索。因此,UItron在GUI感知、定位和规划的基准测试中表现卓越。特别地,UItron在与顶级中文移动应用的交互熟练度上表现突出,因为我们发现即便是最先进的解决方案也普遍缺乏中文处理能力。为此,我们手动收集了超过一百万步的操作轨迹,覆盖了最受欢迎的100款应用,并构建了离线与在线智能体评估环境。实验结果表明,UItron在中文应用场景中取得了显著进展,推动GUI智能体向实际应用迈进了一大步。
音频-语言模型(ALMs)——这类多模态模型以交替的音频和文本作为输入并输出文本——的评估因缺乏标准化基准而受阻;大多数基准仅衡量一两种能力,且忽略了如公平性或安全性等评估维度。此外,跨模型比较困难,因为独立的评估测试模型数量有限,且采用不同的提示方法和推理参数。为弥补这些不足,我们推出了AHELM基准,它整合了多种数据集,包括两个新的合成音频-文本数据集PARADE(用于评估ALMs避免刻板印象的能力)和CoRe-Bench(通过多轮推理问答来衡量对话音频的理解能力),以全面衡量ALMs在10个我们认为对ALMs开发和使用至关重要的方面的表现:音频感知、知识、推理、情感检测、偏见、公平性、多语言性、鲁棒性、毒性和安全性。我们还标准化了提示、推理参数和评估指标,以确保模型间的公平比较。我们测试了来自3家开发者的14个开放权重和封闭API的ALMs,以及3个额外的基础系统,每个系统由自动语音识别器和语言模型组成。结果显示,尽管Gemini 2.5 Pro在10个方面中的5个方面排名第一,但在ASR任务上表现出群体不公平性(p=0.01),而其他大多数模型则无此问题。我们还发现,基础系统在AHELM上表现相当不错,其中一个仅具备语音转文本功能的系统总体排名第五。为保持透明度,所有原始提示、模型生成和输出均可在我们的网站https://crfm.stanford.edu/helm/audio/v1.0.0上获取。AHELM旨在成为一个持续更新的基准,未来将不断添加新的数据集和模型。
近期,将强化学习(RL)应用于大规模语言模型(LLMs)的研究取得了显著进展。特别是,一系列引人注目却又常常反直觉的现象在LLMs中被报道,这些现象在传统RL环境中并不常见。例如,有研究声称单个训练样本即可达到使用整个数据集所获得的性能,奖励信号无需非常精确,以及仅使用负样本进行训练便可媲美甚至超越复杂的基于奖励的方法。然而,这些观察结果成立的确切条件——尤其是它们何时失效——仍不明确。在本研究中,我们识别出一个区分RL观察结果的关键因素:预训练模型是否已展现出强大的模型-任务对齐性,这通过评估任务上的pass@k准确率来衡量。通过对一系列反直觉主张进行系统而全面的检验,并辅以跨不同模型架构和任务领域的严格实验验证,我们的发现表明,尽管标准RL训练在各种设置下始终表现出稳健性,但许多这些反直觉结果仅在模型与任务已具备强模型-任务对齐性时才会出现。相比之下,在更具挑战性的情境下,这些技术未能推动显著的学习,而标准RL方法依然有效。
对称性是计算机视觉中最基础的几何线索之一,其检测一直是一项持续的挑战。随着视觉-语言模型(如CLIP)的最新进展,我们探讨了预训练的CLIP模型是否能够通过利用自然图像描述中的额外对称线索来辅助对称检测。我们提出了CLIPSym,它结合了CLIP的图像与语言编码器,以及一个基于Transformer与G-卷积混合架构的旋转等变解码器,用于检测旋转与反射对称性。为了充分利用CLIP的语言编码器,我们开发了一种新颖的提示技术——语义感知提示分组(SAPG),该技术通过聚合一组多样化的常见物体基础提示,更好地整合语义线索以进行对称检测。实验表明,CLIPSym在三个标准对称检测数据集(DENDI、SDRW和LDRS)上均超越了当前的最先进方法。最后,我们进行了详细的消融实验,验证了CLIP预训练、所提出的等变解码器及SAPG技术的优势。代码已发布于https://github.com/timyoung2333/CLIPSym。
用户界面(UI)代理有望为盲人和低视力(BLV)用户简化难以访问或复杂的UI操作。然而,当前的UI代理通常以端到端的方式执行任务,未让用户参与关键决策或使其了解重要的上下文信息,从而削弱了用户的自主性。例如,在我们的实地研究中,一位BLV参与者要求购买最便宜的起泡水,代理自动从多个价格相同的选项中挑选了一款,却未提及其他口味不同或评分更高的替代产品。为解决这一问题,我们推出了Morae,这是一种UI代理,它能在任务执行过程中自动识别决策点并暂停,以便用户做出选择。Morae利用大型多模态模型解析用户查询、UI代码及屏幕截图,并在需要做出选择时提示用户进行澄清。在一项针对BLV参与者进行的真实网页任务研究中,与包括OpenAI Operator在内的基线代理相比,Morae帮助用户完成了更多任务,并选择了更符合其偏好的选项。更广泛而言,这项工作展示了一种混合主动性的方法,用户既能享受UI代理的自动化便利,又能表达个人偏好。
从现实世界的观测数据中自动发现物理定律是人工智能领域的一项重大挑战。现有方法依赖于符号回归或大语言模型(LLMs),仅限于单模态数据,忽视了物理学家不可或缺的丰富视觉运动现象表征。这种“感官剥夺”严重削弱了它们解释动态现象中固有时空模式的能力。为弥补这一不足,我们提出了VIPER-R1,一个多模态模型,通过视觉归纳进行基于物理的方程推理,以发现基础符号公式。该模型整合了视觉感知、轨迹数据和符号推理,模拟科学发现过程。模型通过运动结构归纳(MSI)课程进行训练,利用监督微调解释运动学相图,并构建由因果思维链(C-CoT)引导的假设,随后通过奖励引导的符号校准(RGSC)利用强化学习优化公式结构。在推理阶段,训练后的VIPER-R1充当代理:首先提出一个高置信度的符号假设,然后主动调用外部符号回归工具执行符号残差重对齐(SR^2)。这一最终步骤类似于物理学家的扰动分析,将理论模型与经验数据相协调。为支持此项研究,我们引入了PhysSymbol,一个包含5,000个实例的新多模态语料库。实验表明,VIPER-R1在准确性和可解释性上持续超越最先进的视觉语言模型(VLM)基线,实现了更精确的物理定律发现。项目页面:https://jiaaqiliu.github.io/VIPER-R1/
回声状态网络(Echo State Networks, ESNs)是储层计算(Reservoir Computing, RC)框架下一种特定类型的未经训练循环神经网络(Recurrent Neural Networks, RNNs),因其快速高效的学习能力而广受欢迎。然而,传统ESN在处理长期信息时往往表现欠佳。本文提出了一种基于时间残差连接的新型深度未经训练RNN,称为深度残差回声状态网络(Deep Residual Echo State Networks, DeepResESNs)。研究表明,利用多层未经训练的残差循环层显著提升了记忆容量和长期时间建模能力。针对时间残差连接,我们探讨了不同的正交配置,包括随机生成和固定结构的配置,并研究了它们对网络动态的影响。通过深入的数学分析,我们明确了确保DeepResESN内部动态稳定的必要和充分条件。在多种时间序列任务上的实验验证了所提方法相较于传统浅层及深层RC的优势。
利用人体运动数据赋予机器人多样化操作技能,已成为机器人操控领域的一个极具前景的研究范式。然而,将多源人手运动转化为可行的机器人行为仍面临挑战,尤其是对于配备多指灵巧手的机器人而言,其动作空间复杂且高维。此外,现有方法往往难以生成能够适应多种环境条件的策略。本文提出HERMES,一个面向移动双手机器人灵巧操作的人机学习框架。首先,HERMES构建了一个统一的强化学习方法,能够无缝地将来自多源的异构人手运动转化为物理上合理的机器人行为。随后,为缩小仿真与现实的差距,我们设计了一种基于深度图像的端到端仿真到现实迁移方法,以提升对现实场景的泛化能力。再者,为了实现在多变且非结构化环境中的自主操作,我们在导航基础模型中融入了闭环的透视n点(PnP)定位机制,确保视觉目标的精确对齐,有效桥接自主导航与灵巧操作。大量实验结果表明,HERMES在多样化的实际场景中展现出良好的行为泛化能力,成功完成了多项复杂的移动双手灵巧操作任务。项目页面:https://gemcollector.github.io/HERMES/。
后训练量化(PTQ)对于在资源受限设备上部署高效的目标检测模型(如YOLO)至关重要。然而,降低精度对模型在面对现实世界输入退化(如噪声、模糊和压缩伪影)时的鲁棒性影响是一个重要问题。本文通过一项全面的实证研究,评估了YOLO模型(从nano到extra-large规模)在多种精度格式下的鲁棒性:FP32、FP16(TensorRT)、动态UINT8(ONNX)和静态INT8(TensorRT)。我们提出并评估了一种针对静态INT8 PTQ的退化感知校准策略,其中TensorRT校准过程暴露于混合了干净图像和合成退化图像的样本中。模型在COCO数据集上进行了基准测试,涵盖了七种不同的退化条件(包括各种类型和程度的噪声、模糊、低对比度及JPEG压缩)以及一种混合退化场景。结果表明,尽管静态INT8 TensorRT引擎在干净数据上提供了显著的加速(约1.5-3.3倍)且准确率下降适中(约3-7% mAP50-95),但所提出的退化感知校准在大多数模型和退化情况下并未带来一致且广泛的鲁棒性提升,相较于标准的干净数据校准。一个显著的例外是在特定噪声条件下,较大规模的模型表现出了改进,这表明模型容量可能影响此校准方法的有效性。这些发现凸显了增强PTQ鲁棒性的挑战,并为在非受控环境中部署量化检测器提供了洞见。所有代码和评估表格均可在https://github.com/AllanK24/QRID获取。
每年,大多数教育机构都会从学生那里收集到大量关于课程、教学及整体体验的文本反馈。然而,将这些原始反馈转化为有价值的洞见远非易事。由于教育评论文本内容的复杂性和细粒度报告需求,长期以来,采用自动意见挖掘解决方案一直面临挑战。基于方面的情感分析(ABSA)凭借其丰富的子句级意见挖掘能力,提供了一个颇具前景的解决方案。然而,现有的ABSA研究和资源高度集中于商业领域,在教育领域则因公开数据集有限和数据保护严格而稀缺且难以开发。一个高质量、经过标注的数据集对于推动这一资源匮乏领域的研究至关重要。在本研究中,我们推出了EduRABSA(教育评论ABSA),这是首个公开的、标注的ABSA教育评论数据集,涵盖了英语语言下的三种评论主题类型(课程、教学人员、大学)以及所有主要ABSA任务,包括尚未充分探索的隐含方面和隐含意见提取。我们还分享了ASQE-DPT(数据处理工具),这是一款离线、轻量级、无需安装的手动数据标注工具,能够从单一任务标注生成适用于全面ABSA任务的标记数据集。这些资源共同为ABSA社区和教育领域做出了贡献,消除了数据集障碍,支持了研究的透明度和可重复性,并促进了更多资源的创建与共享。数据集、标注工具以及用于数据集处理和采样的脚本与统计信息均可通过https://github.com/yhua219/edurabsa_dataset_and_annotation_tool获取。