每日精选AI研究论文及翻译
依托大型语言模型(LLMs)驱动的深度研究智能体正迅速发展;然而,在利用通用测试时扩展算法生成复杂长篇研究报告时,其性能往往遭遇瓶颈。受人类研究中搜索、推理与修订循环迭代特性的启发,我们提出了测试时扩散深度研究者(TTD-DR)。这一创新框架将研究报告的生成概念化为一个扩散过程。TTD-DR以初步草稿启动该过程,该草稿作为可更新的框架,引导研究方向的演进基础。随后,通过一个“去噪”过程,草稿被迭代精炼,此过程动态地由检索机制所指导,每一步都融入外部信息。核心过程进一步通过应用于智能体工作流各环节的自进化算法得到增强,确保为扩散过程生成高质量上下文。这种以草稿为中心的设计,使报告撰写过程更加及时且连贯,同时减少了迭代搜索过程中的信息丢失。我们证明,TTD-DR在需要密集搜索与多跳推理的广泛基准测试中取得了最先进的成果,显著超越了现有的深度研究智能体。
将大型语言模型(LLMs)的权重从16位量化至更低比特宽度,是部署大规模Transformer模型到更具成本效益加速器上的实际做法。GPTQ已成为LLM规模下一次性训练后量化的标准方法之一。然而,其内部机制被描述为一系列临时性的代数更新,掩盖了任何几何意义或最坏情况下的保证。在本研究中,我们证明,当对线性层从后向前(即从最后一维到第一维)执行时,GPTQ在数学上等同于Babai最近平面算法,用于解决由层输入的海森矩阵定义的经典最近向量问题(CVP)。这一等价性基于一个复杂的数学论证,并带来两个分析性结论:(i) GPTQ误差传播步骤获得了直观的几何解释;(ii) 在无裁剪条件下,GPTQ继承了Babai算法的误差上界。综合来看,这些结果为GPTQ奠定了坚实的理论基础,并为借鉴数十年晶格算法进展以设计未来面向十亿参数模型的量化算法打开了大门。
我们推出了MMBench-GUI,一个跨平台(涵盖Windows、macOS、Linux、iOS、Android及Web)的层次化基准测试,用于评估GUI自动化代理。该基准包含四个层级:GUI内容理解、元素定位、任务自动化及任务协作,全面覆盖了GUI代理所需的核心技能。此外,我们创新性地提出了效率-质量面积(EQA)指标,用以衡量在线自动化场景下GUI代理的执行效率。通过MMBench-GUI,我们发现精准的视觉定位是决定任务整体成功的关键因素,强调了集成专门定位模块的模块化框架所带来的显著优势。进一步地,实现可靠的GUI自动化,代理需具备强大的任务规划与跨平台泛化能力,其中长上下文记忆、广阔的动作空间及长期推理能力扮演着至关重要的角色。尤为重要的是,任务效率仍是一个被严重忽视的维度,所有模型均存在显著的效率低下问题,即便任务最终完成,也伴随着过多的冗余步骤。因此,整合精确定位、有效规划及早期停止策略,对于实现真正高效且可扩展的GUI自动化而言,是不可或缺的。我们的基准代码、评估数据及运行环境将公开于https://github.com/open-compass/MMBench-GUI。
多模态大语言模型(MLLMs)取得了显著进展,这主要得益于其处理日益增长的长且复杂上下文的能力,如高分辨率图像、扩展的视频序列以及长时间的音频输入。尽管这一能力极大地增强了MLLM的功能,但也带来了巨大的计算挑战,主要是由于自注意力机制在处理大量输入标记时的二次方复杂度。为了缓解这些瓶颈,标记压缩作为一种前景广阔且至关重要的方法应运而生,它能在训练和推理过程中有效减少标记数量。本文首次对多模态长上下文标记压缩这一新兴领域进行了系统性的综述与整合。认识到有效的压缩策略与每种模态的独特特性及冗余密切相关,我们根据主要数据焦点对现有方法进行了分类,使研究人员能够快速获取并学习针对其特定兴趣领域的方法:(1)以图像为中心的压缩,解决视觉数据中的空间冗余;(2)以视频为中心的压缩,应对动态序列中的时空冗余;(3)以音频为中心的压缩,处理声学信号中的时间与频谱冗余。除了这种基于模态的分类外,我们还进一步根据方法的底层机制进行剖析,包括基于变换、相似性、注意力及查询的方法。通过提供全面且结构化的概览,本综述旨在巩固当前进展,识别关键挑战,并激发这一快速发展领域的未来研究方向。我们还维护了一个公共资源库,以持续追踪并更新这一充满前景领域的最新进展。
大型语言模型(LLMs)正越来越多地通过强化学习(RL)方法,如群体相对策略优化(GRPO),适应下游任务,这通常需要数千次模拟来学习新任务。我们认为,与源自稀疏标量奖励的策略梯度相比,语言的可解释性往往能为LLMs提供更为丰富的学习媒介。为验证这一点,我们引入了GEPA(遗传-帕累托),一种全面融合自然语言反思的提示优化器,旨在从试错中学习高级规则。针对任何包含一个或多个LLM提示的AI系统,GEPA会采样系统级轨迹(如推理、工具调用及工具输出),并以自然语言进行反思,以诊断问题、提出并测试提示更新,并整合来自其自身尝试帕累托前沿的互补经验。得益于GEPA的设计,它往往能将仅有的几次模拟转化为显著的性能提升。在四项任务中,GEPA平均超越GRPO 10%,最高达20%,同时使用的模拟次数最多减少35倍。此外,GEPA在两个LLM上均领先于主流提示优化器MIPROv2超过10%,并在代码优化的推理时搜索策略中展现出令人鼓舞的成果。
大型语言模型(LLMs)的评估日益依赖于其他LLMs作为评判者。然而,当前的评估范式通常仅产生单一分数或排名,仅能回答哪个模型更优,却无法解释其原因。尽管这些顶层分数对于基准测试至关重要,但它们掩盖了模型性能背后具体且可操作的原因。为了弥合这一差距,我们引入了CLEAR,一个基于LLM的交互式开源错误分析工具包。CLEAR首先生成针对每个实例的文本反馈,随后创建一系列系统级错误问题,并量化每个识别问题的普遍性。我们的工具包还为用户提供了一个交互式仪表板,通过聚合可视化实现全面的错误分析,应用交互式过滤器以隔离特定问题或分数范围,并深入至体现特定行为模式的个别实例。我们通过RAG和数学基准测试展示了CLEAR的分析能力,并通过用户案例研究展现了其实用性。
语言模型(LMs)易受上下文奖励操纵的影响,即它们利用有缺陷或错误的书面规范或评分标准中的漏洞,在不满足用户真实意图的情况下获得高分。我们提出了一种新颖的测试时框架——规范自我修正(Specification Self-Correction, SSC),该框架使语言模型能够识别并修正其自身指导规范中的缺陷。SSC采用多步推理过程,模型首先基于可能存在缺陷的规范生成响应,随后对其输出进行批判性评估,进而修订规范本身以消除可利用的漏洞。最终,使用这一自我修正后的规范生成更为稳健的响应。在涵盖创意写作和代理编码任务的多个语言模型实验中,我们发现,尽管模型最初在50-70%的情况下会利用有缺陷的规范进行操纵,但SSC过程将这一脆弱性降低了超过90%。这种动态修复在推理时发生,无需修改模型权重,从而引导模型行为更加稳健地保持一致。代码详见https://github.com/vicgalle/specification-self-correction。
尽管端到端自动驾驶模型展现出令人瞩目的成果,但其实际部署常受限于庞大的模型规模、对昂贵激光雷达传感器的依赖以及计算密集型的鸟瞰图(BEV)特征表示。这尤其限制了其在仅配备摄像头的大众市场车辆中的可扩展性。为应对这些挑战,我们提出了PRIX(Plan from Raw Pixels,从原始像素规划)。这一新颖且高效的端到端驾驶架构仅利用摄像头数据运行,无需显式的BEV表示,也无需激光雷达。PRIX结合视觉特征提取器与生成式规划头,直接从原始像素输入预测安全轨迹。架构的核心组件是上下文感知重校准变换器(CaRT),这是一个旨在有效增强多层次视觉特征以实现更稳健规划的新颖模块。通过全面实验,我们证明PRIX在NavSim和nuScenes基准测试中达到了最先进的性能,与更大规模、多模态扩散规划器相媲美,同时在推理速度和模型大小上显著更为高效,使其成为现实世界部署的实用解决方案。我们的工作已开源,代码将发布于https://maxiuw.github.io/prix。
为理解并识别快速演进的人工智能(AI)模型所带来的前所未有的风险,本报告对其前沿风险进行了全面评估。借鉴《前沿人工智能风险管理框架(v1.0)》(SafeWork-F1-Framework)中的E-T-C分析(部署环境、威胁来源、赋能能力),我们在七个关键领域识别了主要风险:网络攻击、生物与化学风险、说服与操控、失控的自主AI研发、战略欺骗与谋划、自我复制以及合谋。遵循“AI-45度法则”,我们通过“红线”(不可容忍的阈值)和“黄线”(早期预警指标)来划分风险区域:绿色(常规部署与持续监控下的可控风险)、黄色(需加强缓解措施与受控部署)以及红色(需暂停开发及/或部署)。实验结果显示,近期所有前沿AI模型均处于绿色与黄色区域,未触及红线。具体而言,在评估的网络攻击或失控AI研发风险中,无模型跨越黄线。对于自我复制及战略欺骗与谋划,除部分推理模型处于黄色区域外,多数模型保持在绿色区域。在说服与操控方面,由于模型对人类的有效影响,多数模型位于黄色区域。至于生物与化学风险,尽管需进行详细的威胁建模与深入评估以进一步断言,但我们无法排除多数模型处于黄色区域的可能性。此项工作反映了我们当前对AI前沿风险的理解,并呼吁采取集体行动以应对这些挑战。
AI视频聊天作为一种实时通信(RTC)的新范式应运而生,其中一方并非人类,而是多模态大语言模型(MLLM)。这使得人与AI之间的互动更加直观,仿佛与真人面对面交谈。然而,这给延迟带来了巨大挑战,因为MLLM推理占据了大部分响应时间,留给视频流传输的时间极少。由于网络的不确定性和不稳定性,传输延迟成为阻碍AI表现得像真人的关键瓶颈。为解决这一问题,我们提出了Artic,一个面向AI的实时通信框架,探索从“人类观看视频”到“AI理解视频”的网络需求转变。为了在保持MLLM准确性的同时大幅降低比特率,我们提出了上下文感知视频流技术,该技术识别聊天中每个视频区域的重要性,并几乎将所有比特率分配给对聊天至关重要的区域。为避免数据包重传,我们提出了抗损失自适应帧率技术,利用前一帧替代丢失或延迟的帧,同时避免比特率浪费。为了评估视频流质量对MLLM准确性的影响,我们构建了首个基准测试,名为降质视频理解基准(DeViBench)。最后,我们探讨了AI视频聊天中的一些开放性问题及正在实施的解决方案。
在无监督领域自适应语义分割(UDA-SS)中,模型首先在有标注的源域数据(如合成图像)上进行训练,随后无需目标域标注即可适应于无标注的目标域(如真实世界图像)。现有的UDA-SS方法往往难以在细粒度局部细节与全局上下文信息之间取得平衡,导致在复杂区域出现分割错误。为解决这一问题,我们提出了自适应特征精炼(AFR)模块,该模块通过利用低分辨率logits的语义先验来精炼高分辨率特征,从而提升分割精度。AFR还整合了高频成分,这些成分捕捉了细粒度结构并提供了关键的边界信息,改善了物体轮廓的描绘。此外,AFR通过不确定性驱动的注意力机制自适应地平衡局部与全局信息,减少了误分类。其轻量化设计使其能够无缝集成到基于HRDA的UDA方法中,实现了最先进的分割性能。我们的方法在GTA V转Cityscapes任务上将现有UDA-SS方法提升了1.05%的mIoU,在Synthia转Cityscapes任务上提升了1.04%的mIoU。我们的框架实现已发布于:https://github.com/Masrur02/AFRDA。