每日精选AI研究论文及翻译
通用人工智能(General AI)代理正日益被视为下一代人工智能的基础框架,它们能够实现复杂的推理、网络交互、编程以及自主研究能力。然而,当前的代理系统要么是闭源的,要么严重依赖多种付费API和专有工具,这限制了研究社区的可访问性和可复现性。在本研究中,我们推出了Cognitive Kernel-Pro,这是一个完全开源且(在最大程度上)免费的多模块代理框架,旨在普及高级AI代理的开发和评估。在Cognitive Kernel-Pro中,我们系统地研究了高质量训练数据的整理,重点关注在四个关键领域——网络、文件、代码和通用推理——中构建查询、轨迹和可验证答案的方法。此外,我们探索了代理测试时反思和投票的新策略,以增强代理的鲁棒性和性能。我们在GAIA基准上对Cognitive Kernel-Pro进行了评估,取得了开源和免费代理中的最先进成果。值得注意的是,我们的8B参数开源模型超越了之前领先的系统,如WebDancer和WebSailor,为可访问的高能力AI代理树立了新的性能标准。代码已发布于https://github.com/Tencent/CognitiveKernel-Pro。
扩散大语言模型(DLLMs)正逐渐成为主导的自回归大语言模型的有力替代方案,它们提供了高效的并行生成能力,并具备全局上下文建模的潜力。然而,DLLMs的实际应用受到一个关键架构限制的阻碍:需要预先静态定义生成长度。这种静态长度分配导致了一个棘手的问题:长度不足会严重影响复杂任务的表现,而过度长度则带来显著的计算开销,有时甚至导致性能下降。尽管推理框架是固定的,我们观察到模型本身拥有与给定任务最佳响应长度相关的内部信号。为了弥合这一差距,我们利用这些潜在信号,引入了DAEDAL,一种无需训练的新型去噪策略,实现了扩散大语言模型的动态自适应长度扩展。DAEDAL分两个阶段运作:1)在去噪过程之前,DAEDAL从较短的初始长度出发,通过序列完成度指标的引导,迭代扩展至粗略的任务适宜长度。2)在去噪过程中,DAEDAL通过插入掩码标记,动态识别并扩展生成不足的区域,确保最终输出充分发展。在DLLMs上的大量实验表明,DAEDAL不仅达到了与精心调校的固定长度基线相当甚至更优的性能,同时通过提高有效标记比率,显著提升了计算效率。通过解决静态长度限制,DAEDAL释放了DLLMs的新潜力,缩小了与自回归模型的关键差距,为更高效、更强大的生成铺平了道路。
当前扩散变换器的成功在很大程度上依赖于预训练变分自编码器(VAE)所塑造的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了累积误差和解码伪影。为解决上述问题,研究人员回归到像素空间,但代价是复杂的级联流程和增加的标记复杂度。与他们的努力形成对比,我们提出利用神经场建模逐块解码,并展示了一种单尺度、单阶段、高效的端到端解决方案,称为像素神经场扩散(PixelNerd)。得益于PixNerd中高效的神经场表示,我们无需任何复杂级联流程或VAE,直接在ImageNet 256×256上实现了2.15的FID,在ImageNet 512×512上实现了2.84的FID。我们还将PixNerd框架扩展至文本到图像应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的总体得分,在DPG基准测试中取得了80.9的总体得分,表现颇具竞争力。
大型视觉语言模型(VLMs)在二维视觉理解任务中取得了显著进展,这激发了人们将其能力扩展到三维场景理解的兴趣。然而,当前的三维VLMs由于高质量空间数据的限制以及视角假设的静态性,往往在稳健推理和泛化方面表现欠佳。为解决这些挑战,我们提出了3D-R1,一个旨在增强三维VLMs推理能力的基础模型。具体而言,我们首先利用现有的三维VL数据集和基于Gemini 2.5 Pro的数据引擎,构建了一个包含CoT的高质量合成数据集,命名为Scene-30K,作为3D-R1的冷启动初始化数据。此外,我们在强化学习训练过程中采用了如GRPO等RLHF策略,以增强推理能力,并引入了三种奖励函数:感知奖励、语义相似性奖励和格式奖励,以确保检测精度和回答语义的准确性。更进一步,我们提出了一种动态视角选择策略,自适应地选取对三维场景理解最具信息量的视角。大量实验表明,3D-R1在多个三维场景基准测试中平均提升了10%,凸显了其在增强三维场景理解推理与泛化能力方面的有效性。代码:https://github.com/AIGeeksGroup/3D-R1。网站:https://aigeeksgroup.github.io/3D-R1。
近期,大型语言模型(LLM)代理在软件问题解决方面取得了显著进展,得益于多代理协作和蒙特卡洛树搜索(MCTS)等先进技术的应用。然而,当前的代理如同无记忆的探索者,将每个问题孤立处理,未能保留或复用以往修复经验中的知识。这导致了失败路径的重复探索,错失了将成功的问题解决方法应用于类似问题的机会。为解决这一问题,我们提出了SWE-Exp,一种经验增强型方法,它从先前的代理轨迹中提炼出简洁且可操作的经验,实现跨问题的持续学习。我们的方法引入了一个多维度经验库,既捕捉成功的修复尝试,也记录失败的案例。具体而言,它从不同层面提取可复用的问题解决知识——从高层次的问题理解到具体的代码变更。实验表明,在开源代理框架下,SWE-Exp在SWE-bench-Verified上达到了41.6%的Pass@1解决率,处于领先地位。我们的方法确立了一种新范式,即自动化软件工程代理系统性地积累并利用修复专业知识,从根本上从试错探索转向基于经验的战略性问题解决。
得益于大型语言模型(LLMs)卓越的推理能力,问题解决领域取得了显著进展。近期,基于代理的框架如SWE-agent通过赋予自主使用工具的代理处理复杂软件工程任务的能力,进一步推动了这一进展。然而,现有的基于代理的问题解决方法主要依赖于代理的独立探索,往往陷入局部解决方案,难以识别跨越代码库不同部分的问题模式。针对这一局限,我们提出了SWE-Debate,一个竞争性的多代理辩论框架,旨在激发多样化的推理路径,实现更为精准的问题定位。SWE-Debate首先通过遍历代码依赖图,生成多条故障传播轨迹作为定位提案。随后,它组织了一场三轮辩论,由沿着故障传播轨迹持有不同推理视角的专门代理参与。这种结构化的竞争促使代理们协作达成一个统一的修复方案。最终,这一统一修复方案被整合进一个基于蒙特卡洛树搜索(MCTS)的代码修改代理中,用于生成补丁。在SWE-bench基准测试上的实验表明,SWE-Debate在开源代理框架中创下了新的最先进记录,并大幅超越了基线模型。
评估大型语言模型(LLMs)的对话能力仍是一项具有挑战性的任务。当前主流方法主要依赖于“LLM作为评判者”的范式,即通过提示LLM充当评估者来评判对话质量。然而,此类方法常受多种偏见影响,削弱了评估结果的可靠性与一致性。为缓解这些偏见,近期方法采用多个LLM作为评判者,并汇总其判断以选出最佳评估。尽管有效,这种多评判者方法在推理过程中带来了显著的计算开销。本文提出了一种高效的多轮对话评估器,通过将多个LLM评判者的偏好知识聚合至单一模型中,捕捉其集体智慧。我们的方法在保留多样化多评判者反馈优势的同时,大幅降低了评估成本,实现了快速且灵活的对话质量评估。在七个单评分及成对比较对话评估基准上的广泛实验表明,本方法在多种场景下均优于现有基线,展现了其高效性与鲁棒性。
近期大型语言模型的进展推动了多模态大语言模型(MLLMs)的发展,这些模型在统一框架下整合了文本、语音和视觉信息。随着MLLMs从单一语言、任务特定的系统演变为通用指令跟随模型,一个关键前沿在于评估其在长短期上下文中的多语言和多模态能力。然而,现有基准在联合评估这些维度方面存在不足:它们通常局限于英语,大多一次只关注单一模态,依赖短文本上下文,或缺乏人工标注——这阻碍了对模型跨语言、跨模态及任务复杂性的全面评估。为填补这些空白,我们推出了MCIF(多模态跨语言指令跟随),这是首个基于科学讲座的多语言人工标注基准,旨在评估跨语言、多模态环境下对短期和长期输入的指令跟随能力。MCIF涵盖语音、视觉和文本三大核心模态,以及四种多样化的语言(英语、德语、意大利语和中文),从而能够全面评估MLLMs跨语言理解指令并结合多模态上下文信息的能力。MCIF以CC-BY 4.0许可发布,以鼓励MLLMs开发领域的开放研究与进步。
多模态指称分割旨在根据文本或音频形式的指称表达,对视觉场景(如图像、视频和3D场景)中的目标对象进行分割。该任务在需要基于用户指令实现精确对象感知的实际应用中扮演着关键角色。过去十年间,得益于卷积神经网络、Transformer架构及大规模语言模型的进步,多模态感知能力得到了显著提升,这一领域在多模态社区中获得了广泛关注。本文全面综述了多模态指称分割的研究进展。首先,我们介绍了该领域的背景,包括问题定义和常用数据集。接着,我们总结了指称分割的统一元架构,并回顾了在图像、视频和3D场景这三大主要视觉场景中的代表性方法。此外,我们还探讨了广义指称表达(GREx)方法,以应对现实世界复杂性的挑战,并介绍了相关任务及实际应用。文中还提供了在标准基准上的广泛性能对比。我们持续追踪相关研究进展,相关资源可在https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation获取。
音频驱动视频生成旨在合成与输入音频记录相一致的逼真视频,类似于人类通过听觉输入想象场景的能力。然而,现有方法主要集中于探索语义信息,如音频中发声源的类别,这限制了它们生成内容准确且空间布局合理的视频的能力。相比之下,人类不仅能自然识别发声源的语义类别,还能确定其深度编码的空间属性,包括位置和运动方向。这些有用信息可以通过考虑源自声音固有物理特性(如响度或频率)的具体空间指标来阐明。由于先前的方法大多忽视了这一因素,我们提出了SpA2V,这是首个明确利用音频中的空间听觉线索来生成高语义和空间对应视频的框架。SpA2V将生成过程分解为两个阶段:1)音频引导的视频规划:我们精心调整了一个最先进的多模态大语言模型(MLLM),用于一项新任务,即从输入音频中提取空间和语义线索,构建视频场景布局(VSLs)。这作为中间表示,弥合了音频和视频模态之间的鸿沟。2)基于布局的视频生成:我们开发了一种高效且有效的方法,将VSLs作为条件指导无缝整合到预训练的扩散模型中,实现无需额外训练的VSL引导视频生成。大量实验表明,SpA2V在生成与输入音频语义和空间对齐的逼真视频方面表现出色。
大型语言模型(LLMs)在生成与人类写作极为相似的文本方面展现了卓越的能力。然而,它们常常生成事实错误的陈述,这一问题通常被称为“幻觉”。解决幻觉问题对于提升LLMs的可靠性和有效性至关重要。尽管大量研究聚焦于英语中的幻觉现象,我们的研究将这一探讨扩展至三种语言的对话数据:印地语、波斯语和汉语。我们通过对数据集的全面分析,考察了GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1和Qwen-3在这些语言中的事实错误和语言错误。研究发现,LLMs在汉语中产生的幻觉响应极少,而在印地语和波斯语中生成的幻觉数量显著更高。
以图像为目标的视觉导航是一个基础且富有挑战性的问题。传统方法要么依赖端到端的强化学习,要么采用基于模块化策略,以拓扑图或鸟瞰图作为记忆,这些方法无法充分建模探索的三维环境与目标图像之间的几何关系。为了高效且精确地在三维空间中定位目标图像,我们构建了基于可渲染三维高斯(3DGS)表示的导航系统。然而,由于3DGS优化的计算密集性以及六自由度相机姿态的大搜索空间,直接在智能体探索过程中利用3DGS进行图像定位效率极低。为此,我们提出了IGL-Nav,一种增量式三维高斯定位框架,用于实现高效且三维感知的图像目标导航。具体而言,我们随着新图像的到来,通过前馈单目预测逐步更新场景表示。随后,利用几何信息进行离散空间匹配,粗略定位目标,这一过程可等效于高效的三维卷积。当智能体接近目标时,最终通过可微分渲染优化求解精确的目标姿态。所提出的IGL-Nav在多种实验配置下均大幅超越现有最先进方法。它还能应对更具挑战性的自由视角图像目标设定,并可在现实世界的机器人平台上部署,使用手机以任意姿态捕捉目标图像。项目页面:https://gwxuan.github.io/IGL-Nav/。
尽管人工智能在生成文本、音频、图像和视频方面表现出色,但创作如电子游戏这样的互动视听内容仍具挑战性。当前的大型语言模型(LLMs)虽能生成JavaScript游戏和动画,却缺乏自动化评估指标,且在处理通常需要人类团队耗时数月(多镜头、多智能体)并借助艺术家制作的素材才能完成的复杂内容时显得力不从心。为应对这些难题,我们构建了一套新指标及一个多智能体系统。 我们提出了AVR-Eval,这是一种利用视听记录(AVRs)来相对评估多媒体内容质量的指标。一个全模态模型(处理文本、视频和音频)比较两段内容的AVRs,并由一个文本模型审核评估结果以判定优劣。我们证明,AVR-Eval能准确区分优质内容与破损或不相匹配的内容。 我们开发了AVR-Agent,这是一个从多媒体素材库(音频、图像、3D模型)生成JavaScript代码的多智能体系统。编码智能体选取相关素材,生成多个初始代码版本,利用AVR-Eval筛选出最佳版本,并通过来自AVR的全模态智能体反馈进行迭代优化。 我们在游戏和动画上进行了实验,使用AVR-Eval(内容A对B的胜率)进行评估。结果表明,由AVR-Agent生成的内容相较于一次性生成的内容,其胜率显著提高。然而,模型在有效利用定制素材和AVR反馈方面存在困难,未能展现出更高的胜率。这揭示了一个关键差距:尽管人类能从高质量素材和视听反馈中获益,当前的编码模型似乎未能同样高效地利用这些资源,凸显了人类与机器在内容创作方法上的根本差异。