每日精选AI研究论文及翻译
图像修复是介于图像编辑与图像生成之间的一个基础研究领域。当前最先进(SOTA)的方法探索了新型注意力机制、轻量级架构及上下文感知建模,展现了卓越的性能。然而,这些方法在处理复杂结构(如纹理、形状、空间关系)和语义(如色彩一致性、物体复原、逻辑正确性)时往往力不从心,导致生成结果出现伪影和不合理之处。为应对这一挑战,我们设计了一种简单而有效的修复范式——潜在类别引导,并进一步提出了一种基于扩散的模型,命名为PixelHacker。具体而言,我们首先通过标注前景与背景(分别包含潜在的116类和21类)构建了一个包含1400万张图像-掩码对的大型数据集。随后,我们分别通过两个固定大小的嵌入编码潜在的前景与背景表示,并通过线性注意力在去噪过程中间歇性地注入这些特征。最后,通过在我们的数据集上进行预训练并在开源基准上微调,我们获得了PixelHacker。大量实验表明,PixelHacker在多个数据集(Places2、CelebA-HQ和FFHQ)上全面超越了SOTA,并在结构与语义上均展现出显著的一致性。项目页面位于https://hustvl.github.io/PixelHacker。
我们推出Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,具备卓越的推理能力、高效的推理性能,并为企业使用提供了开放许可。该系列包含三种规模——Nano(8B)、Super(49B)和Ultra(253B)——在推理吞吐量和内存效率上表现优异,与DeepSeek-R1等顶尖推理模型竞争。本报告中,我们详细阐述了这些模型的训练流程,包括利用Llama 3模型进行神经架构搜索以加速推理、知识蒸馏及持续预训练,随后进入以推理为重点的后训练阶段,该阶段由监督微调和大规模强化学习两部分构成。Llama-Nemotron模型是首个支持动态推理切换的开源模型,允许用户在推理过程中在标准聊天模式与推理模式之间自由切换。为进一步支持开放研究并促进模型开发,我们提供以下资源:1. 我们依据商业友好的NVIDIA开放模型许可协议,发布了Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。2. 我们公开了完整的后训练数据集:Llama-Nemotron-Post-Training-Dataset。3. 我们还发布了我们的训练代码库:NeMo、NeMo-Aligner和Megatron-LM。
现实世界中的图像编辑任务通常需要多次连续编辑才能达到预期效果。当前的编辑方法主要针对单一对象的修改,在处理连续编辑时面临困难:特别是在保持先前编辑的同时,将新对象自然地融入现有内容中。这些限制严重阻碍了需要修改多个对象并保持其上下文关系的复杂编辑场景。我们通过两个关键提议来解决这一根本性挑战:支持粗略的遮罩输入,以保留现有内容并自然地整合新元素;以及支持跨多次修改的一致性编辑。我们的框架通过分层记忆实现这一点,该记忆存储了先前编辑的潜在表示和提示嵌入。我们提出了背景一致性指导,利用记忆的潜在表示来维持场景的连贯性,并在交叉注意力中引入多查询解耦,确保对现有内容的自然适应。为了评估我们的方法,我们提出了一个新的基准数据集,包含语义对齐指标和交互式编辑场景。通过全面的实验,我们展示了在迭代图像编辑任务中的卓越性能,只需用户提供粗略的遮罩,即可在多次编辑步骤中保持高质量的结果。
评估自然语言生成(NLG)系统颇具挑战,原因在于有效输出的多样性。尽管人工评估被视为黄金标准,但其存在不一致性、缺乏标准化以及人口统计偏差等问题,限制了结果的可复现性。基于大语言模型(LLM)的评估提供了一种可扩展的替代方案,但对提示设计极为敏感,细微变化可能导致显著差异。在本研究中,我们提出了一种逆向学习方法,该方法能够从模型输出中学习有效的反向映射,回溯至其输入指令,从而自动生成针对特定模型的高效评估提示。我们的方法仅需单个评估样本,无需耗时的手动提示工程,从而提升了评估效率与鲁棒性。本研究为推动更稳健、高效的基于LLM的评估开辟了新方向。
基于从9,439篇生成式AI论文(2020年1月至2025年3月)中筛选出的1,178篇安全性与可靠性研究,我们对领先的AI企业(Anthropic、Google DeepMind、Meta、微软及OpenAI)与顶尖AI学术机构(卡内基梅隆大学、麻省理工学院、纽约大学、斯坦福大学、加州大学伯克利分校及华盛顿大学)的研究成果进行了对比分析。研究发现,企业AI研究日益聚焦于部署前阶段——模型对齐及测试与评估——而对部署阶段问题如模型偏见的关注有所减弱。在高风险部署领域,包括医疗健康、金融、虚假信息、诱导性与成瘾性功能、幻觉现象及版权问题等方面,存在显著的研究空白。若不对已部署AI的可观测性加以提升,企业研究集中度的加剧可能进一步扩大知识鸿沟。为此,我们建议扩大外部研究人员对部署数据的访问权限,并系统性地增强对市场内AI行为的可观测性。
在现实世界的语料库中,知识经常在文档间重复出现,但由于命名模糊、信息过时或错误,往往存在不一致性,导致上下文之间形成复杂的相互关系。先前的研究表明,语言模型在处理这些复杂性时存在困难,通常孤立地关注单一因素。我们将这些关系分为四类:干扰性、模糊性、反事实性和重复性。我们的分析揭示,目前尚无单一方法能有效同时解决所有这些相互关系。因此,我们引入了上下文组织器(CORG),一个将多个上下文组织成独立处理组的框架。这一设计使模型能够高效找到所有相关答案,同时确保消歧。CORG由三个关键组件构成:图构建器、重排序器和聚合器。我们的实验结果表明,CORG在性能与效率之间实现了有效平衡,不仅超越了现有的分组方法,还达到了与计算更为密集的单上下文方法相当的结果。
学习如何利用信号时序逻辑(STL)规范解决复杂任务,对众多现实世界应用至关重要。然而,由于缺乏多样化的STL数据集及有效提取时序逻辑信息以供下游任务使用的编码器,以往研究大多仅考虑固定或参数化的STL规范。本文提出TeLoGraF——时序逻辑图编码流,它结合图神经网络(GNN)编码器与流匹配技术,旨在学习适用于一般STL规范的解决方案。我们识别了四种常用的STL模板,并收集了总计20万条带有配对演示的规范。在从二维空间简单动力学模型到高维七自由度Franka Panda机械臂及Ant四足机器人导航的五个模拟环境中,我们进行了广泛实验。结果表明,在STL满足率方面,我们的方法优于其他基线。相较于经典的STL规划算法,我们的推理速度快10至100倍,且能适应任何系统动力学。此外,我们展示了图编码方法在解决复杂STL问题上的能力及其对分布外STL规范的鲁棒性。代码已发布于https://github.com/mengyuest/TeLoGraF。
随着新产品日新月异,推荐系统需快速适应可能的新领域,而无需大量重新训练。本研究提出“X-Cross”——一种新颖的跨域序列推荐模型,通过整合多个领域特定的语言模型来推荐新领域的产品;每个模型均采用低秩适配器(LoRA)进行微调。面对推荐提示,X-Cross逐层操作,动态精炼每个源语言模型的表示,通过融合所有其他模型的知识实现。这些精炼后的表示从一层传递至下一层,利用各领域适配器的激活,确保在保持领域特定细微差异的同时,实现跨域适应性。利用亚马逊数据集进行序列推荐,X-Cross在仅使用25%额外参数的情况下,达到了与LoRA微调模型相当的性能。在跨域任务中,如从玩具领域适应至工具、电子或体育领域,X-Cross展现了强劲性能,且相比LoRA,所需微调数据量减少约50%-75%,使微调更为高效。此外,X-Cross在准确性上显著优于其他跨域基线方法。总体而言,X-Cross实现了可扩展且自适应的跨域推荐,降低了计算开销,为数据受限环境提供了高效解决方案。