AI研究论文每日精选

每日精选AI研究论文及翻译

PixelHacker：基于结构与语义一致性的图像修复
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29

ByZiyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

图像修复是介于图像编辑与图像生成之间的一个基础研究领域。当前最先进（SOTA）的方法探索了新型注意力机制、轻量级架构及上下文感知建模，展现了卓越的性能。然而，这些方法在处理复杂结构（如纹理、形状、空间关系）和语义（如色彩一致性、物体复原、逻辑正确性）时往往力不从心，导致生成结果出现伪影和不合理之处。为应对这一挑战，我们设计了一种简单而有效的修复范式——潜在类别引导，并进一步提出了一种基于扩散的模型，命名为PixelHacker。具体而言，我们首先通过标注前景与背景（分别包含潜在的116类和21类）构建了一个包含1400万张图像-掩码对的大型数据集。随后，我们分别通过两个固定大小的嵌入编码潜在的前景与背景表示，并通过线性注意力在去噪过程中间歇性地注入这些特征。最后，通过在我们的数据集上进行预训练并在开源基准上微调，我们获得了PixelHacker。大量实验表明，PixelHacker在多个数据集（Places2、CelebA-HQ和FFHQ）上全面超越了SOTA，并在结构与语义上均展现出显著的一致性。项目页面位于https://hustvl.github.io/PixelHacker。

Llama-Nemotron：高效推理模型
Llama-Nemotron: Efficient Reasoning Models

May 2

ByAkhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

我们推出Llama-Nemotron系列模型，这是一个开放的异构推理模型家族，具备卓越的推理能力、高效的推理性能，并为企业使用提供了开放许可。该系列包含三种规模——Nano（8B）、Super（49B）和Ultra（253B）——在推理吞吐量和内存效率上表现优异，与DeepSeek-R1等顶尖推理模型竞争。本报告中，我们详细阐述了这些模型的训练流程，包括利用Llama 3模型进行神经架构搜索以加速推理、知识蒸馏及持续预训练，随后进入以推理为重点的后训练阶段，该阶段由监督微调和大规模强化学习两部分构成。Llama-Nemotron模型是首个支持动态推理切换的开源模型，允许用户在推理过程中在标准聊天模式与推理模式之间自由切换。为进一步支持开放研究并促进模型开发，我们提供以下资源：1. 我们依据商业友好的NVIDIA开放模型许可协议，发布了Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。2. 我们公开了完整的后训练数据集：Llama-Nemotron-Post-Training-Dataset。3. 我们还发布了我们的训练代码库：NeMo、NeMo-Aligner和Megatron-LM。

通过分层记忆机制提升图像生成的可编辑性
Improving Editability in Image Generation with Layer-wise Memory

May 2

ByDaneul Kim, Jaeah Lee, Jaesik Park

现实世界中的图像编辑任务通常需要多次连续编辑才能达到预期效果。当前的编辑方法主要针对单一对象的修改，在处理连续编辑时面临困难：特别是在保持先前编辑的同时，将新对象自然地融入现有内容中。这些限制严重阻碍了需要修改多个对象并保持其上下文关系的复杂编辑场景。我们通过两个关键提议来解决这一根本性挑战：支持粗略的遮罩输入，以保留现有内容并自然地整合新元素；以及支持跨多次修改的一致性编辑。我们的框架通过分层记忆实现这一点，该记忆存储了先前编辑的潜在表示和提示嵌入。我们提出了背景一致性指导，利用记忆的潜在表示来维持场景的连贯性，并在交叉注意力中引入多查询解耦，确保对现有内容的自然适应。为了评估我们的方法，我们提出了一个新的基准数据集，包含语义对齐指标和交互式编辑场景。通过全面的实验，我们展示了在迭代图像编辑任务中的卓越性能，只需用户提供粗略的遮罩，即可在多次编辑步骤中保持高质量的结果。

超越“一刀切”：反演学习助力高效自然语言生成评估提示
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29

ByHanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

评估自然语言生成（NLG）系统颇具挑战，原因在于有效输出的多样性。尽管人工评估被视为黄金标准，但其存在不一致性、缺乏标准化以及人口统计偏差等问题，限制了结果的可复现性。基于大语言模型（LLM）的评估提供了一种可扩展的替代方案，但对提示设计极为敏感，细微变化可能导致显著差异。在本研究中，我们提出了一种逆向学习方法，该方法能够从模型输出中学习有效的反向映射，回溯至其输入指令，从而自动生成针对特定模型的高效评估提示。我们的方法仅需单个评估样本，无需耗时的手动提示工程，从而提升了评估效率与鲁棒性。本研究为推动更稳健、高效的基于LLM的评估开辟了新方向。

现实世界中AI治理研究的空白领域
Real-World Gaps in AI Governance Research

Apr 30

ByIlan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

基于从9,439篇生成式AI论文（2020年1月至2025年3月）中筛选出的1,178篇安全性与可靠性研究，我们对领先的AI企业（Anthropic、Google DeepMind、Meta、微软及OpenAI）与顶尖AI学术机构（卡内基梅隆大学、麻省理工学院、纽约大学、斯坦福大学、加州大学伯克利分校及华盛顿大学）的研究成果进行了对比分析。研究发现，企业AI研究日益聚焦于部署前阶段——模型对齐及测试与评估——而对部署阶段问题如模型偏见的关注有所减弱。在高风险部署领域，包括医疗健康、金融、虚假信息、诱导性与成瘾性功能、幻觉现象及版权问题等方面，存在显著的研究空白。若不对已部署AI的可观测性加以提升，企业研究集中度的加剧可能进一步扩大知识鸿沟。为此，我们建议扩大外部研究人员对部署数据的访问权限，并系统性地增强对市场内AI行为的可观测性。

CORG：从复杂互相关联的上下文中生成答案
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25

ByHyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

在现实世界的语料库中，知识经常在文档间重复出现，但由于命名模糊、信息过时或错误，往往存在不一致性，导致上下文之间形成复杂的相互关系。先前的研究表明，语言模型在处理这些复杂性时存在困难，通常孤立地关注单一因素。我们将这些关系分为四类：干扰性、模糊性、反事实性和重复性。我们的分析揭示，目前尚无单一方法能有效同时解决所有这些相互关系。因此，我们引入了上下文组织器（CORG），一个将多个上下文组织成独立处理组的框架。这一设计使模型能够高效找到所有相关答案，同时确保消歧。CORG由三个关键组件构成：图构建器、重排序器和聚合器。我们的实验结果表明，CORG在性能与效率之间实现了有效平衡，不仅超越了现有的分组方法，还达到了与计算更为密集的单上下文方法相当的结果。

WorldGenBench：面向推理驱动型文本到图像生成的世界知识融合基准测试平台
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2

ByDaoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo

近期，文本到图像（T2I）生成技术取得了显著进展，然而现有模型在处理需要丰富世界知识和隐含推理的提示时仍显不足，这两者对于在现实场景中生成语义准确、连贯且上下文恰当的图像至关重要。为填补这一空白，我们推出了WorldGenBench，一个旨在系统评估T2I模型世界知识基础和隐含推理能力的基准，涵盖人文与自然两大领域。我们提出了知识清单评分（Knowledge Checklist Score），这一结构化指标用于衡量生成图像在多大程度上满足关键语义预期。通过对21个顶尖模型的实验分析，我们发现，尽管扩散模型在开源方法中表现领先，但如GPT-4o等专有自回归模型在推理和知识整合方面展现出显著优势。我们的研究结果强调了下一代T2I系统需具备更深层次的理解与推理能力。项目页面：https://dwanzhang-ai.github.io/WorldGenBench/

X-Cross：跨域序列推荐中语言模型的动态集成
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

随着新产品日新月异，推荐系统需快速适应可能的新领域，而无需大量重新训练。本研究提出“X-Cross”——一种新颖的跨域序列推荐模型，通过整合多个领域特定的语言模型来推荐新领域的产品；每个模型均采用低秩适配器（LoRA）进行微调。面对推荐提示，X-Cross逐层操作，动态精炼每个源语言模型的表示，通过融合所有其他模型的知识实现。这些精炼后的表示从一层传递至下一层，利用各领域适配器的激活，确保在保持领域特定细微差异的同时，实现跨域适应性。利用亚马逊数据集进行序列推荐，X-Cross在仅使用25%额外参数的情况下，达到了与LoRA微调模型相当的性能。在跨域任务中，如从玩具领域适应至工具、电子或体育领域，X-Cross展现了强劲性能，且相比LoRA，所需微调数据量减少约50%-75%，使微调更为高效。此外，X-Cross在准确性上显著优于其他跨域基线方法。总体而言，X-Cross实现了可扩展且自适应的跨域推荐，降低了计算开销，为数据受限环境提供了高效解决方案。

TeLoGraF：基于图编码流匹配的时序逻辑规划
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan

学习如何利用信号时序逻辑（STL）规范解决复杂任务，对众多现实世界应用至关重要。然而，由于缺乏多样化的STL数据集及有效提取时序逻辑信息以供下游任务使用的编码器，以往研究大多仅考虑固定或参数化的STL规范。本文提出TeLoGraF——时序逻辑图编码流，它结合图神经网络（GNN）编码器与流匹配技术，旨在学习适用于一般STL规范的解决方案。我们识别了四种常用的STL模板，并收集了总计20万条带有配对演示的规范。在从二维空间简单动力学模型到高维七自由度Franka Panda机械臂及Ant四足机器人导航的五个模拟环境中，我们进行了广泛实验。结果表明，在STL满足率方面，我们的方法优于其他基线。相较于经典的STL规划算法，我们的推理速度快10至100倍，且能适应任何系统动力学。此外，我们展示了图编码方法在解决复杂STL问题上的能力及其对分布外STL规范的鲁棒性。代码已发布于https://github.com/mengyuest/TeLoGraF。

AI研究论文每日精选

每日精选AI研究论文及翻译

WorldGenBench：面向推理驱动型文本到图像生成的世界知识融合基准测试平台
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2

ByDaoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo

X-Cross：跨域序列推荐中语言模型的动态集成
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

TeLoGraF：基于图编码流匹配的时序逻辑规划
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan