AI研究论文每日精选

每日精选AI研究论文及翻译

Diffree：使用扩散模型进行文本引导形状自由对象修复
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model

Jul 24

ByLirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji

本文解决了仅凭文本指导对图像进行对象添加的重要问题。这是一个具有挑战性的问题，因为新对象必须与图像无缝集成，保持一致的视觉背景，如光照、纹理和空间位置。虽然现有的文本引导图像修补方法可以添加对象，但它们要么无法保持背景一致性，要么需要繁琐的人工干预来指定边界框或用户涂鸦蒙版。为了解决这一挑战，我们引入了Diffree，一种文本到图像（T2I）模型，可通过仅凭文本控制来促进文本引导的对象添加。为此，我们通过先进的图像修补技术删除对象，精心策划了一个精美的合成数据集OABench。OABench包含74K个真实世界元组，包括原始图像、去除对象后的修补图像、对象蒙版和对象描述。在OABench上使用稳定扩散模型和额外的蒙版预测模块进行训练，Diffree独特地预测新对象的位置，并实现了仅凭文本指导的对象添加。大量实验证明，Diffree在高成功率下添加新对象的同时，保持了背景一致性、空间适当性和对象相关性和质量。

LAMBDA：基于大型模型的数据代理
LAMBDA: A Large Model Based Data Agent

Jul 24

ByMaojun Sun, Ruijian Han, Binyan Jiang, Houduo Qi, Defeng Sun, Yancheng Yuan, Jian Huang

我们介绍了一种名为“LAMBDA”的新型开源、无代码多智能体数据分析系统，利用大型模型的强大能力。LAMBDA旨在通过创新设计的数据智能体，通过自然语言迭代生成来解决复杂数据驱动应用中的数据分析挑战。LAMBDA的核心是两个关键智能体角色：程序员和检查员，它们经过精心设计以无缝协作。具体而言，程序员根据用户的指令和领域特定知识生成代码，利用先进模型进行增强。与此同时，检查员在必要时调试代码。为确保稳健性并处理不利情况，LAMBDA具有用户界面，允许用户直接介入操作循环。此外，LAMBDA可以通过我们的知识集成机制灵活集成外部模型和算法，满足定制数据分析的需求。LAMBDA在各种机器学习数据集上表现出色。它有潜力通过无缝整合人工智能和人类智慧来增强数据科学实践和分析范式，使其对来自不同背景的个人更加易于访问、有效和高效。LAMBDA在解决数据科学问题方面的出色表现在几个案例研究中得到展示，详情请参阅https://www.polyu.edu.hk/ama/cmfai/lambda.html。

AgentScope中的大规模多智能体模拟
Very Large-Scale Multi-Agent Simulation in AgentScope

Jul 25

ByXuchen Pan, Dawei Gao, Yuexiang Xie, Zhewei Wei, Yaliang Li, Bolin Ding, Ji-Rong Wen, Jingren Zhou

最近大型语言模型（LLMs）的进展为在非常大规模模拟中应用多智能体系统开辟了新途径。然而，在使用现有平台进行多智能体模拟时仍存在一些挑战，如可伸缩性有限、效率低、智能体多样性不足以及管理流程繁琐。为解决这些挑战，我们为AgentScope开发了几项新功能和组件，这是一个用户友好的多智能体平台，增强了其便利性和灵活性，以支持非常大规模的多智能体模拟。具体来说，我们提出了基于actor的分布式机制作为底层技术基础，实现了很高的可伸缩性和效率，并为模拟各种真实场景提供了灵活的环境支持，实现了多智能体的并行执行、集中式工作流编排，以及智能体之间以及智能体与环境之间的交互。此外，我们在AgentScope中集成了易于使用的可配置工具和自动生成后台管道，简化了创建具有多样化且详细背景设置的智能体的过程。最后，我们提供了一个基于Web的界面，方便监视和管理可能部署在多个设备上的大量智能体。我们进行了全面的模拟，以展示在AgentScope中提出的增强功能的有效性，并提供详细的观察和讨论，以突显在大规模模拟中应用多智能体系统的巨大潜力。源代码已在GitHub上发布，网址为https://github.com/modelscope/agentscope，以激发对大规模多智能体模拟的进一步研究和开发。

BetterDepth：零样本单目深度估计的即插即用扩散细化器
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

Jul 25

ByXiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers

通过在大规模数据集上训练，零样本单目深度估计（MDE）方法在野外表现出强大的性能，但往往在细节方面缺乏足够的精确性。尽管最近基于扩散的MDE方法展现出吸引人的细节提取能力，但由于难以从多样数据集中获得稳健的几何先验知识，它们在几何上具有挑战性的场景中仍然面临困难。为了充分利用这两个领域的互补优势，我们提出了BetterDepth，以有效实现几何正确的仿射不变MDE性能，同时捕获细粒度的细节。具体而言，BetterDepth是一种有条件的基于扩散的细化器，它以预训练的MDE模型的预测作为深度条件，其中全局深度上下文被很好地捕获，并根据输入图像迭代地细化细节。为了训练这样一个细化器，我们提出了全局预对齐和局部补丁遮罩方法，以确保BetterDepth对深度条件的忠实性，同时学习捕获细粒度的场景细节。通过在小规模合成数据集上进行高效训练，BetterDepth在各种公共数据集和野外场景中实现了最先进的零样本MDE性能。此外，BetterDepth可以以即插即用的方式改善其他MDE模型的性能，无需额外的重新训练。

AMEX：用于移动GUI代理的Android多注释博览会数据集
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents

Jul 3

ByYuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li

人工智能代理引起了越来越多的关注，主要是因为它们能够感知环境、理解任务并自主实现目标。为了推动移动场景下人工智能代理的研究，我们引入了Android多注释博览会（AMEX），这是一个专为通用移动GUI控制代理设计的全面大规模数据集。他们通过直接与移动设备上的图形用户界面（GUI）进行交互来完成复杂任务的能力是通过提出的数据集进行训练和评估的。AMEX包括来自110个热门移动应用的超过104K高分辨率截图，这些截图在多个层次上进行了注释。与现有的移动设备控制数据集（例如MoTIF、AitW等）不同，AMEX包括三个级别的注释：GUI交互元素定位、GUI屏幕和元素功能描述以及复杂的自然语言说明，每个平均包含13个步骤，具有逐步的GUI操作链。我们从更具指导性和详细性的角度开发了这一数据集，以补充现有数据集的一般设置。此外，我们开发了一个基准模型SPHINX代理，并比较其在其他数据集上训练的最新代理的性能。为了促进进一步的研究，我们开放源代码我们的数据集、模型和相关评估工具。该项目可在https://yuxiangchai.github.io/AMEX/ 上找到。

课程校正：使用合成偏好进行安全对齐
Course-Correction: Safety Alignment Using Synthetic Preferences

Jul 23

ByRongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu

大语言模型（LLMs）生成有害内容的风险变得日益关键。本文针对评估和提升LLMs执行纠错任务的能力进行了系统研究，即模型能够自主避免生成有害内容。首先，我们引入了C^2-Eval基准用于定量评估，并分析了10个流行的LLMs，揭示了当前安全调整的LLMs在纠错方面的不同熟练程度。为了改进，我们提出使用偏好学习对LLMs进行微调，强调对及时纠错的偏好。通过自动化流程，我们创建了C^2-Syn，一个包含75万对偏好的合成数据集，通过数据驱动的偏好学习向模型传授及时纠错的概念。对两个LLMs，Llama2-Chat 7B和Qwen2 7B进行的实验表明，我们的方法有效地增强了纠错技能，而不影响总体性能。此外，它有效地提高了LLMs的安全性，特别是抵抗越狱攻击。

数据混合推断：BPE 分词器对其训练数据有何启示？
Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Jul 23

ByJonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith

当今最强大语言模型的预训练数据是不透明的。特别是，我们对各个领域或语言所占比例了解甚少。在这项工作中，我们解决了一个名为数据混合推断的任务，旨在揭示训练数据的分布组成。我们引入了一种基于先前被忽视的信息源的新型攻击——字节对编码（BPE）分词器，这是大多数现代语言模型使用的。我们的关键洞察是，由BPE分词器学习到的合并规则有序列表自然地揭示了有关其训练数据中标记频率的信息：第一个合并是最常见的字节对，第二个是在合并第一个标记后最常见的对，依此类推。给定一个分词器的合并列表以及每个感兴趣类别的数据样本，我们制定了一个线性规划，用于解决分词器训练集中每个类别的比例。重要的是，分词器训练数据代表了预训练数据的程度，我们间接了解了有关预训练数据的信息。在受控实验中，我们展示了我们的攻击可以高精度地恢复在已知混合的自然语言、编程语言和数据源上训练的分词器的混合比例。然后，我们将我们的方法应用于最近发布的现成分词器。我们确认了关于这些模型的许多公开披露的信息，并做出了几项新的推断：GPT-4o的分词器比其前身更多语言，使用39%的非英语数据进行训练；Llama3主要用于多语言（48%）的用途，扩展了GPT-3.5的分词器；GPT-3.5和Claude的分词器主要用于代码（约60%）的训练。我们希望我们的工作能揭示当前预训练数据设计实践的一些情况，并激发对语言模型数据混合推断的持续研究。

利用弹性缓存高效推断视觉指令跟随模型
Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Jul 25

ByZuyan Liu, Benlin Liu, Jiahui Wang, Yuhao Dong, Guangyi Chen, Yongming Rao, Ranjay Krishna, Jiwen Lu

在指令跟随大型视觉语言模型（LVLMs）领域中，这些模型的高效部署面临挑战，主要是由于其键-值（KV）缓存的高内存需求。传统的LLMs缓存管理策略侧重于缓存驱逐，这往往无法满足多模态指令跟随模型的特定需求。鉴于这一差距，在本文中，我们引入了弹性缓存（Elastic Cache），这是一种新颖方法，通过为指令编码和输出生成阶段应用不同的加速方法而获益。我们研究了不同阶段的重要性指标，并提出了一种基于重要性驱动的缓存合并策略来修剪冗余缓存。我们的策略不是丢弃不太重要的缓存，而是将重要的键/值向量识别为锚点。然后，将周围不太重要的缓存与这些锚点合并，增强KV缓存中上下文信息的保留，同时产生任意的加速比。对于指令编码，我们利用频率来评估缓存的重要性。关于输出生成，我们根据它们与偏移的距离优先考虑标记，从而保留初始和最近的标记。在一系列LVLMs上的结果表明，弹性缓存不仅提高了效率，而且在各种任务的语言生成中明显优于现有的修剪方法。代码可在https://github.com/liuzuyan/ElasticCache找到。

LKCell：使用大卷积核进行高效细胞核实例分割
LKCell: Efficient Cell Nuclei Instance Segmentation with Large Convolution Kernels

Jul 25

ByZiwei Cui, Jingfeng Yao, Lunbin Zeng, Juan Yang, Wenyu Liu, Xinggang Wang

在用血液染料伊红和噻吩（H&E）染色的组织图像中细胞核的分割对于各种临床应用和分析至关重要。由于细胞形态的复杂特征，一个大的感受野被认为是生成高质量分割的关键。然而，先前的方法在实现感受野和计算负担之间的平衡方面面临挑战。为解决这一问题，我们提出了LKCell，一种高准确性和高效率的细胞分割方法。其核心洞察力在于释放大卷积核的潜力，实现计算效率高的大感受野。具体来说，（1）我们首次将预训练的大卷积核模型转移到医学领域，证明它们在细胞分割中的有效性。（2）我们分析了先前方法的冗余性，并设计了一个基于大卷积核的新分割解码器。它在显著减少参数数量的同时实现了更高的性能。我们在最具挑战性的基准测试上评估了我们的方法，并在细胞核实例分割中取得了最先进的结果（0.5080 mPQ），与先前领先方法相比，FLOPs仅为21.6％。我们的源代码和模型可在https://github.com/hustvl/LKCell 上获得。

Dallah：一种针对阿拉伯语的方言感知多模态大型语言模型
Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

Jul 25

ByFakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed

最近的进展显著增强了多模态大型语言模型（MLLMs）在生成和理解图像到文本内容方面的能力。尽管取得了这些成功，但由于其他语言中高质量多模态资源的稀缺，进展主要局限于英语。这一限制阻碍了在阿拉伯语等语言中开发竞争性模型。为了缓解这种情况，我们引入了一款名为 Dallah 的高效阿拉伯语多模态助手，该助手利用基于LLaMA-2的先进语言模型促进多模态交互。Dallah 在阿拉伯语MLLMs中展示了最先进的性能。通过对六种阿拉伯方言进行微调，Dallah 展示了其处理包含文本和视觉元素的复杂方言交互的能力。该模型在两项基准测试中表现出色：一项评估其在现代标准阿拉伯（MSA）上的表现，另一项专门设计用于评估方言响应。除了在多模态交互任务中表现出色外，Dallah 还有潜力为方言感知的阿拉伯语MLLMs的进一步发展铺平道路。

基于文本驱动的神经协同过滤模型用于论文来源追踪。
Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing

Jul 25

ByAobo Xu, Bingyu Chang, Qingpeng Liu, Ling Jian

在引文知识图的复杂相互关系中识别重要参考文献是具有挑战性的，这涵盖了通过引文、作者、关键词和其他关联属性建立的连接。Paper Source Tracing（PST）任务旨在利用先进的数据挖掘技术自动识别给定学术文章的关键参考文献。在KDD CUP 2024中，我们设计了一个专为PST任务定制的基于推荐的框架。该框架采用神经协同过滤（NCF）模型生成最终预测。为了处理论文的文本属性并提取模型的输入特征，我们利用了SciBERT，一个预训练语言模型。根据实验结果，我们的方法在平均精度（MAP）指标上达到了0.37814的得分，优于基准模型，并在所有参赛团队中排名第11。源代码可在https://github.com/MyLove-XAB/KDDCupFinal 上公开获取。

关于新闻媒体叙事的FIGNEWS共享任务
The FIGNEWS Shared Task on News Media Narratives

Jul 25

ByWajdi Zaghouani, Mustafa Jarrar, Nizar Habash, Houda Bouamor, Imed Zitouni, Mona Diab, Samhaa R. El-Beltagy, Muhammed AbuOdeh

我们介绍了FIGNEWS共享任务的概述，该任务作为ArabicNLP 2024会议的一部分与ACL 2024同期举办。该共享任务致力于处理多语言新闻帖子中的偏见和宣传标注。我们以加沙以色列战争初期为案例进行研究。该任务旨在促进协作，通过创建分析不同叙事的框架，突出潜在的偏见和宣传，制定主观任务的标注指南。秉持促进和鼓励多样性的精神，我们从多语言的角度来解决这一问题，即在五种语言中：英语、法语、阿拉伯语、希伯来语和印地语。共有17个团队参与了两个标注子任务：偏见（16个团队）和宣传（6个团队）。团队参加了四个评估轨道的竞争：指南开发、标注质量、标注数量和一致性。总体而言，这些团队共产生了129,800个数据点。讨论了关键发现和对该领域的影响。

AI研究论文每日精选

每日精选AI研究论文及翻译