每日精选AI研究论文及翻译
本文介绍了Medical SAM 2(MedSAM-2),这是一种先进的分割模型,利用SAM 2框架来处理2D和3D医学图像分割任务。通过采用将医学图像视为视频的理念,MedSAM-2不仅适用于3D医学图像,还开启了新的一键分割功能。这使用户可以仅提供一个或特定图像的提示,针对一个对象,之后模型可以自主地在所有后续图像中分割相同类型的对象,而不考虑图像之间的时间关系。我们评估了MedSAM-2在各种医学成像模态下的表现,包括腹部器官、视盘、脑肿瘤、甲状腺结节和皮肤病变,将其与传统和交互式分割设置中的最先进模型进行比较。我们的研究结果显示,MedSAM-2不仅在性能上超越了现有模型,而且在各种医学图像分割任务中表现出更优越的泛化能力。我们的代码将在以下网址发布:https://github.com/MedicineToken/Medical-SAM2
大规模自监督预训练为一个基础模型处理多种不同视觉任务铺平了道路。大多数预训练方法一次训练一个特定大小的单一模型。然而,在现实场景中的各种计算或存储限制要求开发一系列不同大小的模型以供部署需要大量工作。因此,在本研究中,我们提出了一种新颖的三支自监督训练框架,称为POA(一次预训练适用于所有),以解决上述问题。我们的方法将一种创新的弹性学生支架引入现代自蒸馏范式中。在每个预训练步骤中,我们从原始学生中随机抽样一个子网络形成弹性学生,并以自蒸馏方式训练所有支枝。一旦预训练完成,POA允许提取不同大小的预训练模型用于下游任务。值得注意的是,弹性学生促进了同时预训练多个不同大小的模型,还作为各种大小模型的额外集成,以增强表示学习。包括k最近邻、线性探测评估以及多个下游任务的广泛实验表明了我们的POA的有效性和优势。它在ViT、Swin Transformer和ResNet骨干上实现了最先进的性能,通过单次预训练会话生成大约一百个不同大小的模型。代码可在以下链接找到:https://github.com/Qichuzyy/POA。
实体链接(EL)和关系抽取(RE)是自然语言处理中的基本任务,在各种应用中扮演关键角色。本文提出了ReLiK,一种适用于EL和RE的检索器-阅读器架构,在给定输入文本的情况下,检索器模块负责识别可能出现在文本中的候选实体或关系。随后,阅读器模块的任务是辨别相关的检索实体或关系,并建立它们与相应文本跨度的对齐。值得注意的是,我们提出了一种创新的输入表示,将候选实体或关系与文本一起整合,使得能够在单次前向传递中链接实体或提取关系,并充分利用预训练语言模型的上下文化能力,与之前的基于检索器-阅读器的方法形成对比,后者需要为每个候选实体进行一次前向传递。我们的EL和RE配方在领域内外基准测试中实现了最先进的性能,同时使用学术预算训练,并与竞争对手相比推理速度提高了多达40倍。最后,我们展示了我们的架构如何无缝地用于信息提取(cIE),即EL + RE,并通过使用共享阅读器同时提取实体和关系,树立了一个新的技术水平。
针对给定的3D网格,我们旨在合成与任意文本描述相对应的3D纹理。当前用于从采样视图生成和组装纹理的方法通常会导致明显的接缝或过度平滑。为了解决这些问题,我们提出了TexGen,这是一个新颖的多视角采样和重采样框架,用于纹理生成,利用了预训练的文本到图像扩散模型。为了实现视角一致的采样,首先我们维护一个在RGB空间中参数化的纹理映射,该映射由去噪步骤参数化,并在每个扩散模型的采样步骤之后更新,逐渐减少视角差异。利用基于注意力的多视角采样策略来在视角之间传播外观信息。为了保留纹理细节,我们开发了一种噪声重采样技术,有助于噪声估计,生成用于后续去噪步骤的输入,根据文本提示和当前纹理映射的指导。通过大量的定性和定量评估,我们展示了我们提出的方法在各种3D对象的纹理质量方面表现出色,具有高度的视角一致性和丰富的外观细节,优于当前最先进的方法。此外,我们提出的纹理生成技术还可以应用于纹理编辑,同时保留原始身份。更多实验结果请访问https://dong-huo.github.io/TexGen/。
联合处理音频和语言的多模态模型在音频理解方面具有巨大潜力,并在音乐领域越来越受到采用。通过允许用户通过文本查询并获取有关特定音频输入的信息,这些模型有潜力通过基于语言的界面实现各种音乐理解任务。然而,它们的评估面临着相当大的挑战,目前尚不清楚如何有效评估它们对音乐相关输入的正确解释能力。受此启发,我们引入了MuChoMusic,这是一个专注于音频的多模态语言模型中评估音乐理解的基准。MuChoMusic包括1,187个多项选择问题,全部由人类标注者验证,涵盖了来自两个公开音乐数据集的644首音乐曲目,并涵盖了各种流派。基准中的问题旨在评估跨越几个维度的知识和推理能力,涵盖了基本音乐概念及其与文化和功能背景的关系。通过基准所提供的整体分析,我们评估了五个开源模型,并确定了几个缺陷,包括对语言模态过度依赖,指出需要更好的多模态整合。数据和代码均已开源。
生成式大型语言模型(LLMs)具有在上下文中学习的能力,引发了大量关于如何最佳提示模型执行各种自然语言处理任务的研究。本文侧重于机器翻译(MT),这是一个已被证明受益于上下文翻译示例的任务。然而,目前尚未有关于如何最佳选择示例的系统研究,关于基于相似性选择是否比随机选择更有用的结果也不一。我们提供了一项涵盖多个LLMs和多种上下文示例检索策略的研究,比较多语种句子嵌入。我们涵盖了多个语言方向,代表了不同语言资源水平(英语到法语、德语、斯瓦希里语和沃洛夫语)。与先前发表的结果相反,我们发现句子嵌入相似性可以改善机器翻译,尤其是对于低资源语言方向,并讨论了选择池多样性和质量之间的平衡。我们还强调了基于LLMs的机器翻译评估可能存在的问题,并建议采用更适合的评估协议,将COMET指标调整为LLMs评估的评估方法。代码和输出可在https://github.com/ArmelRandy/ICL-MT 免费获取。
我们介绍了RelBench,这是一个用于利用图神经网络解决关系数据库中预测任务的公共基准。RelBench提供了跨越不同领域和规模的数据库和任务,并旨在成为未来研究的基础设施。我们使用RelBench进行了对关系深度学习(RDL)(Fey等,2024年)的首次全面研究,该研究将图神经网络预测模型与(深度)表格模型相结合,从原始表格中提取初始实体级表示。端到端学习的RDL模型充分利用了主外键链接中编码的预测信号,标志着从手工特征工程结合表格模型的主导范式明显转变。为了彻底评估RDL与先前的黄金标准相比,我们进行了一项深入的用户研究,其中一位经验丰富的数据科学家为每个任务手动工程化特征。在这项研究中,RDL学习到了更好的模型,同时将人工工作量减少了一个数量级以上。这展示了深度学习在解决关系数据库中预测任务方面的能力,为通过RelBench实现的许多新研究机会打开了大门。
语言模型(LM)表示中编码了哪些潜在特征? 最近关于训练稀疏自动编码器(SAEs)以解开LM表示中可解释特征的工作显示出了显著的前景。然而,评估这些SAEs的质量是困难的,因为我们缺乏一个可解释特征的基本真值集合,我们期望良好的SAEs能够恢复。因此,我们建议通过在训练了国际象棋和奥赛洛(Othello)转录的LMs的环境中工作来衡量可解释字典学习的进展。这些环境具有自然的可解释特征集合,例如“F3上有一个骑士”,我们利用这些特征集合来制定SAE质量的监督度量标准。为了指导可解释字典学习的进展,我们引入了一种新的SAE训练技术,p-退火,它提高了先前无监督度量标准以及我们的新度量标准上的性能。