每日精选AI研究论文及翻译
科学文献理解对于提取目标信息和获取洞察至关重要,从而显著推动科学发现。尽管大型语言模型(LLMs)取得了显著成功,但它们在科学文献理解方面面临挑战,主要是由于(1)缺乏科学知识和(2)对专业科学任务的陌生。 为了开发一种专门用于科学文献理解的LLM,我们提出了一种混合策略,即整合持续预训练(CPT)和监督微调(SFT),以同时注入科学领域知识并增强领域特定任务的指令遵循能力。在这个过程中,我们确定了两个关键挑战:(1)构建高质量的CPT语料库,和(2)生成多样化的SFT指令。我们通过一个细致的流程来解决这些挑战,包括PDF文本提取、解析内容错误校正、质量过滤和合成指令创建。应用这一策略,我们提出了一系列LLMs:SciLitLLM,专门用于科学文献理解。这些模型在科学文献理解基准测试中展现了有希望的性能。 我们的贡献有三个方面:(1)我们提出了一个有效的框架,将CPT和SFT整合起来,使LLMs适应科学文献理解,这也可以轻松地应用于其他领域。 (2)我们提出了一种基于LLM的综合方法,生成多样化和高质量的科学指令,从而形成了一个新的指令集 - SciLitIns,用于在较少代表的科学领域进行监督微调。 (3)SciLitLLM在科学文献理解基准测试中取得了有希望的性能改进。
最近在文本到图像个性化方面取得了重大进展,实现了为用户提供的概念进行高质量且可控的图像合成。然而,现有方法仍然在平衡身份保留和文本对齐方面存在困难。我们的方法基于这样一个事实,即生成与提示对齐的图像需要对提示进行精确的语义理解,这涉及准确处理 CLIP 文本编码器中新概念与其周围上下文标记之间的交互。为了解决这个问题,我们旨在将新概念正确嵌入到文本编码器的输入嵌入空间中,从而实现与现有标记的无缝集成。我们引入了上下文正则化(CoRe),通过规范化提示中的上下文标记来增强新概念文本嵌入的学习。这基于这样一个洞察,即只有当新概念的文本嵌入被正确学习时,才能实现提示中上下文标记的文本编码器的适当输出向量。CoRe 可以应用于任意提示,而无需生成相应的图像,从而提高了学习文本嵌入的泛化能力。此外,CoRe 可作为一种测试时优化技术,进一步增强特定提示的生成。全面的实验表明,我们的方法在身份保留和文本对齐方面优于几种基线方法。代码将公开提供。
最近对大型多模态模型(LMMs)的评估已经探索了它们在各个领域的能力,但只有少数基准专门关注城市环境。此外,现有的城市基准仅限于评估具有基本区域级城市任务的LMMs在单一视图下的表现,导致对LMMs在城市环境中能力的评估不完整。为了解决这些问题,我们提出了UrBench,这是一个专为评估复杂多视角城市场景中LMMs而设计的全面基准。UrBench包含11.6K个经过精心策划的问题,涵盖了区域级和角色级的4个任务维度:地理定位、场景推理、场景理解和物体理解,共计14种任务类型。在构建UrBench时,我们利用现有数据集的数据,另外从11个城市收集数据,使用跨视图检测匹配方法创建新的注释。借助这些图像和注释,我们结合了基于LMM的、基于规则的和基于人类的方法来构建大规模高质量的问题。我们对21个LMMs的评估显示,当前的LMMs在城市环境中在多个方面表现不佳。即使表现最佳的GPT-4o在大多数任务中也落后于人类,从简单的计数到复杂的定位、定向和物体属性识别等任务,平均表现差距为17.4%。我们的基准还揭示了LMMs在不同城市视图下表现出不一致的行为,特别是在理解跨视图关系方面。UrBench数据集和基准结果将在https://opendatalab.github.io/UrBench/ 上公开提供。
卫星到街景图像合成旨在从相应的卫星视图图像生成逼真的街景图像。尽管稳定的扩散模型在各种图像生成应用中表现出色,但它们对于控制生成的结构或纹理依赖于相似视图输入,限制了它们在具有挑战性的跨视图合成任务中的应用。在这项工作中,我们提出了CrossViewDiff,这是一种用于卫星到街景图像合成的跨视图扩散模型。为了解决跨视图之间存在的巨大差异带来的挑战,我们设计了卫星场景结构估计和跨视图纹理映射模块,以构建街景图像合成的结构和纹理控制。我们进一步设计了一种跨视图控制引导的去噪过程,通过增强的跨视图注意力模块将上述控制因素纳入其中。为了更全面地评估合成结果,我们另外设计了基于GPT的评分方法,作为标准评估指标的补充。我们还探讨了不同数据源(例如文本、地图、建筑高度和多时相卫星图像)对这一任务的影响。在三个公共跨视图数据集上的结果显示,CrossViewDiff在标准和基于GPT的评估指标上均优于当前最先进技术,生成了在农村、郊区和城市场景中具有更真实结构和纹理的高质量街景全景图。此工作的代码和模型将在https://opendatalab.github.io/CrossViewDiff/上发布。
在非洲背景下,高资源语言模型往往无法满足需求,需要高效、易获取且本地相关的模型,尽管面临着计算和数据限制。本文介绍了InkubaLM,一个拥有0.4亿参数的小型语言模型,其在机器翻译、问答、AfriMMLU和AfriXnli等任务上取得了与参数数量显著更多、训练数据更丰富的模型相媲美的性能。值得注意的是,InkubaLM在情感分析方面胜过许多更大的模型,并在多种语言上展现出卓越的一致性。这项工作代表了挑战传统范式的重要进展,即有效的语言模型必须依赖大量资源。我们的模型和数据集可公开获取\url{https://huggingface.co/lelapa},以促进对低资源语言的研究和开发。
扩散变压器模型(DiTs)已将网络架构从传统的UNets转变为变压器,在图像生成方面展现出卓越的能力。虽然DiTs已被广泛应用于高清视频生成任务,但其庞大的参数规模阻碍了在边缘设备上进行推断。向量量化(VQ)可以将模型权重分解为码书和分配,实现极端权重量化并显著减少内存使用。本文提出了VQ4DiT,一种用于DiTs的快速后训练向量量化方法。我们发现传统的VQ方法仅校准码书而不校准分配。这导致权重子向量被错误地分配到相同的分配,为码书提供不一致的梯度,导致次优结果。为解决这一挑战,VQ4DiT基于欧氏距离计算每个权重子向量的候选分配集,并基于加权平均重构子向量。然后,利用零数据和分块校准方法,高效选择集中的最佳分配同时校准码书。VQ4DiT在单个NVIDIA A100 GPU上将DiT XL/2模型量化为2位精度,耗时20分钟至5小时不等,具体取决于不同的量化设置。实验证明,VQ4DiT在模型大小和性能权衡方面取得了新的最佳状态,将权重量化为2位精度同时保持可接受的图像生成质量。
VoxCeleb说话人识别挑战(VoxSRC)是一系列从2019年持续到2023年的挑战和研讨会。这些挑战主要评估了说话人识别和日程安排任务,涵盖了各种设置,包括:封闭和开放训练数据;以及监督、自监督和半监督训练用于领域适应。这些挑战还为每个任务和设置提供了公开可用的训练和评估数据集,每年发布新的测试集。在本文中,我们对这些挑战进行了回顾,内容包括:它们探索了什么;挑战参与者开发的方法以及这些方法的演变;以及说话人验证和日程安排领域的当前状况。我们记录了在一个共同的评估数据集上挑战的五个版本中性能的进展,并详细分析了每年的特别关注点如何影响参与者的表现。本文旨在为希望了解说话人识别和日程安排领域概况的研究人员以及希望从VoxSRC挑战的成功中受益并避免错误的挑战组织者提供帮助。最后,我们讨论了该领域当前的优势和面临的挑战。项目页面:https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
多向量密集模型,例如ColBERT,在信息检索中证明了其高效性。ColBERT的后期交互评分近似于交叉编码器中所见的联合查询-文档注意力,同时保持推理效率接近传统的密集检索模型,这要归功于其双编码器架构以及最近在索引和搜索方面的优化。在本文中,我们对ColBERT模型架构和训练流程进行了几项改进,利用了在更成熟的单向量嵌入模型范式中取得成功的技术,特别是适用于异构多语言数据的技术。我们的新模型Jina-ColBERT-v2在各种英语和多语言检索任务中展现出强大的性能,同时与先前模型相比,还将存储需求减少了高达50%。
文档摘要是将文本缩短为简洁且信息丰富摘要的任务。本文介绍了一个新颖的数据集,旨在将多篇科学文章总结成调查部分。我们的贡献包括:(1)SurveySum,一个新数据集,填补了领域特定摘要工具的空白;(2)两个特定流程,用于将科学文章总结为调查部分;以及(3)使用多种指标评估这些流程,比较它们的性能。我们的结果突出了高质量检索阶段的重要性,以及不同配置对生成摘要质量的影响。
图像越来越成为记录地球生物多样性的一种方式,为加快生物学领域科学发现提供了新机遇,尤其是随着大规模视觉-语言模型(VLMs)的出现。我们探讨预训练的VLMs是否可以帮助科学家回答一系列与生物相关的问题,而无需额外的微调。本文评估了12种最先进的VLMs在生物学领域的有效性,使用了一个新颖的数据集VLM4Bio,包含30K张图像,涉及三组生物:鱼类、鸟类和蝴蝶,涵盖五个与生物相关的任务,共469K个问题-答案对。我们还探讨了应用提示技术的效果以及对VLMs性能的推理幻觉测试,为了揭示当前最先进的VLMs在使用图像回答与生物相关的问题方面的能力,带来新的见解。本文报告的所有分析的代码和数据集可在https://github.com/sammarfy/VLM4Bio 找到。
检测和归因于气候变化导致的温度上升对于理解全球变暖并指导适应策略至关重要。区分人为引起的气候信号和自然变异的复杂性挑战了传统的检测和归因(D&A)方法,这些方法旨在识别气候响应变量中的特定“指纹”。深度学习为识别广阔空间数据集中的这些复杂模式提供了潜力。然而,缺乏标准化协议阻碍了跨研究的一致性比较。我们引入了ClimDetect,这是一个标准化数据集,包含超过816k个每日气候快照,旨在提高模型在识别气候变化信号方面的准确性。ClimDetect整合了过去研究中使用的各种输入和目标变量,确保可比性和一致性。我们还探讨了视觉Transformer(ViT)在气候数据中的应用,这是这一领域中一种新颖和现代化的方法。我们的开放获取数据和代码可作为推动气候科学发展的基准,通过改进模型评估。ClimDetect可通过Huggingface数据集库公开访问,链接为:https://huggingface.co/datasets/ClimDetect/ClimDetect。
本文介绍了CURLoRA,这是一种新颖的方法,用于在大型语言模型(LLMs)中利用CUR矩阵分解来进行微调,结合了低秩适应(LoRA)的概念。我们的方法解决了LLM微调中的两个关键挑战:在持续学习过程中减轻灾难性遗忘,并减少可训练参数的数量。我们对CUR分解过程进行了独特修改,利用反转概率进行列和行的选择,作为一种隐式正则化,并将U矩阵初始化为零矩阵,仅对其进行微调。通过在多个数据集上进行实验证明,CURLoRA在减轻灾难性遗忘方面优于标准LoRA。它在各项任务中保持模型稳定性和性能,同时显著减少可训练参数的数量。我们的结果表明,与LoRA相比,在持续微调过程中,尤其是在数据有限的情况下,CURLoRA实现了非常好的和稳定的任务准确性,同时保持基础模型的困惑度分数不变。
随着人工智能领域的发展,辅助技术在各行各业中被广泛应用。医疗保健行业也不例外,有许多研究致力于开发辅助工具,以帮助医疗专业人员。自动诊断系统是其中一种有益的工具,可协助完成多项任务,包括搜集患者信息、分析检测结果和诊断患者。然而,在大多数研究中,开发能够提供不同诊断的系统的想法大多被忽视。在本研究中,我们提出了一种基于Transformer的方法,根据患者的年龄、性别、病史和症状提供不同诊断。我们使用DDXPlus数据集,该数据集根据49种疾病类型为患者提供不同诊断信息。首先,我们提出了一种处理数据集中表格化患者数据并将其转换为患者报告的方法,以使其适用于我们的研究。此外,我们引入了两个数据修改模块,以使训练数据多样化,从而提高模型的鲁棒性。我们将这一任务视为多标签分类问题,并使用四种Transformer模型进行了广泛实验。所有模型在留出测试集上均取得了令人满意的结果,F1分数均超过了97%。此外,我们设计了额外的行为测试,以更全面地了解模型。特别是,在我们的一个测试案例中,我们在一位医生的协助下准备了一个包含100个样本的自定义测试集。自定义集上的结果显示,我们提出的数据修改模块提高了模型的泛化能力。我们希望我们的研究结果能为未来的研究人员提供宝贵的见解,并激励他们开发可靠的自动不同诊断系统。
Transformer架构已经彻底改变了生物信息学,并推动了对生物分子性质的理解和预测的进展。几乎所有关于大规模生物序列Transformer的研究都集中在一次处理一个领域(单组学),通常是核苷酸或肽段。这些模型在每个领域的下游任务中取得了令人难以置信的成功,并在肽段序列和结构建模方面取得了特别显著的突破。然而,这些单组学模型自然无法对多组学任务进行建模,其中最具生物学重要性的之一是核苷酸-肽段相互作用。 我们提出了训练第一个多组学核苷酸-肽段基础模型的工作。我们展示了这些多组学模型(MOMs)能够学习各种单组学分布之间的联合表示,这些表示与分子生物学中的中心法则紧密一致,尽管只是在未标记的生物序列上进行训练。我们进一步证明,MOMs可以进行微调以在肽段-核苷酸相互作用任务上取得最先进的结果,即预测给定寡核苷酸和肽段之间结合相互作用的吉布斯自由能变化(ΔG),以及由于寡核苷酸序列突变而导致的这种结合相互作用的影响(ΔΔG)。 值得注意的是,我们展示了多组学生物序列Transformer在没有任何先前结构训练的情况下紧急学习到有用的结构信息,从而使我们能够预测哪些肽段残基在肽段-核苷酸结合相互作用中起着最重要的作用。最后,我们提供证据表明,多组学生物序列模型不逊于在单组学分布上训练的基础模型,这表明了构建这些模型的更广义或基础性方法。
参数高效微调(PEFT)方法已经变得流行,并使得大型语言模型(LLM)的使用变得更加民主化。最近的研究表明,一小部分权重显著影响性能。基于这一观察,我们引入了一种新颖的PEFT方法,名为注入高斯噪声以微调显著权重(GIFT-SW)。我们的方法仅更新显著列,同时向非显著列注入高斯噪声。为了识别这些列,我们开发了一个广义敏感度度量,扩展并统一了先前研究中的度量标准。对LLaMA模型的实验表明,GIFT-SW在相同的计算预算下优于完全微调和现代PEFT方法。此外,GIFT-SW在实践中具有优势,可以恢复经过混合精度量化的模型的性能,并保持显著权重的全精度。
通过压缩多样化叙事,LLM超越了仅仅记忆的范畴,通过捕捉可泛化的因果关系实现了智能化。然而,由于训练数据多样性不足,它们存在局部的“表示间隙”,限制了它们在现实世界中的实用性,特别是在需要严格遵循规则的任务中。依赖于繁重人工标注的传统对齐方法效率低下且不可扩展。最近的自对齐技术也存在不足,因为它们通常依赖于基于自我选择的提示和基于记忆的学习。为了解决这些问题,我们引入了迭代图对齐(IGA),这是一种无需注释的基于规则的对齐算法。一位教师模型(VLM)采用迭代图提示(IGP)来创建逻辑图和参考答案。学生模型(LLM)通过尝试将其响应与这些参考答案对齐来识别局部知识间隙,与辅助模型合作生成多样化的答案。然后,这些对齐的响应被用于迭代监督微调(SFT)。我们在五个基于规则的场景中的评估显示了IGP的有效性,在Claude Sonnet 3.5中实现了73.12\%的对齐改进,Llama3-8B-Instruct实现了86.20%的改进,优于Claude Sonnet 3.5在基于规则的对齐方面。