每日精选AI研究论文及翻译
检索增强生成(RAG)已被证明可以提高知识能力并缓解LLM的幻觉问题。网络是RAG系统中使用的主要外部知识来源,许多商业系统如ChatGPT和Perplexity都使用网络搜索引擎作为它们的主要检索系统。通常,这类RAG系统检索搜索结果,下载结果的HTML源代码,然后从HTML源代码中提取纯文本。纯文本文档或片段被输入LLM以增强生成。然而,在这种基于纯文本的RAG过程中,HTML中固有的许多结构和语义信息,如标题和表结构,都会丢失。为了缓解这一问题,我们提出了HtmlRAG,它在RAG中使用HTML而不是纯文本作为检索到的知识的格式。我们认为HTML在建模外部文档中的知识方面优于纯文本,并且大多数LLM具有理解HTML的强大能力。然而,利用HTML也带来了新的挑战。HTML包含额外的内容,如标签、JavaScript和CSS规范,这些内容会给RAG系统带来额外的输入标记和噪音。为了解决这个问题,我们提出了HTML清理、压缩和修剪策略,以缩短HTML的长度同时最大限度地减少信息丢失。具体来说,我们设计了一个基于两步块树的修剪方法,用于修剪无用的HTML块,并仅保留HTML的相关部分。对六个问答数据集的实验证实了在RAG系统中使用HTML的优越性。
大型语言模型(LLMs)通过指令调整展示出了出色的泛化能力和遵循指令的能力。LLMs和指令调整的进展导致了大型视觉语言模型(LVLMs)的发展。然而,LLMs和指令调整在分子领域的能力尚未得到充分探索。因此,我们提出了LLaMo:基于大型语言模型的分子图助手,这是一个端到端训练的大型分子图语言模型。为了弥合语言和图形模态之间的差异,我们提出了多级图投影器,通过抽象化每个GNN层的输出表示和基序表示,利用交叉注意机制将图表示转换为图标记。我们还引入了机器生成的分子图指令数据,用于指令调整大型分子图语言模型,以实现通用分子和语言理解。我们的广泛实验表明,LLaMo在各种任务上表现出最佳性能,如分子描述生成、性质预测和IUPAC命名预测。LLaMo的代码可在https://github.com/mlvlab/LLaMo 上找到。
随着大型生成模型的能力不断增强以及它们的日益广泛应用,人们对其可靠性、安全性和潜在误用问题产生了担忧。为了解决这些问题,最近的研究提出通过引导模型激活来控制模型生成,以有效诱导或阻止生成输出中概念或行为的出现。本文介绍了激活传输(AcT),这是一个通用框架,通过最优输运理论引导激活,泛化了许多先前的激活引导工作。AcT不受模态限制,可以对模型行为进行细粒度控制,计算开销极小,对模型能力的影响也很小。我们通过实验证明了我们方法的有效性和多功能性,解决了大型语言模型(LLMs)和文本到图像扩散模型(T2Is)中的关键挑战。在LLMs中,我们展示了AcT可以有效减轻有毒性、诱导任意概念并增加其真实性。在T2Is中,我们展示了AcT如何实现细粒度样式控制和概念否定。
当前的视觉系统通常会为图像分配固定长度的表示,而不考虑信息内容。这与人类智能以及大型语言模型不同,后者会根据熵、上下文和熟悉度分配不同的表示能力。受此启发,我们提出了一种学习2D图像可变长度标记表示的方法。我们的编码器-解码器架构递归地处理2D图像标记,将它们提炼成多次迭代中的1D潜在标记。每次迭代都会优化2D标记,更新现有的1D潜在标记,并通过添加新标记自适应地增加表示能力。这使得图像可以被压缩为可变数量的标记,范围从32到256。我们使用重构损失和FID指标验证了我们的标记器,证明了标记数量与图像熵、熟悉度和下游任务需求保持一致。每次迭代中表示能力增加的循环标记处理显示出标记专业化的迹象,揭示了对象/部件发现的潜力。
MLLMs展示了出色的理解和推理能力,能够处理复杂的语言和视觉数据。这些进展推动了建立一种通用的机器人MLLM的愿景,使其擅长理解复杂的人类指令并完成各种具体任务。然而,为现实世界的机器人开发MLLM是具有挑战性的,因为机器人平台通常具有有限的计算和内存容量。相比之下,MLLM的推断涉及存储数十亿个参数并进行巨大计算,对硬件的要求很高。在我们的论文中,我们提出了一个用于机器人视觉-语言-动作模型的动态早期退出框架(DeeR-VLA,或简称DeeR),它根据每种情况自动调整激活的MLLM的大小。该方法利用MLLM中的多出口架构,允许模型在为特定情况激活了适当大小的模型后终止处理,从而避免进一步冗余计算。此外,我们开发了建立DeeR的早期终止标准的新算法,这些标准取决于预定义的需求,如平均计算成本(即功耗)、峰值计算消耗(即延迟)和GPU内存使用量。这些增强措施确保DeeR在不同资源约束下高效运行,同时保持竞争性能。在CALVIN机器人操纵基准测试中,DeeR将LLM的计算成本降低了5.2-6.5倍,将LLM的GPU内存降低了2-6倍,而不影响性能。代码和检查点可在https://github.com/yueyang130/DeeR-VLA找到。
我们研究了在给定预算的在线反馈情况下,如何有效地将大型语言模型(LLMs)与人类偏好进行对齐的方法。我们首先在上下文对决型强盗的框架中对LLM对齐问题进行了规范化。这种规范化涵盖了最近的范式,如在线RLHF和在线DPO,固有地寻求结合在线主动探索的样本高效算法。借鉴强盗理论的见解,我们介绍了一种基于汤普森抽样的统一算法,并突出了其在两种不同的LLM对齐场景中的应用。这种有效实现该算法的实际代理被命名为SEA(Sample-Efficient Alignment),通过在三个模型规模(1B、2.8B、6.9B)和三种偏好学习算法(DPO、IPO、SLiC)上进行大量实验进行了经验验证。结果表明,SEA实现了高度样本高效的对齐,优于最近用于LLMs的主动探索方法。此外,我们发布了SEA的实现,以及专为LLMs在线对齐设计的高效代码库,旨在加速该领域未来的研究。
我们介绍了DreamPolish,这是一个在生成精细几何和高质量纹理方面表现出色的文本到3D生成模型。在几何构建阶段,我们的方法利用多个神经表示来增强合成过程的稳定性。我们不仅仅依赖于新颖采样视图中的视图条件扩散先验,因为这经常会导致几何表面上不希望出现的伪影,我们还结合了额外的法线估计器来优化几何细节,这些细节是根据不同视角的视场来确定的。我们建议增加一个表面优化阶段,只需进行少量训练步骤,就可以有效地改进由于前几个阶段受到的有限指导而产生的伪影,并产生具有更理想几何的3D物体。在使用预训练文本到图像模型进行纹理生成的关键问题是在这些模型的广阔潜在分布中找到一个包含照片级和一致渲染的合适领域。在纹理生成阶段,我们引入了一种新颖的分数蒸馏目标,即域分数蒸馏(DSD),以引导神经表示朝向这样一个领域。我们从文本条件图像生成任务中的无分类器指导(CFG)中汲取灵感,并展示CFG和变分分布指导代表了梯度指导中的不同方面,对于提高纹理质量来说,这两个领域都是至关重要的。大量实验证明我们提出的模型可以生成具有优化表面和照片级纹理的3D资产,优于现有的最先进方法。
神经隐式函数为从多个甚至单个图像实现服装人体数字化的最新技术带来了令人瞩目的进展。然而,尽管取得了进展,当前的技术仍然难以推广到具有复杂布料变形和身体姿势的未见图像。在这项工作中,我们提出了GarVerseLOD,这是一个新的数据集和框架,为从单个无约束图像实现高保真度3D服装重建铺平了道路。受大型生成模型最近取得的成功启发,我们认为解决泛化挑战的关键之一在于3D服装数据的数量和质量。为此,GarVerseLOD收集了由专业艺术家手动创建的具有细粒度几何细节的6,000个高质量布料模型。除了训练数据的规模外,我们观察到几何解耦的粒度可以在提升学习模型的泛化能力和推理准确性方面发挥重要作用。因此,我们将GarVerseLOD设计为一个具有不同细节级别(LOD)的分层数据集,从无细节风格化形状到融合姿势的服装并具有像素对齐细节。这使我们可以通过将推理分解为更容易的任务,每个任务缩小搜索空间,从而使这个高度不受约束的问题变得可解。为了确保GarVerseLOD能够很好地推广到野外图像,我们提出了一种基于条件扩散模型的新型标记范式,为每个服装模型生成大量具有高照相逼真度的配对图像。我们在大量野外图像上评估了我们的方法。实验结果表明,GarVerseLOD能够生成具有明显更好质量的独立服装部件,优于先前的方法。项目页面:https://garverselod.github.io/
视觉语言模型(VLMs)在各种视觉理解和推理任务中展现出强大的能力。然而,它们在实际部署中往往受到推理过程中的高延迟限制,这是由于处理大量输入标记(主要来自图像)所需的计算量较大。为了降低推理成本,可以通过缩小LLM或减少输入图像标记的数量来实现,后者是许多最近关于标记压缩的研究的重点。然而,目前尚不清楚最佳权衡是什么,因为这两个因素直接影响VLM的性能。我们首先通过建立捕捉这两个因素对性能变化的规律性的缩放定律来表征视觉标记数量和LLM参数之间的最佳权衡。我们的结果揭示了一个令人惊讶的趋势:对于视觉推理任务,VLM中的推理最优行为,即在任何给定的固定推理计算下实现最小的下游误差,是通过使用适合推理预算的最大LLM来实现的,同时最小化视觉标记数量-通常是一个标记。虽然标记减少的文献主要集中在通过适度减少标记数量(例如5-10倍)来维持基本模型性能,但我们的结果表明,计算最优推理范围要求在更高的标记压缩比下运行。基于这些见解,我们正在采取一些初步步骤,以构建适用于高标记压缩设置的方法。代码可在https://github.com/locuslab/llava-token-compression找到。
罕见疾病在医疗保健中面临独特挑战,常常出现延迟诊断和信息碎片化的情况。在这些疾病中可靠知识的稀缺性为大型语言模型(LLMs)提供了一个独特挑战,支持临床管理并提供准确的患者信息,强调对这些“斑马”病例进行专注培训的必要性。我们提出了Zebra-Llama,这是一个专门的上下文感知语言模型,具有高精度的检索增强生成(RAG)能力,重点关注埃勒斯-丹洛斯综合征(EDS)作为我们的案例研究。EDS每5000人中就有1人患病,通过其多样的症状、多个亚型和不断发展的诊断标准展示了罕见疾病的复杂性。通过实施一种新颖的上下文感知微调方法,该方法是在医学文献、患者经验和临床资源中提取问题进行训练的,再加上经过专家精心策划的回答,Zebra-Llama在处理与EDS相关的查询方面展示了前所未有的能力。在从EDS患者和临床医生那里收集的真实问题测试集上,医学专家评估了两种模型生成的回答,揭示了Zebra-Llama在全面性(77.5% vs. 70.1%)、准确性(83.0% vs. 78.8%)、清晰度(74.7% vs. 72.0%)和引文可靠性(70.6% vs. 52.3%)方面相对于基础模型(Llama 3.1-8B-Instruct)的显著改进。作为一个开放资源发布,Zebra-Llama不仅提供了更易获取和可靠的EDS信息,还为开发其他罕见疾病的专门人工智能解决方案奠定了框架。这项工作代表了向罕见疾病管理民主化专家级知识迈出的关键一步,潜在地改变了医疗保健提供者和患者如何应对罕见疾病复杂领域的方式。
随着目标检测技术的不断发展,理解它们与互补视觉任务的关系对于优化模型架构和计算资源变得至关重要。本文研究了目标检测准确性与两个基本视觉任务——深度预测和视觉显著性预测之间的相关性。通过在COCO和Pascal VOC数据集上使用最先进的模型(DeepGaze IIE、Depth Anything、DPT-Large和Itti的模型)进行全面实验,我们发现视觉显著性与目标检测准确性之间表现出一致性更强的相关性(在Pascal VOC上mArho高达0.459),相比之下深度预测的相关性较低(mArho最高达0.283)。我们的分析揭示了这些相关性在不同目标类别之间存在显著变化,较大的目标显示出高达三倍于较小目标的相关值。这些发现表明,将视觉显著性特征纳入目标检测架构可能比深度信息更有益,尤其是对于特定目标类别。观察到的类别特定变化还为有针对性的特征工程和数据集设计改进提供了见解,潜在地促进更高效准确的目标检测系统的发展。