每日精选AI研究论文及翻译
本研究分析了使用标准的浅层前馈网络来模拟原始Transformer模型中注意力机制行为的有效性。Transformer是一种用于序列到序列任务的最先进架构。我们用简单的前馈网络替换Transformer中注意力机制的关键元素,并通过知识蒸馏训练这些网络,实验在IWSLT2017数据集上进行。结果显示这些“无注意力Transformer”具有与原始架构相媲美的性能。通过严格的消融研究,并尝试不同替代网络类型和规模,我们提供支持我们方法可行性的见解。这不仅揭示了浅层前馈网络在模拟注意力机制方面的适应性,还强调了它们简化序列到序列任务复杂架构的潜力。
通过从2D扩散模型中提炼的先验知识,生成模型在3D物体合成方面取得了显著进展。然而,在现有的3D合成框架中仍存在多视角几何不一致和生成速度缓慢的挑战。这可以归因于两个因素:首先,在优化中几何先验知识不足,其次是传统3D生成方法中几何和纹理之间的纠缠问题。作为回应,我们引入了MetaDreammer,这是一种利用丰富的2D和3D先验知识的两阶段优化方法。在第一阶段,我们重点优化几何表示,以确保3D物体的多视角一致性和准确性。在第二阶段,我们集中于微调几何和优化纹理,从而实现更精细的3D物体。通过分别利用两个阶段的2D和3D先验知识,我们有效地缓解了几何和纹理之间的相互依赖关系。MetaDreamer为每个阶段建立了明确的优化目标,从而在3D生成过程中节省了大量时间。最终,MetaDreamer可以基于文本提示在20分钟内生成高质量的3D物体,并据我们所知,这是最高效的文本到3D生成方法。此外,我们将图像控制引入到该过程中,增强了3D生成的可控性。大量经验证据证实,我们的方法不仅高效,而且达到了当前最先进的3D生成技术水平。
在这项工作中,我们展示了文本到图像生成模型可以被“反演”,以完全自动化的方式评估它们自身的文本-图像理解能力。 我们的方法名为SelfEval,利用生成模型计算给定文本提示时真实图像的可能性,使生成模型直接适用于判别任务。 利用SelfEval,我们重新利用用于评估多模态文本-图像判别模型的标准数据集,以细粒度的方式评估生成模型:评估它们在属性绑定、颜色识别、计数、形状识别、空间理解等方面的表现。 据我们所知,SelfEval是第一个自动化度量标准,对于测量文本忠实度在多个模型和基准测试中与黄金标准人类评估表现出高度一致。 此外,SelfEval使我们能够评估生成模型在挑战性任务上的表现,例如Winoground图像评分,在这些任务中它们展现出与判别模型竞争性的表现。 我们还展示了标准自动化度量标准,如CLIP-score,在诸如DrawBench之类基准测试中衡量文本忠实度的严重缺陷,以及SelfEval如何规避这些问题。 我们希望SelfEval能够为扩散模型提供简单可靠的自动化评估。
尽管视觉Transformer(ViTs)具有可扩展的性能,但密集的计算成本(训练和推断)削弱了它们在工业应用中的地位。后训练量化(PTQ)是一种通过使用小数据集微调ViTs并以低比特格式运行来有效解决成本问题的方法,但不幸的是,在低比特情况下会导致更多性能下降。在本文中,我们介绍了I&S-ViT,这是一种新颖的方法,以全面且稳定的方式调节ViTs的PTQ。I&S-ViT首先确定了ViTs的PTQ中的两个问题:(1)在常见的log2量化器中,后Softmax激活的量化效率不高;(2)在后LayerNorm激活的粗粒度量化粒度中,存在崎岖且放大的损失景观。然后,I&S-ViT通过引入以下内容解决了这些问题:(1)一种新颖的shift-uniform-log2量化器(SULQ),它结合了一个位移机制,然后是均匀量化,以实现包容性域表示和准确的分布逼近;(2)一种三阶段平滑优化策略(SOS),将通道级和层级量化的优势融合在一起,实现稳定学习。对各种视觉任务的全面评估验证了I&S-ViT在现有ViTs PTQ方法中的优越性,特别是在低比特情况下。例如,I&S-ViT将3比特ViT-B的性能提升了惊人的50.68%。
大型语言模型(LLMs)展现出在推理和决策能力方面的巨大改进,能够与用户进行自然对话。许多最近的研究旨在通过外部工具增强基于LLM的助手,使其能够访问私人或最新信息,并代表用户执行操作。为了更好地衡量这些助手的性能,本文介绍了ToolTalk,一个由复杂用户意图组成的基准测试,需要通过对话指定多步工具使用。ToolTalk 包含 28 个工具,分为 7 个插件,并包括每个工具的完整模拟实现,从而实现对依赖执行反馈的助手进行完全自动化评估。ToolTalk 还强调那些对外部世界产生影响的工具,而不仅仅是用于引用或搜索信息的工具。我们在 ToolTalk 上评估了 GPT-3.5 和 GPT-4,结果显示成功率分别为 26% 和 50%。我们对错误进行了分析,发现了三个主要类别,并提出了一些未来改进的方向。我们在 https://github.com/microsoft/ToolTalk 上发布了 ToolTalk。
当今的机器人政策在面对泛化到新环境的挑战时表现不佳。人类的纠正反馈是一种至关重要的指导形式,可以帮助实现这种泛化。然而,适应并从在线人类纠正中学习是一项非常困难的任务:机器人不仅需要随时间记住人类反馈以便在新环境中检索正确信息并降低干预率,还需要能够对可能是关于高级人类偏好到低级技能参数调整的任意纠正做出回应。在这项工作中,我们提出了在线纠正的提取和检索(DROC)系统,这是一个基于大型语言模型(LLM)的系统,可以回应任意形式的语言反馈,从纠正中提炼出可泛化的知识,并基于文本和视觉相似性检索相关的过去经验,以提高在新环境中的性能。DROC能够回应一系列在线语言纠正,涉及高级任务计划和低级技能基元的失败。我们展示了DROC有效地从一系列在线纠正中提取相关信息,并在具有新任务或对象实例的环境中检索这些知识。DROC通过仅使用一半数量的第一轮所需纠正,在两次迭代后几乎不需要任何纠正,胜过了通过LLM直接生成机器人代码的其他技术。我们在https://sites.google.com/stanford.edu/droc 上展示了更多结果、视频、提示和代码。