每日精选AI研究论文及翻译
知识蒸馏(KD)被广泛用于压缩教师模型,以减少推理成本和内存占用,通过训练一个更小的学生模型。然而,目前针对自回归序列模型的KD方法存在训练中看到的输出序列与学生在推理过程中生成的序列之间的分布不匹配问题。为解决此问题,我们引入了广义知识蒸馏(GKD)。GKD不仅仅依赖于一组固定的输出序列,而是通过利用教师对这些序列的反馈,训练学生模型生成自身的输出序列。与监督式KD方法不同,GKD还提供了在学生和教师之间使用替代损失函数的灵活性,当学生缺乏表达教师分布的能力时,这将非常有用。此外,GKD促进了将蒸馏与RL微调(RLHF)无缝集成。我们展示了GKD在自回归语言模型在摘要、翻译和算术推理任务以及任务无关蒸馏中的有效性。
最近,检索增强语言模型(LMs)受到了广泛关注。然而,通常情况下,检索器并未与LM的本机组件一起进行训练,而是被添加到已经预训练的LM中,这限制了LM和检索器相互适应的能力。在这项工作中,我们提出了检索预训练变压器(RPT),这是一种架构和训练程序,用于从头开始联合训练一个用于建模长文本任务的检索增强LM。给定长文档中最近生成的文本块,LM计算查询表示,然后用于检索文档中位于可能数万个标记之前的较早文本块。来自检索文本块的信息被融合到LM表示中,以预测下一个目标文本块。我们使用语义目标训练检索器组件,目标是检索增加下一个文本块概率的文本块,根据参考LM。我们在四个长距离语言建模任务上评估了RPT,涵盖了书籍、代码和数学写作,并证明RPT相对于强基线模型,提高了检索质量,进而改善了困惑度。
随着大型语言模型(LLMs)的兴起及其在各个领域的普遍部署,对语言模型在现实数据上的行为进行衡量变得至关重要。例如,部署面向客户的聊天机器人的公司必须确保模型不会用粗言秽语回应客户的请求。目前的评估方法是使用小型、领域特定的数据集,这些数据集带有人工标记。这些评估集通常是从狭窄且简化的分布中抽样的,数据源有可能无意中泄漏到训练集中,从而导致误导性评估。为了规避这些缺点,我们提出了一个框架,通过分析语言模型对输入文本变换的敏感性或不变性,来进行自监督评估LLMs。自监督评估可以直接监控LLM在野外收集的数据集或在模型实时部署期间流式传输的数据上的行为。我们展示了自监督评估策略,用于衡量闭卷知识、有毒性和长距离上下文依赖性,以及对语法结构和标记化错误的敏感性。当可以与类似的人工标记基准进行比较时,我们发现自监督评估与人工监督评估之间存在很强的相关性。自监督范式补充了依赖标记数据的当前评估策略。
在这项工作中,我们重新审视了深度学习中最基本的构建模块,即多层感知器(MLP),并研究了它在视觉任务上性能的极限。对MLP的经验性见解出于多种原因至关重要。 (1)鉴于变压器超越卷积模型而流行的最近叙事“较少的归纳偏差更好”,自然而然地要探索这一假设的极限。为此,MLP提供了一个理想的测试平台,完全不受任何归纳偏差的影响。 (2)由于它们的数学简单性,MLP几乎是深度学习理论文献中的主角,用作解释更复杂架构观察到的经验现象的代理。令人惊讶的是,在文献中很难找到有关MLP的实验数据点,尤其是当与大规模预训练协议结合时。实践和理论之间的这种差异令人担忧:MLP是否反映了实际模型展示的经验性进展?还是理论家需要重新思考MLP作为代理的角色?我们提供了对这两个方面的见解。我们展示了MLP的性能随规模的显著提高(在CIFAR10上为93%,在CIFAR100上为79%,在TinyImageNet上为69%),突显了缺乏归纳偏差确实可以得到补偿。我们观察到MLP忠实地模仿了其现代对应物的行为,然而在学习设置中,一些组件表现出更强或意想不到的行为。由于其固有的计算效率,大规模预训练实验对学术研究人员变得更加可行。我们的所有实验均在一台单独的GPU上运行。
我们介绍了开放词汇的3D实例分割任务。传统的3D实例分割方法主要依赖于现有的3D标注数据集,这些数据集仅限于一组封闭的物体类别。这对于现实生活中可能需要执行由涉及各种物体的新颖、开放词汇查询指导的任务来说是一个重要的限制。最近,出现了开放词汇的3D场景理解方法,以解决这个问题,通过学习每个场景点的可查询特征。虽然这种表示形式可以直接用于执行语义分割,但现有方法在识别物体实例方面存在局限性。在这项工作中,我们解决了这个限制,并提出了OpenMask3D,这是一种用于开放词汇3D实例分割的零样本方法。在预测的类别无关3D实例掩码的指导下,我们的模型通过基于CLIP的图像嵌入的多视图融合来聚合每个掩码特征。我们在ScanNet200数据集上进行实验和消融研究,评估了OpenMask3D的性能,并提供了关于开放词汇3D实例分割任务的见解。我们展示了我们的方法在长尾分布上优于其他开放词汱对应方法。此外,OpenMask3D超越了封闭词汇方法的限制,实现了基于描述物体属性(如语义、几何、功能和材料属性)的自由形式查询的物体实例分割。
自然语言(NL)反馈包含丰富的关于用户体验的信息。现有研究侧重于实例级方法,其中反馈用于优化特定示例,而忽略了其系统范围的应用。本文提出了一个通用框架,用于解锁NL反馈的系统级应用。我们展示了如何利用反馈来形式化人在环环节中的系统级设计决策,以便生成更好的模型。具体而言,通过以下方式实现:(i)为任务设计度量标准;以及(ii)为优化模型响应设计语言模型提示。我们进行了两个案例研究,以改进搜索查询生成和对话响应生成,展示了系统级反馈的有效性。我们展示了系统级反馈和实例级反馈的结合带来了进一步的收益,并且人类撰写的实例级反馈比GPT-3.5撰写的反馈产生了更具基础性的改进,强调了人类反馈对于构建系统的重要性。
神经场在视图合成和场景重建方面取得了令人瞩目的进展。然而,由于几何和纹理信息的隐式编码,编辑这些神经场仍然具有挑战性。在本文中,我们提出了DreamEditor,这是一个新颖的框架,使用户能够使用文本提示对神经场进行受控编辑。通过将场景表示为基于网格的神经场,DreamEditor允许在特定区域内进行局部编辑。DreamEditor利用预训练的文本到图像扩散模型的文本编码器,根据文本提示的语义自动识别要编辑的区域。随后,DreamEditor通过得分蒸馏采样优化编辑区域,并将其几何和纹理与文本提示对齐。大量实验证明,DreamEditor能够根据给定的文本提示准确编辑真实场景的神经场,同时确保无关区域的一致性。DreamEditor生成高度逼真的纹理和几何,明显超越了以往在定量和定性评估中的作品。