每日精选AI研究论文及翻译
增加Transformer模型的大小并不总是会导致性能的提升。这种现象无法用经验缩放定律来解释。此外,随着模型记忆训练样本,改善了泛化能力。我们提出了一个理论框架,阐明了基于Transformer的语言模型的记忆过程和性能动态。我们使用Hopfield网络模拟了具有关联记忆的Transformer的行为,使得每个Transformer块有效地进行近似最近邻搜索。基于此,我们设计了一个类似于现代连续Hopfield网络中的能量函数,为注意力机制提供了深刻的解释。利用主导极小化技术,我们构建了一个捕捉Transformer分层架构的全局能量函数。在特定条件下,我们表明最小可实现的交叉熵损失下界约为1。我们通过在各种数据大小上使用GPT-2进行实验以及在包含2M标记数据集上训练基本Transformer来证实我们的理论结果。
作为人类,我们渴望创造既具有自由意志又易于控制的媒体内容。由于生成技术的显著发展,我们现在可以轻松利用2D扩散方法合成由原始草图或指定人体姿势控制的图像,甚至可以逐步编辑/重建局部区域并进行遮罩修复。然而,在3D建模任务中类似的工作流程仍然不可用,这是由于3D生成中缺乏可控性和效率。在本文中,我们提出了一种新颖的可控交互式3D资产建模框架,命名为Coin3D。Coin3D允许用户使用由基本形状组装而成的粗略几何代理来控制3D生成,并引入交互式生成工作流程,支持无缝的局部部件编辑,同时在几秒钟内提供响应迅速的3D对象预览。为此,我们开发了几种技术,包括应用体积粗略形状控制于扩散模型的3D适配器,用于精确部件编辑的代理边界编辑策略,支持响应式预览的逐步体积缓存,以及用于确保一致网格重建的体积-SDS。对各种形状代理进行的交互式生成和编辑的大量实验表明,我们的方法在3D资产生成任务中实现了卓越的可控性和灵活性。
我们提出了混元-DiT,这是一个具有对英语和中文进行细粒度理解的文本到图像扩散变压器。为构建混元-DiT,我们精心设计了变压器结构、文本编码器和位置编码。我们还从头开始构建了整个数据管道,以更新和评估数据,用于迭代模型优化。为了进行细粒度语言理解,我们训练了一个多模态大型语言模型,以完善图像的描述。最后,混元-DiT能够与用户进行多轮多模态对话,根据上下文生成和完善图像。通过我们的整体人类评估协议,超过50名专业人类评估者,混元-DiT在中文到图像生成方面相较于其他开源模型树立了新的技术水平。代码和预训练模型可在 github.com/Tencent/HunyuanDiT 上公开获取。
人类反馈强化学习(RLHF)是大型语言模型对齐的经典框架。然而,离线对齐算法的日益流行挑战了RLHF中对策略采样的需求。在奖励过度优化的背景下,我们首先进行了一系列实验,展示在线方法明显优于离线方法的优势。这促使我们通过一系列精心设计的实验剖析来调查性能差异的原因。我们实证表明,离线数据覆盖率和数据质量等假设本身并不能令人信服地解释性能差异。我们还发现,尽管离线算法训练策略在成对分类方面表现良好,但在生成方面表现较差;与此同时,在线算法训练的策略在生成方面表现良好,但在成对分类方面表现较差。这暗示了辨别和生成能力之间的独特相互作用,这一相互作用在很大程度上受到采样过程的影响。最后,我们观察到性能差异在对比损失和非对比损失函数中仍然存在,并且似乎不能通过简单扩展策略网络来解决。综上所述,我们的研究揭示了在AI对齐中对策略采样的关键作用,并暗示了离线对齐算法的某些基本挑战。
大型语言模型(LLMs)展现出在执行需要对自然语言指令进行语义理解的任务方面的惊人熟练度。最近,许多研究进一步扩展了这种能力,以感知多模态音频和文本输入,但它们的能力通常局限于特定的微调任务,如自动语音识别和翻译。因此,我们开发了SpeechVerse,这是一个强大的多任务训练和课程学习框架,它通过一小组可学习参数将预训练的语音和文本基础模型结合起来,同时在训练过程中保持预训练模型冻结状态。这些模型通过从语音基础模型中提取的连续潜在表示进行指令微调,以实现在使用自然语言指令进行各种语音处理任务时的最佳零-shot性能。我们进行了广泛的基准测试,包括将我们的模型性能与几个数据集和任务上的传统基线进行比较。此外,我们评估了模型在广义指令遵循方面的能力,通过在域外数据集、新颖提示和未见任务上进行测试。我们的实证实验显示,我们的多任务SpeechVerse模型在11个任务中有9个任务优于传统的特定任务基线。
现有的文本到图像模型在遵循复杂文本提示方面存在困难,因此需要额外的基础输入以提高可控性。在这项工作中,我们提出将场景分解为视觉基元 - 表示为密集斑块的形式 - 这些基元包含场景的细粒度细节,同时具有模块化、易于解释和易于构建的特点。基于斑块表示,我们开发了一种基于斑块的文本到图像扩散模型,命名为BlobGEN,用于组合生成。特别地,我们引入了一个新的蒙版交叉注意力模块,以解开斑块表示和视觉特征之间的融合。为了利用大型语言模型(LLMs)的组合性,我们引入了一种新的上下文学习方法,从文本提示中生成斑块表示。我们广泛的实验表明,BlobGEN在MS-COCO数据集上实现了优越的零样本生成质量和更好的布局引导可控性。当与LLMs相结合时,我们的方法在组合图像生成基准上表现出优越的数值和空间正确性。项目页面:https://blobgen-2d.github.io。
目前用于视频理解的架构主要基于3D卷积块或2D卷积,并附加用于时间建模的额外操作。然而,这些方法都将时间轴视为视频序列的一个独立维度,这需要大量的计算和内存资源,从而限制了它们在移动设备上的使用。本文提出将视频序列的时间轴压缩到通道维度,并提出了一种轻量级视频识别网络,称为SqueezeTime,用于移动视频理解。为了增强所提出网络的时间建模能力,我们设计了一个通道-时间学习(CTL)块来捕获序列的时间动态。该模块有两个互补分支,其中一个分支用于学习时间重要性,另一个分支具有时间位置恢复能力,以增强跨时间对象建模能力。所提出的SqueezeTime在移动视频理解方面具有更轻量级和更快速的特点,并且准确率较高。在各种视频识别和动作检测基准测试上进行了大量实验,例如Kinetics400、Kinetics600、HMDB51、AVA2.1和THUMOS14,证明了我们模型的优越性。例如,我们的SqueezeTime在Kinetics400上比先前方法实现了+1.2%的准确率和+80%的GPU吞吐量增益。代码可在以下网址公开获取:https://github.com/xinghaochen/SqueezeTime 和 https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime。
近来,集成语音和大型语言模型(SLMs)能够遵循语音指令并生成相关文本响应的技术备受青睐。然而,这些模型的安全性和鲁棒性仍然存在较大的不确定性。在这项研究中,我们调查了这类遵循指令的语音-语言模型对敌对攻击和越狱的潜在脆弱性。具体而言,我们设计了能够在白盒和黑盒攻击环境下生成越狱SLMs的敌对示例的算法,而无需人工干预。此外,我们提出了应对此类越狱攻击的对策。我们的模型在带有语音指令的对话数据上训练,在口语问答任务上取得了最先进的性能,安全性和帮助性指标均超过80%。尽管有安全防护措施,对越狱的实验表明SLMs对敌对扰动和转移攻击的脆弱性,当在一个涵盖12种不同有害类别的精心设计的问题数据集上评估时,平均攻击成功率分别为90%和10%。然而,我们证明了我们提出的对策显著降低了攻击成功率。