每日精选AI研究论文及翻译
尽管最近大型语言模型(LLMs)取得了显著的成功,但它们容易受到某些越狱攻击的影响,导致生成不当或有害内容。手动红队测试需要找到会导致此类越狱的对抗提示,例如通过在给定指令后附加后缀,这种方法效率低且耗时。另一方面,自动对抗提示生成往往会导致语义上无意义的攻击,容易被基于困惑度的过滤器检测到,可能需要来自TargetLLM的梯度信息,或由于耗时的离散优化过程而难以扩展。在本文中,我们提出了一种新方法,使用另一个名为AdvPrompter的LLM,能够在几秒钟内生成人类可读的对抗提示,比现有基于优化的方法快800倍。我们使用一种新算法训练AdvPrompter,无需访问TargetLLM的梯度。该过程交替进行两个步骤:(1)通过优化AdvPrompter的预测生成高质量的目标对抗后缀,和(2)使用生成的对抗后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀可以掩盖输入指令而不改变其含义,从而诱使TargetLLM给出有害响应。在流行的开源TargetLLMs上的实验结果显示,我们在AdvBench数据集上取得了最先进的结果,并且这些结果也适用于封闭式黑盒LLM API。此外,我们证明通过在AdvPrompter生成的合成数据集上进行微调,LLMs可以在保持性能的同时更加抵抗越狱攻击,即获得更高的MMLU分数。
本文旨在从文本描述中生成3D网格的材质。与现有的合成纹理贴图的方法不同,我们提出生成分段程序化材质图作为外观表示,这种方法支持高质量渲染并在编辑方面具有相当的灵活性。我们提出利用预训练的2D扩散模型作为连接文本和材质图的桥梁,而不是依赖于大量配对数据,即带有材质图和相应文本描述的3D网格,来训练材质图生成模型。具体而言,我们的方法将形状分解为一组段,并设计了一个段控制的扩散模型,用于合成与网格部件对齐的2D图像。基于生成的图像,我们初始化材质图的参数,并通过可微分渲染模块对其进行微调,以生成符合文本描述的材质。大量实验证明,我们的框架在逼真度、分辨率和可编辑性方面优于现有方法。项目页面:https://zhanghe3z.github.io/MaPa/