AI研究论文每日精选

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Apr 21

ByAnselm Paulus, Arman Zharmagambetov, Chuan Guo, Brandon Amos, Yuandong Tian

尽管最近大型语言模型（LLMs）取得了显著的成功，但它们容易受到某些越狱攻击的影响，导致生成不当或有害内容。手动红队测试需要找到会导致此类越狱的对抗提示，例如通过在给定指令后附加后缀，这种方法效率低且耗时。另一方面，自动对抗提示生成往往会导致语义上无意义的攻击，容易被基于困惑度的过滤器检测到，可能需要来自TargetLLM的梯度信息，或由于耗时的离散优化过程而难以扩展。在本文中，我们提出了一种新方法，使用另一个名为AdvPrompter的LLM，能够在几秒钟内生成人类可读的对抗提示，比现有基于优化的方法快800倍。我们使用一种新算法训练AdvPrompter，无需访问TargetLLM的梯度。该过程交替进行两个步骤：（1）通过优化AdvPrompter的预测生成高质量的目标对抗后缀，和（2）使用生成的对抗后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀可以掩盖输入指令而不改变其含义，从而诱使TargetLLM给出有害响应。在流行的开源TargetLLMs上的实验结果显示，我们在AdvBench数据集上取得了最先进的结果，并且这些结果也适用于封闭式黑盒LLM API。此外，我们证明通过在AdvPrompter生成的合成数据集上进行微调，LLMs可以在保持性能的同时更加抵抗越狱攻击，即获得更高的MMLU分数。

MaPa：用于3D形状的基于文本的逼真材质绘制

MaPa: Text-driven Photorealistic Material Painting for 3D Shapes

Apr 26

ByShangzhan Zhang, Sida Peng, Tao Xu, Yuanbo Yang, Tianrun Chen, Nan Xue, Yujun Shen, Hujun Bao, Ruizhen Hu, Xiaowei Zhou

本文旨在从文本描述中生成3D网格的材质。与现有的合成纹理贴图的方法不同，我们提出生成分段程序化材质图作为外观表示，这种方法支持高质量渲染并在编辑方面具有相当的灵活性。我们提出利用预训练的2D扩散模型作为连接文本和材质图的桥梁，而不是依赖于大量配对数据，即带有材质图和相应文本描述的3D网格，来训练材质图生成模型。具体而言，我们的方法将形状分解为一组段，并设计了一个段控制的扩散模型，用于合成与网格部件对齐的2D图像。基于生成的图像，我们初始化材质图的参数，并通过可微分渲染模块对其进行微调，以生成符合文本描述的材质。大量实验证明，我们的框架在逼真度、分辨率和可编辑性方面优于现有方法。项目页面：https://zhanghe3z.github.io/MaPa/

•

AdvPrompter：用于LLM的快速自适应对抗提示