每日精選AI研究論文及翻譯
近來,大型語言模型(LLMs)取得了顯著的成功,但卻容易受到某些越獄攻擊的影響,導致生成不當或有害內容。手動紅隊測試需要尋找導致這種越獄的對抗提示,例如通過在給定指令後附加後綴,這種方法效率低且耗時。另一方面,自動對抗提示生成通常導致語義無意義的攻擊,容易被基於困惑度的過濾器檢測到,可能需要從目標LLM獲取梯度信息,或者由於在標記空間上耗時的離散優化過程而無法很好地擴展。在本文中,我們提出了一種新方法,使用另一個名為AdvPrompter的LLM,可以在幾秒鐘內生成人類可讀的對抗提示,比現有基於優化的方法快800倍。我們使用一種新算法訓練AdvPrompter,無需訪問目標LLM的梯度。該過程在兩個步驟之間交替進行:(1)通過優化AdvPrompter的預測生成高質量的目標對抗後綴,以及(2)使用生成的對抗後綴對AdvPrompter進行低秩微調。訓練後的AdvPrompter生成的後綴掩蓋了輸入指令而不改變其含義,使目標LLM誘使產生有害回應。對流行的開源目標LLMs進行的實驗結果顯示,在AdvBench數據集上取得了最先進的結果,並且這些結果也適用於封閉源黑盒LLM API。此外,我們展示通過在AdvPrompter生成的合成數據集上進行微調,LLMs可以在保持性能(即高MMLU分數)的同時更加堅固抵禦越獄攻擊。
本文旨在從文本描述中生成3D網格的材質。與現有的合成紋理貼圖方法不同,我們提出生成分段程序化材質圖作為外觀表示,這支持高質量渲染並提供在編輯方面的實質靈活性。我們建議利用預先訓練的2D擴散模型作為連接文本和材質圖的橋樑,而不是依賴於大量配對數據,即帶有材質圖和相應文本描述的3D網格,來訓練材質圖生成模型。具體而言,我們的方法將形狀分解為一組部分,並設計了一個部分控制的擴散模型來合成與網格部件對齊的2D圖像。基於生成的圖像,我們初始化材質圖的參數,並通過可微渲染模塊對其進行微調,以生成符合文本描述的材質。大量實驗證明了我們的框架在真實感、解析度和可編輯性方面相對於現有方法的優越性能。項目頁面:https://zhanghe3z.github.io/MaPa/