Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Obwohl in letzter Zeit große Sprachmodelle (LLMs) bemerkenswerte Erfolge erzielt haben, sind sie anfällig für bestimmte Jailbreaking-Angriffe, die zur Erzeugung unangemessener oder schädlicher Inhalte führen. Das manuelle Red-Teaming erfordert das Auffinden von feindlichen Aufforderungen, die solche Jailbreaking verursachen, z. B. durch Anhängen eines Suffixes an eine gegebene Anweisung, was ineffizient und zeitaufwändig ist. Andererseits führt die automatische Erzeugung feindlicher Aufforderungen häufig zu semantisch sinnlosen Angriffen, die leicht von Perplexitätsfiltern erkannt werden können, möglicherweise Gradienteninformationen vom Ziel-LLM erfordern oder aufgrund zeitaufwändiger diskreter Optimierungsprozesse über den Token-Raum nicht gut skalieren. In diesem Papier präsentieren wir eine neuartige Methode, die ein anderes LLM namens AdvPrompter verwendet, um menschenlesbare feindliche Aufforderungen in Sekunden zu generieren, etwa 800-mal schneller als bestehende optimierungsbasierte Ansätze. Wir trainieren den AdvPrompter mit einem neuartigen Algorithmus, der keinen Zugriff auf die Gradienten des Ziel-LLMs erfordert. Dieser Prozess wechselt zwischen zwei Schritten: (1) Generierung hochwertiger Ziel feindlicher Suffixe durch Optimierung der Vorhersagen des AdvPrompters und (2) Feinabstimmung des AdvPrompters mit den generierten feindlichen Suffixen mit niedrigem Rang. Der trainierte AdvPrompter generiert Suffixe, die die Eingabeanweisung verschleiern, ohne deren Bedeutung zu ändern, sodass das Ziel-LLM dazu verleitet wird, eine schädliche Antwort zu geben. Experimentelle Ergebnisse an beliebten Open-Source-Ziel-LLMs zeigen Spitzenleistungen auf dem AdvBench-Datensatz, die auch auf geschlossene Black-Box-LLM-APIs übertragen werden. Darüber hinaus zeigen wir, dass durch Feinabstimmung auf einem vom AdvPrompter generierten synthetischen Datensatz LLMs gegen Jailbreaking-Angriffe robuster gemacht werden können, während die Leistung beibehalten wird, d. h. hohe MMLU-Werte.
Dieses Paper zielt darauf ab, Materialien für 3D-Gitter aus Textbeschreibungen zu generieren. Im Gegensatz zu bestehenden Methoden, die Texturkarten synthetisieren, schlagen wir vor, segmentweise prozedurale Materialgraphen als Erscheinungsrepräsentation zu generieren, die hochwertiges Rendern unterstützen und eine beträchtliche Flexibilität bei der Bearbeitung bieten. Anstatt auf umfangreiche gepaarte Daten angewiesen zu sein, d.h. 3D-Gitter mit Materialgraphen und entsprechenden Textbeschreibungen, um ein generatives Modell für Materialgraphen zu trainieren, schlagen wir vor, das vortrainierte 2D-Diffusionsmodell als Brücke zu nutzen, um den Text und die Materialgraphen zu verbinden. Speziell zerlegt unser Ansatz eine Form in eine Reihe von Segmenten und entwirft ein segmentgesteuertes Diffusionsmodell, um 2D-Bilder zu synthetisieren, die mit Gitterteilen ausgerichtet sind. Basierend auf den generierten Bildern initialisieren wir die Parameter der Materialgraphen und feinabstimmen sie durch das differentiell rendernde Modul, um Materialien gemäß der textuellen Beschreibung zu erzeugen. Umfangreiche Experimente zeigen die überragende Leistung unseres Frameworks in Bezug auf Fotorealismus, Auflösung und Bearbeitbarkeit im Vergleich zu bestehenden Methoden. Projektseite: https://zhanghe3z.github.io/MaPa/