Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i Modelli Linguistici di Grande Dimensione (LLM) abbiano recentemente ottenuto risultati straordinari, sono vulnerabili a determinati attacchi di jailbreaking che portano alla generazione di contenuti inappropriati o dannosi. Il red-teaming manuale richiede la ricerca di prompt avversari che causino tale jailbreaking, ad esempio aggiungendo un suffisso a una determinata istruzione, un processo inefficiente e dispendioso in termini di tempo. D'altra parte, la generazione automatica di prompt avversari spesso produce attacchi semanticamente privi di significato che possono essere facilmente rilevati da filtri basati sulla perplessità, richiedono informazioni sul gradiente del TargetLLM o non scalano bene a causa di processi di ottimizzazione discreta lunghi nello spazio dei token. In questo articolo, presentiamo un metodo innovativo che utilizza un altro LLM, chiamato AdvPrompter, per generare prompt avversari leggibili in pochi secondi, circa 800 volte più velocemente rispetto agli approcci basati sull'ottimizzazione esistenti. Addestriamo l'AdvPrompter utilizzando un nuovo algoritmo che non richiede l'accesso ai gradienti del TargetLLM. Questo processo alterna due fasi: (1) la generazione di suffissi avversari di alta qualità ottimizzando le previsioni dell'AdvPrompter e (2) il fine-tuning a basso rango dell'AdvPrompter con i suffissi avversari generati. L'AdvPrompter addestrato genera suffissi che velano l'istruzione di input senza modificarne il significato, in modo da indurre il TargetLLM a fornire una risposta dannosa. I risultati sperimentali su popolari TargetLLM open source mostrano risultati all'avanguardia sul dataset AdvBench, che si trasferiscono anche alle API di LLM closed-source a scatola chiusa. Inoltre, dimostriamo che, effettuando il fine-tuning su un dataset sintetico generato da AdvPrompter, gli LLM possono essere resi più robusti contro gli attacchi di jailbreaking mantenendo prestazioni elevate, ovvero alti punteggi MMLU.
Questo articolo si propone di generare materiali per mesh 3D a partire da descrizioni testuali. A differenza dei metodi esistenti che sintetizzano mappe di texture, proponiamo di generare grafi procedurali di materiali segmentati come rappresentazione dell'aspetto, che supportano rendering di alta qualità e offrono una notevole flessibilità nella modifica. Invece di fare affidamento su ampi dati accoppiati, ovvero mesh 3D con grafi di materiali e corrispondenti descrizioni testuali, per addestrare un modello generativo di grafi di materiali, proponiamo di sfruttare il modello di diffusione 2D pre-addestrato come ponte per collegare il testo e i grafi di materiali. Nello specifico, il nostro approccio scompone una forma in un insieme di segmenti e progetta un modello di diffusione controllato dai segmenti per sintetizzare immagini 2D allineate con le parti della mesh. Sulla base delle immagini generate, inizializziamo i parametri dei grafi di materiali e li ottimizziamo attraverso il modulo di rendering differenziabile per produrre materiali in accordo con la descrizione testuale. Esperimenti estensivi dimostrano la performance superiore del nostro framework in termini di fotorealismo, risoluzione e editabilità rispetto ai metodi esistenti. Pagina del progetto: https://zhanghe3z.github.io/MaPa/