Articoli di ricerca IA selezionati quotidianamente con traduzioni
I moderni metodi di fine-tuning efficiente in termini di parametri (PEFT), come l'adattamento a basso rango (LoRA), riducono il costo di personalizzazione dei grandi modelli linguistici (LLM), ma richiedono comunque un'ottimizzazione separata per ogni dataset downstream. Introduciamo Drag-and-Drop LLMs (\textit{DnD}), un generatore di parametri condizionato da prompt che elimina l'addestramento per ogni task mappando una manciata di prompt non etichettati direttamente agli aggiornamenti dei pesi LoRA. Un encoder di testo leggero distilla ogni batch di prompt in embedding condizionati, che vengono poi trasformati da un decoder iper-convoluzionale a cascata nell'intero set di matrici LoRA. Una volta addestrato su una raccolta diversificata di coppie prompt-checkpoint, DnD produce parametri specifici per il task in pochi secondi, ottenendo i) un overhead fino a 12.000 volte inferiore rispetto al fine-tuning completo, ii) miglioramenti medi fino al 30\% nelle prestazioni rispetto ai LoRA addestrati più forti su benchmark di ragionamento di senso comune, matematica, codifica e multimodalità non visti, e iii) una robusta generalizzazione cross-domain nonostante non abbia mai visto i dati o le etichette target. I nostri risultati dimostrano che la generazione di parametri condizionata da prompt è un'alternativa valida all'adattamento basato su gradienti per specializzare rapidamente gli LLM. Il nostro progetto è disponibile all'indirizzo https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
I sistemi di Generazione Aumentata dal Recupero (RAG) hanno rivoluzionato il recupero delle informazioni e il question answering, ma i tradizionali metodi di suddivisione in chunk basati su testo faticano a gestire strutture documentali complesse, tabelle multipagina, figure incorporate e dipendenze contestuali che attraversano i confini delle pagine. Presentiamo un nuovo approccio multimodale per la suddivisione in chunk di documenti che sfrutta Modelli Multimodali di Grande Scala (LMM) per elaborare documenti PDF in batch mantenendo la coerenza semantica e l'integrità strutturale. Il nostro metodo elabora i documenti in batch di pagine configurabili con conservazione del contesto tra batch, consentendo una gestione accurata di tabelle che si estendono su più pagine, elementi visivi incorporati e contenuti procedurali. Valutiamo il nostro approccio su un dataset curato di documenti PDF con query create manualmente, dimostrando miglioramenti nella qualità dei chunk e nelle prestazioni downstream dei sistemi RAG. Il nostro approccio guidato dalla visione raggiunge una maggiore accuratezza rispetto ai tradizionali sistemi RAG standard, con un'analisi qualitativa che mostra una conservazione superiore della struttura del documento e della coerenza semantica.
Nella generazione visiva, la complessità quadratica dei meccanismi di attenzione comporta costi elevati in termini di memoria e calcolo, specialmente per sequenze di token più lunghe necessarie nella generazione di immagini ad alta risoluzione o video multi-frame. Per affrontare questo problema, ricerche precedenti hanno esplorato tecniche come la sparsificazione e la quantizzazione. Tuttavia, queste tecniche incontrano sfide significative in condizioni di bassa densità e ridotta larghezza di bit. Attraverso un'analisi sistematica, abbiamo identificato che la difficoltà principale deriva dalle caratteristiche disperse e irregolari dei modelli di attenzione visiva. Pertanto, invece di introdurre progetti specializzati di sparsificazione e quantizzazione per adattarsi a tali modelli, proponiamo una strategia alternativa: *riorganizzare* il modello di attenzione per alleviare le sfide. Ispirati dalla natura di aggregazione locale dell'estrazione di caratteristiche visive, abbiamo progettato una nuova tecnica **Pattern-Aware token ReOrdering (PARO)**, che unifica i diversi modelli di attenzione in un modello a blocchi compatibile con l'hardware. Questa unificazione semplifica e migliora sostanzialmente sia la sparsificazione che la quantizzazione. Valutiamo i compromessi tra prestazioni ed efficienza di varie scelte progettuali e finalizziamo una metodologia adatta al modello unificato. Il nostro approccio, **PAROAttention**, consente la generazione di video e immagini con metriche senza perdita e risultati quasi identici rispetto ai baseline a precisione completa (FP), operando a densità notevolmente inferiori (~20%-30%) e larghezza di bit (**INT8/INT4**), ottenendo un'accelerazione end-to-end da **1.9x** a **2.7x**.
I recenti progressi nella generazione di video basata su diffusione e controllabile hanno consentito la sintesi di video di alta qualità e temporalmente coerenti, gettando le basi per esperienze di gioco interattive e immersive. Tuttavia, i metodi attuali presentano limitazioni in termini di dinamicità, generalità, coerenza a lungo termine ed efficienza, che ostacolano la creazione di vari video di gameplay. Per colmare queste lacune, introduciamo Hunyuan-GameCraft, un nuovo framework per la generazione di video interattivi ad alta dinamicità in ambienti di gioco. Per ottenere un controllo granulare delle azioni, unifichiamo gli input standard da tastiera e mouse in uno spazio di rappresentazione condiviso della telecamera, facilitando un'interpolazione fluida tra varie operazioni di movimento e della telecamera. Proponiamo inoltre una strategia di addestramento ibrida condizionata dalla cronologia, che estende le sequenze video in modo autoregressivo preservando le informazioni della scena di gioco. Inoltre, per migliorare l'efficienza inferenziale e la giocabilità, otteniamo una distillazione del modello per ridurre il sovraccarico computazionale mantenendo la coerenza su lunghe sequenze temporali, rendendolo adatto alla distribuzione in tempo reale in ambienti interattivi complessi. Il modello è addestrato su un ampio dataset che comprende oltre un milione di registrazioni di gameplay provenienti da più di 100 giochi AAA, garantendo un'ampia copertura e diversità, ed è poi affinato su un dataset sintetico accuratamente annotato per migliorare precisione e controllo. I dati curati delle scene di gioco migliorano significativamente la fedeltà visiva, il realismo e la controllabilità delle azioni. Esperimenti estensivi dimostrano che Hunyuan-GameCraft supera significativamente i modelli esistenti, avanzando il realismo e la giocabilità nella generazione di video di gioco interattivi.
Il coordinamento di più agenti incarnati in ambienti dinamici rimane una sfida fondamentale nell'intelligenza artificiale, richiedendo sia ragionamenti guidati dalla percezione che strategie di cooperazione scalabili. Sebbene lavori recenti abbiano sfruttato modelli linguistici di grandi dimensioni (LLM) per la pianificazione multi-agente, pochi hanno iniziato a esplorare modelli visione-linguaggio (VLM) per il ragionamento visivo. Tuttavia, questi approcci basati su VLM rimangono limitati nel supporto a diversi tipi di incarnazione. In questo lavoro, introduciamo VIKI-Bench, il primo benchmark gerarchico progettato per la cooperazione multi-agente incarnata, caratterizzato da tre livelli strutturati: attivazione degli agenti, pianificazione dei compiti e percezione delle traiettorie. VIKI-Bench include diverse incarnazioni robotiche, osservazioni visive multi-vista e segnali di supervisione strutturati per valutare il ragionamento basato su input visivi. Per dimostrare l'utilità di VIKI-Bench, proponiamo VIKI-R, un framework a due stadi che perfeziona un modello visione-linguaggio (VLM) pre-addestrato utilizzando dimostrazioni annotate con Chain-of-Thought, seguito da apprendimento per rinforzo sotto segnali di ricompensa multi-livello. I nostri esperimenti estesi mostrano che VIKI-R supera significativamente i metodi di base in tutti i livelli di compito. Inoltre, dimostriamo che l'apprendimento per rinforzo consente l'emergere di modelli di cooperazione composizionali tra agenti eterogenei. Insieme, VIKI-Bench e VIKI-R offrono un banco di prova unificato e un metodo per avanzare nella cooperazione multi-agente guidata dalla visione nei sistemi di intelligenza artificiale incarnata.
I modelli visione-linguaggio (VLMs) eccellono nella comprensione multimodale, tuttavia la loro decodifica basata esclusivamente sul testo li costringe a verbalizzare il ragionamento visivo, limitando le prestazioni nei compiti che richiedono immaginazione visiva. Recenti tentativi hanno addestrato i VLMs a generare immagini esplicite, ma il pesante pre-addestramento per la generazione di immagini spesso ostacola la capacità di ragionamento. Ispirati dal modo in cui gli esseri umani ragionano con immagini mentali - la costruzione e manipolazione interna di segnali visivi - abbiamo indagato se i VLMs possano ragionare attraverso traiettorie multimodali intervallate senza produrre immagini esplicite. A tal fine, presentiamo un framework di Machine Mental Imagery, denominato Mirage, che potenzia la decodifica dei VLMs con token visivi latenti affiancati al testo ordinario. Nello specifico, ogni volta che il modello sceglie di "pensare visivamente", riconverte i suoi stati nascosti in token successivi, continuando così una traiettoria multimodale senza generare immagini a livello di pixel. Inizialmente supervisioniamo i token latenti attraverso la distillazione da embedding di immagini reali, per poi passare a una supervisione basata solo sul testo, in modo che la traiettoria latente si allinei strettamente all'obiettivo del compito. Una successiva fase di apprendimento per rinforzo migliora ulteriormente la capacità di ragionamento multimodale. Esperimenti su diversi benchmark dimostrano che Mirage sblocca un ragionamento multimodale più forte senza la generazione esplicita di immagini.
In questo rapporto presentiamo Hunyuan3D 2.5, una suite robusta di modelli di diffusione 3D progettata per generare asset 3D ad alta fedeltà e dettagliati con texture. Hunyuan3D 2.5 segue la pipeline in due fasi della sua versione precedente, Hunyuan3D 2.0, dimostrando però progressi significativi sia nella generazione delle forme che delle texture. Per quanto riguarda la generazione delle forme, introduciamo un nuovo modello di base per le forme — LATTICE — addestrato con dataset di alta qualità scalati, dimensioni del modello e capacità di calcolo. Il nostro modello più grande raggiunge 10 miliardi di parametri e genera forme 3D nitide e dettagliate con un preciso allineamento immagine-3D, mantenendo la superficie della mesh pulita e liscia, riducendo significativamente il divario tra le forme 3D generate e quelle realizzate manualmente. Per quanto riguarda la generazione delle texture, è stato migliorato con il rendering basato su fisica (PBR) attraverso una nuova architettura multi-vista estesa dal modello Paint di Hunyuan3D 2.0. La nostra valutazione estensiva dimostra che Hunyuan3D 2.5 supera significativamente i metodi precedenti sia nella generazione delle forme che in quella end-to-end delle texture.
I sistemi all'avanguardia di sintesi vocale (TTS) raggiungono un elevato livello di naturalezza in contesti monolingue, ma la sintesi del parlato con accenti multilingue corretti (specialmente per le lingue indiane) e con emozioni pertinenti al contesto presenta ancora difficoltà a causa delle discrepanze nelle sfumature culturali nei framework attuali. Questo articolo introduce una nuova architettura TTS che integra l'accento insieme alla preservazione della traslitterazione con una modellizzazione delle emozioni su più scale, particolarmente ottimizzata per l'hindi e l'accento dell'inglese indiano. Il nostro approccio estende il modello Parler-TTS integrando un'architettura ibrida encoder-decoder specifica per l'allineamento fonemico linguistico, strati di embedding delle emozioni sensibili alla cultura addestrati su corpora di parlanti nativi, nonché un code switching dinamico dell'accento con quantizzazione vettoriale residua. Test quantitativi dimostrano un miglioramento del 23,7% nell'accuratezza dell'accento (riduzione del Word Error Rate dal 15,4% all'11,8%) e un'accuratezza del riconoscimento delle emozioni dell'85,3% da parte di ascoltatori nativi, superando i benchmark METTS e VECL-TTS. La novità del sistema è che può mescolare i codici in tempo reale, generando frasi come "Namaste, parliamo di <frase in hindi>" con cambiamenti di accento ininterrotti mantenendo la coerenza emotiva. Una valutazione soggettiva con 200 utenti ha riportato un punteggio medio di opinione (MOS) di 4,2/5 per la correttezza culturale, molto migliore rispetto ai sistemi multilingue esistenti (p<0,01). Questa ricerca rende la sintesi cross-lingue più fattibile mostrando una separazione scalabile tra accento ed emozione, con applicazione diretta nel settore dell'EdTech sudasiatico e nei software di accessibilità.
La sintesi di panorami 3D è un compito promettente ma impegnativo che richiede un aspetto visivo di alta qualità e diversificato, nonché una geometria accurata del contenuto omnidirezionale generato. I metodi esistenti sfruttano ricchi prior di immagini provenienti da modelli di base 2D pre-addestrati per ovviare alla scarsità di dati panoramici 3D, ma l'incompatibilità tra i panorami 3D e le viste singole 2D ne limita l'efficacia. In questo lavoro, dimostriamo che applicando la sincronizzazione multi-piano agli operatori dei modelli di base 2D, le loro capacità possono essere estese senza soluzione di continuità al dominio omnidirezionale. Basandoci su questo design, introduciamo ulteriormente DreamCube, un modello di diffusione RGB-D multi-piano per la generazione di panorami 3D, che massimizza il riutilizzo dei prior dei modelli di base 2D per ottenere aspetti diversificati e una geometria accurata, mantenendo al contempo la coerenza multi-vista. Esperimenti estensivi dimostrano l'efficacia del nostro approccio nella generazione di immagini panoramiche, nella stima della profondità panoramica e nella generazione di scene 3D.
I moderni modelli linguistici multimodali di grandi dimensioni (MLLM) sono in grado di ragionare su video della durata di un'ora, ma la loro cache chiave-valore (KV) cresce linearmente nel tempo, superando rapidamente la memoria fissa di telefoni, occhiali AR e robot periferici. I precedenti schemi di compressione presuppongono che l'intero video e la query dell'utente siano disponibili offline o debbano prima costruire la cache completa, quindi la memoria scala comunque con la lunghezza dello stream. InfiniPot-V è il primo framework senza addestramento e agnostico rispetto alla query che impone un limite di memoria rigido e indipendente dalla lunghezza per la comprensione di video in streaming. Durante la codifica del video, monitora la cache e, una volta raggiunta una soglia impostata dall'utente, esegue una passata di compressione leggera che (i) rimuove i token temporalmente ridondanti tramite la metrica di ridondanza sull'asse temporale (TaR) e (ii) mantiene i token semanticamente significativi tramite il ranking basato sulla norma dei valori (VaN). Su quattro MLLM open-source e quattro benchmark per video lunghi e due per video in streaming, InfiniPot-V riduce la memoria GPU di picco fino al 94%, mantiene la generazione in tempo reale e corrisponde o supera l'accuratezza della cache completa, anche in dialoghi multi-turno. Eliminando il collo di bottiglia della cache KV senza necessità di riaddestramento o conoscenza della query, InfiniPot-V colma il divario per gli assistenti video in streaming su dispositivo.
Il contenuto 3D generato dall'IA (AIGC) è un campo appassionante che ha accelerato significativamente la creazione di modelli 3D nel gaming, nel cinema e nel design. Nonostante lo sviluppo di diversi modelli rivoluzionari che hanno trasformato la generazione 3D, il campo rimane largamente accessibile solo a ricercatori, sviluppatori e designer a causa delle complessità legate alla raccolta, elaborazione e addestramento dei modelli 3D. Per affrontare queste sfide, presentiamo Hunyuan3D 2.1 come caso di studio in questo tutorial. Questo tutorial offre una guida completa e passo-passo sull'elaborazione dei dati 3D, l'addestramento di un modello generativo 3D e la valutazione delle sue prestazioni utilizzando Hunyuan3D 2.1, un sistema avanzato per la produzione di asset 3D ad alta risoluzione e texture. Il sistema è composto da due componenti principali: Hunyuan3D-DiT per la generazione delle forme e Hunyuan3D-Paint per la sintesi delle texture. Esploreremo l'intero flusso di lavoro, inclusa la preparazione dei dati, l'architettura del modello, le strategie di addestramento, le metriche di valutazione e il deployment. Al termine di questo tutorial, avrete le conoscenze necessarie per ottimizzare o sviluppare un modello generativo 3D robusto, adatto ad applicazioni nel gaming, nella realtà virtuale e nel design industriale.
La comprensione e generazione unificata delle immagini è emersa come un paradigma promettente nell'intelligenza artificiale multimodale. Nonostante i recenti progressi, la progettazione architetturale ottimale per tali modelli unificati rimane una sfida aperta. In questo lavoro, iniziamo analizzando i comportamenti di allineamento delle modalità nei modelli esperti specifici per compiti di comprensione e generazione, nonché nei modelli unificati attuali. La nostra analisi rivela un'osservazione cruciale: i compiti di comprensione beneficiano di un allineamento progressivamente crescente delle modalità attraverso la profondità della rete, che aiuta a costruire informazioni semantiche per una migliore comprensione; al contrario, i compiti di generazione seguono una tendenza diversa: l'allineamento delle modalità aumenta negli strati iniziali ma diminuisce negli strati profondi per recuperare i dettagli spaziali. Questi modelli divergenti di allineamento creano un conflitto fondamentale nei backbone Transformer completamente condivisi, dove un flusso rappresentativo uniforme spesso porta a compromessi nelle prestazioni tra i due compiti. Motivati da questa scoperta, introduciamo UniFork, una nuova architettura a forma di Y che condivide gli strati superficiali per l'apprendimento rappresentativo cross-task, mentre impiega rami specifici per compito negli strati più profondi per evitare interferenze tra i compiti. Questo design bilancia efficacemente l'apprendimento condiviso e la specializzazione per compito. Attraverso ampi esperimenti di ablazione, dimostriamo che UniFork supera costantemente le architetture Transformer completamente condivise convenzionali e raggiunge prestazioni pari o migliori rispetto ai modelli specifici per compito.
Una delle promesse dei modelli Vision-Language-Action (VLA) rispetto all'apprendimento per imitazione tradizionale nella robotica è quella di sfruttare le ampie capacità di generalizzazione dei grandi modelli Vision-Language (VLM) per produrre politiche robotiche versatili e "generaliste". Tuttavia, le valutazioni attuali dei VLA rimangono insufficienti. I benchmark tradizionali per l'apprendimento per imitazione non sono adatti a causa della mancanza di istruzioni linguistiche. I benchmark emergenti per i VLA che incorporano il linguaggio spesso presentano compiti di valutazione limitati e non intendono indagare quanto il pre-addestramento dei VLM contribuisca realmente alle capacità di generalizzazione della politica robotica downstream. Nel frattempo, gran parte della ricerca si basa su configurazioni robotiche del mondo reale progettate in isolamento da diverse istituzioni, il che crea una barriera alla riproducibilità e all'accessibilità. Per colmare questa lacuna, introduciamo una suite unificata di 50 task basati su simulazione, suddivisi in 10 sottocategorie che abbracciano istruzioni linguistiche, visione e oggetti. Valutiamo sistematicamente diverse architetture VLA all'avanguardia su questa suite per comprenderne la capacità di generalizzazione. I nostri risultati mostrano che, sebbene i backbone VLM conferiscano ai VLA una solida comprensione percettiva e una pianificazione di alto livello, che definiamo come buone intenzioni, ciò non si traduce in modo affidabile in un'esecuzione motoria precisa: quando si trovano di fronte a osservazioni fuori distribuzione, le politiche spesso mostrano intenzioni coerenti, ma vacillano nell'esecuzione delle azioni. Inoltre, il fine-tuning sui dati di azione può erodere le capacità di ragionamento generalista del VLM originale. Rilasciamo la nostra suite di task e il codice di valutazione per servire come benchmark standardizzato per i futuri VLA e per guidare la ricerca sul colmare il divario percezione-azione. Ulteriori informazioni, incluso il codice sorgente, sono disponibili all'indirizzo https://ai4ce.github.io/INT-ACT/.
Un simulatore di traffico ideale replica il realistico viaggio punto a punto a lungo termine che un sistema di guida autonoma sperimenta durante il dispiegamento. I modelli e i benchmark precedenti si concentrano sulla simulazione a ciclo chiuso del movimento per gli agenti iniziali in una scena. Ciò è problematico per la simulazione a lungo termine. Gli agenti entrano ed escono dalla scena man mano che il veicolo ego entra in nuove regioni. Proponiamo InfGen, un modello unificato di previsione del token successivo che esegue una simulazione intervallata del movimento a ciclo chiuso e la generazione della scena. InfGen passa automaticamente tra la modalità di simulazione del movimento a ciclo chiuso e la generazione della scena. Ciò consente una simulazione stabile a lungo termine. InfGen si colloca allo stato dell'arte nella simulazione del traffico a breve termine (9s) e supera significativamente tutti gli altri metodi nella simulazione a lungo termine (30s). Il codice e il modello di InfGen saranno rilasciati su https://orangesodahub.github.io/InfGen.
La combinazione di modelli esperti pre-addestrati offre un potenziale significativo per il ragionamento multimodale scalabile, ma la creazione di un framework unificato rimane una sfida a causa della crescente diversità delle modalità di input e della complessità dei compiti. Ad esempio, la diagnosi medica richiede un ragionamento preciso su tabelle cliniche strutturate, mentre la previsione finanziaria dipende dall'interpretazione di dati basati su grafici per effettuare previsioni informate. Per affrontare questa sfida, introduciamo MEXA, un framework senza necessità di addestramento che esegue un'aggregazione consapevole della modalità e del compito di più modelli esperti per abilitare un ragionamento multimodale efficace in domini diversi e distinti. MEXA seleziona dinamicamente i modelli esperti in base alla modalità di input e alle esigenze di ragionamento specifiche del compito (ovvero, le competenze). Ogni modello esperto, specializzato in una coppia modalità-compito, genera output di ragionamento testuali interpretabili. MEXA aggrega e ragiona su questi output utilizzando un Large Reasoning Model (LRM) per produrre la risposta finale. Questo design modulare consente un ragionamento multimodale flessibile e trasparente in diversi domini senza ulteriori costi di addestramento. Valutiamo ampiamente il nostro approccio su diversi benchmark multimodali, tra cui Ragionamento Video, Ragionamento Audio, Comprensione 3D e QA Medico. MEXA fornisce costantemente miglioramenti delle prestazioni rispetto a forti baseline multimodali, evidenziando l'efficacia e l'ampia applicabilità della nostra selezione e aggregazione guidata da esperti in vari compiti di ragionamento multimodale.
La generazione di riassunti imparziali in contesti reali come la sintesi di prospettive politiche rimane un'applicazione cruciale dei Modelli Linguistici di Grande Scala (LLM). Tuttavia, i framework di valutazione esistenti si basano su metriche tradizionali per misurare attributi chiave come copertura e fedeltà senza verificarne l'applicabilità, e gli sforzi per sviluppare sistemi di sintesi migliorati sono ancora agli inizi. Affrontiamo queste lacune (1) identificando metriche affidabili per misurare la qualità dei riassunti prospettici e (2) investigando l'efficacia dei metodi basati su LLM oltre l'inferenza zero-shot. In particolare, costruiamo un set di test per valutare l'affidabilità delle metriche utilizzando annotazioni umane e dimostriamo che le metriche tradizionali sono inferiori rispetto a quelle basate su modelli linguistici, che si rivelano valutatori robusti. Utilizzando queste metriche, mostriamo che i metodi basati su riordinamento producono risultati solidi e che l'ottimizzazione delle preferenze con dati generati sinteticamente ed etichettati tramite riordinamento migliora ulteriormente le prestazioni. I nostri risultati mirano a contribuire alla valutazione affidabile e allo sviluppo di metodi di sintesi prospettica.
La marcatura delle uscite dei modelli generativi è emersa come un approccio promettente per tracciarne la provenienza. Nonostante il significativo interesse verso i modelli di generazione di immagini autoregressivi e il loro potenziale di abuso, nessun lavoro precedente ha tentato di marcare le loro uscite a livello di token. In questo lavoro, presentiamo il primo approccio di questo tipo adattando le tecniche di marcatura dei modelli linguistici a questo contesto. Identifichiamo una sfida chiave: la mancanza di coerenza inversa del ciclo (RCC), in cui la ritokenizzazione dei token di immagini generate altera significativamente la sequenza di token, cancellando di fatto la marca. Per affrontare questo problema e rendere il nostro metodo robusto alle comuni trasformazioni delle immagini, alla compressione neurale e agli attacchi di rimozione, introduciamo (i) una procedura di fine-tuning personalizzata per tokenizer-detokenizer che migliora la RCC, e (ii) uno strato complementare di sincronizzazione della marca. Come dimostrano i nostri esperimenti, il nostro approccio consente un rilevamento affidabile e robusto della marca con valori p teoricamente fondati.
L'inversione del modello linguistico mira a recuperare prompt nascosti utilizzando solo gli output del modello linguistico. Questa capacità ha implicazioni per la sicurezza e la responsabilità nelle implementazioni dei modelli linguistici, come la fuoriuscita di informazioni private dal messaggio di sistema di un modello linguistico protetto da API. Proponiamo un nuovo metodo -- l'inversione del prompt da sequenze di logprob (PILS) -- che recupera prompt nascosti raccogliendo indizi dalle probabilità del token successivo del modello nel corso di più passaggi di generazione. Il nostro metodo è reso possibile da una chiave di intuizione: gli output vettoriali di un modello linguistico occupano un sottospazio a bassa dimensionalità. Ciò ci consente di comprimere senza perdite l'intera distribuzione di probabilità del token successivo su più passaggi di generazione utilizzando una mappa lineare, permettendo di utilizzare più informazioni di output per l'inversione. Il nostro approccio produce guadagni significativi rispetto ai precedenti metodi all'avanguardia per il recupero di prompt nascosti, raggiungendo tassi di recupero esatto da 2 a 3,5 volte più alti su set di test, in un caso aumentando il tasso di recupero dal 17% al 60%. Il nostro metodo mostra anche un comportamento di generalizzazione sorprendentemente buono; ad esempio, un inverter addestrato su 16 passaggi di generazione ottiene un recupero del prompt da 5 a 27 punti più alto quando aumentiamo il numero di passaggi a 32 durante il test. Inoltre, dimostriamo una forte performance del nostro metodo sul compito più impegnativo di recuperare messaggi di sistema nascosti. Analizziamo anche il ruolo della ripetizione letterale nel recupero del prompt e proponiamo un nuovo metodo per il trasferimento di modelli tra famiglie per inverter basati su logit. I nostri risultati mostrano che le probabilità del token successivo rappresentano una superficie di attacco considerevolmente più vulnerabile per gli attacchi di inversione rispetto a quanto si conoscesse in precedenza.