Articoli di ricerca IA selezionati quotidianamente con traduzioni
I sistemi OCR tradizionali (OCR-1.0) stanno sempre più faticando a soddisfare le esigenze delle persone a causa della crescente domanda di elaborazione intelligente dei caratteri ottici artificiali. In questo articolo, ci riferiamo collettivamente a tutti i segnali ottici artificiali (ad esempio testi semplici, formule matematiche/molecolari, tabelle, grafici, spartiti musicali e persino forme geometriche) come "caratteri" e proponiamo la Teoria OCR Generale insieme a un eccellente modello, chiamato GOT, per favorire l'avvento dell'OCR-2.0. Il GOT, con 580M parametri, è un modello unificato, elegante e end-to-end, composto da un encoder ad alta compressione e un decoder con contesti lunghi. Come modello OCR-2.0, il GOT può gestire tutti i suddetti "caratteri" in vari compiti OCR. Sul lato di input, il modello supporta immagini di stile scena e documento in stili a fette e intere pagine. Sul lato di output, il GOT può generare risultati semplici o formattati (markdown/tikz/smiles/kern) tramite un prompt facile. Inoltre, il modello gode di funzionalità OCR interattive, ovvero il riconoscimento a livello di regione guidato da coordinate o colori. Inoltre, adattiamo anche tecnologie di risoluzione dinamica e OCR multi-pagina al GOT per una maggiore praticità. Negli esperimenti, forniamo risultati sufficienti per dimostrare la superiorità del nostro modello.
Introduciamo OLMoE, un modello linguistico all'avanguardia completamente aperto che sfrutta un Mixture-of-Experts (MoE) sparso. OLMoE-1B-7B ha 7 miliardi (B) di parametri ma utilizza solo 1B per token in input. Lo preaddestriamo su 5 trilioni di token e successivamente lo adattiamo per creare OLMoE-1B-7B-Instruct. I nostri modelli superano tutti i modelli disponibili con parametri attivi simili, superando persino modelli più grandi come Llama2-13B-Chat e DeepSeekMoE-16B. Presentiamo vari esperimenti sull'addestramento MoE, analizziamo il routing nel nostro modello mostrando un'elevata specializzazione e condividiamo in open-source tutti gli aspetti del nostro lavoro: pesi del modello, dati di addestramento, codice e log.
Introduciamo Kvasir-VQA, un dataset esteso derivato dai dataset HyperKvasir e Kvasir-Instrument, arricchito con annotazioni di domande e risposte per agevolare compiti avanzati di apprendimento automatico nella diagnostica gastrointestinale (GI). Questo dataset comprende 6.500 immagini annotate che coprono varie condizioni del tratto GI e strumenti chirurgici, supportando diversi tipi di domande tra cui sì/no, scelta, posizione e conteggio numerico. Il dataset è destinato ad applicazioni come descrizione delle immagini, Risposta alle Domande Visive (VQA), generazione basata su testo di immagini mediche sintetiche, rilevamento oggetti e classificazione. I nostri esperimenti dimostrano l'efficacia del dataset nel addestrare modelli per tre compiti selezionati, evidenziando significative applicazioni nell'analisi e nella diagnostica delle immagini mediche. Presentiamo inoltre metriche di valutazione per ciascun compito, mettendo in risalto l'usabilità e la versatilità del nostro dataset. Il dataset e gli artefatti di supporto sono disponibili su https://datasets.simula.no/kvasir-vqa.
I modelli linguistici di grandi dimensioni (LLM) affrontano significativi problemi nel gestire compiti a lungo contesto a causa della limitata dimensione efficace della finestra di contesto durante la preformazione, che limita la loro capacità di generalizzare su sequenze estese. Nel frattempo, estendere la finestra di contesto nei LLM attraverso la post-preformazione è molto dispendioso in termini di risorse. Per affrontare questo problema, introduciamo **LongRecipe**, una strategia di addestramento efficiente per estendere la finestra di contesto dei LLM, che include un'analisi di token di impatto, una trasformazione dell'indice di posizione e strategie di ottimizzazione dell'addestramento. Essa simula input di sequenze lunghe mantenendo l'efficienza dell'addestramento e migliorando significativamente la comprensione del modello sulle dipendenze a lungo raggio. Gli esperimenti condotti su tre tipi di LLM mostrano che LongRecipe può utilizzare sequenze lunghe richiedendo solo il 30% della dimensione della finestra di contesto desiderata, riducendo le risorse computazionali necessarie per l'addestramento di oltre l'85% rispetto all'addestramento con sequenze complete. Inoltre, LongRecipe preserva anche le capacità originali dei LLM in compiti generali. In definitiva, *possiamo estendere la finestra di contesto efficace dei LLM open-source da 8k a 128k, ottenendo prestazioni simili a quelle di GPT-4 con un solo giorno di addestramento dedicato utilizzando una singola GPU con 80G di memoria.* Il nostro codice è disponibile al seguente [link](https://github.com/zhiyuanhubj/LongRecipe).
Nonostante i significativi progressi nell'estimazione della profondità monoculare per immagini statiche, l'estimazione della profondità video nel mondo aperto rimane una sfida, poiché i video del mondo aperto sono estremamente diversi per contenuto, movimento, movimento della telecamera e durata. Presentiamo DepthCrafter, un metodo innovativo per generare sequenze di profondità lunghe temporalmente coerenti con dettagli intricati per video del mondo aperto, senza richiedere alcuna informazione supplementare come pose della telecamera o flusso ottico. DepthCrafter raggiunge la capacità di generalizzazione ai video del mondo aperto addestrando un modello video-profondità da un modello di diffusione immagine-video preaddestrato, attraverso la nostra strategia di addestramento a tre fasi attentamente progettata con i dataset video-profondità accoppiati compilati. Il nostro approccio di addestramento consente al modello di generare sequenze di profondità con lunghezze variabili contemporaneamente, fino a 110 frame, e di raccogliere dettagli di profondità precisi e una ricca diversità di contenuti da dataset realistici e sintetici. Proponiamo inoltre una strategia di inferenza che elabora video estremamente lunghi attraverso stime per segmenti e cuciture senza soluzione di continuità. Valutazioni esaustive su più dataset rivelano che DepthCrafter raggiunge prestazioni all'avanguardia nell'estimazione della profondità video nel mondo aperto in impostazioni di zero-shot. Inoltre, DepthCrafter facilita varie applicazioni successive, inclusi effetti visivi basati sulla profondità e generazione di video condizionale.
I moderni modelli di diffusione, in particolare quelli che utilizzano un UNet basato su Transformer per il denoising, si basano pesantemente sulle operazioni di auto-attenzione per gestire complesse relazioni spaziali, ottenendo così un'impressionante performance generativa. Tuttavia, questo paradigma esistente si trova ad affrontare significativi ostacoli nella generazione di contenuti visivi ad alta risoluzione a causa della sua complessità temporale e di memoria quadratica rispetto al numero di token spaziali. Per affrontare questa limitazione, ci proponiamo di introdurre in questo articolo un nuovo meccanismo di attenzione lineare come alternativa. In particolare, iniziamo la nostra esplorazione dai modelli recentemente introdotti con complessità lineare, ad esempio Mamba, Mamba2 e Gated Linear Attention, e identifichiamo due caratteristiche chiave - normalizzazione dell'attenzione e inferenza non causale - che migliorano le performance di generazione visiva ad alta risoluzione. Sfruttando queste intuizioni, introduciamo un paradigma di attenzione lineare generalizzato, che funge da approssimazione a basso rango di una vasta gamma di popolari mischiatori di token lineari. Per ridurre i costi di addestramento e sfruttare al meglio i modelli pre-addestrati, iniziamo i nostri modelli e distilliamo le conoscenze dal pre-addestrato StableDiffusion (SD). Scopriamo che il modello distillato, denominato LinFusion, raggiunge performance paragonabili o superiori all'originale SD dopo un addestramento solo modesto, riducendo significativamente la complessità temporale e di memoria. Estesi esperimenti su SD-v1.5, SD-v2.1 e SD-XL dimostrano che LinFusion offre una soddisfacente performance di generazione cross-resolution zero-shot, generando immagini ad alta risoluzione come la risoluzione 16K. Inoltre, è altamente compatibile con i componenti pre-addestrati di SD, come ControlNet e IP-Adapter, senza richiedere sforzi di adattamento. Il codice è disponibile su https://github.com/Huage001/LinFusion.
Questo articolo esplora una semplice estensione dei Transformers a flusso rettificato basati sulla diffusione per la generazione di testo-musica, denominata FluxMusic. Generalmente, insieme alla progettazione avanzata del modello Flux, lo trasferiamo in uno spazio VAE latente dello spettro melodico. Ciò comporta l'applicazione iniziale di una sequenza di attenzione indipendente al doppio flusso di testo-musica, seguita da un singolo flusso musicale impilato per la previsione di patch denoised. Utilizziamo diversi codificatori di testo pre-addestrati per catturare in modo sufficiente le informazioni semantiche delle didascalie e la flessibilità dell'inferenza. Nel frattempo, le informazioni testuali grossolane, insieme agli embedding degli step temporali, vengono utilizzate in un meccanismo di modulazione, mentre i dettagli testuali fini vengono concatenati alla sequenza di patch musicali come input. Attraverso uno studio approfondito, dimostriamo che l'addestramento a flusso rettificato con un'architettura ottimizzata supera significativamente i metodi di diffusione consolidati per il compito di testo-musica, come dimostrato da vari metriche automatiche e valutazioni delle preferenze umane. I nostri dati sperimentali, codice e pesi del modello sono resi pubblicamente disponibili su: https://github.com/feizc/FluxMusic.
I recenti progressi nei modelli video-linguistici su larga scala hanno mostrato un significativo potenziale per la pianificazione in tempo reale e le interazioni dettagliate. Tuttavia, le loro elevate esigenze computazionali e la scarsità di set di dati annotati limitano la loro praticità per i ricercatori accademici. In questo lavoro, presentiamo VideoLLaMB, un nuovo framework che utilizza token di memoria temporale all'interno dei livelli di collegamento per consentire la codifica di intere sequenze video insieme a dati visivi storici, preservando efficacemente la continuità semantica e migliorando le prestazioni del modello su varie attività. Questo approccio include token di memoria ricorrenti e un algoritmo SceneTilling, che segmenta i video in unità semantiche indipendenti per preservare l'integrità semantica. Empiricamente, VideoLLaMB supera significativamente i modelli video-linguistici esistenti, dimostrando un miglioramento di 5,5 punti rispetto ai suoi concorrenti su tre benchmark VideoQA e 2,06 punti sulla pianificazione egocentrica. I risultati completi su MVBench mostrano che VideoLLaMB-7B ottiene risultati nettamente migliori rispetto ai modelli 7B precedenti dello stesso LLM. In modo sorprendente, mantiene prestazioni robuste come PLLaVA anche con l'aumento della lunghezza del video fino a 8 volte. Inoltre, i risultati del recupero dei frame sul nostro benchmark Needle in a Video Haystack (NIAVH) specializzato, convalidano ulteriormente la capacità di VideoLLaMB di identificare con precisione frame specifici all'interno di video lunghi. Il nostro algoritmo SceneTilling consente anche la generazione diretta di didascalie video in streaming, senza richiedere ulteriori addestramenti. In termini di efficienza, VideoLLaMB, addestrato su 16 frame, supporta fino a 320 frame su una singola GPU Nvidia A100 con scalabilità lineare della memoria GPU, garantendo sia alte prestazioni che convenienza, stabilendo così una nuova base per i modelli video-linguistici a lungo termine sia in ambito accademico che pratico.
Introduciamo Diffusion Policy Policy Optimization, DPPO, un framework algoritmico che include le migliori pratiche per ottimizzare le politiche basate sulla diffusione (ad es. Diffusion Policy) in compiti di controllo continuo e apprendimento robotico utilizzando il metodo del gradiente della politica (PG) dall'apprendimento per rinforzo (RL). I metodi PG sono onnipresenti nell'addestramento delle politiche RL con altre parametrizzazioni delle politiche; tuttavia, si era ipotizzato che fossero meno efficienti per le politiche basate sulla diffusione. Sorprendentemente, dimostriamo che DPPO raggiunge le migliori prestazioni complessive ed efficienza per l'ottimizzazione in benchmark comuni rispetto ad altri metodi RL per le politiche basate sulla diffusione e anche rispetto all'ottimizzazione PG di altre parametrizzazioni delle politiche. Attraverso un'indagine sperimentale, scopriamo che DPPO sfrutta sinergie uniche tra l'ottimizzazione RL e la parametrizzazione della diffusione, portando a esplorazioni strutturate e on-manifold, ad un addestramento stabile e a una forte robustezza della politica. Dimostriamo inoltre i punti di forza di DPPO in una serie di contesti realistici, inclusi compiti robotici simulati con osservazioni pixel e tramite il rilascio a zero-shot di politiche addestrate in simulazione sull'hardware del robot in un compito di manipolazione a lungo termine a più fasi. Sito web con codice: diffusion-ppo.github.io
Sono stati compiuti significativi progressi nella generazione di video da testo attraverso l'uso di potenti modelli generativi e di dati su larga scala provenienti da internet. Tuttavia, rimangono sfide sostanziali nel controllare con precisione concetti individuali all'interno del video generato, come il movimento e l'aspetto di personaggi specifici e il cambiamento dei punti di vista. In questo lavoro, proponiamo un nuovo paradigma che genera ogni concetto separatamente in una rappresentazione 3D e poi li compone con priori derivati dai Large Language Models (LLM) e modelli di diffusione 2D. In particolare, dato un prompt testuale in input, il nostro schema consiste in tre fasi: 1) Sfruttiamo il LLM come direttore per prima cosa decomporre la query complessa in diversi sotto-prompts che indicano concetti individuali all'interno del video (ad esempio, scena, oggetti, movimenti), quindi facciamo sì che il LLM invochi modelli esperti pre-addestrati per ottenere rappresentazioni 3D corrispondenti ai concetti. 2) Per comporre queste rappresentazioni, chiediamo al LLM multimodale di produrre una guida approssimativa sulle scale e le coordinate delle traiettorie degli oggetti. 3) Per far sì che i frame generati rispettino la distribuzione naturale delle immagini, sfruttiamo ulteriormente priori di diffusione 2D e utilizziamo il campionamento di distillazione dei punteggi per perfezionare la composizione. Estesi esperimenti dimostrano che il nostro metodo può generare video ad alta fedeltà da testo con movimenti diversificati e controllo flessibile su ciascun concetto. Pagina del progetto: https://aka.ms/c3v.
Il Variational Autoencoder (VAE), che comprime i video in rappresentazioni latenti, è un componente cruciale precedente dei Modelli di Diffusione Video Latenti (LVDM). Con la stessa qualità di ricostruzione, maggiore è l'efficienza della compressione dei video da parte del VAE, più efficienti saranno i LVDM. Tuttavia, la maggior parte dei LVDM utilizza il VAE delle immagini 2D, la cui compressione per i video riguarda solo la dimensione spaziale e spesso trascura la dimensione temporale. Come condurre la compressione temporale dei video in un VAE per ottenere rappresentazioni latenti più concise pur garantendo un'accurata ricostruzione è raramente esplorato. Per colmare questa lacuna, proponiamo un VAE di compressione onmi-dimensionale, chiamato OD-VAE, che può comprimere i video temporalmente e spazialmente. Anche se la compressione più efficiente di OD-VAE rappresenta una grande sfida per la ricostruzione video, può comunque raggiungere un'alta precisione nella ricostruzione grazie al nostro accurato design. Per ottenere un migliore compromesso tra la qualità della ricostruzione video e la velocità di compressione, vengono introdotte e analizzate quattro varianti di OD-VAE. Inoltre, è stata progettata una nuova inizializzazione della coda per addestrare OD-VAE in modo più efficiente, e una nuova strategia di inferenza è proposta per consentire a OD-VAE di gestire video di lunghezza arbitraria con una memoria GPU limitata. Esperimenti approfonditi sulla ricostruzione video e sulla generazione video basata su LVDM dimostrano l'efficacia e l'efficienza dei nostri metodi proposti.
Come utilizzano i modelli linguistici le informazioni fornite come contesto durante la generazione di una risposta? Possiamo dedurre se una particolare affermazione generata è effettivamente basata sul contesto, se è frutto di un fraintendimento o se è fabbricata? Per aiutare a rispondere a queste domande, introduciamo il problema dell'attribuzione del contesto: individuare le parti del contesto (se presenti) che hanno portato un modello a generare una particolare affermazione. Presentiamo quindi ContextCite, un metodo semplice e scalabile per l'attribuzione del contesto che può essere applicato su qualsiasi modello linguistico esistente. Infine, mostriamo l'utilità di ContextCite attraverso tre applicazioni: (1) aiutare a verificare le affermazioni generate, (2) migliorare la qualità della risposta eliminando parti del contesto e (3) rilevare attacchi di avvelenamento. Forniamo il codice per ContextCite su https://github.com/MadryLab/context-cite.
I modelli di diffusione testo-immagine sono emersi come un framework potente per la generazione di immagini di alta qualità date indicazioni testuali. Il loro successo ha guidato lo sviluppo rapido di modelli di diffusione di grado di produzione che aumentano costantemente di dimensioni e contengono già miliardi di parametri. Di conseguenza, i modelli di testo-immagine all'avanguardia stanno diventando meno accessibili nella pratica, specialmente in ambienti con risorse limitate. La quantizzazione post-addestramento (PTQ) affronta questo problema comprimendo i pesi del modello preaddestrato in rappresentazioni a bit inferiori. Le recenti tecniche di quantizzazione della diffusione si basano principalmente sulla quantizzazione scalare uniforme, offrendo prestazioni decenti per i modelli compressi a 4 bit. Questo lavoro dimostra che la quantizzazione vettoriale più versatile (VQ) potrebbe ottenere tassi di compressione più elevati per i modelli di diffusione testo-immagine su larga scala. In particolare, adattiamo i metodi PTQ basati su vettori ai recenti modelli testo-immagine su scala miliardaria (SDXL e SDXL-Turbo), e mostriamo che i modelli di diffusione con 2 miliardi di parametri compressi a circa 3 bit utilizzando VQ presentano una qualità dell'immagine e un allineamento testuale simili alle tecniche di compressione precedenti a 4 bit.
Molte ricerche precedenti sull'IA si sono concentrate nello sviluppo di modelli monolitici per massimizzare la loro intelligenza e capacità, con l'obiettivo principale di migliorare le prestazioni su compiti specifici. Al contrario, questo articolo esplora un approccio alternativo: sistemi collaborativi di intelligenza artificiale che utilizzano flussi di lavoro per integrare modelli, fonti di dati e pipeline per risolvere compiti complessi e diversificati. Presentiamo GenAgent, un framework basato su LLM che genera automaticamente flussi di lavoro complessi, offrendo maggiore flessibilità e scalabilità rispetto ai modelli monolitici. L'innovazione principale di GenAgent risiede nella rappresentazione dei flussi di lavoro con codice, insieme alla costruzione dei flussi di lavoro con agenti collaborativi in modo graduale. Implementiamo GenAgent sulla piattaforma ComfyUI e proponiamo un nuovo benchmark, OpenComfy. I risultati dimostrano che GenAgent supera gli approcci di base sia nelle valutazioni a livello di esecuzione che a livello di compito, mostrando la sua capacità di generare flussi di lavoro complessi con un'efficacia e una stabilità superiori.
Questo articolo esplora l'outpainting video ad alta risoluzione con una generazione di contenuti estensiva. Indichiamo le problematiche comuni affrontate dai metodi esistenti nel tentativo di outpainting su larga scala dei video: la generazione di contenuti di bassa qualità e le limitazioni imposte dalla memoria GPU. Per affrontare tali sfide, proponiamo un metodo basato sulla diffusione chiamato Follow-Your-Canvas. Si basa su due concetti fondamentali. In primo luogo, anziché adottare la pratica comune dell'outpainting "single-shot", distribuiamo il compito attraverso finestre spaziali e le fondiamo in modo uniforme. Ciò ci consente di outpainting video di qualsiasi dimensione e risoluzione senza essere vincolati dalla memoria GPU. In secondo luogo, il video sorgente e la sua relazione posizionale relativa vengono inseriti nel processo generativo di ciascuna finestra. Ciò fa sì che il layout spaziale generato in ciascuna finestra si armonizzi con il video sorgente. L'accoppiamento di questi due concetti ci consente di generare video di outpainting ad alta risoluzione con contenuti ricchi mantenendo coerenza spaziale e temporale. Follow-Your-Canvas eccelle nell'outpainting video su larga scala, ad esempio, da 512X512 a 1152X2048 (9X), producendo risultati di alta qualità ed esteticamente gradevoli. Ottiene i migliori risultati quantitativi in varie configurazioni di risoluzione e scala. Il codice è disponibile su https://github.com/mayuelala/FollowYourCanvas
La rilevazione della depressione basata sul parlato presenta significativi ostacoli per la rilevazione automatizzata a causa della sua manifestazione unica tra individui e della scarsità di dati. Affrontando tali sfide, presentiamo DAAMAudioCNNLSTM e DAAMAudioTransformer, due modelli efficienti in termini di parametri e spiegabili per l'estrazione delle caratteristiche audio e la rilevazione della depressione. DAAMAudioCNNLSTM presenta un innovativo framework CNN-LSTM con il meccanismo di attenzione adattiva a densità multi-testa (DAAM), che si concentra dinamicamente su segmenti di discorso informativi. DAAMAudioTransformer, sfruttando un codificatore transformer al posto dell'architettura CNN-LSTM, incorpora lo stesso modulo DAAM per un'attenzione e interpretabilità migliorate. Questi approcci non solo migliorano la robustezza della rilevazione e l'interpretabilità, ma raggiungono anche prestazioni all'avanguardia: DAAMAudioCNNLSTM con un punteggio F1 macro di 0,702 e DAAMAudioTransformer con un punteggio F1 macro di 0,72 sul dataset DAIC-WOZ, senza dipendenza da informazioni supplementari come posizioni delle vocali e informazioni sugli speaker durante addestramento/validazione come nei precedenti approcci. La significativa spiegabilità e l'efficienza di entrambi i modelli nel sfruttare i segnali vocali per la rilevazione della depressione rappresentano un passo avanti verso strumenti diagnostici più affidabili e utili clinicamente, promettendo progressi nel settore della salute mentale e del parlato. Per favorire ulteriori ricerche in questo ambito, rendiamo il nostro codice pubblicamente disponibile.
La ricerca ibrida è emersa come una strategia efficace per compensare i limiti dei diversi paradigmi di corrispondenza, specialmente in contesti al di fuori del dominio in cui sono state osservate notevoli migliorie nella qualità del recupero. Tuttavia, le ricerche esistenti si concentrano principalmente su un insieme limitato di metodi di recupero, valutati a coppie su set di dati generali del dominio esclusivamente in lingua inglese. In questo lavoro, studiamo l'efficacia della ricerca ibrida attraverso una varietà di modelli di recupero di spicco nel campo inesplorato del diritto in lingua francese, valutando sia scenari di zero-shot che in-domain. Le nostre scoperte rivelano che in un contesto zero-shot, la fusione di diversi modelli generali del dominio migliora costantemente le prestazioni rispetto all'uso di un modello autonomo, indipendentemente dal metodo di fusione. Sorprendentemente, quando i modelli sono addestrati in-domain, scopriamo che la fusione generalmente riduce le prestazioni rispetto all'uso del miglior sistema singolo, a meno che non si fondono i punteggi con pesi attentamente tarati. Queste nuove intuizioni, tra le altre, ampliano l'applicabilità delle scoperte precedenti in un nuovo campo e linguaggio, e contribuiscono a una comprensione più approfondita della ricerca ibrida in domini specializzati non in lingua inglese.
Questo articolo introduce il Dataset MERIT, un dataset multimodale (testo + immagine + layout) completamente etichettato nel contesto dei rapporti scolastici. Comprendente oltre 400 etichette e 33.000 campioni, il Dataset MERIT è una risorsa preziosa per addestrare modelli in compiti impegnativi di Comprensione di Documenti Ricchi di Elementi Visivi (VrDU). Per sua natura (rapporti di voti degli studenti), il Dataset MERIT può potenzialmente includere bias in modo controllato, rendendolo uno strumento prezioso per valutare i bias indotti nei Modelli Linguistici (LLM). L'articolo descrive il processo di generazione del dataset e mette in evidenza le sue principali caratteristiche nei domini testuale, visivo, di layout e di bias. Per dimostrare l'utilità del dataset, presentiamo una valutazione con modelli di classificazione di token, mostrando che il dataset rappresenta una sfida significativa anche per i modelli SOTA e che questi trarrebbero grandi benefici dall'inclusione di campioni dal Dataset MERIT nella fase di preaddestramento.
Poiché i modelli linguistici (LM) sono ampiamente utilizzati in scenari di comunicazione personalizzata (ad esempio, invio di email, scrittura di post sui social media) e dotati di un certo livello di autonomia, garantire che agiscano in conformità con le norme di privacy contestuali diventa sempre più critico. Tuttavia, quantificare la consapevolezza delle norme sulla privacy dei LM e il rischio emergente per la privacy nella comunicazione mediata dai LM è sfidante a causa (1) della natura contestuale e a lunga coda dei casi sensibili alla privacy e (2) della mancanza di approcci di valutazione che catturino scenari di applicazione realistici. Per affrontare queste sfide, proponiamo PrivacyLens, un nuovo framework progettato per estendere semi sensibili alla privacy in vignette espressive e successivamente in traiettorie degli agenti, consentendo una valutazione a più livelli delle falle nella privacy nelle azioni degli agenti LM. Istanziamo PrivacyLens con una raccolta di norme sulla privacy basate sulla letteratura sulla privacy e semi ottenuti tramite crowd-sourcing. Utilizzando questo dataset, riveliamo una discrepanza tra le prestazioni dei LM nel rispondere a domande di indagine e il loro effettivo comportamento nell'eseguire istruzioni dell'utente in un ambiente di agente. I LM all'avanguardia, come GPT-4 e Llama-3-70B, rilasciano informazioni sensibili nel 25,68% e nel 38,69% dei casi, anche quando sollecitati con istruzioni che migliorano la privacy. Dimostriamo anche la natura dinamica di PrivacyLens estendendo ciascun seme in molteplici traiettorie per valutare il rischio di fuga della privacy dei LM. Il dataset e il codice sono disponibili su https://github.com/SALT-NLP/PrivacyLens.