Articoli di ricerca IA selezionati quotidianamente con traduzioni
Una migliore comprensione delle capacità di analisi legale dei Large Language Models (LLM) può contribuire a migliorare l'efficienza dei servizi legali, a governare l'intelligenza artificiale e a sfruttare gli LLM per identificare incongruenze nel diritto. Questo articolo esplora le capacità degli LLM nell'applicazione del diritto tributario. Abbiamo scelto questo ambito giuridico perché presenta una struttura che ci consente di impostare pipeline di validazione automatizzate su migliaia di esempi, richiede ragionamento logico e competenze matematiche, e ci permette di testare le capacità degli LLM in modo rilevante per la vita economica reale di cittadini e aziende. I nostri esperimenti dimostrano capacità emergenti di comprensione legale, con un miglioramento delle prestazioni in ogni successivo rilascio di modelli OpenAI. Sperimentiamo il recupero e l'utilizzo dell'autorità legale pertinente per valutare l'impatto di fornire ulteriore contesto legale agli LLM. Il prompting few-shot, che presenta esempi di coppie domanda-risposta, si è rivelato anche in grado di migliorare significativamente le prestazioni del modello più avanzato, GPT-4. I risultati indicano che gli LLM, specialmente se combinati con miglioramenti nel prompting e con i testi legali corretti, possono raggiungere alti livelli di accuratezza, ma non ancora ai livelli di un esperto avvocato tributario. Man mano che gli LLM continuano a progredire, la loro capacità di ragionare autonomamente sul diritto potrebbe avere implicazioni significative per la professione legale e per la governance dell'IA.
I modelli di diffusione hanno dimostrato un eccellente potenziale nella generazione di immagini diversificate. Tuttavia, le loro prestazioni spesso risentono di una generazione lenta a causa del processo iterativo di rimozione del rumore. La distillazione della conoscenza è stata recentemente proposta come rimedio in grado di ridurre il numero di passaggi di inferenza a uno o pochi senza un significativo degrado della qualità. Tuttavia, i metodi di distillazione esistenti richiedono o una quantità significativa di calcolo offline per generare dati di addestramento sintetici dal modello insegnante, o necessitano di un costoso apprendimento online con l'aiuto di dati reali. In questo lavoro, presentiamo una tecnica innovativa chiamata BOOT, che supera queste limitazioni con un algoritmo di distillazione efficiente e privo di dati. L'idea centrale è apprendere un modello condizionato temporalmente che predice l'output di un modello di diffusione insegnante pre-addestrato dato qualsiasi passo temporale. Tale modello può essere addestrato in modo efficiente basandosi sul bootstrapping da due passi campionati consecutivi. Inoltre, il nostro metodo può essere facilmente adattato a modelli di diffusione su larga scala per la generazione di immagini da testo, che rappresentano una sfida per i metodi convenzionali dato che i set di addestramento sono spesso di grandi dimensioni e difficili da accedere. Dimostriamo l'efficacia del nostro approccio su diversi dataset di benchmark nell'ambito del DDIM, raggiungendo una qualità di generazione comparabile mentre siamo ordini di grandezza più veloci rispetto al modello di diffusione insegnante. I risultati nella generazione di immagini da testo mostrano che l'approccio proposto è in grado di gestire distribuzioni altamente complesse, aprendo la strada a una modellazione generativa più efficiente.
I sistemi di intelligenza artificiale generativa, che spaziano tra diverse modalità come testo, immagini, audio e video, hanno un ampio impatto sociale, ma non esiste uno standard ufficiale per valutare tali impatti e quali di essi dovrebbero essere valutati. Proponiamo un approccio standardizzato per valutare un sistema di IA generativa in qualsiasi modalità, suddividendolo in due categorie principali: ciò che può essere valutato in un sistema di base privo di un'applicazione predeterminata e ciò che può essere valutato nella società. Descriviamo specifiche categorie di impatto sociale e come affrontare e condurre valutazioni nel sistema tecnico di base, e successivamente nelle persone e nella società. Il nostro framework per un sistema di base definisce sette categorie di impatto sociale: bias, stereotipi e danni rappresentativi; valori culturali e contenuti sensibili; prestazioni diseguali; privacy e protezione dei dati; costi finanziari; costi ambientali; e costi del lavoro di moderazione di dati e contenuti. I metodi suggeriti per la valutazione si applicano a tutte le modalità, e le analisi dei limiti delle valutazioni esistenti servono come punto di partenza per gli investimenti necessari nelle valutazioni future. Proponiamo cinque categorie principali per ciò che può essere valutato nella società, ciascuna con le proprie sottocategorie: affidabilità e autonomia; disuguaglianza, marginalizzazione e violenza; concentrazione dell'autorità; lavoro e creatività; e ecosistema e ambiente. Ogni sottocategoria include raccomandazioni per mitigare i danni. Stiamo contemporaneamente creando un repository di valutazioni per la comunità di ricerca sull'IA, per contribuire con valutazioni esistenti lungo le categorie indicate. Questa versione sarà aggiornata in seguito a una sessione CRAFT all'ACM FAccT 2023.
Cosa costituisce l'"atmosfera" di una particolare scena? Cosa si dovrebbe trovare in "una strada cittadina affollata e sporca", "una campagna idilliaca" o "una scena del crimine in un soggiorno abbandonato"? La traduzione da descrizioni di scene astratte a elementi di scena stilizzati non può essere effettuata con generalità dai sistemi esistenti, addestrati su dataset rigidi e limitati di ambienti interni. In questo articolo, proponiamo di sfruttare la conoscenza catturata dai modelli di fondazione per realizzare questa traduzione. Presentiamo un sistema che può fungere da strumento per generare asset stilizzati per scene 3D descritte da una breve frase, senza la necessità di enumerare gli oggetti da trovare nella scena o di fornire istruzioni sul loro aspetto. Inoltre, è robusto rispetto a concetti del mondo aperto in un modo che i metodi tradizionali addestrati su dati limitati non sono, offrendo maggiore libertà creativa all'artista 3D. Il nostro sistema dimostra ciò utilizzando una "squadra" di modelli di fondazione composta da un modello linguistico di grandi dimensioni, un modello visione-linguaggio e diversi modelli di diffusione di immagini, che comunicano utilizzando una rappresentazione intermedia interpretabile e modificabile dall'utente, consentendo così una generazione di asset stilizzati più versatile e controllabile per gli artisti 3D. Introduciamo nuove metriche per questo compito e mostriamo, attraverso valutazioni umane, che nel 91% dei casi, le uscite del nostro sistema sono giudicate più fedeli alla semantica della descrizione della scena in input rispetto alla baseline, evidenziando così il potenziale di questo approccio per accelerare radicalmente il processo di creazione di contenuti 3D per gli artisti 3D.
L'obiettivo di questo articolo è la rilevazione di oggetti a vocabolario aperto (OVOD) – costruire un modello in grado di rilevare oggetti oltre l'insieme di categorie viste durante l'addestramento, consentendo così all'utente di specificare categorie di interesse durante l'inferenza senza la necessità di riaddestrare il modello. Adottiamo un'architettura standard di rilevatore di oggetti a due stadi ed esploriamo tre modalità per specificare nuove categorie: tramite descrizioni linguistiche, tramite esempi di immagini o tramite una combinazione delle due. Forniamo tre contributi: primo, utilizziamo un modello linguistico di grandi dimensioni (LLM) per generare descrizioni linguistiche informative per le classi di oggetti e costruiamo classificatori basati su testo potenti; secondo, impieghiamo un aggregatore visivo sugli esempi di immagini che può elaborare qualsiasi numero di immagini come input, formando classificatori basati su visione; e terzo, forniamo un metodo semplice per fondere le informazioni dalle descrizioni linguistiche e dagli esempi di immagini, ottenendo un classificatore multimodale. Quando valutiamo sul benchmark impegnativo LVIS per la rilevazione a vocabolario aperto, dimostriamo che: (i) i nostri classificatori basati su testo superano tutti i precedenti lavori OVOD; (ii) i nostri classificatori basati su visione performano altrettanto bene quanto i classificatori basati su testo nei lavori precedenti; (iii) l'uso di classificatori multimodali performa meglio rispetto a ciascuna modalità singolarmente; e infine, (iv) i nostri classificatori basati su testo e multimodali ottengono prestazioni migliori rispetto a un rilevatore completamente supervisionato.
I Neural Radiance Fields (NeRF) hanno dimostrato risultati impressionanti nella sintesi di nuove viste; tuttavia, anche registrazioni approfondite presentano imperfezioni nelle ricostruzioni, ad esempio a causa di aree scarsamente osservate o lievi cambiamenti di illuminazione. Il nostro obiettivo è mitigare queste imperfezioni provenienti da varie fonti con una soluzione congiunta: sfruttiamo la capacità delle reti generative avversarie (GAN) di produrre immagini realistiche e le utilizziamo per migliorare il realismo nella ricostruzione di scene 3D con i NeRF. A tal fine, apprendiamo la distribuzione delle patch di una scena utilizzando un discriminatore avversario, che fornisce feedback alla ricostruzione del campo di radianza, migliorando così il realismo in modo coerente in 3D. In questo modo, gli artefatti di rendering vengono riparati direttamente nella rappresentazione 3D sottostante imponendo vincoli di rendering multi-vista. Inoltre, condizioniamo un generatore con rendering NeRF a multi-risoluzione, che viene addestrato in modo avversario per migliorare ulteriormente la qualità del rendering. Dimostriamo che il nostro approccio migliora significativamente la qualità del rendering, ad esempio quasi dimezzando i punteggi LPIPS rispetto a Nerfacto, migliorando allo stesso tempo il PSNR di 1.4dB sulle scene indoor avanzate di Tanks and Temples.
Le operazioni di editing comunemente eseguite dai fotografi professionisti includono interventi di pulizia: ridurre l'importanza di elementi distraenti e migliorare i soggetti. Questi interventi sono complessi, richiedendo un delicato equilibrio tra la manipolazione dell'attenzione dello spettatore e il mantenimento del realismo fotografico. Sebbene approcci recenti possano vantare esempi riusciti di attenuazione o amplificazione dell'attenzione, molti di essi soffrono anche di frequenti modifiche irrealistiche. Proponiamo una funzione di perdita basata sul realismo per il miglioramento delle immagini guidato dalla salienza, al fine di mantenere un elevato realismo su diversi tipi di immagini, attenuando gli elementi distraenti e amplificando gli oggetti di interesse. Le valutazioni condotte con fotografi professionisti confermano che raggiungiamo il duplice obiettivo di realismo ed efficacia, superando i recenti approcci sui loro stessi dataset, richiedendo al contempo un'impronta di memoria e un tempo di esecuzione ridotti. Offriamo quindi una soluzione praticabile per automatizzare le operazioni di miglioramento delle immagini e di pulizia fotografica.