Articoli di ricerca IA selezionati quotidianamente con traduzioni
Oggi, i grandi modelli linguistici (LLM) vengono addestrati a utilizzare nuovi strumenti fornendo alcune dimostrazioni del loro utilizzo. Purtroppo, le dimostrazioni sono difficili da acquisire e possono portare a un uso distorto e indesiderato se viene scelta la dimostrazione sbagliata. Anche nello scenario raro in cui le dimostrazioni sono prontamente disponibili, non esiste un protocollo di selezione strutturato per determinare quante e quali fornire. Man mano che i compiti diventano più complessi, la ricerca della selezione cresce in modo combinatorio e diventa inevitabilmente intrattabile. Il nostro lavoro offre un'alternativa alle dimostrazioni: la documentazione degli strumenti. Sosteniamo l'uso della documentazione degli strumenti, descrizioni per l'uso individuale degli strumenti, rispetto alle dimostrazioni. Sosteniamo la nostra affermazione attraverso tre principali risultati empirici su 6 compiti che coprono sia le modalità visive che linguistiche. In primo luogo, sui benchmark esistenti, prompt zero-shot con solo la documentazione dello strumento sono sufficienti per ottenere un uso corretto dello strumento, raggiungendo prestazioni pari a quelle dei prompt few-shot. In secondo luogo, su un nuovo dataset realistico di utilizzo di strumenti con centinaia di API disponibili, dimostriamo che la documentazione dello strumento è significativamente più preziosa delle dimostrazioni, con la documentazione zero-shot che supera significativamente il few-shot senza documentazione. In terzo luogo, evidenziamo i vantaggi della documentazione degli strumenti affrontando la generazione di immagini e il tracciamento video utilizzando modelli all'avanguardia appena rilasciati come strumenti. Infine, evidenziamo la possibilità di utilizzare la documentazione degli strumenti per abilitare automaticamente nuove applicazioni: utilizzando nient'altro che la documentazione di GroundingDino, Stable Diffusion, XMem e SAM, gli LLM possono reinventare le funzionalità dei modelli appena rilasciati Grounded-SAM e Track Anything.
Consideriamo il problema di stimolare le capacità di generalizzazione compositiva nei grandi modelli linguistici (LLM) attraverso una nuova strategia di prompting. La generalizzazione compositiva consente ai LLM di risolvere problemi più complessi di quelli incontrati in precedenza (cioè, generalizzazione da semplice a complesso), una capacità di ragionamento fondamentale per un'intelligenza simile a quella umana. Tuttavia, anche i LLM più avanzati attualmente disponibili faticano in questa forma di ragionamento. Per colmare questa lacuna, proponiamo il prompting skills-in-context (SKiC), che istruisce i LLM su come comporre abilità di base per risolvere problemi più complessi. Abbiamo scoperto che è cruciale dimostrare sia le abilità che gli esempi compositivi all'interno dello stesso contesto di prompting. Con appena due esempi, il nostro prompting SKiC innesca forti sinergie tra le abilità e le loro capacità di composizione. In particolare, consente ai LLM di risolvere problemi inediti che richiedono composizioni innovative di abilità, raggiungendo una generalizzazione quasi perfetta su un'ampia gamma di compiti di composizionalità impegnativi. È interessante notare che il prompting SKiC sblocca il potenziale latente dei LLM, permettendo loro di sfruttare abilità interne preesistenti acquisite durante le fasi di pre-training precedenti, anche quando queste abilità non sono esplicitamente presentate nel contesto di prompting. Ciò si traduce nella capacità dei LLM di risolvere problemi complessi inediti attivando e componendo competenze interne. Grazie a queste caratteristiche rilevanti, il prompting SKiC è in grado di raggiungere prestazioni all'avanguardia su benchmark impegnativi di ragionamento matematico (ad esempio, MATH).
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM), in particolare l'invenzione del prompting a catena di pensieri (CoT), hanno reso possibile risolvere problemi di ragionamento. Tuttavia, anche i più potenti LLM continuano a lottare con problemi più complessi che richiedono pensiero non lineare e ragionamento a più passaggi. In questo lavoro, esploriamo se gli LLM hanno la capacità di riconoscere i propri errori, senza ricorrere a risorse esterne. In particolare, indaghiamo se possono essere utilizzati per identificare errori individuali all'interno di un ragionamento passo-passo. A tal fine, proponiamo uno schema di verifica zero-shot per riconoscere tali errori. Utilizziamo quindi questo schema di verifica per migliorare le prestazioni nel rispondere a domande, applicandolo per eseguire un voto ponderato su diverse risposte generate. Testiamo il metodo su tre dataset matematici—GSM8K, MathQA e MATH—e scopriamo che riconosce con successo gli errori e, di conseguenza, aumenta le prestazioni predittive finali.
L'apprendimento self-supervised è un paradigma promettente nel deep learning che consente di apprendere da dati non etichettati costruendo task preliminari (pretext tasks) che richiedono l'apprendimento di rappresentazioni utili. Nell'elaborazione del linguaggio naturale, il task preliminare dominante è stato il masked language modeling (MLM), mentre nella visione artificiale esiste un equivalente chiamato Masked Image Modeling (MIM). Tuttavia, il MIM è impegnativo perché richiede di prevedere contenuti semantici in posizioni precise. Ad esempio, data un'immagine incompleta di un cane, possiamo intuire che ci sia una coda, ma non possiamo determinarne la posizione esatta. In questo lavoro, proponiamo FlexPredict, un modello stocastico che affronta questa sfida incorporando l'incertezza di posizione nel modello. Nello specifico, condizioniamo il modello su posizioni stocastiche dei token mascherati per guidarlo verso l'apprendimento di feature più robuste rispetto alle incertezze di posizione. Il nostro approccio migliora le prestazioni downstream su una gamma di task; ad esempio, rispetto ai baseline MIM, FlexPredict aumenta la linear probing su ImageNet dell'1,6% con ViT-B e del 2,5% per la segmentazione video semi-supervisionata utilizzando ViT-L.
Il compito di distinguere tra testi generati e naturali sta diventando sempre più complesso. In questo contesto, la filigrana digitale emerge come una tecnica promettente per attribuire il testo generato a un modello specifico. Essa modifica il processo di generazione campionaria in modo da lasciare una traccia invisibile nell'output generato, facilitandone la successiva rilevazione. Questa ricerca consolida le filigrane digitali per i modelli linguistici di grandi dimensioni basandosi su tre considerazioni teoriche ed empiriche. In primo luogo, introduciamo nuovi test statistici che offrono garanzie teoriche robuste, valide anche a bassi tassi di falsi positivi (inferiori a 10^{-6}). In secondo luogo, confrontiamo l'efficacia delle filigrane utilizzando benchmark classici nel campo dell'elaborazione del linguaggio naturale, ottenendo approfondimenti sulla loro applicabilità nel mondo reale. In terzo luogo, sviluppiamo schemi di rilevazione avanzati per scenari in cui è disponibile l'accesso al modello linguistico, nonché filigrane digitali multi-bit.