HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

5 papers found

La documentazione degli strumenti abilita l'uso zero-shot degli strumenti con modelli linguistici di grandi dimensioni.
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Aug 1

ByCheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister

Oggi, i grandi modelli linguistici (LLM) vengono addestrati a utilizzare nuovi strumenti fornendo alcune dimostrazioni del loro utilizzo. Purtroppo, le dimostrazioni sono difficili da acquisire e possono portare a un uso distorto e indesiderato se viene scelta la dimostrazione sbagliata. Anche nello scenario raro in cui le dimostrazioni sono prontamente disponibili, non esiste un protocollo di selezione strutturato per determinare quante e quali fornire. Man mano che i compiti diventano più complessi, la ricerca della selezione cresce in modo combinatorio e diventa inevitabilmente intrattabile. Il nostro lavoro offre un'alternativa alle dimostrazioni: la documentazione degli strumenti. Sosteniamo l'uso della documentazione degli strumenti, descrizioni per l'uso individuale degli strumenti, rispetto alle dimostrazioni. Sosteniamo la nostra affermazione attraverso tre principali risultati empirici su 6 compiti che coprono sia le modalità visive che linguistiche. In primo luogo, sui benchmark esistenti, prompt zero-shot con solo la documentazione dello strumento sono sufficienti per ottenere un uso corretto dello strumento, raggiungendo prestazioni pari a quelle dei prompt few-shot. In secondo luogo, su un nuovo dataset realistico di utilizzo di strumenti con centinaia di API disponibili, dimostriamo che la documentazione dello strumento è significativamente più preziosa delle dimostrazioni, con la documentazione zero-shot che supera significativamente il few-shot senza documentazione. In terzo luogo, evidenziamo i vantaggi della documentazione degli strumenti affrontando la generazione di immagini e il tracciamento video utilizzando modelli all'avanguardia appena rilasciati come strumenti. Infine, evidenziamo la possibilità di utilizzare la documentazione degli strumenti per abilitare automaticamente nuove applicazioni: utilizzando nient'altro che la documentazione di GroundingDino, Stable Diffusion, XMem e SAM, gli LLM possono reinventare le funzionalità dei modelli appena rilasciati Grounded-SAM e Track Anything.

Prompting in Contesto di Abilità: Sbloccare la Composizionalità nei Modelli Linguistici di Grande Dimensione
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models

Aug 1

ByJiaao Chen, Xiaoman Pan, Dian Yu, Kaiqiang Song, Xiaoyang Wang, Dong Yu, Jianshu Chen

Consideriamo il problema di stimolare le capacità di generalizzazione compositiva nei grandi modelli linguistici (LLM) attraverso una nuova strategia di prompting. La generalizzazione compositiva consente ai LLM di risolvere problemi più complessi di quelli incontrati in precedenza (cioè, generalizzazione da semplice a complesso), una capacità di ragionamento fondamentale per un'intelligenza simile a quella umana. Tuttavia, anche i LLM più avanzati attualmente disponibili faticano in questa forma di ragionamento. Per colmare questa lacuna, proponiamo il prompting skills-in-context (SKiC), che istruisce i LLM su come comporre abilità di base per risolvere problemi più complessi. Abbiamo scoperto che è cruciale dimostrare sia le abilità che gli esempi compositivi all'interno dello stesso contesto di prompting. Con appena due esempi, il nostro prompting SKiC innesca forti sinergie tra le abilità e le loro capacità di composizione. In particolare, consente ai LLM di risolvere problemi inediti che richiedono composizioni innovative di abilità, raggiungendo una generalizzazione quasi perfetta su un'ampia gamma di compiti di composizionalità impegnativi. È interessante notare che il prompting SKiC sblocca il potenziale latente dei LLM, permettendo loro di sfruttare abilità interne preesistenti acquisite durante le fasi di pre-training precedenti, anche quando queste abilità non sono esplicitamente presentate nel contesto di prompting. Ciò si traduce nella capacità dei LLM di risolvere problemi complessi inediti attivando e componendo competenze interne. Grazie a queste caratteristiche rilevanti, il prompting SKiC è in grado di raggiungere prestazioni all'avanguardia su benchmark impegnativi di ragionamento matematico (ad esempio, MATH).

SelfCheck: Utilizzo di LLM per Verificare in Modalità Zero-Shot il Proprio Ragionamento Passo-Passo
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

Aug 1

ByNing Miao, Yee Whye Teh, Tom Rainforth

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM), in particolare l'invenzione del prompting a catena di pensieri (CoT), hanno reso possibile risolvere problemi di ragionamento. Tuttavia, anche i più potenti LLM continuano a lottare con problemi più complessi che richiedono pensiero non lineare e ragionamento a più passaggi. In questo lavoro, esploriamo se gli LLM hanno la capacità di riconoscere i propri errori, senza ricorrere a risorse esterne. In particolare, indaghiamo se possono essere utilizzati per identificare errori individuali all'interno di un ragionamento passo-passo. A tal fine, proponiamo uno schema di verifica zero-shot per riconoscere tali errori. Utilizziamo quindi questo schema di verifica per migliorare le prestazioni nel rispondere a domande, applicandolo per eseguire un voto ponderato su diverse risposte generate. Testiamo il metodo su tre dataset matematici—GSM8K, MathQA e MATH—e scopriamo che riconosce con successo gli errori e, di conseguenza, aumenta le prestazioni predittive finali.

La previsione di token mascherati in posizioni stocastiche migliora la modellazione di immagini mascherate
Predicting masked tokens in stochastic locations improves masked image modeling

Jul 31

ByAmir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun

L'apprendimento self-supervised è un paradigma promettente nel deep learning che consente di apprendere da dati non etichettati costruendo task preliminari (pretext tasks) che richiedono l'apprendimento di rappresentazioni utili. Nell'elaborazione del linguaggio naturale, il task preliminare dominante è stato il masked language modeling (MLM), mentre nella visione artificiale esiste un equivalente chiamato Masked Image Modeling (MIM). Tuttavia, il MIM è impegnativo perché richiede di prevedere contenuti semantici in posizioni precise. Ad esempio, data un'immagine incompleta di un cane, possiamo intuire che ci sia una coda, ma non possiamo determinarne la posizione esatta. In questo lavoro, proponiamo FlexPredict, un modello stocastico che affronta questa sfida incorporando l'incertezza di posizione nel modello. Nello specifico, condizioniamo il modello su posizioni stocastiche dei token mascherati per guidarlo verso l'apprendimento di feature più robuste rispetto alle incertezze di posizione. Il nostro approccio migliora le prestazioni downstream su una gamma di task; ad esempio, rispetto ai baseline MIM, FlexPredict aumenta la linear probing su ImageNet dell'1,6% con ViT-B e del 2,5% per la segmentazione video semi-supervisionata utilizzando ViT-L.

Tre Mattoni per Consolidare le Filigrane nei Modelli Linguistici di Grande Dimensione
Three Bricks to Consolidate Watermarks for Large Language Models

Jul 26

ByPierre Fernandez, Antoine Chaffin, Karim Tit, Vivien Chappelier, Teddy Furon

Il compito di distinguere tra testi generati e naturali sta diventando sempre più complesso. In questo contesto, la filigrana digitale emerge come una tecnica promettente per attribuire il testo generato a un modello specifico. Essa modifica il processo di generazione campionaria in modo da lasciare una traccia invisibile nell'output generato, facilitandone la successiva rilevazione. Questa ricerca consolida le filigrane digitali per i modelli linguistici di grandi dimensioni basandosi su tre considerazioni teoriche ed empiriche. In primo luogo, introduciamo nuovi test statistici che offrono garanzie teoriche robuste, valide anche a bassi tassi di falsi positivi (inferiori a 10^{-6}). In secondo luogo, confrontiamo l'efficacia delle filigrane utilizzando benchmark classici nel campo dell'elaborazione del linguaggio naturale, ottenendo approfondimenti sulla loro applicabilità nel mondo reale. In terzo luogo, sviluppiamo schemi di rilevazione avanzati per scenari in cui è disponibile l'accesso al modello linguistico, nonché filigrane digitali multi-bit.

La documentazione degli strumenti abilita l'uso zero-shot degli strumenti con modelli linguistici di grandi dimensioni.
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Aug 1

ByCheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister