Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'apprendimento in contesto (In-context Learning, ICL) nei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) è emerso come un nuovo e potente paradigma di apprendimento. Tuttavia, il suo meccanismo sottostante non è ancora ben compreso. In particolare, è difficile mapparlo al framework "standard" del machine learning, in cui si utilizza un insieme di addestramento S per trovare una funzione f(x) che si adatti meglio in una certa classe di ipotesi. In questo lavoro facciamo progressi su questo problema dimostrando che le funzioni apprese tramite ICL hanno spesso una struttura molto semplice: corrispondono al transformer LLM i cui unici input sono la query x e un singolo "vettore di task" calcolato dall'insieme di addestramento. Pertanto, l'ICL può essere visto come un processo che comprime S in un singolo vettore di task theta(S) e poi utilizza questo vettore per modulare il transformer e produrre l'output. Supportiamo questa affermazione attraverso esperimenti completi su una gamma di modelli e task.
Il panorama dei modelli di base per la visione (VFMs) disponibili pubblicamente, come CLIP e Segment Anything Model (SAM), si sta espandendo rapidamente. I VFM sono dotati di capacità distinte derivanti dai loro obiettivi di pre-addestramento. Ad esempio, CLIP eccelle nella comprensione semantica, mentre SAM si specializza nella comprensione spaziale per la segmentazione. In questo lavoro, introduciamo una ricetta semplice per fondere in modo efficiente i VFM in un modello unificato che assimila le loro competenze. Il nostro metodo proposto integra l'apprendimento multi-task, tecniche di apprendimento continuo e la distillazione insegnante-studente. Questa strategia comporta un costo computazionale significativamente inferiore rispetto al tradizionale addestramento multi-task da zero. Inoltre, richiede solo una piccola frazione dei dataset di pre-addestramento inizialmente utilizzati per addestrare i singoli modelli. Applicando il nostro metodo a SAM e CLIP, otteniamo SAM-CLIP: un modello unificato che amalgama i punti di forza di SAM e CLIP in un'unica architettura, rendendolo adatto per applicazioni su dispositivi edge. Dimostriamo che SAM-CLIP apprende rappresentazioni visive più ricche, dotate sia di caratteristiche di localizzazione che semantiche, adatte a un'ampia gamma di task di visione. SAM-CLIP ottiene prestazioni migliorate in diversi task di probing rispetto a SAM e CLIP. Mostriamo inoltre che SAM-CLIP non solo conserva i punti di forza fondamentali dei suoi modelli precursori, ma introduce anche funzionalità sinergiche, in particolare nella segmentazione semantica zero-shot, dove SAM-CLIP stabilisce nuovi risultati state-of-the-art su 5 benchmark. Supera di gran lunga i modelli precedenti specificamente progettati per questo task, con miglioramenti medi di IoU rispettivamente del +6,8% e del +5,9% sui dataset Pascal-VOC e COCO-Stuff.
L'allucinazione rappresenta una grande ombra che incombe sui Modelli Linguistici Multimodali di Grande Scala (MLLMs) in rapida evoluzione, riferendosi al fenomeno per cui il testo generato è incoerente con il contenuto dell'immagine. Per mitigare le allucinazioni, gli studi esistenti si basano principalmente su un approccio di instruction-tuning che richiede il riaddestramento dei modelli con dati specifici. In questo articolo, proponiamo una strada diversa, introducendo un metodo senza addestramento chiamato Woodpecker. Come un picchio che cura gli alberi, esso individua e corregge le allucinazioni dal testo generato. Nello specifico, Woodpecker è composto da cinque fasi: estrazione dei concetti chiave, formulazione delle domande, validazione della conoscenza visiva, generazione di affermazioni visive e correzione delle allucinazioni. Implementato in modalità post-rimedio, Woodpecker può facilmente servire diversi MLLMs, rimanendo interpretabile grazie all'accesso agli output intermedi delle cinque fasi. Valutiamo Woodpecker sia quantitativamente che qualitativamente, dimostrando l'enorme potenziale di questo nuovo paradigma. Sul benchmark POPE, il nostro metodo ottiene un miglioramento del 30,66%/24,33% in accuratezza rispetto ai baseline MiniGPT-4/mPLUG-Owl. Il codice sorgente è disponibile all'indirizzo https://github.com/BradyFU/Woodpecker.
La maggior parte dei lavori recenti sull'utilizzo di Large Language Models (LLM) come GPT-3 per la Traduzione Automatica (MT) si è concentrata sulla selezione di esempi few-shot per il prompting. In questo lavoro, cerchiamo di comprendere meglio il ruolo degli attributi delle dimostrazioni per l'apprendimento in-context delle traduzioni attraverso perturbazioni di dimostrazioni di alta qualità e in dominio. Scopriamo che le perturbazioni asimmetriche delle mappature sorgente-bersaglio producono risultati molto diversi. Mostriamo che la perturbazione del lato sorgente ha un impatto sorprendentemente limitato, mentre la perturbazione del bersaglio può ridurre drasticamente la qualità della traduzione, suggerendo che è la distribuzione del testo di output a fornire il segnale di apprendimento più importante durante l'apprendimento in-context delle traduzioni. Proponiamo un metodo chiamato Zero-Shot-Context per aggiungere automaticamente questo segnale nel prompting zero-shot. Dimostriamo che migliora le prestazioni di traduzione zero-shot di GPT-3, rendendola persino competitiva con le traduzioni ottenute tramite prompting few-shot.
In questo articolo, presentiamo il Recognize Anything Plus Model (RAM++), un modello fondamentale di riconoscimento delle immagini con forti capacità di riconoscimento in contesti aperti, ottenuto iniettando concetti semantici nel framework di addestramento per l'assegnazione di tag alle immagini. I precedenti approcci sono o modelli di assegnazione di tag limitati da una semantica ristretta, o modelli visione-linguaggio con interazioni superficiali che portano a prestazioni subottimali nel riconoscimento multi-tag. Al contrario, RAM++ integra l'allineamento immagine-testo e l'assegnazione di tag all'interno di un framework unificato di interazione granulare basato su triplette immagine-tag-testo. Questo design consente a RAM++ non solo di eccellere nell'identificazione di categorie predefinite, ma anche di aumentare significativamente la capacità di riconoscimento in categorie aperte. Inoltre, RAM++ utilizza grandi modelli linguistici (LLM) per generare descrizioni visive di tag diversificate, pionierizzando l'integrazione della conoscenza degli LLM nell'addestramento per l'assegnazione di tag. Questo approccio permette a RAM++ di integrare concetti di descrizione visiva per il riconoscimento in contesti aperti durante l'inferenza. Le valutazioni su benchmark completi di riconoscimento delle immagini dimostrano che RAM++ supera i modelli fondamentali di riconoscimento delle immagini allo stato dell'arte (SOTA) nella maggior parte degli aspetti. In particolare, per le categorie di tag predefinite di uso comune, RAM++ mostra miglioramenti di 10,2 mAP e 15,4 mAP rispetto a CLIP su OpenImages e ImageNet. Per le categorie aperte oltre quelle predefinite, RAM++ registra miglioramenti di 5 mAP e 6,4 mAP rispetto a CLIP e RAM rispettivamente su OpenImages. Per frasi diverse di interazione uomo-oggetto, RAM++ raggiunge miglioramenti di 7,8 mAP e 4,7 mAP sul benchmark HICO. Codice, dataset e modelli pre-addestrati sono disponibili su https://github.com/xinyu1205/recognize-anything.
Studiamo la capacità dei modelli più avanzati di rispondere a query di soddisfazione di vincoli per il recupero di informazioni (ad esempio, "un elenco di gelaterie a San Diego"). In passato, tali query erano considerate compiti che potevano essere risolti solo tramite ricerche web o basi di conoscenza. Più recentemente, i grandi modelli linguistici (LLM) hanno dimostrato capacità emergenti iniziali in questo compito. Tuttavia, molti benchmark di recupero attuali sono saturi o non misurano la soddisfazione dei vincoli. Motivati dalle crescenti preoccupazioni riguardo all'inesattezza fattuale e alle allucinazioni degli LLM, presentiamo KITAB, un nuovo dataset per misurare le capacità di soddisfazione dei vincoli dei modelli linguistici. KITAB consiste in dati relativi a libri di oltre 600 autori e 13.000 query, e offre anche un approccio dinamico di raccolta dati e verifica dei vincoli per acquisire dati di test simili per altri autori. I nostri esperimenti estesi su GPT4 e GPT3.5 caratterizzano e separano le modalità di fallimento comuni lungo dimensioni come la popolarità delle informazioni, i tipi di vincoli e la disponibilità del contesto. I risultati mostrano che, in assenza di contesto, i modelli presentano gravi limitazioni, misurate da informazioni irrilevanti, errori fattuali e incompletezza, molte delle quali si aggravano con la diminuzione della popolarità delle informazioni. Sebbene la disponibilità del contesto mitighi le informazioni irrilevanti, non è utile per soddisfare i vincoli, identificando barriere fondamentali alla soddisfazione dei vincoli. Rendiamo open source i nostri contributi per favorire ulteriori ricerche sul miglioramento delle capacità di soddisfazione dei vincoli dei modelli futuri.
L'architettura Transformer è fondamentale per numerosi modelli di IA, ma deve ancora affrontare sfide nella modellazione del linguaggio a lungo raggio. Sebbene siano state progettate diverse architetture Transformer specifiche per affrontare i problemi delle dipendenze a lungo raggio, i metodi esistenti come Transformer-XL sono afflitti da un'alta percentuale di memorie inefficaci. In questo studio, presentiamo una strategia plug-and-play, denominata TRAining-free Memory Selection (TRAMS), che seleziona i token che partecipano al calcolo dell'attenzione basandosi su una semplice metrica. Questa strategia ci consente di mantenere i token che hanno una probabilità elevata di ottenere un punteggio di attenzione alto con le query correnti e di ignorare gli altri. Abbiamo testato il nostro approccio sul benchmark a livello di parola (WikiText-103) e sul benchmark a livello di carattere (enwik8), e i risultati indicano un miglioramento senza la necessità di ulteriori addestramenti o l'aggiunta di parametri aggiuntivi.
La teoria delle fondamenta morali (MFT) è uno strumento di valutazione psicologica che scompone il ragionamento morale umano in cinque fattori, tra cui cura/danno, libertà/oppressione e sacralità/degradazione (Graham et al., 2009). Le persone differiscono nel peso che attribuiscono a queste dimensioni quando prendono decisioni morali, in parte a causa del loro background culturale e dell'ideologia politica. Poiché i grandi modelli linguistici (LLM) vengono addestrati su dataset raccolti da internet, possono riflettere i pregiudizi presenti in tali corpora. Questo articolo utilizza la MFT come lente per analizzare se i popolari LLM abbiano acquisito un pregiudizio verso un particolare insieme di valori morali. Analizziamo LLM noti e scopriamo che mostrano specifiche fondamenta morali, e dimostriamo come queste si relazionino alle fondamenta morali umane e alle affiliazioni politiche. Misuriamo inoltre la coerenza di questi pregiudizi, ovvero se variano fortemente a seconda del contesto in cui il modello viene sollecitato. Infine, dimostriamo che è possibile selezionare in modo avversario prompt che incoraggiano il modello a esibire un particolare insieme di fondamenta morali, e che ciò può influenzare il comportamento del modello su compiti successivi. Questi risultati aiutano a illustrare i potenziali rischi e le conseguenze non intenzionali degli LLM che assumono una particolare posizione morale.