Articoli di ricerca IA selezionati quotidianamente con traduzioni
Riscontriamo che, semplicemente attraverso un metodo di campionamento e votazione, le prestazioni dei grandi modelli linguistici (LLM) si amplificano con il numero di agenti istanziati. Inoltre, questo metodo è ortogonale rispetto ai metodi complessi esistenti per migliorare ulteriormente i LLM, mentre il grado di miglioramento è correlato alla difficoltà del compito. Abbiamo condotto esperimenti completi su un'ampia gamma di benchmark per LLM per verificare la presenza della nostra scoperta e per studiare le proprietà che possono favorirne l'occorrenza. Il nostro codice è disponibile pubblicamente all'indirizzo: https://anonymous.4open.science/r/more_agent_is_all_you_need.
Proponiamo il problema della navigazione web conversazionale, in cui un agente digitale controlla un browser web e segue le istruzioni dell'utente per risolvere compiti del mondo reale in un dialogo a più turni. Per supportare questo problema, introduciamo WEBLINX, un benchmark su larga scala di 100K interazioni basate su 2300 dimostrazioni esperte di navigazione web conversazionale. Il nostro benchmark copre un'ampia gamma di pattern su oltre 150 siti web reali e può essere utilizzato per addestrare e valutare agenti in scenari diversificati. A causa della mole di informazioni presenti, i Large Language Models (LLM) non possono elaborare intere pagine web in tempo reale. Per risolvere questo collo di bottiglia, progettiamo un modello ispirato al retrieval che seleziona efficientemente gli elementi rilevanti delle pagine HTML. Utilizziamo gli elementi selezionati, insieme a screenshot e cronologia delle azioni, per valutare una varietà di modelli sulla loro capacità di replicare il comportamento umano durante la navigazione web. I nostri esperimenti spaziano da piccoli modelli testuali a LLM multimodali proprietari. Scopriamo che decoder più piccoli e finetunati superano i migliori LLM zero-shot (incluso GPT-4V), ma anche modelli multimodali più grandi e finetunati che sono stati esplicitamente preaddestrati su screenshot. Tuttavia, tutti i modelli finetunati faticano a generalizzare su siti web non visti. I nostri risultati evidenziano la necessità di grandi modelli multimodali in grado di generalizzare a contesti nuovi. Il nostro codice, dati e modelli sono disponibili per la ricerca: https://mcgill-nlp.github.io/weblinx
Lo sviluppo dei sistemi di intelligenza artificiale sta transitando dalla creazione di modelli statici e specifici per singoli compiti a sistemi dinamici basati su agenti, capaci di performare efficacemente in un'ampia gamma di applicazioni. Proponiamo un Modello Fondamentale di Agente Interattivo che utilizza un paradigma innovativo di addestramento multi-task per formare agenti AI in diversi domini, dataset e compiti. Il nostro paradigma di addestramento unifica diverse strategie di pre-training, tra cui auto-encoder mascherati per dati visivi, modellazione del linguaggio e predizione della prossima azione, consentendo un framework AI versatile e adattabile. Dimostriamo le prestazioni del nostro framework in tre domini distinti: Robotica, AI per giochi e Sanità. Il nostro modello dimostra la capacità di generare output significativi e contestualmente rilevanti in ciascun ambito. La forza del nostro approccio risiede nella sua generalità, sfruttando una varietà di fonti dati come sequenze robotiche, dati di gameplay, dataset video su larga scala e informazioni testuali per un apprendimento multimodale e multi-task efficace. Il nostro approccio offre una promettente direzione per lo sviluppo di sistemi generalisti, orientati all'azione e multimodali.
I Large Language Model (LLM) hanno dimostrato una notevole capacità nel comprendere e generare linguaggio naturale. Tuttavia, le loro prestazioni diminuiscono in domini altamente specializzati sottorappresentati nel corpus di pre-addestramento, come le scienze fisiche e biomediche. Questo lavoro esplora come riadattare LLM generici per risolvere efficacemente compiti in domini specializzati. Introduciamo un nuovo framework, indipendente dal modello, per apprendere tag di input personalizzati, parametrizzati come vettori continui aggiunti allo strato di embedding del LLM, per condizionare il modello. Progettiamo due tipi di tag di input: i tag di dominio vengono utilizzati per delimitare rappresentazioni specializzate (ad esempio, formule chimiche) e fornire contesto rilevante per il dominio; i tag di funzione vengono utilizzati per rappresentare funzioni specifiche (ad esempio, prevedere proprietà molecolari) e comprimere le istruzioni per la risoluzione delle funzioni. Sviluppiamo un protocollo in tre fasi per apprendere questi tag utilizzando dati ausiliari e conoscenze di dominio. Disaccoppiando esplicitamente i domini dei compiti dalle funzioni dei compiti, il nostro metodo consente una generalizzazione zero-shot a problemi non visti attraverso combinazioni diverse dei tag di input. Inoltre, migliora le prestazioni del LLM in vari domini specializzati, come la previsione di proprietà proteiche o chimiche e la modellazione delle interazioni farmaco-bersaglio, superando modelli esperti progettati per questi compiti.
Questo rapporto tecnico presenta la metodologia di addestramento e i risultati di valutazione dei modelli open-source multilingue E5 per l'embedding di testo, rilasciati a metà del 2023. Sono stati forniti tre modelli di embedding di dimensioni diverse (small / base / large), che offrono un equilibrio tra efficienza nell'inferenza e qualità dell'embedding. La procedura di addestramento segue la ricetta del modello E5 in inglese, coinvolgendo un pre-addestramento contrastivo su 1 miliardo di coppie di testi multilingue, seguito da un fine-tuning su una combinazione di dataset etichettati. Inoltre, introduciamo un nuovo modello di embedding ottimizzato per istruzioni, le cui prestazioni sono alla pari con i modelli all'avanguardia di dimensioni simili, esclusivamente in inglese. Le informazioni relative al rilascio del modello sono disponibili all'indirizzo https://github.com/microsoft/unilm/tree/master/e5.
Nonostante i recenti progressi nei modelli generativi personalizzati text-to-image (P-T2I), la generazione di immagini guidata da soggetti rimane una sfida. I principali colli di bottiglia includono: 1) Requisiti intensivi di risorse per l'addestramento, 2) Sensibilità agli iperparametri che porta a risultati inconsistenti, e 3) Bilanciare le complessità dell'allineamento tra nuovi concetti visivi e composizione. Iniziamo ripercorrendo la filosofia di base dei modelli di diffusione T2I per affrontare queste limitazioni. Principalmente, gli approcci contemporanei T2I guidati da soggetti si basano sui Modelli di Diffusione Latente (LDMs), che facilitano la mappatura T2I attraverso strati di cross-attention. Sebbene gli LDMs offrano vantaggi distintivi, la dipendenza dei metodi P-T2I dallo spazio latente di questi modelli di diffusione aumenta significativamente la domanda di risorse, portando a risultati inconsistenti e richiedendo numerose iterazioni per ottenere un'immagine desiderata. Recentemente, ECLIPSE ha dimostrato un percorso più efficiente in termini di risorse per l'addestramento di modelli T2I basati su UnCLIP, evitando la necessità di priorità di diffusione text-to-image. Basandoci su questo, introduciamo lambda-ECLIPSE. Il nostro metodo dimostra che un P-T2I efficace non dipende necessariamente dallo spazio latente dei modelli di diffusione. lambda-ECLIPSE raggiunge la personalizzazione T2I per singoli soggetti, multi-soggetti e guidata da bordi con soli 34M di parametri ed è addestrato in appena 74 ore di GPU utilizzando 1.6M di dati intervallati immagine-testo. Attraverso esperimenti estesi, stabiliamo inoltre che lambda-ECLIPSE supera le baseline esistenti nell'allineamento della composizione mantenendo le prestazioni di allineamento del concetto, anche con un utilizzo di risorse significativamente inferiore.
L'apprendimento in contesto (ICL, noto anche come prompting few-shot) è stato il metodo standard per adattare i modelli linguistici di grandi dimensioni (LLM) a compiti specifici, apprendendo da pochi esempi di input-output. Tuttavia, tutti gli approcci basati su ICL apprendono solo da coppie corrette di input-output. In questo articolo, riprendiamo questo paradigma, cercando di apprendere di più dai pochi esempi di input-output forniti. Introduciamo i Principi di Apprendimento (LEAP): in primo luogo, induciamo intenzionalmente il modello a commettere errori su questi pochi esempi; poi riflettiamo su questi errori e apprendiamo "principi" espliciti specifici per il compito, che aiutano a risolvere problemi simili e a evitare errori comuni; infine, sollecitiamo il modello a rispondere a domande di test non viste utilizzando i pochi esempi originali e questi principi generali appresi. Valutiamo LEAP su un'ampia gamma di benchmark, tra cui risposte a domande multi-hop (Hotpot QA), QA testuale (DROP), ragionamento Big-Bench Hard e problemi matematici (GSM8K e MATH); in tutti questi benchmark, LEAP migliora i più potenti LLM disponibili come GPT-3.5-turbo, GPT-4, GPT-4 turbo e Claude-2.1. Ad esempio, LEAP migliora rispetto al prompting few-shot standard utilizzando GPT-4 del 7,5% in DROP e del 3,3% in HotpotQA. È importante sottolineare che LEAP non richiede ulteriori input o esempi rispetto alle impostazioni standard del prompting few-shot.
Proponiamo SPHINX-X, un'estesa serie di Modelli Linguistici Multimodali di Grande Scala (MLLM) sviluppata su SPHINX. Per migliorare l'efficienza dell'architettura e dell'addestramento, modifichiamo il framework SPHINX rimuovendo gli encoder visivi ridondanti, bypassando le sotto-immagini completamente riempite con token di salto e semplificando l'addestramento multi-stadio in un paradigma all-in-one a singolo stadio. Per sfruttare appieno il potenziale degli MLLM, assembliamo un dataset multimodale e multi-dominio completo che copre risorse pubbliche disponibili in compiti linguistici, visivi e visivo-linguistici. Arricchiamo ulteriormente questa raccolta con i nostri dataset curati OCR-intensive e Set-of-Mark, estendendo la diversità e la generalità. Addestrando su diversi modelli linguistici di base, tra cui TinyLlama1.1B, InternLM2-7B, LLaMA2-13B e Mixtral8x7B, otteniamo uno spettro di MLLM che variano in dimensioni dei parametri e capacità multilingue. Un benchmarking completo rivela una forte correlazione tra le prestazioni multimodali e le scale di dati e parametri. Codice e modelli sono rilasciati su https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Presentiamo SPIRIT-LM, un modello linguistico multimodale di base che combina liberamente testo e parlato. Il nostro modello si basa su un modello linguistico di testo preaddestrato che estendiamo alla modalità del parlato attraverso un addestramento continuo su unità di testo e parlato. Le sequenze di parlato e testo vengono concatenate in un unico insieme di token e addestrate con un metodo di intercalazione a livello di parola utilizzando un piccolo corpus parallelo parlato-testo curato automaticamente. SPIRIT-LM è disponibile in due versioni: una versione BASE che utilizza unità semantiche del parlato e una versione EXPRESSIVE che modella l'espressività utilizzando unità di tono e stile oltre alle unità semantiche. In entrambe le versioni, il testo è codificato con token BPE sublessicali. Il modello risultante mostra sia le capacità semantiche dei modelli di testo che le capacità espressive dei modelli di parlato. Inoltre, dimostriamo che SPIRIT-LM è in grado di apprendere nuovi task in modalità few-shot attraverso diverse modalità (ad esempio, ASR, TTS, classificazione del parlato).
In questo articolo, introduciamo un nuovo paradigma per migliorare le capacità di un rilevatore di oggetti, ad esempio espandendo le categorie o migliorando le prestazioni di rilevamento, addestrandolo su un dataset sintetico generato da modelli di diffusione. Nello specifico, integriamo una testina di grounding a livello di istanza in un modello generativo di diffusione pre-addestrato, per dotarlo della capacità di localizzare istanze arbitrarie nelle immagini generate. La testina di grounding viene addestrata per allineare l'embedding testuale dei nomi delle categorie con la caratteristica visiva regionale del modello di diffusione, utilizzando la supervisione di un rilevatore di oggetti preesistente e un nuovo schema di auto-addestramento su categorie (nuove) non coperte dal rilevatore. Questa versione potenziata del modello di diffusione, denominata InstaGen, può fungere da sintetizzatore di dati per il rilevamento di oggetti. Condurremo esperimenti approfonditi per dimostrare che un rilevatore di oggetti può essere migliorato addestrandosi sul dataset sintetico generato da InstaGen, mostrando prestazioni superiori rispetto ai metodi all'avanguardia esistenti in scenari di vocabolario aperto (+4,5 AP) e con dati scarsi (+1,2 a 5,2 AP).
La maggior parte degli encoder video basati su transformer è limitata a contesti temporali brevi a causa della loro complessità quadratica. Sebbene siano stati fatti vari tentativi per estendere questo contesto, ciò è spesso avvenuto a scapito sia della complessità concettuale che di quella computazionale. Proponiamo invece di riutilizzare i transformer video pre-addestrati esistenti, semplicemente adattandoli per prestare attenzione a memorie derivate in modo non parametrico dalle attivazioni passate. Sfruttando la riduzione della ridondanza, il nostro vision transformer consolidato con memoria (MC-ViT) estende senza sforzo il suo contesto nel passato e mostra un eccellente comportamento di scalabilità quando impara da video più lunghi. In questo modo, MC-ViT stabilisce un nuovo stato dell'arte nella comprensione video a lungo contesto su EgoSchema, Perception Test e Diving48, superando metodi che beneficiano di un numero di parametri di ordini di grandezza superiore.
I modelli Vision-Language (VL) hanno attirato un significativo interesse di ricerca, consentendo notevoli progressi nel ragionamento multimodale. Queste architetture tipicamente comprendono un encoder visivo, un Large Language Model (LLM) e un modulo di proiezione che allinea le caratteristiche visive con lo spazio di rappresentazione dell'LLM. Nonostante il loro successo, persiste una limitazione critica: il processo di codifica visiva rimane disaccoppiato dalle query degli utenti, spesso formulate come domande relative all'immagine. Di conseguenza, le caratteristiche visive risultanti potrebbero non essere ottimamente sintonizzate sugli elementi specifici dell'immagine rilevanti per la query. Per affrontare questo problema, introduciamo QA-ViT, un approccio Question Aware Vision Transformer per il ragionamento multimodale, che integra la consapevolezza della domanda direttamente all'interno dell'encoder visivo. Questa integrazione produce caratteristiche visive dinamiche che si concentrano sugli aspetti rilevanti dell'immagine rispetto alla domanda posta. QA-ViT è model-agnostic e può essere incorporato efficientemente in qualsiasi architettura VL. Esperimenti estensivi dimostrano l'efficacia dell'applicazione del nostro metodo a varie architetture multimodali, portando a miglioramenti consistenti in diversi compiti e mostrando il suo potenziale per migliorare la comprensione visiva e del testo nelle scene.
Presentiamo un nuovo algoritmo per ottimizzare distribuzioni definite implicitamente da diffusioni stocastiche parametrizzate. Ciò ci consente di modificare la distribuzione dei risultati dei processi di campionamento ottimizzando i loro parametri. Introduciamo un framework generale per l'ottimizzazione di primo ordine di questi processi, che esegue congiuntamente, in un unico ciclo, passi di ottimizzazione e campionamento. Questo approccio è ispirato dai recenti progressi nell'ottimizzazione bilevel e nella differenziazione implicita automatica, sfruttando il punto di vista del campionamento come ottimizzazione sullo spazio delle distribuzioni di probabilità. Forniamo garanzie teoriche sulle prestazioni del nostro metodo, nonché risultati sperimentali che ne dimostrano l'efficacia in contesti reali.
Dimostriamo che il reinforcement learning offline di tipo actor-critic può scalare a modelli di grandi dimensioni - come i transformer - e segue leggi di scala simili a quelle dell'apprendimento supervisionato. Troviamo che gli algoritmi actor-critic offline possono superare solide baseline di clonazione comportamentale supervisionata per l'addestramento multi-task su un ampio dataset contenente sia comportamenti sub-ottimali che esperti, su 132 task di controllo continuo. Introduciamo un modello actor-critic basato su Perceiver e chiariamo le caratteristiche chiave del modello necessarie per far funzionare il RL offline con moduli di self- e cross-attention. In sintesi, scopriamo che: i) semplici algoritmi actor-critic offline rappresentano una scelta naturale per allontanarsi gradualmente dall'attuale paradigma predominante della clonazione comportamentale, e ii) attraverso il RL offline è possibile apprendere politiche multi-task che padroneggiano simultaneamente molti domini, inclusi task di robotica reale, a partire da dimostrazioni sub-ottimali o dati auto-generati.
Adattare il comportamento di guida a nuovi ambienti, usanze e leggi è un problema di lunga data nella guida autonoma, che impedisce la diffusione su larga scala dei veicoli autonomi (AV). In questo articolo, presentiamo LLaDA, uno strumento semplice ma potente che consente sia ai conducenti umani che ai veicoli autonomi di guidare ovunque, adattando i loro compiti e piani di movimento alle regole del traffico in nuove località. LLaDA raggiunge questo obiettivo sfruttando l'impressionante capacità di generalizzazione zero-shot dei modelli linguistici di grandi dimensioni (LLM) nell'interpretare le regole del traffico presenti nel manuale del conducente locale. Attraverso un ampio studio sugli utenti, dimostriamo che le istruzioni di LLaDA sono utili per chiarire situazioni impreviste in contesti reali. Mostriamo inoltre la capacità di LLaDA di adattare le politiche di pianificazione del movimento degli AV in dataset del mondo reale; LLaDA supera gli approcci di pianificazione di base in tutte le nostre metriche. Per maggiori dettagli, consultate il nostro sito web: https://boyiliee.github.io/llada.