Articoli di ricerca IA selezionati quotidianamente con traduzioni
Negli ultimi mesi è emersa una nuova e potente tendenza in cui i grandi modelli linguistici (LLM) vengono potenziati per diventare agenti linguistici autonomi in grado di eseguire compiti multi-step orientati a obiettivi in modo indipendente, piuttosto che limitarsi a rispondere alle query degli utenti umani. La maggior parte degli agenti linguistici esistenti, tuttavia, non è ottimizzata utilizzando ricompense specifiche per l'ambiente. Sebbene alcuni agenti consentano un affinamento iterativo attraverso feedback verbali, non ragionano e pianificano in modi compatibili con l'apprendimento basato su gradienti dalle ricompense. Questo articolo introduce un framework metodologico per rinforzare i grandi agenti linguistici apprendendo un modello retrospettivo, che regola automaticamente i prompt degli agenti linguistici dal feedback dell'ambiente attraverso il gradiente della politica. Nello specifico, l'architettura dell'agente proposta apprende dalle ricompense in più ambienti e compiti, per affinare un modello linguistico pre-addestrato che perfeziona il prompt dell'agente linguistico riassumendo la causa principale dei tentativi falliti precedenti e proponendo piani d'azione. I risultati sperimentali su vari compiti dimostrano che gli agenti linguistici migliorano nel tempo e che il nostro approccio supera notevolmente i baseline che non sfruttano adeguatamente i gradienti dall'ambiente. Ciò dimostra che l'uso dell'ottimizzazione del gradiente della politica per migliorare gli agenti linguistici, per cui riteniamo che il nostro lavoro sia uno dei primi, sembra promettente e può essere applicato per ottimizzare altri modelli nell'architettura dell'agente per migliorarne le prestazioni nel tempo.
Proponiamo MM-Vet, un benchmark di valutazione che esamina i grandi modelli multimodali (LMM) su compiti multimodali complessi. I recenti LMM hanno dimostrato varie capacità intriganti, come risolvere problemi di matematica scritti sulla lavagna, ragionare su eventi e celebrità nelle immagini di notizie e spiegare battute visive. I rapidi progressi dei modelli pongono sfide allo sviluppo dei benchmark di valutazione. I problemi includono: (1) Come strutturare e valutare sistematicamente i compiti multimodali complessi; (2) Come progettare metriche di valutazione che funzionino bene tra diversi tipi di domande e risposte; e (3) Come fornire approfondimenti sui modelli oltre a una semplice classifica delle prestazioni. A tal fine, presentiamo MM-Vet, progettato sulla base dell'idea che la capacità intrigante di risolvere compiti complessi sia spesso raggiunta da un modello generalista in grado di integrare diverse capacità fondamentali di visione-linguaggio (VL). MM-Vet definisce 6 capacità fondamentali VL ed esamina le 16 integrazioni di interesse derivate dalla combinazione di queste capacità. Per le metriche di valutazione, proponiamo un valutatore basato su LLM per output aperti. Il valutatore consente la valutazione tra diversi tipi di domande e stili di risposta, risultando in una metrica di punteggio unificata. Valutiamo i LMM rappresentativi su MM-Vet, fornendo approfondimenti sulle capacità dei diversi paradigmi e modelli di sistemi LMM. Codice e dati sono disponibili su https://github.com/yuweihao/MM-Vet.
La segmentazione open-vocabulary è un compito impegnativo che richiede la segmentazione e il riconoscimento di oggetti da un insieme aperto di categorie. Un modo per affrontare questa sfida è sfruttare modelli multi-modali, come CLIP, per fornire caratteristiche di immagine e testo in uno spazio di embedding condiviso, che colma il divario tra il riconoscimento closed-vocabulary e open-vocabulary. Pertanto, i metodi esistenti spesso adottano un framework a due stadi per risolvere il problema, in cui gli input passano prima attraverso un generatore di maschere e poi attraverso il modello CLIP insieme alle maschere predette. Questo processo comporta l'estrazione di caratteristiche dalle immagini più volte, il che può essere inefficace e inefficiente. Al contrario, proponiamo di costruire tutto in un framework a singolo stadio utilizzando un backbone condiviso Frozen Convolutional CLIP, che non solo semplifica significativamente l'attuale pipeline a due stadi, ma produce anche un migliore compromesso tra accuratezza e costo. Il FC-CLIP proposto trae vantaggio dalle seguenti osservazioni: il backbone CLIP congelato mantiene la capacità di classificazione open-vocabulary e può anche fungere da forte generatore di maschere, e il CLIP convoluzionale si generalizza bene a una risoluzione di input maggiore rispetto a quella utilizzata durante il pre-addestramento contrastivo immagine-testo. Quando addestrato solo sui dati panoptic di COCO e testato in modalità zero-shot, FC-CLIP raggiunge 26.8 PQ, 16.8 AP e 34.1 mIoU su ADE20K, 18.2 PQ e 27.9 mIoU su Mapillary Vistas, 44.0 PQ, 26.8 AP e 56.2 mIoU su Cityscapes, superando lo stato dell'arte di +4.2 PQ, +2.4 AP, +4.2 mIoU su ADE20K, +4.0 PQ su Mapillary Vistas e +20.1 PQ su Cityscapes, rispettivamente. Inoltre, il tempo di addestramento e test di FC-CLIP è rispettivamente 7.5x e 6.6x più veloce rispetto allo stesso stato dell'arte, utilizzando 5.9x meno parametri. FC-CLIP stabilisce anche un nuovo stato dell'arte in termini di prestazioni su vari dataset di segmentazione semantica open-vocabulary. Codice disponibile su https://github.com/bytedance/fc-clip.
L'abbinamento dei pazienti ai trial clinici è un processo chiave nell'erogazione delle cure e nella scoperta medica. Nella pratica, è ostacolato da una mole schiacciante di dati non strutturati e da processi manuali non scalabili. In questo articolo, conduciamo uno studio sistematico sullo scaling dell'abbinamento dei trial clinici utilizzando modelli linguistici di grandi dimensioni (LLM), con un focus specifico sull'oncologia. Il nostro studio si basa su un sistema di abbinamento dei trial clinici attualmente in fase di test presso una grande rete sanitaria statunitense. I risultati iniziali sono promettenti: i LLM all'avanguardia, come GPT-4, sono già in grado di strutturare criteri di eleggibilità complessi per i trial clinici e di estrarre logiche di abbinamento intricate (ad esempio, condizioni annidate AND/OR/NOT). Sebbene siano ancora lontani dalla perfezione, gli LLM superano significativamente i precedenti benchmark robusti e possono servire come soluzione preliminare per aiutare a selezionare i candidati pazienti-trial con il supporto umano in loop. Il nostro studio rivela anche alcune aree di miglioramento significative per l'applicazione degli LLM all'abbinamento end-to-end dei trial clinici, come i limiti di contesto e l'accuratezza, specialmente nella strutturazione delle informazioni dei pazienti provenienti da cartelle cliniche longitudinali.
Le mani robotiche biomimetiche e abili hanno il potenziale di replicare molte delle attività che un essere umano può svolgere, raggiungendo lo status di piattaforma di manipolazione generale. I recenti progressi nei framework di apprendimento per rinforzo (RL) hanno ottenuto prestazioni notevoli nei compiti di locomozione quadrupede e manipolazione abile. Combinati con simulazioni altamente parallelizzate basate su GPU, in grado di simulare migliaia di robot in parallelo, i controller basati su RL sono diventati più scalabili e accessibili. Tuttavia, per portare le politiche addestrate con RL nel mondo reale, sono necessari framework di addestramento che producano politiche in grado di funzionare con attuatori e sensori fisici, nonché una piattaforma hardware che possa essere realizzata con materiali accessibili ma abbastanza robusta da eseguire politiche interattive. Questo lavoro introduce la Faive Hand, una mano biomimetica azionata da tendini, e la sua architettura di sistema, che utilizza giunti a contatto rotolante azionati da tendini per ottenere un design di mano ad alto grado di libertà (DoF) robusto e stampabile in 3D. Modelliamo ogni elemento della mano e lo integriamo in un ambiente di simulazione GPU per addestrare una politica con RL, ottenendo un trasferimento zero-shot di un'abilità di rotazione sferica in mano al robot fisico.
Introduciamo i Modelli di Diffusione Compartimentalizzati (CDM), un metodo per addestrare diversi modelli di diffusione (o prompt) su fonti di dati distinte e combinarli arbitrariamente al momento dell'inferenza. I singoli modelli possono essere addestrati in isolamento, in momenti diversi e su distribuzioni e domini differenti, per poi essere composti in seguito per ottenere prestazioni paragonabili a un modello di riferimento addestrato su tutti i dati simultaneamente. Inoltre, ciascun modello contiene solo informazioni relative al sottoinsieme di dati a cui è stato esposto durante l'addestramento, consentendo diverse forme di protezione dei dati di training. In particolare, i CDM sono il primo metodo che abilita sia la dimenticanza selettiva che l'apprendimento continuo per modelli di diffusione su larga scala, oltre a permettere la fornitura di modelli personalizzati in base ai diritti di accesso dell'utente. I CDM consentono anche di determinare l'importanza di un sottoinsieme di dati nella generazione di campioni specifici.