Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo una metodologia innovativa per la sintesi di dati basata su personaggi, che sfrutta diverse prospettive all'interno di un modello linguistico di grandi dimensioni (LLM) per creare dati sintetici diversificati. Per sfruttare appieno questa metodologia su larga scala, introduciamo Persona Hub — una raccolta di 1 miliardo di personaggi diversificati, curati automaticamente da dati web. Questi 1 miliardo di personaggi (circa il 13% della popolazione mondiale), agendo come portatori distribuiti di conoscenza globale, possono attingere a quasi ogni prospettiva racchiusa nel LLM, facilitando così la creazione di dati sintetici diversificati su larga scala per vari scenari. Mostrando i casi d'uso di Persona Hub nella sintesi di problemi di ragionamento matematico e logico di alta qualità, istruzioni (cioè prompt utente), testi ricchi di conoscenza, NPC di giochi e strumenti (funzioni) su larga scala, dimostriamo che la sintesi di dati guidata da personaggi è versatile, scalabile, flessibile e facile da usare, potenzialmente in grado di guidare un cambiamento di paradigma nella creazione e applicazione pratica di dati sintetici, il che potrebbe avere un impatto profondo sulla ricerca e lo sviluppo dei LLM.
Il rapido sviluppo dei modelli linguistici multimodali di grandi dimensioni (MLLM), come GPT-4V, ha portato a progressi significativi. Tuttavia, questi modelli continuano a incontrare sfide nelle capacità multimodali in ambito medico a causa delle limitazioni nella quantità e qualità dei dati visivo-testuali medici, derivanti da preoccupazioni sulla privacy dei dati e dagli elevati costi di annotazione. Sebbene approcci pionieristici utilizzino coppie immagine-testo mediche su larga scala e de-identificate da PubMed per affrontare queste limitazioni, essi risultano ancora insufficienti a causa del rumore intrinseco nei dati. Per risolvere questo problema, abbiamo raffinato le coppie immagine-testo mediche da PubMed e impiegato MLLM (GPT-4V) in modalità "non oscurata" per ridurre il rumore e riformattare i dati, portando alla creazione del dataset PubMedVision con 1,3 milioni di campioni di domande e risposte visive mediche (VQA). La nostra validazione dimostra che: (1) PubMedVision può migliorare significativamente le capacità multimodali mediche degli attuali MLLM, mostrando un miglioramento rilevante nei benchmark, incluso il tracciato Salute & Medicina di MMMU; (2) controlli manuali da parte di esperti medici e risultati empirici convalidano la qualità superiore del nostro dataset rispetto ad altri metodi di costruzione dei dati. Utilizzando PubMedVision, abbiamo addestrato un MLLM medico da 34B, HuatuoGPT-Vision, che mostra prestazioni superiori negli scenari multimodali medici tra i MLLM open-source.
Nel campo dei grandi modelli linguistici (LLM), la distillazione della conoscenza (Knowledge Distillation, KD) è una tecnica fondamentale per trasferire le capacità dai modelli insegnanti ai modelli studenti. Tuttavia, i metodi di KD esistenti presentano limitazioni e sfide nella distillazione degli LLM, tra cui l'efficienza e le capacità di misurazione insufficienti della tradizionale divergenza KL. È dimostrato che gli LLM possono fungere da funzione di ricompensa implicita, che definiamo come un supplemento alla divergenza KL. In questo lavoro, proponiamo la Distillazione della Conoscenza basata su Preferenze Dirette (Direct Preference Knowledge Distillation, DPKD) per gli LLM. La DPKD utilizza la divergenza di distribuzione per rappresentare la perdita di preferenza e la funzione di ricompensa implicita. Riformuliamo la KD degli LLM in due fasi: prima ottimizzando un obiettivo composto da ricompensa implicita e divergenza KL inversa, e poi migliorando la probabilità di preferenza delle uscite del modello insegnante rispetto a quelle del modello studente. Abbiamo condotto esperimenti e analisi su vari dataset con parametri LLM che vanno da 120M a 13B, dimostrando l'ampia applicabilità e l'efficacia del nostro approccio DPKD. Nel frattempo, dimostriamo il valore e l'efficacia della ricompensa implicita e della preferenza di uscita introdotte nella KD attraverso esperimenti e analisi teoriche. Il metodo DPKD supera il metodo di riferimento sia nella precisione della risposta in uscita che nella percentuale di corrispondenza esatta. Codice e dati sono disponibili all'indirizzo https://aka.ms/dpkd.
I Large Language Models (LLMs), dotati di un'ampia conoscenza del mondo e di forti capacità di ragionamento, possono affrontare compiti diversificati in vari domini, spesso formulandoli come coppie istruzione-risposta in stile conversazionale. In questo articolo, proponiamo LLaRA: Large Language and Robotics Assistant, un framework che formula la politica d'azione del robot come conversazioni e fornisce risposte migliorate quando addestrato con dati ausiliari che completano l'apprendimento della politica. I LLMs con input visivi, ovvero i Vision Language Models (VLMs), hanno la capacità di elaborare informazioni sullo stato come prompt visivo-testuali e generare decisioni politiche ottimali in formato testuale. Per addestrare tali VLMs per la politica d'azione, introduciamo prima una pipeline automatizzata per generare dati di istruzione robotica diversificati e di alta qualità a partire da dati esistenti di clonazione comportamentale. Un VLM affinato con la raccolta risultante di dataset, basata su una formulazione in stile conversazionale adattata per compiti robotici, può generare decisioni significative per la politica d'azione del robot. I nostri esperimenti in ambienti simulati e reali dimostrano le prestazioni all'avanguardia del framework LLaRA proposto. Il codice, i dataset e i modelli pre-addestrati sono disponibili su https://github.com/LostXine/LLaRA.
Recentemente, la tecnica di splatting con Gaussiane 3D (3D-GS) ha ottenuto un grande successo nella ricostruzione e nel rendering di scene del mondo reale. Per trasferire l'elevata qualità di rendering ai compiti di generazione, una serie di lavori di ricerca ha tentato di generare asset 3D-Gaussiane a partire da testo. Tuttavia, gli asset generati non hanno raggiunto la stessa qualità di quelli nei compiti di ricostruzione. Si osserva che le Gaussiane tendono a crescere senza controllo, poiché il processo di generazione può causare indeterminatezza. Con l'obiettivo di migliorare significativamente la qualità della generazione, proponiamo un nuovo framework denominato GaussianDreamerPro. L'idea principale è quella di vincolare le Gaussiane a una geometria ragionevole, che si evolve durante l'intero processo di generazione. Lungo le diverse fasi del nostro framework, sia la geometria che l'aspetto possono essere arricchiti progressivamente. L'asset finale è costruito con Gaussiane 3D vincolate a una mesh, che mostra dettagli e qualità significativamente migliorati rispetto ai metodi precedenti. Inoltre, l'asset generato può essere integrato senza soluzione di continuità nelle pipeline di manipolazione a valle, come animazione, composizione e simulazione, promuovendo notevolmente il suo potenziale in un'ampia gamma di applicazioni. Le demo sono disponibili all'indirizzo https://taoranyi.com/gaussiandreamerpro/.
Il Segment Anything Model (SAM) ha attirato un'ampia attenzione per le sue superiori capacità di segmentazione interattiva con prompt visivi, mentre manca un'ulteriore esplorazione dei prompt testuali. In questo articolo, investigiamo empiricamente quali encoder di prompt testuali (ad esempio, CLIP o LLM) siano adatti per adattare SAM alla segmentazione di espressioni referenziali e introduciamo l'Early Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM è un metodo di segmentazione referenziale semplice ma efficace che sfrutta prompt multimodali (cioè immagine e testo) e comprende un modello vision-language pre-addestrato per generare prompt referenziali e un modello SAM per la segmentazione. Sorprendentemente, osserviamo che: (1) i prompt multimodali e (2) i modelli vision-language con fusione precoce (ad esempio, BEIT-3) sono vantaggiosi per indurre SAM a eseguire una segmentazione referenziale accurata. I nostri esperimenti dimostrano che il proposto EVF-SAM basato su BEIT-3 può ottenere prestazioni all'avanguardia su RefCOCO/+/g per la segmentazione di espressioni referenziali e dimostrano la superiorità dell'induzione di SAM con fusione precoce vision-language. Inoltre, il proposto EVF-SAM con 1,32 miliardi di parametri raggiunge prestazioni notevolmente superiori riducendo quasi l'82% dei parametri rispetto ai precedenti metodi SAM basati su grandi modelli multimodali.
I recenti progressi nei Modelli Linguistici di Grande Dimensione hanno trasformato lo sviluppo del ML/AI, rendendo necessaria una rivalutazione dei principi dell'AutoML per i sistemi di Generazione Aumentata con Recupero (RAG). Per affrontare le sfide dell'ottimizzazione degli iperparametri e dell'adattamento online nei sistemi RAG, proponiamo il framework AutoRAG-HP, che formula la regolazione degli iperparametri come un problema di multi-armed bandit (MAB) online e introduce un nuovo metodo a due livelli di MAB Gerarchico (Hier-MAB) per un'esplorazione efficiente di ampi spazi di ricerca. Abbiamo condotto esperimenti estesi sulla regolazione di iperparametri, come il numero di documenti recuperati top-k, il rapporto di compressione dei prompt e i metodi di embedding, utilizzando i dataset ALCE-ASQA e Natural Questions. La nostra valutazione, basata sull'ottimizzazione congiunta di tutti e tre gli iperparametri, dimostra che i metodi di apprendimento online basati su MAB possono raggiungere un Recall@5 di circa 0,8 per scenari con gradienti prominenti nello spazio di ricerca, utilizzando solo circa il 20% delle chiamate API LLM richieste dall'approccio Grid Search. Inoltre, il metodo Hier-MAB proposto supera altri baseline in scenari di ottimizzazione più impegnativi. Il codice sarà reso disponibile all'indirizzo https://aka.ms/autorag.
L'adozione su larga scala dei metodi di apprendimento per rinforzo profondo (Reinforcement Learning, RL) rappresenta una sfida significativa. Seguendo gli sviluppi nella modellazione generativa, l'RL basato su modelli si posiziona come un forte contendente. I recenti progressi nella modellazione di sequenze hanno portato a modelli del mondo efficaci basati su trasformatori, sebbene al prezzo di calcoli intensivi dovuti alle lunghe sequenze di token necessarie per simulare accuratamente gli ambienti. In questo lavoro, proponiamo Delta-IRIS, un nuovo agente con un'architettura di modello del mondo composta da un autoencoder discreto che codifica delta stocastici tra i passaggi temporali e un trasformatore autoregressivo che prevede i delta futuri sintetizzando lo stato attuale del mondo con token continui. Nel benchmark Crafter, Delta-IRIS stabilisce un nuovo stato dell'arte per diversi budget di frame, risultando un ordine di grandezza più veloce da addestrare rispetto ai precedenti approcci basati sull'attenzione. Rilasciamo il nostro codice e i modelli all'indirizzo https://github.com/vmicheli/delta-iris.
Presentiamo Arboretum, il più grande dataset di pubblico accesso progettato per far progredire l'IA nelle applicazioni per la biodiversità. Questo dataset, curato dalla piattaforma di scienza comunitaria iNaturalist e verificato da esperti del settore per garantirne l'accuratezza, include 134,6 milioni di immagini, superando i dataset esistenti per scala di un ordine di grandezza. Il dataset comprende dati accoppiati immagine-linguaggio per un insieme diversificato di specie, tra cui uccelli (Aves), ragni/zecche/acari (Arachnida), insetti (Insecta), piante (Plantae), funghi/miceti (Fungi), lumache (Mollusca) e serpenti/lucertole (Reptilia), rendendolo una risorsa preziosa per modelli di IA multimodali visione-linguaggio per la valutazione della biodiversità e la ricerca agricola. Ogni immagine è annotata con nomi scientifici, dettagli tassonomici e nomi comuni, migliorando la robustezza dell'addestramento dei modelli di IA. Dimostriamo il valore di Arboretum rilasciando una suite di modelli CLIP addestrati utilizzando un sottoinsieme di 40 milioni di immagini con didascalie. Introduciamo diversi nuovi benchmark per una valutazione rigorosa, riportiamo l'accuratezza per l'apprendimento zero-shot e valutazioni attraverso fasi di vita, specie rare, specie confondenti e vari livelli della gerarchia tassonomica. Prevediamo che Arboretum stimolerà lo sviluppo di modelli di IA in grado di abilitare una varietà di strumenti digitali, che vanno dalle strategie di controllo dei parassiti, al monitoraggio delle colture, alla valutazione globale della biodiversità e alla conservazione ambientale. Questi progressi sono fondamentali per garantire la sicurezza alimentare, preservare gli ecosistemi e mitigare gli impatti del cambiamento climatico. Arboretum è pubblicamente disponibile, facilmente accessibile e pronto per un uso immediato. Si prega di consultare il {sito web del progetto} https://baskargroup.github.io/Arboretum/ per i collegamenti ai nostri dati, modelli e codice.
Il Reinforcement Learning con Feedback Umano (RLHF) ha ottenuto un grande successo nell'allineare i grandi modelli linguistici (LLMs) con le preferenze umane. Gli approcci RLHF prevalenti sono basati su ricompense e seguono l'assunzione del modello Bradley-Terry (BT), che potrebbe non catturare appieno la complessità delle preferenze umane. In questo articolo, esploriamo il RLHF all'interno di un quadro generale di preferenze e lo affrontiamo da una prospettiva di teoria dei giochi. Nello specifico, formuliamo il problema come un gioco a due giocatori e proponiamo un nuovo algoritmo, l'ottimizzazione iterativa della politica di Nash (INPO). L'idea chiave è far giocare la politica contro se stessa attraverso l'apprendimento senza rimpianti, approssimando così la politica di Nash. A differenza dei metodi precedenti, INPO evita la necessità di stimare il tasso di vittoria atteso per singole risposte, che tipicamente comporta costi computazionali o di annotazione elevati. Invece, introduciamo un nuovo obiettivo di perdita che viene minimizzato direttamente su un dataset di preferenze. Forniamo un'analisi teorica del nostro approccio e ne dimostriamo l'efficacia attraverso esperimenti su vari benchmark rappresentativi. Con un modello SFT basato su LLaMA-3-8B, INPO raggiunge un tasso di vittoria controllato per lunghezza del 41,5% su AlpacaEval 2.0 e un tasso di vittoria del 38,3% su Arena-Hard, mostrando un miglioramento sostanziale rispetto all'algoritmo iterativo all'avanguardia [Dong et al., 2024] sotto l'assunzione del modello BT. Inoltre, il nostro studio di ablazione evidenzia i benefici dell'incorporazione della regolarizzazione KL per il controllo della lunghezza delle risposte.
Questo articolo introduce una nuova metrica consapevole delle entità, denominata Radiological Report (Text) Evaluation (RaTEScore), per valutare la qualità dei referti medici generati da modelli di intelligenza artificiale. RaTEScore enfatizza entità mediche cruciali come esiti diagnostici e dettagli anatomici, ed è robusta contro sinonimi medici complessi e sensibile alle espressioni di negazione. Tecnicamente, abbiamo sviluppato un dataset completo per il riconoscimento di entità mediche (NER), denominato RaTE-NER, e addestrato un modello NER specificamente per questo scopo. Questo modello consente la scomposizione di referti radiologici complessi nelle loro entità mediche costituenti. La metrica stessa è derivata confrontando la similarità degli embedding delle entità, ottenuti da un modello linguistico, in base ai loro tipi e alla rilevanza clinica. Le nostre valutazioni dimostrano che RaTEScore si allinea più strettamente alle preferenze umane rispetto alle metriche esistenti, validato sia su benchmark pubblici consolidati che sul nostro nuovo benchmark proposto, RaTE-Eval.