Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Modelli di Ricompensa del Processo (PRM) emergono come un approccio promettente per la supervisione del processo nella ragionamento matematico dei Grandi Modelli di Linguaggio (LLM), che mirano a identificare e mitigare errori intermedi nei processi di ragionamento. Tuttavia, lo sviluppo di PRM efficaci affronta significativi sfide, in particolare nella data annotation e nelle metodologie di valutazione. In questo articolo, attraverso estesi esperimenti, dimostriamo che la sintesi dei dati comunemente utilizzata basata su stime Monte Carlo (MC) per i PRM generalmente produce prestazioni e generalizzazioni inferiori rispetto ai metodi LLM-come-giudice e all'annotation umana. La stima MC si basa su modelli di completamento per valutare la correttezza del passo corrente, portando a una verifica inaccurata del passo. Inoltre, identifichiamo potenziali bias nelle strategie di valutazione Best-of-N (BoN) convenzionali per i PRM: (1) I modelli di policy non affidabili generano risposte con risposte corrette ma processi difettosi, portando a uno scompasso tra i criteri di valutazione di BoN e gli obiettivi di verifica del processo di PRM. (2) La tolleranza dei PRM per tali risposte porta a punteggi BoN gonfiati. (3) I PRM esistenti hanno una significativa proporzione di punteggi minimi concentrati sui passaggi della risposta finale, rivelando il passaggio dalla valutazione basata sul processo a quella basata sull'esito nei PRM Ottimizzati BoN. Per affrontare queste sfide, sviluppiamo un meccanismo di filtraggio del consenso che integra efficacemente la stima MC con LLM-come-giudice e sosteniamo un quadro di valutazione più completo che combina metriche a livello di risposta e a livello di passo. Basandoci sui meccanismi, miglioriamo significativamente sia le prestazioni del modello che l'efficienza dei dati nella valutazione BoN e nel compito di identificazione degli errori passo dopo passo. Infine, rilasciamo un nuovo PRM all'avanguardia che supera le alternative open-source esistenti e fornisce linee guida pratiche per la ricerca futura nella costruzione di modelli di supervisione del processo.
L'adattamento dei modelli linguistici per gestire sequenze di input più lunghe richiede tipicamente ampi cache chiave-valore (KV), con conseguente notevole sovraccarico di memoria durante l'inferezza. In questo articolo, proponiamo l'Attenzione al Prodotto Tensorico (TPA), un nuovo meccanismo di attenzione che utilizza decomposizioni tensoriali per rappresentare in modo compatto le query, le chiavi e i valori, riducendo significativamente le dimensioni della cache KV durante l'inferezza. Mediante la fattorizzazione di tali rappresentazioni in componenti contestuali a basso rango (fattorizzazione contestuale) e l'integrazione senza soluzione di continuità con RoPE, TPA raggiunge una qualità del modello migliorata insieme a un'efficienza di memoria. Basandoci su TPA, introduciamo il Transformer di Attenzione al Prodotto Tensorico (T6), una nuova architettura di modello per il modellamento delle sequenze. Attraverso un'ampia valutazione empirica di compiti di modellazione del linguaggio, dimostriamo che T6 supera le prestazioni dei baselines standard del Transformer, inclusi MHA, MQA, GQA e MLA, su vari metriche, tra cui perplessità e una serie di rinomati benchmark di valutazione. In particolare, l'efficienza di memoria di TPA consente l'elaborazione di sequenze significativamente più lunghe in presenza di vincoli di risorse fissi, affrontando una sfida critica di scalabilità nei moderni modelli linguistici. Il codice è disponibile su https://github.com/tensorgi/T6.
Lo sviluppo dei modelli visione-linguaggio (VLM) è guidato da dataset multimodali su larga scala e diversificati. Tuttavia, il progresso verso VLM biomedici generalisti è limitato dalla mancanza di dataset annotati e accessibili pubblicamente in biologia e medicina. Gli sforzi esistenti sono limitati a settori specifici, trascurando l'intera diversità della conoscenza biomedica codificata nella letteratura scientifica. Per affrontare questa lacuna, presentiamo BIOMEDICA, un framework scalabile e open-source per estrarre, annotare e serializzare l'intero sottoinsieme di PubMed Central Open Access in un dataset di facile utilizzo e accessibile pubblicamente. Il nostro framework produce un archivio completo con oltre 24 milioni di coppie univoche immagine-testo da oltre 6 milioni di articoli. Vengono inoltre fornati metadati e annotazioni guidate da esperti. Dimostriamo l'utilità e l'accessibilità delle nostre risorse rilasciando BMCA-CLIP, una serie di modelli in stile CLIP continuamente pre-addestrati sul dataset BIOMEDICA tramite streaming, eliminando la necessità di scaricare 27 TB di dati in locale. In media, i nostri modelli raggiungono prestazioni all'avanguardia su 40 compiti - che spaziano dalla patologia, radiologia, oftalmologia, dermatologia, chirurgia, biologia molecolare, parassitologia e biologia cellulare - eccellendo nella classificazione a zero-shot con un miglioramento medio del 6,56% (fino al 29,8% e 17,5% rispettivamente in dermatologia e oftalmologia), e un recupero immagine-testo più robusto, il tutto utilizzando 10 volte meno risorse computazionali. Per favorire la riproducibilità e la collaborazione, rilasciamo il nostro codice sorgente e il dataset per la comunità di ricerca più ampia.
I modelli linguistici di grandi dimensioni (LLM) auto-adattativi mirano a risolvere le sfide poste dai tradizionali metodi di fine-tuning, che spesso sono intensivi dal punto di vista computazionale e statici nella loro capacità di gestire diverse attività. Introduciamo \implname, un nuovo framework di auto-adattamento che adatta i LLM per compiti non previsti in tempo reale regolando selettivamente solo i singoli componenti delle loro matrici dei pesi. Durante l'inferenza, \implname utilizza un meccanismo a due passaggi: innanzitutto, un sistema di invio identifica le proprietà del compito, e poi vettori "esperti" specifici del compito, addestrati utilizzando il reinforcement learning, vengono mescolati dinamicamente per ottenere un comportamento mirato per il prompt in arrivo. Il nostro metodo supera approcci ubiqui come LoRA, con meno parametri e maggiore efficienza. \implname dimostra versatilità attraverso diverse architetture e modalità di LLM, inclusi compiti visione-linguaggio. \implname rappresenta un significativo passo avanti, offrendo una soluzione scalabile ed efficiente per migliorare l'adattabilità e le prestazioni specifiche del compito dei LLM, aprendo la strada a sistemi AI veramente dinamici e auto-organizzanti.
I recenti progressi nei modelli di linguaggio di grandi dimensioni (LLM) e nei modelli multimodali di testo e voce hanno gettato le basi per interazioni vocali fluide, consentendo conversazioni in tempo reale, naturali e simili a quelle umane. I modelli precedenti per le interazioni vocali sono categorizzati come nativi e allineati. I modelli nativi integrano l'elaborazione del testo e della voce in un unico framework, ma faticano con problemi come lunghezze di sequenza diverse e un pre-training insufficiente. I modelli allineati mantengono le capacità dei LLM di testo ma sono spesso limitati da dataset ridotti e da un focus limitato sui compiti vocali. In questo lavoro, presentiamo MinMo, un Grande Modello di Linguaggio Multimodale con circa 8 miliardi di parametri per interazioni vocali fluide. Affrontiamo le principali limitazioni dei precedenti modelli multimodali allineati. Addestriamo MinMo attraverso diverse fasi di allineamento da voce a testo, da testo a voce, da voce a voce e da interazione duplex, su 1,4 milioni di ore di dati vocali diversificati e su una vasta gamma di compiti vocali. Dopo l'addestramento a più fasi, MinMo raggiunge prestazioni all'avanguardia su vari benchmark per la comprensione e la generazione vocale, mantenendo le capacità dei LLM di testo e facilitando anche la conversazione full-duplex, ovvero la comunicazione bidirezionale simultanea tra l'utente e il sistema. Inoltre, proponiamo un nuovo e semplice decodificatore vocale che supera i modelli precedenti nella generazione vocale. Le capacità potenziate di seguire le istruzioni di MinMo supportano il controllo della generazione vocale basato sulle istruzioni dell'utente, con varie sfumature tra cui emozioni, dialetti, velocità di parlata e l'imitazione di voci specifiche. Per MinMo, la latenza da voce a testo è di circa 100 ms, la latenza full-duplex è di circa 600 ms in teoria e 800 ms in pratica. La pagina web del progetto MinMo è https://funaudiollm.github.io/minmo, e il codice e i modelli saranno presto rilasciati.
I modelli di generazione video recenti hanno mostrato risultati promettenti nella produzione di clip video di alta qualità della durata di diversi secondi. Tuttavia, questi modelli affrontano sfide nella generazione di lunghe sequenze che trasmettono eventi chiari e informativi, limitando la loro capacità di supportare narrazioni coerenti. In questo articolo, presentiamo un dataset di video di cucina su larga scala progettato per far progredire la generazione di narrazioni di lunga durata nel settore culinario. Convalidiamo la qualità del nostro dataset proposto in termini di fedeltà visiva e accuratezza della didascalia testuale utilizzando i modelli Vision-Language (VLM) all'avanguardia e i modelli di generazione video, rispettivamente. Introduciamo inoltre un Direttore Video di Narrativa Lunga per migliorare sia la coerenza visiva che semantica nei video generati e sottolineare il ruolo dell'allineamento degli embedding visivi per ottenere una qualità video complessiva migliorata. Il nostro metodo dimostra miglioramenti sostanziali nella generazione di keyframe dettagliati visivamente e semanticamente allineati, supportati da tecniche di fine-tuning che integrano embedding di testo e immagine all'interno del processo di generazione video. Pagina del progetto: https://videoauteur.github.io/
Basandosi sulle nostre precedenti indagini sulla replicazione O1 (Parte 1: Apprendimento del Viaggio [Qin et al., 2024] e Parte 2: Distillazione [Huang et al., 2024]), questo lavoro esplora il potenziale della scalabilità al momento dell'inferenza nei modelli linguistici di grandi dimensioni (LLM) per compiti di ragionamento medico, che vanno dalla decisione diagnostica alla pianificazione del trattamento. Attraverso estesi esperimenti su benchmark medici di varia complessità (MedQA, Medbullets e JAMA Clinical Challenges), la nostra indagine rivela diverse intuizioni chiave: (1) Aumentare il tempo di inferenza porta a un miglioramento delle prestazioni. Con un modesto set di addestramento di 500 campioni, il nostro modello produce consistenti miglioramenti delle prestazioni del 6%-11%. (2) La complessità del compito correla direttamente con la lunghezza richiesta delle catene di ragionamento, confermando la necessità di processi di pensiero estesi per problemi impegnativi. (3) Le diagnosi differenziali generate dal nostro modello rispettano i principi del metodo ipotetico-deduttivo, producendo un elenco di condizioni potenziali che potrebbero spiegare i sintomi di un paziente e restringendo sistematicamente tali possibilità valutando le prove. Queste scoperte dimostrano la promettente sinergia tra la scalabilità al momento dell'inferenza e l'apprendimento del viaggio nell'avanzamento delle capacità di ragionamento clinico del mondo reale dei LLM.
Il Generatore potenziato da recupero (RAG) dimostra una notevole performance attraverso compiti di question-answering in ambito aperto. Tuttavia, i motori di ricerca tradizionali potrebbero recuperare contenuti superficiali, limitando la capacità dei LLM di gestire informazioni complesse e stratificate. Per affrontare questo problema, presentiamo WebWalkerQA, un benchmark progettato per valutare la capacità dei LLM di eseguire attraversamenti web. Esso valuta la capacità dei LLM di navigare le sottopagine di un sito web per estrarre dati di alta qualità in modo sistematico. Proponiamo WebWalker, che è un framework multi-agente che imita la navigazione web simile a quella umana attraverso un paradigma di esplorazione-critica. Estesi risultati sperimentali mostrano che WebWalkerQA è impegnativo e dimostra l'efficacia di RAG combinato con WebWalker, attraverso l'integrazione orizzontale e verticale in scenari reali.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni eccezionali in una vasta gamma di compiti, tuttavia il loro addestramento rimane estremamente intensivo in termini di risorse ed è soggetto a sfide critiche come l'instabilità dell'addestramento. Una fonte predominante di questa instabilità deriva da picchi nei gradienti e nella perdita, che interrompono il processo di apprendimento, portando spesso a interventi costosi come il ripristino dei checkpoint e il riavvio degli esperimenti, amplificando ulteriormente le inefficienze. Questo articolo presenta un'indagine esaustiva sui picchi nei gradienti osservati durante l'addestramento dei LLM, rivelando la loro diffusione attraverso diverse architetture e set di dati. La nostra analisi mostra che questi picchi possono essere fino a 1000 volte più grandi dei gradienti tipici, deteriorando notevolmente le prestazioni del modello. Per affrontare questo problema, proponiamo Spike-Aware Adam with Momentum Reset SPAM, un nuovo ottimizzatore progettato per contrastare i picchi nei gradienti attraverso il reset del momento e il ritaglio dei gradienti consapevole dei picchi. Esperimenti estesi, inclusi sia il pre-addestramento che il raffinamento, dimostrano che SPAM supera costantemente Adam e le sue varianti in vari compiti, tra cui (1) pre-addestramento dei LLM da 60M a 1B, (2) pre-addestramento dei LLM a 4 bit, (3) apprendimento per rinforzo e (4) previsione delle serie temporali. Inoltre, SPAM facilita l'addestramento efficiente in termini di memoria consentendo un momento sparso, in cui solo un sottoinsieme dei termini di momento viene mantenuto e aggiornato. Quando opera sotto vincoli di memoria, SPAM supera ottimizzatori efficienti in termini di memoria all'avanguardia come GaLore e Adam-Mini. Il nostro lavoro sottolinea l'importanza di mitigare i picchi nei gradienti nell'addestramento dei LLM e introduce una strategia di ottimizzazione efficace che migliora sia la stabilità dell'addestramento che l'efficienza delle risorse su larga scala. Il codice è disponibile su https://github.com/TianjinYellow/SPAM-Optimizer.git
Introduciamo Uncommon Objects in 3D (uCO3D), un nuovo dataset centrato sugli oggetti per l'apprendimento profondo in 3D e l'IA generativa in 3D. uCO3D è la più grande raccolta pubblicamente disponibile di video ad alta risoluzione di oggetti con annotazioni in 3D che garantisce una copertura completa a 360 gradi. uCO3D è significativamente più diverso di MVImgNet e CO3Dv2, coprendo più di 1.000 categorie di oggetti. È anche di qualità superiore, grazie a approfonditi controlli di qualità sia dei video raccolti che delle annotazioni in 3D. Simile a dataset analoghi, uCO3D contiene annotazioni per pose della telecamera in 3D, mappe di profondità e nuvole di punti sparse. Inoltre, ogni oggetto è dotato di didascalia e di una ricostruzione 3D tramite Splat gaussiano. Alleniamo diversi modelli 3D di grandi dimensioni su MVImgNet, CO3Dv2 e uCO3D e otteniamo risultati superiori utilizzando quest'ultimo, dimostrando che uCO3D è migliore per le applicazioni di apprendimento.
Il ragionamento chimico di solito implica processi complessi a più fasi che richiedono calcoli precisi, dove anche errori minimi possono portare a fallimenti a cascata. Inoltre, i grandi modelli linguistici (LLM) incontrano difficoltà nel gestire formule specifiche del dominio, eseguire passaggi di ragionamento con precisione e integrare efficacemente il codice quando affrontano compiti di ragionamento chimico. Per affrontare queste sfide, presentiamo ChemAgent, un nuovo framework progettato per migliorare le prestazioni dei LLM attraverso una libreria dinamica e auto-aggiornante. Questa libreria è sviluppata decomponendo compiti chimici in sotto-compiti e compilando questi sotto-compiti in una raccolta strutturata che può essere consultata per future query. Quindi, quando presentato con un nuovo problema, ChemAgent recupera e affina informazioni pertinenti dalla libreria, che chiamiamo memoria, facilitando la decomposizione efficace del compito e la generazione di soluzioni. Il nostro metodo progetta tre tipi di memoria e un componente di ragionamento potenziato dalla libreria, consentendo ai LLM di migliorare nel tempo attraverso l'esperienza. I risultati sperimentali su quattro set di dati di ragionamento chimico da SciBench dimostrano che ChemAgent raggiunge guadagni di prestazioni fino al 46% (GPT-4), superando significativamente i metodi esistenti. Le nostre scoperte suggeriscono un notevole potenziale per future applicazioni, inclusi compiti come la scoperta di farmaci e la scienza dei materiali. Il nostro codice è disponibile su https://github.com/gersteinlab/chemagent
I modelli fondamentali si basano su dataset di larga scala raccolti dal web, che spesso contengono dati rumorosi, bias e contenuti non pertinenti. Le tecniche esistenti di selezione dei dati di solito utilizzano euristiche umane, dataset di valutazione successiva o modelli di punteggio specializzati e possono trascurare l'utilità dei campioni nel processo di addestramento. Invece, proponiamo un nuovo approccio, il Punteggio Mimic, una metrica di qualità dei dati che utilizza un modello di riferimento preaddestrato come guida per valutare l'utilità dei campioni di dati per l'addestramento di un nuovo modello. Si basa sull'allineamento tra il gradiente dei nuovi parametri del modello e il vettore che punta verso il modello di riferimento nello spazio dei pesi. I campioni che non si allineano con questa direzione sono considerati di scarso valore e possono essere filtrati. Motivati dal punteggio Mimic, sviluppiamo Grad-Mimic, un framework di selezione dei dati che identifica e priorita i campioni utili, automatizzando il processo di selezione per creare filtri efficaci. Empiricamente, l'utilizzo dei punteggi Mimic per guidare l'addestramento del modello porta a consistenti miglioramenti delle prestazioni su sei dataset di immagini e potenzia le prestazioni dei modelli CLIP. Inoltre, i punteggi Mimic e i relativi filtri migliorano i metodi di filtraggio esistenti e offrono una stima accurata della qualità del dataset.