Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo l'Agente K v1.0, un agente autonomo end-to-end di data science progettato per automatizzare, ottimizzare e generalizzare su diverse attività di data science. Completamente automatizzato, l'Agente K v1.0 gestisce l'intero ciclo di vita della data science apprendendo dall'esperienza. Sfrutta un framework di ragionamento strutturato altamente flessibile che gli consente di elaborare dinamicamente la memoria in una struttura nidificata, imparando efficacemente dall'esperienza accumulata memorizzata per gestire compiti di ragionamento complessi. Ottimizza la memoria a lungo e breve termine memorizzando e recuperando selettivamente informazioni chiave, guidando le decisioni future basate su ricompense ambientali. Questo approccio iterativo gli consente di perfezionare le decisioni senza aggiustamenti fini o backpropagation, raggiungendo un miglioramento continuo attraverso l'apprendimento esperienziale. Valutiamo le capacità del nostro agente utilizzando le competizioni Kaggle come caso di studio. Seguendo un protocollo completamente automatizzato, l'Agente K v1.0 affronta sistematicamente compiti complessi e multimodali di data science, utilizzando l'ottimizzazione bayesiana per l'ottimizzazione degli iperparametri e l'ingegneria delle caratteristiche. Il nostro nuovo framework di valutazione valuta rigorosamente le capacità end-to-end dell'Agente K v1.0 per generare ed inviare sottoposizioni a partire da un URL di competizione Kaggle. I risultati dimostrano che l'Agente K v1.0 raggiunge un tasso di successo del 92,5\% su compiti che spaziano tra domini tabulari, computer vision, NLP e multimodali. Nel confronto con 5.856 concorrenti umani Kaggle calcolando i punteggi Elo-MMR per ciascuno, l'Agente K v1.0 si posiziona nel 38\% superiore, dimostrando un livello di competenza complessivo paragonabile agli utenti di livello Esperto. Inoltre, il suo punteggio Elo-MMR si colloca tra il primo e il terzo quartile dei punteggi ottenuti dai Grandmasters umani. Inoltre, i nostri risultati indicano che l'Agente K v1.0 ha raggiunto un livello di prestazioni equivalente a quello di un Kaggle Grandmaster, con un record di 6 medaglie d'oro, 3 d'argento e 7 di bronzo, come definito dal sistema di progressione di Kaggle.
La rapida progressione dei modelli linguistici multimodali di grandi dimensioni (MLLM) ha dimostrato prestazioni superiori su vari benchmark multimodali. Tuttavia, la questione della contaminazione dei dati durante l'addestramento crea sfide nell'valutazione delle prestazioni e nel confronto. Sebbene esistano numerosi metodi per rilevare la contaminazione del dataset nei grandi modelli linguistici (LLM), sono meno efficaci per i MLLM a causa delle loro varie modalità e delle molteplici fasi di addestramento. In questo studio, presentiamo un framework di rilevamento della contaminazione dei dati multimodale, MM-Detect, progettato per i MLLM. I nostri risultati sperimentali indicano che MM-Detect è sensibile a diversi gradi di contaminazione e può evidenziare significativi miglioramenti delle prestazioni dovuti alla fuoriuscita del set di addestramento dei benchmark multimodali. Inoltre, esploriamo anche la possibilità che la contaminazione possa originare dalla fase di pre-addestramento dei LLM utilizzati dai MLLM e dalla fase di raffinamento dei MLLM, offrendo nuove prospettive sulle fasi in cui la contaminazione potrebbe essere introdotta.
I transformer hanno trovato ampie applicazioni in vari settori grazie alle potenti capacità di adattamento. Questo successo può essere parzialmente attribuito alla loro intrinseca non linearità. Pertanto, oltre alla funzione ReLU impiegata nella struttura originale del transformer, i ricercatori hanno esplorato moduli alternativi come GeLU e SwishGLU per potenziare la non linearità e quindi aumentare la capacità rappresentativa. In questo articolo, proponiamo una nuova categoria di attivazioni a composizione polinomiale (PolyCom), progettate per ottimizzare la dinamica dei transformer. Teoricamente, forniamo un'analisi matematica esaustiva di PolyCom, evidenziando la sua espressività e efficacia potenziate rispetto ad altre funzioni di attivazione. In particolare, dimostriamo che le reti che incorporano PolyCom raggiungono il tasso di approssimazione ottimale, indicando che le reti PolyCom richiedono un numero minimo di parametri per approssimare funzioni lisce generali negli spazi di Sobolev. Conduciamo esperimenti empirici sulle configurazioni di pre-training di grandi modelli linguistici (LLM), includendo sia architetture dense che sparse. Sostituendo le funzioni di attivazione convenzionali con PolyCom, consentiamo ai LLM di catturare interazioni di ordine superiore all'interno dei dati, migliorando così le metriche di prestazione in termini di accuratezza e tassi di convergenza. Estesi risultati sperimentali dimostrano l'efficacia del nostro metodo, mostrando miglioramenti sostanziali rispetto ad altre funzioni di attivazione. Il codice è disponibile su https://github.com/BryceZhuo/PolyCom.
L'auto-allineamento, mediante il quale i modelli imparano a migliorarsi senza annotazioni umane, è un'area di ricerca in rapida crescita. Tuttavia, le tecniche esistenti spesso falliscono nel migliorare compiti di ragionamento complessi a causa della difficoltà nell'assegnare ricompense corrette. Un approccio ortogonale noto per migliorare la correttezza è l'auto-coerenza, un metodo applicato al momento dell'infenza basato su campionamenti multipli per trovare la risposta più coerente. In questo lavoro, estendiamo il concetto di auto-coerenza per aiutare ad addestrare i modelli. Introduciamo quindi l'ottimizzazione delle preferenze di auto-coerenza (ScPO), che addestra iterativamente risposte coerenti a essere preferite rispetto a quelle incoerenti su nuovi problemi non supervisionati. Mostrando che ScPO porta a miglioramenti significativi rispetto all'addestramento del modello con ricompense convenzionali in compiti di ragionamento come GSM8K e MATH, riducendo il divario con l'addestramento supervisionato con risposte o preferenze corrette, e che combinare ScPO con l'apprendimento supervisionato standard migliora ulteriormente i risultati. Su ZebraLogic, ScPO ottimizza Llama-3 8B per essere superiore a Llama-3 70B, Gemma-2 27B e Claude-3 Haiku.
Strategie di guida in tempo di esecuzione come Medprompt sono preziose per guidare grandi modelli linguistici (LLM) verso prestazioni di alto livello su compiti impegnativi. Medprompt dimostra che un LLM generale può essere focalizzato per ottenere prestazioni all'avanguardia in domini specializzati come la medicina utilizzando un prompt per suscitare una strategia in tempo di esecuzione che coinvolge il ragionamento a catena e l'ensemble. Il modello o1-preview di OpenAI rappresenta un nuovo paradigma, in cui un modello è progettato per eseguire un ragionamento in tempo di esecuzione prima di generare risposte finali. Cerchiamo di comprendere il comportamento di o1-preview su un insieme diversificato di benchmark di sfide mediche. Seguendo lo studio Medprompt con GPT-4, valutiamo sistematicamente il modello o1-preview su vari benchmark medici. In particolare, anche senza tecniche di prompting, o1-preview supera ampiamente la serie GPT-4 con Medprompt. Studiamo inoltre sistematicamente l'efficacia delle classiche strategie di ingegneria dei prompt, rappresentate da Medprompt, all'interno del nuovo paradigma dei modelli di ragionamento. Abbiamo riscontrato che il prompting a pochi esempi ostacola le prestazioni di o1, suggerendo che l'apprendimento in contesto potrebbe non essere più un approccio efficace per i modelli nativi di ragionamento. Sebbene l'ensemble rimanga valido, è intensivo in termini di risorse e richiede un'ottimizzazione attenta dei costi e delle prestazioni. La nostra analisi dei costi e dell'accuratezza tra le strategie in tempo di esecuzione rivela una frontiera di Pareto, con GPT-4o che rappresenta un'opzione più conveniente e o1-preview che raggiunge prestazioni all'avanguardia a un costo più elevato. Anche se o1-preview offre prestazioni di alto livello, GPT-4o con strategie di guida come Medprompt conserva valore in contesti specifici. Inoltre, notiamo che il modello o1-preview ha raggiunto una quasi saturazione su molti benchmark medici esistenti, sottolineando la necessità di nuovi benchmark impegnativi. Concludiamo con riflessioni sulle direzioni generali per il calcolo in tempo di inferenza con LLM.