Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo rStar-Math per dimostrare che i modelli linguistici di piccole dimensioni (SLM) possono eguagliare o addirittura superare la capacità di ragionamento matematico di OpenAI o1, senza distillazione da modelli superiori. rStar-Math raggiunge questo obiettivo esercitando un "pensiero profondo" attraverso la Ricerca ad Albero Monte Carlo (MCTS), in cui un SLM di politica matematica esegue una ricerca al momento del test guidata da un modello di ricompensa di processo basato su SLM. rStar-Math introduce tre innovazioni per affrontare le sfide nell'addestramento dei due SLM: (1) un nuovo metodo di sintesi dati CoT con codice aggiuntivo, che esegue estese simulazioni MCTS per generare percorsi di ragionamento verificati passo dopo passo utilizzati per addestrare il SLM di politica; (2) un nuovo metodo di addestramento del modello di ricompensa di processo che evita annotazioni di punteggio a livello di passo naive, producendo un modello di preferenza di processo (PPM) più efficace; (3) una ricetta di auto-evoluzione in cui il SLM di politica e il PPM vengono costruiti da zero ed evoluti iterativamente per migliorare le capacità di ragionamento. Attraverso 4 cicli di auto-evoluzione con milioni di soluzioni sintetizzate per 747k problemi matematici, rStar-Math potenzia il ragionamento matematico degli SLM a livelli di ultima generazione. Nel benchmark MATH, migliora Qwen2.5-Math-7B dal 58,8% al 90,0% e Phi3-mini-3.8B dal 41,4% all'86,4%, superando o1-preview di +4,5% e +0,9%. Nella Olimpiade Matematica USA (AIME), rStar-Math risolve in media il 53,3% (8/15) dei problemi, posizionandosi tra i primi 20% degli studenti di matematica delle scuole superiori più brillanti. Il codice e i dati saranno disponibili su https://github.com/microsoft/rStar.
Proponiamo un nuovo framework, Meta Catena di Pensiero (Meta-CoT), che estende la tradizionale Catena di Pensiero (CoT) modellando esplicitamente il ragionamento sottostante necessario per giungere a una particolare CoT. Presentiamo evidenze empiriche da modelli all'avanguardia che mostrano comportamenti coerenti con la ricerca contestuale, ed esploriamo metodi per produrre Meta-CoT tramite supervisione del processo, generazione di dati sintetici e algoritmi di ricerca. Infine, delineiamo un pipeline concreto per addestrare un modello a produrre Meta-CoT, incorporando l'ottimizzazione dell'istruzione con tracce di ricerca linearizzate e apprendimento per rinforzo post-addestramento. Infine, discutiamo questioni di ricerca aperte, inclusi principi di scalabilità, ruoli dei verificatori e il potenziale per scoprire nuovi algoritmi di ragionamento. Questo lavoro fornisce una roadmap teorica e pratica per abilitare Meta-CoT nei LLMs, aprendo la strada a un ragionamento più potente e simile a quello umano nell'intelligenza artificiale.
Storicamente, la scoperta scientifica è stata un processo lungo e costoso, richiedendo un notevole impegno di tempo e risorse dall'idea iniziale ai risultati finali. Per accelerare la scoperta scientifica, ridurre i costi della ricerca e migliorare la qualità della ricerca, presentiamo Agent Laboratory, un framework autonomo basato su LLM in grado di completare l'intero processo di ricerca. Questo framework accetta un'idea di ricerca fornita dall'essere umano e procede attraverso tre fasi--revisione della letteratura, sperimentazione e scrittura del report per produrre risultati di ricerca completi, inclusi un repository di codice e un report di ricerca, consentendo agli utenti di fornire feedback e orientamento in ogni fase. Implementiamo Agent Laboratory con vari LLM all'avanguardia e invitiamo diversi ricercatori a valutarne la qualità partecipando a un sondaggio, fornendo feedback umano per guidare il processo di ricerca e quindi valutare il paper finale. Abbiamo riscontrato che: (1) Agent Laboratory guidato da o1-preview genera i migliori risultati di ricerca; (2) Il codice di machine learning generato è in grado di raggiungere prestazioni all'avanguardia rispetto ai metodi esistenti; (3) Il coinvolgimento umano, fornendo feedback in ogni fase, migliora significativamente la qualità complessiva della ricerca; (4) Agent Laboratory riduce significativamente le spese di ricerca, ottenendo una diminuzione dell'84% rispetto ai metodi di ricerca autonomi precedenti. Speriamo che Agent Laboratory consenta ai ricercatori di dedicare maggiori sforzi all'ideazione creativa piuttosto che alla scrittura e codifica a basso livello, accelerando in definitiva la scoperta scientifica.
Il ragionamento a catena di pensiero (CoT) è stato ampiamente applicato nel ragionamento matematico dei Grandi Modelli Linguistici (LLM). Recentemente, l'introduzione della supervisione del processo derivativo sulle traiettorie CoT ha suscitato discussioni sull'incremento delle capacità di scalabilità durante il test, potenziando così il potenziale di questi modelli. Tuttavia, nel ragionamento matematico multimodale, la scarsità di dati di addestramento CoT di alta qualità ha ostacolato i modelli esistenti nel raggiungere un ragionamento CoT ad alta precisione e ha limitato la realizzazione del potenziale di ragionamento durante il test. In questo lavoro, proponiamo una strategia di sintesi a tre moduli che integra la distillazione CoT, la riscrittura del formato della traiettoria e l'unificazione del formato. Ciò porta alla creazione di un dataset di addestramento per il raffinamento dell'istruzione di ragionamento CoT di alta qualità nella matematica multimodale, MMathCoT-1M. Validiamo in modo esaustivo le prestazioni state-of-the-art (SOTA) del modello addestrato URSA-7B su diversi benchmark matematici multimodali. Per la scalabilità durante il test, introduciamo una strategia di sintesi dati che genera automaticamente dataset di annotazioni del processo, noti come DualMath-1.1M, focalizzandosi sia sull'interpretazione che sulla logica. Attraverso ulteriore addestramento di URSA-7B su DualMath-1.1M, passiamo dalle capacità di ragionamento CoT a capacità di supervisione robuste. Il modello addestrato URSA-RM-7B funge da verificatore, migliorando efficacemente le prestazioni di URSA-7B durante il test. URSA-RM-7B dimostra inoltre eccellenti capacità di verifica fuori distribuzione (OOD), evidenziando la sua generalizzazione. I pesi del modello, i dati di addestramento e il codice saranno resi open-source.
Negli ultimi anni, il rapido avanzamento dei Grandi Modelli Linguistici (LLM) ha trasformato il panorama della ricerca scientifica, offrendo un supporto senza precedenti attraverso varie fasi del ciclo di ricerca. Questo articolo presenta il primo sondaggio sistematico dedicato all'esplorazione di come i LLM stiano rivoluzionando il processo di ricerca scientifica. Analizziamo i ruoli unici che i LLM svolgono in quattro fasi critiche della ricerca: scoperta dell'ipotesi, pianificazione e implementazione dell'esperimento, scrittura scientifica e revisione tra pari. La nostra rassegna mostra in modo esaustivo le metodologie specifiche del compito e i benchmark di valutazione. Identificando le sfide attuali e proponendo future direzioni di ricerca, questo sondaggio non solo mette in luce il potenziale trasformativo dei LLM, ma mira anche a ispirare e guidare ricercatori e professionisti nell'utilizzo dei LLM per far progredire l'indagine scientifica. Le risorse sono disponibili nel seguente repository: https://github.com/du-nlp-lab/LLM4SR
Gli Agenti dell'Interfaccia Utente Grafica (GUI), alimentati da modelli di linguaggio multimodali di grandi dimensioni (MLLM), hanno mostrato un grande potenziale per l'automazione delle attività sui dispositivi informatici come computer e telefoni cellulari. Tuttavia, gli agenti esistenti affrontano sfide nel ragionamento a più passaggi e nella dipendenza dalle annotazioni testuali, limitandone l'efficacia. Presentiamo InfiGUIAgent, un Agente GUI basato su MLLM addestrato con un sistema di affinamento supervisionato a due fasi. La Fase 1 potenzia le competenze fondamentali come la comprensione e l'ancoraggio dell'interfaccia grafica, mentre la Fase 2 integra il ragionamento gerarchico e il ragionamento per riflessione sulle aspettative utilizzando dati sintetizzati per abilitare le capacità di ragionamento native degli agenti. InfiGUIAgent raggiunge prestazioni competitive su diversi benchmark GUI, evidenziando l'impatto delle capacità di ragionamento native nel migliorare l'interazione GUI per le attività di automazione. Le risorse sono disponibili su https://github.com/Reallm-Labs/InfiGUIAgent.
Le tecniche di recupero documenti costituiscono la base per lo sviluppo di sistemi informativi su larga scala. La metodologia prevalente consiste nella costruzione di un bi-codificatore e nel calcolo della similarità semantica. Tuttavia, tale similarità scalare è difficile da riflettere a sufficienza e ostacola la nostra comprensione dei risultati del recupero. Inoltre, questo processo computazionale enfatizza principalmente le semantica globale e ignora la relazione semantica dettagliata tra la query e il testo complesso nel documento. In questo articolo, proponiamo un nuovo metodo chiamato Recupero Arricchito dalla Generazione (GeAR) che incorpora moduli di fusione e decodifica ben progettati. Ciò consente a GeAR di generare il testo rilevante dai documenti basandosi sulla rappresentazione fusa della query e del documento, apprendendo così a "concentrarsi" sulle informazioni dettagliate. Inoltre, quando utilizzato come recuperatore, GeAR non aggiunge alcun onere computazionale rispetto ai bi-codificatori. Per supportare l'addestramento del nuovo framework, abbiamo introdotto un flusso di lavoro per sintetizzare in modo efficiente dati di alta qualità utilizzando modelli linguistici di grandi dimensioni. GeAR mostra prestazioni competitive di recupero e localizzazione in diversi scenari e set di dati. Inoltre, l'analisi qualitativa e i risultati generati da GeAR forniscono nuove intuizioni sull'interpretazione dei risultati del recupero. Il codice, i dati e i modelli saranno rilasciati dopo aver completato la revisione tecnica per agevolare la ricerca futura.
In questo articolo, spingiamo i confini della generazione 3D dettagliata in un territorio veramente creativo. I metodi attuali mancano di dettagli intricati o semplicemente imitano oggetti esistenti - noi permettiamo entrambi. Sollevando la comprensione dettagliata 2D in 3D attraverso la diffusione multi-vista e modellando i latenti delle parti come distribuzioni continue, sblocciamo la capacità di generare parti del tutto nuove, ma plausibili, attraverso l'interpolazione e il campionamento. Una perdita di coerenza delle caratteristiche auto-supervisionata garantisce ulteriormente la generazione stabile di queste parti inedite. Il risultato è il primo sistema in grado di creare nuovi oggetti 3D con dettagli specifici della specie che vanno oltre gli esempi esistenti. Mentre dimostriamo il nostro approccio sugli uccelli, il framework sottostante si estende oltre le cose che possono cinguettare! Il codice sarà rilasciato su https://github.com/kamwoh/chirpy3d.
Studiamo il problema della ricostruzione tridimensionale di oggetti da singola immagine. Lavori recenti si sono divisi in due direzioni: modellazione basata su regressione e modellazione generativa. I metodi di regressione inferiscono efficientemente le superfici visibili, ma faticano con le regioni occultate. I metodi generativi gestiscono meglio le regioni incerte modellando distribuzioni, ma sono computazionalmente costosi e la generazione è spesso non allineata con le superfici visibili. In questo articolo, presentiamo SPAR3D, un nuovo approccio a due fasi che mira a cogliere il meglio di entrambe le direzioni. La prima fase di SPAR3D genera nuvole di punti 3D sparse utilizzando un modello di diffusione di punti leggero, che ha una rapida velocità di campionamento. La seconda fase utilizza sia la nuvola di punti campionata che l'immagine di input per creare mesh altamente dettagliate. Il nostro design a due fasi consente la modellazione probabilistica del compito 3D da singola immagine mal definito, mantenendo un'alta efficienza computazionale e una grande fedeltà dell'output. Utilizzare le nuvole di punti come rappresentazione intermedia consente inoltre modifiche interattive da parte dell'utente. Valutato su dataset diversi, SPAR3D dimostra prestazioni superiori rispetto ai metodi precedenti all'avanguardia, con una velocità di inferenza di 0,7 secondi. Pagina del progetto con codice e modello: https://spar3d.github.io
L'ottimizzazione efficace dell'istruzione è indispensabile per ottimizzare i modelli di codice LLM, allineare il comportamento del modello alle aspettative dell'utente e migliorare le prestazioni del modello nelle applicazioni del mondo reale. Tuttavia, la maggior parte dei metodi esistenti si concentra su frammenti di codice, che sono limitati a funzionalità specifiche e a strutture rigide, limitando la complessità e la diversità dei dati sintetizzati. Per affrontare queste limitazioni, introduciamo un nuovo framework di sintesi basato su alberi di caratteristiche ispirato agli Alberi di Sintassi Astratta (AST). A differenza degli AST, che catturano la struttura sintattica del codice, il nostro framework modella le relazioni semantiche tra gli elementi del codice, consentendo la generazione di dati più sfumati e diversificati. L'albero delle caratteristiche è costruito dai dati grezzi e affinato iterativamente per aumentare la quantità e la diversità delle caratteristiche estratte. Questo processo consente l'identificazione di pattern e relazioni più complessi all'interno del codice. Campionando sottoalberi con profondità e ampiezza controllate, il nostro framework consente aggiustamenti precisi alla complessità del codice generato, supportando una vasta gamma di compiti, dalle operazioni di livello di funzione semplice a scenari multi-file complessi. Abbiamo ottimizzato modelli di base ampiamente utilizzati per creare la serie EpiCoder, raggiungendo prestazioni all'avanguardia sia a livello di funzione che di file su diversi benchmark. In particolare, le prove empiriche indicano che il nostro approccio mostra un significativo potenziale nella sintesi di dati di codice a livello di repository altamente complessi. Ulteriori analisi chiariscono i meriti di questo approccio valutando rigorosamente la complessità e la diversità dei dati attraverso principi di ingegneria del software e il metodo LLM-come-giudice.
Il Generatore Potenziato da Recupero (RAG) è diventato onnipresente nella distribuzione dei Grandi Modelli Linguistici (LLM), poiché può affrontare limitazioni tipiche come la generazione di informazioni allucinate o obsolete. Tuttavia, quando si costruiscono applicazioni RAG del mondo reale, sorgono questioni pratiche. In primo luogo, le informazioni recuperate sono generalmente specifiche del dominio. Poiché è computazionalmente costoso perfezionare i LLM, è più fattibile perfezionare il recupero per migliorare la qualità dei dati inclusi nell'input del LLM. In secondo luogo, man mano che più applicazioni vengono distribuite nello stesso sistema del mondo reale, non si può permettere di distribuire recuperatori separati. Inoltre, queste applicazioni RAG recuperano normalmente diversi tipi di dati. La nostra soluzione è perfezionare istruzioni un piccolo codificatore di recupero su una varietà di compiti specifici del dominio per consentirci di distribuire un codificatore che possa servire molti casi d'uso, ottenendo così basso costo, scalabilità e velocità. Mostriamo come questo codificatore generalizzi a impostazioni fuori dal dominio così come a un compito di recupero non visto su casi d'uso aziendali del mondo reale.
La rapida diffusione dei grandi modelli linguistici (LLM) ha aperto molte possibilità di applicazione, ma sottolinea anche la sfida di allinearli con valori e preferenze diverse. L'ottimizzazione diretta delle preferenze (DPO) è fondamentale per l'allineamento, ma è limitata da divergenze fisse e trasformazioni di caratteristiche limitate. Proponiamo i DPO-Kernels, che integrano metodi kernel per affrontare tali problematiche attraverso quattro contributi chiave: (i) Rappresentazioni Kernelizzate con kernel polinomiali, RBF, Mahalanobis e spettrali per trasformazioni più ricche, oltre a una perdita ibrida che combina obiettivi basati sull'incorporamento e sulla probabilità; (ii) Alternative di Divergenza (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein e divergenze f) per una maggiore stabilità; (iii) Metriche di Selezione basate sui Dati che scelgono automaticamente la migliore coppia kernel-divergenza; e (iv) una Miscela Gerarchica di Kernel per una precisione locale e una modellazione globale. Le valutazioni su 12 set di dati dimostrano prestazioni all'avanguardia in termini di fattualità, sicurezza, ragionamento e seguire le istruzioni. Radicati nella Auto-regolarizzazione Heavy-Tailed, i DPO-Kernels mantengono una robusta generalizzazione per i LLM, offrendo una risorsa completa per ulteriori ricerche sull'allineamento.