Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i grandi modelli linguistici abbiano facilitato progressi in molte applicazioni dell'intelligenza artificiale, la loro intrinseca grandezza li rende computazionalmente costosi e difficili da implementare in contesti con risorse limitate. In questo articolo, documentiamo lo sviluppo di SmolLM2, un modello linguistico (LM) "piccolo" (1,7 miliardi di parametri) all'avanguardia. Per ottenere prestazioni elevate, sovraaddestriamo SmolLM2 su circa 11 trilioni di token di dati utilizzando un processo di addestramento multi-stadio che mescola testo web con dati matematici, codice e istruzioni specializzate. Introduciamo inoltre nuovi set di dati specializzati (FineMath, Stack-Edu e SmolTalk) nelle fasi in cui abbiamo riscontrato che i set di dati esistenti erano problematicamente piccoli o di bassa qualità. Per guidare le nostre decisioni progettuali, effettuiamo sia ablation su piccola scala che un processo di perfezionamento manuale che aggiorna i tassi di mescolamento dei dati ad ogni fase in base alle prestazioni della fase precedente. Dimostriamo infine che SmolLM2 supera altri recenti LM piccoli come Qwen2.5-1.5B e Llama3.2-1B. Per agevolare futuri studi sullo sviluppo di LM e sull'applicazione di LM piccoli, rilasciamo sia SmolLM2 che tutti i set di dati preparati nel corso di questo progetto.
Presentiamo una scoperta fondamentale che mette in discussione la nostra comprensione di come l'elaborazione del ragionamento complesso emerga nei grandi modelli linguistici. Mentre il pensiero convenzionale suggerisce che compiti di ragionamento sofisticato richiedano un'ampia quantità di dati di addestramento (>100.000 esempi), dimostriamo che le abilità di ragionamento matematico complesso possono essere efficacemente evocate con sorprendentemente pochi esempi. Attraverso esperimenti esaustivi, il nostro modello proposto LIMO dimostra prestazioni senza precedenti nel ragionamento matematico. Con solamente 817 campioni di addestramento selezionati, LIMO raggiunge un'accuratezza del 57,1% su AIME e del 94,8% su MATH, migliorando rispetto ai modelli basati su SFT precedenti che avevano rispettivamente il 6,5% e il 59,2%, utilizzando solo l'1% dei dati di addestramento richiesti dai metodi precedenti. LIMO dimostra un'eccezionale generalizzazione fuori distribuzione, ottenendo un miglioramento assoluto del 40,5% su 10 diversi benchmark, superando i modelli addestrati su 100 volte più dati, mettendo in discussione l'idea che SFT porti alla memorizzazione piuttosto che alla generalizzazione. Sulla base di questi risultati, proponiamo l'Ipotesi del Ragionamento Meno-È-Più (Ipotesi LIMO): Nei modelli fondamentali in cui la conoscenza di dominio è stata codificata in modo esaustivo durante il pre-addestramento, le capacità di ragionamento sofisticato possono emergere attraverso dimostrazioni minime ma precisamente orchestrare dei processi cognitivi. Questa ipotesi sostiene che la soglia di evocazione per il ragionamento complesso sia determinata da due fattori chiave: (1) la completezza della base di conoscenza codificata del modello durante il pre-addestramento e (2) l'efficacia degli esempi post-addestramento come "modelli cognitivi" che mostrano al modello come utilizzare la sua base di conoscenza per risolvere compiti di ragionamento complessi. Per facilitare la riproducibilità e la ricerca futura nel ragionamento efficiente dei dati, rilasciamo LIMO come un pacchetto open-source completo su https://github.com/GAIR-NLP/LIMO.
L'incremento del calcolo inferenziale migliora il ragionamento nei grandi modelli linguistici (LLM), con lunghe catene di pensiero (CoTs) che consentono strategie come il backtracking e la correzione degli errori. Il Reinforcement Learning (RL) è emerso come un metodo cruciale per sviluppare queste capacità, tuttavia le condizioni in cui emergono lunghe CoTs rimangono poco chiare e l'addestramento RL richiede scelte progettuali attente. In questo studio, investighiamo sistematicamente la meccanica del ragionamento a lungo CoT, identificando i fattori chiave che consentono ai modelli di generare lunghe traiettorie CoT. Attraverso ampi esperimenti di fine-tuning supervisionato (SFT) e RL, presentiamo quattro principali scoperte: (1) Sebbene il SFT non sia strettamente necessario, semplifica l'addestramento e ne migliora l'efficienza; (2) Le capacità di ragionamento tendono a emergere con un aumento del calcolo di addestramento, ma il loro sviluppo non è garantito, rendendo cruciale la modellazione del reward per stabilizzare la crescita della lunghezza di CoT; (3) L'incremento dei segnali di reward verificabili è fondamentale per il RL. Scopriamo che sfruttare soluzioni rumorose estratte da web con meccanismi di filtraggio mostra un forte potenziale, in particolare per compiti fuori distribuzione (OOD) come il ragionamento STEM; e (4) Abilità di base come la correzione degli errori sono presenti intrinsecamente nei modelli di base, ma incentivare efficacemente queste abilità per compiti complessi tramite RL richiede un calcolo significativo e misurarne l'emergenza richiede un approccio sfumato. Queste intuizioni forniscono indicazioni pratiche per ottimizzare le strategie di addestramento per migliorare il ragionamento a lungo CoT nei LLM. Il nostro codice è disponibile su: https://github.com/eddycmu/demystify-long-cot.
Lo studio dell'emergenza sociale è da tempo un focus centrale nelle scienze sociali. Approcci di modellazione tradizionali, come i Modelli Basati su Agenti (ABM) basati su regole, faticano a catturare la diversità e complessità del comportamento umano, in particolare i fattori irrazionali enfatizzati nell'economia comportamentale. Recentemente, agenti di grandi modelli linguistici (LLM) hanno guadagnato terreno come strumenti di simulazione per modellare il comportamento umano nelle scienze sociali e nelle applicazioni di gioco di ruolo. Studi suggeriscono che i LLM possono tener conto dei bias cognitivi, delle fluttuazioni emotive e di altre influenze non razionali, consentendo simulazioni più realistiche delle dinamiche socio-economiche. In questo lavoro, presentiamo TwinMarket, un nuovo framework multi-agente che sfrutta i LLM per simulare sistemi socio-economici. In particolare, esaminiamo come i comportamenti individuali, attraverso interazioni e meccanismi di feedback, danno origine a dinamiche collettive e fenomeni emergenti. Attraverso esperimenti in un ambiente di mercato azionario simulato, dimostriamo come le azioni individuali possano innescare comportamenti di gruppo, portando a esiti emergenti come bolle finanziarie e recessioni. Il nostro approccio fornisce preziose intuizioni sul complesso intreccio tra decisioni individuali e modelli socio-economici collettivi.
I modelli linguistici multimodali di grandi dimensioni (MLLM) mostrano capacità impressionanti ma affrontano ancora sfide nella complessa ragionamento visuale. Mentre gli sforzi recenti cercano di potenziare il ragionamento dei MLLM incorporando pensiero strutturato simile a OpenAI o1 attraverso strutture di ricerca esplicite o distillazione guidata dall'insegnante, spesso faticano a bilanciare prestazioni ed efficienza. Una limitazione critica è la loro forte dipendenza da dati estesi e spazi di ricerca, che porta a un'estrazione di intuizioni implicite e utilizzo dei dati poco efficienti. Per affrontare questo problema, proponiamo AStar, un paradigma di pensiero strutturato automatizzato per il ragionamento multimodale tramite Ricerca ad Albero Monte Carlo (MCTS). AStar deriva automaticamente modelli di ragionamento cognitivo di alto livello da dati limitati utilizzando strutture gerarchiche alimentate da MCTS. Sulla base di questi modelli espliciti, progettiamo un framework di ragionamento unificato che integra in modo fluido le capacità di ragionamento interne dei modelli e linee guida di ragionamento esterne, consentendo un'inferenza efficiente con un numero minimo di iterazioni dell'albero. Questo nuovo paradigma trova un equilibrio convincente tra prestazioni ed efficienza. Esperimenti estesi dimostrano l'efficacia di AStar, ottenendo un'accuratezza superiore (54,0%) sul benchmark MathVerse con un backbone da 7B, superando il GPT-4o (50,2%) pur mantenendo un'efficienza sostanziale in termini di dati e calcolo.
La generazione di SVG stratificati allineati alla cognizione rimane una sfida a causa delle tendenze dei metodi esistenti verso output a singolo strato troppo semplificati o ridondanze di forma indotte dall'ottimizzazione. Proponiamo LayerTracer, un framework basato su trasformatore a diffusione che colma questa lacuna apprendendo i processi di creazione di SVG stratificati dei designer da un nuovo dataset di operazioni di design sequenziali. Il nostro approccio opera in due fasi: Inizialmente, un DiT condizionato al testo genera bozze di costruzione rasterizzate a più fasi che simulano i flussi di lavoro di design umani. Successivamente, la vettorizzazione strato per strato con deduplicazione del percorso produce SVG puliti ed editabili. Per la vettorizzazione delle immagini, introduciamo un meccanismo di diffusione condizionato che codifica le immagini di riferimento in token latenti, guidando la ricostruzione gerarchica preservando l'integrità strutturale. Estesi esperimenti dimostrano le prestazioni superiori di LayerTracer rispetto a baselines basate sull'ottimizzazione e neurali sia in termini di qualità della generazione che di editabilità, allineando efficacemente i vettori generati dall'IA con la cognizione professionale del design.
I Large Language Models (LLM) eccellono nel ragionamento e nella pianificazione quando vengono addestrati su dati di catena di pensiero (CoT), dove il processo di pensiero passo dopo passo è esplicitamente delineato da token di testo. Tuttavia, ciò porta a input lunghi in cui molte parole supportano la coerenza testuale piuttosto che le informazioni di ragionamento principale, e il processamento di questi input richiede notevoli risorse computazionali. In questo lavoro, proponiamo una rappresentazione ibrida del processo di ragionamento, in cui astraiamo parzialmente i passaggi di ragionamento iniziali utilizzando token discreti latenti generati da VQ-VAE, riducendo significativamente la lunghezza delle tracce di ragionamento. Esploriamo l'uso di astrazioni di tracce latenti in due scenari: 1) addestrare il modello da zero per il problema del Labirinto della Ricerca delle Chiavi, 2) raffinare i LLM su questi dati ibridi con un vocabolario esteso che include token latenti non visti, per problemi di ragionamento logico e matematico. Per facilitare l'apprendimento efficace, introduciamo una procedura di addestramento semplice che mescola casualmente token latenti e di testo, consentendo un'adattamento rapido ai nuovi token latenti. Il nostro approccio supera costantemente i metodi di riferimento in vari benchmark.
Il post-addestramento dei modelli linguistici (LM) si basa sempre più sui seguenti due stadi: (i) distillazione della conoscenza, dove il LM viene addestrato a imitare un più grande LM insegnante, e (ii) apprendimento per rinforzo dal feedback umano (RLHF), dove il LM viene allineato ottimizzando un modello di ricompensa. Nel secondo stadio RLHF, una sfida ben nota è l'hacking della ricompensa, dove il LM ottimizza eccessivamente il modello di ricompensa. Tale fenomeno è in linea con la legge di Goodhart e può portare a una performance degradata sull'obiettivo vero. In questo articolo, indaghiamo se un fenomeno simile, che chiamiamo hacking dell'insegnante, possa verificarsi durante la distillazione della conoscenza. Ciò potrebbe verificarsi perché il LM insegnante è di per sé un'approssimazione imperfetta della vera distribuzione. Per studiare ciò, proponiamo un setup sperimentale controllato che coinvolge: (i) un LM oracolo che rappresenta la distribuzione veritiera, (ii) un LM insegnante distillato dall'oracolo, e (iii) un LM studente distillato dall'insegnante. I nostri esperimenti rivelano le seguenti intuizioni. Quando si utilizza un dataset offline fisso per la distillazione, si verifica l'hacking dell'insegnante; inoltre, possiamo rilevarlo osservando quando il processo di ottimizzazione si discosta dalle leggi di convergenza polinomiale. Al contrario, l'utilizzo di tecniche di generazione dati online mitiga efficacemente l'hacking dell'insegnante. Più precisamente, identifichiamo la diversità dei dati come il fattore chiave nella prevenzione dell'hacking. Nel complesso, le nostre scoperte forniscono una comprensione più approfondita dei benefici e dei limiti della distillazione per la costruzione di LM robusti ed efficienti.
La generazione automatica di codice sta acquisendo un'importanza significativa nella programmazione informatica intelligente e nella distribuzione di sistemi. Tuttavia, gli approcci attuali spesso affrontano sfide legate all'efficienza computazionale e alla mancanza di meccanismi robusti per l'analisi del codice e la correzione degli errori. In questo lavoro, proponiamo un nuovo framework, PyCapsule, con un pipeline a due agenti semplice ma efficace e moduli di auto-debugging efficienti per la generazione di codice Python. PyCapsule presenta un'elaborazione sofisticata dei prompt, una gestione degli errori iterativa e test dei casi, garantendo un'elevata stabilità, sicurezza e correttezza nella generazione. Dal punto di vista empirico, PyCapsule raggiunge un miglioramento fino al 5.7% del tasso di successo su HumanEval, del 10.3% su HumanEval-ET e del 24.4% su BigCodeBench rispetto ai metodi più avanzati. Osserviamo anche una diminuzione del tasso di successo normalizzato con un maggior numero di tentativi di auto-debugging, potenzialmente influenzata da un feedback sugli errori limitato e rumoroso nella fase di mantenimento. PyCapsule dimostra impatti più ampi nel progresso della generazione di codice leggero ed efficiente per i sistemi di intelligenza artificiale.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto significativi miglioramenti delle prestazioni attraverso l'aumento delle dimensioni del modello e/o dei dati. Tuttavia, recenti evidenze suggeriscono rendimenti decrescenti da tali approcci, spingendo verso il dimensionamento della computazione impiegata durante l'inferenza. I metodi esistenti di dimensionamento durante l'inferenza, di solito con modelli di ricompensa, considerano il compito come un problema di ricerca, che tende ad essere vulnerabile all'hacking della ricompensa a causa degli errori di approssimazione nei modelli di ricompensa. In questo articolo, invece, consideriamo il dimensionamento durante l'inferenza come un compito di inferenza probabilistica e sfruttiamo tecniche basate su campionamento per esplorare l'insieme tipico della distribuzione degli stati di un modello dello spazio degli stati con una verosimiglianza approssimata, piuttosto che ottimizzare direttamente il suo modo. Proponiamo un nuovo approccio al dimensionamento durante l'inferenza adattando metodi di Monte Carlo basati su particelle a questo compito. La nostra valutazione empirica dimostra che i nostri metodi hanno un tasso di dimensionamento 4-16 volte migliore rispetto ai nostri corrispettivi di ricerca deterministica su vari compiti di ragionamento matematico impegnativi. Utilizzando il nostro approccio, mostriamo che Qwen2.5-Math-1.5B-Instruct può superare l'accuratezza di GPT-4o in soli 4 rollouts, mentre Qwen2.5-Math-7B-Instruct raggiunge un'accuratezza di livello o1 in soli 32 rollouts. Il nostro lavoro non solo presenta un metodo efficace per il dimensionamento durante l'inferenza, ma collega anche la ricca letteratura sull'inferenza probabilistica con il dimensionamento durante l'inferenza dei LLM per sviluppare algoritmi più robusti in lavori futuri. Il codice e ulteriori informazioni sono disponibili su https://probabilistic-inference-scaling.github.io.
I grandi modelli linguistici (LLM) hanno visto un rapido sviluppo negli ultimi anni, rivoluzionando varie applicazioni e migliorando significativamente la comodità e la produttività. Tuttavia, insieme alle loro impressionanti capacità, sono emerse preoccupazioni etiche e nuovi tipi di attacchi, come il jailbreaking. Mentre la maggior parte delle tecniche di prompting si concentra sull'ottimizzazione degli input avversari per casi individuali, comportando costi computazionali più elevati quando si lavora con grandi set di dati, meno ricerca ha affrontato l'ambiente più generale del training di un attaccante universale in grado di trasferirsi a compiti non visti. In questo articolo, presentiamo JUMP, un metodo basato su prompt progettato per eseguire il jailbreak sui LLM utilizzando multi-prompt universali. Adattiamo inoltre il nostro approccio per la difesa, che chiamiamo DUMP. I risultati sperimentali dimostrano che il nostro metodo per ottimizzare i multi-prompt universali supera le tecniche esistenti.
Il merging dei modelli, un metodo che combina i parametri e gli embedding di diversi grandi modelli linguistici raffinati (LLM), offre un approccio promettente per migliorare le prestazioni del modello su varie attività mantenendo l'efficienza computazionale. Questo articolo introduce il Merging Informato dall'Attivazione (AIM), una tecnica che integra le informazioni dello spazio di attivazione dei LLM nel processo di merging per migliorare le prestazioni e la robustezza. AIM è progettato come una soluzione flessibile e complementare che è applicabile a qualsiasi metodo di merging esistente. Si propone di preservare i pesi critici dal modello base, attingendo ai principi dell'apprendimento continuo (CL) e della compressione del modello. Utilizzando un insieme di calibrazione agnostico rispetto all'attività, AIM seleziona selettivamente i pesi essenziali durante il merging. Dimostriamo empiricamente che AIM migliora significativamente le prestazioni dei modelli uniti su vari benchmark. I nostri risultati suggeriscono che considerare le informazioni dello spazio di attivazione possa portare a progressi sostanziali nelle strategie di merging del modello per i LLM con un aumento fino al 40\% nelle prestazioni del benchmark.
La Generazione potenziata da Recupero (RAG) consente ai Grandi Modelli Linguistici (LLM) di generare risposte basate su conoscenze esterne sfruttando basi di dati esterne senza modificare i parametri del modello. Sebbene l'assenza di taratura dei pesi impedisca la fuoriuscita tramite i parametri del modello, introduce il rischio che avversari dell'inferenza sfruttino i documenti recuperati nel contesto del modello. I metodi esistenti per l'inferenza di appartenenza e l'estrazione di dati spesso si basano sul jailbreaking o su query artificiali attentamente progettate, che possono essere facilmente individuate o contrastate con tecniche di riscrittura delle query comuni nei sistemi RAG. In questo lavoro, presentiamo l'Attacco di Interrogazione (IA), una tecnica di inferenza di appartenenza mirata ai documenti nel datastore RAG. Creando query di testo naturale che possono essere risposte solo con la presenza del documento target, il nostro approccio dimostra un'inferenza riuscita con soli 30 quesiti rimanendo furtivo; i rilevatori diretti identificano le richieste avversarie dai metodi esistenti fino a ~76 volte più frequentemente rispetto a quelle generate dal nostro attacco. Osserviamo un miglioramento del 2x in TPR@1%FPR rispetto agli attacchi di inferenza precedenti attraverso diverse configurazioni RAG, il tutto a un costo inferiore a $0.02 per inferenza di documento.
Valutare l'applicabilità nel mondo reale dei grandi modelli linguistici (LLM) fornisce preziose intuizioni per lo sviluppo e l'uso in compiti di sviluppo software. I benchmark esistenti spesso si concentrano su problemi di codifica autonomi o specifiche librerie, trascurando scenari basati su progetti multi-file e mancando di una rigorosa valutazione della coerenza. Il Benchmark HackerRank-ASTRA introduce problemi di codifica basati su progetti che riflettono scenari del mondo reale. Valuta la coerenza del modello attraverso 32 esecuzioni (k = 32) e la deviazione standard mediana incorporando un'analisi a livello di tassonomia per valutare le capacità delle sotto-skill. Le valutazioni iniziali su 65 problemi mostrano che i primi tre modelli - o1, o1-preview e Claude-3.5-Sonnet-1022 - hanno ottenuto punteggi medi comparabili del 75%, senza differenze statisticamente significative nelle prestazioni. In particolare, Claude-3.5-Sonnet-1022 ha dimostrato la maggiore coerenza tra i problemi, con bassa variabilità (SD = 0.0497), che è stata statisticamente significativa rispetto agli altri modelli, evidenziando la sua affidabilità per compiti di sviluppo software nel mondo reale.