Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo studia il post-addestramento di grandi modelli linguistici (LLM) utilizzando feedback di preferenza da un oracolo potente per aiutare un modello a migliorare iterativamente se stesso. L'approccio tipico per il post-addestramento degli LLM prevede il Reinforcement Learning from Human Feedback (RLHF), che tradizionalmente separa l'apprendimento della ricompensa e la successiva ottimizzazione della politica. Tuttavia, tale approccio di massimizzazione della ricompensa è limitato dalla natura delle ricompense "puntuali" (come il modello Bradley-Terry), che non riescono a esprimere relazioni di preferenza complesse, intransitive o cicliche. Sebbene i progressi nel RLHF mostrino che l'apprendimento della ricompensa e l'ottimizzazione della politica possono essere fusi in un unico obiettivo contrastivo per garantire stabilità, essi rimangono comunque ancorati al framework di massimizzazione della ricompensa. Recentemente, una nuova ondata di ricerca evita le presupposizioni della massimizzazione della ricompensa a favore di un'ottimizzazione diretta su preferenze "a coppie" o generali. In questo articolo, introduciamo la Direct Nash Optimization (DNO), un algoritmo dimostrabile e scalabile che unisce la semplicità e la stabilità dell'apprendimento contrastivo con la generalità teorica derivante dall'ottimizzazione di preferenze generali. Poiché DNO è un algoritmo on-policy in batch che utilizza un obiettivo basato sulla regressione, la sua implementazione è diretta ed efficiente. Inoltre, DNO gode di un miglioramento monotono attraverso le iterazioni che lo aiutano a migliorare anche rispetto a un insegnante forte (come GPT-4). Nei nostri esperimenti, un modello Orca-2.5 da 7B parametri allineato con DNO raggiunge un tasso di vittoria state-of-the-art contro GPT-4-Turbo del 33% su AlpacaEval 2.0 (anche dopo aver controllato la lunghezza della risposta), un guadagno assoluto del 26% (dal 7% al 33%) rispetto al modello iniziale. Supera modelli con molti più parametri, tra cui Mistral Large, Self-Rewarding LM (70B parametri) e versioni precedenti di GPT-4.
I modelli linguistici raramente vengono esposti a errori fruttuosi durante l'addestramento. Di conseguenza, faticano a guardare oltre il token successivo, soffrendo di un effetto a valanga di errori e trovando difficoltà a prevedere le conseguenze delle loro azioni a diversi passi di distanza. In questo articolo, dimostriamo come i modelli linguistici possano essere insegnati a cercare rappresentando il processo di ricerca nel linguaggio, come una stringa appiattita – un flusso di ricerca (Stream of Search, SoS). Proponiamo un linguaggio unificato per la ricerca che cattura una gamma di diverse strategie di ricerca simbolica. Illustriamo il nostro approccio utilizzando il semplice ma difficile gioco del Countdown, in cui l'obiettivo è combinare numeri di input con operazioni aritmetiche per raggiungere un numero target. Pre-addestriamo un modello linguistico basato su transformer da zero su un dataset di flussi di ricerca generati da risolutori euristici. Scopriamo che il pre-addestramento SoS aumenta l'accuratezza della ricerca del 25% rispetto ai modelli addestrati a prevedere solo la traiettoria di ricerca ottimale. Successivamente, perfezioniamo questo modello con due metodi di miglioramento delle politiche: Advantage-Induced Policy Alignment (APA) e Self-Taught Reasoner (STaR). I modelli SoS perfezionati risolvono il 36% dei problemi precedentemente irrisolti, inclusi problemi che non possono essere risolti da nessuno dei risolutori euristici. I nostri risultati indicano che i modelli linguistici possono imparare a risolvere problemi attraverso la ricerca, auto-migliorarsi per utilizzare flessibilmente diverse strategie di ricerca e potenzialmente scoprirne di nuove.
I dataset di pre-addestramento raccolti dal web sono alla base delle impressionanti prestazioni di valutazione "zero-shot" dei modelli multimodali, come CLIP per la classificazione/recupero e Stable-Diffusion per la generazione di immagini. Tuttavia, non è chiaro quanto sia significativa la nozione di generalizzazione "zero-shot" per tali modelli multimodali, poiché non è noto in quale misura i loro dataset di pre-addestramento includano i concetti downstream mirati durante la valutazione "zero-shot". In questo lavoro, ci chiediamo: in che modo la frequenza di questi concetti nei dataset di pre-addestramento influenza le prestazioni dei modelli multimodali sui concetti downstream? Indaghiamo approfonditamente questa questione attraverso 34 modelli e cinque dataset di pre-addestramento standard (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generando oltre 300GB di artefatti di dati. Troviamo costantemente che, lungi dall'esibire una generalizzazione "zero-shot", i modelli multimodali richiedono esponenzialmente più dati per ottenere miglioramenti lineari nelle prestazioni "zero-shot" downstream, seguendo una tendenza di scalatura log-lineare inefficiente in termini di campioni. Questa tendenza persiste anche quando si controlla la similarità a livello di campione tra i dataset di pre-addestramento e quelli downstream, e testando su distribuzioni di dati puramente sintetiche. Inoltre, valutando i modelli su dati a coda lunga campionati in base alla nostra analisi, dimostriamo che i modelli multimodali in generale hanno prestazioni scarse. Contribuiamo con questo set di test a coda lunga come benchmark "Let it Wag!" per ulteriori ricerche in questa direzione. Nel complesso, il nostro studio rivela un bisogno esponenziale di dati di addestramento, il che implica che la chiave per le capacità di generalizzazione "zero-shot" sotto paradigmi di addestramento su larga scala rimane da trovare.
I recenti progressi nei dataset per il fine-tuning delle istruzioni si sono concentrati principalmente su compiti specifici come il ragionamento matematico o logico. Si è osservata una lacuna significativa nei dati progettati per allineare i modelli linguistici al fine di mantenere la pertinenza del tema nelle conversazioni, un aspetto cruciale per il deployment di chatbot in produzione. Introduciamo il dataset CantTalkAboutThis per aiutare i modelli linguistici a rimanere focalizzati sull'argomento in corso durante le interazioni orientate al compito. Esso consiste in dialoghi sintetici su un'ampia gamma di argomenti conversazionali provenienti da diversi domini. Questi dialoghi sono intervallati da turni distraenti che intenzionalmente deviano il chatbot dal tema predefinito. Il fine-tuning dei modelli linguistici su questo dataset li rende più resistenti alla deviazione dal ruolo assegnato e migliora la loro capacità di mantenere la coerenza tematica rispetto a modelli linguistici general-purpose con fine-tuning delle istruzioni come GPT-4-turbo e Mixtral-Instruct. Inoltre, osservazioni preliminari suggeriscono che l'addestramento dei modelli su questo dataset migliora anche le loro prestazioni nei compiti di seguire istruzioni dettagliate.
L'apprendimento per rinforzo (Reinforcement Learning, RL) ha migliorato la generazione guidata di immagini con modelli di diffusione ottimizzando direttamente le ricompense che catturano la qualità dell'immagine, l'estetica e la capacità di seguire istruzioni. Tuttavia, le politiche generative risultanti ereditano lo stesso processo iterativo di campionamento dei modelli di diffusione, che causa una generazione lenta. Per superare questa limitazione, i modelli di consistenza hanno proposto l'apprendimento di una nuova classe di modelli generativi che mappano direttamente il rumore ai dati, ottenendo un modello in grado di generare un'immagine in un numero ridotto di iterazioni di campionamento. In questo lavoro, per ottimizzare i modelli generativi testo-immagine per ricompande specifiche del compito e abilitare un addestramento e un'inferenza veloci, proponiamo un framework per il fine-tuning di modelli di consistenza tramite RL. Il nostro framework, chiamato Reinforcement Learning for Consistency Model (RLCM), inquadra il processo iterativo di inferenza di un modello di consistenza come una procedura RL. RLCM migliora i modelli di diffusione ottimizzati con RL nelle capacità di generazione testo-immagine e bilancia il calcolo durante l'inferenza con la qualità del campione. Sperimentalmente, dimostriamo che RLCM può adattare i modelli di consistenza testo-immagine a obiettivi difficili da esprimere con prompt, come la comprimibilità dell'immagine, e quelli derivati dal feedback umano, come la qualità estetica. Rispetto ai modelli di diffusione ottimizzati con RL, RLCM si addestra in modo significativamente più veloce, migliora la qualità della generazione misurata sotto gli obiettivi di ricompensa e accelera la procedura di inferenza generando immagini di alta qualità con un numero ridotto di passaggi di inferenza. Il nostro codice è disponibile all'indirizzo https://rlcm.owenoertell.com.
Le persone fanno affidamento su competenze sociali come la risoluzione dei conflitti per comunicare in modo efficace e prosperare sia nella vita lavorativa che personale. Tuttavia, gli ambienti di pratica per le competenze sociali sono generalmente fuori dalla portata della maggior parte delle persone. Come possiamo rendere la formazione sulle competenze sociali più disponibile, accessibile e invitante? Attingendo a ricerche interdisciplinari dalla comunicazione e dalla psicologia, questo articolo prospettico identifica le barriere alle competenze sociali per entrare in campi specializzati. Successivamente, presentiamo una soluzione che sfrutta i grandi modelli linguistici per la formazione sulle competenze sociali attraverso un framework generico. Il nostro framework AI Partner, AI Mentor, unisce l'apprendimento esperienziale con la pratica realistica e il feedback personalizzato. Questo lavoro invoca infine un'innovazione interdisciplinare per affrontare le implicazioni più ampie per lo sviluppo della forza lavoro e l'uguaglianza sociale.
In questo studio, presentiamo CT-LLM, un modello linguistico di grandi dimensioni (LLM) da 2 miliardi di parametri che rappresenta un cambiamento cruciale verso la priorità della lingua cinese nello sviluppo degli LLM. Iniziato in modo unico da zero, CT-LLM si discosta dalla metodologia convenziale incorporando principalmente dati testuali in cinese, utilizzando un corpus esteso di 1.200 miliardi di token, inclusi 800 miliardi di token in cinese, 300 miliardi in inglese e 100 miliardi di token di codice. Questa composizione strategica facilita l'eccezionale competenza del modello nella comprensione e nell'elaborazione del cinese, una capacità ulteriormente potenziata attraverso tecniche di allineamento. Dimostrando prestazioni notevoli sul CHC-Bench, CT-LLM eccelle nei compiti linguistici in cinese e mostra la sua abilità in inglese attraverso il fine-tuning supervisionato (SFT). Questa ricerca sfida il paradigma prevalente di addestrare gli LLM principalmente su corpora in inglese per poi adattarli ad altre lingue, ampliando gli orizzonti delle metodologie di addestramento degli LLM. Rendendo open-source l'intero processo di addestramento di un LLM in cinese, inclusa una procedura dettagliata di elaborazione dei dati con il Massive Appropriate Pretraining Chinese Corpus (MAP-CC), un benchmark multidisciplinare ben selezionato di casi complessi in cinese (CHC-Bench) e il modello CT-LLM da 2 miliardi di parametri, miriamo a favorire ulteriori esplorazioni e innovazioni sia in ambito accademico che industriale, aprendo la strada a modelli linguistici più inclusivi e versatili.
In questo articolo, affrontiamo le comuni fonti di errore per il 3D Gaussian Splatting (3DGS), tra cui sfocatura, pose della fotocamera imperfette e incoerenze cromatiche, con l'obiettivo di migliorarne la robustezza per applicazioni pratiche come ricostruzioni da acquisizioni con smartphone portatili. Il nostro contributo principale consiste nel modellare la sfocatura da movimento come una distribuzione gaussiana sulle pose della fotocamera, consentendoci di affrontare sia il perfezionamento della posa della fotocamera che la correzione della sfocatura da movimento in modo unificato. Inoltre, proponiamo meccanismi per la compensazione della sfocatura da defocus e per affrontare le incoerenze cromatiche causate dalla luce ambientale, dalle ombre o da fattori legati alla fotocamera come le impostazioni variabili del bilanciamento del bianco. Le nostre soluzioni proposte si integrano in modo fluido con la formulazione del 3DGS, mantenendone i vantaggi in termini di efficienza di addestramento e velocità di rendering. Validiamo sperimentalmente i nostri contributi su dataset di benchmark rilevanti, tra cui Scannet++ e Deblur-NeRF, ottenendo risultati all'avanguardia e quindi miglioramenti consistenti rispetto alle baseline rilevanti.
La segmentazione semantica multi-modale migliora significativamente la percezione e la comprensione della scena da parte degli agenti di intelligenza artificiale, specialmente in condizioni avverse come ambienti con scarsa illuminazione o sovraesposti. Sfruttare modalità aggiuntive (X-modalità) come termica e profondità, insieme alla tradizionale RGB, fornisce informazioni complementari, consentendo una segmentazione più robusta e affidabile. In questo lavoro, introduciamo Sigma, una rete Siamese Mamba per la segmentazione semantica multi-modale, che utilizza il modello State Space Model selettivo e strutturato, Mamba. A differenza dei metodi convenzionali che si basano su CNN, con i loro campi recettivi locali limitati, o su Vision Transformers (ViTs), che offrono campi recettivi globali al costo di una complessità quadratica, il nostro modello raggiunge una copertura globale dei campi recettivi con complessità lineare. Utilizzando un encoder Siamese e innovando un meccanismo di fusione Mamba, selezioniamo efficacemente le informazioni essenziali da diverse modalità. Successivamente, viene sviluppato un decoder per migliorare la capacità di modellazione canale del modello. Il nostro metodo, Sigma, è rigorosamente valutato sia su compiti di segmentazione RGB-Termica che RGB-Profondità, dimostrando la sua superiorità e segnando la prima applicazione riuscita di State Space Models (SSMs) in compiti di percezione multi-modale. Il codice è disponibile all'indirizzo https://github.com/zifuwan/Sigma.