Articoli di ricerca IA selezionati quotidianamente con traduzioni
Man mano che i LLM (Large Language Models) influenzano sempre di più le applicazioni critiche per la sicurezza, garantirne l'affidabilità mediante l'uso di guide rimane una sfida chiave. Questo articolo propone GuardReasoner, una nuova protezione per i LLM, guidando il modello di protezione nell'apprendimento del ragionamento. Concretamente, creiamo innanzitutto il dataset GuardReasonerTrain, che comprende 127.000 campioni con 460.000 passaggi di ragionamento dettagliati. Successivamente, introduciamo SFT di ragionamento per sbloccare la capacità di ragionamento dei modelli di protezione. Inoltre, presentiamo DPO di campioni difficili per rafforzare ulteriormente la loro capacità di ragionamento. In questo modo, GuardReasoner ottiene migliori prestazioni, spiegabilità e generalizzabilità. Estesi esperimenti e analisi su 13 benchmark di 3 compiti di protezione dimostrano la sua superiorità. Notevolmente, GuardReasoner 8B supera GPT-4o+CoT del 5,74% e LLaMA Guard 3 8B del 20,84% nel punteggio F1 in media. Rilasciamo i dati di addestramento, il codice e i modelli con diverse scale (1B, 3B, 8B) di GuardReasoner: https://github.com/yueliu1999/GuardReasoner/.
I modelli linguistici di grandi dimensioni (LLM) come l'o1 di OpenAI hanno dimostrato notevoli capacità in complesse attività di ragionamento scalando il calcolo al momento del test e mostrando un pensiero profondo simile a quello umano. Tuttavia, identifichiamo un fenomeno che abbiamo definito sottopensiero, in cui i LLM simili all'o1 passano frequentemente tra diversi pensieri di ragionamento senza esplorare sufficientemente percorsi promettenti per raggiungere una soluzione corretta. Questo comportamento porta a una profondità di ragionamento inadeguata e a una diminuzione delle prestazioni, in particolare su problemi matematici impegnativi. Per analizzare sistematicamente questo problema, conduciamo esperimenti su tre set di test impegnativi e due modelli open-source rappresentativi simili all'o1, rivelando che il frequente passaggio di pensiero correla con risposte incorrette. Introduciamo una nuova metrica per quantificare il sottopensiero misurando l'efficienza dei token nelle risposte sbagliate. Per affrontare il sottopensiero, proponiamo una strategia di decodifica con penalità per il passaggio di pensiero (TIP) che scoraggia le transizioni premature tra i pensieri, incoraggiando un'esplorazione più approfondita di ciascun percorso di ragionamento. I risultati sperimentali dimostrano che il nostro approccio migliora l'accuratezza attraverso set di dati impegnativi senza richiedere un raffinamento del modello. Le nostre scoperte contribuiscono a comprendere le inefficienze di ragionamento nei LLM simili all'o1 e offrono una soluzione pratica per potenziarne le capacità di risoluzione dei problemi.
L'addestramento dei grandi modelli linguistici (LLM) è tipicamente distribuito su un gran numero di acceleratori per ridurre il tempo di addestramento. Poiché gli stati interni e i gradienti dei parametri devono essere scambiati ad ogni singolo passo di gradiente, tutti i dispositivi devono essere collocati insieme utilizzando collegamenti di comunicazione a bassa latenza ad alta larghezza di banda per supportare l'alto volume di bit scambiati richiesto. Recentemente, algoritmi distribuiti come DiLoCo hanno allentato tale vincolo di co-locazione: gli acceleratori possono essere raggruppati in "worker", dove le sincronizzazioni tra i worker avvengono solo raramente. Ciò significa a sua volta che i worker possono permettersi di essere collegati da collegamenti di comunicazione a larghezza di banda inferiore senza influire sulla qualità dell'apprendimento. Tuttavia, in questi metodi, la comunicazione tra i worker richiede comunque la stessa larghezza di banda massima di prima, poiché le sincronizzazioni richiedono lo scambio di tutti i parametri tra tutti i worker. In questo articolo, miglioriamo DiLoCo in tre modi. Primo, sincronizziamo solo sottoinsiemi di parametri in sequenza, anziché tutti contemporaneamente, riducendo notevolmente la larghezza di banda massima. Secondo, permettiamo ai worker di continuare l'addestramento durante la sincronizzazione, riducendo il tempo effettivo. Terzo, quantizziamo i dati scambiati dai worker, riducendo ulteriormente la larghezza di banda tra i worker. Combinando correttamente queste modifiche, dimostriamo sperimentalmente di poter distribuire l'addestramento di parametri su scala di miliardi e raggiungere una qualità simile a prima, riducendo la larghezza di banda richiesta di due ordini di grandezza.
L'irruzione di DeepSeek-R1 costituisce un punto di svolta per l'industria dell'IA in generale e in particolare per i LLM. Le sue capacità hanno dimostrato prestazioni eccezionali in diverse attività, tra cui pensiero creativo, generazione di codice, matematica e riparazione automatica di programmi, a un costo di esecuzione apparentemente inferiore. Tuttavia, i LLM devono attenersi a una importante proprietà qualitativa, ovvero il loro allineamento con la sicurezza e i valori umani. Un chiaro concorrente di DeepSeek-R1 è il suo omologo americano, il modello o3-mini di OpenAI, ci si aspetta che stabilisca elevati standard in termini di prestazioni, sicurezza e costo. In questo articolo conduciamo una valutazione sistematica del livello di sicurezza di entrambi, DeepSeek-R1 (versione 70b) e o3-mini di OpenAI (versione beta). A tal fine, facciamo uso del nostro strumento di test di sicurezza automatizzato, denominato ASTRAL, recentemente rilasciato. Sfruttando questo strumento, generiamo ed eseguiamo automaticamente e sistematicamente un totale di 1260 input di test non sicuri su entrambi i modelli. Dopo aver condotto una valutazione semi-automatica dei risultati forniti dai due LLM, i risultati indicano che DeepSeek-R1 è altamente non sicuro rispetto a o3-mini di OpenAI. Sulla base della nostra valutazione, DeepSeek-R1 ha risposto in modo non sicuro al 11,98% dei prompt eseguiti, mentre o3-mini solo al 1,19%.
I Large Language Models hanno sviluppato molte capacità intellettuali. Sebbene numerosi benchmark valutino la loro intelligenza, è stata data poca attenzione alla loro capacità di esplorare, una capacità essenziale per scoprire nuove informazioni e adattarsi a ambienti nuovi sia nei sistemi naturali che artificiali. Resta poco chiaro fino a che punto i LLM possano esplorare efficacemente, specialmente in compiti aperti. Questo studio indaga se i LLM possano superare gli esseri umani nell'esplorazione durante un compito aperto, utilizzando Little Alchemy 2 come paradigma, dove gli agenti combinano elementi per scoprirne di nuovi. I risultati mostrano che la maggior parte dei LLM ha prestazioni inferiori rispetto agli esseri umani, ad eccezione del modello o1, con quei LLM tradizionali che si basano principalmente su strategie guidate dall'incertezza, a differenza degli esseri umani che bilanciano incertezza ed empowerment. L'analisi rappresentazionale dei modelli con Sparse Autoencoder ha rivelato che l'incertezza e le scelte sono rappresentate nei primi blocchi trasformatore, mentre i valori di empowerment sono elaborati successivamente, causando ai LLM di pensare troppo velocemente e prendere decisioni premature, ostacolando un'esplorazione efficace. Questi risultati mettono in luce i limiti dell'esplorazione dei LLM e suggeriscono direzioni per migliorarne l'adattabilità.
Presentiamo MedXpertQA, una sfida altamente impegnativa e completa per valutare conoscenze mediche di livello esperto e ragionamento avanzato. MedXpertQA include 4.460 domande che coprono 17 specializzazioni e 11 sistemi corporei. Comprende due sottoinsiemi, Testo per valutazione testuale e MM per valutazione multimodale. In particolare, MM introduce domande d'esame di livello esperto con immagini diverse e ricche informazioni cliniche, incluse cartelle cliniche e risultati di esami, distinguendosi dai tradizionali benchmark medici multimodali con semplici coppie di domande e risposte generate da didascalie di immagini. MedXpertQA applica un filtraggio rigoroso e un'augmentazione per affrontare la scarsa difficoltà dei benchmark esistenti come MedQA, e incorpora domande di esami specialistici per migliorare la rilevanza clinica e la completezza. Effettuiamo una sintesi dei dati per mitigare il rischio di fuga di dati e conduciamo diverse fasi di revisioni da parte di esperti per garantire accuratezza e affidabilità. Valutiamo 16 modelli leader su MedXpertQA. Inoltre, la medicina è profondamente legata alla presa di decisioni nel mondo reale, fornendo un contesto ricco e rappresentativo per valutare abilità di ragionamento al di là della matematica e del codice. A tal fine, sviluppiamo un sottoinsieme orientato al ragionamento per agevolare la valutazione di modelli simili a o1.
Il post-addestramento del modello linguistico (LLM), dalla DPO alla distillazione, può perfezionare comportamenti e sbloccare nuove abilità, ma la scienza aperta che supporta queste tecniche di post-addestramento è ancora agli inizi. Un fattore limitante è stata la difficoltà di condurre analisi comparative su larga scala di modelli generativi di dati sintetici e giudici LLM. Per colmare questa lacuna, presentiamo WILDCHAT-50M, il più grande dataset pubblico di chat ad oggi. Estendiamo l'esistente dataset WildChat includendo risposte non solo da GPT, ma da oltre 50 diversi modelli open-weight, con dimensioni comprese tra 0,5 miliardi e 104 miliardi di parametri. Conduciamo un'ampia analisi comparativa e dimostriamo il potenziale di questo dataset creando RE-WILD, il nostro mix pubblico SFT, che supera il recente mix SFT Tulu-3 di Allen AI con solo il 40% dei campioni. Il nostro dataset, campioni e codice sono disponibili su https://github.com/penfever/wildchat-50m.
Questo articolo presenta SANA-1.5, un Transformer lineare a diffusione per un'efficace scalabilità nella generazione di testo-immagine. Basandoci su SANA-1.0, introduciamo tre innovazioni chiave: (1) Scalabilità dell'addestramento efficiente: un paradigma di crescita della profondità che consente la scalabilità da 1,6 miliardi a 4,8 miliardi di parametri con una significativa riduzione delle risorse computazionali, combinato con un ottimizzatore efficiente a 8 bit. (2) Potatura della profondità del modello: una tecnica di analisi dell'importanza dei blocchi per una compressione efficiente del modello a dimensioni arbitrarie con minima perdita di qualità. (3) Scalabilità al momento dell'inferezza: una strategia di campionamento ripetuto che scambia la computazione per la capacità del modello, consentendo ai modelli più piccoli di eguagliare la qualità dei modelli più grandi al momento dell'inferezza. Attraverso queste strategie, SANA-1.5 raggiunge un punteggio di allineamento testo-immagine di 0,72 su GenEval, che può essere ulteriormente migliorato a 0,80 attraverso la scalabilità dell'inferezza, stabilendo un nuovo SoTA sul benchmark GenEval. Queste innovazioni consentono una scalabilità efficiente del modello attraverso diversi budget di calcolo mantenendo un'alta qualità, rendendo la generazione di immagini di alta qualità più accessibile.
Comprendere il mondo fisico è una sfida fondamentale nell'ambito dell'IA incorporata, essenziale per consentire agli agenti di svolgere compiti complessi e operare in modo sicuro negli ambienti reali. Sebbene i Modelli Visione-Linguaggio (VLM) abbiano dimostrato un grande potenziale nel ragionamento e nella pianificazione delle attività per agenti incorporati, la loro capacità di comprendere i fenomeni fisici rimane estremamente limitata. Per colmare questa lacuna, presentiamo PhysBench, un benchmark completo progettato per valutare la capacità di comprensione del mondo fisico dei VLM attraverso una vasta gamma di compiti. PhysBench contiene 10.002 voci di dati video-immagine-testo intercalati, suddivisi in quattro principali domini: proprietà degli oggetti fisici, relazioni tra oggetti fisici, comprensione della scena fisica e dinamiche basate sulla fisica, ulteriormente suddivisi in 19 sottoclassi e 8 dimensioni di capacità distinte. I nostri ampi esperimenti, condotti su 75 VLM rappresentativi, rivelano che mentre questi modelli eccellono nel ragionamento di buon senso, faticano a comprendere il mondo fisico, probabilmente a causa dell'assenza di conoscenze fisiche nei dati di addestramento e della mancanza di priorità fisiche incorporate. Per affrontare questa carenza, presentiamo PhysAgent, un nuovo framework che combina i punti di forza della generalizzazione dei VLM con l'esperienza specializzata dei modelli di visione, migliorando significativamente la comprensione fisica dei VLM su una varietà di compiti, inclusi un miglioramento del 18,4\% su GPT-4o. Inoltre, i nostri risultati dimostrano che potenziare le capacità di comprensione del mondo fisico dei VLM può aiutare agenti incorporati come MOKA. Riteniamo che PhysBench e PhysAgent offrano preziose intuizioni e contribuiscano a colmare il divario tra i VLM e la comprensione del mondo fisico.
Mentre gran parte del lavoro sugli agenti web sottolinea la promessa di svolgere autonomamente compiti per conto degli utenti, nella realtà gli agenti spesso non riescono a completare compiti complessi in contesti reali e a modellare le preferenze degli utenti. Questo offre un'opportunità per gli esseri umani di collaborare con l'agente e sfruttare efficacemente le sue capacità. Proponiamo CowPilot, un framework che supporta la navigazione web autonoma e collaborativa tra umani e agenti, con valutazioni basate sul successo e sull'efficienza dei compiti. CowPilot riduce il numero di passaggi che gli umani devono compiere consentendo agli agenti di proporre i passaggi successivi, mentre gli utenti possono mettere in pausa, rifiutare o intraprendere azioni alternative. Durante l'esecuzione, gli utenti possono alternare le proprie azioni con quelle dell'agente sovrascrivendo le suggerimenti o riprendendo il controllo dell'agente quando necessario. Abbiamo condotto studi di caso su cinque siti web comuni e abbiamo scoperto che la modalità collaborativa umano-agente raggiunge il tasso di successo più alto, pari al 95%, richiedendo agli umani di completare solo il 15,2% dei passaggi totali. Anche con interventi umani durante l'esecuzione del compito, l'agente guida con successo fino alla metà del completamento del compito da solo. CowPilot può essere uno strumento utile per la raccolta di dati e la valutazione degli agenti su diversi siti web, il che riteniamo favorirà la ricerca su come utenti e agenti possano collaborare. Dimostrazioni video sono disponibili su https://oaishi.github.io/cowpilot.html