HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

GuardReasoner: Verso le Protezioni LLM basate sul Ragionamento
GuardReasoner: Towards Reasoning-based LLM Safeguards

Jan 30

ByYue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi

Man mano che i LLM (Large Language Models) influenzano sempre di più le applicazioni critiche per la sicurezza, garantirne l'affidabilità mediante l'uso di guide rimane una sfida chiave. Questo articolo propone GuardReasoner, una nuova protezione per i LLM, guidando il modello di protezione nell'apprendimento del ragionamento. Concretamente, creiamo innanzitutto il dataset GuardReasonerTrain, che comprende 127.000 campioni con 460.000 passaggi di ragionamento dettagliati. Successivamente, introduciamo SFT di ragionamento per sbloccare la capacità di ragionamento dei modelli di protezione. Inoltre, presentiamo DPO di campioni difficili per rafforzare ulteriormente la loro capacità di ragionamento. In questo modo, GuardReasoner ottiene migliori prestazioni, spiegabilità e generalizzabilità. Estesi esperimenti e analisi su 13 benchmark di 3 compiti di protezione dimostrano la sua superiorità. Notevolmente, GuardReasoner 8B supera GPT-4o+CoT del 5,74% e LLaMA Guard 3 8B del 20,84% nel punteggio F1 in media. Rilasciamo i dati di addestramento, il codice e i modelli con diverse scale (1B, 3B, 8B) di GuardReasoner: https://github.com/yueliu1999/GuardReasoner/.

I Pensieri Sono Ovunque: Sull'Insufficiente Riflessione dei LLM simili a o1
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

Jan 30

ByYue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

I modelli linguistici di grandi dimensioni (LLM) come l'o1 di OpenAI hanno dimostrato notevoli capacità in complesse attività di ragionamento scalando il calcolo al momento del test e mostrando un pensiero profondo simile a quello umano. Tuttavia, identifichiamo un fenomeno che abbiamo definito sottopensiero, in cui i LLM simili all'o1 passano frequentemente tra diversi pensieri di ragionamento senza esplorare sufficientemente percorsi promettenti per raggiungere una soluzione corretta. Questo comportamento porta a una profondità di ragionamento inadeguata e a una diminuzione delle prestazioni, in particolare su problemi matematici impegnativi. Per analizzare sistematicamente questo problema, conduciamo esperimenti su tre set di test impegnativi e due modelli open-source rappresentativi simili all'o1, rivelando che il frequente passaggio di pensiero correla con risposte incorrette. Introduciamo una nuova metrica per quantificare il sottopensiero misurando l'efficienza dei token nelle risposte sbagliate. Per affrontare il sottopensiero, proponiamo una strategia di decodifica con penalità per il passaggio di pensiero (TIP) che scoraggia le transizioni premature tra i pensieri, incoraggiando un'esplorazione più approfondita di ciascun percorso di ragionamento. I risultati sperimentali dimostrano che il nostro approccio migliora l'accuratezza attraverso set di dati impegnativi senza richiedere un raffinamento del modello. Le nostre scoperte contribuiscono a comprendere le inefficienze di ragionamento nei LLM simili all'o1 e offrono una soluzione pratica per potenziarne le capacità di risoluzione dei problemi.

Streaming DiLoCo con comunicazione sovrapposta: Verso un Pranzo Gratuito Distribuito
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

Jan 30

ByArthur Douillard, Yanislav Donchev, Keith Rush, Satyen Kale, Zachary Charles, Zachary Garrett, Gabriel Teston, Dave Lacey, Ross McIlroy, Jiajun Shen, Alexandre Ramé, Arthur Szlam, Marc'Aurelio Ranzato, Paul Barham

L'addestramento dei grandi modelli linguistici (LLM) è tipicamente distribuito su un gran numero di acceleratori per ridurre il tempo di addestramento. Poiché gli stati interni e i gradienti dei parametri devono essere scambiati ad ogni singolo passo di gradiente, tutti i dispositivi devono essere collocati insieme utilizzando collegamenti di comunicazione a bassa latenza ad alta larghezza di banda per supportare l'alto volume di bit scambiati richiesto. Recentemente, algoritmi distribuiti come DiLoCo hanno allentato tale vincolo di co-locazione: gli acceleratori possono essere raggruppati in "worker", dove le sincronizzazioni tra i worker avvengono solo raramente. Ciò significa a sua volta che i worker possono permettersi di essere collegati da collegamenti di comunicazione a larghezza di banda inferiore senza influire sulla qualità dell'apprendimento. Tuttavia, in questi metodi, la comunicazione tra i worker richiede comunque la stessa larghezza di banda massima di prima, poiché le sincronizzazioni richiedono lo scambio di tutti i parametri tra tutti i worker. In questo articolo, miglioriamo DiLoCo in tre modi. Primo, sincronizziamo solo sottoinsiemi di parametri in sequenza, anziché tutti contemporaneamente, riducendo notevolmente la larghezza di banda massima. Secondo, permettiamo ai worker di continuare l'addestramento durante la sincronizzazione, riducendo il tempo effettivo. Terzo, quantizziamo i dati scambiati dai worker, riducendo ulteriormente la larghezza di banda tra i worker. Combinando correttamente queste modifiche, dimostriamo sperimentalmente di poter distribuire l'addestramento di parametri su scala di miliardi e raggiungere una qualità simile a prima, riducendo la larghezza di banda richiesta di due ordini di grandezza.

o3-mini vs DeepSeek-R1: Quale è più sicuro?
o3-mini vs DeepSeek-R1: Which One is Safer?

Jan 30

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

L'irruzione di DeepSeek-R1 costituisce un punto di svolta per l'industria dell'IA in generale e in particolare per i LLM. Le sue capacità hanno dimostrato prestazioni eccezionali in diverse attività, tra cui pensiero creativo, generazione di codice, matematica e riparazione automatica di programmi, a un costo di esecuzione apparentemente inferiore. Tuttavia, i LLM devono attenersi a una importante proprietà qualitativa, ovvero il loro allineamento con la sicurezza e i valori umani. Un chiaro concorrente di DeepSeek-R1 è il suo omologo americano, il modello o3-mini di OpenAI, ci si aspetta che stabilisca elevati standard in termini di prestazioni, sicurezza e costo. In questo articolo conduciamo una valutazione sistematica del livello di sicurezza di entrambi, DeepSeek-R1 (versione 70b) e o3-mini di OpenAI (versione beta). A tal fine, facciamo uso del nostro strumento di test di sicurezza automatizzato, denominato ASTRAL, recentemente rilasciato. Sfruttando questo strumento, generiamo ed eseguiamo automaticamente e sistematicamente un totale di 1260 input di test non sicuri su entrambi i modelli. Dopo aver condotto una valutazione semi-automatica dei risultati forniti dai due LLM, i risultati indicano che DeepSeek-R1 è altamente non sicuro rispetto a o3-mini di OpenAI. Sulla base della nostra valutazione, DeepSeek-R1 ha risposto in modo non sicuro al 11,98% dei prompt eseguiti, mentre o3-mini solo al 1,19%.

I modelli linguistici di grandi dimensioni pensano troppo velocemente per esplorare in modo efficace.
Large Language Models Think Too Fast To Explore Effectively

Jan 29

ByLan Pan, Hanbo Xie, Robert C. Wilson

I Large Language Models hanno sviluppato molte capacità intellettuali. Sebbene numerosi benchmark valutino la loro intelligenza, è stata data poca attenzione alla loro capacità di esplorare, una capacità essenziale per scoprire nuove informazioni e adattarsi a ambienti nuovi sia nei sistemi naturali che artificiali. Resta poco chiaro fino a che punto i LLM possano esplorare efficacemente, specialmente in compiti aperti. Questo studio indaga se i LLM possano superare gli esseri umani nell'esplorazione durante un compito aperto, utilizzando Little Alchemy 2 come paradigma, dove gli agenti combinano elementi per scoprirne di nuovi. I risultati mostrano che la maggior parte dei LLM ha prestazioni inferiori rispetto agli esseri umani, ad eccezione del modello o1, con quei LLM tradizionali che si basano principalmente su strategie guidate dall'incertezza, a differenza degli esseri umani che bilanciano incertezza ed empowerment. L'analisi rappresentazionale dei modelli con Sparse Autoencoder ha rivelato che l'incertezza e le scelte sono rappresentate nei primi blocchi trasformatore, mentre i valori di empowerment sono elaborati successivamente, causando ai LLM di pensare troppo velocemente e prendere decisioni premature, ostacolando un'esplorazione efficace. Questi risultati mettono in luce i limiti dell'esplorazione dei LLM e suggeriscono direzioni per migliorarne l'adattabilità.

MedXpertQA: Valutazione delle capacità di ragionamento e comprensione medica di livello esperto
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Jan 30

ByYuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou

Presentiamo MedXpertQA, una sfida altamente impegnativa e completa per valutare conoscenze mediche di livello esperto e ragionamento avanzato. MedXpertQA include 4.460 domande che coprono 17 specializzazioni e 11 sistemi corporei. Comprende due sottoinsiemi, Testo per valutazione testuale e MM per valutazione multimodale. In particolare, MM introduce domande d'esame di livello esperto con immagini diverse e ricche informazioni cliniche, incluse cartelle cliniche e risultati di esami, distinguendosi dai tradizionali benchmark medici multimodali con semplici coppie di domande e risposte generate da didascalie di immagini. MedXpertQA applica un filtraggio rigoroso e un'augmentazione per affrontare la scarsa difficoltà dei benchmark esistenti come MedQA, e incorpora domande di esami specialistici per migliorare la rilevanza clinica e la completezza. Effettuiamo una sintesi dei dati per mitigare il rischio di fuga di dati e conduciamo diverse fasi di revisioni da parte di esperti per garantire accuratezza e affidabilità. Valutiamo 16 modelli leader su MedXpertQA. Inoltre, la medicina è profondamente legata alla presa di decisioni nel mondo reale, fornendo un contesto ricco e rappresentativo per valutare abilità di ragionamento al di là della matematica e del codice. A tal fine, sviluppiamo un sottoinsieme orientato al ragionamento per agevolare la valutazione di modelli simili a o1.

WILDCHAT-50M: Un Approfondimento sul Ruolo dei Dati Sintetici nel Post-Training
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Jan 30

ByBenjamin Feuer, Chinmay Hegde

Il post-addestramento del modello linguistico (LLM), dalla DPO alla distillazione, può perfezionare comportamenti e sbloccare nuove abilità, ma la scienza aperta che supporta queste tecniche di post-addestramento è ancora agli inizi. Un fattore limitante è stata la difficoltà di condurre analisi comparative su larga scala di modelli generativi di dati sintetici e giudici LLM. Per colmare questa lacuna, presentiamo WILDCHAT-50M, il più grande dataset pubblico di chat ad oggi. Estendiamo l'esistente dataset WildChat includendo risposte non solo da GPT, ma da oltre 50 diversi modelli open-weight, con dimensioni comprese tra 0,5 miliardi e 104 miliardi di parametri. Conduciamo un'ampia analisi comparativa e dimostriamo il potenziale di questo dataset creando RE-WILD, il nostro mix pubblico SFT, che supera il recente mix SFT Tulu-3 di Allen AI con solo il 40% dei campioni. Il nostro dataset, campioni e codice sono disponibili su https://github.com/penfever/wildchat-50m.

SANA 1.5: Scalabilità efficiente del calcolo del tempo di addestramento e del tempo di inferenza nel Transformer a diffusione lineare
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Jan 30

ByEnze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han

Questo articolo presenta SANA-1.5, un Transformer lineare a diffusione per un'efficace scalabilità nella generazione di testo-immagine. Basandoci su SANA-1.0, introduciamo tre innovazioni chiave: (1) Scalabilità dell'addestramento efficiente: un paradigma di crescita della profondità che consente la scalabilità da 1,6 miliardi a 4,8 miliardi di parametri con una significativa riduzione delle risorse computazionali, combinato con un ottimizzatore efficiente a 8 bit. (2) Potatura della profondità del modello: una tecnica di analisi dell'importanza dei blocchi per una compressione efficiente del modello a dimensioni arbitrarie con minima perdita di qualità. (3) Scalabilità al momento dell'inferezza: una strategia di campionamento ripetuto che scambia la computazione per la capacità del modello, consentendo ai modelli più piccoli di eguagliare la qualità dei modelli più grandi al momento dell'inferezza. Attraverso queste strategie, SANA-1.5 raggiunge un punteggio di allineamento testo-immagine di 0,72 su GenEval, che può essere ulteriormente migliorato a 0,80 attraverso la scalabilità dell'inferezza, stabilendo un nuovo SoTA sul benchmark GenEval. Queste innovazioni consentono una scalabilità efficiente del modello attraverso diversi budget di calcolo mantenendo un'alta qualità, rendendo la generazione di immagini di alta qualità più accessibile.

PhysBench: Valutazione e Miglioramento dei Modelli Visione-Linguaggio per la Comprensione del Mondo Fisico
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Jan 27

ByWei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang

Comprendere il mondo fisico è una sfida fondamentale nell'ambito dell'IA incorporata, essenziale per consentire agli agenti di svolgere compiti complessi e operare in modo sicuro negli ambienti reali. Sebbene i Modelli Visione-Linguaggio (VLM) abbiano dimostrato un grande potenziale nel ragionamento e nella pianificazione delle attività per agenti incorporati, la loro capacità di comprendere i fenomeni fisici rimane estremamente limitata. Per colmare questa lacuna, presentiamo PhysBench, un benchmark completo progettato per valutare la capacità di comprensione del mondo fisico dei VLM attraverso una vasta gamma di compiti. PhysBench contiene 10.002 voci di dati video-immagine-testo intercalati, suddivisi in quattro principali domini: proprietà degli oggetti fisici, relazioni tra oggetti fisici, comprensione della scena fisica e dinamiche basate sulla fisica, ulteriormente suddivisi in 19 sottoclassi e 8 dimensioni di capacità distinte. I nostri ampi esperimenti, condotti su 75 VLM rappresentativi, rivelano che mentre questi modelli eccellono nel ragionamento di buon senso, faticano a comprendere il mondo fisico, probabilmente a causa dell'assenza di conoscenze fisiche nei dati di addestramento e della mancanza di priorità fisiche incorporate. Per affrontare questa carenza, presentiamo PhysAgent, un nuovo framework che combina i punti di forza della generalizzazione dei VLM con l'esperienza specializzata dei modelli di visione, migliorando significativamente la comprensione fisica dei VLM su una varietà di compiti, inclusi un miglioramento del 18,4\% su GPT-4o. Inoltre, i nostri risultati dimostrano che potenziare le capacità di comprensione del mondo fisico dei VLM può aiutare agenti incorporati come MOKA. Riteniamo che PhysBench e PhysAgent offrano preziose intuizioni e contribuiscano a colmare il divario tra i VLM e la comprensione del mondo fisico.

CowPilot: Un Framework per la Navigazione Web Autonoma e Collaborativa tra Umani e Agenti
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Jan 28

ByFaria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig

Mentre gran parte del lavoro sugli agenti web sottolinea la promessa di svolgere autonomamente compiti per conto degli utenti, nella realtà gli agenti spesso non riescono a completare compiti complessi in contesti reali e a modellare le preferenze degli utenti. Questo offre un'opportunità per gli esseri umani di collaborare con l'agente e sfruttare efficacemente le sue capacità. Proponiamo CowPilot, un framework che supporta la navigazione web autonoma e collaborativa tra umani e agenti, con valutazioni basate sul successo e sull'efficienza dei compiti. CowPilot riduce il numero di passaggi che gli umani devono compiere consentendo agli agenti di proporre i passaggi successivi, mentre gli utenti possono mettere in pausa, rifiutare o intraprendere azioni alternative. Durante l'esecuzione, gli utenti possono alternare le proprie azioni con quelle dell'agente sovrascrivendo le suggerimenti o riprendendo il controllo dell'agente quando necessario. Abbiamo condotto studi di caso su cinque siti web comuni e abbiamo scoperto che la modalità collaborativa umano-agente raggiunge il tasso di successo più alto, pari al 95%, richiedendo agli umani di completare solo il 15,2% dei passaggi totali. Anche con interventi umani durante l'esecuzione del compito, l'agente guida con successo fino alla metà del completamento del compito da solo. CowPilot può essere uno strumento utile per la raccolta di dati e la valutazione degli agenti su diversi siti web, il che riteniamo favorirà la ricerca su come utenti e agenti possano collaborare. Dimostrazioni video sono disponibili su https://oaishi.github.io/cowpilot.html

PhysBench: Valutazione e Miglioramento dei Modelli Visione-Linguaggio per la Comprensione del Mondo Fisico
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Jan 27

ByWei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang