Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici (LM) post-addestramento con apprendimento per rinforzo (RL) possono potenziare le loro capacità di ragionamento complesso senza un fine-tuning supervisionato, come dimostrato da DeepSeek-R1-Zero. Tuttavia, utilizzare efficacemente l'RL per i LM richiede una significativa parallelizzazione per scalare l'inferenza, il che introduce sfide tecniche non banali (ad esempio, latenza, memoria e affidabilità) insieme a costi finanziari in continua crescita. Presentiamo Swarm sAmpling Policy Optimization (SAPO), un algoritmo di post-addestramento RL completamente decentralizzato e asincrono. SAPO è progettato per reti decentralizzate di nodi di calcolo eterogenei, dove ogni nodo gestisce i propri modelli di policy mentre "condivide" i rollout con altri nella rete; non sono richieste ipotesi esplicite su latenza, omogeneità del modello o hardware, e i nodi possono operare in isolamento se desiderato. Di conseguenza, l'algoritmo evita i comuni colli di bottiglia nella scalabilità del post-addestramento RL, consentendo (e persino incoraggiando) nuove possibilità. Campionando i rollout "condivisi" attraverso la rete, permette ai "momenti di intuizione" di propagarsi, avviando così il processo di apprendimento. In questo articolo mostriamo che SAPO ha ottenuto guadagni cumulativi di ricompensa fino al 94% in esperimenti controllati. Condividiamo anche approfondimenti derivati da test su una rete con migliaia di nodi contribuiti dai membri della comunità Gensyn, che hanno eseguito l'algoritmo su hardware e modelli diversi durante una demo open-source.
Il pensiero parallelo è emerso come un approccio innovativo per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM) esplorando contemporaneamente percorsi di ragionamento multipli. Tuttavia, attivare tali capacità attraverso l'addestramento rimane una sfida, poiché i metodi esistenti si basano principalmente su un fine-tuning supervisionato (SFT) su dati sintetici, che favorisce l'imitazione forzata dall'insegnante piuttosto che l'esplorazione e la generalizzazione. Diversamente, proponiamo Parallel-R1, il primo framework di apprendimento per rinforzo (RL) che abilita comportamenti di pensiero parallelo per compiti di ragionamento complessi nel mondo reale. Il nostro framework utilizza un curriculum progressivo che affronta esplicitamente il problema del cold-start nell'addestramento del pensiero parallelo con RL. Inizialmente, utilizziamo l'SFT su traiettorie generate da prompt per compiti più semplici per instillare la capacità di pensiero parallelo, per poi passare all'RL per esplorare e generalizzare questa abilità su problemi più difficili. Esperimenti su vari benchmark matematici, tra cui MATH, AMC23 e AIME, dimostrano che Parallel-R1 instilla con successo il pensiero parallelo, portando a un miglioramento dell'8,4% nell'accuratezza rispetto al modello di pensiero sequenziale addestrato direttamente su compiti impegnativi con RL. Un'analisi più approfondita rivela un chiaro cambiamento nel comportamento di pensiero del modello: in una fase iniziale, utilizza il pensiero parallelo come strategia di esplorazione, mentre in una fase successiva sfrutta la stessa capacità per una verifica multi-prospettica. Ancora più significativamente, validiamo il pensiero parallelo come un'impalcatura di esplorazione a metà addestramento, dove questa fase esplorativa temporanea sblocca un limite di prestazioni più elevato dopo l'RL, ottenendo un miglioramento del 42,9% rispetto alla baseline su AIME25. Il nostro modello, i dati e il codice saranno open-source su https://github.com/zhengkid/Parallel-R1.
I modelli linguistici multimodali di grandi dimensioni (MLLM) addestrati con il tuning basato su istruzioni visive hanno ottenuto prestazioni solide in una vasta gamma di compiti, ma rimangono limitati in attività centrate sulla visione, come il conteggio di oggetti o il ragionamento spaziale. Attribuiamo questo divario al paradigma di supervisione basato esclusivamente sul testo, che fornisce solo una guida indiretta per il percorso visivo e spesso porta gli MLLM a scartare dettagli visivi di fine granularità durante l'addestramento. In questo articolo, presentiamo VIsual Representation ALignment (VIRAL), una strategia di regolarizzazione semplice ma efficace che allinea le rappresentazioni visive interne degli MLLM con quelle di modelli di fondazione visiva (VFM) pre-addestrati. Applicando esplicitamente questo allineamento, VIRAL consente al modello non solo di conservare dettagli visivi critici dall'encoder visivo di input, ma anche di integrare ulteriori conoscenze visive dai VFM, migliorando così la sua capacità di ragionare su input visivi complessi. I nostri esperimenti dimostrano miglioramenti consistenti in tutti i compiti su benchmark multimodali ampiamente adottati. Inoltre, conduciamo studi di ablazione completi per validare le scelte progettuali chiave alla base del nostro framework. Crediamo che questa semplice scoperta apra una direzione importante per l'integrazione efficace delle informazioni visive nell'addestramento degli MLLM.
I recenti progressi nei modelli multimodali di grandi dimensioni hanno sfruttato strumenti basati su immagini con apprendimento per rinforzo per affrontare problemi visivi. Tuttavia, gli approcci open-source esistenti spesso presentano schemi di ragionamento monotoni e consentono solo un numero limitato di interazioni, rendendoli inadeguati per compiti difficili che richiedono esplorazione per tentativi ed errori. In questo lavoro, affrontiamo questa limitazione aumentando le interazioni basate su strumenti e introduciamo Mini-o3, un sistema che esegue ragionamenti profondi e multi-turn – che si estendono per decine di passaggi – e raggiunge prestazioni all'avanguardia in compiti di ricerca visiva impegnativi. La nostra ricetta per riprodurre comportamenti in stile OpenAI o3 comprende tre componenti chiave. Innanzitutto, costruiamo il Visual Probe Dataset, una raccolta di migliaia di problemi di ricerca visiva impegnativi progettati per il ragionamento esplorativo. In secondo luogo, sviluppiamo una pipeline iterativa di raccolta dati per ottenere traiettorie di avvio a freddo che mostrano schemi di ragionamento diversificati, inclusi la ricerca in profondità, il tentativo ed errore e il mantenimento degli obiettivi. Terzo, proponiamo una strategia di mascheramento degli over-turn che evita la penalizzazione delle risposte over-turn (quelle che raggiungono il numero massimo di turni) durante l'apprendimento per rinforzo, bilanciando così l'efficienza del tempo di addestramento con la scalabilità del tempo di test. Nonostante l'addestramento con un limite superiore di soli sei turni di interazione, il nostro modello genera traiettorie che si estendono naturalmente a decine di turni durante l'inferenza, con una precisione che migliora all'aumentare del numero di turni. Esperimenti estensivi dimostrano che Mini-o3 produce schemi di ragionamento ricchi e percorsi di pensiero profondi, risolvendo efficacemente problemi di ricerca visiva impegnativi.
I modelli multimodali unificati (UMM) integrano la comprensione e la generazione visiva all'interno di un'unica architettura. Tuttavia, l'addestramento convenzionale si basa su coppie (o sequenze) di immagini e testi le cui descrizioni sono tipicamente scarne e prive di dettagli visivi fini, anche quando utilizzano centinaia di parole per descrivere una semplice immagine. Introduciamo la Ricostruzione Allineata (RecA), un metodo post-addestramento efficiente in termini di risorse che sfrutta gli embedding del codificatore di comprensione visiva come "prompt testuali" densi, fornendo una supervisione ricca senza l'uso di didascalie. Nello specifico, RecA condiziona un UMM sui propri embedding di comprensione visiva e lo ottimizza per ricostruire l'immagine di input con una perdita di ricostruzione auto-supervisionata, riallineando così comprensione e generazione. Nonostante la sua semplicità, RecA è ampiamente applicabile: su UMM basati su autoregressione, autoregressione mascherata e diffusione, migliora costantemente la fedeltà di generazione e modifica. Con sole 27 ore di GPU, il post-addestramento con RecA migliora significativamente le prestazioni di generazione di immagini su GenEval (0.73→0.90) e DPGBench (80.93→88.15), mentre aumenta anche i benchmark di modifica (ImgEdit 3.38→3.75, GEdit 6.94→7.25). È degno di nota che RecA supera modelli open-source molto più grandi e si applica ampiamente a diverse architetture UMM, stabilendosi come una strategia di allineamento post-addestramento efficiente e generale per gli UMM.
L'esecuzione di task condizionati dal linguaggio in ambienti visivi dinamici rimane una sfida centrale nell'AI incarnata. I modelli Vision-Language-Action (VLA) esistenti adottano prevalentemente mappature reattive da stato ad azione, spesso portando a comportamenti miopi e scarsa robustezza in scene dinamiche. In questo articolo, introduciamo F1, un framework VLA preaddestrato che integra la generazione di previsioni visive nel processo decisionale. F1 adotta un'architettura Mixture-of-Transformer con moduli dedicati per la percezione, la generazione di previsioni e il controllo, colmando così il divario tra comprensione, generazione e azioni. Nel suo nucleo, F1 utilizza un meccanismo di previsione a scala successiva per sintetizzare previsioni visive condizionate dall'obiettivo come target di pianificazione espliciti. Prevedendo stati visivi futuri plausibili, F1 riformula la generazione di azioni come un problema di dinamica inversa guidata dalle previsioni, consentendo azioni che raggiungono implicitamente obiettivi visivi. Per dotare F1 di capacità robuste e generalizzabili, proponiamo una ricetta di addestramento in tre fasi su un ampio dataset che comprende oltre 330k traiettorie in 136 task diversi. Questo schema di addestramento migliora il ragionamento modulare e fornisce al modello previsioni visive trasferibili, cruciali per ambienti complessi e dinamici. Valutazioni estensive su task del mondo reale e benchmark di simulazione dimostrano che F1 supera costantemente gli approcci esistenti, ottenendo guadagni sostanziali sia nel tasso di successo dei task che nella capacità di generalizzazione.
L'apprendimento per rinforzo (Reinforcement Learning, RL) si è dimostrato estremamente efficace nel potenziare le capacità di ragionamento complesso dei Modelli Linguistici di Grande Scala (Large Language Models, LLMs), tuttavia i meccanismi sottostanti che guidano questo successo rimangono in gran parte oscuri. La nostra analisi rivela che fenomeni intriganti come i "momenti di intuizione", lo "scaling della lunghezza" e la dinamica dell'entropia non sono eventi isolati, ma segni distintivi di una gerarchia di ragionamento emergente, simile alla separazione tra pianificazione strategica di alto livello ed esecuzione procedurale di basso livello nella cognizione umana. Scopriamo una dinamica affascinante in due fasi: inizialmente, un modello è vincolato dalla correttezza procedurale e deve migliorare le sue abilità di basso livello. Il collo di bottiglia dell'apprendimento si sposta poi decisamente, con i guadagni di prestazioni guidati dall'esplorazione e dalla padronanza della pianificazione strategica di alto livello. Questa intuizione rivela un'inefficienza fondamentale negli algoritmi RL prevalenti come GRPO, che applicano pressione di ottimizzazione in modo agnostico e diluiscono il segnale di apprendimento su tutti i token. Per affrontare questo problema, proponiamo HIerarchy-Aware Credit Assignment (HICRA), un algoritmo che concentra gli sforzi di ottimizzazione sui token di pianificazione ad alto impatto. HICRA supera significativamente i baseline robusti, dimostrando che focalizzarsi su questo collo di bottiglia strategico è fondamentale per sbloccare un ragionamento avanzato. Inoltre, convalidiamo l'entropia semantica come una bussola superiore per misurare l'esplorazione strategica rispetto a metriche fuorvianti come l'entropia a livello di token.
I recenti progressi nella personalizzazione delle immagini mostrano un'ampia gamma di prospettive applicative grazie a capacità di personalizzazione più avanzate. Tuttavia, poiché noi esseri umani siamo più sensibili ai volti, rimane una sfida significativa nel preservare un'identità coerente evitando al contempo la confusione di identità con immagini multi-riferimento, limitando così la scalabilità dell'identità nei modelli di personalizzazione. Per affrontare questo problema, presentiamo UMO, un framework di Unified Multi-identity Optimization, progettato per mantenere un'elevata fedeltà nella preservazione dell'identità e alleviare la confusione di identità con scalabilità. Con il paradigma del "multi-to-multi matching", UMO riformula la generazione multi-identità come un problema di ottimizzazione globale dell'assegnazione e libera la coerenza multi-identità per i metodi esistenti di personalizzazione delle immagini generalmente attraverso l'apprendimento per rinforzo sui modelli di diffusione. Per facilitare l'addestramento di UMO, abbiamo sviluppato un dataset di personalizzazione scalabile con immagini multi-riferimento, composto sia da parti sintetizzate che reali. Inoltre, proponiamo una nuova metrica per misurare la confusione di identità. Esperimenti estensivi dimostrano che UMO non solo migliora significativamente la coerenza dell'identità, ma riduce anche la confusione di identità su diversi metodi di personalizzazione delle immagini, stabilendo un nuovo stato dell'arte tra i metodi open-source lungo la dimensione della preservazione dell'identità. Codice e modello: https://github.com/bytedance/UMO
I modelli linguistici di grandi dimensioni (LLM) hanno fatto rapidi progressi negli ultimi anni, grazie alla scala, all'abbondanza di dati di addestramento di alta qualità e all'apprendimento per rinforzo. Tuttavia, questo progresso si scontra con un collo di bottiglia fondamentale: la necessità di sempre più dati da cui i modelli possano continuare a imparare. In questo lavoro, proponiamo un approccio di apprendimento per rinforzo che elimina questa dipendenza, consentendo ai modelli di migliorare senza dati aggiuntivi. Il nostro metodo sfrutta un framework di teoria dei giochi basato sull'auto-gioco, in cui le capacità di un modello sono rappresentate come prestazioni in un gioco competitivo e politiche più forti emergono facendo giocare il modello contro se stesso - un processo che chiamiamo Language Self-Play (LSP). Esperimenti con Llama-3.2-3B-Instruct su benchmark di seguimento delle istruzioni dimostrano che i modelli pre-addestrati non solo possono migliorare le loro prestazioni su compiti complessi solo attraverso l'auto-gioco, ma possono farlo in modo più efficace rispetto ai baseline basati sui dati.
Nell'attenzione causale standard, la query, la chiave e il valore (QKV) di ciascun token sono statici e codificano solo il contesto precedente. Introduciamo CAuSal aTtention with Lookahead kEys (CASTLE), un meccanismo di attenzione che aggiorna continuamente le chiavi di ciascun token man mano che il contesto si sviluppa. Definiamo queste chiavi aggiornate come chiavi di lookahead perché appartengono a posizioni precedenti ma integrano informazioni provenienti da token che appaiono successivamente rispetto a quelle posizioni, preservando rigorosamente la proprietà autoregressiva. Sebbene il meccanismo appaia sequenziale, deriviamo un'equivalenza matematica che evita di materializzare esplicitamente le chiavi di lookahead in ciascuna posizione e consente un addestramento parallelo efficiente. Su benchmark di modellazione del linguaggio, CASTLE supera costantemente l'attenzione causale standard su diverse scale di modelli, riducendo la perplessità di validazione e migliorando le prestazioni su una gamma di task downstream.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha ottenuto un successo notevole nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, i metodi RLVR esistenti spesso soffrono di inefficienza nell'esplorazione a causa di disallineamenti tra la difficoltà dei dati di addestramento e le capacità del modello. Gli LLM non riescono a scoprire percorsi di ragionamento validi quando i problemi sono eccessivamente difficili, mentre apprendono poche nuove capacità quando i problemi sono troppo semplici. In questo lavoro, formalizziamo l'impatto della difficoltà dei problemi quantificando la relazione tra la velocità di discesa della perdita e l'accuratezza dei rollout. Basandoci su questa analisi, proponiamo SEELE, un nuovo framework RLVR assistito da supervisione che regola dinamicamente la difficoltà dei problemi per rimanere nella regione ad alta efficienza. SEELE arricchisce ogni campione di addestramento aggiungendo un suggerimento (parte di una soluzione completa) dopo il problema originale. A differenza degli approcci basati su suggerimenti precedenti, SEELE regola in modo deliberato e adattivo la lunghezza del suggerimento per ogni problema per raggiungere una difficoltà ottimale. Per determinare la lunghezza ottimale del suggerimento, SEELE utilizza una strategia di campionamento a più round. In ogni round, adatta un modello di teoria della risposta all'item alle coppie accuratezza-suggerimento raccolte nei round precedenti per prevedere la lunghezza del suggerimento richiesta per il round successivo. Questa regolazione della difficoltà a livello di istanza e in tempo reale allinea la difficoltà dei problemi con l'evoluzione delle capacità del modello, migliorando così l'efficienza dell'esplorazione. I risultati sperimentali mostrano che SEELE supera l'ottimizzazione relativa delle politiche di gruppo (GRPO) e il fine-tuning supervisionato (SFT) rispettivamente di +11,8 e +10,5 punti, e supera il miglior approccio assistito da supervisione precedente di +3,6 punti in media su sei benchmark di ragionamento matematico.
L'interpretazione radiologica assistita dall'IA si basa principalmente su modelli ristretti e specializzati in singoli compiti. Questo approccio risulta poco pratico per coprire l'ampio spettro di modalità di imaging, patologie e reperti radiologici. I modelli di base (Foundation Models, FMs) promettono una generalizzazione ampia tra diverse modalità e in contesti con dati limitati. Tuttavia, questo potenziale è rimasto largamente inespresso in radiologia. Presentiamo Curia, un modello di base addestrato sull'intera produzione di imaging trasversale di un importante ospedale nell'arco di diversi anni, che rappresenta, a nostra conoscenza, il più grande corpus di dati reali di questo tipo, comprendente 150.000 esami (130 TB). Su un nuovo benchmark di validazione esterna composto da 19 task, Curia identifica accuratamente gli organi, rileva condizioni come emorragie cerebrali e infarti miocardici e predice gli esiti nella stadiazione dei tumori. Curia eguaglia o supera le prestazioni dei radiologi e dei recenti modelli di base, dimostrando proprietà emergenti clinicamente significative in contesti cross-modalità e con dati limitati. Per accelerare il progresso, rilasciamo i pesi del nostro modello base su https://huggingface.co/raidium/curia.
Studi recenti hanno dimostrato l'efficacia dell'allineamento diretto dei modelli di diffusione con le preferenze umane utilizzando ricompense differenziabili. Tuttavia, questi approcci presentano due principali sfide: (1) si basano su un processo di denoising multistep con calcolo del gradiente per la valutazione delle ricompense, che è computazionalmente costoso, limitando così l'ottimizzazione a pochi passi di diffusione; (2) spesso richiedono un adattamento offline continuo dei modelli di ricompensa per raggiungere la qualità estetica desiderata, come il fotorealismo o effetti di illuminazione precisi. Per affrontare la limitazione del denoising multistep, proponiamo Direct-Align, un metodo che predefinisce un rumore per recuperare efficacemente le immagini originali da qualsiasi passo temporale tramite interpolazione, sfruttando l'equazione secondo cui gli stati di diffusione sono interpolazioni tra rumore e immagini target, evitando così l'over-optimizzazione nei passi temporali avanzati. Inoltre, introduciamo l'ottimizzazione delle preferenze relative semantiche (Semantic Relative Preference Optimization, SRPO), in cui le ricompense sono formulate come segnali condizionati da testo. Questo approccio consente un aggiustamento online delle ricompense in risposta a un aumento positivo e negativo dei prompt, riducendo così la dipendenza dalla messa a punto offline delle ricompense. Ottimizzando il modello FLUX.1.dev con il denoising ottimizzato e l'aggiustamento online delle ricompense, abbiamo migliorato il suo realismo e qualità estetica valutati da esseri umani di oltre 3 volte.
Presentiamo SimpleQA Verified, un benchmark di 1.000 prompt per valutare la fattualità in forma breve dei Modelli Linguistici di Grande Dimensione (LLM) basato su SimpleQA di OpenAI. Questo strumento affronta limitazioni critiche del benchmark di OpenAI, tra cui etichette rumorose e imprecise, bias tematici e ridondanza delle domande. SimpleQA Verified è stato creato attraverso un rigoroso processo di filtraggio in più fasi, che include deduplicazione, bilanciamento tematico e riconciliazione delle fonti, per produrre un set di valutazione più affidabile e impegnativo, insieme a miglioramenti nel prompt dell'autorater. Su questo nuovo benchmark, Gemini 2.5 Pro raggiunge un punteggio F1 all'avanguardia di 55.6, superando altri modelli di frontiera, incluso GPT-5. Questo lavoro fornisce alla comunità di ricerca uno strumento di maggiore fedeltà per monitorare i progressi genuini nella fattualità dei modelli parametrici e per mitigare le allucinazioni. Il dataset del benchmark, il codice di valutazione e la classifica sono disponibili al seguente indirizzo: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
I modelli di diffusione text-to-image sono computazionalmente intensivi, richiedendo spesso dozzine di passaggi in avanti attraverso grandi architetture transformer. Ad esempio, Stable Diffusion XL genera immagini di alta qualità con 50 valutazioni di un modello da 2,6 miliardi di parametri, un processo costoso anche per un singolo batch. I modelli di diffusione a pochi passi riducono questo costo a 2-8 step di denoising, ma dipendono comunque da grandi backbone U-Net o transformer di diffusione non compressi, spesso troppo costosi per l'inferenza a precisione completa senza GPU da datacenter. Questi requisiti limitano anche i metodi esistenti di quantizzazione post-addestramento che si basano sulla calibrazione a precisione completa. Introduciamo Q-Sched, un nuovo paradigma per la quantizzazione post-addestramento che modifica lo scheduler del modello di diffusione anziché i pesi del modello. Regolando la traiettoria di campionamento a pochi passi, Q-Sched raggiunge l'accuratezza a precisione completa con una riduzione di 4x delle dimensioni del modello. Per apprendere i coefficienti di pre-condizionamento consapevoli della quantizzazione, proponiamo la loss JAQ, che combina la compatibilità testo-immagine con una metrica di qualità dell'immagine per un'ottimizzazione fine. JAQ è reference-free e richiede solo una manciata di prompt di calibrazione, evitando l'inferenza a precisione completa durante la calibrazione. Q-Sched offre miglioramenti sostanziali: un miglioramento del 15,5% nell'FID rispetto al Latent Consistency Model a 4 passi in FP16 e un miglioramento del 16,6% rispetto al Phased Consistency Model a 8 passi in FP16, dimostrando che la quantizzazione e la distillazione a pochi passi sono complementari per la generazione ad alta fedeltà. Uno studio su larga scala con oltre 80.000 annotazioni conferma ulteriormente l'efficacia di Q-Sched sia su FLUX.1[schnell] che su SDXL-Turbo.
Proponiamo la Normalizzazione Delta L, un metodo semplice ma efficace per l'aggregazione della perdita, progettato specificamente per le caratteristiche delle lunghezze di generazione dinamica nel Reinforcement Learning con Ricompense Verificabili (RLVR). Recentemente, l'RLVR ha dimostrato un forte potenziale nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM), ma una delle principali sfide risiede nella grande variabilità delle lunghezze delle risposte durante l'addestramento, che porta a un'elevata varianza del gradiente e a un'ottimizzazione instabile. Sebbene metodi precedenti come GRPO, DAPO e Dr. GRPO abbiano introdotto diversi termini di normalizzazione della perdita per affrontare questo problema, essi producono stime distorte o continuano a soffrire di un'elevata varianza del gradiente. Analizzando l'effetto delle lunghezze variabili sulla perdita della politica sia teoricamente che empiricamente, riformuliamo il problema come la ricerca di uno stimatore imparziale a varianza minima. La nostra proposta di Normalizzazione Delta L non solo fornisce una stima imparziale della vera perdita della politica, ma minimizza anche la varianza del gradiente in teoria. Esperimenti estensivi dimostrano che ottiene costantemente risultati superiori su diverse dimensioni del modello, lunghezze massime e compiti. Il nostro codice sarà reso pubblico all'indirizzo https://github.com/zerolllin/Delta-L-Normalization.
Man mano che i sistemi di intelligenza artificiale generativa diventano competenti e democratizzati nella scienza, negli affari e nel governo, una comprensione più profonda delle loro modalità di fallimento rappresenta ora un'esigenza urgente. L'occasionale volatilità nel loro comportamento, come la propensione dei modelli transformer a produrre allucinazioni, ostacola la fiducia e l'adozione delle soluzioni AI emergenti in ambiti ad alto rischio. Nel presente lavoro, stabiliamo come e quando le allucinazioni si manifestano nei modelli transformer pre-addestrati attraverso rappresentazioni concettuali catturate da autoencoder sparsi, in scenari con incertezza sperimentalmente controllata nello spazio di input. I nostri esperimenti sistematici rivelano che il numero di concetti semantici utilizzati dal modello transformer cresce man mano che le informazioni di input diventano sempre più non strutturate. Di fronte a una crescente incertezza nello spazio di input, il modello transformer diventa incline ad attivare caratteristiche semantiche coerenti ma insensibili all'input, portando a un output allucinato. All'estremo, per input di puro rumore, identifichiamo una vasta gamma di concetti significativi e robustamente attivati nelle attivazioni intermedie dei modelli transformer pre-addestrati, la cui integrità funzionale confermiamo attraverso un controllo mirato. Mostriamo inoltre che le allucinazioni nell'output di un modello transformer possono essere previste in modo affidabile dai modelli concettuali incorporati nelle attivazioni degli strati transformer. Questa raccolta di intuizioni sulla meccanica interna di elaborazione dei transformer ha immediate conseguenze per l'allineamento dei modelli AI con i valori umani, la sicurezza dell'AI, l'apertura della superficie di attacco per potenziali attacchi avversari e la fornitura di una base per la quantificazione automatica del rischio di allucinazione di un modello.
I modelli linguistici di grandi dimensioni (LLM) sono strumenti incredibili e versatili per attività basate sul testo che hanno abilitato innumerevoli applicazioni precedentemente inimmaginabili. Al contrario, i modelli di retrieval non hanno ancora visto emergere modelli general-purpose altrettanto capaci. Per raggiungere questo obiettivo, i modelli di retrieval devono essere in grado di eseguire compiti di retrieval complessi, in cui le query contengono più parti, vincoli o requisiti espressi in linguaggio naturale. Questi compiti rappresentano una progressione naturale rispetto alle query semplici e monodimensionali utilizzate nella stragrande maggioranza degli insiemi di valutazione esistenti e comunemente usati. Le query complesse sorgono naturalmente man mano che le persone si aspettano che i sistemi di ricerca gestiscano richieste di informazioni più specifiche e spesso ambiziose, come dimostrato dall'uso che le persone fanno dei sistemi informativi basati su LLM. Nonostante il crescente desiderio che i modelli di retrieval espandano le loro capacità nei compiti di retrieval complessi, esistono risorse limitate per valutare l'abilità dei modelli di retrieval su un insieme completo di compiti complessi e diversificati. Le poche risorse esistenti presentano un ambito limitato e spesso mancano di impostazioni realistiche, rendendo difficile conoscere le vere capacità dei modelli di retrieval nei compiti di retrieval complessi del mondo reale. Per affrontare questa carenza e stimolare l'innovazione nei modelli di retrieval di prossima generazione, costruiamo un insieme diversificato e realistico di compiti di retrieval complessi e valutiamo un insieme rappresentativo di modelli di retrieval all'avanguardia. Inoltre, esploriamo l'impatto dell'espansione e della riscrittura delle query basate su LLM sulla qualità del retrieval. I nostri risultati mostrano che anche i migliori modelli faticano a produrre risultati di retrieval di alta qualità, con un nDCG@10 medio massimo di soli 0,346 e un R@100 di soli 0,587 su tutti i compiti. Sebbene l'aumentazione basata su LLM possa aiutare i modelli più deboli, il modello più forte ha una riduzione delle prestazioni su tutte le metriche con tutte le tecniche di riscrittura.