Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici incentrati sul ragionamento hanno evidenziato il reinforcement learning (RL) come un metodo promettente per allineare i modelli con ricompense verificabili. Tuttavia, rimane controverso se l'RL espanda veramente le capacità di ragionamento di un modello o si limiti ad amplificare output ad alta ricompensa già latenti nella distribuzione del modello base, e se il continuo aumento del calcolo RL porti in modo affidabile a un miglioramento delle prestazioni di ragionamento. In questo lavoro, sfidiamo le ipotesi prevalenti dimostrando che un addestramento prolungato con RL (ProRL) può scoprire nuove strategie di ragionamento inaccessibili ai modelli base, anche con un campionamento estensivo. Introduciamo ProRL, una nuova metodologia di addestramento che incorpora il controllo della divergenza KL, il reset della politica di riferimento e una suite diversificata di compiti. La nostra analisi empirica rivela che i modelli addestrati con RL superano costantemente i modelli base in un'ampia gamma di valutazioni pass@k, inclusi scenari in cui i modelli base falliscono completamente indipendentemente dal numero di tentativi. Mostriamo inoltre che i miglioramenti dei confini del ragionamento correlano fortemente con la competenza del modello base e la durata dell'addestramento, suggerendo che l'RL può esplorare e popolare nuove regioni dello spazio delle soluzioni nel tempo. Questi risultati offrono nuove intuizioni sulle condizioni in cui l'RL espande in modo significativo i confini del ragionamento nei modelli linguistici e stabiliscono una base per futuri lavori sull'RL a lungo termine per il ragionamento. Rilasciamo i pesi del modello per supportare ulteriori ricerche: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
Questo articolo presenta AlphaOne (alpha1), un framework universale per modulare il progresso del ragionamento nei modelli di ragionamento su larga scala (LRM) durante il test. alpha1 introduce innanzitutto il concetto di alpha moment, che rappresenta la fase di pensiero scalata con un parametro universale alpha. All'interno di questa fase pre-alpha moment scalata, pianifica dinamicamente le transizioni del pensiero lento modellando l'inserimento di token di transizione del ragionamento come un processo stocastico di Bernoulli. Dopo l'alpha moment, alpha1 termina deterministicamente il pensiero lento con il token di fine-pensiero, favorendo così un ragionamento veloce e una generazione efficiente delle risposte. Questo approccio unifica e generalizza i metodi di scalatura monotona esistenti, consentendo una modulazione flessibile e densa del ragionamento da lento a veloce. Studi empirici estesi su vari benchmark impegnativi nei domini matematico, di programmazione e scientifico dimostrano la superiore capacità di ragionamento e l'efficienza di alpha1. Pagina del progetto: https://alphaone-project.github.io/
I recenti progressi nei modelli visione-linguaggio (VLMs) hanno compiuto passi impressionanti nella comprensione delle relazioni spazio-temporali nei video. Tuttavia, quando le informazioni spaziali sono oscurate, questi modelli faticano a catturare schemi puramente temporali. Introduciamo SpookyBench, un benchmark in cui le informazioni sono codificate esclusivamente in sequenze temporali di frame simili a rumore, che rispecchiano fenomeni naturali che vanno dalla segnalazione biologica alla comunicazione covert. Curiosamente, mentre gli esseri umani riescono a riconoscere forme, testo e schemi in queste sequenze con un'accuratezza superiore al 98%, i VLMs all'avanguardia raggiungono un'accuratezza dello 0%. Questo divario di prestazioni evidenzia una limitazione critica: un'eccessiva dipendenza dalle caratteristiche spaziali a livello di frame e un'incapacità di estrarre significato dai segnali temporali. Inoltre, quando addestrati su dataset con bassi rapporti segnale-rumore (SNR) spaziali, la comprensione temporale dei modelli si degrada più rapidamente rispetto alla percezione umana, specialmente in compiti che richiedono un ragionamento temporale fine. Superare questa limitazione richiederà architetture o paradigmi di addestramento innovativi che disaccoppino le dipendenze spaziali dall'elaborazione temporale. La nostra analisi sistematica dimostra che questo problema persiste indipendentemente dalla scala e dall'architettura del modello. Rilasciamo SpookyBench per catalizzare la ricerca nel riconoscimento di schemi temporali e colmare il divario tra la comprensione umana e quella delle macchine nei video. Il dataset e il codice sono disponibili sul nostro sito web del progetto: https://timeblindness.github.io/.
Generare dati sintetici che catturino fedelmente la struttura statistica delle distribuzioni del mondo reale rappresenta una sfida fondamentale nella modellazione dei dati. Gli approcci classici spesso dipendono da forti assunzioni parametriche o da una progettazione strutturale manuale e faticano in domini ad alta dimensionalità o eterogenei. I recenti progressi nei Modelli Linguistici di Grande Scala (LLM) rivelano il loro potenziale come prior flessibili e ad alta dimensionalità sulle distribuzioni del mondo reale. Tuttavia, quando applicati alla sintesi di dati, il campionamento standard basato su LLM è inefficiente, limitato da vincoli di contesto fissi e non garantisce un allineamento statistico. Alla luce di ciò, introduciamo LLMSynthor, un framework generale per la sintesi di dati che trasforma gli LLM in simulatori consapevoli della struttura guidati da feedback distribuzionali. LLMSynthor tratta l'LLM come un simulatore copula non parametrico per modellare dipendenze di ordine superiore e introduce il Campionamento Proposte LLM per generare distribuzioni di proposte radicate che migliorano l'efficienza del campionamento senza richiedere rifiuti. Minimizzando le discrepanze nello spazio delle statistiche riassuntive, il ciclo iterativo di sintesi allinea i dati reali e sintetici mentre gradualmente scopre e affina la struttura generativa latente. Valutiamo LLMSynthor sia in contesti controllati che in scenari del mondo reale utilizzando dataset eterogenei in domini sensibili alla privacy (ad esempio, e-commerce, popolazione e mobilità) che comprendono sia formati strutturati che non strutturati. I dati sintetici prodotti da LLMSynthor mostrano un'elevata fedeltà statistica, utilità pratica e adattabilità cross-dati, posizionandolo come uno strumento prezioso in economia, scienze sociali, studi urbani e oltre.
I verificatori svolgono un ruolo cruciale nel ragionamento dei modelli linguistici di grandi dimensioni (LLM), essendo necessari per tecniche post-addestramento come l'apprendimento per rinforzo. Tuttavia, ottenere verificatori affidabili per problemi di codifica complessi è difficile, poiché una soluzione errata ben camuffata potrebbe essere rilevata solo da casi limite scritti con cura da esseri umani, difficili da sintetizzare. Per affrontare questo problema, proponiamo HARDTESTGEN, una pipeline per la sintesi di test di alta qualità utilizzando LLM. Con questa pipeline, abbiamo curato un dataset completo di programmazione competitiva, HARDTESTS, con 47k problemi e test sintetici di alta qualità. Rispetto ai test esistenti, i test di HARDTESTGEN dimostrano una precisione superiore di 11,3 punti percentuali e un richiamo superiore di 17,5 punti percentuali nella valutazione del codice generato da LLM. Per problemi più difficili, il miglioramento nella precisione può arrivare fino a 40 punti. HARDTESTS si dimostra anche più efficace per l'addestramento dei modelli, misurato dalle prestazioni di generazione del codice a valle. Renderemo open-source il nostro dataset e la pipeline di sintesi all'indirizzo https://leililab.github.io/HardTests/.
Presentiamo v1, un'estensione leggera per i Modelli Linguistici Multimodali di Grande Scala (MLLMs) che abilita la rivisitazione visiva selettiva durante l'inferenza. Mentre gli attuali MLLMs consumano tipicamente l'input visivo una sola volta e ragionano esclusivamente sulla memoria interna, v1 introduce un semplice meccanismo di puntamento e copia che consente al modello di recuperare dinamicamente le regioni dell'immagine rilevanti durante il processo di ragionamento. Questo meccanismo arricchisce le architetture esistenti con modifiche minime, permettendo l'accesso contestuale ai token visivi in base alle ipotesi in evoluzione del modello. Per addestrare questa capacità, abbiamo costruito v1g, un dataset di 300K tracce di ragionamento multimodale con annotazioni intercalate di grounding visivo. Gli esperimenti su tre benchmark di ragionamento matematico multimodale -- MathVista, MathVision e MathVerse -- dimostrano che v1 migliora costantemente le prestazioni rispetto ai baseline comparabili, in particolare sui compiti che richiedono un riferimento visivo fine e un ragionamento a più passaggi. I nostri risultati suggeriscono che l'accesso visivo dinamico è una direzione promettente per migliorare il ragionamento multimodale fondato. Codice, modelli e dati saranno rilasciati per supportare la ricerca futura.
La visualizzazione di storie, che mira a generare una sequenza di immagini visivamente coerenti allineate con una narrazione e immagini di riferimento date, ha registrato progressi significativi grazie ai recenti avanzamenti nei modelli generativi. Per migliorare ulteriormente le prestazioni dei framework di visualizzazione di storie in scenari reali, introduciamo un benchmark di valutazione completo, ViStoryBench. Abbiamo raccolto un dataset diversificato che comprende vari tipi di storie e stili artistici, garantendo che i modelli siano valutati su più dimensioni come trame diverse (ad esempio, commedia, horror) ed estetiche visive (ad esempio, anime, rendering 3D). ViStoryBench è stato curato con attenzione per bilanciare strutture narrative ed elementi visivi, includendo storie con uno o più protagonisti per testare la capacità dei modelli di mantenere la coerenza dei personaggi. Inoltre, include trame complesse e costruzioni di mondi intricati per mettere alla prova i modelli nella generazione di visualizzazioni accurate. Per garantire confronti completi, il nostro benchmark incorpora una vasta gamma di metriche di valutazione che analizzano aspetti critici. Questo framework strutturato e multifattoriale consente ai ricercatori di identificare approfonditamente sia i punti di forza che le debolezze dei diversi modelli, favorendo miglioramenti mirati.
Il recente e crescente interesse per le capacità di ragionamento dei grandi modelli linguistici, come DeepSeek-R1, ha dimostrato un notevole successo attraverso framework di fine-tuning basati sull'apprendimento per rinforzo, esemplificati da metodi come l'ottimizzazione relativa di gruppo delle politiche (Group Relative Policy Optimization, GRPO). Tuttavia, tali capacità di ragionamento rimangono poco esplorate e sono particolarmente assenti nei modelli di fondazione visiva, inclusi i modelli di rappresentazione come la serie DINO. In questo lavoro, proponiamo DINO-R1, il primo tentativo di incentivare le capacità di ragionamento contestuale visivo nei modelli di fondazione visiva utilizzando l'apprendimento per rinforzo. Nello specifico, DINO-R1 introduce l'ottimizzazione relativa di gruppo delle query (Group Relative Query Optimization, GRQO), una nuova strategia di addestramento in stile rinforzo progettata esplicitamente per modelli di rappresentazione basati su query, che calcola ricompense a livello di query basate sulla qualità di allineamento normalizzata per gruppo. Applichiamo inoltre la regolarizzazione KL per stabilizzare la distribuzione dell'oggettività, riducendo l'instabilità durante l'addestramento. Questa ottimizzazione congiunta consente una supervisione densa ed espressiva attraverso le query, mitigando al contempo l'overfitting e la deriva distributiva. Basandoci su Grounding-DINO, addestriamo una serie di modelli della famiglia DINO-R1 che integrano un codificatore di prompt visivo e un meccanismo di selezione delle query guidato visivamente. Esperimenti estesi su COCO, LVIS e ODinW dimostrano che DINO-R1 supera significativamente i baseline di fine-tuning supervisionato, ottenendo una forte generalizzazione sia negli scenari di prompting visivo a vocabolario aperto che in quelli a insieme chiuso.
I CAPTCHA hanno rappresentato un collo di bottiglia critico per il dispiegamento di agenti web in applicazioni del mondo reale, spesso impedendo loro di completare attività di automazione end-to-end. Sebbene i moderni agenti MLLM multimodali abbiano dimostrato prestazioni impressionanti in compiti di percezione statica, la loro capacità di gestire sfide interattive e di ragionamento multi-step come i CAPTCHA è in gran parte inesplorata. Per colmare questa lacuna, introduciamo Open CaptchaWorld, il primo benchmark e piattaforma web specificamente progettati per valutare le capacità di ragionamento visivo e interazione degli agenti basati su MLLM attraverso una varietà di puzzle CAPTCHA dinamici e diversificati. Il nostro benchmark comprende 20 tipi moderni di CAPTCHA, per un totale di 225 CAPTCHA, annotati con una nuova metrica che proponiamo: CAPTCHA Reasoning Depth, che quantifica il numero di passaggi cognitivi e motori necessari per risolvere ciascun puzzle. I risultati sperimentali mostrano che gli esseri umani raggiungono costantemente punteggi quasi perfetti, mentre gli agenti MLLM all'avanguardia incontrano notevoli difficoltà, con tassi di successo al massimo del 40,0% per Browser-Use Openai-o3, ben al di sotto delle prestazioni umane, pari al 93,3%. Ciò evidenzia Open CaptchaWorld come un benchmark fondamentale per diagnosticare i limiti degli attuali agenti multimodali e guidare lo sviluppo di sistemi di ragionamento multimodale più robusti. Codice e dati sono disponibili al seguente URL: https.
L'automazione della ricerca sull'IA ha un enorme potenziale per accelerare il progresso scientifico, ma gli attuali agenti di IA faticano a gestire le complessità di esperimenti rigorosi e end-to-end. Introduciamo EXP-Bench, un nuovo benchmark progettato per valutare sistematicamente gli agenti di IA su esperimenti di ricerca completi tratti da pubblicazioni influenti nel campo dell'IA. Dato un quesito di ricerca e un codice iniziale incompleto, EXP-Bench sfida gli agenti di IA a formulare ipotesi, progettare e implementare procedure sperimentali, eseguirle e analizzare i risultati. Per consentire la creazione di compiti così intricati e autentici con un alto livello di fedeltà, abbiamo progettato una pipeline semi-autonoma per estrarre e strutturare dettagli sperimentali cruciali da questi articoli di ricerca e dal loro codice open-source associato. Grazie a questa pipeline, EXP-Bench ha curato 461 compiti di ricerca sull'IA tratti da 51 articoli di ricerca di alto livello. Le valutazioni di agenti basati su LLM di punta, come OpenHands e IterativeAgent, su EXP-Bench dimostrano capacità parziali: mentre i punteggi su aspetti sperimentali individuali, come la correttezza del design o dell'implementazione, raggiungono occasionalmente il 20-35%, il tasso di successo per esperimenti completi ed eseguibili è stato di appena lo 0,5%. Identificando questi colli di bottiglia e fornendo procedure sperimentali realistiche passo-passo, EXP-Bench si pone come uno strumento vitale per migliorare la capacità degli agenti di IA futuri di condurre esperimenti di ricerca sull'IA. EXP-Bench è open-source all'indirizzo https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso recentemente come un paradigma potente per il post-addestramento di grandi modelli linguistici (LLM), raggiungendo prestazioni all'avanguardia in compiti con risposte strutturate e verificabili. L'applicazione dell'RLVR ai Modelli Linguistici Multimodali (MLLM) presenta significative opportunità, ma è complicata dalla natura più ampia ed eterogenea dei compiti visivo-linguistici che richiedono capacità visive, logiche e spaziali sfumate. Di conseguenza, l'addestramento di MLLM utilizzando l'RLVR su più dataset potrebbe essere vantaggioso, ma crea sfide legate a obiettivi conflittuali derivanti dall'interazione tra dataset diversi, evidenziando la necessità di strategie ottimali di miscelazione dei dataset per migliorare la generalizzazione e il ragionamento. Introduciamo un framework sistematico di post-addestramento per l'RLVR di MLLM, caratterizzato da una rigorosa formulazione del problema di miscelazione dei dati e da un'implementazione di benchmark. Nello specifico, (1) abbiamo sviluppato un framework RLVR multimodale per il post-addestramento su più dataset, curando un dataset che contiene diversi problemi visivo-linguistici verificabili e abilitando l'apprendimento RL online multi-dominio con diverse ricompense verificabili; (2) abbiamo proposto una strategia di miscelazione dei dati che impara a prevedere il risultato del fine-tuning RL dalla distribuzione della miscelazione dei dati, e di conseguenza ottimizza la miscela migliore. Esperimenti completi dimostrano che l'addestramento RLVR multi-dominio, combinato con strategie di previsione della miscela, può potenziare significativamente le capacità di ragionamento generale degli MLLM. La nostra miscela migliore migliora l'accuratezza del modello post-addestrato su benchmark fuori distribuzione in media del 5,24% rispetto allo stesso modello post-addestrato con una miscela uniforme dei dati, e del 20,74% complessivo rispetto alla baseline pre-fine-tuning.
La sintesi della manipolazione di oggetti articolati con il coinvolgimento dell'intero corpo, comprendendo il movimento del corpo, delle mani e dell'oggetto, è un compito cruciale ma impegnativo con ampie applicazioni negli esseri umani virtuali e nella robotica. Le principali sfide sono due. In primo luogo, ottenere un movimento realistico dell'intero corpo richiede una stretta coordinazione tra le mani e il resto del corpo, poiché i loro movimenti sono interdipendenti durante la manipolazione. In secondo luogo, la manipolazione di oggetti articolati coinvolge tipicamente un alto grado di libertà e richiede una maggiore precisione, spesso necessitando che le dita siano posizionate in regioni specifiche per azionare le parti mobili. Per affrontare queste sfide, proponiamo un nuovo framework di ottimizzazione del rumore di diffusione coordinato. Nello specifico, eseguiamo un'ottimizzazione nello spazio del rumore su tre modelli di diffusione specializzati per il corpo, la mano sinistra e la mano destra, ciascuno addestrato sul proprio dataset di movimento per migliorare la generalizzazione. La coordinazione emerge naturalmente attraverso il flusso del gradiente lungo la catena cinematica umana, consentendo alla postura globale del corpo di adattarsi in risposta agli obiettivi di movimento delle mani con alta fedeltà. Per migliorare ulteriormente la precisione nell'interazione mano-oggetto, adottiamo una rappresentazione unificata basata su insiemi di punti base (BPS), in cui le posizioni degli effettori finali sono codificate come distanze dallo stesso BPS utilizzato per la geometria dell'oggetto. Questa rappresentazione unificata cattura le relazioni spaziali dettagliate tra la mano e le parti articolate dell'oggetto, e le traiettorie risultanti servono come obiettivi per guidare l'ottimizzazione del rumore di diffusione, producendo un movimento di interazione altamente accurato. Condividiamo esperimenti estesi che dimostrano come il nostro metodo superi gli approcci esistenti in termini di qualità del movimento e plausibilità fisica, e abiliti varie capacità come il controllo della posa dell'oggetto, la manipolazione simultanea durante la camminata e la generazione dell'intero corpo a partire da dati relativi solo alle mani.
I grandi modelli linguistici (LLM) memorizzano una vasta quantità di conoscenza pregressa da Internet che li aiuta nei compiti successivi, ma può anche notoriamente influenzare i loro output verso risposte errate o distorte. In questo lavoro, testiamo come la conoscenza su argomenti popolari comprometta l'accuratezza dei modelli visione-linguaggio (VLM) su compiti visivi standard e oggettivi di conteggio e identificazione. Scopriamo che i VLM all'avanguardia sono fortemente distorti (ad esempio, incapaci di riconoscere che è stata aggiunta una quarta striscia al logo a tre strisce di Adidas), ottenendo una precisione media del 17,05% nel conteggio (ad esempio, contando le strisce in un logo simile a quello di Adidas) in 7 domini diversi, che vanno dagli animali, ai loghi, agli scacchi, ai giochi da tavolo, alle illusioni ottiche, fino alle griglie con motivi. Inserire testo (ad esempio, "Adidas") che descrive il nome del soggetto nell'immagine controfattuale riduce ulteriormente l'accuratezza dei VLM. Le distorsioni nei VLM sono così forti che istruirli a ricontrollare i loro risultati o a fare affidamento esclusivamente sui dettagli dell'immagine per rispondere migliora l'accuratezza del conteggio di soli +2 punti, in media. Il nostro lavoro presenta un interessante caso di fallimento nei VLM e un framework automatizzato per testare le distorsioni dei VLM. Codice e dati sono disponibili su: vlmsarebiased.github.io.
Un componente cruciale per l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) è una comunicazione affidabile dell'incertezza, eppure gli LLM spesso utilizzano un linguaggio assertivo quando trasmettono affermazioni false, portando a un eccessivo affidamento e a un'erosione della fiducia. Presentiamo il primo studio sistematico sulla calibrazione fedele della confidenza degli LLM, valutando la capacità dei modelli di utilizzare espressioni linguistiche di incertezza che riflettano fedelmente la loro incertezza intrinseca, attraverso una vasta gamma di modelli, dataset e strategie di prompting. I nostri risultati dimostrano che gli LLM falliscono in gran parte in questo compito e che gli interventi esistenti sono insufficienti: gli approcci standard di prompting offrono solo miglioramenti marginali e le tecniche di calibrazione basate sulla fattualità possono persino danneggiare la calibrazione fedele. Per colmare questa lacuna critica, introduciamo MetaFaith, un nuovo approccio di calibrazione basato su prompting ispirato alla metacognizione umana. Mostriamo che MetaFaith migliora robustamente la calibrazione fedele in diversi modelli e domini di attività, consentendo un miglioramento fino al 61% nella fedeltà e raggiungendo un tasso di successo dell'83% rispetto alle generazioni originali, come valutato da esseri umani.
I benchmark di Text-to-Speech (TTS) spesso non riescono a catturare quanto bene i modelli gestiscano testi sfumati e semanticamente complessi. Basandoci su EmergentTTS, introduciamo EmergentTTS-Eval, un benchmark completo che copre sei scenari impegnativi per il TTS: emozioni, paralinguistica, parole straniere, complessità sintattica, pronuncia complessa (ad esempio URL, formule) e domande. In modo cruciale, il nostro framework automatizza sia la generazione dei casi di test che la valutazione, rendendo il benchmark facilmente estensibile. Partendo da un piccolo insieme di prompt iniziali scritti da esseri umani, li estendiamo iterativamente utilizzando LLM per affrontare specifiche sfide strutturali, fonetiche e prosodiche, ottenendo 1.645 casi di test diversificati. Inoltre, adottiamo un approccio "model-as-a-judge", utilizzando un Large Audio Language Model (LALM) per valutare il parlato su più dimensioni, come l'emozione espressa, la prosodia, l'intonazione e l'accuratezza della pronuncia. Valutiamo sistemi TTS open-source e proprietari all'avanguardia, come 11Labs, Deepgram e il 4o-mini-TTS di OpenAI, su EmergentTTS-Eval, dimostrando la sua capacità di rivelare differenze di performance a grana fine. I risultati mostrano che l'approccio "model-as-a-judge" offre una valutazione robusta del TTS e un'elevata correlazione con le preferenze umane. Rendiamo open source il codice di valutazione https://github.com/boson-ai/EmergentTTS-Eval-public e il dataset https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
Recentemente, i metodi che sfruttano i prior dei modelli di diffusione per assistere la stima geometrica monoculare (ad esempio, profondità e normale) hanno attirato una significativa attenzione grazie alla loro forte capacità di generalizzazione. Tuttavia, la maggior parte dei lavori esistenti si concentra sulla stima delle proprietà geometriche all'interno del sistema di coordinate della fotocamera di singoli fotogrammi video, trascurando l'abilità intrinseca dei modelli di diffusione di determinare la corrispondenza inter-fotogramma. In questo lavoro, dimostriamo che, attraverso un design appropriato e un fine-tuning, la consistenza intrinseca dei modelli di generazione video può essere efficacemente sfruttata per una stima geometrica consistente. Nello specifico, 1) selezioniamo attributi geometrici nel sistema di coordinate globali che condividono la stessa corrispondenza con i fotogrammi video come obiettivi di previsione, 2) introduciamo un metodo di condizionamento nuovo ed efficiente riutilizzando le codifiche posizionali, e 3) miglioriamo le prestazioni attraverso un addestramento congiunto su più attributi geometrici che condividono la stessa corrispondenza. I nostri risultati raggiungono prestazioni superiori nella previsione degli attributi geometrici globali nei video e possono essere direttamente applicati ai task di ricostruzione. Anche quando addestrato esclusivamente su dati video statici, il nostro approccio mostra il potenziale di generalizzare a scene video dinamiche.
Dimostriamo che le operazioni di inferenza di diversi modelli linguistici di grandi dimensioni (LLM) open-weight possono essere mappate a un sistema lineare esattamente equivalente per una sequenza di input senza modificare i pesi del modello o alterare le previsioni di output. Estendendo tecniche dai modelli di diffusione di immagini che mostrano linearità locale o a tratti, alteriamo strategicamente il calcolo del gradiente rispetto a una sequenza di input data per una previsione del token successivo, in modo tale che lo Jacobiano del modello riproduca quasi esattamente la previsione in avanti con un sistema lineare. Dimostriamo questo approccio su vari modelli (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral e OLMo 2, fino a Llama 3.3 70B Q4) e mostriamo, attraverso la decomposizione ai valori singolari dello Jacobiano separato, che questi LLM operano in sottospazi estremamente a bassa dimensionalità in cui molti dei vettori singolari più grandi decodificano concetti legati al token di output più probabile. Questo approccio ci permette anche di esaminare il funzionamento di ogni strato successivo (e dei suoi componenti di attenzione e MLP) come sistemi lineari quasi esatti e osservare l'emergere di concetti semantici. Nonostante il loro potere espressivo e la non linearità globale, i moderni LLM possono essere interpretati attraverso decomposizioni localmente lineari quasi esatte che forniscono intuizioni sulle loro rappresentazioni interne e rivelano strutture semantiche interpretabili nel processo di previsione del token successivo.
Il calcolo durante il test ha potenziato i modelli linguistici multimodali di grandi dimensioni, consentendo loro di generare catene di ragionamento estese e ottenere prestazioni solide in compiti come il ragionamento matematico multimodale. Tuttavia, questa capacità di ragionamento migliorata spesso si accompagna a un aumento delle allucinazioni: man mano che le generazioni diventano più lunghe, i modelli tendono a discostarsi dai contenuti basati sulle immagini e a fare maggiore affidamento sui precedenti linguistici. L'analisi dell'attenzione mostra che catene di ragionamento più lunghe portano a una ridotta focalizzazione sugli input visivi, contribuendo così alle allucinazioni. Per studiare sistematicamente questo fenomeno, introduciamo RH-AUC, una metrica che quantifica come l'accuratezza percettiva di un modello cambi con la lunghezza del ragionamento, permettendoci di valutare se il modello mantiene il collegamento visivo durante il ragionamento. Rilasciamo anche RH-Bench, un benchmark diagnostico che copre una varietà di compiti multimodali, progettato per valutare il compromesso tra capacità di ragionamento e allucinazioni. La nostra analisi rivela che (i) i modelli più grandi tipicamente raggiungono un migliore equilibrio tra ragionamento e percezione, e (ii) questo equilibrio è influenzato più dai tipi e dai domini dei dati di addestramento che dal loro volume complessivo. Questi risultati sottolineano l'importanza di framework di valutazione che considerino congiuntamente sia la qualità del ragionamento che la fedeltà percettiva.
Generare testi multilingue accurati con modelli di diffusione è da tempo un obiettivo desiderato ma che rimane impegnativo. I metodi recenti hanno fatto progressi nel rendering di testi in una singola lingua, ma il rendering di lingue arbitrarie è ancora un'area inesplorata. Questo articolo introduce EasyText, un framework di rendering testuale basato su DiT (Diffusion Transformer), che collega i latenti di denoising con token di caratteri multilingue codificati come token di caratteri. Proponiamo tecniche di codifica del posizionamento dei caratteri e interpolazione della codifica di posizione per ottenere un rendering testuale controllabile e preciso. Inoltre, costruiamo un ampio dataset sintetico di immagini testuali con 1 milione di annotazioni immagine-testo multilingue, nonché un dataset di alta qualità di 20.000 immagini annotate, utilizzati rispettivamente per il pre-training e il fine-tuning. Esperimenti e valutazioni estesi dimostrano l'efficacia e l'avanzamento del nostro approccio nel rendering di testi multilingue, nella qualità visiva e nell'integrazione di testi consapevole del layout.
La decodifica speculativa (SD) è un metodo promettente per accelerare il processo di decodifica dei Modelli Linguistici di Grande Dimensione (LLMs). L'efficienza della SD dipende principalmente dalla coerenza tra il modello di bozza e il modello di verifica. Tuttavia, gli approcci esistenti per la generazione di bozze richiedono tipicamente l'addestramento di moduli aggiuntivi, il che può essere difficile da implementare e garantire la compatibilità tra vari LLMs. In questo articolo, proponiamo CLaSp, una strategia di salto di strati in-context per la decodifica speculativa autonoma. A differenza dei metodi precedenti, CLaSp non richiede moduli aggiuntivi per la generazione di bozze né un addestramento supplementare. Invece, utilizza un meccanismo plug-and-play saltando gli strati intermedi del modello di verifica per costruire un modello di bozza compresso. Nello specifico, sviluppiamo un algoritmo di programmazione dinamica che ottimizza il processo di salto degli strati sfruttando gli stati nascosti completi dell'ultima fase di verifica come obiettivo. Ciò consente a CLaSp di adattare dinamicamente la sua strategia di salto degli strati dopo ogni fase di verifica, senza fare affidamento su insiemi pre-ottimizzati di strati saltati. I risultati sperimentali su vari task downstream dimostrano che CLaSp raggiunge un'accelerazione di 1.3x ~ 1.7x sui modelli della serie LLaMA3 senza alterare la distribuzione originale del testo generato.
Sebbene il ragionamento a catena di pensiero (chain-of-thought) e l'apprendimento per rinforzo (RL) abbiano guidato importanti progressi nel campo dell'elaborazione del linguaggio naturale (NLP), la loro integrazione nei modelli generativi per la visione rimane poco esplorata. Presentiamo ReasonGen-R1, un framework a due fasi che prima conferisce a un generatore di immagini autoregressivo abilità esplicite di "pensiero" basate su testo attraverso un fine-tuning supervisionato su un nuovo dataset di ragionamenti generati, composto da spiegazioni scritte, e poi affina i suoi output utilizzando l'ottimizzazione relativa delle politiche di gruppo (Group Relative Policy Optimization, GRPO). Per consentire al modello di ragionare attraverso il testo prima di generare immagini, generiamo automaticamente e rendiamo disponibile un corpus di spiegazioni elaborate dal modello, accoppiate a prompt visivi, che permettono una pianificazione controllata di layout di oggetti, stili e composizioni di scene. Il nostro algoritmo GRPO utilizza segnali di ricompensa da un modello preaddestrato di visione e linguaggio per valutare la qualità visiva complessiva, ottimizzando la politica in ogni aggiornamento. Le valutazioni su GenEval, DPG e il benchmark T2I dimostrano che ReasonGen-R1 supera costantemente i baseline robusti e i precedenti modelli all'avanguardia. Maggiori informazioni: aka.ms/reasongen.
L'obiettivo di questo lavoro è migliorare la comprensione multimodale bilanciata nei modelli linguistici di grandi dimensioni audio-visivi (AV-LLM) affrontando il bias di modalità senza richiedere ulteriore addestramento. Negli attuali AV-LLM, le caratteristiche audio e video sono tipicamente elaborate congiuntamente nel decoder. Sebbene questa strategia faciliti una comprensione multimodale unificata, può introdurre un bias di modalità, in cui il modello tende a fare eccessivo affidamento su una modalità a causa di segnali di addestramento sbilanciati. Per mitigare questo problema, proponiamo il Fork-Merge Decoding (FMD), una strategia semplice ma efficace in fase di inferenza che non richiede ulteriore addestramento o modifiche architetturali. FMD esegue prima un ragionamento specifico per modalità elaborando input esclusivamente audio e esclusivamente video attraverso i primi strati del decoder (fase di fork), per poi unire gli stati nascosti risultanti per un ragionamento congiunto negli strati rimanenti (fase di merge). Questo approccio promuove contributi bilanciati delle modalità e sfrutta informazioni complementari tra le modalità. Valutiamo il nostro metodo su due AV-LLM rappresentativi, VideoLLaMA2 e video-SALMONN, utilizzando tre dataset di benchmark. I risultati sperimentali dimostrano miglioramenti consistenti delle prestazioni su task focalizzati su ragionamento audio, video e audio-visivo combinato, evidenziando l'efficacia degli interventi in fase di inferenza per una comprensione multimodale robusta.
I recenti progressi nella distillazione di modelli dimostrano che i dati provenienti da modelli avanzati di ragionamento (ad esempio, DeepSeek-R1, OpenAI's o1) possono trasferire efficacemente capacità di ragionamento complesso a modelli studente più piccoli ed efficienti. Tuttavia, le pratiche standard impiegano il campionamento per rifiuto, scartando esempi di ragionamento errati -- dati preziosi, ma spesso sottoutilizzati. Questo articolo affronta la questione critica: come possono essere sfruttati efficacemente sia i tracciati di ragionamento distillati positivi che quelli negativi per massimizzare le prestazioni di ragionamento dei LLM in un contesto offline? A tal fine, proponiamo la Distillazione con Rinforzo (REDI), un framework a due fasi. La Fase 1 apprende dai tracciati positivi tramite Fine-Tuning Supervisionato (SFT). La Fase 2 perfeziona ulteriormente il modello utilizzando sia i tracciati positivi che quelli negativi attraverso il nostro obiettivo REDI proposto. Questo nuovo obiettivo è una semplice funzione di perdita senza riferimento che supera metodi consolidati come DPO e SimPO in questo contesto di distillazione. Le nostre valutazioni empiriche dimostrano la superiorità di REDI rispetto alle baseline di SFT con campionamento per rifiuto o SFT combinato con DPO/SimPO in compiti di ragionamento matematico. In particolare, il modello Qwen-REDI-1.5B, addestrato su soli 131k esempi positivi e negativi del dataset aperto Open-R1, raggiunge un punteggio dell'83.1% su MATH-500 (pass@1). Le sue prestazioni eguagliano o superano quelle di DeepSeek-R1-Distill-Qwen-1.5B (un modello addestrato su 800k dati proprietari) su vari benchmark di ragionamento matematico, stabilendo un nuovo stato dell'arte per i modelli da 1.5B addestrati offline con dati disponibili pubblicamente.
Presentiamo DexUMI, un framework per la raccolta dati e l'apprendimento di politiche che utilizza la mano umana come interfaccia naturale per trasferire abilità di manipolazione destrezza a diverse mani robotiche. DexUMI include adattamenti hardware e software per minimizzare il divario di incarnazione tra la mano umana e varie mani robotiche. L'adattamento hardware colma il divario cinematico utilizzando un esoscheletro portatile per la mano. Questo permette un feedback aptico diretto durante la raccolta di dati di manipolazione e adatta il movimento umano a un movimento fattibile per la mano robotica. L'adattamento software colma il divario visivo sostituendo la mano umana nei video con un'accurata ricostruzione della mano robotica. Dimostriamo le capacità di DexUMI attraverso esperimenti completi nel mondo reale su due diverse piattaforme hardware di mani robotiche destrezza, raggiungendo una percentuale media di successo nelle attività dell'86%.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto prestazioni notevoli su compiti complessi con contesto multimodale. Tuttavia, è ancora poco studiato se mostrino una preferenza di modalità durante l'elaborazione di contesti multimodali. Per studiare questa questione, abbiamo prima costruito un benchmark MC\textsuperscript{2} in scenari controllati di conflitto di evidenze per valutare sistematicamente la preferenza di modalità, che è la tendenza a favorire una modalità rispetto a un'altra quando si prendono decisioni basate su evidenze multimodali in conflitto. La nostra valutazione estensiva rivela che tutti i 18 MLLM testati dimostrano generalmente un chiaro bias di modalità, e la preferenza di modalità può essere influenzata da interventi esterni. Un'analisi approfondita rivela che la direzione della preferenza può essere catturata all'interno delle rappresentazioni latenti degli MLLM. Basandoci su questo, proponiamo un metodo di sondaggio e direzionamento basato sull'ingegneria delle rappresentazioni per controllare esplicitamente la preferenza di modalità senza ulteriori fine-tuning o prompt accuratamente progettati. Il nostro metodo amplifica efficacemente la preferenza di modalità verso una direzione desiderata e si applica a compiti downstream come la mitigazione delle allucinazioni e la traduzione automatica multimodale, ottenendo miglioramenti promettenti.
I Language Agents per il Role-Playing (RPLAs) mirano a simulare personaggi per interazioni uomo-computer realistiche e coinvolgenti. Tuttavia, i tradizionali modelli di ricompensa spesso incontrano difficoltà nella scalabilità e nell'adattamento alle preferenze conversazionali soggettive. Proponiamo ChARM, un Modello di Ricompensa Adattivo basato sul Personaggio, che affronta queste sfide attraverso due innovazioni: (1) un margine adattivo agli atti che migliora significativamente l'efficienza di apprendimento e la generalizzabilità, e (2) un meccanismo di auto-evoluzione che sfrutta dati non etichettati su larga scala per migliorare la copertura dell'addestramento. Inoltre, introduciamo RoleplayPref, il primo dataset su larga scala di preferenze specifico per RPLAs, che include 1.108 personaggi, 13 sottocategorie e 16.888 dialoghi bilingue, insieme a RoleplayEval, un benchmark di valutazione dedicato. I risultati sperimentali mostrano un miglioramento del 13% rispetto al modello convenzionale di Bradley-Terry nei ranking di preferenza. Inoltre, l'applicazione delle ricompense generate da ChARM alle tecniche di apprendimento delle preferenze (ad esempio, l'ottimizzazione diretta delle preferenze) raggiunge risultati all'avanguardia su CharacterEval e RoleplayEval. Codice e dataset sono disponibili su https://github.com/calubkk/ChARM.
I Large Language Model (LLM) dimostrano una notevole capacità di adottare personaggi e di impegnarsi nel role-playing. Tuttavia, valutare questa abilità presenta sfide significative, poiché le valutazioni umane sono dispendiose in termini di risorse e le valutazioni automatizzate possono essere distorte. Per affrontare questo problema, introduciamo Role-Playing Eval (RPEval), un nuovo benchmark progettato per valutare le capacità di role-playing dei LLM lungo quattro dimensioni chiave: comprensione emotiva, processo decisionale, allineamento morale e coerenza nel personaggio. Questo articolo descrive la costruzione di RPEval e presenta valutazioni di base. Il nostro codice e il dataset sono disponibili all'indirizzo https://github.com/yelboudouri/RPEval.
Mentre le leggi di scala hanno rivoluzionato l'elaborazione del linguaggio naturale e la visione artificiale, la comprensione delle nuvole di punti 3D non ha ancora raggiunto questo stadio. Ciò può essere attribuito sia alla scala relativamente più ridotta dei dataset 3D, sia alle fonti disparate dei dati stessi. Le nuvole di punti vengono acquisite da sensori diversi (ad esempio, telecamere di profondità, LiDAR) in vari domini (ad esempio, interni, esterni), ciascuno dei quali introduce schemi di scansione, densità di campionamento e bias semantici unici. Tale eterogeneità di dominio rappresenta una barriera significativa per l'addestramento di modelli unificati su larga scala, specialmente sotto il vincolo realistico che le etichette di dominio sono tipicamente inaccessibili al momento dell'inferenza. In questo lavoro, proponiamo Point-MoE, un'architettura Mixture-of-Experts progettata per abilitare la generalizzazione su larga scala e cross-dominio nella percezione 3D. Mostriamo che i backbone standard per le nuvole di punti subiscono un significativo degrado delle prestazioni quando addestrati su dati di dominio misto, mentre Point-MoE con una semplice strategia di routing top-k può specializzare automaticamente gli esperti, anche senza accesso alle etichette di dominio. I nostri esperimenti dimostrano che Point-MoE non solo supera i forti baseline multi-dominio, ma generalizza anche meglio a domini non visti. Questo lavoro evidenzia un percorso scalabile per la comprensione 3D: lasciare che il modello scopra la struttura in dati 3D diversificati, piuttosto che imporla attraverso la cura manuale o la supervisione di dominio.
I recenti progressi nell'ottimizzazione in fase di test hanno portato a capacità di ragionamento straordinarie nei Large Language Models (LLM), consentendo loro di risolvere problemi altamente complessi in matematica e programmazione. Tuttavia, le capacità di ragionamento dei modelli multimodali LLM (MLLM) rimangono significativamente inferiori, specialmente per compiti complessi che coinvolgono video e linguaggio. Per affrontare questo problema, presentiamo SiLVR, un framework semplice per il ragionamento video basato sul linguaggio che scompone la comprensione complessa dei video in due fasi. Nella prima fase, SiLVR trasforma il video grezzo in rappresentazioni basate sul linguaggio utilizzando input multisensoriali, come didascalie di brevi clip e sottotitoli audio/dialoghi. Nella seconda fase, le descrizioni linguistiche vengono fornite a un potente LLM di ragionamento per risolvere compiti complessi di comprensione video-linguaggio. Per gestire input multisensoriali a contesto lungo, utilizziamo uno schema di riduzione adattiva dei token, che determina dinamicamente la granularità temporale con cui campionare i token. Il nostro framework semplice, modulare e privo di addestramento per il ragionamento video ottiene i migliori risultati riportati su Video-MME (lungo), Video-MMMU (comprensione), Video-MMLU, CGBench ed EgoLife. Inoltre, il nostro studio empirico focalizzato sulle capacità di ragionamento video mostra che, nonostante non siano stati esplicitamente addestrati sui video, i potenti LLM di ragionamento possono aggregare efficacemente informazioni multisensoriali da video, dialoghi e audio per compiti complessi di ragionamento temporale, causale, a contesto lungo e di acquisizione di conoscenza nei video. Il codice è disponibile all'indirizzo https://github.com/CeeZh/SILVR.
In un'era di crescita scientifica esponenziale, identificare nuove idee di ricerca è cruciale e impegnativo nel mondo accademico. Nonostante il potenziale, la mancanza di un dataset di riferimento appropriato ostacola la ricerca sulla rilevazione della novità. Ancora più importante, l'adozione semplice delle tecnologie NLP esistenti, ad esempio il recupero e il successivo controllo incrociato, non è una soluzione universale a causa del divario tra la similarità testuale e la concezione delle idee. In questo articolo, proponiamo di sfruttare i grandi modelli linguistici (LLM) per la rilevazione della novità scientifica (ND), associati a due nuovi dataset nei domini del marketing e dell'NLP. Per costruire dataset accurati per la ND, proponiamo di estrarre insiemi di chiusura di articoli basati sulle loro relazioni, e poi di riassumere le loro idee principali utilizzando gli LLM. Per catturare la concezione delle idee, proponiamo di addestrare un retriever leggero distillando la conoscenza a livello di idea dagli LLM per allineare idee con concezioni simili, consentendo un recupero efficiente e accurato delle idee per la rilevazione della novità tramite LLM. Gli esperimenti dimostrano che il nostro metodo supera costantemente gli altri sui dataset di benchmark proposti per le attività di recupero delle idee e di ND. Codici e dati sono disponibili all'indirizzo https://anonymous.4open.science/r/NoveltyDetection-10FB/.
Il Contrastive Language-Image Pre-training (CLIP) è diventato un modello di riferimento ed è stato applicato a vari compiti visivi e multimodali. Tuttavia, lavori recenti indicano che CLIP ha difficoltà nel distinguere differenze dettagliate nelle immagini e mostra prestazioni subottimali in compiti di predizione densa e multimodali centrati sulla visione. Pertanto, questo lavoro si concentra sul miglioramento dei modelli CLIP esistenti, con l'obiettivo di catturare il maggior numero possibile di dettagli visivi nelle immagini. Abbiamo scoperto che un tipo specifico di modelli generativi, unCLIP, fornisce un framework adatto per raggiungere il nostro obiettivo. Nello specifico, unCLIP addestra un generatore di immagini condizionato sull'embedding dell'immagine di CLIP. In altre parole, inverte l'encoder di immagini di CLIP. Rispetto ai modelli discriminativi come CLIP, i modelli generativi sono migliori nel catturare i dettagli delle immagini perché sono addestrati per apprendere la distribuzione dei dati delle immagini. Inoltre, lo spazio di input condizionale di unCLIP si allinea con lo spazio originale di embedding immagine-testo di CLIP. Pertanto, proponiamo di invertire unCLIP (denominato un^2CLIP) per migliorare il modello CLIP. In questo modo, l'encoder di immagini migliorato può acquisire la capacità di unCLIP di catturare dettagli visivi mantenendo contemporaneamente l'allineamento con l'encoder di testo originale. Valutiamo il nostro CLIP migliorato su vari compiti a cui CLIP è stato applicato, incluso il benchmark impegnativo MMVP-VLM, il compito di segmentazione open-vocabulary a predizione densa e i compiti multimodali di grandi modelli linguistici. Gli esperimenti dimostrano che un^2CLIP migliora significativamente il CLIP originale e i precedenti metodi di miglioramento di CLIP. Codice e modelli saranno disponibili su https://github.com/LiYinqi/un2CLIP.
I modelli linguistici di grandi dimensioni (LLM) come GPT-4o sono in grado di gestire un'ampia gamma di compiti complessi con il prompt appropriato. Man mano che i costi per token si riducono, i vantaggi del fine-tuning di modelli linguistici di piccole dimensioni (SLM) per applicazioni nel mondo reale – inferenza più veloce, costi inferiori – potrebbero non essere più evidenti. In questo lavoro, presentiamo prove che, per compiti specifici di dominio che richiedono output strutturati, gli SLM mantengono ancora un vantaggio qualitativo. Confrontiamo il fine-tuning di un SLM con l'uso di prompt su LLM per il compito di generare flussi di lavoro low-code in formato JSON. Osserviamo che, sebbene un buon prompt possa produrre risultati ragionevoli, il fine-tuning migliora la qualità in media del 10%. Eseguiamo inoltre un'analisi sistematica degli errori per evidenziare le limitazioni dei modelli.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un potenziale notevole, ma rimangono difficili da migliorare continuamente attraverso il tradizionale fine-tuning, in particolare quando si integrano capacità provenienti da altri LLM specializzati. Metodi popolari come l'ensemble e la fusione dei pesi richiedono una memoria sostanziale e faticano ad adattarsi a contesti di dati in evoluzione. Recenti sforzi hanno trasferito conoscenze da più LLM in un singolo modello target; tuttavia, questi approcci soffrono di interferenze e di un degrado delle prestazioni tra i compiti, principalmente a causa della limitata flessibilità nella selezione dei candidati e nelle pipeline di addestramento. Per affrontare questi problemi, proponiamo un framework che seleziona e aggrega in modo adattivo le conoscenze da diversi LLM per costruire un singolo modello più forte, evitando l'elevato sovraccarico di memoria dell'ensemble e la rigidità della fusione dei pesi. Nello specifico, progettiamo una rete di selezione adattiva che identifica i LLM sorgente più rilevanti in base ai loro punteggi, riducendo così le interferenze di conoscenza. Proponiamo inoltre una strategia di fusione ponderata dinamica che tiene conto dei punti di forza intrinseci dei LLM candidati, insieme a una funzione di perdita guidata dal feedback che impedisce al selettore di convergere su un singolo sottoinsieme di sorgenti. I risultati sperimentali dimostrano che il nostro metodo può abilitare un processo di aggregazione delle conoscenze più stabile e scalabile, riducendo le interferenze di conoscenza fino al 50% rispetto agli approcci esistenti. Il codice è disponibile all'indirizzo https://github.com/ZLKong/LLM_Integration.
Il ruolo delle unità nascoste nelle reti neurali ricorrenti è tipicamente visto come la modellazione della memoria, con la ricerca focalizzata sul miglioramento della ritenzione delle informazioni attraverso meccanismi di gating. Una prospettiva meno esplorata considera le unità nascoste come partecipanti attivi nel calcolo eseguito dalla rete, piuttosto che come semplici depositi passivi di memoria. In questo lavoro, riprendiamo le operazioni bi-lineari, che coinvolgono interazioni moltiplicative tra le unità nascoste e gli embedding di input. Dimostriamo teoricamente ed empiricamente che esse costituiscono un bias induttivo naturale per rappresentare l'evoluzione degli stati nascosti nei compiti di tracciamento dello stato. Questi rappresentano il tipo più semplice di compito che richiede alle unità nascoste di contribuire attivamente al comportamento della rete. Mostriamo inoltre che gli aggiornamenti di stato bi-lineari formano una gerarchia naturale corrispondente a compiti di tracciamento dello stato di complessità crescente, con popolari reti ricorrenti lineari come Mamba che risiedono al centro di tale gerarchia, ovvero al livello di complessità più basso.
I Large Language Model (LLM) eccellono in vari compiti di elaborazione del linguaggio naturale, ma rimangono vulnerabili alla generazione di contenuti dannosi o all'essere sfruttati per scopi malevoli. Sebbene siano stati introdotti dataset di allineamento alla sicurezza per mitigare tali rischi attraverso il fine-tuning supervisionato (SFT), questi dataset spesso mancano di una copertura completa dei rischi. La maggior parte dei dataset esistenti si concentra principalmente sulla diversità lessicale, trascurando altre dimensioni critiche. Per affrontare questa limitazione, proponiamo un nuovo framework di analisi per misurare sistematicamente la copertura dei rischi nei dataset di allineamento attraverso tre dimensioni essenziali: Diversità Lessicale, Intento Maligno e Tattiche di Jailbreak. Introduciamo inoltre TRIDENT, una pipeline automatizzata che sfrutta la generazione zero-shot basata su persona da parte di LLM per produrre istruzioni diversificate e complete che coprono queste dimensioni. Ogni istruzione dannosa è abbinata a una risposta eticamente allineata, risultando in due dataset: TRIDENT-Core, composto da 26.311 esempi, e TRIDENT-Edge, con 18.773 esempi. Il fine-tuning di Llama 3.1-8B su TRIDENT-Edge dimostra miglioramenti significativi, con una riduzione media del 14,29% nel punteggio di danno e una diminuzione del 20% nel tasso di successo degli attacchi rispetto al modello di riferimento più performante addestrato sul dataset WildBreak.
La similarità semantica testuale (STS) è un compito cruciale nell'elaborazione del linguaggio naturale (NLP), abilitando applicazioni nel recupero, clustering e comprensione delle relazioni semantiche tra testi. Tuttavia, la ricerca in questo ambito per la lingua araba rimane limitata a causa della mancanza di dataset di alta qualità e modelli pre-addestrati. Questa scarsità di risorse ha ostacolato la valutazione accurata e il progresso della similarità semantica nei testi arabi. Questo articolo introduce i modelli General Arabic Text Embedding (GATE) che raggiungono prestazioni all'avanguardia nel compito di Similarità Semantica Testuale all'interno del benchmark MTEB. GATE sfrutta il Matryoshka Representation Learning e un approccio di addestramento con perdita ibrida utilizzando dataset di triplette arabe per l'Inferenza del Linguaggio Naturale, elementi essenziali per migliorare le prestazioni del modello in compiti che richiedono una comprensione semantica fine. GATE supera modelli più grandi, inclusi quelli di OpenAI, con un miglioramento delle prestazioni del 20-25% sui benchmark STS, catturando efficacemente le sfumature semantiche uniche dell'arabo.
I grandi modelli linguistici (LLM) mostrano un notevole potenziale nel democratizzare il ragionamento automatizzato attraverso la generazione di specifiche formali. Tuttavia, esiste una tensione fondamentale: gli LLM sono probabilistici, mentre la verifica formale richiede garanzie deterministiche. Questo articolo affronta questo divario epistemologico attraverso un'indagine completa delle modalità di fallimento e della quantificazione dell'incertezza (UQ) negli artefatti formali generati dagli LLM. La nostra valutazione sistematica di cinque LLM all'avanguardia rivela l'impatto specifico del dominio dell'autoformalizzazione basata su Teorie di Soddisfacibilità Modulo (SMT) sull'accuratezza (da +34,8% nei compiti logici a -44,5% in quelli fattuali), con tecniche note di UQ come l'entropia delle probabilità dei token che non riescono a identificare questi errori. Introduciamo un framework di grammatica libera dal contesto probabilistica (PCFG) per modellare gli output degli LLM, ottenendo una tassonomia raffinata dell'incertezza. Troviamo che i segnali di incertezza sono dipendenti dal compito (ad esempio, entropia grammaticale per la logica, AUROC>0,93). Infine, una fusione leggera di questi segnali consente una verifica selettiva, riducendo drasticamente gli errori (14-100%) con un minimo di astensione, trasformando la formalizzazione guidata dagli LLM in una disciplina ingegneristica affidabile.
Gli agenti AI sono sempre più utilizzati in applicazioni rivolte ai consumatori per assistere in attività come la ricerca di prodotti, la negoziazione e l'esecuzione di transazioni. In questo articolo, esploriamo uno scenario futuro in cui sia i consumatori che i commercianti autorizzano gli agenti AI ad automatizzare completamente negoziazioni e transazioni. Miriamo a rispondere a due domande chiave: (1) Gli agenti LLM differiscono nella loro capacità di ottenere accordi vantaggiosi per gli utenti? (2) Quali rischi derivano dall'automatizzazione completa della stipula di accordi con agenti AI nei mercati consumer? Per affrontare queste domande, sviluppiamo un framework sperimentale che valuta le prestazioni di vari agenti LLM in contesti reali di negoziazione e transazione. I nostri risultati rivelano che la stipula di accordi mediata da AI è un gioco intrinsecamente squilibrato: diversi agenti ottengono risultati significativamente diversi per i loro utenti. Inoltre, anomalie comportamentali negli LLM possono portare a perdite finanziarie sia per i consumatori che per i commercianti, come spese eccessive o l'accettazione di accordi irragionevoli. Questi risultati sottolineano che, sebbene l'automazione possa migliorare l'efficienza, introduce anche rischi sostanziali. Gli utenti dovrebbero esercitare cautela quando delegano decisioni commerciali agli agenti AI.
Le capacità emergenti dei grandi modelli linguistici (LLM) hanno suscitato preoccupazioni riguardo al loro potenziale immediato di uso dannoso. L'approccio principale per mitigare queste preoccupazioni è il rilevamento di query dannose rivolte al modello. Gli attuali metodi di rilevamento sono fallibili e particolarmente vulnerabili ad attacchi che sfruttano una generalizzazione non allineata delle capacità del modello (ad esempio, prompt in lingue a bassa risorsa o prompt forniti in modalità non testuali come immagini e audio). Per affrontare questa sfida, proponiamo OMNIGUARD, un approccio per il rilevamento di prompt dannosi attraverso lingue e modalità. Il nostro metodo (i) identifica le rappresentazioni interne di un LLM/MLLM che sono allineate tra lingue o modalità e poi (ii) le utilizza per costruire un classificatore indipendente dalla lingua o dalla modalità per rilevare prompt dannosi. OMNIGUARD migliora l'accuratezza della classificazione dei prompt dannosi dell'11,57% rispetto al baseline più forte in un contesto multilingue, del 20,44% per prompt basati su immagini e stabilisce un nuovo stato dell'arte per prompt basati su audio. Riusando gli embedding calcolati durante la generazione, OMNIGUARD è anche molto efficiente (circa 120 volte più veloce del baseline più rapido successivo). Codice e dati sono disponibili su: https://github.com/vsahil/OmniGuard.
Il Recupero di Casi Legali (Legal Case Retrieval, LCR), che consiste nel recuperare casi rilevanti a partire da un caso query, è un compito fondamentale per i professionisti del diritto nella ricerca e nel processo decisionale. Tuttavia, gli studi esistenti sull’LCR presentano due principali limitazioni. In primo luogo, vengono valutati su corpora di recupero relativamente piccoli (ad esempio, 100-55K casi) e utilizzano un numero limitato di tipologie di query penali, il che non riflette adeguatamente la complessità degli scenari reali di recupero legale. In secondo luogo, la loro dipendenza da metodi basati su embedding o corrispondenza lessicale spesso porta a rappresentazioni limitate e corrispondenze legalmente irrilevanti. Per affrontare questi problemi, presentiamo: (1) LEGAR BENCH, il primo benchmark su larga scala per l’LCR coreano, che copre 411 tipologie di reato nelle query su 1,2 milioni di casi legali; e (2) LegalSearchLM, un modello di recupero che esegue un ragionamento sugli elementi legali del caso query e genera direttamente contenuti basati sui casi target attraverso un decoding vincolato. I risultati sperimentali mostrano che LegalSearchLM supera i modelli di riferimento del 6-20% su LEGAR BENCH, raggiungendo prestazioni all’avanguardia. Dimostra inoltre una forte generalizzazione su casi fuori dominio, superando i modelli generativi semplici addestrati su dati in dominio del 15%.
Una limitazione dei moderni metodi di embedding per il recupero di documenti è che tipicamente codificano i passaggi (chunk) provenienti dagli stessi documenti in modo indipendente, spesso trascurando informazioni contestuali cruciali provenienti dal resto del documento che potrebbero migliorare notevolmente le rappresentazioni dei singoli chunk. In questo lavoro, introduciamo ConTEB (Context-aware Text Embedding Benchmark), un benchmark progettato per valutare i modelli di recupero sulla loro capacità di sfruttare il contesto a livello di documento. I nostri risultati mostrano che i modelli di embedding all'avanguardia faticano negli scenari di recupero in cui è richiesto il contesto. Per affrontare questa limitazione, proponiamo InSeNT (In-sequence Negative Training), un nuovo approccio contrastivo di post-addestramento che, combinato con il pooling tardivo dei chunk, migliora l'apprendimento delle rappresentazioni contestuali preservando l'efficienza computazionale. Il nostro metodo migliora significativamente la qualità del recupero su ConTEB senza sacrificare le prestazioni del modello di base. Inoltre, scopriamo che i chunk incorporati con il nostro metodo sono più robusti rispetto a strategie di chunking subottimali e a dimensioni maggiori del corpus di recupero. Rendiamo disponibili tutti gli artefatti in open-source all'indirizzo https://github.com/illuin-tech/contextual-embeddings.
Questo articolo presenta un'analisi completa della diversità linguistica nella ricerca sulla sicurezza dei modelli linguistici di grandi dimensioni (LLM), evidenziando la natura anglofona del campo. Attraverso una revisione sistematica di quasi 300 pubblicazioni dal 2020 al 2024 provenienti dalle principali conferenze e workshop di NLP presso *ACL, identifichiamo un divario linguistico significativo e crescente nella ricerca sulla sicurezza degli LLM, con persino le lingue non inglesi ad alta risorsa che ricevono un'attenzione minima. Osserviamo inoltre che le lingue non inglesi sono raramente studiate come lingue autonome e che la ricerca sulla sicurezza in inglese mostra scarse pratiche di documentazione linguistica. Per incentivare future ricerche sulla sicurezza multilingue, formuliamo diverse raccomandazioni basate sul nostro studio e proponiamo tre direzioni future concrete riguardanti la valutazione della sicurezza, la generazione di dati di addestramento e la generalizzazione della sicurezza cross-linguistica. Sulla base del nostro studio e delle direzioni proposte, il campo può sviluppare pratiche di sicurezza AI più robuste e inclusive per le diverse popolazioni globali.