Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sono recentemente emersi come una potente alternativa ai modelli linguistici autoregressivi, offrendo inferenze più veloci e una maggiore interattività grazie al decoding parallelo e alla modellazione bidirezionale. Tuttavia, nonostante le prestazioni solide nella generazione di codice e nel riempimento di testo, identifichiamo un problema di sicurezza fondamentale: i meccanismi di allineamento esistenti non riescono a proteggere i dLLM da prompt avversari basati su input mascherati e contestuali, esponendo nuove vulnerabilità. A tal fine, presentiamo DIJA, il primo studio sistematico e framework di attacco jailbreak che sfrutta le debolezze di sicurezza uniche dei dLLM. Nello specifico, il nostro DIJA costruisce prompt avversari intervallati con maschere e testo che sfruttano i meccanismi di generazione del testo dei dLLM, ovvero la modellazione bidirezionale e il decoding parallelo. La modellazione bidirezionale spinge il modello a produrre output contestualmente coerenti per le parti mascherate, anche quando dannose, mentre il decoding parallelo limita il filtraggio dinamico e il campionamento di rifiuto dei contenuti non sicuri da parte del modello. Ciò fa sì che i meccanismi di allineamento standard falliscano, consentendo completamenti dannosi nei dLLM allineati, anche quando comportamenti dannosi o istruzioni non sicure sono esposti direttamente nel prompt. Attraverso esperimenti completi, dimostriamo che DIJA supera significativamente i metodi jailbreak esistenti, esponendo una superficie di minaccia precedentemente trascurata nelle architetture dLLM. In particolare, il nostro metodo raggiunge fino al 100% di ASR basato su parole chiave su Dream-Instruct, superando il precedente baseline più forte, ReNeLLM, fino al 78,5% in ASR basato su valutatori su JailbreakBench e di 37,7 punti nel punteggio StrongREJECT, senza richiedere riscritture o occultamenti di contenuti dannosi nel prompt jailbreak. Le nostre scoperte sottolineano l'urgente necessità di ripensare l'allineamento della sicurezza in questa nuova classe di modelli linguistici. Il codice è disponibile all'indirizzo https://github.com/ZichenWen1/DIJA.
La sintesi vocale russa presenta sfide distintive, tra cui la riduzione vocalica, la devocalizzazione delle consonanti, i modelli di accento variabili, l'ambiguità degli omografi e l'intonazione innaturale. Questo articolo introduce Balalaika, un nuovo dataset che comprende oltre 2.000 ore di parlato russo di qualità da studio con annotazioni testuali complete, inclusa punteggiatura e marcature dell'accento. I risultati sperimentali mostrano che i modelli addestrati su Balalaika superano significativamente quelli addestrati su dataset esistenti sia nei compiti di sintesi vocale che di miglioramento. Descriviamo nel dettaglio la pipeline di costruzione del dataset, la metodologia di annotazione e i risultati delle valutazioni comparative.
Presentiamo Franca (pronunciato Fran-ka): libera uno; il primo modello di fondazione visiva completamente open-source (dati, codice, pesi) che eguaglia e in molti casi supera le prestazioni dei modelli proprietari all'avanguardia, come DINOv2, CLIP, SigLIPv2, ecc. Il nostro approccio si basa su una pipeline di addestramento trasparente ispirata a Web-SSL e utilizza dati pubblicamente disponibili: ImageNet-21K e un sottoinsieme di ReLAION-2B. Oltre al rilascio del modello, affrontiamo limitazioni critiche nei metodi di clustering SSL. Mentre i modelli moderni si affidano all'assegnazione di caratteristiche delle immagini a grandi codebook tramite algoritmi di clustering come Sinkhorn-Knopp, non tengono conto dell'ambiguità intrinseca nella semantica del clustering. Per risolvere questo problema, introduciamo un proiettore di clustering multi-testa efficiente in termini di parametri basato su rappresentazioni annidate Matryoshka. Questo design affina progressivamente le caratteristiche in cluster sempre più granulari senza aumentare le dimensioni del modello, consentendo sia prestazioni che efficienza di memoria. Inoltre, proponiamo una nuova strategia di disaccoppiamento posizionale che rimuove esplicitamente i bias posizionali dalle rappresentazioni dense, migliorando così la codifica del contenuto semantico. Ciò porta a guadagni consistenti su diversi benchmark downstream, dimostrando l'utilità di spazi di caratteristiche più puliti. I nostri contributi stabiliscono un nuovo standard per modelli visivi trasparenti e ad alte prestazioni e aprono la strada verso modelli di fondazione più riproducibili e generalizzabili per la più ampia comunità AI. Il codice e i checkpoint del modello sono disponibili su https://github.com/valeoai/Franca.
Nell'era dei Modelli Linguistici di Grande Dimensione (LLM), l'allineamento è emerso come un problema fondamentale ma impegnativo nel perseguimento di un'intelligenza artificiale più affidabile, controllabile e capace. Il recente successo dei modelli di ragionamento e dei sistemi di intelligenza conversazionale ha sottolineato il ruolo cruciale dell'apprendimento per rinforzo (RL) nel potenziamento di questi sistemi, stimolando un crescente interesse di ricerca all'intersezione tra RL e allineamento degli LLM. Questo articolo fornisce una revisione completa dei recenti progressi nell'allineamento degli LLM attraverso la lente dell'apprendimento per rinforzo inverso (IRL), enfatizzando le distinzioni tra le tecniche di RL impiegate nell'allineamento degli LLM e quelle nei tradizionali compiti di RL. In particolare, evidenziamo la necessità di costruire modelli di ricompensa neurale a partire da dati umani e discutiamo le implicazioni formali e pratiche di questo cambio di paradigma. Iniziamo introducendo i concetti fondamentali del RL per fornire una base ai lettori non familiari con il campo. Esaminiamo poi i recenti progressi in questa agenda di ricerca, discutendo le principali sfide e opportunità nell'applicazione dell'IRL per l'allineamento degli LLM. Oltre alle considerazioni metodologiche, esploriamo aspetti pratici, inclusi dataset, benchmark, metriche di valutazione, infrastrutture e tecniche di addestramento e inferenza computazionalmente efficienti. Infine, traiamo spunti dalla letteratura sul RL a ricompensa sparsa per identificare domande aperte e potenziali direzioni di ricerca. Sintetizzando i risultati di studi diversi, miriamo a fornire una panoramica strutturata e critica del campo, evidenziare le sfide irrisolte e delineare promettenti direzioni future per migliorare l'allineamento degli LLM attraverso tecniche di RL e IRL.
La separazione di contenuto e stile da una singola immagine, nota come decomposizione contenuto-stile (CSD), consente la ricontestualizzazione del contenuto estratto e la stilizzazione degli stili estratti, offrendo una maggiore flessibilità creativa nella sintesi visiva. Sebbene i recenti metodi di personalizzazione abbiano esplorato la decomposizione esplicita di contenuto e stile, rimangono adattati per i modelli di diffusione. Nel frattempo, il Modellamento Autoregressivo Visivo (VAR) è emerso come una promettente alternativa con un paradigma di predizione su scala successiva, raggiungendo prestazioni comparabili a quelle dei modelli di diffusione. In questo articolo, esploriamo il VAR come framework generativo per la CSD, sfruttando il suo processo di generazione su scala per migliorare la separazione. A tal fine, proponiamo CSD-VAR, un metodo innovativo che introduce tre innovazioni chiave: (1) una strategia di ottimizzazione alternata consapevole della scala che allinea le rappresentazioni di contenuto e stile con le rispettive scale per migliorare la separazione, (2) un metodo di rettifica basato su SVD per mitigare la fuoriuscita di contenuto nelle rappresentazioni di stile, e (3) una memoria Augmented Key-Value (K-V) che migliora la preservazione dell'identità del contenuto. Per valutare questo compito, introduciamo CSD-100, un dataset specificamente progettato per la decomposizione contenuto-stile, che presenta soggetti diversi resi in vari stili artistici. Gli esperimenti dimostrano che CSD-VAR supera gli approcci precedenti, raggiungendo una superiore preservazione del contenuto e fedeltà di stilizzazione.
Questo articolo si concentra sui Modelli Linguistici Multimodali Monolitici (MLLM), che integrano la codifica visiva e la decodifica linguistica in un unico modello. Le strutture e le strategie di pre-addestramento esistenti per gli MLLM monolitici spesso soffrono di ottimizzazione instabile e di oblio catastrofico. Per affrontare queste sfide, la nostra idea chiave è incorporare un nuovo spazio di parametri visivi in un LLM pre-addestrato, consentendo un apprendimento stabile della conoscenza visiva da dati rumorosi tramite il delta tuning. Basandoci su questo principio, introduciamo prima Mono-InternVL, un MLLM monolitico avanzato che incorpora un insieme di esperti visivi attraverso un'architettura multimodale mixture-of-experts. Inoltre, progettiamo un innovativo Pre-addestramento Visivo Endogeno (EViP) per Mono-InternVL per massimizzare le sue capacità visive tramite l'apprendimento progressivo. Mono-InternVL raggiunge prestazioni competitive rispetto agli MLLM esistenti, ma comporta anche un costo dei dati relativamente elevato. Pertanto, presentiamo ulteriormente Mono-InternVL-1.5, un MLLM monolitico più economico e potente, dotato di un EViP migliorato (EViP++). EViP++ introduce ulteriori esperti di attenzione visiva in Mono-InternVL-1.5 e riorganizza il processo di pre-addestramento in modo efficiente. Durante l'inferenza, include un kernel CUDA fuso per accelerare le sue operazioni MoE. Con questi progetti, Mono-InternVL-1.5 riduce significativamente i costi di addestramento e inferenza, mantenendo comunque prestazioni competitive con Mono-InternVL. Per valutare il nostro approccio, conduciamo esperimenti estesi su 15 benchmark. I risultati dimostrano che Mono-InternVL supera gli MLLM monolitici esistenti su 12 dei 15 benchmark, ad esempio, un miglioramento di +114 punti rispetto a Emu3 su OCRBench. Rispetto alla sua controparte modulare, ovvero InternVL-1.5, Mono-InternVL-1.5 raggiunge prestazioni multimodali simili riducendo la latenza del primo token fino al 69%. Codice e modelli sono rilasciati su https://github.com/OpenGVLab/Mono-InternVL.
La previsione di token mascherati è emersa come un potente obiettivo di pre-training attraverso linguaggio, visione e parlato, offrendo il potenziale di unificare queste diverse modalità attraverso un singolo compito di pre-training. Tuttavia, la sua applicazione per la comprensione audio generale rimane poco esplorata, con BEATs come unico esempio significativo. BEATs ha subito modifiche limitate a causa dell'assenza di codice open-source per il pre-training. Inoltre, BEATs è stato addestrato solo su AudioSet, limitando la sua applicabilità downstream più ampia. Per colmare queste lacune, presentiamo OpenBEATs, un framework open-source che estende BEATs attraverso il pre-training audio multi-dominio. Eseguiamo valutazioni complete su sei tipi di compiti, venticinque dataset e tre domini audio, inclusi compiti di ragionamento audio come risposta a domande audio, implicazione e descrizione. OpenBEATs raggiunge prestazioni all'avanguardia su sei dataset di bioacustica, due dataset di suoni ambientali e cinque dataset di ragionamento, superando modelli con oltre un miliardo di parametri con un quarto delle loro dimensioni. Questi risultati dimostrano l'efficacia dei dataset multi-dominio e del compito di previsione di token mascherati per apprendere rappresentazioni audio generiche. Per promuovere ulteriori ricerche e la riproducibilità, rilasciamo tutto il codice di pre-training e valutazione, checkpoint pre-addestrati e fine-tuned, e log di addestramento su https://shikhar-s.github.io/OpenBEATs.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno rivoluzionato la comprensione cross-modale, ma continuano a lottare con le allucinazioni - contenuti fabbricati che contraddicono gli input visivi. I metodi esistenti per mitigare le allucinazioni comportano costi computazionali proibitivi o introducono discrepanze distributive tra i dati di addestramento e gli output del modello. Identifichiamo un'osservazione cruciale: le allucinazioni emergono prevalentemente nelle fasi iniziali della generazione del testo e si propagano attraverso gli output successivi. Per affrontare questo problema, proponiamo **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un framework che elimina la dipendenza dalle annotazioni umane. Nello specifico, inizialmente generiamo coppie di preferenze di alta qualità nel dominio iterativamente campionando gli output del modello, validando l'esistenza degli oggetti attraverso un controllo incrociato con due rilevatori open-vocabulary e classificando le frasi in categorie allucinate/non allucinate. Successivamente, utilizziamo campioni positivi coerenti con il contesto e campioni negativi allucinati per costruire iterativamente dati di preferenza consapevoli del contesto. Infine, addestriamo i modelli utilizzando una funzione di perdita di preferenza consapevole del contesto (C-DPO) che enfatizza l'apprendimento discriminativo a livello di frase, dove le allucinazioni si manifestano inizialmente. I risultati sperimentali mostrano che SENTINEL può ridurre le allucinazioni di oltre il 90\% rispetto al modello originale e supera il precedente metodo state-of-the-art sia nei benchmark sulle allucinazioni che nei benchmark sulle capacità generali, dimostrando la sua superiorità e capacità di generalizzazione. I modelli, i dataset e il codice sono disponibili su https://github.com/pspdada/SENTINEL.
Come principale mezzo di diffusione delle informazioni moderne, i servizi di social networking (SNS) hanno registrato una rapida crescita, ponendo sfide significative per la gestione dei contenuti delle piattaforme e il miglioramento della qualità delle interazioni. Recentemente, lo sviluppo di modelli linguistici di grandi dimensioni (LLM) ha offerto potenziali soluzioni, ma gli studi esistenti si concentrano su compiti isolati, che non solo incontrano un rendimento decrescente dalla scalabilità dei dati all'interno di scenari individuali, ma non riescono nemmeno ad adattarsi in modo flessibile a contesti reali diversi. Per affrontare queste sfide, introduciamo RedOne, un LLM specifico per il dominio, progettato per superare il collo di bottiglia delle prestazioni dei modelli di riferimento a singolo compito e stabilire una base completa per gli SNS. RedOne è stato sviluppato attraverso una strategia di addestramento in tre fasi, costituita da pre-addestramento continuo, fine-tuning supervisionato e ottimizzazione delle preferenze, utilizzando un ampio dataset del mondo reale. Attraverso esperimenti estesi, RedOne mantiene forti capacità generali e raggiunge un miglioramento medio fino al 14,02% su 8 principali compiti SNS e del 7,56% nel benchmark di valutazione bilingue SNS, rispetto ai modelli di base. Inoltre, attraverso test online, RedOne ha ridotto il tasso di esposizione nel rilevamento di contenuti dannosi dell'11,23% e migliorato il tasso di clic nella ricerca post-visualizzazione del 14,95% rispetto ai modelli di riferimento fine-tuned per singoli compiti. Questi risultati stabiliscono RedOne come un robusto LLM specifico per il dominio SNS, dimostrando un'eccellente generalizzazione su vari compiti e una promettente applicabilità in scenari reali.
La valutazione dei grandi modelli linguistici è un compito complesso, per il quale sono state proposte diverse metodologie. L'approccio più comune è l'utilizzo di benchmark automatizzati in cui i modelli linguistici devono rispondere a domande a scelta multipla su vari argomenti. Tuttavia, questo metodo presenta alcune limitazioni, tra cui la più preoccupante è la scarsa correlazione con le valutazioni umane. Un approccio alternativo consiste nel far valutare i modelli direttamente dagli esseri umani. Ciò solleva però problemi di scalabilità, dato il numero elevato e crescente di modelli da valutare, rendendo impraticabile (e costoso) condurre studi tradizionali basati sul reclutamento di valutatori e sulla classificazione delle risposte dei modelli. Un'altra soluzione è l'uso di arene pubbliche, come la popolare LM Arena, in cui qualsiasi utente può liberamente valutare i modelli su qualsiasi domanda e confrontare le risposte di due modelli. I risultati vengono poi elaborati per creare una classifica dei modelli. Un aspetto sempre più importante dei grandi modelli linguistici è il loro consumo energetico, e quindi valutare come la consapevolezza energetica influenzi le decisioni degli utenti nella scelta di un modello è di grande interesse. In questo articolo presentiamo GEA, la Generative Energy Arena, un'arena che incorpora informazioni sul consumo energetico dei modelli nel processo di valutazione. Vengono inoltre presentati i risultati preliminari ottenuti con GEA, che mostrano come, per la maggior parte delle domande, quando gli utenti sono consapevoli del consumo energetico, preferiscono modelli più piccoli ed efficienti dal punto di vista energetico. Ciò suggerisce che, per la maggior parte delle interazioni utente, il costo e l'energia aggiuntivi richiesti dai modelli più complessi e performanti non garantiscono un aumento della qualità percepita delle risposte che giustifichi il loro utilizzo.
Questa ricerca presenta un framework per la gestione quantitativa del rischio in mercati volatili, con un focus specifico sulle metodologie basate sulle expectili applicate all'indice FTSE 100. Le tradizionali misure di rischio come il Value-at-Risk (VaR) hanno dimostrato significative limitazioni durante periodi di stress di mercato, come evidenziato durante la crisi finanziaria del 2008 e i successivi periodi di volatilità. Questo studio sviluppa un framework avanzato basato sulle expectili che affronta le carenze degli approcci convenzionali basati sui quantili, offrendo una maggiore sensibilità alle perdite estreme e una migliore stabilità in condizioni di mercato estreme. La ricerca utilizza un dataset che copre due decenni di rendimenti del FTSE 100, includendo periodi di alta volatilità, crolli di mercato e fasi di ripresa. La nostra metodologia introduce nuove formulazioni matematiche per i modelli di regressione delle expectili, tecniche avanzate per la determinazione delle soglie basate sull'analisi delle serie temporali e procedure robuste di backtesting. I risultati empirici dimostrano che il Value-at-Risk basato sulle expectili (EVaR) supera costantemente le tradizionali misure di VaR a vari livelli di confidenza e in diverse condizioni di mercato. Il framework mostra una performance superiore durante i periodi volatili, con un rischio del modello ridotto e una maggiore accuratezza predittiva. Inoltre, lo studio stabilisce linee guida pratiche per l'implementazione da parte delle istituzioni finanziarie e fornisce raccomandazioni basate su evidenze per la conformità normativa e la gestione del portafoglio. I risultati contribuiscono significativamente alla letteratura sulla gestione del rischio finanziario e offrono strumenti pratici per i professionisti che operano in ambienti di mercato volatili.