Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli di ragionamento (LRM) come OpenAI-o1 e DeepSeek-R1 hanno dimostrato capacità notevoli in compiti di ragionamento complesso attraverso l'utilizzo di lunghe catene di pensiero (Chain-of-thought, CoT). Tuttavia, questi modelli spesso soffrono di allucinazioni e inefficienze a causa della loro dipendenza esclusiva da processi di ragionamento interni. In questo articolo, introduciamo START (Self-Taught Reasoner with Tools), un nuovo modello di ragionamento LLM integrato con strumenti esterni che migliora significativamente le capacità di ragionamento sfruttando strumenti esterni. Attraverso l'esecuzione di codice, START è in grado di eseguire calcoli complessi, auto-verificarsi, esplorare metodi diversi e auto-debuggare, affrontando così i limiti dei LRM. L'innovazione principale di START risiede nel suo framework di auto-apprendimento, che comprende due tecniche chiave: 1) Hint-infer: dimostriamo che l'inserimento di suggerimenti progettati artificialmente (ad esempio, "Aspetta, forse usare Python qui è una buona idea") durante il processo di inferenza di un LRM stimola efficacemente la sua capacità di utilizzare strumenti esterni senza la necessità di dati dimostrativi. Hint-infer può anche servire come metodo semplice ed efficace di scalatura sequenziale in fase di test; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combina Hint-infer e RFT valutando, filtrando e modificando le traiettorie di ragionamento con l'invocazione di strumenti generate da un LRM tramite Hint-infer, seguito dal fine-tuning del LRM. Attraverso questo framework, abbiamo effettuato il fine-tuning del modello QwQ-32B per ottenere START. Su QA scientifici di livello PhD (GPQA), benchmark matematici di livello competitivo (AMC23, AIME24, AIME25) e il benchmark di codice di livello competitivo (LiveCodeBench), START raggiunge tassi di accuratezza rispettivamente del 63,6%, 95,0%, 66,7%, 47,1% e 47,3%. Supera significativamente il modello base QwQ-32B e raggiunge prestazioni comparabili al modello open-weight all'avanguardia R1-Distill-Qwen-32B e al modello proprietario o1-Preview.
I recenti progressi nei modelli linguistici multimodali basati su video (Video-LLMs) hanno migliorato significativamente la comprensione dei video elaborandoli come sequenze di fotogrammi. Tuttavia, molti metodi esistenti trattano i fotogrammi in modo indipendente nel backbone visivo, senza un'esplicita modellazione temporale, il che limita la loro capacità di catturare modelli dinamici e gestire in modo efficiente video lunghi. Per affrontare queste limitazioni, introduciamo STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), una nuova architettura che incorpora un encoder temporale dedicato tra l'encoder di immagini e l'LLM. Il nostro encoder temporale sfrutta il Mamba State Space Model per integrare informazioni temporali nei token di immagini, generando rappresentazioni arricchite che preservano le dinamiche inter-fotogramma lungo l'intera sequenza video. Questa codifica arricchita non solo migliora le capacità di ragionamento sui video, ma consente anche strategie efficaci di riduzione dei token, inclusi il campionamento in fase di test e il pooling temporale e spaziale basato sul training, riducendo sostanzialmente le richieste computazionali sull'LLM senza sacrificare informazioni temporali chiave. Integrando queste tecniche, il nostro approccio riduce simultaneamente la latenza di training e inferenza migliorando le prestazioni, consentendo una comprensione efficiente e robusta dei video in contesti temporali estesi. Valutazioni estensive dimostrano che STORM raggiunge risultati all'avanguardia su vari benchmark di comprensione di video lunghi (più del 5% di miglioramento su MLVU e LongVideoBench) riducendo i costi computazionali fino a 8 volte e la latenza di decodifica di 2,4-2,9 volte per un numero fisso di fotogrammi in input. La pagina del progetto è disponibile all'indirizzo https://research.nvidia.com/labs/lpr/storm.
I recenti progressi nei sistemi di dialogo da voce a voce sfruttano i LLM per interazioni multimodali, ma rimangono limitati dalla necessità di fine-tuning, dall'elevato overhead computazionale e dal disallineamento testo-voce. Gli LLM abilitati per la voce spesso degradano la qualità della conversazione modificando il LLM, compromettendo così le sue capacità linguistiche. Al contrario, proponiamo LLMVoX, un sistema TTS streaming autoregressivo leggero da 30M parametri, agnostico rispetto al LLM, che genera voce di alta qualità con bassa latenza, preservando pienamente le capacità del LLM di base. Il nostro approccio ottiene un tasso di errore sulle parole significativamente inferiore rispetto agli LLM abilitati per la voce, operando con una latenza e un punteggio UTMOS comparabili. Disaccoppiando la sintesi vocale dall'elaborazione del LLM tramite un sistema di streaming di token multi-coda, LLMVoX supporta dialoghi fluidi e di lunghezza infinita. Il suo design plug-and-play facilita anche l'estensione a vari compiti con diversi backbone. Inoltre, LLMVoX si generalizza a nuove lingue con solo l'adattamento del dataset, raggiungendo un basso tasso di errore sui caratteri in un compito di riconoscimento vocale in arabo. Abbiamo inoltre integrato LLMVoX con un modello visione-linguaggio per creare un modello omni con capacità di voce, testo e visione, senza richiedere ulteriore training multimodale. La nostra base di codice e la pagina del progetto sono disponibili all'indirizzo https://mbzuai-oryx.github.io/LLMVoX.
Presentiamo EgoLife, un progetto per sviluppare un assistente personale egocentrico che accompagna e migliora l'efficienza personale attraverso occhiali indossabili alimentati da intelligenza artificiale. Per gettare le basi di questo assistente, abbiamo condotto uno studio completo di raccolta dati in cui sei partecipanti hanno vissuto insieme per una settimana, registrando continuamente le loro attività quotidiane - tra cui discussioni, acquisti, cucina, socializzazione e intrattenimento - utilizzando occhiali AI per la cattura video egocentrica multimodale, insieme a riferimenti video sincronizzati in terza persona. Questo sforzo ha portato alla creazione dell'EgoLife Dataset, un dataset completo di 300 ore di vita quotidiana egocentrica, interpersonale, multiview e multimodale con annotazioni intensive. Sfruttando questo dataset, introduciamo EgoLifeQA, una suite di task di question-answering a lungo contesto orientati alla vita quotidiana, progettati per fornire un'assistenza significativa nella vita di tutti i giorni affrontando domande pratiche come il richiamo di eventi passati rilevanti, il monitoraggio delle abitudini di salute e l'offerta di raccomandazioni personalizzate. Per affrontare le principali sfide tecniche di (1) sviluppare modelli audio-visivi robusti per dati egocentrici, (2) abilitare il riconoscimento dell'identità e (3) facilitare il question-answering a lungo contesto su informazioni temporali estese, introduciamo EgoButler, un sistema integrato che comprende EgoGPT e EgoRAG. EgoGPT è un modello omni-modale addestrato su dataset egocentrici, che raggiunge prestazioni all'avanguardia nella comprensione video egocentrica. EgoRAG è un componente basato su retrieval che supporta la risposta a domande a contesto ultra-lungo. I nostri studi sperimentali verificano i loro meccanismi di funzionamento e rivelano fattori critici e colli di bottiglia, guidando i miglioramenti futuri. Rilasciando i nostri dataset, modelli e benchmark, miriamo a stimolare ulteriori ricerche sugli assistenti AI egocentrici.
Man mano che i modelli linguistici di grandi dimensioni diventano sempre più responsabili dei contenuti online, sorgono preoccupazioni riguardo all'impatto del processamento ripetuto dei loro stessi output. Ispirati dall'effetto del "telefono senza fili" nella comunicazione umana in catena, questo studio indaga se i modelli linguistici distorcano analogamente le informazioni attraverso la generazione iterativa. Attraverso esperimenti basati sulla traduzione, scopriamo che la distorsione si accumula nel tempo, influenzata dalla scelta della lingua e dalla complessità della catena. Sebbene il degrado sia inevitabile, può essere mitigato attraverso tecniche strategiche di prompting. Questi risultati contribuiscono alle discussioni sugli effetti a lungo termine della propagazione delle informazioni mediate dall'IA, sollevando importanti interrogativi sull'affidabilità dei contenuti generati dai modelli linguistici in flussi di lavoro iterativi.
Comprendere e ragionare su suoni non vocali e musica è fondamentale sia per gli esseri umani che per gli agenti di intelligenza artificiale per interagire efficacemente con il loro ambiente. In questo articolo, presentiamo Audio Flamingo 2 (AF2), un modello audio-linguistico (ALM) con capacità avanzate di comprensione e ragionamento audio. AF2 sfrutta (i) un modello CLAP personalizzato, (ii) dati sintetici di domande e risposte audio per un ragionamento audio dettagliato, e (iii) una strategia di apprendimento curriculare a più fasi. AF2 raggiunge prestazioni all'avanguardia con un modello linguistico piccolo di soli 3B parametri, superando modelli open-source e proprietari di grandi dimensioni in oltre 20 benchmark. Successivamente, per la prima volta, estendiamo la comprensione audio a segmenti audio lunghi (da 30 secondi a 5 minuti) e proponiamo LongAudio, un ampio e innovativo dataset per l'addestramento di ALM su compiti di descrizione e domande e risposte su audio lunghi. Il fine-tuning di AF2 su LongAudio porta a prestazioni eccezionali sul nostro LongAudioBench, un benchmark annotato da esperti per valutare le capacità di comprensione audio lunga degli ALM. Conduttiamo ampi studi di ablazione per confermare l'efficacia del nostro approccio. Sito web del progetto: https://research.nvidia.com/labs/adlr/AF2/.
La valutazione efficace delle capacità di ragionamento dei grandi modelli linguistici (LLM) è soggetta a sovrastima a causa dell'esposizione dei benchmark di valutazione ai dati. Introduciamo un framework per la produzione di problemi di ragionamento linguistico che riduce l'effetto della memorizzazione nelle stime delle prestazioni del modello e applichiamo questo framework per sviluppare LINGOLY-TOO, un benchmark di valutazione impegnativo per il ragionamento linguistico. Sviluppando modelli ortografici, oscuriamo dinamicamente i sistemi di scrittura delle lingue reali per generare numerose variazioni di domande. Queste variazioni preservano i passaggi di ragionamento necessari per ogni soluzione, riducendo al contempo la probabilità che specifiche istanze di problemi compaiano nei dati di addestramento del modello. I nostri esperimenti dimostrano che i modelli all'avanguardia, tra cui OpenAI o1-preview e DeepSeem R1, hanno difficoltà con il ragionamento avanzato. La nostra analisi mostra inoltre che i LLM presentano una variazione significativa nell'accuratezza tra le permutazioni dello stesso problema e, in media, ottengono risultati migliori sulle domande che appaiono nella loro ortografia originale. I nostri risultati evidenziano la natura opaca della generazione delle risposte nei LLM e forniscono prove che la precedente esposizione ai dati contribuisce a sovrastimare le capacità di ragionamento dei modelli all'avanguardia.
Stabiliamo rigorosamente una legge di scala dell'informazione mutua bipartita nel linguaggio naturale che governa le dipendenze a lungo raggio. Questa legge di scala, che dimostriamo essere distinta e scalare indipendentemente dalla convenzionale informazione mutua a due punti, è la chiave per comprendere la modellazione del linguaggio a contesto lungo. Utilizzando questa legge di scala, formuliamo la condizione di Modellazione del Linguaggio a Contesto Lungo (L^2M), che collega la capacità di un modello di modellare efficacemente contesti lunghi alla scala della dimensione del suo stato latente per memorizzare informazioni passate. I nostri risultati sono validati attraverso esperimenti su modelli sia di tipo transformer che a spazio di stati. Questo lavoro stabilisce una fondazione teorica che guida lo sviluppo di modelli linguistici di grandi dimensioni verso contesti più lunghi.
Presentiamo IFIR, il primo benchmark completo progettato per valutare il recupero delle informazioni basato su istruzioni (IR) in domini specialistici. IFIR include 2.426 esempi di alta qualità e copre otto sottoinsiemi in quattro domini specializzati: finanza, diritto, sanità e letteratura scientifica. Ogni sottoinsieme affronta uno o più compiti di recupero specifici del dominio, replicando scenari reali in cui istruzioni personalizzate sono cruciali. IFIR consente un'analisi dettagliata delle capacità di recupero basato su istruzioni incorporando istruzioni a diversi livelli di complessità. Proponiamo inoltre un nuovo metodo di valutazione basato su LLM per fornire una valutazione più precisa e affidabile delle prestazioni del modello nel seguire le istruzioni. Attraverso esperimenti estesi su 15 modelli di recupero all'avanguardia, inclusi quelli basati su LLM, i nostri risultati rivelano che i modelli attuali affrontano sfide significative nel seguire efficacemente istruzioni complesse e specifiche del dominio. Forniamo ulteriori analisi approfondite per evidenziare queste limitazioni, offrendo spunti preziosi per guidare i futuri progressi nello sviluppo dei sistemi di recupero.
I Transformer sono diventati l'architettura di fatto per un'ampia gamma di compiti di machine learning, in particolare nei grandi modelli linguistici (LLM). Nonostante le loro prestazioni notevoli, rimangono sfide nell'addestramento di reti Transformer profonde, specialmente riguardo alla posizione della normalizzazione a strati (layer normalization). Sebbene le strutture Pre-Norm facilitino un addestramento più semplice grazie al loro percorso identitario più prominente, spesso producono prestazioni subottimali rispetto al Post-Norm. In questo articolo, proponiamo HybridNorm, una strategia di normalizzazione ibrida semplice ma efficace che integra i vantaggi sia dell'approccio Pre-Norm che Post-Norm. Nello specifico, HybridNorm utilizza la normalizzazione QKV all'interno del meccanismo di attenzione e Post-Norm nella rete feed-forward (FFN) di ogni blocco Transformer. Questo design non solo stabilizza l'addestramento ma migliora anche le prestazioni, specialmente nel contesto degli LLM. Esperimenti completi sia in architetture dense che sparse dimostrano che HybridNorm supera costantemente entrambi gli approcci Pre-Norm e Post-Norm, raggiungendo risultati all'avanguardia in vari benchmark. Questi risultati evidenziano il potenziale di HybridNorm come tecnica più stabile ed efficace per migliorare l'addestramento e le prestazioni di modelli Transformer profondi. %Il codice sarà reso pubblicamente disponibile. Il codice è disponibile su https://github.com/BryceZhuo/HybridNorm.
Presentiamo FuseChat-3.0, una suite di modelli linguistici di grandi dimensioni (LLM) sviluppata integrando i punti di forza di LLM eterogenei di origine in LLM target più compatti. I nostri modelli di origine includono il potente Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct e Llama-3.1-70B-Instruct. Per i modelli target, ci concentriamo su tre varianti più piccole ampiamente utilizzate—Llama-3.1-8B-Instruct, Gemma-2-9B-it e Qwen-2.5-7B-Instruct—insieme a due opzioni ultra-compatte, Llama-3.2-3B-Instruct e Llama-3.2-1B-Instruct. Per sfruttare le diverse capacità di questi modelli di origine, sviluppiamo un protocollo specializzato per la costruzione dei dati, adattato a vari compiti e domini. La pipeline di addestramento di FuseChat-3.0 consiste in due fasi chiave: (1) fine-tuning supervisionato (SFT) per allineare le distribuzioni dei modelli target e di origine, e (2) Direct Preference Optimization (DPO) per applicare le preferenze di più LLM di origine al fine-tuning del modello target. I modelli FuseChat-3.0 risultanti mostrano miglioramenti significativi in compiti come il seguire istruzioni, la conoscenza generale, la matematica e la programmazione. Come illustrato nella Figura 1, utilizzando Llama-3.1-8B-Instruct come modello target, il nostro approccio di fusione ottiene un miglioramento medio di 6,8 punti su 14 benchmark. Inoltre, dimostra guadagni notevoli di 37,1 punti e 30,1 punti rispettivamente sui benchmark di seguire istruzioni AlpacaEval-2 e Arena-Hard. Il nostro codice, modelli e dataset sono disponibili all'indirizzo https://github.com/SLIT-AI/FuseChat-3.0.
Presentiamo Pok\'eChamp, un agente minimax alimentato da Modelli Linguistici di Grande Scala (LLM) per le battaglie Pok\'emon. Costruito su un framework generale per giochi competitivi a due giocatori, Pok\'eChamp sfrutta le capacità generaliste degli LLM per potenziare la ricerca ad albero minimax. Nello specifico, gli LLM sostituiscono tre moduli chiave: (1) campionamento delle azioni del giocatore, (2) modellazione dell'avversario e (3) stima della funzione di valore, consentendo all'agente di utilizzare efficacemente la cronologia di gioco e la conoscenza umana per ridurre lo spazio di ricerca e affrontare la parziale osservabilità. È importante notare che il nostro framework non richiede ulteriori addestramenti degli LLM. Valutiamo Pok\'eChamp nel popolare formato Gen 9 OU. Quando alimentato da GPT-4o, raggiunge un tasso di vittoria del 76% contro il miglior bot basato su LLM esistente e dell'84% contro il più forte bot basato su regole, dimostrando una performance superiore. Anche con un modello open-source Llama 3.1 da 8 miliardi di parametri, Pok\'eChamp supera costantemente il precedente miglior bot basato su LLM, Pok\'ellmon alimentato da GPT-4o, con un tasso di vittoria del 64%. Pok\'eChamp raggiunge un Elo proiettato di 1300-1500 sulla scala online di Pok\'emon Showdown, collocandosi tra il 30% e il 10% dei migliori giocatori umani. Inoltre, questo lavoro raccoglie il più grande dataset di battaglie Pok\'emon reali, con oltre 3 milioni di partite, inclusi più di 500k match ad alto Elo. Basandoci su questo dataset, stabiliamo una serie di benchmark e puzzle di battaglia per valutare specifiche abilità di combattimento. Forniamo inoltre aggiornamenti chiave al motore di gioco locale. Speriamo che questo lavoro favorisca ulteriori ricerche che utilizzino le battaglie Pok\'emon come benchmark per integrare le tecnologie LLM con algoritmi di teoria dei giochi che affrontano problemi multiagente generali. Video, codice e dataset disponibili su https://sites.google.com/view/pokechamp-llm.
Le allucinazioni nei LLM rappresentano una preoccupazione significativa per il loro impiego sicuro in applicazioni del mondo reale. Approcci recenti hanno sfruttato lo spazio latente dei LLM per il rilevamento delle allucinazioni, ma i loro embedding, ottimizzati per la coerenza linguistica piuttosto che per l'accuratezza fattuale, spesso non riescono a separare chiaramente contenuti veritieri e allucinati. A tal fine, proponiamo il Vettore Separatore di Veridicità (TSV), un vettore di controllo leggero e flessibile che rimodella lo spazio di rappresentazione del LLM durante l'inferenza per migliorare la separazione tra output veritieri e allucinati, senza alterare i parametri del modello. Il nostro framework a due stadi addestra inizialmente il TSV su un piccolo insieme di esempi etichettati per formare cluster compatti e ben separati. Successivamente, arricchisce l'insieme di esempi con generazioni non etichettate del LLM, impiegando un algoritmo basato sul trasporto ottimale per l'assegnazione di pseudo-etichette combinato con un processo di filtraggio basato sulla confidenza. Esperimenti estensivi dimostrano che il TSV raggiunge prestazioni all'avanguardia con un minimo di dati etichettati, mostrando una forte generalizzazione tra diversi dataset e fornendo una soluzione pratica per applicazioni reali dei LLM.
I recenti progressi nella generazione testo-video (T2V) sono stati guidati da due paradigmi concorrenti: modelli linguistici autoregressivi e modelli di diffusione. Tuttavia, ciascun paradigma presenta limitazioni intrinseche: i modelli linguistici faticano con la qualità visiva e l'accumulo di errori, mentre i modelli di diffusione mancano di comprensione semantica e modellazione causale. In questo lavoro, proponiamo LanDiff, un framework ibrido che sinergizza i punti di forza di entrambi i paradigmi attraverso una generazione da grossolana a fine. La nostra architettura introduce tre innovazioni chiave: (1) un tokenizer semantico che comprime le caratteristiche visive 3D in rappresentazioni discrete 1D compatte attraverso una compressione semantica efficiente, raggiungendo un rapporto di compressione di 14.000 volte; (2) un modello linguistico che genera token semantici con relazioni semantiche di alto livello; (3) un modello di diffusione in streaming che affina la semantica grossolana in video ad alta fedeltà. Gli esperimenti mostrano che LanDiff, un modello da 5B, ottiene un punteggio di 85.43 sul benchmark VBench T2V, superando i modelli open-source all'avanguardia Hunyuan Video (13B) e altri modelli commerciali come Sora, Keling e Hailuo. Inoltre, il nostro modello raggiunge anche prestazioni all'avanguardia nella generazione di video lunghi, superando altri modelli open-source in questo campo. La nostra demo è disponibile all'indirizzo https://landiff.github.io/.
Il Mixture-of-Experts (MoE) migliora le prestazioni del modello mantenendo l'efficienza computazionale, rendendolo particolarmente adatto per applicazioni su larga scala. Tuttavia, nell'attuale paradigma MoE, ogni esperto opera individualmente, limitando così interazioni di alta qualità tra esperti. Inoltre, non è stato efficacemente esteso ai blocchi di attenzione, il che ostacola ulteriori miglioramenti in termini di efficienza. Per affrontare questi problemi, proponiamo Union-of-Experts (UoE), che scompone il transformer in un gruppo equivalente di esperti e implementa un routing dinamico sui dati di input e sugli esperti. Il nostro approccio avanza il design MoE con tre innovazioni chiave: (1) Abbiamo eseguito una scomposizione equivalente degli esperti sia sui blocchi MLP che sui blocchi di attenzione, basandoci sulla partizione matriciale nel parallelismo tensoriale. (2) Abbiamo sviluppato due paradigmi di routing: selezione dati a livello di patch e selezione degli esperti, per applicare il routing a diversi livelli. (3) Abbiamo progettato l'architettura del modello UoE, inclusa l'Attention Multi-Head Selettiva (SMHA) e l'Union-of-MLP-Experts (UoME). (4) Abbiamo implementato in parallelo le operazioni di routing e calcolo di UoE, ottimizzando l'efficienza basandoci sull'analisi dell'elaborazione hardware. Gli esperimenti dimostrano che il modello impiegato con UoE supera l'Attention Completa, i MoE all'avanguardia e i transformer efficienti in diverse attività nei domini delle immagini e del linguaggio naturale. I codici sorgenti sono disponibili all'indirizzo https://github.com/YujiaoYang-work/UoE.
Il servizio di grandi modelli linguistici (LLM) è costoso. Tuttavia, la quantizzazione dei pesi post-addestramento può affrontare questo problema comprimendo le loro dimensioni per una memoria limitata e risparmiando larghezza di banda per l'accelerazione. Poiché non tutte le dimensioni dei pesi sono ugualmente importanti, questi metodi si basano tipicamente su una metrica di sensibilità, che indica l'influenza elemento per elemento dei pesi sulla funzione di perdita e viene utilizzata per preprocessare i pesi originali per una migliore quantizzazione. In questo lavoro, conduciamo uno studio empirico sull'accuratezza della metrica di sensibilità e scopriamo che le metriche esistenti basate su gradiente e Hessiana sono molto imprecise: sottostimano l'impatto della quantizzazione sulla funzione di perdita di ordini di grandezza, principalmente a causa del piccolo raggio di convergenza dell'approssimazione locale del secondo ordine, \ie, il termine del gradiente e dell'Hessiana nella formula di Taylor. Per affrontare questo problema, proponiamo Post-quantization Integral (PQI), una metrica accurata per stimare la sensibilità posteriore in modo fine. Per sfruttare questa metrica accurata, proponiamo ulteriormente ReQuant, un framework semplice ma potente che consiste principalmente di due componenti Dense-and-Sparse detach: selezione autonoma di outlier e distacco graduale dei pesi significativi. I risultati mostrano che ReQuant migliora i metodi di quantizzazione post-addestramento all'avanguardia, con un miglioramento pronunciato di 2.66 punti di perplessità su Llama 3.2 1B con QTIP.
Lo scaling al momento dell'inferenza è stato fondamentale per il successo di modelli recenti come OpenAI o1 e DeepSeek R1. Tuttavia, molte tecniche utilizzate per addestrare modelli per lo scaling al momento dell'inferenza richiedono che i compiti abbiano risposte verificabili, limitando la loro applicazione a domini come la matematica, la programmazione e il ragionamento logico. Traiamo ispirazione dal modo in cui gli esseri umani fanno primi tentativi, chiedono feedback dettagliati ad altri e apportano miglioramenti basati su tali feedback in un'ampia gamma di attività aperte. A tal fine, raccogliamo dati e addestriamo modelli dedicati per il Feedback e l'Editing, in grado di eseguire lo scaling al momento dell'inferenza per compiti generali e aperti. Nel nostro setup, un modello genera una risposta iniziale, che riceve feedback da un secondo modello, che vengono poi utilizzati da un terzo modello per modificare la risposta. Dimostriamo che le prestazioni su Arena Hard, un benchmark fortemente predittivo del Chatbot Arena Elo, possono essere migliorate scalando il numero di bozze di risposta iniziali, feedback efficaci e risposte modificate. Quando scalato in modo ottimale, il nostro setup basato su modelli da 70B della famiglia Llama 3 può raggiungere prestazioni SoTA su Arena Hard con un punteggio di 92.7 al 5 marzo 2025, superando OpenAI o1-preview-2024-09-12 con 90.4 e DeepSeek R1 con 92.3.
I grandi modelli linguistici (LLM) hanno ottenuto un successo straordinario nella traduzione automatica, dimostrando prestazioni impressionanti in diverse lingue. Tuttavia, il "translationese", caratterizzato da traduzioni eccessivamente letterali e innaturali, rimane una sfida persistente nei sistemi di traduzione basati su LLM. Nonostante il pre-addestramento su vasti corpora di espressioni naturali, gli LLM presentano errori di translationese e generano traduzioni innaturali inaspettate, derivanti da bias introdotti durante la messa a punto supervisionata (SFT). In questo lavoro, valutiamo sistematicamente la prevalenza del translationese nelle traduzioni generate da LLM e ne indaghiamo le radici durante l'addestramento supervisionato. Introduciamo metodi per mitigare questi bias, tra cui la rifinitura delle referenze auree e il filtraggio delle istanze di addestramento innaturali. Le valutazioni empiriche dimostrano che questi approcci riducono significativamente il translationese migliorando la naturalezza delle traduzioni, convalidato da valutazioni umane e metriche automatiche. I nostri risultati evidenziano la necessità di adattamenti consapevoli dell'addestramento per ottimizzare gli output di traduzione degli LLM, aprendo la strada a traduzioni più fluide e coerenti con la lingua target. Rilasciamo i dati e il codice su https://github.com/yafuly/LLM_Translationese.
Risolvere in modo efficiente i problemi inversi bayesiani rimane una sfida significativa a causa della complessità delle distribuzioni a posteriori e del costo computazionale dei metodi di campionamento tradizionali. Dati una serie di osservazioni e il modello diretto, vogliamo ricostruire la distribuzione dei parametri, condizionata ai dati sperimentali osservati. Dimostriamo che, combinando il Conditional Flow Matching (CFM) con un'architettura basata su transformer, possiamo campionare in modo efficiente da questo tipo di distribuzione, condizionata a un numero variabile di osservazioni.
Mentre il trasferimento crosslinguistico è cruciale per le capacità multilingue dei modelli linguistici contemporanei, il modo in cui avviene non è ben compreso. In questo articolo, ci chiediamo cosa succede a un modello linguistico monolingue quando inizia a essere addestrato su una seconda lingua. Nello specifico, addestriamo piccoli modelli bilingue per i quali controlliamo la quantità di dati per ciascuna lingua e l'ordine di esposizione alle lingue. Per trovare prove di rappresentazioni multilingue condivise, ci rivolgiamo al priming strutturale, un metodo utilizzato per studiare le rappresentazioni grammaticali negli esseri umani. In primo luogo, replichiamo i risultati precedenti sul priming strutturale crosslinguistico e scopriamo che, dopo aver controllato la quantità di dati di addestramento e l'esposizione alle lingue, ci sono effetti asimmetrici tra coppie di lingue e direzioni. Sosteniamo che questa asimmetria potrebbe influenzare le ipotesi sugli effetti del priming strutturale negli esseri umani. Troviamo inoltre che gli effetti del priming strutturale sono meno robusti per coppie di lingue meno simili, evidenziando potenziali limiti del trasferimento crosslinguistico e delle rappresentazioni condivise per lingue tipologicamente diverse.
I progetti software prosperano grazie al coinvolgimento e ai contributi di individui provenienti da contesti diversi. Tuttavia, un linguaggio tossico e interazioni negative possono ostacolare la partecipazione e la fidelizzazione dei collaboratori, oltre a scoraggiare i nuovi arrivati. Le strategie di moderazione proattiva mirano a prevenire la tossicità intervenendo sulle conversazioni che si sono deviate dal loro scopo originario. Questo studio si propone di comprendere e prevedere la deriva conversazionale che porta alla tossicità su GitHub. Per facilitare questa ricerca, abbiamo curato un nuovo dataset composto da 202 conversazioni tossiche provenienti da GitHub, con punti di deriva annotati, insieme a 696 conversazioni non tossiche come baseline. Sulla base di questo dataset, abbiamo identificato caratteristiche uniche delle conversazioni tossiche e dei punti di deriva, inclusi marcatori linguistici come pronomi di seconda persona, termini di negazione e toni di Amarezza, Frustrazione e Impazienza, oltre a modelli nelle dinamiche conversazionali tra i collaboratori del progetto e i partecipanti esterni. Sfruttando queste osservazioni empiriche, proponiamo un approccio di moderazione proattiva per rilevare e affrontare automaticamente le conversazioni potenzialmente dannose prima che si intensifichino. Utilizzando moderni LLM, sviluppiamo una tecnica di riepilogo della traiettoria conversazionale che cattura l'evoluzione delle discussioni e identifica i primi segnali di deriva. I nostri esperimenti dimostrano che i prompt LLM progettati per fornire riepiloghi delle conversazioni su GitHub raggiungono un punteggio F1 del 69% nella previsione della deriva conversazionale, migliorando significativamente rispetto a un insieme di approcci baseline.