Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo studio indaga la fattibilità dell'automatizzazione della codifica clinica in russo, una lingua con risorse biomediche limitate. Presentiamo un nuovo dataset per la codifica ICD, che include campi di diagnosi tratti da cartelle cliniche elettroniche (EHR) annotati con oltre 10.000 entità e più di 1.500 codici ICD unici. Questo dataset funge da benchmark per diversi modelli all'avanguardia, tra cui BERT, LLaMA con LoRA e RAG, con ulteriori esperimenti che esaminano il trasferimento di apprendimento tra domini (da abstract di PubMed a diagnosi mediche) e terminologie (da concetti UMLS a codici ICD). Successivamente, applichiamo il modello con le migliori prestazioni per etichettare un dataset EHR interno contenente storie cliniche di pazienti dal 2017 al 2021. I nostri esperimenti, condotti su un set di test accuratamente curato, dimostrano che l'addestramento con i codici predetti automaticamente porta a un miglioramento significativo dell'accuratezza rispetto ai dati annotati manualmente dai medici. Riteniamo che i nostri risultati offrano preziose intuizioni sul potenziale dell'automatizzazione della codifica clinica in lingue con risorse limitate come il russo, che potrebbe migliorare l'efficienza clinica e l'accuratezza dei dati in questi contesti.
I recenti progressi nell'allineamento delle preferenze umane hanno notevolmente migliorato la generazione e la comprensione multimodale. Un approccio chiave consiste nell'addestrare modelli di ricompensa per guidare l'ottimizzazione delle preferenze. Tuttavia, i modelli esistenti sono spesso specifici per singoli compiti, limitando la loro adattabilità in diverse applicazioni visive. Sosteniamo inoltre che l'apprendimento congiunto per valutare più compiti possa favorire un effetto sinergico, in cui una migliore comprensione delle immagini migliora la valutazione della generazione di immagini, e una valutazione più raffinata delle immagini avvantaggia la valutazione dei video attraverso una migliore analisi dei fotogrammi. A tal fine, questo articolo propone UnifiedReward, il primo modello di ricompensa unificato per la comprensione multimodale e la valutazione della generazione, che consente sia il ranking a coppie che il punteggio puntuale, utilizzabile per l'allineamento delle preferenze nei modelli visivi. Nello specifico, (1) sviluppiamo inizialmente UnifiedReward sul nostro ampio dataset di preferenze umane, che include sia compiti di generazione che di comprensione di immagini e video. (2) Successivamente, viene utilizzato per costruire automaticamente dati di coppie di preferenze di alta qualità basati sui modelli visivi, filtrando gradualmente i loro output attraverso il ranking a coppie e la selezione puntuale. (3) Infine, questi dati vengono utilizzati per l'allineamento delle preferenze tramite Direct Preference Optimization (DPO). I risultati sperimentali dimostrano che l'apprendimento congiunto per valutare compiti visivi diversi può portare a sostanziali benefici reciproci, e applichiamo la nostra pipeline sia ai compiti di comprensione che di generazione di immagini e video, migliorando significativamente le prestazioni in ciascun dominio.
Le rappresentazioni vettoriali multilingue a scopo generale, utilizzate nel recupero, nella regressione e nella classificazione, sono tradizionalmente ottenute da modelli encoder bidirezionali. Nonostante la loro ampia applicabilità, gli encoder sono stati recentemente eclissati dai progressi nei modelli generativi basati esclusivamente su decoder. Tuttavia, molte delle innovazioni che guidano questo progresso non sono intrinsecamente legate ai decoder. In questo articolo, ripercorriamo lo sviluppo degli encoder multilingue attraverso la lente di questi progressi e introduciamo EuroBERT, una famiglia di encoder multilingue che copre le lingue europee e quelle globali più diffuse. I nostri modelli superano le alternative esistenti in un'ampia gamma di compiti, che spaziano dalle capacità multilingue alla matematica e alla programmazione, supportando nativamente sequenze fino a 8.192 token. Esaminiamo inoltre le decisioni di progettazione alla base di EuroBERT, offrendo approfondimenti sulla composizione del nostro dataset e sulla pipeline di addestramento. Rilasciamo pubblicamente i modelli EuroBERT, inclusi i checkpoint intermedi di addestramento, insieme al nostro framework di addestramento.
Recentemente, DeepSeek R1 ha dimostrato come l'apprendimento per rinforzo con incentivi basati su regole semplici possa consentire lo sviluppo autonomo di ragionamenti complessi nei grandi modelli linguistici, caratterizzati dal "momento di intuizione", in cui il modello manifesta auto-riflessione e un aumento della lunghezza delle risposte durante l'addestramento. Tuttavia, i tentativi di estendere questo successo al ragionamento multimodale spesso non sono riusciti a riprodurre queste caratteristiche chiave. In questo rapporto, presentiamo la prima replica riuscita di queste caratteristiche emergenti per il ragionamento multimodale su un modello non-SFT da 2B. Partendo da Qwen2-VL-2B e applicando direttamente l'apprendimento per rinforzo sul dataset SAT, il nostro modello raggiunge un'accuratezza del 59,47% su CVBench, superando il modello base di circa il 30% e superando entrambe le impostazioni SFT di circa il 2%. Inoltre, condividiamo i nostri tentativi falliti e le intuizioni ottenute nel tentativo di ottenere un ragionamento simile a R1 utilizzando l'apprendimento per rinforzo con modelli di istruzione, con l'obiettivo di far luce sulle sfide coinvolte. Le nostre osservazioni chiave includono: (1) l'applicazione dell'apprendimento per rinforzo su modelli di istruzione spesso porta a traiettorie di ragionamento banali, e (2) le ricompense basate sulla lunghezza in modo ingenuo sono inefficaci nel suscitare capacità di ragionamento. Il codice del progetto è disponibile all'indirizzo https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
Il rapido sviluppo dei modelli linguistici di grandi dimensioni (LLM) ha attirato una significativa attenzione sui modelli vocali, in particolare sui recenti progressi nei protocolli speech2speech che supportano input e output vocali. Tuttavia, i benchmark esistenti adottano valutatori automatici basati su testo per valutare la capacità di seguire le istruzioni di questi modelli, trascurando le informazioni paralinguistiche sia nella comprensione che nella generazione del parlato. Per affrontare queste problematiche, introduciamo S2S-Arena, un nuovo benchmark S2S in stile arena che valuta le capacità di seguire le istruzioni considerando le informazioni paralinguistiche sia nell'input che nell'output vocale attraverso compiti del mondo reale. Progettiamo 154 campioni che combinano sintesi vocale (TTS) e registrazioni live in quattro domini con 21 compiti e valutiamo manualmente i modelli vocali popolari esistenti in modalità arena. I risultati sperimentali mostrano che: (1) oltre alla prestazione superiore di GPT-4o, il modello vocale composto da ASR, LLM e TTS in cascata supera il modello addestrato congiuntamente dopo l'allineamento testo-parlato nei protocolli speech2speech; (2) considerando le informazioni paralinguistiche, la conoscenza del modello vocale dipende principalmente dal backbone LLM, e il supporto multilingue è limitato dal modulo vocale; (3) i modelli vocali eccellenti sono già in grado di comprendere le informazioni paralinguistiche nell'input vocale, ma generare audio appropriato con informazioni paralinguistiche rimane una sfida.
I recenti progressi nei modelli linguistici di grandi dimensioni hanno dimostrato capacità di ragionamento notevoli attraverso il prompting a Catena di Pensiero (Chain of Thought, CoT), ma spesso a costo di una verbosità eccessiva nei loro output intermedi, che aumenta il sovraccarico computazionale. Introduciamo Sketch-of-Thought (SoT), un nuovo framework di prompting che combina paradigmi di ragionamento ispirati alla cognizione con vincoli linguistici per minimizzare l'uso di token preservando l'accuratezza del ragionamento. SoT è progettato come un framework flessibile in grado di incorporare qualsiasi paradigma di ragionamento personalizzato basato sulle scienze cognitive, e lo istanziamo con tre di questi paradigmi - Concatenamento Concettuale, Simbolismo a Blocchi e Lessici Esperti - ciascuno adattato a diverse attività di ragionamento e selezionato dinamicamente tramite un modello di routing leggero. Attraverso una valutazione completa su 15 dataset di ragionamento con scenari multilingue e multimodali, dimostriamo che SoT raggiunge riduzioni del 76% nei token con un impatto trascurabile sull'accuratezza. In alcuni domini come il ragionamento matematico e multi-hop, migliora persino l'accuratezza utilizzando significativamente meno token. Il nostro codice è pubblicamente disponibile: https://www.github.com/SimonAytes/SoT.
In questo lavoro, presentiamo la prima applicazione del Reinforcement Learning con Ricompensa Verificabile (RLVR) a un modello linguistico di grandi dimensioni Omni-multimodale nel contesto del riconoscimento delle emozioni, un compito in cui sia le modalità visive che quelle audio svolgono ruoli cruciali. Utilizziamo RLVR per ottimizzare il modello Omni, migliorando significativamente le sue prestazioni in tre aspetti chiave: capacità di ragionamento, accuratezza nel riconoscimento delle emozioni e capacità di generalizzazione. L'introduzione di RLVR non solo migliora le prestazioni complessive del modello sui dati in-distribuzione, ma dimostra anche una robustezza superiore quando valutato su dataset out-of-distribution. Ancora più importante, la capacità di ragionamento migliorata consente un'analisi chiara dei contributi delle diverse modalità, in particolare delle informazioni visive e audio, nel processo di riconoscimento delle emozioni. Ciò fornisce preziose indicazioni per l'ottimizzazione dei modelli linguistici di grandi dimensioni multimodali.
Un componente essenziale dei moderni modelli sequenziali ricorrenti è il cancello di dimenticanza (forget gate). Sebbene i Transformer non abbiano una forma ricorrente esplicita, dimostriamo che un cancello di dimenticanza può essere naturalmente incorporato nei Transformer ponderando in modo dipendente dai dati i punteggi di attenzione non normalizzati. Chiamiamo questo meccanismo di attenzione "Forgetting Attention" e il modello risultante "Forgetting Transformer" (FoX). Dimostriamo che FoX supera il Transformer nella modellazione del linguaggio a contesto lungo, nell'estrapolazione della lunghezza e nelle attività downstream a contesto breve, pur mantenendo prestazioni paragonabili al Transformer nelle attività downstream a contesto lungo. Inoltre, è compatibile con l'algoritmo FlashAttention e non richiede alcun embedding posizionale. Diverse analisi, incluso il test "needle-in-the-haystack", mostrano che FoX conserva anche le superiori capacità di gestione del contesto lungo del Transformer rispetto ai modelli sequenziali ricorrenti come Mamba-2, HGRN2 e DeltaNet. Introduciamo inoltre un design a blocco "Pro" che incorpora alcuni componenti architetturali comuni nei modelli sequenziali ricorrenti e scopriamo che migliora significativamente le prestazioni sia di FoX che del Transformer. Il nostro codice è disponibile all'indirizzo https://github.com/zhixuan-lin/forgetting-transformer.
I modelli di ragionamento su larga scala (LRM) esistenti hanno dimostrato il potenziale dell'apprendimento per rinforzo (RL) nel migliorare le capacità di ragionamento complesso dei modelli linguistici su larga scala (LLM). Sebbene raggiungano prestazioni notevoli in compiti impegnativi come la matematica e la programmazione, spesso si affidano alle loro conoscenze interne per risolvere i problemi, il che può risultare inadeguato per domande sensibili al tempo o ad alta intensità di conoscenza, portando a inesattezze e allucinazioni. Per affrontare questo problema, proponiamo R1-Searcher, un innovativo approccio RL basato sui risultati in due fasi progettato per migliorare le capacità di ricerca degli LLM. Questo metodo consente agli LLM di invocare autonomamente sistemi di ricerca esterni per accedere a conoscenze aggiuntive durante il processo di ragionamento. Il nostro framework si basa esclusivamente sull'RL, senza richiedere ricompense di processo o distillazione per un avvio a freddo. % generalizzando efficacemente a dataset fuori dominio e supportando sia modelli Base che Instruct. I nostri esperimenti dimostrano che il nostro metodo supera significativamente i precedenti metodi RAG forti, anche rispetto al modello closed-source GPT-4o-mini.
Il video inpainting, che mira a ripristinare contenuti video danneggiati, ha registrato progressi significativi. Nonostante questi avanzamenti, i metodi esistenti, che propagano i pixel delle regioni non mascherate attraverso il flusso ottico e i priori del campo recettivo, o estendono temporalmente i modelli di inpainting di immagini, affrontano sfide nella generazione di oggetti completamente mascherati o nel bilanciare gli obiettivi concorrenti di preservazione del contesto dello sfondo e generazione del primo piano in un unico modello. Per affrontare queste limitazioni, proponiamo un nuovo paradigma dual-stream, VideoPainter, che incorpora un codificatore di contesto efficiente (composto solo dal 6% dei parametri del backbone) per elaborare video mascherati e iniettare segnali contestuali dello sfondo consapevoli del backbone in qualsiasi video DiT pre-addestrato, producendo contenuti semanticamente coerenti in modalità plug-and-play. Questa separazione architetturale riduce significativamente la complessità di apprendimento del modello, consentendo al contempo un'integrazione sfumata del contesto dello sfondo cruciale. Introduciamo anche una nuova tecnica di ricampionamento dell'ID della regione target che consente l'inpainting di video di qualsiasi lunghezza, migliorando notevolmente la nostra applicabilità pratica. Inoltre, stabiliamo una pipeline di dataset scalabile sfruttando i modelli di comprensione visiva attuali, contribuendo con VPData e VPBench per facilitare l'addestramento e la valutazione dell'inpainting basato sulla segmentazione, il più grande dataset e benchmark di video inpainting fino ad oggi con oltre 390K clip diverse. Utilizzando l'inpainting come base della pipeline, esploriamo anche applicazioni downstream, tra cui l'editing video e la generazione di dati di coppia per l'editing video, dimostrando prestazioni competitive e un significativo potenziale pratico. Esperimenti estensivi dimostrano la performance superiore di VideoPainter sia nell'inpainting di video di qualsiasi lunghezza che nell'editing, attraverso otto metriche chiave, tra cui qualità video, preservazione della regione mascherata e coerenza testuale.
Gli agenti basati su LLM stanno diventando sempre più abili nel risolvere attività basate sul web. Con questa capacità aumenta il rischio di un loro utilizzo improprio per scopi malevoli, come la pubblicazione di disinformazione in un forum online o la vendita di sostanze illecite su un sito web. Per valutare questi rischi, proponiamo SafeArena, il primo benchmark focalizzato sull'uso deliberato improprio degli agenti web. SafeArena comprende 250 attività sicure e 250 dannose distribuite su quattro siti web. Classifichiamo le attività dannose in cinque categorie di danno: disinformazione, attività illegali, molestie, cybercrimine e pregiudizi sociali, progettate per valutare usi impropri realistici degli agenti web. Valutiamo i principali agenti web basati su LLM, tra cui GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B e Llama-3.2 90B, sul nostro benchmark. Per valutare sistematicamente la loro suscettibilità alle attività dannose, introduciamo il framework di Valutazione del Rischio degli Agenti, che categorizza il comportamento degli agenti in quattro livelli di rischio. Scopriamo che gli agenti sono sorprendentemente propensi a soddisfare richieste malevole, con GPT-4o e Qwen-2 che completano rispettivamente il 34,7% e il 27,3% delle richieste dannose. I nostri risultati evidenziano l'urgente necessità di procedure di allineamento alla sicurezza per gli agenti web. Il nostro benchmark è disponibile qui: https://safearena.github.io
Presentiamo TrajectoryCrafter, un approccio innovativo per reindirizzare le traiettorie della telecamera nei video monoculari. Separando le trasformazioni di vista deterministiche dalla generazione stocastica dei contenuti, il nostro metodo ottiene un controllo preciso sulle traiettorie della telecamera specificate dall'utente. Proponiamo un nuovo modello di diffusione video condizionale a doppio flusso che integra contemporaneamente rendering di nuvole di punti e video sorgente come condizioni, garantendo trasformazioni di vista accurate e una generazione coerente di contenuti 4D. Invece di sfruttare rari video multivista, abbiamo curato un dataset di training ibrido che combina video monoculari su scala web con dataset multivista statici, grazie alla nostra innovativa strategia di doppia riproiezione, favorendo significativamente una robusta generalizzazione attraverso scene diverse. Valutazioni estese su video multivista e su larga scala monoculari dimostrano la superiorità delle prestazioni del nostro metodo.
I recenti progressi nel reinforcement learning (RL) per i grandi modelli linguistici (LLM), esemplificati da DeepSeek R1, hanno dimostrato che anche un semplice compito di risposta a domande può migliorare sostanzialmente le capacità di ragionamento di un LLM. In questo lavoro, estendiamo questo approccio modificando il compito in un contesto a più tentativi. Invece di generare una singola risposta per domanda, al modello vengono concessi più tentativi, con feedback fornito dopo risposte errate. Il compito a più tentativi incoraggia il modello a perfezionare i tentativi precedenti e a migliorare l'efficienza della ricerca. I risultati sperimentali mostrano che anche un piccolo LLM addestrato su un compito a più tentativi raggiunge un'accuratezza significativamente maggiore quando valutato con più tentativi, passando dal 45,6% con 1 tentativo al 52,5% con 2 tentativi sul benchmark matematico. Al contrario, lo stesso LLM addestrato su un compito standard a singolo turno mostra solo un miglioramento marginale, passando dal 42,3% al 43,2% quando gli vengono concessi più tentativi durante la valutazione. I risultati indicano che, rispetto al compito standard a singolo turno, un LLM addestrato su un compito a più tentativi ottiene prestazioni leggermente migliori sui benchmark matematici, imparando anche a perfezionare le proprie risposte in modo più efficace basandosi sul feedback dell'utente. Il codice completo è disponibile all'indirizzo https://github.com/DualityRL/multi-attempt.
La sfida di ridurre le dimensioni dei Large Language Models (LLM) mantenendo le loro prestazioni ha attirato una significativa attenzione. Tuttavia, i metodi esistenti, come la distillazione del modello e il transfer learning, spesso non riescono a raggiungere un'elevata accuratezza. Per affrontare questa limitazione, introduciamo l'approccio di distillazione Branch-Merge, che migliora la compressione del modello attraverso due fasi: (1) la Fase Branch, in cui la conoscenza di un grande modello insegnante viene distillata selettivamente in modelli studente specializzati tramite fine-tuning supervisionato specifico per dominio (SFT); e (2) la Fase Merge, in cui questi modelli studente vengono fusi per consentire il trasferimento di conoscenza tra domini e migliorare la generalizzazione. Validiamo il nostro approccio di distillazione utilizzando DeepSeek-R1 come insegnante e DeepSeek-R1-Distill-Qwen-32B come studente. Il modello risultante, TinyR1-32B-Preview, supera la sua controparte DeepSeek-R1-Distill-Qwen-32B in diversi benchmark, tra cui Matematica (+5,5 punti), Codifica (+4,4 punti) e Scienza (+2,9 punti), raggiungendo prestazioni quasi pari a DeepSeek-R1 su AIME 2024. L'approccio di distillazione Branch-Merge fornisce una soluzione scalabile per creare LLM più piccoli e ad alte prestazioni con costi e tempi computazionali ridotti.
Gli embedding di codice sono essenziali per la ricerca semantica del codice; tuttavia, gli approcci attuali spesso faticano a catturare le precise sfumature sintattiche e contestuali intrinseche nel codice. Modelli open-source come CodeBERT e UniXcoder presentano limitazioni in termini di scalabilità ed efficienza, mentre i sistemi proprietari ad alte prestazioni impongono costi computazionali sostanziali. Introduciamo un metodo di fine-tuning efficiente in termini di parametri basato su Low-Rank Adaptation (LoRA) per costruire adattatori specifici per il task di recupero del codice. Il nostro approccio riduce il numero di parametri addestrabili a meno del due percento del modello di base, consentendo un rapido fine-tuning su ampi corpora di codice (2 milioni di campioni in 25 minuti su due GPU H100). Gli esperimenti dimostrano un aumento fino al 9,1% nel Mean Reciprocal Rank (MRR) per la ricerca Code2Code e fino all'86,69% per i task di ricerca Text2Code in più linguaggi di programmazione. La distinzione nell'adattamento per task e per linguaggio aiuta a esplorare la sensibilità del recupero del codice rispetto alle variazioni sintattiche e linguistiche.
I compiti domestici nel mondo reale presentano sfide significative per i robot di manipolazione mobile. Un'analisi dei benchmark esistenti nel campo della robotica rivela che il successo nell'esecuzione dei compiti dipende da tre capacità chiave di controllo del corpo intero: coordinazione bimanuale, navigazione stabile e precisa, e ampia raggiungibilità dell'end-effector. Il raggiungimento di queste capacità richiede un'attenta progettazione hardware, ma la complessità del sistema risultante complica ulteriormente l'apprendimento delle politiche visuomotorie. Per affrontare queste sfide, introduciamo il BEHAVIOR Robot Suite (BRS), un framework completo per la manipolazione del corpo intero in vari compiti domestici. Basato su un robot bimanuale su ruote con un torso a 4 gradi di libertà, BRS integra un'interfaccia di teleoperazione del corpo intero a basso costo per la raccolta dati e un nuovo algoritmo per l'apprendimento delle politiche visuomotorie del corpo intero. Valutiamo BRS su cinque compiti domestici impegnativi che non solo enfatizzano le tre capacità fondamentali, ma introducono anche ulteriori complessità, come la navigazione a lungo raggio, l'interazione con oggetti articolati e deformabili, e la manipolazione in spazi ristretti. Crediamo che l'integrazione dell'embodiment robotico, dell'interfaccia di raccolta dati e del framework di apprendimento di BRS rappresenti un passo significativo verso l'abilitazione della manipolazione del corpo intero nel mondo reale per i compiti domestici quotidiani. BRS è open-source all'indirizzo https://behavior-robot-suite.github.io/.
I modelli di diffusione hanno ottenuto progressi significativi sia nella generazione di immagini che di video, pur soffrendo ancora di elevati costi computazionali. Come soluzione efficace, il flow matching mira a riorientare il processo di diffusione dei modelli di diffusione in una linea retta per una generazione in pochi passaggi o addirittura in un solo passaggio. Tuttavia, in questo articolo, suggeriamo che la pipeline di training originale del flow matching non è ottimale e introduciamo due tecniche per migliorarla. In primo luogo, introduciamo il progressive reflow, che riorienta progressivamente i modelli di diffusione in intervalli di tempo locali fino a coprire l'intero processo di diffusione, riducendo la difficoltà del flow matching. In secondo luogo, introduciamo l'aligned v-prediction, che evidenzia l'importanza della corrispondenza di direzione nel flow matching rispetto alla corrispondenza di magnitudine. I risultati sperimentali su SDv1.5 e SDXL dimostrano l'efficacia del nostro metodo; ad esempio, applicato a SDv1.5, raggiunge un FID di 10.70 sul set di validazione MSCOCO2014 con solo 4 passaggi di campionamento, avvicinandosi al nostro modello insegnante (32 passaggi DDIM, FID = 10.05).
La modellazione di sequenze lineari (Linear Sequence Modeling, LSM), come l'attenzione lineare, i modelli a spazio di stati e le RNN lineari, e il Mixture-of-Experts (MoE) sono recentemente emersi come significativi miglioramenti architetturali. In questo articolo, introduciamo Linear-MoE, un sistema di livello produttivo per la modellazione e l'addestramento di modelli su larga scala che integrano LSM con MoE. Linear-MoE sfrutta i vantaggi sia dei moduli LSM per la modellazione di sequenze con complessità lineare, sia dei livelli MoE per l'attivazione sparsa, con l'obiettivo di offrire alte prestazioni con un addestramento efficiente. Il sistema Linear-MoE comprende: 1) un sottosistema di modellazione, che fornisce un framework unificato che supporta tutte le istanze di LSM, e 2) un sottosistema di addestramento, che facilita un addestramento efficiente incorporando varie tecnologie avanzate di parallelismo, in particolare il Parallelismo di Sequenza progettato per i modelli Linear-MoE. Inoltre, esploriamo modelli ibridi che combinano livelli Linear-MoE con livelli standard Transformer-MoE e il loro Parallelismo di Sequenza per migliorare ulteriormente la flessibilità e le prestazioni del modello. Le valutazioni su due serie di modelli, A0.3B-2B e A1B-7B, dimostrano che Linear-MoE ottiene guadagni di efficienza mantenendo prestazioni competitive su vari benchmark, mostrando il suo potenziale come architettura di modello fondazionale di prossima generazione. Codice: https://github.com/OpenSparseLLMs/Linear-MoE.
In questo rapporto, presentiamo il terzo rapporto tecnico sullo sviluppo di modelli a pensiero lento nell'ambito del progetto STILL. Con il percorso tecnico che si delinea sempre più chiaramente, il ridimensionamento dell'addestramento RL è diventato una tecnica centrale per implementare tali modelli di ragionamento. Sperimentiamo e documentiamo sistematicamente gli effetti di vari fattori che influenzano l'addestramento RL, conducendo esperimenti sia su modelli di base che su modelli fine-tuned. In particolare, dimostriamo che il nostro approccio di addestramento RL migliora costantemente i modelli di base Qwen2.5-32B, aumentando sia la lunghezza delle risposte che l'accuratezza nei test. Inoltre, mostriamo che anche quando un modello come DeepSeek-R1-Distill-Qwen-1.5B ha già raggiunto un livello di prestazioni elevato, può essere ulteriormente affinato attraverso l'addestramento RL, raggiungendo un'accuratezza del 39,33% su AIME 2024. Oltre all'addestramento RL, esploriamo anche l'uso della manipolazione degli strumenti, scoprendo che migliora significativamente le prestazioni di ragionamento dei modelli di ragionamento di grandi dimensioni. Questo approccio raggiunge un'accuratezza notevole dell'86,67% con la ricerca greedy su AIME 2024, sottolineando la sua efficacia nel potenziare le capacità del modello. Rilasciamo le nostre risorse sul sito web del progetto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
La generazione potenziata dal recupero (RAG) ha dimostrato una significativa competenza nell'esecuzione di compiti di question-answering (QA) all'interno di un corpus specifico. Tuttavia, esistono ancora numerosi casi di fallimento di RAG nei task QA. Questi fallimenti non sono attribuibili esclusivamente ai limiti dei Large Language Models (LLM); piuttosto, derivano principalmente dal recupero di informazioni inaccurati per i LLM a causa di due limitazioni: (1) I metodi RAG attuali segmentano il corpus senza considerare la semantica, rendendo difficile trovare contesti rilevanti a causa della correlazione compromessa tra le domande e i segmenti. (2) Esiste un compromesso tra il perdere contesti essenziali con un minor numero di contesti recuperati e l'ottenere contesti irrilevanti con un maggior numero di contesti recuperati. In questo articolo, introduciamo un framework RAG (SAGE) per superare queste limitazioni. Innanzitutto, per affrontare il problema della segmentazione senza considerare la semantica, proponiamo di addestrare un modello di segmentazione semantica. Questo modello è addestrato per segmentare il corpus in blocchi semanticamente completi. In secondo luogo, per garantire che vengano recuperati solo i blocchi più rilevanti mentre quelli irrilevanti vengano ignorati, progettiamo un algoritmo di selezione dei blocchi che seleziona dinamicamente i blocchi in base alla velocità di diminuzione del punteggio di rilevanza, portando a una selezione più pertinente. In terzo luogo, per garantire ulteriormente la precisione dei blocchi recuperati, proponiamo di far valutare ai LLM se i blocchi recuperati sono eccessivi o insufficienti e quindi di regolare la quantità di contesto di conseguenza. Gli esperimenti mostrano che SAGE supera i baseline del 61,25% nella qualità del QA in media. Inoltre, evitando di recuperare contesti rumorosi, SAGE riduce il costo dei token consumati nell'inferenza dei LLM e raggiunge un miglioramento del 49,41% nell'efficienza dei costi in media. Inoltre, il nostro lavoro offre spunti preziosi per migliorare RAG.
Gli attuali modelli linguistici avanzati a contesto lungo offrono un grande potenziale per applicazioni pratiche nell'ingegneria del software. Tuttavia, i progressi in questo dominio critico rimangono ostacolati da una limitazione fondamentale: l'assenza di un framework di valutazione rigoroso per la comprensione del codice lungo. Per colmare questa lacuna, proponiamo un benchmark di comprensione del codice lungo, LONGCODEU, che valuta la capacità di comprensione del codice lungo richiesta per applicazioni pratiche da quattro aspetti (8 task), tra cui la percezione delle unità di codice, la comprensione interna delle unità di codice, la comprensione delle relazioni tra unità di codice e la comprensione della documentazione del codice lungo. Valutiamo 9 popolari modelli a contesto lungo (LCLM) su LONGCODEU (ovvero 6 modelli generali e 3 modelli specifici per il codice). I nostri risultati sperimentali rivelano limitazioni chiave nelle capacità attuali dei LCLM per la comprensione del codice lungo. In particolare, le prestazioni dei LCLM diminuiscono drasticamente quando la lunghezza del codice supera i 32K, risultando ben al di sotto delle finestre di contesto dichiarate di 128K-1M. Tra i quattro aspetti, la comprensione delle relazioni tra unità di codice è la più impegnativa per i LCLM. Il nostro studio fornisce spunti preziosi per ottimizzare i LCLM e favorire progressi nell'ingegneria del software.
La natura sequenziale dei moderni LLM li rende costosi e lenti, e il campionamento speculativo si è dimostrato una soluzione efficace a questo problema. Metodi come EAGLE eseguono l'autoregressione a livello di feature, riutilizzando le feature degli strati superiori del modello target per ottenere risultati migliori rispetto al campionamento speculativo tradizionale. Una tendenza crescente nella comunità degli LLM è quella di aumentare i dati di addestramento per migliorare l'intelligenza del modello senza incrementare i costi di inferenza. Tuttavia, osserviamo che l'aumento dei dati fornisce miglioramenti limitati per EAGLE. Identifichiamo che questa limitazione deriva dai vincoli di previsione delle feature di EAGLE. In questo articolo, introduciamo EAGLE-3, che abbandona la previsione delle feature a favore della previsione diretta dei token e sostituisce la dipendenza dalle feature degli strati superiori con la fusione di feature multi-strato attraverso una tecnica chiamata test durante l'addestramento. Questi miglioramenti aumentano significativamente le prestazioni e consentono al modello di bozza di beneficiare pienamente dell'aumento dei dati di addestramento. I nostri esperimenti includono sia modelli di chat che modelli di ragionamento, valutati su cinque task. I risultati mostrano che EAGLE-3 raggiunge un rapporto di accelerazione fino a 6,5x, con un miglioramento di circa 1,4x rispetto a EAGLE-2. Il codice è disponibile all'indirizzo https://github.com/SafeAILab/EAGLE.
Il rilevamento delle anomalie nei video (Video Anomaly Detection, VAD) è fondamentale per l'analisi e la sorveglianza video nell'ambito della visione artificiale. Tuttavia, i modelli VAD esistenti si basano su pattern normali appresi, il che rende difficile applicarli in ambienti diversi. Di conseguenza, gli utenti devono riaddestrare i modelli o sviluppare modelli di intelligenza artificiale separati per nuovi ambienti, il che richiede competenze nel machine learning, hardware ad alte prestazioni e un'ampia raccolta di dati, limitando così l'usabilità pratica del VAD. Per affrontare queste sfide, questo studio propone una tecnica di rilevamento delle anomalie nei video personalizzabile (Customizable Video Anomaly Detection, C-VAD) e il modello AnyAnomaly. Il C-VAD considera un testo definito dall'utente come un evento anomalo e rileva i fotogrammi contenenti un evento specificato in un video. Abbiamo implementato efficacemente AnyAnomaly utilizzando un sistema di risposta a domande visive contestuale senza dover effettuare il fine-tuning di un grande modello di linguaggio visivo. Per validare l'efficacia del modello proposto, abbiamo costruito dataset C-VAD e dimostrato la superiorità di AnyAnomaly. Inoltre, il nostro approccio ha mostrato prestazioni competitive sui dataset di benchmark VAD, raggiungendo risultati all'avanguardia sul dataset UBnormal e superando altri metodi in termini di generalizzazione su tutti i dataset. Il nostro codice è disponibile online all'indirizzo github.com/SkiddieAhn/Paper-AnyAnomaly.
I simulator utente sono cruciali per replicare le interazioni umane con i sistemi di dialogo, supportando sia l'addestramento collaborativo che la valutazione automatica, specialmente per i grandi modelli linguistici (LLM). Tuttavia, i simulatori esistenti spesso si basano esclusivamente su espressioni testuali, tralasciando tratti impliciti dell'utente come personalità, stile di comunicazione e obiettivi. Al contrario, i metodi basati su persona mancano di generalizzabilità, poiché dipendono da profili predefiniti di individui famosi o archetipi. Per affrontare queste sfide, proponiamo User Simulator with implicit Profiles (USP), un framework che inferisce profili utente impliciti dalle conversazioni uomo-macchina e li utilizza per generare dialoghi più personalizzati e realistici. In primo luogo, sviluppiamo un estrattore guidato da LLM con uno schema di profilo completo. Successivamente, affiniamo la simulazione attraverso un fine-tuning supervisionato condizionale e un apprendimento per rinforzo con consistenza ciclica, ottimizzandola sia a livello di espressione che di conversazione. Infine, adottiamo un campionatore di profili diversificato per catturare la distribuzione dei profili utente del mondo reale. I risultati sperimentali dimostrano che USP supera i baseline di riferimento in termini di autenticità e diversità, raggiungendo prestazioni comparabili in coerenza. Inoltre, le valutazioni dinamiche multi-turn basate su USP si allineano fortemente con i benchmark mainstream, dimostrando la sua efficacia nelle applicazioni reali.