Articoli di ricerca IA selezionati quotidianamente con traduzioni
Studiamo i grandi modelli linguistici (LLM) con ragionamento auto-premiante, che possono generare simultaneamente ragionamenti passo-passo e valutare la correttezza dei loro output durante il tempo di inferenza, senza feedback esterno. Questo approccio integrato consente a un singolo modello di guidare in modo indipendente il proprio processo di ragionamento, offrendo vantaggi computazionali per il deployment del modello. Ci concentriamo in particolare sul compito rappresentativo dell'auto-correzione, in cui i modelli rilevano autonomamente errori nelle loro risposte, revisionano gli output e decidono quando terminare i cicli iterativi di affinamento. Per abilitare ciò, proponiamo un framework algoritmico a due fasi per costruire modelli di ragionamento auto-premianti utilizzando esclusivamente dati auto-generati. Nella prima fase, utilizziamo il campionamento sequenziale per rifiuto per sintetizzare lunghe traiettorie di catena di pensiero che incorporano meccanismi di auto-premiazione e auto-correzione. Il fine-tuning dei modelli su questi dati curati consente loro di apprendere i pattern di auto-premiazione e auto-correzione. Nella seconda fase, miglioriamo ulteriormente la capacità dei modelli di valutare l'accuratezza delle risposte e affinare gli output attraverso l'apprendimento per rinforzo con segnali basati su regole. Esperimenti condotti con Llama-3 e Qwen-2.5 dimostrano che il nostro approccio supera le capacità intrinseche di auto-correzione e raggiunge prestazioni comparabili a sistemi che si basano su modelli di ricompensa esterni.
Il ragionamento rappresenta una frontiera cruciale per l'avanzamento dell'analisi delle immagini mediche, dove trasparenza e affidabilità svolgono un ruolo centrale sia nella fiducia dei clinici che nell'approvazione normativa. Sebbene i Modelli di Linguaggio Visivo Medico (VLMs) mostrino potenziale per compiti radiologici, la maggior parte dei VLMs esistenti si limita a produrre risposte finali senza rivelare il ragionamento sottostante. Per colmare questa lacuna, introduciamo MedVLM-R1, un VLM medico che genera esplicitamente un ragionamento in linguaggio naturale per migliorare trasparenza e affidabilità. Invece di affidarsi al fine-tuning supervisionato (SFT), che spesso soffre di overfitting rispetto alle distribuzioni di addestramento e non favorisce un ragionamento genuino, MedVLM-R1 utilizza un framework di apprendimento per rinforzo che incentiva il modello a scoprire percorsi di ragionamento interpretabili dall'uomo senza utilizzare alcun riferimento di ragionamento. Nonostante dati di addestramento limitati (600 campioni di risposta a domande visive) e parametri del modello ridotti (2B), MedVLM-R1 aumenta l'accuratezza dal 55,11% al 78,22% su benchmark di risonanza magnetica, TAC e raggi X, superando modelli più grandi addestrati su oltre un milione di campioni. Dimostra inoltre una robusta generalizzazione di dominio in compiti fuori distribuzione. Unendo l'analisi delle immagini mediche con un ragionamento esplicito, MedVLM-R1 rappresenta un passo fondamentale verso un'IA affidabile e interpretabile nella pratica clinica.
Nei grandi modelli multimodali (LMM), la percezione delle modalità non linguistiche (ad esempio, rappresentazioni visive) di solito non è alla pari con le potenti capacità di ragionamento dei grandi modelli linguistici (LLM), limitando le prestazioni degli LMM su compiti downstream impegnativi. Questa debolezza è stata recentemente mitigata sostituendo l'encoder visivo con una miscela di esperti (MoE), che fornisce rappresentazioni ricche, multi-granularità e diversificate necessarie per compiti downstream vari. La performance del MoE multimodale dipende in gran parte dal suo router, che ricalibra e miscela le rappresentazioni di diversi esperti per ogni input. Tuttavia, abbiamo osservato che il router addestrato end-to-end non produce sempre i pesi di routing ottimali per ogni campione di test. Per colmare questa lacuna, proponiamo un metodo nuovo ed efficiente chiamato "Re-Routing in Test-Time" (R2-T2) che ottimizza localmente il vettore dei pesi di routing durante il test spostandolo verso i vettori dei campioni correttamente predetti in un intorno del campione di test. Proponiamo tre strategie R2-T2 con diversi obiettivi di ottimizzazione e spazi di ricerca dei vicini. R2-T2 migliora in modo consistente e significativo le prestazioni degli LMM all'avanguardia su benchmark impegnativi di compiti diversi, senza addestrare alcun parametro del modello di base.
Le recenti innovazioni nell'architettura, nel pre-training e nel fine-tuning hanno portato a straordinarie capacità di apprendimento contestuale e ragionamento nei grandi modelli linguistici auto-regressivi come LLaMA e DeepSeek. Al contrario, gli encoder come BERT e RoBERTa non hanno visto lo stesso livello di progresso, nonostante siano fondamentali per molte applicazioni NLP downstream. Per colmare questa lacuna, introduciamo NeoBERT, un encoder di nuova generazione che ridefinisce le capacità dei modelli bidirezionali integrando i più recenti progressi nell'architettura, dati moderni e metodologie di pre-training ottimizzate. NeoBERT è progettato per un'adozione immediata: funge da sostituto plug-and-play per i modelli base esistenti, si basa su un rapporto ottimale tra profondità e larghezza e sfrutta una lunghezza contestuale estesa di 4.096 token. Nonostante la sua impronta compatta di 250 milioni di parametri, raggiunge risultati all'avanguardia sul benchmark MTEB, superando BERT large, RoBERTa large, NomicBERT e ModernBERT in condizioni identiche di fine-tuning. Inoltre, valutiamo rigorosamente l'impatto di ciascuna modifica su GLUE e progettiamo un framework uniforme di fine-tuning e valutazione per MTEB. Rilasciamo tutto il codice, i dati, i checkpoint e gli script di training per accelerare la ricerca e l'adozione nel mondo reale.
LongRoPE2 è un approccio innovativo che estende la finestra di contesto effettiva di modelli linguistici pre-addestrati (LLM) alla lunghezza desiderata, preservando al contempo le prestazioni sulla finestra di contesto originale più breve. Questo risultato è ottenuto attraverso tre contributi principali: (1) un'ipotesi secondo cui un addestramento insufficiente nelle dimensioni superiori di RoPE contribuisce ai persistenti problemi di out-of-distribution (OOD) osservati nei metodi esistenti; (2) un algoritmo efficace di ridimensionamento di RoPE che adotta una ricerca evolutiva guidata dalla perplessità "needle-driven" per affrontare il problema dell'addestramento insufficiente; (3) un approccio di addestramento con finestra di contesto mista che affina i pesi del modello per adottare RoPE ridimensionato per sequenze di contesto lungo, preservando al contempo le prestazioni su contesti brevi con il RoPE originale. Esperimenti estesi su LLaMA3-8B e Phi3-mini-3.8B su vari benchmark convalidano l'ipotesi e dimostrano l'efficacia di LongRoPE2. In modo notevole, LongRoPE2 estende LLaMA3-8B per raggiungere una lunghezza di contesto effettiva di 128K, mantenendo oltre il 98,5% delle prestazioni su contesti brevi, utilizzando solo 10B token — 80 volte in meno rispetto all'approccio di Meta, che non riesce a raggiungere la lunghezza di contesto effettiva desiderata. Il codice sarà disponibile su https://github.com/microsoft/LongRoPE.
La disparità di rappresentazione tra la generazione visiva e la comprensione impone un divario critico nell'integrazione di queste capacità in un unico framework. Per colmare questo divario, introduciamo UniTok, un tokenizzatore visivo discreto che codifica dettagli fini per la generazione, catturando contemporaneamente semantica di alto livello per la comprensione. Nonostante studi recenti abbiano dimostrato che questi obiettivi potrebbero indurre conflitti di perdita durante l'addestramento, riveliamo che il collo di bottiglia sottostante deriva dalla capacità rappresentativa limitata dei token discreti. Affrontiamo questo problema introducendo la quantizzazione a multi-codebook, che divide la quantizzazione vettoriale con diversi sub-codebook indipendenti per espandere lo spazio delle caratteristiche latenti, evitando al contempo l'instabilità dell'addestramento causata da codebook troppo grandi. Il nostro metodo eleva significativamente il limite superiore dei tokenizzatori discreti unificati, arrivando a eguagliare o addirittura superare i tokenizzatori continui specifici per dominio. Ad esempio, UniTok raggiunge un rFID notevole di 0.38 (contro 0.87 per SD-VAE) e un'accuratezza zero-shot del 78.6% (contro il 76.2% per CLIP) su ImageNet. Il nostro codice è disponibile all'indirizzo https://github.com/FoundationVision/UniTok.
Il campo della generazione avanzata di immagini da testo sta assistendo all'emergere di framework unificati che integrano potenti encoder di testo, come CLIP e T5, con architetture basate su Diffusion Transformer. Nonostante ci siano stati tentativi di controllare le immagini generate attraverso condizioni aggiuntive, come mappe canny e di profondità, manca ancora un framework completo per il controllo intervallato arbitrario tra testo e immagine. Questa lacuna è particolarmente evidente quando si tenta di fondere concetti o elementi visivi provenienti da più immagini durante il processo di generazione. Per colmare questa lacuna, abbiamo condotto esperimenti preliminari che dimostrano come i modelli multimodali di grandi dimensioni (LMMs) offrano uno spazio di rappresentazione condiviso efficace, in cui immagine e testo possono essere allineati per fungere da condizione per modelli di diffusione esterni. Sulla base di questa scoperta, proponiamo Dream Engine, un framework efficiente e unificato progettato per il controllo intervallato arbitrario tra testo e immagine nei modelli di generazione di immagini. Basandoci su potenti modelli di testo-immagine come SD3.5, sostituiamo gli encoder di testo originali incorporando encoder di informazioni multimodali versatili come QwenVL. Il nostro approccio utilizza un paradigma di addestramento in due fasi, costituito dall'allineamento congiunto testo-immagine e dalla messa a punto delle istruzioni intervallate multimodali. I nostri esperimenti dimostrano che questo metodo di addestramento è efficace, raggiungendo un punteggio complessivo di 0.69 sul benchmark GenEval e eguagliando le prestazioni di modelli all'avanguardia come SD3.5 e FLUX.
Molte sfide di ragionamento richiedono non solo risposte rapide e intuitive, ma un approccio più deliberato e a più fasi. I recenti progressi nei grandi modelli linguistici (LLM) mettono in luce un importante cambiamento dal modo "Sistema 1" di reazioni rapide allo stile "Sistema 2" di risoluzione dei problemi attraverso riflessione e correzione. Tuttavia, i benchmark attuali si basano pesantemente sull'accuratezza delle risposte finali, lasciando inesaminate molte delle fasi di ragionamento intermedie di un modello. Questo non valuta l'abilità del modello di riflettere e correggere gli errori all'interno del processo di ragionamento. Per colmare questa lacuna, presentiamo FINEREASON, un benchmark di rompicapi logici per una valutazione dettagliata delle capacità di ragionamento dei LLM. Ogni rompicapo può essere decomposto in passaggi atomici, rendendolo ideale per una valida validazione della correttezza intermedia. Sulla base di questo, introduciamo due compiti: controllo dello stato e transizione dello stato, per una valutazione completa di come i modelli valutano la situazione attuale e pianificano la mossa successiva. Per supportare una ricerca più ampia, forniamo anche un set di addestramento di rompicapi mirato a migliorare le prestazioni su compiti matematici generali. Dimostriamo che i modelli addestrati sui nostri dati di controllo e transizione dello stato mostrano miglioramenti nel ragionamento matematico fino al 5,1% su GSM8K.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni eccezionali nell'ingegneria del software, ma affrontano sfide nell'adattarsi alla continua evoluzione delle conoscenze sul codice, in particolare riguardo ai frequenti aggiornamenti delle API delle librerie di terze parti. Questa limitazione, derivante da dataset di pre-addestramento statici, spesso si traduce in codice non eseguibile o implementazioni con sicurezza ed efficienza subottimali. A tal fine, questo articolo introduce CODESYNC, un motore di dati per identificare modelli di codice obsoleti e raccogliere aggiornamenti in tempo reale delle conoscenze sul codice dalle librerie di terze parti di Python. Basandoci su CODESYNC, sviluppiamo CODESYNCBENCH, un benchmark completo per valutare la capacità degli LLM di rimanere sincronizzati con l'evoluzione del codice, che copre aggiornamenti reali per 220 API di sei librerie Python. Il nostro benchmark offre 3.300 casi di test attraverso tre compiti di valutazione e un dataset di istruzioni sintonizzate sugli aggiornamenti composto da 2.200 campioni di addestramento. Esperimenti estesi su 14 LLM all'avanguardia rivelano che questi faticano a gestire l'evoluzione dinamica del codice, anche con il supporto di metodi avanzati di aggiornamento delle conoscenze (ad esempio, DPO, ORPO e SimPO). Crediamo che il nostro benchmark possa offrire una solida base per lo sviluppo di metodi più efficaci per l'aggiornamento in tempo reale delle conoscenze sul codice in futuro. Il codice sperimentale e il dataset sono disponibili pubblicamente all'indirizzo: https://github.com/Lucky-voyage/Code-Sync.
Nonostante le loro prestazioni notevoli, i moderni Diffusion Transformers sono limitati da requisiti di risorse sostanziali durante l'inferenza, derivanti dalla quantità fissa e ampia di calcolo necessaria per ogni fase di denoising. In questo lavoro, rivediamo il paradigma statico convenzionale che assegna un budget di calcolo fisso per ogni iterazione di denoising e proponiamo invece una strategia dinamica. Il nostro framework semplice ed efficiente dal punto di vista dei campioni consente di convertire modelli DiT pre-addestrati in modelli flessibili — denominati FlexiDiT — permettendo loro di elaborare input con budget di calcolo variabili. Dimostriamo come un singolo modello flessibile possa generare immagini senza alcuna riduzione della qualità, riducendo i FLOP richiesti di oltre il 40% rispetto alle loro controparti statiche, sia per la generazione di immagini condizionate da classi che da testo. Il nostro metodo è generale e agnostico rispetto alle modalità di input e condizionamento. Mostriamo come il nostro approccio possa essere facilmente esteso per la generazione di video, dove i modelli FlexiDiT generano campioni con fino al 75% in meno di calcolo senza compromettere le prestazioni.
Presentiamo Mobius, un nuovo metodo per generare video in loop in modo fluido da descrizioni testuali direttamente, senza alcuna annotazione dell'utente, creando così nuovi materiali visivi per presentazioni multimediali. Il nostro metodo riadatta il modello di diffusione latente video pre-addestrato per generare video in loop da prompt testuali senza alcun addestramento. Durante l'inferenza, costruiamo innanzitutto un ciclo latente collegando il rumore iniziale e finale dei video. Poiché la coerenza temporale può essere mantenuta dal contesto del modello di diffusione video, eseguiamo un denoising latente multi-frame spostando gradualmente il frame latente iniziale alla fine ad ogni passo. Di conseguenza, il contesto di denoising varia ad ogni passo pur mantenendo coerenza durante l'intero processo di inferenza. Inoltre, il ciclo latente nel nostro metodo può avere qualsiasi lunghezza. Ciò estende il nostro approccio di spostamento latente per generare video in loop senza soluzione di continuità al di là del contesto del modello di diffusione video. A differenza dei precedenti cinemagraph, il metodo proposto non richiede un'immagine come aspetto, il che limiterebbe i movimenti dei risultati generati. Invece, il nostro metodo può produrre movimenti più dinamici e una migliore qualità visiva. Conduciamo molteplici esperimenti e confronti per verificare l'efficacia del metodo proposto, dimostrandone l'efficacia in diversi scenari. Tutto il codice sarà reso disponibile.
La modellazione autoregressiva (AR), nota per il suo paradigma di previsione del token successivo, sostiene i modelli generativi di linguaggio e visione all'avanguardia. Tradizionalmente, un "token" è considerato l'unità di previsione più piccola, spesso un simbolo discreto nel linguaggio o una patch quantizzata nella visione. Tuttavia, la definizione ottimale di token per le strutture di immagini 2D rimane una questione aperta. Inoltre, i modelli AR soffrono di un bias di esposizione, dove l'insegnamento forzato durante l'addestramento porta all'accumulo di errori nell'inferenza. In questo articolo, proponiamo xAR, un framework AR generalizzato che estende il concetto di token a un'entità X, che può rappresentare una singola patch, una cella (un raggruppamento k per k di patch vicine), un sottocampionamento (un raggruppamento non locale di patch distanti), una scala (risoluzione da grossolana a fine), o addirittura un'intera immagine. Inoltre, riformuliamo la classificazione discreta del token come regressione continua dell'entità, sfruttando metodi di corrispondenza di flusso ad ogni passo AR. Questo approccio condiziona l'addestramento su entità rumorose anziché su token veri, portando all'apprendimento del contesto rumoroso, che allevia efficacemente il bias di esposizione. Di conseguenza, xAR offre due vantaggi chiave: (1) consente unità di previsione flessibili che catturano diverse granularità contestuali e strutture spaziali, e (2) mitiga il bias di esposizione evitando il ricorso all'insegnamento forzato. Nel benchmark di generazione ImageNet-256, il nostro modello base, xAR-B (172M), supera DiT-XL/SiT-XL (675M) raggiungendo un'inferenza 20 volte più veloce. Nel frattempo, xAR-H stabilisce un nuovo stato dell'arte con un FID di 1.24, funzionando 2.2 volte più velocemente del modello precedentemente più performante senza fare affidamento su moduli di fondazione della visione (ad es. DINOv2) o campionamenti avanzati di intervallo di guida.
La costruzione di oggetti articolati rappresenta una sfida chiave nel campo della visione artificiale. I metodi esistenti spesso non riescono a integrare efficacemente le informazioni tra i diversi stati degli oggetti, limitando l'accuratezza della ricostruzione delle mesh delle parti e della modellazione delle dinamiche delle parti, specialmente per oggetti articolati complessi con più componenti. Introduciamo ArtGS, un approccio innovativo che sfrutta i Gaussian 3D come rappresentazione flessibile ed efficiente per affrontare queste problematiche. Il nostro metodo incorpora Gaussian canonici con un'inizializzazione e un aggiornamento da grossolano a fine per allineare le informazioni delle parti articolate tra diversi stati dell'oggetto, e utilizza un modulo di modellazione delle dinamiche delle parti ispirato allo skinning per migliorare sia la ricostruzione delle mesh delle parti che l'apprendimento dell'articolazione. Esperimenti estesi su dataset sia sintetici che reali, inclusa una nuova benchmark per oggetti complessi con più componenti, dimostrano che ArtGS raggiunge prestazioni all'avanguardia nella stima congiunta dei parametri e nella ricostruzione delle mesh delle parti. Il nostro approccio migliora significativamente la qualità e l'efficienza della ricostruzione, specialmente per oggetti articolati con più componenti. Inoltre, forniamo analisi approfondite delle nostre scelte progettuali, validando l'efficacia di ciascun componente per evidenziare potenziali aree di miglioramento futuro.
L'apprendimento per rinforzo basato su feedback umano (RLHF) con Proximal Policy Optimization (PPO) è essenziale per allineare i grandi modelli linguistici (LLM) alle preferenze umane. Questo approccio richiede un addestramento congiunto di un attore e di un critico, guidati da un modello di ricompensa pre-addestrato e fisso. Tale metodologia aumenta la complessità computazionale e l'instabilità a causa dell'interdipendenza tra attore e critico. Inoltre, il PPO non ha accesso alle ricompense reali dell'ambiente nei compiti relativi ai LLM, limitandone l'adattabilità. In tali condizioni, pre-addestrare un modello di valore o un modello di ricompensa diventa equivalente, poiché entrambi forniscono segnali di supervisione fissi senza nuovi feedback di verità assoluta. Per affrontare questi problemi, proponiamo il Decoupled Value Policy Optimization (DVPO), un framework snello che sostituisce la tradizionale modellazione della ricompensa con un modello di valore globale (GVM) pre-addestrato. Il GVM è condizionato sulle traiettorie delle politiche e prevede stime di ritorno a livello di token. Decoppiando il modello di valore dall'addestramento delle politiche (tramite obiettivi di RL guidati da GVM congelato), il DVPO elimina l'interdipendenza tra attore e critico, riducendo l'uso della memoria GPU del 40% e il tempo di addestramento del 35% rispetto al RLHF convenzionale. Gli esperimenti condotti su vari benchmark dimostrano che il DVPO supera i metodi RLHF efficienti (ad esempio, DPO) eguagliando le prestazioni del PPO all'avanguardia.
Gli agenti autonomi di intelligenza artificiale che utilizzano ampi modelli linguistici possono creare valori innegabili in tutti gli ambiti della società, ma affrontano minacce alla sicurezza da parte di avversari che richiedono soluzioni protettive immediate poiché sorgono problemi di fiducia e sicurezza. Considerando il jailbreaking many-shot e l'allineamento ingannevole come alcuni dei principali attacchi avanzati, che non possono essere mitigati dalle barriere statiche utilizzate durante l'addestramento supervisionato, si evidenzia una prioritaria ricerca per la robustezza nel mondo reale. La combinazione di barriere statiche in un sistema dinamico multi-agente non riesce a difendersi da tali attacchi. Intendiamo potenziare la sicurezza per gli agenti basati su LLM attraverso lo sviluppo di nuovi quadri di valutazione che identificano e contrastano le minacce per un deployment operativo sicuro. Il nostro lavoro utilizza tre metodi di esame per individuare agenti fraudolenti attraverso un Test di Turing Inverso, analizzare l'allineamento ingannevole attraverso simulazioni multi-agente e sviluppare un sistema anti-jailbreaking testandolo con i modelli GEMINI 1.5 pro e llama-3.3-70B, deepseek r1 utilizzando scenari avversari mediati da strumenti. Le capacità di rilevamento sono forti, come ad esempio il 94\% di accuratezza per GEMINI 1.5 pro, tuttavia il sistema soffre di vulnerabilità persistenti durante attacchi prolungati poiché l'aumento della lunghezza del prompt aumenta i tassi di successo degli attacchi (ASR) e le metriche di diversità diventano inefficaci nella previsione, rivelando al contempo molteplici difetti complessi del sistema. I risultati dimostrano la necessità di adottare sistemi di sicurezza flessibili basati su monitoraggio attivo che possono essere eseguiti dagli agenti stessi insieme a interventi adattabili da parte dell'amministratore di sistema poiché i modelli attuali possono creare vulnerabilità che possono portare a un sistema non affidabile e vulnerabile. Pertanto, nel nostro lavoro, cerchiamo di affrontare tali situazioni e proponiamo un quadro completo per contrastare i problemi di sicurezza.
I framework principali per la risoluzione di problemi si basano prevalentemente su modelli commerciali, portando a costi elevati e preoccupazioni relative alla privacy. Gli approcci di addestramento esistenti per la risoluzione di problemi lottano con una scarsa generalizzazione e non riescono a sfruttare appieno le risorse di sviluppo open-source. Proponiamo il Subtask-oriented Reinforced Fine-Tuning (SoRFT), un nuovo approccio di addestramento per migliorare la capacità di risoluzione dei problemi dei modelli linguistici di grandi dimensioni (LLM). Scomponiamo la risoluzione di problemi in sottotask strutturati: localizzazione del file, localizzazione della funzione, localizzazione della linea e generazione della modifica del codice. SoRFT consiste in due fasi di addestramento: (1) fine-tuning supervisionato con campionamento di rifiuto, in cui i dati Chain of Thought (CoT) vengono filtrati utilizzando la verità di base prima di applicare il fine-tuning all'LLM, e (2) apprendimento per rinforzo basato su regole, che sfrutta il PPO con ricompense basate sulla verità di base. Valutiamo il modello addestrato con SoRFT su SWE-Bench Verified e SWE-Bench Lite, ottenendo prestazioni all'avanguardia (SOTA) tra i modelli open-source (ad esempio, risolvendo il 21,4% dei problemi su SWE-Bench Verified con SoRFT-Qwen-7B). I risultati sperimentali dimostrano che SoRFT migliora significativamente le prestazioni nella risoluzione dei problemi, aumenta la generalizzazione del modello e fornisce un'alternativa efficiente in termini di costi rispetto ai modelli commerciali.
Nonostante i recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) potenziati dal ragionamento, come DeepSeek-R1, l'integrazione del ragionamento in fase di inferenza nella traduzione automatica (MT), dove i traduttori umani impiegano naturalmente catene di pensiero (CoTs) strutturate e multilivello, rimane ancora poco esplorata. I metodi esistenti progettano una CoT fissa adatta a un sotto-compito specifico di MT (ad esempio, la traduzione letteraria) o si basano sulla sintesi di CoTs non allineate con gli umani e su un fine-tuning supervisionato (SFT) soggetto a dimenticanza catastrofica, limitando la loro adattabilità a scenari di traduzione diversi. Questo articolo introduce R1-Translator (R1-T1), un nuovo framework per ottenere il ragionamento in fase di inferenza per la MT generale tramite apprendimento per rinforzo (RL) con CoTs allineate agli umani che comprendono sei modelli comuni. Il nostro approccio introduce tre innovazioni: (1) estendere la traduzione basata sul ragionamento oltre i sotto-compiti di MT a sei lingue e compiti diversi (ad esempio, adattamento a domini legali/medici, risoluzione di idiomi); (2) formalizzare sei modelli di CoT curati da esperti che riflettono strategie ibride umane come la parafrasi consapevole del contesto e la traduzione inversa; e (3) abilitare la scoperta di CoT auto-evolventi e l'adattamento anti-dimenticanza attraverso RL con ricompense vincolate da KL. I risultati sperimentali indicano un miglioramento costante delle prestazioni di traduzione in 21 lingue e 80 direzioni di traduzione sul set di test Flores-101, in particolare sulle 15 lingue non viste durante l'addestramento, con le sue capacità multilingue generali preservate rispetto al semplice SFT.
Nei grandi modelli linguistici (LLM), certi neuroni possono memorizzare pezzi distinti di conoscenza appresa durante la preformazione. Sebbene la conoscenza appaia tipicamente come una combinazione di relazioni ed entità, non è chiaro se alcuni neuroni si concentrino su una relazione in sé -- indipendentemente da qualsiasi entità. Ipotizziamo che tali neuroni individuino una relazione nel testo in input e guidino la generazione che coinvolge tale relazione. Per indagare ciò, studiamo la famiglia Llama-2 su un insieme scelto di relazioni con un metodo basato su statistiche. I nostri esperimenti dimostrano l'esistenza di neuroni specifici per le relazioni. Misuriamo l'effetto della disattivazione selettiva dei neuroni candidati specifici per la relazione r sulla capacità del LLM di gestire (1) fatti la cui relazione è r e (2) fatti la cui relazione è una diversa relazione r' neq r. Riguardo alla loro capacità di codificare informazioni sulla relazione, forniamo prove per le seguenti tre proprietà dei neuroni specifici per le relazioni. (i) Cumulatività dei neuroni. I neuroni per r presentano un effetto cumulativo tale che disattivare una parte maggiore di essi comporta la degradazione di più fatti in r. (ii) Versatilità dei neuroni. I neuroni possono essere condivisi tra più relazioni strettamente correlate così come tra relazioni meno correlate. Alcuni neuroni di relazione si trasferiscono tra lingue. (iii) Interferenza dei neuroni. Disattivare neuroni specifici per una relazione può migliorare le prestazioni di generazione del LLM per fatti di altre relazioni. Metteremo il nostro codice a disposizione pubblicamente su https://github.com/cisnlp/relation-specific-neurons.
I recenti framework degli agenti e gli algoritmi di inferenza spesso faticano con problemi di pianificazione complessi a causa delle limitazioni nella verifica dei piani generati o del ragionamento e della complessità variabile delle istanze all'interno di un singolo compito. Molti metodi esistenti per questi compiti eseguono la verifica a livello di compito senza considerare vincoli o applicano algoritmi di inferenza senza adattarsi alla complessità a livello di istanza. Per affrontare queste limitazioni, proponiamo PlanGEN, un framework di agenti modello-agnostico e facilmente scalabile con tre componenti chiave: agenti di vincolo, verifica e selezione. In particolare, il nostro approccio propone una verifica iterativa guidata dai vincoli per migliorare le prestazioni degli algoritmi di inferenza - Best of N, Tree-of-Thought e REBASE. Nel framework di PlanGEN, l'agente di selezione ottimizza la scelta dell'algoritmo in base alla complessità dell'istanza, garantendo una migliore adattabilità ai problemi di pianificazione complessi. I risultati sperimentali dimostrano miglioramenti significativi rispetto alla linea di base più forte su più benchmark, raggiungendo risultati all'avanguardia su NATURAL PLAN (sim8%uparrow), OlympiadBench (sim4%uparrow), DocFinQA (sim7%uparrow) e GPQA (sim1%uparrow). La nostra scoperta chiave sottolinea che la verifica iterativa guidata dai vincoli migliora gli algoritmi di inferenza, e la selezione adattiva potenzia ulteriormente le prestazioni su problemi complessi di pianificazione e ragionamento.
Il Consistency Training (CT) è emerso recentemente come una promettente alternativa ai modelli di diffusione, raggiungendo prestazioni competitive nei task di generazione di immagini. Tuttavia, il CT non basato su distillazione spesso soffre di elevata varianza e instabilità, e l'analisi e il miglioramento delle sue dinamiche di addestramento rappresentano un'area di ricerca attiva. In questo lavoro, proponiamo un nuovo approccio di addestramento CT basato sul framework di Flow Matching. Il nostro contributo principale è uno schema di accoppiamento del rumore addestrato, ispirato all'architettura dei Variational Autoencoder (VAE). Addestrando un modello di emissione del rumore dipendente dai dati implementato come un'architettura di codificatore, il nostro metodo può apprendere indirettamente la geometria della mappatura dal rumore ai dati, che invece è fissata dalla scelta del processo diretto nel CT classico. I risultati empirici su diversi dataset di immagini mostrano significativi miglioramenti generativi, con il nostro modello che supera i baseline e raggiunge lo stato dell'arte (SoTA) per il CT non basato su distillazione in termini di FID su CIFAR-10, e ottiene un FID paragonabile allo SoTA su ImageNet alla risoluzione 64x64 in una generazione a 2 passi. Il nostro codice è disponibile all'indirizzo https://github.com/sony/vct.
Il rendering di scene dinamiche da video monoculari è un compito cruciale ma impegnativo. Il recente approccio del deformable Gaussian Splatting è emerso come una soluzione robusta per rappresentare scene dinamiche del mondo reale. Tuttavia, spesso porta a una ridondanza eccessiva di Gaussiane, nel tentativo di adattare ogni vista di addestramento a vari istanti temporali, risultando in velocità di rendering più lente. Inoltre, gli attributi delle Gaussiane nelle aree statiche sono invarianti nel tempo, rendendo superfluo modellare ogni Gaussiana, il che può causare tremolii nelle regioni statiche. Nella pratica, il principale collo di bottiglia nella velocità di rendering per le scene dinamiche è il numero di Gaussiane. In risposta, introduciamo l'Efficient Dynamic Gaussian Splatting (EDGS), che rappresenta le scene dinamiche attraverso una modellazione sparsa degli attributi variabili nel tempo. Il nostro approccio formula le scene dinamiche utilizzando una rappresentazione sparsa a griglia di ancore, con il flusso di moto delle Gaussiane dense calcolato tramite una rappresentazione kernel classica. Inoltre, proponiamo una strategia non supervisionata per filtrare efficientemente le ancore corrispondenti alle aree statiche. Solo le ancore associate a oggetti deformabili vengono inserite in MLP per interrogare gli attributi variabili nel tempo. Esperimenti su due dataset del mondo reale dimostrano che il nostro EDGS migliora significativamente la velocità di rendering con una qualità di rendering superiore rispetto ai precedenti metodi all'avanguardia.