Articoli di ricerca IA selezionati quotidianamente con traduzioni
La fotometria stereo universale (PS) mira a ricostruire normali di superficie di alta qualità da oggetti in condizioni di illuminazione arbitraria senza fare affidamento su modelli di illuminazione specifici. Nonostante i recenti progressi come SDM-UniPS e Uni MS-PS, persistono due sfide fondamentali: 1) il profondo accoppiamento tra l'illuminazione variabile e le caratteristiche delle normali di superficie, dove l'ambiguità nell'intensità osservata rende difficile determinare se le variazioni di luminosità derivino da cambiamenti nell'illuminazione o dall'orientamento della superficie; e 2) la preservazione dei dettagli geometrici ad alta frequenza in superfici complesse, dove geometrie intricate creano auto-ombreggiatura, inter-riflessioni e variazioni sottili delle normali che le operazioni convenzionali di elaborazione delle caratteristiche faticano a catturare con precisione.
In questo lavoro, presentiamo OmniGen2, un modello generativo versatile e open-source progettato per offrire una soluzione unificata per diverse attività di generazione, tra cui testo-immagine, editing di immagini e generazione in contesto. A differenza di OmniGen v1, OmniGen2 presenta due percorsi di decodifica distinti per le modalità di testo e immagine, utilizzando parametri non condivisi e un tokenizer di immagini disaccoppiato. Questo design consente a OmniGen2 di costruire su modelli esistenti di comprensione multimodale senza la necessità di riadattare gli input VAE, preservando così le capacità originali di generazione del testo. Per facilitare l'addestramento di OmniGen2, abbiamo sviluppato pipeline complete di costruzione dei dati, comprendenti dati di editing di immagini e generazione in contesto. Inoltre, introduciamo un meccanismo di riflessione specifico per le attività di generazione di immagini e curiamo un dataset dedicato di riflessione basato su OmniGen2. Nonostante le dimensioni relativamente modeste dei parametri, OmniGen2 ottiene risultati competitivi su più benchmark di attività, tra cui testo-immagine e editing di immagini. Per valutare ulteriormente la generazione in contesto, anche definita come attività guidate dal soggetto, introduciamo un nuovo benchmark denominato OmniContext. OmniGen2 raggiunge prestazioni all'avanguardia tra i modelli open-source in termini di coerenza. Rilasceremo i nostri modelli, il codice di addestramento, i dataset e la pipeline di costruzione dei dati per supportare future ricerche in questo campo. Pagina del progetto: https://vectorspacelab.github.io/OmniGen2; Link GitHub: https://github.com/VectorSpaceLab/OmniGen2
La generazione ultra-lunga da parte di modelli linguistici di grandi dimensioni (LLM) è uno scenario ampiamente richiesto, ma rimane una sfida significativa a causa del limite massimo di lunghezza di generazione e del degrado complessivo della qualità all'aumentare della lunghezza della sequenza. Approcci precedenti, come LongWriter, si basano tipicamente su un "insegnamento" che prevede il fine-tuning supervisionato (SFT) su output sintetici di forma lunga. Tuttavia, questa strategia dipende fortemente da dati SFT sintetici, che sono difficili e costosi da costruire, spesso mancano di coerenza e consistenza, e tendono a essere eccessivamente artificiali e strutturalmente monotoni. In questo lavoro, proponiamo un approccio basato sull'incentivazione che, partendo completamente da zero e senza fare affidamento su dati annotati o sintetici, sfrutta l'apprendimento per rinforzo (RL) per favorire l'emergere di capacità di generazione di testi ultra-lunghi e di alta qualità negli LLM. Eseguiamo l'addestramento RL partendo da un modello di base, simile a R1-Zero, guidandolo a impegnarsi in ragionamenti che facilitano la pianificazione e il perfezionamento durante il processo di scrittura. Per supportare ciò, utilizziamo modelli di ricompensa specializzati che indirizzano l'LLM verso un migliore controllo della lunghezza, qualità della scrittura e formattazione strutturale. Le valutazioni sperimentali mostrano che il nostro modello LongWriter-Zero, addestrato a partire da Qwen2.5-32B, supera costantemente i tradizionali metodi SFT nei compiti di scrittura di forma lunga, ottenendo risultati all'avanguardia in tutte le metriche su WritingBench e Arena-Write, e superando persino modelli da 100B+ come DeepSeek R1 e Qwen3-235B. Rendiamo disponibili i nostri dati e i checkpoint del modello su https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
Recentemente, l'AI Agente è diventata un campo di ricerca sempre più popolare. Tuttavia, sosteniamo che le pratiche di ricerca attuali sugli agenti manchino di standardizzazione e rigore scientifico, rendendo difficile condurre confronti equi tra i metodi. Di conseguenza, non è ancora chiaro come le diverse scelte progettuali nei framework degli agenti influenzino l'efficacia, e misurare i loro progressi rimane una sfida. In questo lavoro, conduciamo uno studio empirico sistematico sui benchmark GAIA e BrowseComp per esaminare l'impatto delle scelte progettuali più comuni nei componenti chiave degli agenti in modo equo e rigoroso. Scopriamo che la mancanza di un protocollo di valutazione standard rende i lavori precedenti, anche quelli open-source, non riproducibili, con una significativa variazione tra esecuzioni casuali. Pertanto, introduciamo un protocollo di valutazione più robusto per stabilizzare i confronti. Il nostro studio rivela quali componenti e design sono cruciali per agenti efficaci, mentre altri sono ridondanti, nonostante sembrino logici. Sulla base delle nostre scoperte, costruiamo e rendiamo open-source OAgents, un nuovo framework di agenti di base che raggiunge prestazioni all'avanguardia tra i progetti open-source. OAgents offre un design modulare per vari componenti degli agenti, promuovendo la ricerca futura nell'AI Agente.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) dimostra un potenziale promettente nel migliorare le capacità di ragionamento dei LLM. Tuttavia, il suo successo rimane largamente confinato ai domini matematici e di codice. Questa limitazione principale deriva dalla forte dipendenza da verificatori specifici per dominio, che comporta una complessità proibitiva e una scalabilità limitata. Per affrontare questa sfida, la nostra osservazione chiave è che la probabilità intrinseca di un LLM di generare una risposta corretta in forma libera indica direttamente la sua valutazione della ricompensa di ragionamento (cioè, quanto bene il processo di ragionamento porta alla risposta corretta). Basandoci su questa intuizione, proponiamo RLPR, un semplice framework senza verificatore che estrapola RLVR a domini generali più ampi. RLPR utilizza i punteggi di probabilità dei token del LLM stesso per le risposte di riferimento come segnale di ricompensa e massimizza la ricompensa attesa durante l'addestramento. Abbiamo scoperto che affrontare l'elevata varianza di questa ricompensa di probabilità rumorosa è cruciale per farla funzionare, e proponiamo metodi prob-to-reward e di stabilizzazione per garantire una ricompensa precisa e stabile dalle probabilità intrinseche del LLM. Esperimenti completi in quattro benchmark di dominio generale e tre benchmark matematici mostrano che RLPR migliora costantemente le capacità di ragionamento in entrambe le aree per i modelli basati su Gemma, Llama e Qwen. In particolare, RLPR supera il concorrente VeriFree di 7,6 punti su TheoremQA e di 7,5 punti su Minerva, e supera persino approcci forti dipendenti da modelli verificatori come General-Reasoner di una media di 1,6 punti su sette benchmark.
La generazione da soggetto a video ha registrato progressi significativi negli ultimi anni. Tuttavia, i modelli esistenti continuano a confrontarsi con sfide importanti nel seguire fedelmente le istruzioni testuali. Questa limitazione, comunemente nota come problema del copia-incolla, deriva dal paradigma di addestramento in coppia ampiamente utilizzato. Questo approccio intrinsecamente intreccia l'identità del soggetto con attributi contestuali e di sfondo campionando immagini di riferimento dalla stessa scena del video target. Per affrontare questo problema, introduciamo Phantom-Data, il primo dataset generale di coerenza da soggetto a video in coppie incrociate, contenente circa un milione di coppie con identità coerenti in diverse categorie. Il nostro dataset è costruito attraverso una pipeline in tre fasi: (1) un modulo di rilevamento del soggetto generale e allineato all'input, (2) un recupero su larga scala di soggetti in contesti incrociati da oltre 53 milioni di video e 3 miliardi di immagini, e (3) una verifica dell'identità guidata da prior per garantire la coerenza visiva sotto variazione contestuale. Esperimenti completi dimostrano che l'addestramento con Phantom-Data migliora significativamente l'allineamento alle istruzioni e la qualità visiva, mantenendo al contempo la coerenza dell'identità pari ai baseline in coppia.
La Sintesi Dinamica di Nuove Visualizzazioni mira a generare viste fotorealistiche di soggetti in movimento da punti di vista arbitrari. Questo compito è particolarmente impegnativo quando si fa affidamento su video monoculari, dove separare la struttura dal movimento è un problema mal posto e la supervisione è scarsa. Introduciamo Video Diffusion-Aware Reconstruction (ViDAR), un innovativo framework di ricostruzione 4D che sfrutta modelli di diffusione personalizzati per sintetizzare un segnale di supervisione pseudo multi-vista per addestrare una rappresentazione a splatting gaussiano. Condizionando su caratteristiche specifiche della scena, ViDAR recupera dettagli di aspetto fine-granularità mitigando al contempo gli artefatti introdotti dall'ambiguità monoculare. Per affrontare l'inconsistenza spazio-temporale della supervisione basata su diffusione, proponiamo una funzione di perdita diffusion-aware e una strategia di ottimizzazione della posizione della telecamera che allinea le viste sintetiche con la geometria sottostante della scena. Gli esperimenti su DyCheck, un benchmark impegnativo con variazioni estreme del punto di vista, dimostrano che ViDAR supera tutti i baselines state-of-the-art in termini di qualità visiva e consistenza geometrica. Evidenziamo inoltre il forte miglioramento di ViDAR rispetto ai baselines sulle regioni dinamiche e forniamo un nuovo benchmark per confrontare le prestazioni nella ricostruzione delle parti della scena ricche di movimento. Pagina del progetto: https://vidar-4d.github.io
Questo articolo presenta un framework multimodale che mira a unificare la comprensione e la generazione visiva all'interno di una rappresentazione semantica discreta condivisa. Al suo centro si trova il Text-Aligned Tokenizer (TA-Tok), che converte le immagini in token discreti utilizzando un codebook allineato al testo proiettato dal vocabolario di un modello linguistico di grandi dimensioni (LLM). Integrando visione e testo in uno spazio unificato con un vocabolario ampliato, il nostro LLM multimodale, Tar, consente input e output cross-modali attraverso un'interfaccia condivisa, senza la necessità di design specifici per ogni modalità. Inoltre, proponiamo una codifica e decodifica adattiva alla scala per bilanciare efficienza e dettaglio visivo, insieme a un de-tokenizer generativo per produrre output visivi ad alta fedeltà. Per soddisfare diverse esigenze di decodifica, utilizziamo due de-tokenizer complementari: un modello autoregressivo veloce e un modello basato su diffusione. Per migliorare la fusione delle modalità, investigiamo compiti di pre-training avanzati, dimostrando miglioramenti sia nella comprensione che nella generazione visiva. Gli esperimenti condotti su benchmark mostrano che Tar eguaglia o supera i metodi esistenti di LLM multimodali, raggiungendo una convergenza più rapida e una maggiore efficienza di addestramento. Codice, modelli e dati sono disponibili su https://tar.csuhan.com.
I modelli di ricompensa basati sul processo (PRM) sono emersi recentemente come un potente framework per supervisionare i passaggi intermedi del ragionamento nei grandi modelli linguistici (LLM). I PRM precedenti sono principalmente addestrati sulle risposte finali del modello e faticano a valutare in modo robusto le traiettorie di pensiero intermedie, specialmente nel contesto emergente delle uscite di tipo traiettoria-risposta generate da modelli di ragionamento all'avanguardia come Deepseek-R1. In questo lavoro, introduciamo ReasonFlux-PRM, un nuovo PRM consapevole della traiettoria, progettato esplicitamente per valutare le tracce di ragionamento di tipo traiettoria-risposta. ReasonFlux-PRM incorpora sia la supervisione a livello di passaggio che a livello di traiettoria, consentendo l'assegnazione di ricompense granulari allineate con dati strutturati di catena di pensiero. Adattiamo ReasonFlux-PRM per supportare la supervisione delle ricompense sia in contesti offline che online, inclusi (i) la selezione di dati di distillazione di alta qualità per il fine-tuning supervisionato di modelli più piccoli, (ii) la fornitura di ricompense dense a livello di processo per l'ottimizzazione delle politiche durante l'apprendimento per rinforzo, e (iii) l'abilitazione del ridimensionamento Best-of-N guidato dalla ricompensa al momento del test. I risultati empirici su benchmark impegnativi come AIME, MATH500 e GPQA-Diamond dimostrano che ReasonFlux-PRM-7B seleziona dati di qualità superiore rispetto a PRM forti (ad esempio, Qwen2.5-Math-PRM-72B) e baseline curate da esseri umani. Inoltre, il nostro ReasonFlux-PRM-7B derivato produce miglioramenti consistenti nelle prestazioni, raggiungendo guadagni medi del 12,1% nel fine-tuning supervisionato, del 4,5% nell'apprendimento per rinforzo e del 6,3% nel ridimensionamento al momento del test. Rilasciamo anche il nostro efficiente ReasonFlux-PRM-1.5B per applicazioni con risorse limitate e implementazioni edge. Progetti: https://github.com/Gen-Verse/ReasonFlux
Introduciamo DIP, un nuovo metodo non supervisionato di post-addestramento progettato per migliorare le rappresentazioni dense delle immagini nei codificatori visivi pre-addestrati su larga scala per la comprensione contestuale delle scene. A differenza degli approcci precedenti che si basano su architetture complesse di auto-distillazione, il nostro metodo addestra il codificatore visivo utilizzando pseudo-task che simulano esplicitamente scenari contestuali downstream, ispirati ai principi del meta-apprendimento. Per consentire il post-addestramento su dati non etichettati, proponiamo un meccanismo automatico per generare task contestuali che combina un modello di diffusione pre-addestrato e il codificatore visivo stesso. DIP è semplice, non supervisionato e computazionalmente efficiente, richiedendo meno di 9 ore su una singola GPU A100. Apprendendo rappresentazioni dense attraverso pseudo-task contestuali, ottiene prestazioni solide in un'ampia varietà di task reali di comprensione contestuale delle scene downstream. Supera sia il codificatore visivo iniziale che i metodi precedenti, offrendo una soluzione pratica ed efficace per migliorare le rappresentazioni dense. Codice disponibile qui: https://github.com/sirkosophia/DIP
Proponiamo un nuovo meccanismo di memoria per costruire generatori video in grado di esplorare ambienti in modo interattivo. Risultati simili sono stati precedentemente ottenuti attraverso l'out-painting di viste 2D della scena mentre si ricostruiva incrementalmente la sua geometria 3D, un approccio che accumula rapidamente errori, o mediante generatori video con una finestra di contesto breve, che faticano a mantenere la coerenza della scena nel lungo termine. Per superare queste limitazioni, introduciamo il Surfel-Indexed View Memory (VMem), un meccanismo che ricorda le viste passate indicizzandole geometricamente in base agli elementi di superficie 3D (surfel) osservati. VMem consente il recupero efficiente delle viste passate più rilevanti durante la generazione di nuove viste. Concentrandosi solo su queste viste pertinenti, il nostro metodo produce esplorazioni coerenti di ambienti immaginati a una frazione del costo computazionale richiesto dall'utilizzo di tutte le viste passate come contesto. Valutiamo il nostro approccio su benchmark impegnativi di sintesi di scene a lungo termine e dimostriamo prestazioni superiori rispetto ai metodi esistenti nel mantenere la coerenza della scena e il controllo della telecamera.
La valutazione dei modelli generativi 3D rimane una sfida a causa del disallineamento tra le metriche automatizzate e la percezione umana della qualità. Gli attuali benchmark si basano su metriche basate su immagini che ignorano la struttura 3D o su misure geometriche che non catturano l'attrattiva percettiva e l'utilità nel mondo reale. Per colmare questa lacuna, presentiamo 3D Arena, una piattaforma aperta per valutare i modelli di generazione da immagine a 3D attraverso la raccolta su larga scala di preferenze umane utilizzando confronti a coppie. Dal lancio nel giugno 2024, la piattaforma ha raccolto 123.243 voti da 8.096 utenti su 19 modelli all'avanguardia, stabilendo la più grande valutazione di preferenze umane per la generazione 3D. Contribuiamo con il dataset iso3d di 100 prompt di valutazione e dimostriamo un controllo qualità che raggiunge il 99,75% di autenticità degli utenti attraverso il rilevamento statistico di frodi. Il nostro sistema di ranking basato su ELO fornisce una valutazione affidabile dei modelli, con la piattaforma che è diventata una risorsa consolidata per la valutazione. Attraverso l'analisi di questi dati di preferenza, presentiamo approfondimenti sui modelli di preferenza umana. Le nostre scoperte rivelano preferenze per le caratteristiche di presentazione visiva, con le uscite di Gaussian splat che ottengono un vantaggio di 16,6 ELO rispetto alle mesh e i modelli texturizzati che ricevono un vantaggio di 144,1 ELO rispetto ai modelli non texturizzati. Forniamo raccomandazioni per migliorare i metodi di valutazione, inclusa la valutazione multi-criterio, la valutazione orientata al compito e il confronto consapevole del formato. L'impegno della comunità della piattaforma stabilisce 3D Arena come un benchmark per il settore, avanzando la comprensione della valutazione centrata sull'uomo nella generazione 3D.
L'architettura Mixture of Experts (MoE) è emersa come un paradigma potente per scalare i grandi modelli linguistici (LLM) mantenendo l'efficienza nell'inferenza. Tuttavia, i loro enormi requisiti di memoria li rendono proibitivamente costosi da ottimizzare o distribuire in ambienti con risorse limitate. Per affrontare questa sfida, introduciamo SlimMoE, un framework di compressione multi-stadio che trasforma grandi modelli MoE in varianti molto più piccole ed efficienti senza incorrere nei costi proibitivi dell'addestramento da zero. Il nostro metodo riduce sistematicamente il numero di parametri attraverso il ridimensionamento degli esperti e il trasferimento di conoscenza in stadi intermedi, mitigando efficacemente il degrado delle prestazioni comune negli approcci di pruning one-shot. Utilizzando questo framework, comprimiamo Phi 3.5-MoE (41,9B parametri totali/6,6B attivati) per creare Phi-mini-MoE (7,6B totali/2,4B attivati) e Phi-tiny-MoE (3,8B totali/1,1B attivati) utilizzando solo 400B token, meno del 10% dei dati di addestramento del modello originale. Questi modelli compressi possono essere ottimizzati su una singola GPU (A100 per Phi-mini-MoE, A6000 per Phi-tiny-MoE), rendendoli altamente adatti per contesti accademici e con risorse limitate. I nostri esperimenti dimostrano che questi modelli compressi superano altri di dimensioni simili e rimangono competitivi con modelli più grandi. Ad esempio, Phi-mini-MoE raggiunge prestazioni simili o migliori rispetto a Phi-3-mini utilizzando solo 2/3 dei parametri attivati e produce punteggi MMLU comparabili a Llama 3.1 8B nonostante abbia una latenza significativamente inferiore. I nostri risultati dimostrano che il pruning strutturato combinato con la distillazione a stadi offre un percorso efficace per creare modelli MoE compatti e di alta qualità, aprendo la strada a un'adozione più ampia delle architetture MoE. Rendiamo i nostri modelli pubblicamente disponibili su https://huggingface.co/microsoft/Phi-mini-MoE-instruct e https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
Presentiamo RealPlay, un motore di gioco basato su reti neurali per il mondo reale che consente la generazione interattiva di video a partire da segnali di controllo dell'utente. A differenza dei lavori precedenti focalizzati su visuali di tipo videoludico, RealPlay mira a produrre sequenze video fotorealistiche e temporalmente coerenti che assomigliano a riprese del mondo reale. Opera in un ciclo interattivo: gli utenti osservano una scena generata, impartiscono un comando di controllo e ricevono in risposta un breve segmento video. Per abilitare una generazione così realistica e reattiva, affrontiamo sfide chiave tra cui la previsione iterativa a segmenti per un feedback a bassa latenza, la coerenza temporale tra le iterazioni e una risposta accurata ai comandi. RealPlay viene addestrato su una combinazione di dati di gioco etichettati e video del mondo reale non etichettati, senza richiedere annotazioni di azioni reali. In particolare, osserviamo due forme di generalizzazione: (1) trasferimento del controllo - RealPlay mappa efficacemente i segnali di controllo da scenari virtuali a quelli reali; e (2) trasferimento di entità - sebbene le etichette di addestramento provengano esclusivamente da un gioco di corse automobilistiche, RealPlay generalizza il controllo a diverse entità del mondo reale, tra cui biciclette e pedoni, oltre ai veicoli. La pagina del progetto è disponibile all'indirizzo: https://wenqsun.github.io/RealPlay/
La profilazione degli utenti è fondamentale per i sistemi di raccomandazione, poiché trasforma i dati grezzi delle interazioni degli utenti in rappresentazioni concise e strutturate che guidano raccomandazioni personalizzate. Mentre i profili tradizionali basati su embedding mancano di interpretabilità e adattabilità, i recenti progressi nei grandi modelli linguistici (LLM) consentono la creazione di profili testuali semanticamente più ricchi e trasparenti. Tuttavia, i metodi esistenti spesso aderiscono a formati fissi che limitano la loro capacità di catturare la piena diversità dei comportamenti degli utenti. In questo articolo, introduciamo LettinGo, un nuovo framework per la generazione di profili utente diversificati e adattivi. Sfruttando il potere espressivo degli LLM e incorporando feedback diretto dai task di raccomandazione downstream, il nostro approccio evita i vincoli rigidi imposti dal fine-tuning supervisionato (SFT). Invece, utilizziamo l'ottimizzazione diretta delle preferenze (DPO) per allineare il generatore di profili alle prestazioni specifiche del task, garantendo che i profili rimangano adattivi ed efficaci. LettinGo opera in tre fasi: (1) esplorazione di profili utente diversificati tramite più LLM, (2) valutazione della qualità dei profili in base al loro impatto nei sistemi di raccomandazione, e (3) allineamento della generazione dei profili attraverso dati di preferenza a coppie derivati dalle prestazioni del task. I risultati sperimentali dimostrano che il nostro framework migliora significativamente l'accuratezza, la flessibilità e la consapevolezza contestuale delle raccomandazioni. Questo lavoro valorizza la generazione di profili come un'innovazione chiave per i sistemi di raccomandazione di prossima generazione.
Proponiamo il primo framework in grado di calcolare una griglia spazio-temporale 4D di fotogrammi video e particelle gaussiane 3D per ogni passo temporale utilizzando un'architettura feed-forward. La nostra architettura è composta da due componenti principali: un modello video 4D e un modello di ricostruzione 4D. Nella prima parte, analizziamo le attuali architetture di diffusione video 4D che eseguono l'attenzione spaziale e temporale in sequenza o in parallelo all'interno di un design a due flussi. Evidenziamo i limiti degli approcci esistenti e introduciamo una nuova architettura fusa che esegue l'attenzione spaziale e temporale all'interno di un singolo strato. La chiave del nostro metodo è un pattern di attenzione sparsa, in cui i token si concentrano su altri token nello stesso fotogramma, allo stesso istante temporale o dalla stessa prospettiva. Nella seconda parte, estendiamo gli algoritmi di ricostruzione 3D esistenti introducendo una testa gaussiana, un algoritmo di sostituzione del token della telecamera e ulteriori strati dinamici e formazione. Nel complesso, stabiliamo un nuovo stato dell'arte per la generazione 4D, migliorando sia la qualità visiva che la capacità di ricostruzione.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno iniziato a dimostrare capacità di ragionamento robuste su compiti generali, ma la loro applicazione nel dominio medico rimane nelle fasi iniziali. La costruzione di dati di training a catena di pensiero (CoT) è essenziale per potenziare le capacità di ragionamento degli MLLM medici. Tuttavia, gli approcci esistenti mostrano una carenza nell'offrire un quadro completo per la ricerca e la valutazione di percorsi di ragionamento efficaci verso una diagnosi critica. Per affrontare questa sfida, proponiamo Mentor-Intern Collaborative Search (MICS), un nuovo schema di ricerca di percorsi di ragionamento per generare dati CoT medici rigorosi ed efficaci. MICS sfrutta prima i modelli mentor per inizializzare il ragionamento, un passo alla volta, poi sollecita ogni modello intern a continuare il pensiero lungo quei percorsi iniziati, e infine seleziona il percorso di ragionamento ottimale in base alla performance complessiva di ragionamento di più modelli intern. La performance di ragionamento è determinata da un MICS-Score, che valuta la qualità dei percorsi di ragionamento generati. Alla fine, costruiamo MMRP, un dataset di ragionamento medico multi-task con difficoltà graduata, e Chiron-o1, un nuovo MLLM medico progettato tramite una strategia di apprendimento curriculare, con robuste capacità di risposta a domande visive e di ragionamento generalizzabile. Esperimenti estensivi dimostrano che Chiron-o1, addestrato sul nostro dataset CoT costruito utilizzando MICS, raggiunge prestazioni all'avanguardia in una serie di benchmark di risposta a domande visive e di ragionamento medico. I codici sono disponibili su GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
La generazione di immagini multi-vista da istruzioni umane è cruciale per la creazione di contenuti 3D. Le principali sfide riguardano il mantenimento della coerenza tra più viste e la sintesi efficace di forme e texture in condizioni diverse. In questo articolo, proponiamo il metodo Multi-View Auto-Regressive (MV-AR), che sfrutta un modello auto-regressivo per generare progressivamente immagini multi-vista coerenti da prompt arbitrari. In primo luogo, la capacità di previsione del token successivo del modello AR migliora significativamente la sua efficacia nel facilitare la sintesi multi-vista progressiva. Quando si generano viste ampiamente separate, MV-AR può utilizzare tutte le viste precedenti per estrarre informazioni di riferimento efficaci. Successivamente, proponiamo un modello unificato che accoglie vari prompt attraverso la progettazione dell'architettura e le strategie di addestramento. Per affrontare condizioni multiple, introduciamo moduli di iniezione di condizioni per testo, posa della telecamera, immagine e forma. Per gestire contemporaneamente condizioni multi-modali, viene impiegata una strategia di addestramento progressivo. Questa strategia adotta inizialmente il modello text-to-multi-view (t2mv) come baseline per migliorare lo sviluppo di un modello X-to-multi-view (X2mv) completo attraverso l'eliminazione e la combinazione casuale delle condizioni. Infine, per alleviare il problema di overfitting causato da dati di alta qualità limitati, proponiamo la tecnica di aumento dei dati "Shuffle View", espandendo così significativamente i dati di addestramento di diversi ordini di grandezza. Gli esperimenti dimostrano le prestazioni e la versatilità del nostro MV-AR, che genera costantemente immagini multi-vista coerenti in una gamma di condizioni e si comporta alla pari con i principali modelli di generazione di immagini multi-vista basati su diffusione. Codice e modelli saranno rilasciati su https://github.com/MILab-PKU/MVAR.
Questo articolo presenta FinCoT, un approccio strutturato di prompting a catena di pensiero (CoT) che incorpora intuizioni derivanti dal ragionamento finanziario di esperti del settore per guidare le tracce di ragionamento dei grandi modelli linguistici. Indaghiamo l'esistenza di tre principali stili di prompting in FinNLP: (1) prompting standard--prompting zero-shot; (2) CoT non strutturato--prompting CoT senza una struttura di ragionamento esplicita, come l'uso di tag; e (3) prompting CoT strutturato--prompting CoT con istruzioni o esempi espliciti che definiscono passaggi di ragionamento strutturati. In precedenza, FinNLP si è concentrato principalmente sull'ingegneria dei prompt utilizzando prompting standard o CoT non strutturato. Tuttavia, il prompting CoT strutturato ha ricevuto un'attenzione limitata nei lavori precedenti. Inoltre, la progettazione delle strutture di ragionamento nel prompting CoT strutturato è spesso basata su euristiche provenienti da non esperti del dominio. In questo studio, indaghiamo ciascun approccio di prompting in FinNLP. Valutiamo i tre principali stili di prompting e FinCoT su domande in stile CFA che coprono dieci domini finanziari. Osserviamo che FinCoT migliora le prestazioni da 63,2% a 80,5% e Qwen-2.5-7B-Instruct da 69,7% a 74,2%, riducendo al contempo i token generati di otto volte rispetto al prompting CoT strutturato. I nostri risultati dimostrano che i prompt strutturati allineati al dominio non solo migliorano le prestazioni e riducono i costi di inferenza, ma producono anche tracce di ragionamento più interpretabili e allineate agli esperti.
La modifica dell'illuminazione in video lunghi con dinamiche complesse ha un valore significativo in varie attività downstream, tra cui la creazione e manipolazione di contenuti visivi, nonché il potenziamento dei dati per l'AI incarnata attraverso il trasferimento sim2real e real2real. Tuttavia, le tecniche esistenti di rilucente video sono prevalentemente limitate a video ritratti o si scontrano con il collo di bottiglia della coerenza temporale e dell'efficienza computazionale. In questo articolo, proponiamo TC-Light, un nuovo paradigma caratterizzato dal meccanismo di ottimizzazione post in due fasi proposto. Partendo dal video preliminarmente rilucente da un modello di rilucente video espanso, ottimizza l'embedding dell'aspetto nella prima fase per allineare l'illuminazione globale. Successivamente, ottimizza la rappresentazione video canonica proposta, ovvero il Tensore Video Unico (UVT), per allineare la texture e l'illuminazione di dettaglio nella seconda fase. Per valutare in modo completo le prestazioni, abbiamo anche stabilito un benchmark di video lunghi e altamente dinamici. Esperimenti estesi dimostrano che il nostro metodo consente risultati di rilucente fisicamente plausibili con una superiore coerenza temporale e un basso costo computazionale. Il codice e le demo video sono disponibili su https://dekuliutesla.github.io/tclight/.
DeepSeek-R1 ha migliorato con successo le capacità di ragionamento dei Large Language Model (LLM) attraverso il suo sistema di ricompensa basato su regole. Sebbene si tratti di un sistema di ricompensa "perfetto" che mitiga efficacemente il fenomeno del reward hacking, tali funzioni di ricompensa sono spesso discrete. Le nostre osservazioni sperimentali suggeriscono che le ricompense discrete possono portare ad anomalie del gradiente, ottimizzazione instabile e convergenza lenta. Per affrontare questo problema, proponiamo ReDit (Reward Dithering), un metodo che modula il segnale di ricompensa discreta aggiungendo un semplice rumore casuale. Con questa ricompensa perturbata, i gradienti esplorativi vengono forniti in modo continuo durante il processo di apprendimento, consentendo aggiornamenti del gradiente più fluidi e accelerando la convergenza. Il rumore iniettato introduce inoltre stocasticità nelle regioni piatte della ricompensa, incoraggiando il modello a esplorare nuove politiche e a sfuggire agli ottimi locali. Esperimenti su diversi compiti dimostrano l'efficacia e l'efficienza di ReDit. In media, ReDit raggiunge prestazioni comparabili al vanilla GRPO con solo circa il 10% dei passi di addestramento e, inoltre, mostra ancora un miglioramento delle prestazioni del 4% rispetto al vanilla GRPO quando addestrato per una durata simile. Le visualizzazioni confermano una significativa mitigazione dei problemi di gradiente con ReDit. Inoltre, vengono fornite analisi teoriche per convalidare ulteriormente questi vantaggi.
Nonostante le loro impressionanti capacità, i grandi modelli linguistici allineati (LLM) spesso generano output che mancano di diversità. Cosa guida questa stabilità nella generazione? Investigiamo questo fenomeno attraverso la lente della concentrazione di probabilità nella distribuzione di output del modello. Per quantificare questa concentrazione, introduciamo il Fattore di Ramificazione (Branching Factor, BF) — una misura invariante rispetto ai token del numero effettivo di passi plausibili successivi durante la generazione. La nostra analisi empirica rivela due risultati chiave: (1) Il BF spesso diminuisce man mano che la generazione procede, suggerendo che i LLM diventano più prevedibili mentre generano. (2) L'ottimizzazione per l'allineamento affina sostanzialmente la distribuzione di output del modello fin dall'inizio, riducendo il BF di quasi un ordine di grandezza (ad esempio, da 12 a 1,2) rispetto ai modelli di base. Questa drastica riduzione aiuta a spiegare perché i modelli allineati spesso appaiono meno sensibili alle strategie di decodifica. Basandoci su questa intuizione, scopriamo che questa stabilità ha implicazioni sorprendenti per il ragionamento complesso. I modelli allineati con Catena di Pensiero (Chain-of-Thought, CoT) (ad esempio, i modelli distillati DeepSeek), per esempio, sfruttano questo effetto; generando catene di ragionamento più lunghe, spingono la generazione verso fasi successive più deterministiche (con BF più basso), ottenendo output più stabili. Ipotesizziamo che l'ottimizzazione per l'allineamento non cambi fondamentalmente il comportamento di un modello, ma lo indirizzi verso token stilistici (ad esempio, "Certamente") che sbloccano traiettorie a bassa entropia già presenti nel modello di base. Questa visione è supportata da esperimenti di "nudging", che mostrano che suggerire ai modelli di base tali token può ridurre in modo simile il BF. Insieme, i nostri risultati stabiliscono il BF come un potente strumento diagnostico per comprendere e controllare gli output dei LLM — chiarendo come l'allineamento riduca la variabilità, come il CoT promuova generazioni stabili e come i modelli di base possano essere indirizzati lontano dalla diversità.
I modelli di ricompensa (RMs) sono fondamentali per allineare i Large Language Models (LLMs) tramite feedback umano, ma spesso soffrono di reward hacking. Tendono ad aggrapparsi ad attributi superficiali o spurii, come la lunghezza della risposta o la formattazione, scambiando questi segnali appresi da correlazioni nei dati di addestramento per i veri fattori causali della qualità (ad esempio, la veridicità, la rilevanza). Ciò accade perché gli obiettivi di addestramento standard faticano a distinguere questi fattori, portando a RMs fragili e politiche disallineate. Introduciamo Crome (Causally Robust Reward Modeling), un nuovo framework basato su un modello causale esplicito progettato per mitigare il reward hacking. Crome utilizza le seguenti aumentazioni sintetiche mirate durante l'addestramento: (1) Aumentazioni Causali, che sono coppie che differiscono lungo specifici attributi causali, per imporre la sensibilità lungo ciascun attributo causale individualmente, e (2) Aumentazioni Neutrali, che sono coppie con etichetta di pareggio che variano principalmente in attributi spurii, per imporre l'invarianza lungo attributi spurii. È importante notare che le nostre aumentazioni sono prodotte senza alcuna conoscenza dei fattori spurii, tramite interventi sulle risposte solo lungo rubriche causali, che vengono identificate interrogando un LLM oracolo. Empiricamente, Crome supera significativamente i benchmark standard su RewardBench, migliorando l'accuratezza media fino al 5,4% e ottenendo guadagni fino al 13,2% e al 7,2% in categorie specifiche. La robustezza di Crome è ulteriormente testimoniata dai guadagni consistenti ottenuti in un'impostazione di inferenza Best-of-N con N crescente, su vari benchmark, tra cui il popolare RewardBench (che copre compiti di chat, chat-hard, sicurezza e ragionamento), il WildGuardTest focalizzato sulla sicurezza e il GSM8k specifico per il ragionamento.
Possiamo scalare il pretraining 4D per apprendere rappresentazioni spazio-temporali generali che ricostruiscano un oggetto da poche viste in determinati momenti a qualsiasi vista in qualsiasi momento? Forniamo una risposta affermativa con 4D-LRM, il primo modello di ricostruzione 4D su larga scala che accetta input da viste e timestamp non vincolati e renderizza combinazioni arbitrarie di nuove viste e tempi. A differenza degli approcci 4D precedenti, ad esempio basati su ottimizzazione, geometria o generativi, che lottano con efficienza, generalizzazione o fedeltà, 4D-LRM apprende una rappresentazione spazio-temporale unificata e prevede direttamente primitive gaussiane 4D per pixel a partire da token di immagini posizionate nel tempo, consentendo un rendering rapido e di alta qualità, in linea di principio, a una frequenza di fotogrammi infinita. I nostri risultati dimostrano che la scalabilità del pretraining spaziotemporale abilita una ricostruzione 4D accurata ed efficiente. Mostriamo che 4D-LRM generalizza a nuovi oggetti, interpola nel tempo e gestisce configurazioni di telecamere diverse. Ricostruisce sequenze di 24 fotogrammi in un unico passaggio in avanti in meno di 1,5 secondi su una singola GPU A100.
Questo lavoro esamina se l'attivazione di sottospazi latenti nei modelli linguistici (LLM) possa indirizzare la generazione di codice scientifico verso un linguaggio di programmazione specifico. Cinque LLM causali sono stati inizialmente valutati su prompt di codifica scientifica per quantificare il loro bias di base tra quattro linguaggi di programmazione. Un metodo statico di attribuzione dei neuroni, che perturbava il peso MLP più attivato per un token C++ o CPP, si è rivelato fragile e ha mostrato una generalizzazione limitata tra stili di prompt e scale del modello. Per affrontare queste limitazioni, è stato sviluppato un framework di attivazione adattiva raffinato con gradienti (G-ACT): le differenze di attivazione per ogni prompt vengono raggruppate in un piccolo insieme di direzioni di indirizzamento, e sonde leggere per ogni strato vengono addestrate e raffinate online per selezionare il vettore di indirizzamento appropriato. In LLaMA-3.2 3B, questo approccio polarizza in modo affidabile la generazione verso il linguaggio CPP aumentando l'accuratezza media della classificazione delle sonde del 15% e migliorando l'accuratezza della classificazione delle sonde negli strati iniziali (0-6) del 61,5% rispetto al framework ACT standard. Per LLaMA-3.3 70B, dove i segnali delle teste di attenzione diventano più diffusi, iniezioni mirate negli strati chiave migliorano comunque la selezione del linguaggio. Sebbene il probing per ogni strato introduca un modesto sovraccarico di inferenza, rimane pratico indirizzando solo un sottoinsieme di strati e consente un comportamento del modello riproducibile. Questi risultati dimostrano un meccanismo scalabile, interpretabile ed efficiente per il controllo a livello di concetto per sistemi agentici pratici.
Gli Autoencoder Sparse (SAE) sono emersi come una soluzione promettente per scomporre le rappresentazioni dei grandi modelli linguistici in caratteristiche interpretabili. Tuttavia, Paulo e Belrose (2025) hanno evidenziato instabilità tra diversi semi di inizializzazione, e Heap et al. (2025) hanno sottolineato che gli SAE potrebbero non catturare le caratteristiche interne del modello. Questi problemi probabilmente derivano dall'addestramento degli SAE su dataset esterni - raccolti dal Web o generati da un altro modello - che possono contenere dati fuori distribuzione (OOD) oltre le capacità di generalizzazione del modello. Ciò può portare a caratteristiche SAE allucinate, che definiamo "Fake Features", che rappresentano erroneamente le attivazioni interne del modello. Per affrontare questi problemi, proponiamo FaithfulSAE, un metodo che addestra gli SAE sul dataset sintetico generato dal modello stesso. Utilizzando FaithfulSAE, dimostriamo che l'addestramento degli SAE su dataset di istruzioni meno OOD risulta in SAE più stabili tra i semi. In particolare, i FaithfulSAE superano gli SAE addestrati su dataset basati sul Web nel task di probing degli SAE e mostrano un rapporto di Fake Feature più basso in 5 modelli su 7. Nel complesso, il nostro approccio elimina la dipendenza da dataset esterni, migliorando l'interpretabilità catturando meglio le caratteristiche interne del modello e sottolineando l'importanza spesso trascurata dei dataset di addestramento degli SAE.
Il recente passaggio delle applicazioni di Intelligenza Artificiale Generativa (GenAI) da ambienti esclusivamente cloud a dispositivi degli utenti finali introduce nuove sfide nella gestione delle risorse, nell'efficienza del sistema e nell'esperienza utente. Questo articolo presenta ConsumerBench, un framework di benchmarking completo progettato per valutare l'efficienza del sistema e i tempi di risposta dei modelli GenAI in esecuzione su dispositivi degli utenti finali. A differenza dei benchmark esistenti che presuppongono un accesso esclusivo ai modelli su GPU dedicate, ConsumerBench simula scenari realistici multi-applicazione eseguiti contemporaneamente su hardware limitato. Inoltre, ConsumerBench supporta flussi di lavoro personalizzabili che simulano compiti complessi che richiedono il coordinamento tra più applicazioni. ConsumerBench cattura sia metriche a livello di applicazione, tra cui latenza e raggiungimento degli Obiettivi di Livello di Servizio (SLO), sia metriche a livello di sistema come l'utilizzo della CPU/GPU e la larghezza di banda della memoria. Attraverso esperimenti estensivi, ConsumerBench rivela inefficienze nella condivisione delle risorse, una pianificazione ingiusta sotto allocazioni avide e le insidie delle prestazioni delle configurazioni statiche dei server di modelli. L'articolo fornisce anche approfondimenti pratici per gli sviluppatori di modelli e i progettisti di sistemi, evidenziando i vantaggi dei kernel personalizzati ottimizzati per le architetture GPU di livello consumer e il valore dell'implementazione di strategie di pianificazione consapevoli degli SLO.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati in applicazioni che richiedono contesti lunghi, ma la cache chiave-valore (KV) spesso diventa un collo di bottiglia della memoria sulle GPU man mano che il contesto cresce. Per affrontare questo problema, proponiamo la Quantizzazione Vettoriale Commutativa (CommVQ) per ridurre significativamente l'uso della memoria durante l'inferenza di LLM con contesti lunghi. Introduciamo innanzitutto una quantizzazione additiva con un encoder leggero e un codebook per comprimere la cache KV, che può essere decodificata tramite una semplice moltiplicazione di matrici. Per ridurre ulteriormente i costi computazionali durante la decodifica, progettiamo il codebook in modo che sia commutativo con l'Embedding Posizionale Rotazionale (RoPE) e lo addestriamo utilizzando un algoritmo Expectation-Maximization (EM). Ciò consente un'integrazione efficiente della decodifica nel meccanismo di self-attention. Il nostro approccio raggiunge un'elevata accuratezza con la quantizzazione additiva e un basso overhead grazie al codebook commutativo con RoPE. Esperimenti su benchmark di contesti lunghi e su GSM8K dimostrano che il nostro metodo riduce la dimensione della cache KV FP16 dell'87,5% con una quantizzazione a 2 bit, superando i metodi di quantizzazione della cache KV all'avanguardia. In particolare, consente una quantizzazione della cache KV a 1 bit con una perdita di accuratezza minima, permettendo a un modello LLaMA-3.1 8B di funzionare con una lunghezza di contesto di 128K su una singola GPU RTX 4090. Il codice sorgente è disponibile all'indirizzo: https://github.com/UMass-Embodied-AGI/CommVQ.
Rilevare codice generato da IA, deepfake e altri contenuti sintetici rappresenta una sfida di ricerca emergente. Man mano che il codice generato da Large Language Models (LLM) diventa più comune, identificare il modello specifico dietro ogni campione è sempre più importante. Questo articolo presenta il primo studio sistematico sull'attribuzione di autori LLM per programmi in C. Abbiamo rilasciato CodeT5-Authorship, un modello innovativo che utilizza solo i livelli encoder dell'architettura encoder-decoder originale di CodeT5, scartando il decoder per concentrarsi sulla classificazione. L'output dell'encoder del nostro modello (primo token) viene passato attraverso una testa di classificazione a due strati con attivazione GELU e dropout, producendo una distribuzione di probabilità sui possibili autori. Per valutare il nostro approccio, introduciamo LLM-AuthorBench, un benchmark di 32.000 programmi C compilabili generati da otto LLM all'avanguardia su vari compiti. Confrontiamo il nostro modello con sette classificatori ML tradizionali e otto modelli transformer fine-tunati, tra cui BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer e Qwen2-1.5B fine-tunato con LoRA. Nella classificazione binaria, il nostro modello raggiunge un'accuratezza del 97,56% nel distinguere programmi C generati da modelli strettamente correlati come GPT-4.1 e GPT-4o, e un'accuratezza del 95,40% per l'attribuzione multi-classe tra cinque LLM leader (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 e DeepSeek-V3). Per supportare la scienza aperta, rilasciamo l'architettura CodeT5-Authorship, il benchmark LLM-AuthorBench e tutti gli script Google Colab rilevanti su GitHub: https://github.com/LLMauthorbench/.
I recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) eccellono nei benchmark di compiti visivo-linguistici, ma si sa poco su come la qualità visiva degli input influenzi le loro risposte. Una maggiore qualità percettiva delle immagini si traduce già in una migliore comprensione da parte degli MLLM? Abbiamo condotto il primo studio sistematico che abbraccia i principali MLLM e una serie di benchmark visivo-linguistici, applicando degradazioni controllate e cambiamenti stilistici a ciascuna immagine. Sorprendentemente, abbiamo scoperto un paradosso della qualità visiva: le prestazioni del modello, del compito e persino di singole istanze possono migliorare quando le immagini deviano dalla fedeltà percepita dall'uomo. Le pipeline di ripristino pronte all'uso non riescono a conciliare queste preferenze idiosincratiche. Per colmare questa lacuna, introduciamo il Visual-Quality Test-Time Tuning (VQ-TTT), un modulo di adattamento leggero che: (1) inserisce un kernel apprendibile a basso rango prima dell'encoder visivo congelato per modulare il contenuto in frequenza; e (2) ottimizza solo gli strati superficiali dell'encoder visivo tramite LoRA. VQ-TTT regola dinamicamente ogni immagine di input in un singolo passaggio in avanti, allineandola con le preferenze specifiche del modello per il compito. Attraverso gli MLLM valutati e tutti i dataset, VQ-TTT aumenta significativamente l'accuratezza media, senza l'uso di modelli esterni, feature memorizzate o dati di addestramento aggiuntivi. Questi risultati ridefiniscono gli input visivi "migliori" per gli MLLM e sottolineano la necessità di immagini adattive, piuttosto che universalmente "pulite", nella nuova era in cui l'IA è il principale consumatore di dati.
La visualizzazione di storie è diventata un compito popolare in cui vengono generate scene visive per rappresentare una narrazione attraverso più pannelli. Una sfida centrale in questo contesto è mantenere la coerenza visiva, in particolare nel modo in cui i personaggi e gli oggetti persistono e si evolvono nel corso della storia. Nonostante i recenti progressi nei modelli di diffusione, gli approcci attuali spesso non riescono a preservare gli attributi chiave dei personaggi, portando a narrazioni incoerenti. In questo lavoro, proponiamo un framework multi-agente collaborativo che identifica, corregge e affina autonomamente le incoerenze nelle visualizzazioni di storie multi-pannello. Gli agenti operano in un ciclo iterativo, consentendo aggiornamenti granulari a livello di pannello senza dover rigenerare intere sequenze. Il nostro framework è indipendente dal modello e si integra in modo flessibile con una varietà di modelli di diffusione, inclusi trasformatori a flusso rettificato come Flux e modelli di diffusione latente come Stable Diffusion. Esperimenti quantitativi e qualitativi dimostrano che il nostro metodo supera gli approcci precedenti in termini di coerenza multi-pannello.
Il risponditore visivo medico mira a supportare il processo decisionale clinico consentendo ai modelli di rispondere a domande in linguaggio naturale basate su immagini mediche. Sebbene i recenti progressi nell'apprendimento multimodale abbiano migliorato significativamente le prestazioni, i metodi attuali soffrono ancora di un'affidabilità limitata delle risposte e di una scarsa interpretabilità, compromettendo la capacità di medici e pazienti di comprendere e fidarsi delle risposte generate dai modelli. Per affrontare questo problema, questo lavoro propone innanzitutto un dataset chiamato Thinking with Visual Grounding (ThinkVG), in cui la generazione della risposta viene scomposta in passaggi di ragionamento intermedi che ancorano esplicitamente le regioni visive rilevanti dell'immagine medica, fornendo così una spiegabilità granulare. Inoltre, introduciamo un nuovo meccanismo di ricompensa verificabile per l'apprendimento per rinforzo, finalizzato a guidare il post-addestramento, migliorando l'allineamento tra il processo di ragionamento del modello e la sua risposta finale. In modo notevole, il nostro metodo raggiunge prestazioni comparabili utilizzando solo un ottavo dei dati di addestramento, dimostrando l'efficienza e l'efficacia della proposta. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
I recenti progressi nei modelli di base per la musica hanno migliorato l'apprendimento delle rappresentazioni audio, ma la loro efficacia attraverso diverse tradizioni musicali rimane limitata. Introduciamo CultureMERT-95M, un modello di base adattato multiculturalmente sviluppato per migliorare l'apprendimento e la comprensione delle rappresentazioni musicali interculturali. Per raggiungere questo obiettivo, proponiamo una strategia di pre-addestramento continuo in due fasi che integra il riscaldamento e il decadimento del tasso di apprendimento, consentendo un adattamento stabile anche con risorse computazionali limitate. L'addestramento su un mix di dati multiculturali di 650 ore, comprendente tradizioni musicali greche, turche e indiane, si traduce in un miglioramento medio del 4,9% in ROC-AUC e AP attraverso diverse attività di auto-etichettatura per musica non occidentale, superando i precedenti stati dell'arte, con un minimo oblio sui benchmark centrati sulla musica occidentale. Investigiamo ulteriormente l'aritmetica dei task, un approccio alternativo all'adattamento multiculturale che fonde modelli adattati a singole culture nello spazio dei pesi. L'aritmetica dei task performa alla pari con il nostro modello addestrato multiculturalmente nelle attività di auto-etichettatura per musica non occidentale e non mostra regressioni sui dataset occidentali. La valutazione interculturale rivela che i modelli a singola cultura si trasferiscono con efficacia variabile attraverso le tradizioni musicali, mentre il modello adattato multiculturalmente raggiunge le migliori prestazioni complessive. Per supportare la ricerca sull'apprendimento delle rappresentazioni della musica mondiale, rilasciamo pubblicamente CultureMERT-95M e CultureMERT-TA-95M, promuovendo lo sviluppo di modelli di base per la musica più consapevoli dal punto di vista culturale.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno portato a notevoli avanzamenti nell'elaborazione del linguaggio naturale, ma le loro esigenze computazionali e di memoria rimangono una sfida significativa, in particolare per l'inferenza a contesto lungo. Introduciamo TPTT (Transforming Pretrained Transformer into Titans), un nuovo framework per potenziare i modelli Transformer preaddestrati con meccanismi di attenzione linearizzata efficiente e una gestione avanzata della memoria. TPTT utilizza tecniche come Memory as Gate (MaG) e attenzione linearizzata mista (LiZA). È completamente compatibile con la libreria Hugging Face Transformers, consentendo un adattamento senza soluzione di continuità di qualsiasi LLM causale attraverso un fine-tuning efficiente dei parametri (LoRA) senza la necessità di un riaddestramento completo. Dimostriamo l'efficacia di TPTT sul benchmark MMLU con modelli di circa 1 miliardo di parametri, osservando miglioramenti sostanziali sia in termini di efficienza che di accuratezza. Ad esempio, Titans-Llama-3.2-1B raggiunge un aumento del 20% nell'Exact Match (EM) rispetto alla sua baseline. Analisi statistiche e confronti con i metodi più recenti all'avanguardia confermano la scalabilità pratica e la robustezza di TPTT. Il codice è disponibile all'indirizzo https://github.com/fabienfrfr/tptt. Il pacchetto Python è disponibile su https://pypi.org/project/tptt/.
I Large Language Model (LLM) hanno compiuto progressi significativi, ma il loro dispiegamento ha rivelato vulnerabilità critiche, in particolare agli attacchi di jailbreak che aggirano i meccanismi di sicurezza. Le guardrail—meccanismi di difesa esterni che monitorano e controllano l'interazione con gli LLM—si sono affermate come una soluzione promettente. Tuttavia, l'attuale panorama delle guardrail per LLM è frammentato, privo di una tassonomia unificata e di un quadro di valutazione completo. In questo articolo di Systematization of Knowledge (SoK), presentiamo la prima analisi olistica delle guardrail contro il jailbreak per gli LLM. Proponiamo una nuova tassonomia multidimensionale che classifica le guardrail lungo sei dimensioni chiave e introduciamo un framework di valutazione Sicurezza-Efficienza-Utilità per valutarne l'efficacia pratica. Attraverso un'analisi approfondita e esperimenti, identifichiamo i punti di forza e i limiti degli approcci esistenti alle guardrail, esploriamo la loro universalità rispetto ai tipi di attacco e forniamo spunti per ottimizzare le combinazioni di difesa. Il nostro lavoro offre una base strutturata per la ricerca e lo sviluppo futuri, con l'obiettivo di guidare il progresso e il dispiegamento di guardrail robuste per gli LLM in modo principiato. Il codice è disponibile all'indirizzo https://github.com/xunguangwang/SoK4JailbreakGuardrails.
I recenti modelli linguistici multimodali di grandi dimensioni (MLLM) spesso incontrano difficoltà nel generare didascalie personalizzate per le immagini, anche quando addestrati su didascalie di alta qualità. In questo lavoro, osserviamo che tali limitazioni persistono nei metodi esistenti di personalizzazione degli MLLM basati sul post-addestramento. Nello specifico, nonostante siano stati ottimizzati con dati su larga scala di didascalie attraverso il fine-tuning supervisionato (SFT), questi modelli spesso non riescono a produrre descrizioni fedeli in scenari reali, come la creazione di didascalie per immagini con più concetti. Tuttavia, acquisire didascalie su larga scala e di alta qualità per contesti così complessi è sia costoso che difficile. Per affrontare la natura centrata sui dati dell'SFT, proponiamo un framework di post-addestramento basato sull'apprendimento per rinforzo (RL). Per quanto ne sappiamo, questo è il primo approccio basato sull'RL per post-addestrare gli MLLM per la creazione di didascalie personalizzate per immagini. Il nostro metodo migliora significativamente sia le capacità di riconoscimento visivo che di generazione personalizzata degli MLLM, e supera costantemente i baseline esistenti basati sull'SFT, specialmente nel complesso compito di creazione di didascalie per immagini con più concetti.
La mortalità neonatale rimane una realtà preoccupante per i paesi sottosviluppati e persino per alcuni paesi sviluppati. I dati globali indicano che 26,693 bambini su 1.000 nascite muoiono, secondo Macro Trades. Per ridurre questo numero, la previsione precoce dei neonati a rischio è fondamentale. Tale previsione consente di prendersi cura adeguatamente del bambino e della madre, in modo da evitare la morte precoce del neonato. In questo contesto, è stato utilizzato il machine learning per determinare se un neonato è a rischio. Per addestrare il modello predittivo, sono stati utilizzati dati storici di 1,4 milioni di neonati. Tecniche di machine learning e deep learning come la regressione logistica, il K-nearest neighbor, il random forest classifier, l'estreme gradient boosting (XGBoost), le reti neurali convoluzionali e la long short-term memory (LSTM) sono state implementate utilizzando il dataset per identificare il modello più accurato per la previsione della mortalità neonatale. Tra gli algoritmi di machine learning, XGBoost e il random forest classifier hanno ottenuto la migliore accuratezza con il 94%, mentre tra i modelli di deep learning, LSTM ha raggiunto la massima accuratezza con il 99%. Pertanto, l'uso di LSTM sembra essere l'approccio più adatto per prevedere se sono necessarie misure precauzionali per un bambino.
Nonostante i recenti progressi nella generazione di codice RTL per hardware utilizzando LLM, le soluzioni esistenti presentano ancora un divario sostanziale tra gli scenari di applicazione pratica e i requisiti dello sviluppo di codice RTL nel mondo reale. Gli approcci precedenti si concentrano su descrizioni hardware eccessivamente semplificate o dipendono da un'ampia guida umana per elaborare specifiche complesse, limitandone la scalabilità e il potenziale di automazione. In questo articolo, affrontiamo questo divario proponendo un sistema di agenti LLM, denominato Spec2RTL-Agent, progettato per elaborare direttamente documentazione di specifiche complesse e generare le corrispondenti implementazioni di codice RTL, avvicinando la generazione di codice RTL basata su LLM a contesti applicativi più realistici. Per raggiungere questo obiettivo, Spec2RTL-Agent introduce un innovativo framework di collaborazione multi-agente che integra tre abilitatori chiave: (1) un modulo di ragionamento e comprensione che traduce le specifiche in piani di implementazione strutturati e passo-passo; (2) un modulo di codifica progressiva e ottimizzazione dei prompt che affina iterativamente il codice attraverso multiple rappresentazioni per migliorarne la correttezza e la sintetizzabilità per la conversione RTL; e (3) un modulo di riflessione adattiva che identifica e traccia l'origine degli errori durante la generazione, garantendo un flusso di generazione del codice più robusto. Invece di generare direttamente RTL da linguaggio naturale, il nostro sistema genera strategicamente codice C++ sintetizzabile, che viene poi ottimizzato per HLS. Questo affinamento guidato da agenti assicura una maggiore correttezza e compatibilità rispetto agli approcci ingenui di generazione diretta di RTL. Valutiamo Spec2RTL-Agent su tre documenti di specifiche, dimostrando che genera codice RTL accurato con fino al 75% in meno di interventi umani rispetto ai metodi esistenti. Ciò evidenzia il suo ruolo come primo sistema multi-agente completamente automatizzato per la generazione di RTL da specifiche non strutturate, riducendo la dipendenza dallo sforzo umano nella progettazione hardware.