Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, proponiamo un nuovo paradigma di apprendimento, denominato Chain-of-Model (CoM), che incorpora la relazione causale negli stati nascosti di ogni livello in uno stile a catena, introducendo così una notevole efficienza di scalabilità nell'addestramento del modello e flessibilità nell'inferenza durante il deployment. Introduciamo il concetto di Chain-of-Representation (CoR), che formula gli stati nascosti di ogni livello come una combinazione di molteplici sotto-rappresentazioni (cioè, catene) a livello di dimensione nascosta. In ogni livello, ogni catena delle rappresentazioni in output può visualizzare solo tutte le catene precedenti nelle rappresentazioni in input. Di conseguenza, il modello basato sul framework CoM può scalare progressivamente la dimensione del modello aumentando le catene basandosi sui modelli precedenti (cioè, le catene), e offrire molteplici sotto-modelli di dimensioni variabili per un'inferenza elastica utilizzando un numero diverso di catene. Basandoci su questo principio, progettiamo Chain-of-Language-Model (CoLM), che incorpora l'idea di CoM in ogni livello dell'architettura Transformer. Basandoci su CoLM, introduciamo ulteriormente CoLM-Air mediante un meccanismo di condivisione KV, che calcola tutte le chiavi e i valori all'interno della prima catena e poi li condivide attraverso tutte le catene. Questo design dimostra un'ulteriore estensibilità, come abilitare il cambio senza soluzione di continuità del modello linguistico, l'accelerazione del prefilling e così via. I risultati sperimentali dimostrano che la nostra famiglia CoLM può raggiungere prestazioni comparabili al Transformer standard, offrendo contemporaneamente una maggiore flessibilità, come la scalabilità progressiva per migliorare l'efficienza dell'addestramento e offrire molteplici dimensioni di modello per un'inferenza elastica, aprendo una nuova strada verso la costruzione di modelli linguistici. Il nostro codice sarà rilasciato in futuro all'indirizzo: https://github.com/microsoft/CoLM.
Recentemente, i modelli di ragionamento su larga scala hanno ottenuto prestazioni impressionanti in vari compiti impiegando un pensiero profondo simile a quello umano. Tuttavia, il processo di pensiero prolungato aumenta sostanzialmente il sovraccarico di inferenza, rendendo l'efficienza un collo di bottiglia critico. In questo lavoro, dimostriamo innanzitutto che il NoThinking, che spinge il modello di ragionamento a saltare il pensiero e generare direttamente la soluzione finale, è una scelta migliore per compiti relativamente semplici in termini sia di prestazioni che di efficienza. Motivati da ciò, proponiamo AdaptThink, un nuovo algoritmo di RL per insegnare ai modelli di ragionamento a scegliere in modo adattivo la modalità di pensiero ottimale in base alla difficoltà del problema. Nello specifico, AdaptThink presenta due componenti principali: (1) un obiettivo di ottimizzazione vincolato che incoraggia il modello a scegliere il NoThinking mantenendo le prestazioni complessive; (2) una strategia di campionamento per importanza che bilancia i campioni di Thinking e NoThinking durante l'addestramento on-policy, consentendo così un avvio a freddo e permettendo al modello di esplorare e sfruttare entrambe le modalità di pensiero durante il processo di addestramento. I nostri esperimenti indicano che AdaptThink riduce significativamente i costi di inferenza migliorando ulteriormente le prestazioni. In particolare, su tre dataset matematici, AdaptThink riduce la lunghezza media della risposta di DeepSeek-R1-Distill-Qwen-1.5B del 53% e migliora la sua accuratezza del 2.4%, evidenziando il potenziale della selezione adattiva della modalità di pensiero per ottimizzare il bilanciamento tra qualità del ragionamento ed efficienza. I nostri codici e modelli sono disponibili su https://github.com/THU-KEG/AdaptThink.
I Large Language Models (LLM) hanno dimostrato capacità notevoli, ma spesso incontrano difficoltà con compiti che richiedono ragionamenti sofisticati. Sebbene il prompting a Catena di Pensiero (Chain-of-Thought, CoT) migliori significativamente il ragionamento, genera indiscriminatamente passaggi di ragionamento lunghi per tutte le query, portando a costi computazionali sostanziali e inefficienze, specialmente per input più semplici. Per affrontare questo problema critico, introduciamo AdaCoT (Adaptive Chain-of-Thought), un nuovo framework che consente agli LLM di decidere in modo adattivo quando invocare il CoT. AdaCoT inquadra il ragionamento adattivo come un problema di ottimizzazione di Pareto che cerca di bilanciare le prestazioni del modello con i costi associati all'invocazione del CoT (sia in termini di frequenza che di sovraccarico computazionale). Proponiamo un metodo basato sul reinforcement learning (RL), in particolare utilizzando Proximal Policy Optimization (PPO), per controllare dinamicamente il confine decisionale di attivazione del CoT regolando i coefficienti di penalizzazione, consentendo così al modello di determinare la necessità del CoT in base alla complessità implicita della query. Un contributo tecnico chiave è il Selective Loss Masking (SLM), progettato per contrastare il collasso del confine decisionale durante l'addestramento RL multi-stadio, garantendo un'attivazione adattiva robusta e stabile. I risultati sperimentali dimostrano che AdaCoT naviga con successo la frontiera di Pareto, ottenendo riduzioni sostanziali nell'uso del CoT per query che non richiedono ragionamenti elaborati. Ad esempio, sul nostro testset di traffico di produzione, AdaCoT ha ridotto i tassi di attivazione del CoT fino al 3,18% e diminuito i token di risposta medi del 69,06%, mantenendo al contempo alte prestazioni su compiti complessi.
I modelli linguistici di ragionamento, capaci di ragionamenti estesi a catena di pensiero, hanno dimostrato prestazioni notevoli in compiti che richiedono inferenze logiche complesse. Tuttavia, applicare ragionamenti elaborati per tutte le query spesso si traduce in inefficienze computazionali significative, specialmente quando molti problemi ammettono soluzioni dirette. Ciò solleva una questione aperta: i modelli linguistici possono imparare quando pensare? Per rispondere a questo, proponiamo Thinkless, un framework apprendibile che consente a un modello linguistico di selezionare in modo adattivo tra ragionamenti brevi e lunghi, basandosi sia sulla complessità del compito che sulle capacità del modello. Thinkless è addestrato sotto un paradigma di apprendimento per rinforzo e impiega due token di controllo, <short> per risposte concise e <think> per ragionamenti dettagliati. Al centro del nostro metodo c'è un algoritmo di Ottimizzazione della Politica Relativa Decupla di Gruppo (DeGRPO), che scompone l'obiettivo di apprendimento del ragionamento ibrido in due componenti: (1) una perdita del token di controllo che governa la selezione della modalità di ragionamento, e (2) una perdita della risposta che migliora l'accuratezza delle risposte generate. Questa formulazione decupla consente un controllo fine sui contributi di ciascun obiettivo, stabilizzando l'addestramento e prevenendo efficacemente il collasso osservato nel GRPO standard. Empiricamente, su diversi benchmark come Minerva Algebra, MATH-500 e GSM8K, Thinkless è in grado di ridurre l'uso del pensiero a catena lunga del 50% - 90%, migliorando significativamente l'efficienza dei modelli linguistici di ragionamento. Il codice è disponibile all'indirizzo https://github.com/VainF/Thinkless.
Il meccanismo di attenzione di un trasformatore ha una complessità quadratica, portando a costi di inferenza elevati e latenza per sequenze lunghe. Tuttavia, le matrici di attenzione sono per lo più sparse, il che implica che molte voci possono essere omesse dal calcolo per un'inferenza efficiente. I metodi di inferenza con attenzione sparsa mirano a ridurre questo onere computazionale; tuttavia, comportano anche un fastidioso degrado delle prestazioni. Scopriamo che una delle ragioni di questo degrado è che il calcolo sparso induce uno spostamento distributivo negli output di attenzione. Questo spostamento distributivo fa sì che le query al momento della decodifica non si allineino bene con le chiavi appropriate della fase di prefill, portando a un calo delle prestazioni. Proponiamo una procedura semplice, innovativa ed efficace per correggere questo spostamento distributivo, avvicinando la distribuzione degli output di attenzione sparsa a quella dell'attenzione quadratica. Il nostro metodo può essere applicato su qualsiasi metodo di attenzione sparsa e risulta in un aumento medio delle prestazioni del 36%pt, recuperando l'88% dell'accuratezza dell'attenzione quadratica sul benchmark RULER da 131K quando applicato su un'attenzione a finestra scorrevole con token sink, aggiungendo solo un piccolo overhead. Il nostro metodo può mantenere approssimativamente il 98,5% di sparsità rispetto all'attenzione quadratica completa, rendendo il nostro modello 32 volte più veloce di Flash Attention 2 quando elabora prefills da 1M token.
Il grounding delle interfacce grafiche (GUI), ovvero la capacità di mappare istruzioni in linguaggio naturale a specifiche azioni sulle interfacce grafiche, rimane un collo di bottiglia critico nello sviluppo di agenti per l'uso del computer. Gli attuali benchmark semplificano eccessivamente i task di grounding come brevi espressioni di riferimento, non riuscendo a catturare la complessità delle interazioni del mondo reale che richiedono senso comune software, comprensione del layout e capacità di manipolazione fine. Per affrontare queste limitazioni, introduciamo OSWorld-G, un benchmark completo che comprende 564 campioni annotati in dettaglio su diversi tipi di task, tra cui corrispondenza di testo, riconoscimento di elementi, comprensione del layout e manipolazione precisa. Inoltre, sintetizziamo e rilasciamo il più grande dataset di grounding per l'uso del computer, Jedi, che contiene 4 milioni di esempi ottenuti attraverso la decodifica multi-prospettica dei task. I nostri modelli multi-scala addestrati su Jedi ne dimostrano l'efficacia superando gli approcci esistenti su ScreenSpot-v2, ScreenSpot-Pro e il nostro OSWorld-G. Inoltre, dimostriamo che un miglior grounding con Jedi potenzia direttamente le capacità agentiche dei modelli foundation generali su task complessi al computer, migliorando dal 5% al 27% su OSWorld. Attraverso studi di ablazione dettagliati, identifichiamo i fattori chiave che contribuiscono alle prestazioni di grounding e verifichiamo che la combinazione di dati specializzati per diversi elementi dell'interfaccia consente una generalizzazione compositiva a interfacce nuove. Tutti i benchmark, i dati, i checkpoint e il codice sono open-source e disponibili su https://osworld-grounding.github.io.
La fusione di modelli è emersa come una tecnica promettente per migliorare i modelli linguistici di grandi dimensioni, sebbene la sua applicazione nel pre-training su larga scala rimanga relativamente inesplorata. In questo articolo, presentiamo un'indagine completa sulle tecniche di fusione di modelli durante il processo di pre-training. Attraverso esperimenti estesi con architetture sia dense che a Mistura di Esperti (MoE), che vanno da milioni a oltre 100 miliardi di parametri, dimostriamo che la fusione di checkpoint addestrati con tassi di apprendimento costanti non solo raggiunge miglioramenti significativi delle prestazioni, ma consente anche una previsione accurata del comportamento di annealing. Questi miglioramenti portano sia a uno sviluppo più efficiente dei modelli che a costi di addestramento significativamente inferiori. I nostri studi di ablazione dettagliati sulle strategie di fusione e sugli iperparametri forniscono nuove intuizioni sui meccanismi sottostanti, scoprendo al contempo nuove applicazioni. Attraverso un'analisi sperimentale completa, offriamo alla comunità open-source linee guida pratiche per il pre-training per una fusione efficace dei modelli.
Il ridimensionamento dei transformer per la diffusione video (DiTs) è limitato dalla loro attenzione quadratica 3D, nonostante la maggior parte della massa di attenzione si concentri su un piccolo sottoinsieme di posizioni. Trasformiamo questa osservazione in VSA, un'attenzione sparsa addestrabile ed efficiente dal punto di vista hardware che sostituisce l'attenzione completa sia durante l'addestramento che durante l'inferenza. In VSA, una fase iniziale leggera raggruppa i token in tessere e identifica i token critici ad alto peso; una fase fine calcola l'attenzione a livello di token solo all'interno di quelle tessere, sottoponendosi a un layout di calcolo a blocchi per garantire efficienza hardware. Ciò porta a un singolo kernel differenziabile che si addestra end-to-end, non richiede profilazione post-hoc e mantiene l'85\% dell'MFU di FlashAttention3. Eseguiamo un'ampia serie di studi di ablazione e esperimenti di legge di ridimensionamento preaddestrando DiTs da 60M a 1.4B parametri. VSA raggiunge un punto di Pareto che riduce i FLOPS di addestramento di 2.53 volte senza alcuna perdita nella perdita di diffusione. Il retrofit del modello open-source Wan-2.1 accelera il tempo di attenzione di 6 volte e riduce il tempo di generazione end-to-end da 31s a 18s con una qualità comparabile. Questi risultati stabiliscono l'attenzione sparsa addestrabile come un'alternativa pratica all'attenzione completa e un abilitatore chiave per un ulteriore ridimensionamento dei modelli di diffusione video.
I recenti progressi nella ricostruzione dinamica di scene 3D hanno mostrato risultati promettenti, consentendo la sintesi di nuove viste 3D ad alta fedeltà con una migliore coerenza temporale. Tra questi, il 4D Gaussian Splatting (4DGS) è emerso come un approccio interessante grazie alla sua capacità di modellare variazioni spaziali e temporali ad alta fedeltà. Tuttavia, i metodi esistenti soffrono di un notevole sovraccarico computazionale e di memoria a causa dell'allocazione ridondante di Gaussiane 4D nelle regioni statiche, che può anche degradare la qualità dell'immagine. In questo lavoro, introduciamo l'hybrid 3D-4D Gaussian Splatting (3D-4DGS), un nuovo framework che rappresenta in modo adattivo le regioni statiche con Gaussiane 3D, riservando le Gaussiane 4D per gli elementi dinamici. Il nostro metodo inizia con una rappresentazione completamente 4D e converte iterativamente le Gaussiane temporalmente invarianti in 3D, riducendo significativamente il numero di parametri e migliorando l'efficienza computazionale. Nel frattempo, le Gaussiane dinamiche mantengono la loro rappresentazione 4D completa, catturando movimenti complessi con alta fedeltà. Il nostro approccio raggiunge tempi di addestramento significativamente più rapidi rispetto ai metodi di base del 4D Gaussian Splatting, mantenendo o migliorando la qualità visiva.
Misurare quanto siano realistiche le immagini è un compito complesso nella ricerca sull'intelligenza artificiale. Ad esempio, un'immagine di un ragazzo con un aspirapolvere nel deserto viola il senso comune. Introduciamo un nuovo metodo, che chiamiamo Through the Looking Glass (TLG), per valutare la coerenza del senso comune delle immagini utilizzando Modelli Linguistico-Visuali di Grande Scala (LVLMs) e un encoder basato su Transformer. Sfruttando gli LVLMs per estrarre fatti atomici da queste immagini, otteniamo un mix di fatti accurati. Procediamo quindi affinando un classificatore compatto con pooling di attenzione sui fatti atomici codificati. Il nostro TLG ha raggiunto una nuova performance all'avanguardia sui dataset WHOOPS! e WEIRD, pur sfruttando un componente di fine-tuning compatto.
Sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano ottenuto progressi impressionanti nella comprensione visivo-linguistica, continuano a lottare con ragionamenti complessi a più passaggi, spesso producendo soluzioni logicamente inconsistenti o parzialmente corrette. Una limitazione chiave risiede nella mancanza di supervisione fine-granularità sui passaggi intermedi del ragionamento. Per affrontare questo problema, proponiamo MM-PRM, un modello di ricompensa del processo addestrato all'interno di un framework completamente automatizzato e scalabile. Inizialmente costruiamo MM-Policy, un forte modello multimodale addestrato su dati diversificati di ragionamento matematico. Successivamente, creiamo MM-K12, un dataset curato di 10.000 problemi matematici multimodali con risposte verificabili, che funge da dati di partenza. Sfruttando una pipeline basata su Monte Carlo Tree Search (MCTS), generiamo oltre 700k annotazioni a livello di passaggio senza etichettatura umana. Il PRM risultante viene utilizzato per valutare i percorsi di ragionamento candidati nella configurazione di inferenza Best-of-N e ottiene miglioramenti significativi sia nei benchmark in-dominio (set di test MM-K12) che out-of-dominio (OlympiadBench, MathVista, ecc.). Un'ulteriore analisi conferma l'efficacia delle etichette soft, dei tassi di apprendimento più piccoli e della diversità dei percorsi nell'ottimizzazione delle prestazioni del PRM. MM-PRM dimostra che la supervisione del processo è uno strumento potente per migliorare la robustezza logica dei sistemi di ragionamento multimodale. Rilasciamo tutti i nostri codici e dati su https://github.com/ModalMinds/MM-PRM.
La capacità di ragionamento, componente fondamentale dell'intelligenza umana, continua a rappresentare una sfida significativa per i Large Language Models (LLM) nel perseguimento dell'AGI. Sebbene le prestazioni dei modelli siano migliorate in base alla legge di scala dell'addestramento, rimangono sfide importanti, in particolare per quanto riguarda gli algoritmi di training, come l'oblio catastrofico, e la limitata disponibilità di nuovi dati di addestramento. Come alternativa, il test-time scaling migliora le prestazioni di ragionamento aumentando il calcolo durante il test senza aggiornare i parametri. A differenza dei metodi precedenti in questo paradigma, focalizzati sullo spazio dei token, proponiamo di sfruttare lo spazio latente per un ragionamento più efficace e una migliore aderenza alla legge di scala del test-time. Introduciamo LatentSeek, un nuovo framework che migliora il ragionamento degli LLM attraverso l'Adattamento a Livello di Istanza durante il Test (TTIA) all'interno dello spazio latente del modello. Nello specifico, LatentSeek utilizza il gradiente della politica per aggiornare iterativamente le rappresentazioni latenti, guidato da segnali di ricompensa auto-generati. LatentSeek è valutato su una serie di benchmark di ragionamento, tra cui GSM8K, MATH-500 e AIME2024, su diverse architetture di LLM. I risultati mostrano che LatentSeek supera costantemente baseline robuste, come il prompting a Catena di Pensiero e i metodi basati su fine-tuning. Inoltre, la nostra analisi dimostra che LatentSeek è altamente efficiente, convergendo tipicamente in poche iterazioni per problemi di complessità media, pur beneficiando di iterazioni aggiuntive, evidenziando così il potenziale del test-time scaling nello spazio latente. Questi risultati posizionano LatentSeek come una soluzione leggera, scalabile ed efficace per migliorare le capacità di ragionamento degli LLM.
I Large Language Models (LLMs) hanno guidato progressi significativi, ma l'aumento del numero di parametri e delle finestre contestuali comporta costi proibitivi in termini di calcolo, energia e denaro. Introduciamo EfficientLLM, un nuovo benchmark e il primo studio empirico completo che valuta le tecniche di efficienza per i LLM su larga scala. Condotto su un cluster di livello produttivo (48xGH200, 8xH200 GPU), il nostro studio esplora sistematicamente tre assi chiave: (1) pre-addestramento dell'architettura (varianti efficienti dell'attenzione: MQA, GQA, MLA, NSA; Mixture-of-Experts (MoE) sparsi), (2) fine-tuning (metodi efficienti in termini di parametri: LoRA, RSLoRA, DoRA), e (3) inferenza (metodi di quantizzazione: int4, float16). Definiamo sei metriche dettagliate (Utilizzo della Memoria, Utilizzo del Calcolo, Latenza, Throughput, Consumo Energetico, Tasso di Compressione) per catturare la saturazione hardware, il bilanciamento latenza-throughput e il costo in termini di carbonio. Valutando oltre 100 coppie modello-tecnica (0,5B-72B parametri), deriviamo tre intuizioni fondamentali: (i) L'efficienza comporta compromessi quantificabili: nessun metodo è universalmente ottimale; ad esempio, MoE riduce i FLOP e migliora l'accuratezza ma aumenta la VRAM del 40%, mentre la quantizzazione int4 riduce memoria/energia fino a 3,9x con un calo di accuratezza del 3-5%. (ii) Gli ottimi dipendono dal compito e dalla scala: MQA offre i migliori compromessi memoria-latenza per dispositivi limitati, MLA raggiunge la più bassa perplessità per compiti critici in termini di qualità, e RSLoRA supera l'efficienza di LoRA solo oltre i 14B parametri. (iii) Le tecniche si generalizzano tra le modalità: estendiamo le valutazioni ai Large Vision Models (Stable Diffusion 3.5, Wan 2.1) e ai Vision-Language Models (Qwen2.5-VL), confermando una trasferibilità efficace. Rendendo open-source dataset, pipeline di valutazione e classifiche, EfficientLLM fornisce una guida essenziale per ricercatori e ingegneri che navigano nel panorama efficienza-prestazioni dei modelli di base di prossima generazione.
I recenti progressi nell'apprendimento per rinforzo basato su regole (RL) hanno migliorato significativamente la capacità di ragionamento dei modelli linguistici (LMs) attraverso ricompense basate su regole. Tuttavia, i metodi RL esistenti — come GRPO, REINFORCE++ e RLOO — spesso soffrono di instabilità durante l'addestramento, dove aggiornamenti eccessivi della politica e un clipping improprio possono portare al collasso del training. Per affrontare questo problema, proponiamo l'**Ottimizzazione del Gradiente della Politica con Clipping e Deriva della Politica (CPGD)**, un nuovo algoritmo progettato per stabilizzare l'apprendimento della politica nei LMs. CPGD introduce un vincolo di deriva della politica basato sulla divergenza KL per regolarizzare dinamicamente gli aggiornamenti della politica e utilizza un meccanismo di clipping sul logaritmo del rapporto per prevenire aggiornamenti eccessivi. Forniamo una giustificazione teorica per CPGD e dimostriamo attraverso analisi empirica che mitiga l'instabilità osservata negli approcci precedenti. Inoltre, mostriamo che CPGD migliora significativamente le prestazioni mantenendo la stabilità del training. La nostra implementazione bilancia il rigore teorico con l'usabilità pratica, offrendo un'alternativa robusta per l'RL nel post-training dei LMs. Rilasciamo il nostro codice su https://github.com/ModalMinds/MM-EUREKA.
Le tecniche di ridimensionamento al momento dell'inferenza hanno rafforzato significativamente le capacità di ragionamento dei grandi modelli linguistici (LLM) sfruttando ulteriori risorse computazionali durante l'inferenza senza necessità di riaddestramento. Allo stesso modo, il prompting a catena di pensiero (Chain-of-Thought, CoT) e la sua estensione, Long CoT, migliorano l'accuratezza generando traiettorie di ragionamento intermedie ricche, ma questi approcci comportano costi sostanziali in termini di token che ne ostacolano l'adozione in contesti sensibili alla latenza. In questo lavoro, dimostriamo innanzitutto che il CoT troncato, che interrompe il ragionamento prima del completamento e genera direttamente la risposta finale, spesso eguaglia il campionamento CoT completo utilizzando un numero drasticamente inferiore di token. Basandoci su questa intuizione, introduciamo il Campionamento Frammentato (Fractured Sampling), una strategia unificata al momento dell'inferenza che interpola tra il CoT completo e il campionamento della sola soluzione lungo tre assi ortogonali: (1) il numero di traiettorie di ragionamento, (2) il numero di soluzioni finali per traiettoria e (3) la profondità a cui le tracce di ragionamento vengono troncate. Attraverso esperimenti estesi su cinque benchmark di ragionamento diversi e diverse scale di modelli, dimostriamo che il Campionamento Frammentato raggiunge costantemente migliori compromessi tra accuratezza e costo, producendo guadagni di ridimensionamento log-lineare significativi in Pass@k rispetto al budget di token. La nostra analisi rivela come allocare il calcolo tra queste dimensioni per massimizzare le prestazioni, aprendo la strada a un ragionamento LLM più efficiente e scalabile.
La Low-Rank Adaptation (LoRA), che introduce un prodotto di due matrici a basso rango addestrabili nei pesi pre-addestrati congelati, è ampiamente utilizzata per il fine-tuning efficiente di modelli linguistici nel federated learning (FL). Tuttavia, quando combinata con lo stochastic gradient descent differenzialmente privato (DP-SGD), LoRA affronta un’amplificazione sostanziale del rumore: DP-SGD perturba i gradienti per campione, e la moltiplicazione matriciale dell’aggiornamento LoRA (BA) intensifica questo effetto. Congelare una matrice (ad esempio, A) riduce il rumore ma limita l’espressività del modello, spesso portando a un adattamento subottimale. Per affrontare questo problema, proponiamo FedSVD, un metodo semplice ma efficace che introduce una ricalibrazione globale basata sulla decomposizione ai valori singolari (SVD). Nel nostro approccio, ogni client ottimizza solo la matrice B e la trasmette al server. Il server aggrega le matrici B, calcola il prodotto BA utilizzando la precedente A, e rifattorizza il risultato tramite SVD. Questo produce una nuova A adattiva composta dai vettori singolari destri ortonormali di BA, e una B aggiornata contenente i restanti componenti SVD. Questa ricalibrazione evita l’amplificazione quadratica del rumore, consentendo ad A di catturare meglio le direzioni principali degli aggiornamenti aggregati. Inoltre, la struttura ortonormale di A limita le norme del gradiente di B e preserva più segnale sotto DP-SGD, come confermato dalla nostra analisi teorica. Di conseguenza, FedSVD migliora costantemente la stabilità e le prestazioni in una varietà di impostazioni di privacy e benchmark, superando le baseline rilevanti sia in regimi privati che non privati.
I grandi modelli linguistici (LLM) mostrano livelli variabili di sicurezza rispetto ai prompt di input (domande): alcuni portano a risposte coerenti e semanticamente simili, mentre altri producono output diversi o contraddittori. Questa variazione riflette l'incertezza dell'LLM riguardo al prompt di input, un segnale di quanto il modello comprenda con sicurezza un determinato problema. Tuttavia, l'ottimizzazione della politica relativa al gruppo standard (GRPO) tratta tutti i prompt in modo uguale durante gli aggiornamenti della politica, ignorando questa importante informazione sui limiti della conoscenza del modello. Per affrontare questa limitazione, proponiamo SEED-GRPO (Semantic Entropy EnhanceD GRPO), che misura esplicitamente l'incertezza degli LLM rispetto all'entropia semantica dei prompt di input. L'entropia semantica misura la diversità di significato in più risposte generate dato un prompt e utilizza questa informazione per modulare l'entità degli aggiornamenti della politica. Questo meccanismo di addestramento consapevole dell'incertezza consente un aggiustamento dinamico dell'entità degli aggiornamenti della politica in base all'incertezza della domanda. Permette aggiornamenti più conservativi su domande ad alta incertezza, mantenendo il segnale di apprendimento originale su quelle sicure. I risultati sperimentali su cinque benchmark di ragionamento matematico (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 e OlympiadBench 48.0) dimostrano che SEED-GRPO raggiunge nuove prestazioni all'avanguardia in termini di accuratezza media, validando l'efficacia dell'ottimizzazione della politica consapevole dell'incertezza.
I grandi modelli visione-linguaggio dimostrano capacità intrinseche nel gestire una vasta gamma di compiti di percezione visiva. In questo articolo, presentiamo VisionReasoner, un framework unificato in grado di ragionare e risolvere molteplici compiti di percezione visiva all'interno di un unico modello. Nello specifico, attraverso la progettazione di innovative strategie di apprendimento cognitivo multi-oggetto e una riformulazione sistematica dei compiti, VisionReasoner potenzia le sue capacità di ragionamento per analizzare input visivi e affrontare diversi compiti di percezione in un framework unificato. Il modello genera un processo di ragionamento strutturato prima di fornire gli output desiderati in risposta alle query degli utenti. Per valutare rigorosamente le capacità unificate di percezione visiva, testiamo VisionReasoner su dieci compiti diversi che coprono tre domini critici: rilevamento, segmentazione e conteggio. I risultati sperimentali mostrano che VisionReasoner raggiunge prestazioni superiori come modello unificato, superando Qwen2.5VL con margini relativi del 29,1% su COCO (rilevamento), del 22,1% su ReasonSeg (segmentazione) e del 15,3% su CountBench (conteggio).
La comprensione dei grafici rappresenta una sfida unica per i grandi modelli visione-linguaggio (LVLM), poiché richiede l'integrazione di sofisticate capacità di ragionamento testuale e visivo. Tuttavia, gli attuali LVLM mostrano un notevole squilibrio tra queste abilità, risultando carenti nel ragionamento visivo che è difficile da eseguire in forma testuale. Abbiamo condotto uno studio di caso utilizzando un dataset sintetico risolvibile solo attraverso il ragionamento visivo e dimostrato che le prestazioni del modello si degradano significativamente con l'aumentare della complessità visiva, mentre le prestazioni umane rimangono robuste. Abbiamo quindi introdotto ChartMuseum, un nuovo benchmark di Question Answering (QA) sui grafici contenente 1.162 domande annotate da esperti che coprono molteplici tipi di ragionamento, curate da grafici reali provenienti da 184 fonti, specificamente costruito per valutare il ragionamento visivo e testuale complesso. A differenza dei precedenti benchmark di comprensione dei grafici – dove i modelli all'avanguardia performano in modo simile e vicino alla saturazione – il nostro benchmark evidenzia un divario sostanziale tra le prestazioni dei modelli e quelle umane, differenziando efficacemente le capacità dei modelli: sebbene gli esseri umani raggiungano una precisione del 93%, il modello con le migliori prestazioni, Gemini-2.5-Pro, raggiunge solo il 63.0%, e il principale LVLM open-source Qwen2.5-VL-72B-Instruct arriva solo al 38.5%. Inoltre, sulle domande che richiedono principalmente ragionamento visivo, tutti i modelli subiscono un calo delle prestazioni del 35%-55% rispetto alle domande che richiedono prevalentemente ragionamento testuale. Infine, la nostra analisi qualitativa degli errori rivela specifiche categorie di ragionamento visivo che risultano complesse per gli attuali LVLM.
Il riconoscimento preciso dell'intento di ricerca nei sistemi di Generazione Aumentata dal Recupero (RAG) rimane un obiettivo impegnativo, specialmente in contesti con risorse limitate e per query complesse con strutture annidate e dipendenze. Questo articolo presenta QCompiler, un framework neuro-simbolico ispirato alle regole grammaticali linguistiche e al design dei compilatori, per colmare questa lacuna. Teoricamente, progetta una grammatica Backus-Naur Form (BNF) minima ma sufficiente G[q] per formalizzare query complesse. A differenza dei metodi precedenti, questa grammatica mantiene la completezza riducendo al minimo la ridondanza. Su questa base, QCompiler include un Traduttore di Espressioni di Query, un Parser Sintattico Lessicale e un Processore a Discesa Ricorsiva per compilare le query in Alberi Sintattici Astratti (AST) per l'esecuzione. L'atomicità delle sotto-query nei nodi foglia garantisce un recupero dei documenti e una generazione delle risposte più precisi, migliorando significativamente la capacità del sistema RAG di gestire query complesse.
L'integrazione di modelli linguistici di grandi dimensioni con pianificatori simbolici rappresenta una direzione promettente per ottenere piani verificabili e fondati rispetto alla pianificazione in linguaggio naturale, con lavori recenti che estendono questa idea ai domini visivi utilizzando modelli visione-linguaggio (VLM). Tuttavia, un confronto rigoroso tra approcci simbolici fondati su VLM e metodi che pianificano direttamente con un VLM è stato ostacolato dalla mancanza di ambienti comuni, protocolli di valutazione e copertura dei modelli. Introduciamo ViPlan, il primo benchmark open-source per la pianificazione visiva con predicati simbolici e VLM. ViPlan presenta una serie di compiti di difficoltà crescente in due domini: una variante visiva del classico problema di pianificazione Blocksworld e un ambiente simulato di robotica domestica. Valutiamo nove famiglie di VLM open-source di diverse dimensioni, insieme a modelli chiusi selezionati, confrontando sia la pianificazione simbolica fondata su VLM sia l'uso diretto dei modelli per proporre azioni. Rileviamo che la pianificazione simbolica supera la pianificazione diretta con VLM in Blocksworld, dove è cruciale un'accurata fondazione delle immagini, mentre il contrario è vero nei compiti di robotica domestica, dove la conoscenza del senso comune e la capacità di riprendersi dagli errori sono vantaggiose. Infine, dimostriamo che, nella maggior parte dei modelli e dei metodi, non vi è un beneficio significativo nell'utilizzare il prompting a catena di pensiero (Chain-of-Thought), suggerendo che gli attuali VLM continuano a faticare con il ragionamento visivo.
I modelli di ricompensa sono essenziali per allineare gli output dei modelli linguistici con le preferenze umane, tuttavia gli approcci esistenti spesso mancano sia di controllabilità che di interpretabilità. Questi modelli sono tipicamente ottimizzati per obiettivi ristretti, limitando la loro generalizzabilità a compiti downstream più ampi. Inoltre, i loro output scalari sono difficili da interpretare senza un ragionamento contestuale. Per affrontare queste limitazioni, introduciamo R3, un nuovo framework di modellazione della ricompensa che è agnostico rispetto alle rubriche, generalizzabile attraverso diverse dimensioni di valutazione e fornisce assegnazioni di punteggio interpretabili e ragionate. R3 consente una valutazione più trasparente e flessibile dei modelli linguistici, supportando un allineamento robusto con valori umani e casi d'uso diversi. I nostri modelli, dati e codice sono disponibili come open source all'indirizzo https://github.com/rubricreward/r3.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno alimentato la visione della scoperta scientifica automatizzata, spesso denominata AI Co-Scientists. Fino ad oggi, il lavoro precedente ha descritto questi sistemi come co-autori generativi responsabili di formulare ipotesi, sintetizzare codice o redigere manoscritti. In questo lavoro, esploriamo un'applicazione complementare: l'utilizzo degli LLM come verificatori per automatizzare la verifica accademica dei manoscritti scientifici. A tal fine, introduciamo SPOT, un dataset composto da 83 articoli pubblicati accoppiati a 91 errori significativi tali da richiedere erratum o ritrattazione, convalidati incrociatamente con gli autori effettivi e annotatori umani. Valutando gli LLM più avanzati su SPOT, riscontriamo che nessuno supera il 21,1% di richiamo o il 6,1% di precisione (o3 ottiene i punteggi migliori, con tutti gli altri vicini allo zero). Inoltre, le stime di confidenza sono uniformemente basse e, in otto esecuzioni indipendenti, i modelli raramente riscoprono gli stessi errori, minando la loro affidabilità. Infine, l'analisi qualitativa con esperti di dominio rivela che anche i modelli più forti commettono errori simili a misconcezioni di livello studentesco derivanti da fraintendimenti. Questi risultati evidenziano il divario sostanziale tra le capacità attuali degli LLM e i requisiti per una verifica accademica assistita dall'AI affidabile.
L'animazione di immagini umane ha attirato un'attenzione crescente e si è sviluppata rapidamente grazie alle sue ampie applicazioni nel campo degli esseri umani digitali. Tuttavia, i metodi esistenti si basano principalmente su immagini di pose renderizzate in 2D per la guida del movimento, il che limita la generalizzazione e trascura le informazioni 3D essenziali per l'animazione in mondi aperti. Per affrontare questo problema, proponiamo MTVCrafter (Motion Tokenization Video Crafter), il primo framework che modella direttamente sequenze di movimento 3D grezze (cioè movimento 4D) per l'animazione di immagini umane. Nello specifico, introduciamo 4DMoT (4D motion tokenizer) per quantizzare le sequenze di movimento 3D in token di movimento 4D. Rispetto alle immagini di pose renderizzate in 2D, i token di movimento 4D offrono indizi spazio-temporali più robusti ed evitano un allineamento rigoroso a livello di pixel tra l'immagine della pose e il personaggio, consentendo un controllo più flessibile e disaccoppiato. Successivamente, introduciamo MV-DiT (Motion-aware Video DiT). Progettando un'attenzione al movimento unica con codifiche posizionali 4D, MV-DiT può sfruttare efficacemente i token di movimento come contesto 4D compatto ma espressivo per l'animazione di immagini umane nel complesso mondo 3D. Pertanto, rappresenta un significativo passo avanti in questo campo e apre una nuova direzione per la generazione di video umani guidati da pose. Gli esperimenti dimostrano che il nostro MTVCrafter raggiunge risultati all'avanguardia con un FID-VID di 6.98, superando il secondo miglior metodo del 65%. Grazie ai robusti token di movimento, MTVCrafter si generalizza bene anche a personaggi diversi in mondi aperti (singoli/multipli, corpo intero/parziale) in vari stili e scenari. Le nostre demo video e il codice sono disponibili su: https://github.com/DINGYANB/MTVCrafter.
Presentiamo SLED, un approccio alternativo alla modellazione del linguaggio vocale che codifica le forme d'onda del parlato in sequenze di rappresentazioni latenti continue e le modella in modo autoregressivo utilizzando una funzione obiettivo basata sulla distanza energetica. La distanza energetica fornisce una misura analitica del divario distributivo confrontando campioni simulati e target, consentendo un addestramento efficiente per catturare la distribuzione autoregressiva continua sottostante. Evitando la dipendenza dalla quantizzazione vettoriale residua, SLED elimina gli errori di discretizzazione e la necessità delle complesse architetture gerarchiche comuni nei modelli di linguaggio vocale esistenti. Semplifica l'intera pipeline di modellazione preservando la ricchezza delle informazioni vocali e mantenendo l'efficienza nell'inferenza. I risultati empirici dimostrano che SLED raggiunge prestazioni solide sia nella sintesi vocale zero-shot che in streaming, mostrando il suo potenziale per applicazioni più ampie nei modelli di linguaggio vocale generici.
I modelli di generazione di immagini hanno raggiunto un'ampia gamma di applicazioni. Ad esempio, il modello TarFlow combina l'architettura transformer con i modelli Normalizing Flow, ottenendo risultati all'avanguardia su molteplici benchmark. Tuttavia, a causa della forma causale dell'attenzione che richiede un calcolo sequenziale, il processo di campionamento di TarFlow è estremamente lento. In questo articolo, dimostriamo che, attraverso una serie di strategie di ottimizzazione, il campionamento di TarFlow può essere notevolmente accelerato utilizzando il metodo di iterazione Gauss-Seidel-Jacobi (abbreviato come GS-Jacobi). Nello specifico, abbiamo scoperto che i blocchi nel modello TarFlow hanno un'importanza variabile: un piccolo numero di blocchi svolge un ruolo principale nei compiti di generazione di immagini, mentre altri blocchi contribuiscono relativamente poco; alcuni blocchi sono sensibili ai valori iniziali e soggetti a overflow numerico, mentre altri sono relativamente robusti. Sulla base di queste due caratteristiche, proponiamo la Convergence Ranking Metric (CRM) e la Initial Guessing Metric (IGM): la CRM viene utilizzata per identificare se un blocco TarFlow è "semplice" (converge in poche iterazioni) o "complesso" (richiede più iterazioni); la IGM viene utilizzata per valutare se il valore iniziale dell'iterazione è buono. Esperimenti condotti su quattro modelli TarFlow dimostrano che il campionamento GS-Jacobi può migliorare significativamente l'efficienza del campionamento mantenendo la qualità delle immagini generate (misurata tramite FID), ottenendo accelerazioni di 4.53x in Img128cond, 5.32x in AFHQ, 2.96x in Img64uncond e 2.51x in Img64cond senza degradare i punteggi FID o la qualità dei campioni. Codice e checkpoint sono accessibili su https://github.com/encoreus/GS-Jacobi_for_TarFlow.
Medici e pazienti utilizzano sempre più i Modelli Linguistici di Grande Dimensione (LLM) per diagnosticare casi clinici. Tuttavia, a differenza di domini come la matematica o la programmazione, dove la correttezza può essere definita oggettivamente dalla risposta finale, la diagnosi medica richiede che sia il risultato che il processo di ragionamento siano accurati. Attualmente, benchmark medici ampiamente utilizzati come MedQA e MMLU valutano solo l'accuratezza della risposta finale, trascurando la qualità e la fedeltà del processo di ragionamento clinico. Per affrontare questa limitazione, introduciamo MedCaseReasoning, il primo dataset open-access per valutare la capacità degli LLM di allinearsi al ragionamento diagnostico redatto da clinici. Il dataset include 14.489 casi di domande e risposte diagnostiche, ciascuno associato a dichiarazioni dettagliate di ragionamento derivate da rapporti di casi medici open-access. Valutiamo i migliori LLM di ragionamento su MedCaseReasoning e riscontriamo carenze significative nelle loro diagnosi e ragionamenti: ad esempio, il modello open-source con le migliori prestazioni, DeepSeek-R1, raggiunge solo il 48% di accuratezza diagnostica in 10-shot e menziona solo il 64% delle dichiarazioni di ragionamento clinico (recall). Tuttavia, dimostriamo che il fine-tuning degli LLM sulle tracce di ragionamento derivate da MedCaseReasoning migliora significativamente l'accuratezza diagnostica e il recall del ragionamento clinico, con un guadagno relativo medio rispettivamente del 29% e del 41%. Il dataset open-source, il codice e i modelli sono disponibili all'indirizzo https://github.com/kevinwu23/Stanford-MedCaseReasoning.
Tiny QA Benchmark++ (TQB++) presenta una suite di test ultra-leggera e multilingue progettata per fornire alle pipeline di modelli linguistici di grandi dimensioni (LLM) un dataset di sicurezza in stile unit-test che si esegue in pochi secondi con costi minimi. Nato dalle esigenze di feedback rapido durante lo sviluppo dell'SDK di ottimizzazione dei prompt Comet Opik, dove l'attesa di benchmark pesanti interrompe il flusso di lavoro degli sviluppatori. TQB++ combina un set di riferimento in inglese di 52 elementi (meno di 20 kB) con un piccolo pacchetto pypi generatore di dati sintetici basato su LiteLLM, indipendente dal provider. Il generatore consente ai professionisti di creare i propri pacchetti miniaturizzati in qualsiasi lingua, dominio o livello di difficoltà, mentre dieci pacchetti predefiniti coprono già arabo, cinese, francese, tedesco, giapponese, coreano, portoghese, russo, spagnolo e turco. Ogni dataset è fornito con metadati Croissant e file plug-and-play per OpenAI-Evals, LangChain e strumenti CI standard, consentendo ai team di integrare micro-benchmark deterministici direttamente nei gate delle pull-request, nei cicli di prompt-engineering e nei dashboard di produzione senza intaccare i budget GPU. Un'esecuzione completa di TQB++ aggiunge solo pochi secondi alla latenza della pipeline, ma segnala in modo affidabile errori nei template dei prompt, deriva dei tokenizer ed effetti collaterali del fine-tuning molto prima che suite su larga scala come MMLU o BIG-Bench abbiano finito di configurarsi. L'intero framework è stato rilasciato per accelerare un'assurance qualità continua ed efficiente in termini di risorse nell'ecosistema dell'IA generativa.
Nonostante i significativi progressi nella generazione di video, la sintesi di azioni umane fisicamente plausibili rimane una sfida persistente, in particolare nella modellazione della semantica fine e delle dinamiche temporali complesse. Ad esempio, generare routine ginniche come il "salto con cambio e mezzo giro" presenta difficoltà sostanziali per i metodi attuali, spesso producendo risultati insoddisfacenti. Per colmare questa lacuna, proponiamo FinePhys, un framework per la generazione di azioni umane di dettaglio che incorpora la fisica per ottenere una guida scheletrica efficace. Nello specifico, FinePhy stima prima le pose 2D in modo online e poi esegue il passaggio da 2D a 3D tramite apprendimento contestuale. Per mitigare l'instabilità e la limitata interpretabilità delle pose 3D puramente basate sui dati, introduciamo ulteriormente un modulo di ri-stima del movimento basato sulla fisica governato dalle equazioni di Eulero-Lagrange, calcolando le accelerazioni delle articolazioni tramite aggiornamento temporale bidirezionale. Le pose 3D previste fisicamente vengono quindi fuse con quelle basate sui dati, offrendo una guida multi-scala delle mappe di calore 2D per il processo di diffusione. Valutato su tre sottoinsiemi di azioni di dettaglio di FineGym (FX-JUMP, FX-TURN e FX-SALTO), FinePhy supera significativamente i baseline competitivi. I risultati qualitativi completi dimostrano ulteriormente la capacità di FinePhy di generare azioni umane di dettaglio più naturali e plausibili.
Il Test-Time Scaling (TTS) si riferisce a approcci che migliorano le prestazioni di ragionamento allocando calcoli aggiuntivi durante l'inferenza, senza alterare i parametri del modello. Mentre i metodi TTS esistenti operano in uno spazio discreto di token generando più passaggi intermedi, studi recenti in Coconut e SoftCoT hanno dimostrato che ragionare nello spazio latente continuo può ulteriormente migliorare le prestazioni di ragionamento. Tali pensieri latenti codificano un pensiero informativo senza la perdita di informazioni associata alla generazione autoregressiva di token, suscitando un crescente interesse per il ragionamento nello spazio continuo. A differenza del decoding discreto, dove il campionamento ripetuto consente di esplorare percorsi di ragionamento diversi, le rappresentazioni latenti nello spazio continuo sono fisse per un dato input, il che limita l'esplorazione diversificata, poiché tutti i percorsi decodificati originano dallo stesso pensiero latente. Per superare questa limitazione, introduciamo SoftCoT++ per estendere SoftCoT al paradigma del Test-Time Scaling, consentendo un'esplorazione diversificata dei percorsi di pensiero. Nello specifico, perturbiamo i pensieri latenti tramite più token iniziali specializzati e applichiamo l'apprendimento contrastivo per promuovere la diversità tra le rappresentazioni dei pensieri soft. Esperimenti condotti su cinque benchmark di ragionamento e due distinte architetture LLM dimostrano che SoftCoT++ migliora significativamente SoftCoT e supera anche SoftCoT con il self-consistency scaling. Inoltre, mostra una forte compatibilità con tecniche di scaling convenzionali come il self-consistency. Il codice sorgente è disponibile all'indirizzo https://github.com/xuyige/SoftCoT.
I modelli di diffusione video (DMs) hanno reso possibile la sintesi di video di alta qualità. Tuttavia, le loro notevoli esigenze computazionali e di memoria pongono serie sfide per il dispiegamento nel mondo reale, anche su GPU di fascia alta. Come soluzione comunemente adottata, la quantizzazione ha dimostrato un notevole successo nel ridurre i costi per i DMs di immagini, mentre la sua applicazione diretta ai DMs video rimane inefficace. In questo articolo, presentiamo QVGen, un nuovo framework di addestramento consapevole della quantizzazione (QAT) progettato per DMs video ad alte prestazioni e efficienti nell'inferenza sotto quantizzazione a bit estremamente bassi (ad esempio, 4 bit o meno). Iniziamo con un'analisi teorica che dimostra come ridurre la norma del gradiente sia essenziale per facilitare la convergenza per QAT. A tal fine, introduciamo moduli ausiliari (Phi) per mitigare grandi errori di quantizzazione, portando a una convergenza significativamente migliorata. Per eliminare l'overhead di inferenza di Phi, proponiamo una strategia di decadimento del rango che elimina progressivamente Phi. Nello specifico, utilizziamo ripetutamente la decomposizione ai valori singolari (SVD) e una regolarizzazione basata sul rango proposta, gamma, per identificare e decadere i componenti a basso contributo. Questa strategia mantiene le prestazioni azzerando l'overhead di inferenza. Esperimenti estesi su 4 DMs video all'avanguardia (SOTA), con dimensioni dei parametri che vanno da 1,3B a 14B, mostrano che QVGen è il primo a raggiungere una qualità comparabile alla precisione completa in impostazioni a 4 bit. Inoltre, supera significativamente i metodi esistenti. Ad esempio, il nostro CogVideoX-2B a 3 bit ottiene miglioramenti di +25,28 in Dynamic Degree e +8,43 in Scene Consistency su VBench.
Negli ultimi anni, l'emergere di grandi modelli di ragionamento (LRM), come OpenAI-o1 e DeepSeek-R1, ha dimostrato capacità impressionanti nella risoluzione di problemi complessi, ad esempio in matematica e programmazione. Alcuni studi pionieristici tentano di portare il successo degli LRM nella traduzione automatica neurale (MT). Cercano di costruire LRM con capacità di traduzione profonda tramite apprendimento per rinforzo (RL). Nonostante alcuni progressi siano stati fatti, questi tentativi si concentrano generalmente su alcune lingue ad alta risorsa, come l'inglese e il cinese, lasciando incerte le prestazioni su altre lingue. Inoltre, i metodi di modellazione della ricompensa nei lavori precedenti non sfruttano appieno il potenziale dell'apprendimento per rinforzo nella MT. In questo lavoro, progettiamo prima un nuovo metodo di modellazione della ricompensa che confronta i risultati di traduzione del modello MT con un forte LRM (cioè DeepSeek-R1-671B) e quantifica i confronti per fornire ricompense. I risultati sperimentali dimostrano la superiorità del metodo di modellazione della ricompensa. Utilizzando Qwen2.5-7B-Instruct come backbone, il modello addestrato raggiunge le nuove prestazioni state-of-the-art nella traduzione letteraria e supera i forti LRM, inclusi OpenAI-o1 e DeepSeek-R1. Inoltre, estendiamo il nostro metodo a contesti multilingue con 11 lingue. Con una modellazione della ricompensa leggera e ben progettata nell'RL, possiamo semplicemente trasferire la forte capacità di MT da una singola direzione a più direzioni (cioè 90) e ottenere prestazioni impressionanti nella MT multilingue.
I recenti progressi nella Patologia Digitale (DP), in particolare attraverso l'intelligenza artificiale e i Modelli di Base, hanno evidenziato l'importanza di dataset su larga scala, diversificati e riccamente annotati. Nonostante il loro ruolo cruciale, i dataset pubblicamente disponibili di Immagini di Interi Vetrini (WSI) spesso mancano di una scala sufficiente, diversità tissutale e metadati clinici completi, limitando la robustezza e la generalizzabilità dei modelli di IA. In risposta, presentiamo il dataset HISTAI, una vasta collezione open-access di WSI multimodale che comprende oltre 60.000 vetrini provenienti da vari tipi di tessuto. Ogni caso nel dataset HISTAI è accompagnato da estesi metadati clinici, inclusi diagnosi, informazioni demografiche, annotazioni patologiche dettagliate e codici diagnostici standardizzati. Il dataset mira a colmare le lacune identificate nelle risorse esistenti, promuovendo l'innovazione, la riproducibilità e lo sviluppo di soluzioni di patologia computazionale clinicamente rilevanti. Il dataset è accessibile all'indirizzo https://github.com/HistAI/HISTAI.
Identificare con precisione le tecniche avversarie nei testi di sicurezza è fondamentale per una difesa informatica efficace. Tuttavia, i metodi esistenti affrontano un compromesso fondamentale: si basano su modelli generici con una precisione limitata nel dominio o richiedono pipeline ad alta intensità di risorse che dipendono da grandi dataset etichettati e ottimizzazioni specifiche per il compito, come l'estrazione di negativi difficili personalizzati e la rimozione del rumore, risorse raramente disponibili in domini specializzati. Proponiamo TechniqueRAG, un framework di generazione aumentata dal recupero (RAG) specifico per il dominio, che colma questa lacuna integrando recuperatori preesistenti, LLM ottimizzati per istruzioni e un numero minimo di coppie testo-tecnica. Il nostro approccio affronta la scarsità di dati ottimizzando solo il componente di generazione su un numero limitato di esempi interni al dominio, evitando la necessità di un addestramento intensivo per il recupero. Mentre il RAG convenzionale mitiga le allucinazioni accoppiando il recupero e la generazione, la sua dipendenza da recuperatori generici spesso introduce candidati rumorosi, limitando la precisione specifica del dominio. Per risolvere questo problema, miglioriamo la qualità del recupero e la specificità del dominio attraverso un riordinamento zero-shot basato su LLM, che allinea esplicitamente i candidati recuperati con le tecniche avversarie. Esperimenti su più benchmark di sicurezza dimostrano che TechniqueRAG raggiunge prestazioni all'avanguardia senza estese ottimizzazioni specifiche per il compito o dati etichettati, mentre un'analisi completa fornisce ulteriori approfondimenti.
I dataset di preferenza sono essenziali per addestrare modelli linguistici generalisti che seguono istruzioni utilizzando il Reinforcement Learning from Human Feedback (RLHF). Ogni nuova release di dati aumenta le aspettative per le future raccolte di dati, il che significa che c'è un costante bisogno di migliorare la qualità e la diversità dei dati di preferenza disponibili pubblicamente. Per affrontare questa esigenza, introduciamo HelpSteer3-Preference, un dataset di preferenza di alta qualità, annotato da esseri umani e con licenza permissiva (CC-BY-4.0), che comprende oltre 40.000 campioni. Questi campioni coprono una vasta gamma di applicazioni reali dei grandi modelli linguistici (LLM), inclusi compiti relativi a STEM, programmazione e scenari multilingue. Utilizzando HelpSteer3-Preference, addestriamo Modelli di Ricompensa (RMs) che raggiungono prestazioni eccellenti su RM-Bench (82,4%) e JudgeBench (73,7%). Questo rappresenta un miglioramento sostanziale (~10% in termini assoluti) rispetto ai migliori risultati precedentemente riportati da RMs esistenti. Dimostriamo che HelpSteer3-Preference può anche essere utilizzato per addestrare Modelli di Ricompensa Generativi e come i modelli di policy possano essere allineati con RLHF utilizzando i nostri RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
L'interazione uomo-computer ha da tempo immaginato tecnologie in grado di comprenderci, dalle nostre preferenze e abitudini, ai tempi e agli scopi delle nostre azioni quotidiane. Tuttavia, i modelli utente attuali rimangono frammentati, strettamente adattati a specifiche applicazioni e incapaci di ragionamenti flessibili necessari per realizzare queste visioni. Questo articolo presenta un'architettura per un modello utente generale (GUM) che apprende informazioni su di te osservando qualsiasi interazione che hai con il tuo computer. Il GUM prende in input qualsiasi osservazione non strutturata di un utente (ad esempio, screenshot del dispositivo) e costruisce proposizioni ponderate in base alla confidenza che catturano la conoscenza e le preferenze di quell'utente. I GUM possono dedurre che un utente si sta preparando per un matrimonio a cui parteciperà da messaggi con un amico. O riconoscere che un utente sta affrontando difficoltà con il feedback di un collaboratore su una bozza osservando molteplici modifiche bloccate e un passaggio alla lettura di lavori correlati. I GUM introducono un'architettura che deduce nuove proposizioni su un utente da osservazioni multimodali, recupera proposizioni correlate per il contesto e rivede continuamente le proposizioni esistenti. Per illustrare l'ampiezza delle applicazioni abilitate dai GUM, dimostriamo come essi arricchiscono gli assistenti basati su chat con il contesto, gestiscono le notifiche del sistema operativo per evidenziare selettivamente informazioni importanti e abilitano agenti interattivi che si adattano alle preferenze tra le applicazioni. Istanziamo inoltre assistenti proattivi (GUMBO) che scoprono ed eseguono suggerimenti utili per conto di un utente utilizzando il loro GUM. Nelle nostre valutazioni, scopriamo che i GUM effettuano inferenze calibrate e accurate sugli utenti e che gli assistenti basati sui GUM identificano e eseguono proattivamente azioni che gli utenti non penserebbero di richiedere esplicitamente. Nel complesso, i GUM introducono metodi che sfruttano modelli multimodali per comprendere il contesto non strutturato, abilitando visioni di lunga data dell'HCI e sistemi interattivi completamente nuovi che anticipano le esigenze degli utenti.
La disambiguazione degli omografi rimane una sfida significativa nella conversione da grafema a fonema (G2P), specialmente per le lingue con risorse limitate. Questa sfida è duplice: (1) la creazione di dataset di omografi bilanciati e completi è laboriosa e costosa, e (2) le strategie specifiche di disambiguazione introducono una latenza aggiuntiva, rendendole inadatte per applicazioni in tempo reale come i lettori di schermo e altri strumenti di accessibilità. In questo articolo, affrontiamo entrambi i problemi. In primo luogo, proponiamo una pipeline semi-automatizzata per la costruzione di dataset focalizzati sugli omografi, introduciamo il dataset HomoRich generato attraverso questa pipeline e ne dimostriamo l'efficacia applicandolo per migliorare un sistema G2P basato su deep learning all'avanguardia per il persiano. In secondo luogo, sosteniamo un cambio di paradigma: utilizzare dataset offline ricchi per informare lo sviluppo di metodi basati su regole veloci, adatti per applicazioni di accessibilità sensibili alla latenza come i lettori di schermo. A tal fine, miglioriamo uno dei sistemi G2P basati su regole più noti, eSpeak, in una versione veloce e consapevole degli omografi, HomoFast eSpeak. I nostri risultati mostrano un miglioramento approssimativo del 30% nell'accuratezza della disambiguazione degli omografi per i sistemi basati su deep learning e eSpeak.
I primi uomini delle caverne si affidavano a gesti, vocalizzazioni e segnali semplici per coordinarsi, pianificare, evitare i predatori e condividere le risorse. Oggi, gli esseri umani collaborano utilizzando linguaggi complessi per ottenere risultati straordinari. Cosa guida questa evoluzione nella comunicazione? Come emerge il linguaggio, si adatta e diventa vitale per il lavoro di squadra? Comprendere le origini del linguaggio rimane una sfida. Un'ipotesi predominante nella linguistica e nell'antropologia sostiene che il linguaggio si sia evoluto per soddisfare le esigenze ecologiche e sociali della cooperazione umana primitiva. Il linguaggio non è emerso in isolamento, ma attraverso obiettivi di sopravvivenza condivisi. Ispirati da questa visione, indaghiamo l'emergere del linguaggio nei Giochi di Foraggiamento multi-agente. Questi ambienti sono progettati per riflettere i vincoli cognitivi ed ecologici che si ritiene abbiano influenzato l'evoluzione della comunicazione. Gli agenti operano in un mondo a griglia condiviso con una conoscenza parziale degli altri agenti e dell'ambiente, e devono coordinarsi per completare giochi come raccogliere obiettivi di alto valore o eseguire azioni temporalmente ordinate. Utilizzando l'apprendimento per rinforzo end-to-end, gli agenti imparano sia le azioni che le strategie di comunicazione da zero. Scopriamo che gli agenti sviluppano protocolli di comunicazione con caratteristiche distintive del linguaggio naturale: arbitrarietà, intercambiabilità, spostamento, trasmissione culturale e composizionalità. Quantifichiamo ciascuna proprietà e analizziamo come diversi fattori, come la dimensione della popolazione e le dipendenze temporali, modellino aspetti specifici del linguaggio emergente. Il nostro framework funge da piattaforma per studiare come il linguaggio possa evolvere dall'osservabilità parziale, dal ragionamento temporale e dagli obiettivi cooperativi in contesti multi-agente incarnati. Rilasceremo pubblicamente tutti i dati, il codice e i modelli.
L'addestramento di Small Language Models (SLM) ad alte prestazioni rimane costoso, anche con l'uso della distillazione della conoscenza e della potatura da modelli insegnanti più grandi. Il lavoro esistente spesso affronta tre sfide principali: (1) la perdita di informazioni dovuta alla potatura rigida, (2) l'allineamento inefficiente delle rappresentazioni e (3) il sottoutilizzo delle attivazioni informative, in particolare quelle provenienti dalle Feed-Forward Networks (FFN). Per affrontare queste sfide, introduciamo Low-Rank Clone (LRC), un metodo efficiente di pre-addestramento che costruisce SLM aspirando all'equivalenza comportamentale con modelli insegnanti forti. LRC addestra un insieme di matrici di proiezione a basso rango che consentono congiuntamente una potatura morbida comprimendo i pesi del modello insegnante e una clonazione delle attivazioni allineando le attivazioni dello studente, inclusi i segnali delle FFN, con quelle del modello insegnante. Questo design unificato massimizza il trasferimento di conoscenza eliminando la necessità di moduli di allineamento espliciti. Esperimenti estesi con modelli insegnanti open-source (ad esempio, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) dimostrano che LRC eguaglia o supera i modelli all'avanguardia addestrati su trilioni di token, utilizzando solo 20 miliardi di token e raggiungendo un'efficienza di addestramento superiore a 1.000x. I nostri codici e checkpoint del modello sono disponibili su https://github.com/CURRENTF/LowRankClone e https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
L'Image Signal Processor (ISP) è un componente fondamentale delle fotocamere degli smartphone moderni, responsabile della conversione dei dati RAW del sensore in immagini RGB con un forte focus sulla qualità percettiva. Recenti lavori evidenziano il potenziale degli approcci di deep learning e la loro capacità di catturare dettagli con una qualità sempre più vicina a quella delle fotocamere professionali. Un passaggio complesso e costoso nello sviluppo di un ISP basato su apprendimento è l'acquisizione di dati accoppiati allineati a livello di pixel che mappano il raw catturato da un sensore di fotocamera di uno smartphone a immagini di riferimento di alta qualità. In questo lavoro, affrontiamo questa sfida proponendo un nuovo metodo di addestramento per un ISP apprendibile che elimina la necessità di corrispondenze dirette tra immagini raw e dati di ground truth con contenuto corrispondente. Il nostro approccio non accoppiato utilizza una funzione di perdita multi-termine guidata da un addestramento adversarial con più discriminatori che elaborano mappe di caratteristiche da reti pre-addestrate per mantenere la struttura del contenuto mentre apprendono le caratteristiche di colore e texture dal dataset RGB target. Utilizzando architetture di reti neurali leggere adatte ai dispositivi mobili come backbone, abbiamo valutato il nostro metodo sui dataset Zurich RAW to RGB e Fujifilm UltraISP. Rispetto ai metodi di addestramento accoppiati, la nostra strategia di apprendimento non accoppiato mostra un forte potenziale e raggiunge un'elevata fedeltà su molteplici metriche di valutazione. Il codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
Identificare errori tecnici sottili all'interno di documenti scientifici e tecnici complessi, in particolare quelli che richiedono un'interpretazione multimodale (ad esempio, formule in immagini), rappresenta una sfida significativa per i Large Language Models (LLM), le cui tendenze intrinseche alla correzione degli errori possono mascherare inesattezze. Questo studio esplorativo proof-of-concept (PoC) indaga il condizionamento strutturato del contesto degli LLM, basato sui principi del Persistent Workflow Prompting (PWP), come strategia metodologica per modulare questo comportamento degli LLM al momento dell'inferenza. L'approccio è progettato per migliorare l'affidabilità di LLM generici e facilmente accessibili (in particolare Gemini 2.5 Pro e ChatGPT Plus o3) per compiti di validazione precisi, basandosi esclusivamente sulle loro interfacce chat standard senza accesso alle API o modifiche al modello. Per esplorare questa metodologia, ci siamo concentrati sulla validazione di formule chimiche all'interno di un singolo documento di test complesso contenente errori noti sia testuali che basati su immagini. Sono state valutate diverse strategie di prompting: mentre i prompt di base si sono rivelati inaffidabili, un approccio che adatta le strutture PWP per condizionare rigorosamente la mentalità analitica dell'LLM sembra migliorare l'identificazione degli errori testuali con entrambi i modelli. In particolare, questo metodo ha anche guidato Gemini 2.5 Pro a identificare ripetutamente un errore sottile in una formula basata su immagini precedentemente trascurato durante la revisione manuale, un compito in cui ChatGPT Plus o3 ha fallito nei nostri test. Questi risultati preliminari evidenziano modalità operative specifiche degli LLM che ostacolano la validazione orientata ai dettagli e suggeriscono che il condizionamento del contesto informato dal PWP offre una tecnica promettente e altamente accessibile per sviluppare flussi di lavoro analitici guidati da LLM più robusti, in particolare per compiti che richiedono un rilevamento meticoloso degli errori in documenti scientifici e tecnici. È necessaria una validazione estesa oltre questo PoC limitato per accertarne l'applicabilità più ampia.
Questo studio esplora i Modelli Linguistici di Grande Dimensione (LLM) come agenti autonomi per compiti del mondo reale, inclusi lo sviluppo software freelance. Questo lavoro presenta un nuovo benchmark che valuta gli LLM su attività di programmazione e analisi dati freelance derivate da dati economici. Costruiamo il benchmark utilizzando compiti sintetici creati da un dataset Kaggle Freelancer di annunci di lavoro, con tutti i prezzi dei progetti standardizzati in USD (prezzo mediano per progetto fisso intorno a 250, e una media di 306). Ogni compito è accompagnato da casi di test strutturati input-output e un prezzo stimato, consentendo il controllo automatico della correttezza e una valutazione monetaria delle prestazioni. Questo approccio è ispirato dal recente benchmark SWE-Lancer di OpenAI (1.400 compiti reali di Upwork per un valore totale di 1 milione). Tuttavia, il nostro framework semplifica la valutazione utilizzando compiti verificabili programmaticamente e valori di prezzo predetti, rendendolo altamente scalabile e ripetibile. Su questo benchmark, valutiamo quattro moderni LLM - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 e Mistral. Riportiamo l'accuratezza di ciascun modello (tasso di successo dei compiti e tasso di superamento dei test) e i "guadagni freelance" totali che ottiene (somma dei prezzi dei compiti risolti). I nostri risultati mostrano che Claude 3.5 Haiku si comporta meglio, guadagnando circa 1,52 milioni di USD, seguito da vicino da GPT-4o-mini a 1,49 milioni, poi Qwen 2.5 (1,33 milioni) e Mistral (0,70 milioni). Analizziamo la distribuzione degli errori per compito e osserviamo che i modelli più forti risolvono il maggior numero di compiti e raramente falliscono completamente su qualsiasi progetto. Discutiamo le implicazioni di questi risultati per la fattibilità dell'IA come sviluppatore freelance, i vantaggi e i limiti del nostro approccio di benchmark automatizzato e il divario tra le prestazioni su compiti strutturati rispetto alla vera complessità dei lavori freelance del mondo reale.
La revisione critica tra pari di manoscritti scientifici rappresenta una sfida significativa per i Large Language Models (LLM), in parte a causa delle limitazioni dei dati e della complessità del ragionamento esperto. Questo rapporto introduce il Persistent Workflow Prompting (PWP), una metodologia di prompt engineering potenzialmente ampiamente applicabile, progettata per colmare questa lacuna utilizzando interfacce di chat LLM standard (zero-code, nessuna API). Presentiamo un prompt PWP proof-of-concept per l'analisi critica di manoscritti di chimica sperimentale, caratterizzato da un'architettura gerarchica e modulare (strutturata tramite Markdown) che definisce flussi di lavoro di analisi dettagliati. Sviluppiamo questo prompt PWP attraverso l'applicazione iterativa di tecniche di meta-prompting e meta-ragionamento mirate a codificare sistematicamente i flussi di lavoro di revisione esperta, inclusa la conoscenza tacita. Inviato una volta all'inizio di una sessione, questo prompt PWP equipaggia l'LLM con flussi di lavoro persistenti attivati da query successive, guidando i moderni LLM di ragionamento attraverso valutazioni sistematiche e multimodali. Le dimostrazioni mostrano l'LLM guidato da PWP nell'identificare gravi difetti metodologici in un caso di test, mitigando il bias di input dell'LLM e svolgendo compiti complessi, tra cui distinguere affermazioni da prove, integrare analisi di testo/foto/figure per inferire parametri, eseguire controlli di fattibilità quantitativa, confrontare stime con affermazioni e valutare la plausibilità a priori. Per garantire trasparenza e facilitare la replicazione, forniamo prompt completi, analisi dimostrative dettagliate e log di chat interattive come risorse supplementari. Oltre all'applicazione specifica, questo lavoro offre approfondimenti sul processo di meta-sviluppo stesso, evidenziando il potenziale del PWP, informato dalla formalizzazione dettagliata dei flussi di lavoro, per abilitare analisi sofisticate utilizzando LLM facilmente disponibili per compiti scientifici complessi.