Articoli di ricerca IA selezionati quotidianamente con traduzioni
Con il rilascio del modello o1 da parte di OpenAI, sono gradualmente emersi modelli di ragionamento che adottano strategie di pensiero lento. Poiché le risposte generate da tali modelli spesso includono ragionamenti complessi, passaggi intermedi e autoriflessione, i metodi di valutazione esistenti si rivelano spesso inadeguati. Faticano a determinare se l'output del modello linguistico (LLM) sia effettivamente equivalente alla risposta di riferimento e hanno difficoltà a identificare ed estrarre la risposta finale da risposte lunghe e complesse. Per affrontare questo problema, proponiamo xVerify, un verificatore di risposte efficiente per la valutazione dei modelli di ragionamento. xVerify dimostra una forte capacità nel giudicare l'equivalenza, consentendogli di determinare efficacemente se le risposte prodotte dai modelli di ragionamento siano equivalenti alle risposte di riferimento su vari tipi di domande oggettive. Per addestrare e valutare xVerify, costruiamo il dataset VAR raccogliendo coppie domanda-risposta generate da più LLM su vari dataset, sfruttando modelli di ragionamento multipli e set di valutazione progettati specificamente per la valutazione dei modelli di ragionamento. Un processo di annotazione a più round viene impiegato per garantire l'accuratezza delle etichette. Basandoci sul dataset VAR, addestriamo più modelli xVerify di diverse dimensioni. Negli esperimenti di valutazione condotti sia sul set di test che sul set di generalizzazione, tutti i modelli xVerify raggiungono punteggi F1 complessivi e accuratezza superiori al 95%. In particolare, la variante più piccola, xVerify-0.5B-I, supera tutti i metodi di valutazione tranne GPT-4o, mentre xVerify-3B-Ib supera GPT-4o in termini di prestazioni complessive. Questi risultati convalidano l'efficacia e la generalizzabilità di xVerify.
Presentiamo Seedream 3.0, un modello di base ad alte prestazioni per la generazione di immagini bilingue cinese-inglese. Abbiamo sviluppato diversi miglioramenti tecnici per affrontare le sfide esistenti in Seedream 2.0, tra cui l'allineamento con prompt complessi, la generazione di tipografia fine, l'estetica e la fedeltà visiva non ottimali e le limitate risoluzioni delle immagini. Nello specifico, i progressi di Seedream 3.0 derivano da miglioramenti in tutta la pipeline, dalla costruzione dei dati al deployment del modello. A livello di dati, abbiamo raddoppiato il dataset utilizzando un paradigma di addestramento consapevole dei difetti e un framework di campionamento dati collaborativo a doppio asse. Inoltre, abbiamo adottato diverse tecniche efficaci come l'addestramento a risoluzione mista, il RoPE cross-modality, la perdita di allineamento delle rappresentazioni e il campionamento dei passaggi temporali basato sulla risoluzione nella fase di pre-training. Durante la fase di post-training, utilizziamo didascalie estetiche diversificate nel SFT e un modello di ricompensa basato su VLM con scalabilità, ottenendo così output ben allineati alle preferenze umane. Inoltre, Seedream 3.0 introduce un nuovo paradigma di accelerazione. Utilizzando l'aspettativa di rumore coerente e il campionamento dei passaggi temporali basato sull'importanza, otteniamo un aumento di velocità da 4 a 8 volte mantenendo la qualità dell'immagine. Seedream 3.0 dimostra miglioramenti significativi rispetto a Seedream 2.0: potenzia le capacità complessive, in particolare per il rendering del testo in caratteri cinesi complessi, fondamentale per la generazione di tipografia professionale. Inoltre, fornisce un output nativo ad alta risoluzione (fino a 2K), consentendo la generazione di immagini con elevata qualità visiva.
Il miglioramento delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) ha suscitato un ampio interesse. Tuttavia, le attuali tecniche di post-addestramento si basano fortemente su segnali di supervisione, come la supervisione sui risultati o modelli di ricompensa ausiliari, che affrontano problemi di scalabilità e alti costi di annotazione. Ciò ci motiva a potenziare il ragionamento degli LLM senza la necessità di supervisione esterna. Introduciamo un framework di auto-addestramento generalizzabile e puramente non supervisionato, denominato Genius. Senza ausili esterni, Genius richiede di cercare la sequenza di risposta ottimale in modo graduale e di ottimizzare l'LLM. Per esplorare i potenziali passaggi e sfruttare quelli ottimali, Genius introduce una strategia di ricampionamento prospettico graduale per campionare e stimare il valore del passaggio simulando risultati futuri. Inoltre, riconosciamo che l'impostazione non supervisionata induce inevitabilmente rumore intrinseco e incertezza. Per fornire un'ottimizzazione robusta, proponiamo una funzione di perdita di ottimizzazione calibrata sul vantaggio (ACO) per mitigare le inconsistenze di stima. Combinando queste tecniche, Genius rappresenta un avanzato passo iniziale verso il miglioramento autonomo del ragionamento degli LLM con query generali e senza supervisione, rivoluzionando le leggi di scala del ragionamento data la vasta disponibilità di query generali. Il codice sarà rilasciato su https://github.com/xufangzhi/Genius.
Man mano che l'addestramento post-allenamento dei grandi modelli linguistici (LLM) progredisce dal seguire istruzioni a compiti di ragionamento complesso, comprendere come diversi dati influenzino le dinamiche di fine-tuning rimane in gran parte inesplorato. In questo articolo, presentiamo un'analisi spettrale dei gradienti a livello di strato indotti da dati di istruzione e ragionamento di bassa/alta qualità per l'addestramento post-allenamento degli LLM. La nostra analisi rivela che le metriche ampiamente studiate per la valutazione dei dati, ad esempio IFD, InsTag, Difficoltà e Ricompensa, possono essere spiegate e unificate dalle proprietà spettrali calcolate dalla decomposizione ai valori singolari (SVD) dei gradienti. In particolare, dati di qualità superiore sono solitamente associati a norme nucleari più basse e ranghi effettivi più elevati. È degno di nota che il rango effettivo mostri una migliore robustezza e risoluzione rispetto alla norma nucleare nel catturare sottili differenze di qualità. Ad esempio, i dati di ragionamento raggiungono ranghi effettivi sostanzialmente più alti rispetto ai dati di istruzione, implicando strutture di gradiente più ricche su compiti più complessi. I nostri esperimenti evidenziano anche che i modelli all'interno della stessa famiglia condividono schemi di gradiente simili indipendentemente dalle loro dimensioni, mentre diverse famiglie di modelli divergono significativamente. Fornendo una visione unificata sugli effetti della qualità dei dati tra dati di istruzione e ragionamento, questo lavoro illumina l'interazione tra qualità dei dati e stabilità dell'addestramento, offrendo nuove intuizioni per sviluppare migliori strategie di esplorazione dei dati per l'addestramento post-allenamento.
Un sistema di intelligenza artificiale può creare e mantenere conoscenza solo nella misura in cui è in grado di verificare tale conoscenza autonomamente. Recenti lavori sul ragionamento a lunga catena di pensiero (Chain-of-Thought, CoT) hanno dimostrato il grande potenziale dei modelli linguistici di grandi dimensioni (LLM) nel risolvere problemi competitivi, ma la loro capacità di verifica rimane debole e non sufficientemente investigata. In questo articolo, proponiamo Heimdall, un LLM per la verifica di lunghe catene di pensiero, in grado di giudicare con precisione la correttezza delle soluzioni. Utilizzando il puro apprendimento per rinforzo, abbiamo aumentato l'accuratezza della verifica dal 62,5% al 94,5% su problemi matematici competitivi. Scalando con campionamenti ripetuti, l'accuratezza aumenta ulteriormente fino al 97,5%. Attraverso valutazioni umane, Heimdall dimostra impressionanti capacità di generalizzazione, riuscendo a rilevare la maggior parte degli errori in dimostrazioni matematiche complesse, un tipo di problema non incluso durante l'addestramento. Inoltre, proponiamo la Verifica Pessimistica per estendere la funzionalità di Heimdall al miglioramento della risoluzione dei problemi. Questa tecnica utilizza Heimdall per giudicare le soluzioni fornite da un modello risolutore e, basandosi sul principio pessimistico, seleziona la soluzione più probabile corretta con la minore incertezza. Utilizzando DeepSeek-R1-Distill-Qwen-32B come modello risolutore, la Verifica Pessimistica migliora l'accuratezza delle soluzioni su AIME2025 dal 54,2% al 70,0% con un budget computazionale 16 volte superiore e all'83,3% con un budget ancora maggiore. Con il modello risolutore più potente Gemini 2.5 Pro, il punteggio raggiunge il 93,0%. Infine, prototipiamo un sistema automatico di scoperta della conoscenza, un sistema ternario in cui uno componente pone domande, un altro fornisce soluzioni e il terzo verifica le soluzioni. Utilizzando il lavoro di sintesi dati NuminaMath per i primi due componenti, Heimdall identifica efficacemente i record problematici all'interno del dataset e rivela che quasi la metà dei dati è difettosa, un risultato che curiosamente si allinea con i recenti studi di ablazione di NuminaMath.
TextArena è una raccolta open-source di giochi competitivi basati su testo per l'addestramento e la valutazione del comportamento agentico nei Large Language Models (LLM). Copre oltre 57 ambienti unici (inclusi configurazioni single-player, two-player e multi-player) e consente una facile valutazione delle capacità dei modelli tramite un sistema di gioco online (contro esseri umani e altri modelli inviati) con punteggi TrueSkill in tempo reale. I benchmark tradizionali raramente valutano abilità sociali dinamiche come negoziazione, teoria della mente e inganno, creando un vuoto che TextArena colma. Progettato con la ricerca, la comunità e l'estensibilità in mente, TextArena enfatizza la facilità di aggiungere nuovi giochi, adattare il framework, testare i modelli, giocare contro i modelli e addestrare i modelli. Una documentazione dettagliata degli ambienti, dei giochi, della classifica e degli esempi è disponibile su https://github.com/LeonGuertler/TextArena e https://www.textarena.ai/.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) raggiungono prestazioni notevoli in compiti di comprensione a livello di pixel fine-granulare. Tuttavia, tutti i lavori si basano pesantemente su componenti aggiuntivi, come l'encoder visivo (CLIP) e esperti di segmentazione, portando a un'elevata complessità del sistema e limitando la scalabilità del modello. In questo lavoro, il nostro obiettivo è esplorare un MLLM altamente semplificato senza introdurre componenti extra. Il nostro lavoro è motivato dai recenti studi sul design di un Single trAnsformer come modello unificato visione-linguaggio (SAIL), dove questi lavori apprendono congiuntamente token visivi e token di testo nei transformer. Presentiamo Pixel-SAIL, un singolo transformer per compiti MLLM a livello di pixel. In particolare, presentiamo tre miglioramenti tecnici rispetto alla baseline semplice. Innanzitutto, progettiamo un modulo di upsampling apprendibile per affinare le caratteristiche dei token visivi. In secondo luogo, proponiamo una nuova strategia di iniezione di prompt visivi per consentire al singolo transformer di comprendere gli input di prompt visivi e trarre vantaggio dalla fusione precoce degli embedding di prompt visivi e dei token visivi. In terzo luogo, introduciamo una strategia di distillazione di esperti visivi per migliorare in modo efficiente la capacità di estrazione di caratteristiche fine-granulari del singolo transformer. Inoltre, abbiamo raccolto un benchmark completo per la comprensione a livello di pixel (PerBench), utilizzando un controllo manuale. Include tre compiti: descrizione dettagliata degli oggetti, risposta a domande basate su prompt visivi e segmentazione di riferimento visivo-testuale. Esperimenti estesi su quattro benchmark di segmentazione di riferimento, un benchmark di prompt visivi e il nostro PerBench mostrano che il nostro Pixel-SAIL raggiunge risultati comparabili o addirittura migliori con una pipeline molto più semplice. Il codice e il modello saranno rilasciati su https://github.com/magic-research/Sa2VA.
La stima delle normali di superficie rappresenta un pilastro fondamentale per un'ampia gamma di applicazioni di visione artificiale. Sebbene numerosi sforzi siano stati dedicati agli scenari di immagini statiche, garantire la coerenza temporale nella stima delle normali basata su video rimane una sfida formidabile. Invece di limitarci a potenziare i metodi esistenti con componenti temporali, presentiamo NormalCrafter per sfruttare i priori temporali intrinseci dei modelli di diffusione video. Per assicurare una stima delle normali ad alta fedeltà attraverso le sequenze, proponiamo la Regolarizzazione delle Caratteristiche Semantiche (SFR), che allinea le caratteristiche di diffusione con i segnali semantici, incoraggiando il modello a concentrarsi sulla semantica intrinseca della scena. Inoltre, introduciamo un protocollo di addestramento in due fasi che sfrutta sia l'apprendimento nello spazio latente che in quello dei pixel, preservando l'accuratezza spaziale mantenendo al contempo un contesto temporale lungo. Valutazioni estensive dimostrano l'efficacia del nostro metodo, evidenziando una performance superiore nella generazione di sequenze di normali temporalmente coerenti con dettagli intricati da video diversi.
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato un approccio predominante per il fine-tuning di grandi modelli linguistici (Large Language Models, LLMs) su compiti di ragionamento complesso. Tra i metodi recenti, GRPO si distingue per il suo successo empirico nell'addestramento di modelli come DeepSeek-R1, sebbene le fonti della sua efficacia rimangano poco comprese. In questo lavoro, esaminiamo GRPO da una prospettiva algoritmica simile al rinforzo e analizziamo i suoi componenti principali. Sorprendentemente, scopriamo che una semplice baseline di campionamento per rifiuto, RAFT, che addestra solo su campioni con ricompense positive, ottiene prestazioni competitive rispetto a GRPO e PPO. I nostri studi di ablazione rivelano che il vantaggio principale di GRPO deriva dallo scartare prompt con risposte completamente errate, piuttosto che dalla sua normalizzazione delle ricompense. Motivati da questa intuizione, proponiamo Reinforce-Rej, un'estensione minima del gradiente della politica che filtra sia i campioni completamente errati che quelli completamente corretti. Reinforce-Rej migliora l'efficienza e la stabilità KL, rappresentando un'alternativa leggera ma efficace ad algoritmi RL più complessi. Sosteniamo RAFT come una baseline robusta e interpretabile e suggeriamo che i progressi futuri dovrebbero concentrarsi su design più principiati per l'incorporazione di campioni negativi, piuttosto che affidarsi a essi indiscriminatamente. Le nostre scoperte forniscono indicazioni per il lavoro futuro nel post-training basato su ricompense dei LLM.
I modelli di ragionamento hanno dimostrato progressi significativi nella risoluzione di compiti complessi e logico-intensivi generando estese Catene di Pensiero (Chain-of-Thoughts, CoTs) prima di arrivare a una risposta finale. Tuttavia, l'emergere di questo paradigma di "pensiero lento", con numerosi token generati in sequenza, introduce inevitabilmente un sovraccarico computazionale sostanziale. A tal fine, evidenzia un'urgente necessità di accelerazione efficace. Questo survey mira a fornire una panoramica completa dei recenti progressi nel ragionamento efficiente. Categorizza i lavori esistenti in tre direzioni chiave: (1) più breve - comprimere le lunghe CoTs in catene di ragionamento concise ma efficaci; (2) più piccolo - sviluppare modelli linguistici compatti con forti capacità di ragionamento attraverso tecniche come la distillazione della conoscenza, altre tecniche di compressione dei modelli e l'apprendimento per rinforzo; e (3) più veloce - progettare strategie di decodifica efficienti per accelerare l'inferenza. Una raccolta curata di articoli discussi in questo survey è disponibile nel nostro repository GitHub.
Poiché i modelli linguistici di grandi dimensioni sono costosi da preaddestrare su diversi dataset, utilizzare esperimenti su scala ridotta per decidere i dati è cruciale per ridurre i costi. Quali benchmark e metodi di decisione basati sulle prestazioni osservate su piccola scala predicono con maggiore accuratezza i dataset che producono i migliori modelli di grandi dimensioni? Per favorire un'esplorazione aperta di questa domanda, rilasciamo modelli, dati e valutazioni in DataDecide — la suite open più estesa di modelli su differenze nei dati e nella scala. Condividiamo esperimenti controllati di preaddestramento su 25 corpora con fonti, deduplicazione e filtraggio diversi fino a 100B token, dimensioni dei modelli fino a 1B parametri e 3 seed casuali. Scopriamo che la classifica dei modelli a una singola dimensione ridotta (ad esempio, 150M parametri) è una baseline solida per prevedere i migliori modelli alla nostra scala target più grande (1B) (~80% dei confronti corretti). Nessun metodo di legge di scala tra 8 baseline supera la frontiera decisionale di calcolo delle previsioni a singola scala, ma DataDecide può misurare i miglioramenti nelle future leggi di scala. Identifichiamo inoltre che l'uso di metriche di verosimiglianza continua come proxy in piccoli esperimenti rende benchmark come MMLU, ARC, HellaSwag, MBPP e HumanEval prevedibili per oltre l'80% alla scala target di 1B con solo lo 0,01% del calcolo.
La Generazione Aumentata dal Recupero (Retrieval-Augmented Generation, RAG) migliora le prestazioni dei Modelli Linguistici di Grande Scala (Large Language Models, LLM) in compiti ad alta intensità di conoscenza, ma dipende fortemente dalla qualità della query di ricerca iniziale. I metodi attuali, che spesso utilizzano l'Apprendimento per Rinforzo (Reinforcement Learning, RL), si concentrano tipicamente sulla formulazione della query o sul ragionamento sui risultati, senza incoraggiare esplicitamente la persistenza dopo una ricerca fallita. Introduciamo ReZero (Retry-Zero), un nuovo framework RL che premia direttamente l'atto di riprovare una query di ricerca dopo un tentativo iniziale non riuscito. Ciò incentiva il LLM a esplorare query alternative piuttosto che fermarsi prematuramente. ReZero dimostra un miglioramento significativo, raggiungendo un'accuratezza del 46,88% rispetto a un baseline del 25%. Premendo la persistenza, ReZero aumenta la robustezza dei LLM in scenari complessi di ricerca di informazioni in cui le query iniziali potrebbero rivelarsi insufficienti.
Questo articolo introduce SAIL, un modello linguistico multimodale unificato (MLLM) basato su un singolo trasformatore che integra la codifica dei pixel grezzi e la decodifica del linguaggio all'interno di un'unica architettura. A differenza degli MLLM modulari esistenti, che si basano su un trasformatore visivo (ViT) pre-addestrato, SAIL elimina la necessità di un encoder visivo separato, presentando un design architetturale più minimalista. Invece di introdurre nuovi componenti architetturali, SAIL adatta meccanismi di mix-attention e codifiche posizionali multimodali per allinearsi meglio alle caratteristiche distintive delle modalità visive e testuali. Confrontiamo sistematicamente le proprietà di SAIL, tra cui scalabilità, modelli di flusso di informazioni cross-modali e capacità di rappresentazione visiva, con quelle degli MLLM modulari. Scalando sia i dati di addestramento che le dimensioni del modello, SAIL raggiunge prestazioni comparabili a quelle degli MLLM modulari. In particolare, la rimozione dei componenti ViT pre-addestrati migliora la scalabilità di SAIL e determina modelli di flusso di informazioni cross-modali significativamente diversi. Inoltre, SAIL dimostra forti capacità di rappresentazione visiva, ottenendo risultati paragonabili a ViT-22B in compiti visivi come la segmentazione semantica. Codice e modelli sono disponibili all'indirizzo https://github.com/bytedance/SAIL.
Questo lavoro presenta SimpleAR, un framework di generazione visiva autoregressiva di base senza complesse modifiche architetturali. Attraverso un'attenta esplorazione dell'ottimizzazione del training e dell'inferenza, dimostriamo che: 1) con soli 0,5 miliardi di parametri, il nostro modello è in grado di generare immagini a risoluzione 1024x1024 con alta fedeltà e ottenere risultati competitivi su benchmark impegnativi di text-to-image, ad esempio 0,59 su GenEval e 79,66 su DPG; 2) sia il fine-tuning supervisionato (SFT) che l'addestramento con Group Relative Policy Optimization (GRPO) possono portare a miglioramenti significativi nell'estetica della generazione e nell'allineamento con il prompt; e 3) quando ottimizzato con tecniche di accelerazione dell'inferenza come vLLM, il tempo necessario a SimpleAR per generare un'immagine 1024x1024 può essere ridotto a circa 14 secondi. Condividendo questi risultati e rendendo open-source il codice, speriamo di rivelare il potenziale della generazione visiva autoregressiva e incoraggiare una maggiore partecipazione in questo campo di ricerca. Il codice è disponibile all'indirizzo https://github.com/wdrink/SimpleAR.
La capacità di ragionamento matematico complesso rappresenta un parametro chiave per l'intelligenza artificiale. Sebbene l'apprendimento per rinforzo (RL) applicato ai LLM mostri potenzialità, i progressi sono significativamente ostacolati dalla mancanza di dati di addestramento su larga scala che siano sufficientemente impegnativi, presentino formati di risposta verificabili adatti al RL e siano privi di contaminazione con benchmark di valutazione. Per affrontare queste limitazioni, introduciamo DeepMath-103K, un nuovo dataset su larga scala composto da circa 103K problemi matematici, progettato specificamente per addestrare modelli avanzati di ragionamento tramite RL. DeepMath-103K è stato curato attraverso una pipeline rigorosa che include l'analisi delle fonti, una rigorosa decontaminazione rispetto a numerosi benchmark e un filtraggio per elevata difficoltà (principalmente Livelli 5-9), superando significativamente le risorse aperte esistenti in termini di sfida. Ogni problema include una risposta finale verificabile, che consente l'uso di RL basato su regole, e tre soluzioni distinte generate da R1 adatte a diversi paradigmi di addestramento come il fine-tuning supervisionato o la distillazione. Coprendo un'ampia gamma di argomenti matematici, DeepMath-103K promuove lo sviluppo di un ragionamento generalizzabile. Dimostriamo che i modelli addestrati su DeepMath-103K raggiungono miglioramenti significativi su benchmark matematici impegnativi, validandone l'efficacia. Rilasciamo pubblicamente DeepMath-103K per favorire i progressi della comunità nella costruzione di sistemi di ragionamento AI più capaci: https://github.com/zwhe99/DeepMath.
I Modelli di Ricompensa per Processi (PRM) forniscono una supervisione a livello di passaggio ai grandi modelli linguistici (LLM), ma la scalabilità dell'annotazione dei dati di formazione rimane una sfida sia per gli esseri umani che per i LLM. Per affrontare questa limitazione, proponiamo un approccio di apprendimento attivo, ActPRM, che seleziona proattivamente i campioni più incerti per la formazione, riducendo sostanzialmente i costi di etichettatura. Durante l'addestramento, utilizziamo il PRM per stimare l'incertezza dopo il passaggio in avanti, conservando solo i dati altamente incerti. Un modello di ragionamento capace ma costoso etichetta quindi questi dati. Successivamente, calcoliamo la perdita rispetto alle etichette e aggiorniamo i pesi del PRM. Confrontiamo ActPRM con il fine-tuning standard, in un contesto di apprendimento attivo basato su pool, dimostrando che ActPRM riduce del 50% l'annotazione, ma raggiunge prestazioni comparabili o addirittura migliori. Oltre all'efficienza nell'annotazione, avanziamo ulteriormente il PRM addestrato attivamente filtrando oltre 1 milione di traiettorie di ragionamento matematico con ActPRM, conservando il 60% dei dati. Un successivo addestramento su questo dataset selezionato produce un nuovo PRM all'avanguardia (SOTA) su ProcessBench (75.0%) e PRMBench (65.5%) rispetto a modelli delle stesse dimensioni.
I modelli di diffusione eccellono nella generazione di dati ad alta dimensionalità, ma risultano carenti in termini di efficienza di addestramento e qualità delle rappresentazioni rispetto ai metodi self-supervised. Identifichiamo un collo di bottiglia chiave: il sottoutilizzo di rappresentazioni di alta qualità e semanticamente ricche durante l'addestramento rallenta notevolmente la convergenza. La nostra analisi sistematica rivela una regione critica di elaborazione delle rappresentazioni — principalmente nei livelli iniziali — dove avviene l'apprendimento di pattern semantici e strutturali prima che possa verificarsi la generazione. Per affrontare questo problema, proponiamo l'Embedded Representation Warmup (ERW), un framework plug-and-play in cui, nella prima fase, il modulo ERW funge da riscaldamento che inizializza i livelli iniziali del modello di diffusione con rappresentazioni pre-addestrate di alta qualità. Questo riscaldamento minimizza il carico di apprendere rappresentazioni da zero, accelerando così la convergenza e migliorando le prestazioni. La nostra analisi teorica dimostra che l'efficacia di ERW dipende dalla sua integrazione precisa in specifici strati della rete neurale — denominati regione di elaborazione delle rappresentazioni — dove il modello elabora e trasforma principalmente le rappresentazioni delle feature per la successiva generazione. Stabiliamo inoltre che ERW non solo accelera la convergenza dell'addestramento, ma migliora anche la qualità delle rappresentazioni: empiricamente, il nostro metodo raggiunge un'accelerazione di 40 volte nella velocità di addestramento rispetto a REPA, gli attuali metodi all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/LINs-lab/ERW.
I modelli di diffusione sono ampiamente riconosciuti per la loro capacità di generare immagini ad alta fedeltà. Nonostante le eccellenti prestazioni e scalabilità dell'architettura Diffusion Transformer (DiT), essa applica una compressione fissa su diverse regioni dell'immagine durante il processo di diffusione, ignorando le naturali variazioni nella densità di informazione presenti in queste regioni. Tuttavia, una compressione elevata limita il realismo locale, mentre una compressione ridotta aumenta la complessità computazionale e compromette la coerenza globale, influenzando infine la qualità delle immagini generate. Per affrontare queste limitazioni, proponiamo di comprimere dinamicamente diverse regioni dell'immagine riconoscendo l'importanza di ciascuna regione, e introduciamo un nuovo framework a due stadi progettato per migliorare l'efficacia e l'efficienza della generazione di immagini: (1) Il Dynamic VAE (DVAE) nella prima fase utilizza un encoder gerarchico per codificare diverse regioni dell'immagine a diversi tassi di downsampling, adattati alle loro specifiche densità di informazione, fornendo così codici latenti più accurati e naturali per il processo di diffusione. (2) Il Dynamic Diffusion Transformer (D^2iT) nella seconda fase genera immagini prevedendo il rumore multi-granulare, composto da rumore a grana grossa (meno codici latenti nelle regioni uniformi) e a grana fine (più codici latenti nelle regioni dettagliate), attraverso una combinazione innovativa del Dynamic Grain Transformer e del Dynamic Content Transformer. La strategia che combina la previsione approssimativa del rumore con la correzione delle regioni dettagliate raggiunge un'unione tra coerenza globale e realismo locale. Esperimenti completi su vari task di generazione convalidano l'efficacia del nostro approccio. Il codice sarà rilasciato su https://github.com/jiawn-creator/Dynamic-DiT.
I benchmark multimodali attuali spesso confondono il ragionamento con la conoscenza specifica del dominio, rendendo difficile isolare e valutare le capacità di ragionamento generale in contesti non specialistici. Per affrontare questo problema, introduciamo VisualPuzzles, un benchmark che si concentra sul ragionamento visivo riducendo deliberatamente la dipendenza da conoscenze specialistiche. VisualPuzzles è composto da domande diversificate che coprono cinque categorie: ragionamento algoritmico, analogico, deduttivo, induttivo e spaziale. Una delle principali fonti delle nostre domande è la traduzione manuale di quesiti di ragionamento logico tratti dall'esame per il servizio civile cinese. Gli esperimenti dimostrano che VisualPuzzles richiede una conoscenza specifica del dominio significativamente meno intensiva e un ragionamento più complesso rispetto a benchmark come MMMU, permettendoci di valutare meglio il ragionamento multimodale genuino. Le valutazioni mostrano che i modelli linguistici multimodali all'avanguardia rimangono costantemente indietro rispetto alle prestazioni umane su VisualPuzzles, e che un forte rendimento su benchmark ad alta intensità di conoscenza non si traduce necessariamente in successo su compiti focalizzati sul ragionamento e a bassa intensità di conoscenza. Inoltre, i miglioramenti nel ragionamento, come l'aumento della potenza di calcolo per l'inferenza (con modalità di "pensiero"), producono guadagni inconsistenti tra i modelli e i tipi di compito, e non osserviamo una chiara correlazione tra la dimensione del modello e le prestazioni. Abbiamo anche riscontrato che i modelli mostrano schemi di ragionamento e risposta diversi su VisualPuzzles rispetto a benchmark che enfatizzano maggiormente la conoscenza. VisualPuzzles offre una lente più chiara attraverso cui valutare le capacità di ragionamento al di là del richiamo di fatti e della conoscenza del dominio.
L'implementazione di modelli linguistici in applicazioni rivolte ai consumatori introduce numerosi rischi. Mentre la ricerca esistente sui danni e sui pericoli di tali applicazioni segue approcci top-down derivati da framework normativi e analisi teoriche, le evidenze empiriche sulle modalità di fallimento nel mondo reale rimangono poco esplorate. In questo lavoro, introduciamo RealHarm, un dataset di interazioni problematiche annotate con agenti di intelligenza artificiale, costruito attraverso una revisione sistematica di incidenti riportati pubblicamente. Analizzando i danni, le cause e i pericoli specificamente dal punto di vista del distributore, scopriamo che il danno reputazionale costituisce il danno organizzativo predominante, mentre la disinformazione emerge come la categoria di pericolo più comune. Valutiamo empiricamente i sistemi di protezione e moderazione dei contenuti all'avanguardia per verificare se tali sistemi avrebbero prevenuto gli incidenti, rivelando un significativo divario nella protezione delle applicazioni di intelligenza artificiale.
Le architetture ibride di LLM che combinano modelli di attenzione e modelli a spazio di stati (SSM) raggiungono precisione e prestazioni di runtime all'avanguardia. Recenti lavori hanno dimostrato che applicare compressione e distillazione a modelli basati esclusivamente sull'attenzione produce modelli più piccoli e accurati a una frazione del costo di addestramento. In questo lavoro, esploriamo l'efficacia della compressione delle architetture ibride. Introduciamo una nuova strategia di pruning consapevole dei gruppi che preserva l'integrità strutturale dei blocchi SSM e le loro capacità di modellazione delle sequenze. Inoltre, dimostriamo la necessità di tale pruning degli SSM per ottenere una migliore precisione e velocità di inferenza rispetto agli approcci tradizionali. La nostra ricetta di compressione combina pruning degli SSM, delle FFN, delle dimensioni di embedding e dei livelli, seguita da un riaddestramento basato sulla distillazione della conoscenza, simile alla tecnica MINITRON. Utilizzando questo approccio, comprimiamo il modello ibrido Nemotron-H 8B fino a 4B di parametri con fino a 40x meno token di addestramento. Il modello risultante supera la precisione di modelli di dimensioni simili, raggiungendo un'inferenza 2x più veloce, avanzando significativamente la frontiera di Pareto.
Presentiamo AI University (AI-U), un framework flessibile per la distribuzione di contenuti didattici guidata dall'intelligenza artificiale che si adatta agli stili di insegnamento dei docenti. Al suo nucleo, AI-U ottimizza un modello linguistico di grandi dimensioni (LLM) con generazione aumentata da recupero (RAG) per produrre risposte allineate al docente a partire da video delle lezioni, appunti e libri di testo. Utilizzando un corso di livello avanzato sul metodo degli elementi finiti (FEM) come caso di studio, presentiamo una pipeline scalabile per costruire sistematicamente dati di addestramento, ottimizzare un LLM open-source con Low-Rank Adaptation (LoRA) e migliorare le sue risposte attraverso una sintesi basata su RAG. La nostra valutazione - che combina similarità del coseno, valutazione basata su LLM e revisione esperta - dimostra un forte allineamento con i materiali del corso. Abbiamo inoltre sviluppato un prototipo di applicazione web, disponibile all'indirizzo https://my-ai-university.com, che migliora la tracciabilità collegando le risposte generate dall'IA a sezioni specifiche del materiale didattico pertinente e a istanze temporali delle video lezioni ad accesso aperto. Il nostro modello esperto ha mostrato una maggiore similarità del coseno con un riferimento nell'86% dei casi di test. Un giudice LLM ha inoltre rilevato che il nostro modello esperto supera il modello base Llama 3.2 circa quattro volte su cinque. AI-U offre un approccio scalabile all'istruzione assistita dall'IA, aprendo la strada a un'adozione più ampia nell'istruzione superiore. Qui, il nostro framework è stato presentato nel contesto di un corso sul FEM - un argomento centrale nella formazione di dottorandi e studenti di master in scienze ingegneristiche. Tuttavia, questo contesto rappresenta un caso particolare di uno scenario più ampio: l'ottimizzazione di LLM per contenuti di ricerca scientifica.
Questo rapporto fornisce una panoramica completa della 4a edizione della sfida Pixel-level Video Understanding in the Wild (PVUW), tenutasi in concomitanza con CVPR 2025. Riassume i risultati della sfida, le metodologie partecipanti e le future direzioni di ricerca. La sfida presenta due tracce: MOSE, che si concentra sulla segmentazione di oggetti in video di scene complesse, e MeViS, che mira alla segmentazione video guidata dal movimento e basata sul linguaggio. Entrambe le tracce introducono nuovi dataset più impegnativi, progettati per riflettere meglio scenari del mondo reale. Attraverso una valutazione e un'analisi dettagliate, la sfida offre preziose intuizioni sullo stato dell'arte attuale e sulle tendenze emergenti nella segmentazione video complessa. Ulteriori informazioni sono disponibili sul sito web del workshop: https://pvuw.github.io/.
L'applicazione dei modelli di diffusione nel completamento di scene 3D LiDAR è limitata a causa della lenta velocità di campionamento della diffusione. La distillazione del punteggio accelera il campionamento della diffusione, ma con un degrado delle prestazioni, mentre l'addestramento posteriore con l'ottimizzazione diretta della politica (DPO) migliora le prestazioni utilizzando dati di preferenza. Questo articolo propone Distillation-DPO, un nuovo framework di distillazione della diffusione per il completamento di scene LiDAR con allineamento delle preferenze. In primo luogo, il modello studente genera scene di completamento accoppiate con diversi rumori iniziali. In secondo luogo, utilizzando le metriche di valutazione delle scene LiDAR come preferenza, costruiamo coppie di campioni vincenti e perdenti. Tale costruzione è ragionevole, poiché la maggior parte delle metriche delle scene LiDAR sono informative ma non differenziabili per essere ottimizzate direttamente. In terzo luogo, Distillation-DPO ottimizza il modello studente sfruttando la differenza nelle funzioni di punteggio tra i modelli insegnante e studente sulle scene di completamento accoppiate. Tale procedura viene ripetuta fino alla convergenza. Esperimenti estensivi dimostrano che, rispetto ai modelli di diffusione per il completamento di scene LiDAR all'avanguardia, Distillation-DPO raggiunge un completamento di scene di qualità superiore mentre accelera la velocità di completamento di oltre 5 volte. Il nostro metodo è il primo a esplorare l'adozione dell'apprendimento delle preferenze nella distillazione, per quanto ne sappiamo, e fornisce approfondimenti sulla distillazione allineata alle preferenze. Il nostro codice è disponibile pubblicamente su https://github.com/happyw1nd/DistillationDPO.
La revisione tra pari è un pilastro fondamentale del controllo di qualità nella pubblicazione scientifica. Con il crescente carico di lavoro, l'uso involontario di euristiche "rapide", denominato pensiero pigro, è emerso come un problema ricorrente che compromette la qualità delle revisioni. Metodi automatizzati per rilevare tali euristiche possono contribuire a migliorare il processo di revisione tra pari. Tuttavia, la ricerca in NLP su questo tema è limitata, e non esiste un dataset reale per supportare lo sviluppo di strumenti di rilevamento. Questo lavoro introduce LazyReview, un dataset di frasi di revisione tra pari annotate con categorie dettagliate di pensiero pigro. La nostra analisi rivela che i Large Language Models (LLMs) faticano a rilevare questi casi in uno scenario zero-shot. Tuttavia, il fine-tuning basato su istruzioni utilizzando il nostro dataset migliora significativamente le prestazioni di 10-20 punti, sottolineando l'importanza di dati di addestramento di alta qualità. Inoltre, un esperimento controllato dimostra che le revisioni modificate con feedback sul pensiero pigro sono più complete e azionabili rispetto a quelle scritte senza tale feedback. Rilascieremo il nostro dataset e le linee guida migliorate che possono essere utilizzate per formare i revisori junior nella comunità. (Codice disponibile qui: https://github.com/UKPLab/arxiv2025-lazy-review)
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLMs) hanno portato a significativi avanzamenti nella comprensione dei video. Tuttavia, i modelli esistenti continuano a incontrare difficoltà nell'elaborazione di video lunghi a causa del vincolo della lunghezza del contesto degli LLMs e della vasta quantità di informazioni contenute nel video. Sebbene alcuni metodi recenti siano progettati per la comprensione di video lunghi, spesso perdono informazioni cruciali durante la compressione dei token e faticano a gestire modalità aggiuntive come l'audio. In questo lavoro, proponiamo un metodo dinamico di codifica di video lunghi che sfrutta la relazione temporale tra i fotogrammi, denominato Temporal Dynamic Context (TDC). In primo luogo, segmentiamo il video in scene semanticamente coerenti basandoci sulle similarità inter-fotogramma, quindi codifichiamo ciascun fotogramma in token utilizzando encoder visivo-auditivi. In secondo luogo, proponiamo un nuovo compressore di contesto temporale per ridurre il numero di token all'interno di ciascun segmento. Nello specifico, utilizziamo un Transformer basato su query per aggregare i token del video, dell'audio e del testo di istruzione in un insieme limitato di token di contesto temporale. Infine, forniamo i token statici dei fotogrammi e i token di contesto temporale all'LLM per la comprensione del video. Inoltre, per gestire video estremamente lunghi, proponiamo una strategia di catena di pensiero (chain-of-thought) senza addestramento che estrae progressivamente risposte da più segmenti video. Queste risposte intermedie fungono da parte del processo di ragionamento e contribuiscono alla risposta finale. Abbiamo condotto esperimenti estesi su benchmark di comprensione generale dei video e di comprensione audio-video, dove il nostro metodo dimostra prestazioni solide. Il codice e i modelli sono disponibili all'indirizzo https://github.com/Hoar012/TDC-Video.
I modelli Vision-Language (VLMs) sono in grado di elaborare informazioni visive e testuali in molteplici formati: testi, immagini, sequenze intervallate di testi e immagini, o persino video della durata di ore. In questo lavoro, conduciamo analisi quantitative e qualitative dettagliate sulla generazione automatica di riassunti di presentazioni multimodali utilizzando VLMs con diverse rappresentazioni come input. Da questi esperimenti, proponiamo strategie economicamente vantaggiose per generare riassunti da documenti multimodali ricchi di testo, considerando diversi budget di lunghezza dell'input con l'uso di VLMs. Dimostriamo che le slide estratte dal flusso video possono essere utilizzate in modo vantaggioso come input rispetto al video grezzo, e che una rappresentazione strutturata basata su slide e trascrizioni intervallate offre le migliori prestazioni. Infine, riflettiamo e commentiamo la natura delle interazioni cross-modali nelle presentazioni multimodali e condividiamo suggerimenti per migliorare le capacità dei VLMs di comprendere documenti di questo tipo.
Il recentemente proposto Forgetting Transformer (FoX) incorpora un gate di dimenticanza nell'attenzione softmax e ha dimostrato prestazioni costantemente migliori o equivalenti rispetto al Transformer standard basato su RoPE. In particolare, molte teste di attenzione in FoX tendono a dimenticare rapidamente, facendo sì che il loro output ad ogni passo temporale dipenda principalmente dal contesto locale. Sulla base di questa osservazione, proponiamo l'Adaptive Computation Pruning (ACP) per FoX, un metodo che pota dinamicamente i calcoli che coinvolgono le dipendenze input-output che sono fortemente attenuate dal gate di dimenticanza. Questo è ottenuto utilizzando una soglia di potatura impostata dinamicamente che garantisce che i pesi di attenzione potati rimangano trascurabili. Applichiamo ACP al pretraining di modelli linguistici con FoX e dimostriamo che riduce costantemente il numero di FLOP nell'attenzione softmax di circa il 70% su diverse dimensioni del modello e lunghezze del contesto, risultando in un miglioramento del throughput di addestramento di circa il 10% al 35%. Inoltre, lunghezze del contesto più lunghe producono maggiori risparmi computazionali. Tutti questi miglioramenti di velocità sono ottenuti senza alcuna degradazione delle prestazioni. Eseguiamo anche diverse analisi per fornire approfondimenti sul nostro metodo, come l'esame dei modelli di potatura e l'analisi della distribuzione dei risparmi di FLOP tra le diverse teste di attenzione. Il nostro codice è disponibile all'indirizzo https://github.com/zhixuan-lin/arctic-fox.
Con il successo della generazione di immagini, i modelli di diffusione generativa vengono sempre più adottati per compiti discriminativi, poiché la generazione di pixel fornisce un'interfaccia di percezione unificata. Tuttavia, il riutilizzo diretto del processo di denoising generativo per obiettivi discriminativi rivela lacune critiche raramente affrontate in precedenza. I modelli generativi tollerano errori di campionamento intermedi se la distribuzione finale rimane plausibile, ma i compiti discriminativi richiedono una precisione rigorosa in ogni fase, come evidenziato in compiti multimodali impegnativi come la segmentazione di immagini con riferimenti. Motivati da questa lacuna, analizziamo e miglioriamo l'allineamento tra i processi di diffusione generativa e i compiti di percezione, concentrandoci su come la qualità della percezione evolve durante il denoising. Scopriamo: (1) i passaggi iniziali di denoising contribuiscono in modo sproporzionato alla qualità della percezione, spingendoci a proporre obiettivi di apprendimento personalizzati che riflettono i contributi variabili dei diversi intervalli temporali; (2) i passaggi successivi di denoising mostrano un inaspettato degrado della percezione, evidenziando la sensibilità agli spostamenti nella distribuzione di addestramento-denoising, affrontati con la nostra tecnica di data augmentation specifica per la diffusione; e (3) i processi generativi abilitano in modo unico l'interattività, fungendo da interfacce utente controllabili adattabili a prompt correttivi in interazioni multi-round. Le nostre intuizioni migliorano significativamente i modelli di percezione basati sulla diffusione senza modifiche architetturali, raggiungendo prestazioni all'avanguardia nella stima della profondità, nella segmentazione di immagini con riferimenti e in compiti di percezione generalisti. Il codice è disponibile all'indirizzo https://github.com/ziqipang/ADDP.
Nonostante il loro frequente utilizzo per il rilevamento dei cambiamenti, sia le ConvNets che i Vision Transformer (ViT) presentano limitazioni ben note: le prime faticano a modellare dipendenze a lungo raggio, mentre i secondi sono computazionalmente inefficienti, rendendoli difficili da addestrare su dataset su larga scala. Vision Mamba, un'architettura basata su modelli di spazio degli stati, è emersa come alternativa per affrontare le suddette carenze ed è già stata applicata al rilevamento dei cambiamenti nel telerilevamento, sebbene principalmente come backbone per l'estrazione di feature. In questo articolo viene introdotto il Change State Space Model, progettato specificamente per il rilevamento dei cambiamenti concentrandosi sulle modifiche rilevanti tra immagini bi-temporali, filtrando efficacemente le informazioni irrilevanti. Concentrandosi esclusivamente sulle feature modificate, il numero di parametri della rete viene ridotto, migliorando significativamente l'efficienza computazionale mantenendo un'elevata performance di rilevamento e robustezza contro il degrado dell'input. Il modello proposto è stato valutato su tre dataset di benchmark, dove ha superato ConvNets, ViT e controparti basate su Mamba con una frazione della loro complessità computazionale. L'implementazione sarà resa disponibile su https://github.com/Elman295/CSSM in caso di accettazione.