Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo LingBot-World, un simulatore di mondi open-source derivato dalla generazione video. Posizionato come modello di mondo di alto livello, LingBot-World offre le seguenti caratteristiche. (1) Mantiene un'elevata fedeltà e dinamiche robuste in un'ampia gamma di ambienti, inclusi contesti realistici, scientifici, stili cartoon e oltre. (2) Consente un orizzonte temporale a livello di minuti preservando la coerenza contestuale nel tempo, nota anche come "memoria a lungo termine". (3) Supporta l'interattività in tempo reale, raggiungendo una latenza inferiore a 1 secondo nella produzione di 16 frame al secondo. Metteremo pubblicamente a disposizione il codice e il modello nel tentativo di colmare il divario tra tecnologie open-source e closed-source. Riteniamo che la nostra release potenzierà la comunità con applicazioni pratiche in aree come la creazione di contenuti, i videogiochi e l'apprendimento robotico.
L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) offre un meccanismo robusto per potenziare il ragionamento matematico nei modelli di grandi dimensioni. Tuttavia, rileviamo una carenza sistematica di enfasi sulle domande più complesse nei metodi esistenti, sia dal punto di vista algoritmico che dei dati, nonostante la loro importanza per affinare capacità ancora poco sviluppate. Algoritmicamente, l'ampiamente utilizzata Ottimizzazione della Politica con Gruppo Relativo (GRPO) soffre di uno squilibrio implicito per cui l'entità degli aggiornamenti della politica è inferiore per le domande più difficili. Dal lato dei dati, gli approcci di aumento si limitano principalmente a parafrasare le domande per migliorare la diversità, senza aumentare sistematicamente la difficoltà intrinseca. Per affrontare questi problemi, proponiamo un framework a doppio binario, MathForge, per migliorare il ragionamento matematico mirando alle domande più difficili da entrambe le prospettive. Esso comprende un algoritmo di Ottimizzazione della Politica di Gruppo Consapevole della Difficoltà (DGPO) e una strategia di Riformulazione delle Domande a Multi-Aspetto (MQR). Nello specifico, DGPO corregge prima lo squilibrio implicito nella GRPO tramite una stima del vantaggio di gruppo bilanciata per difficoltà, e dà ulteriore priorità alle domande più complesse mediante una ponderazione a livello di domanda consapevole della difficoltà. Nel frattempo, MQR riformula le domande attraverso molteplici aspetti per aumentarne la difficoltà mantenendo la risposta aurea originale. Nel complesso, MathForge forma un ciclo sinergico: MQR espande la frontiera dei dati e DGPO apprende efficacemente dai dati aumentati. Esperimenti estensivi dimostrano che MathForge supera significativamente i metodi esistenti in varie attività di ragionamento matematico. Il codice e i dati aumentati sono disponibili al sito https://github.com/AMAP-ML/MathForge.
Presentiamo Innovator-VL, un modello linguistico multimodale di grandi dimensioni progettato per favorire la comprensione e il ragionamento in diversi ambiti scientifici, mantenendo al contempo prestazioni eccellenti su compiti visivi generali. Contrariamente alla tendenza di affidarsi a pre-addestramenti massicci specifici per dominio e pipeline opache, il nostro lavoro dimostra che una progettazione di addestramento basata su principi e una metodologia trasparente possono produrre una solida intelligenza scientifica con requisiti di dati notevolmente ridotti. (i) In primo luogo, forniamo una pipeline di addestramento completamente trasparente e riproducibile end-to-end, che copre la raccolta, la pulizia, la pre-elaborazione dei dati, la messa a punto supervisionata, l'apprendimento per rinforzo e la valutazione, insieme a ricette di ottimizzazione dettagliate. Ciò facilita l'estensione sistematica da parte della comunità. (ii) In secondo luogo, Innovator-VL mostra una notevole efficienza dei dati, raggiungendo prestazioni competitive su vari compiti scientifici utilizzando meno di cinque milioni di campioni curati, senza un pre-addestramento su larga scala. Questi risultati evidenziano che un ragionamento efficace può essere ottenuto attraverso una selezione dei dati basata su principi piuttosto che attraverso un ridimensionamento indiscriminato. (iii) In terzo luogo, Innovator-VL dimostra una forte capacità di generalizzazione, ottenendo prestazioni competitive su benchmark di visione generale, di ragionamento multimodale e scientifici. Ciò indica che l'allineamento scientifico può essere integrato in un modello unificato senza compromettere le capacità di utilizzo generico. Le nostre pratiche suggeriscono che è possibile costruire modelli multimodali scientifici efficienti, riproducibili e ad alte prestazioni anche senza dati su larga scala, fornendo una base pratica per la ricerca futura.
Presentiamo DeepSeek-OCR 2 per indagare la fattibilità di un nuovo encoder - DeepEncoder V2 - in grado di riordinare dinamicamente i token visivi in base alla semantica dell'immagine. I modelli visione-linguaggio (VLM) convenzionali elaborano invariabilmente i token visivi secondo un rigido ordine di scansione raster (dall'alto a sinistra verso il basso a destra) con codifica posizionale fissa quando vengono forniti agli LLM. Tuttavia, ciò contrasta con la percezione visiva umana, che segue modelli di scansione flessibili ma semanticamente coerenti guidati da strutture logiche intrinseche. In particolare per le immagini con layout complessi, la visione umana mostra un'elaborazione sequenziale causalmente informata. Ispirati da questo meccanismo cognitivo, abbiamo progettato DeepEncoder V2 per dotare l'encoder di capacità di ragionamento causale, consentendogli di riordinare intelligentemente i token visivi prima dell'interpretazione del contenuto basata sugli LLM. Questo lavoro esplora un nuovo paradigma: se la comprensione di immagini 2D possa essere efficacemente raggiunta attraverso due strutture di ragionamento causale 1D in cascata, offrendo così un nuovo approccio architetturale con il potenziale per raggiungere un vero ragionamento 2D. I codici e i pesi del modello sono pubblicamente accessibili all'indirizzo http://github.com/deepseek-ai/DeepSeek-OCR-2.
I grandi modelli linguistici vengono sempre più sottoposti a post-addestramento con apprendimento per rinforzo in domini verificabili come il codice e la matematica. Tuttavia, i metodi attuali per l'apprendimento per rinforzo con ricompense verificabili (RLVR) apprendono solo da una ricompensa scalare di risultato per tentativo, creando un severo collo di bottiglia nell'assegnazione del credito. Molti ambienti verificabili forniscono in realtà un feedback testuale ricco, come errori di runtime o valutazioni di un giudice, che spiegano il motivo per cui un tentativo è fallito. Formalizziamo questo scenario come apprendimento per rinforzo con feedback ricco e introduciamo l'Ottimizzazione della Politica con Auto-Distillazione (SDPO), che converte il feedback tokenizzato in un segnale di apprendimento denso senza alcun insegnante esterno o modello di ricompensa esplicito. SDPO tratta il modello corrente condizionato dal feedback come un auto-insegnante e distilla le sue previsioni sui token successivi, informate dal feedback, nuovamente nella politica. In questo modo, SDPO sfrutta la capacità del modello di identificare retrospettivamente i propri errori in contesto. In ambiti di ragionamento scientifico, uso di strumenti e programmazione competitiva su LiveCodeBench v6, SDPO migliora l'efficienza campionaria e l'accuratezza finale rispetto a solidi baseline RLVR. Notevolmente, SDPO supera anche i baseline in ambienti RLVR standard che restituiscono solo feedback scalare, utilizzando le esecuzioni riuscite come feedback implicito per i tentativi falliti. Infine, applicare SDPO a singole domande durante il test accelera la scoperta in compiti difficili con ricompensa binaria, raggiungendo la stessa probabilità di scoperta del campionamento best-of-k o di conversazioni multi-turno con 3 volte meno tentativi.
L'apprendimento per rinforzo ha consentito ai modelli linguistici di grandi dimensioni di agire come agenti intelligenti, ma l'addestrarli per compiti a lungo termine rimane complesso a causa della scarsità di traiettorie di alta qualità, specialmente in contesti con risorse limitate. I metodi esistenti generalmente aumentano il numero di rollout e allocano indiscriminatamente le risorse computazionali tra i passi intermedi. Tali tentativi sprecano intrinsecamente budget computazionali sostanziali su passi banali, senza garantire la qualità del campionamento. Per affrontare questo problema, proponiamo Spark (Strategic Policy-Aware exploRation via Key-state dynamic branching), un framework innovativo che seleziona ramificazioni negli stati decisionali critici per un'esplorazione efficiente delle risorse. La nostra intuizione chiave è attivare un'esplorazione adattiva di ramificazione nei punti decisionali critici per investigare traiettorie promettenti, ottenendo così un'allocazione precisa delle risorse che privilegia la qualità del campionamento rispetto a una copertura indiscriminata. Questo design sfrutta i segnali decisionali intrinseci dell'agente per ridurre la dipendenza da conoscenze a priori umane, consentendo all'agente di espandere autonomamente l'esplorazione e raggiungere una generalizzazione più robusta. Esperimenti su vari compiti (ad esempio, pianificazione embodied) dimostrano che Spark raggiunge tassi di successo superiori con un numero significativamente inferiore di campioni di addestramento, mostrando una generalizzazione robusta anche in scenari non visti.
Le rappresentazioni dei modelli linguistici contengono spesso direzioni lineari che corrispondono a concetti di alto livello. In questo studio, analizziamo la dinamica di queste rappresentazioni: come si evolvono lungo queste dimensioni all'interno del contesto di conversazioni (simulate). Scopriamo che le rappresentazioni lineari possono cambiare drasticamente durante una conversazione; ad esempio, informazioni rappresentate come fattuali all'inizio di un dialogo possono essere rappresentate come non fattuali alla fine, e viceversa. Questi cambiamenti sono dipendenti dal contenuto; mentre le rappresentazioni delle informazioni rilevanti per la conversazione possono mutare, le informazioni generiche sono generalmente preservate. Queste alterazioni sono robuste anche per dimensioni che separano la fattualità da pattern di risposta più superficiali, e si verificano in diverse famiglie di modelli e diversi strati del modello. Tali cambiamenti rappresentazionali non richiedono conversazioni on-policy; persino la riproduzione di un copione conversazionale scritto da un modello completamente diverso può produrre alterazioni simili. Tuttavia, l'adattamento è molto più debole quando nel contesto è presente semplicemente una storia di fantascienza esplicitamente identificata come tale. Dimostriamo inoltre che la guida lungo una direzione rappresentazionale può avere effetti drammaticamente diversi in diversi punti di una conversazione. Questi risultati sono coerenti con l'idea che le rappresentazioni possano evolversi in risposta al modello che interpreta un ruolo specifico suggerito dalla conversazione. Le nostre scoperte potrebbero porre sfide per l'interpretabilità e la guida dei modelli - in particolare, implicano che potrebbe essere fuorviante utilizzare interpretazioni statiche di feature o direzioni, o sonde che assumono che un particolare intervallo di feature corrisponda costantemente a un valore ground-truth specifico. Tuttavia, questi tipi di dinamiche rappresentazionali indicano anche nuove entusiasmanti direzioni di ricerca per comprendere come i modelli si adattano al contesto.
I benchmark di valutazione di alta qualità sono fondamentali per l'implementazione di Large Language Model (LLM) nell'Automated Code Review (ACR). Tuttavia, i benchmark esistenti presentano due limitazioni critiche: in primo luogo, la mancanza di supporto multilingua in contesti a livello di repository, che limita la generalizzabilità dei risultati di valutazione; in secondo luogo, l'affidamento a ground truth rumorosi e incompleti derivanti da commenti grezzi delle Pull Request (PR), che limita l'ambito del rilevamento dei problemi. Per affrontare queste sfide, presentiamo AACR-Bench, un benchmark completo che fornisce un contesto completo cross-file su più linguaggi di programmazione. A differenza dei dataset tradizionali, AACR-Bench utilizza una pipeline di annotazione "AI-assisted, Expert-verified" per individuare difetti latenti spesso trascurati nelle PR originali, ottenendo un aumento del 285% nella copertura dei difetti. Valutazioni estese dei principali LLM su AACR-Bench rivelano che le valutazioni precedenti potrebbero aver giudicato erroneamente o catturato solo parzialmente le capacità dei modelli a causa di limitazioni dei dati. Il nostro lavoro stabilisce uno standard più rigoroso per la valutazione ACR e offre nuove intuizioni sull'ACR basato su LLM, ovvero: la granularità/livello del contesto e la scelta dei metodi di retrieval influiscono significativamente sulle prestazioni ACR, e questa influenza varia a seconda dell'LLM, del linguaggio di programmazione e del paradigma di utilizzo dell'LLM, ad esempio se viene impiegata un'architettura Agente. Il codice, i dati e altri artefatti del nostro set di valutazione sono disponibili su https://github.com/alibaba/aacr-bench.
Gli agenti di codifica open-weight dovrebbero detenere un vantaggio fondamentale rispetto ai sistemi closed-source: possono essere specializzati per codebase privati, codificando informazioni specifiche del repository direttamente nei loro pesi. Tuttavia, il costo e la complessità dell'addestramento hanno mantenuto questo vantaggio puramente teorico. Dimostriamo che ora è pratico. Presentiamo Soft-Verified Efficient Repository Agents (SERA), un metodo efficiente per l'addestramento di agenti di codifica che consente la creazione rapida ed economica di agenti specializzati per codebase privati. Utilizzando solo il fine-tuning supervisionato (SFT), SERA ottiene risultati allo stato dell'arte tra i modelli completamente open-source (dati, metodo, codice aperti) eguagliando le prestazioni di modelli open-weight all'avanguardia come Devstral-Small-2. Creare modelli SERA è 26 volte più economico del reinforcement learning e 57 volte più economico dei precedenti metodi basati su dati sintetici per raggiungere prestazioni equivalenti. Il nostro metodo, Soft Verified Generation (SVG), genera migliaia di traiettorie da un singolo repository di codice. Combinato con l'efficienza dei costi, ciò consente la specializzazione per codebase privati. Oltre alla specializzazione per repository, applichiamo SVG a un corpus più ampio di codebase, generando oltre 200.000 traiettorie sintetiche. Utilizziamo questo dataset per fornire un'analisi dettagliata delle leggi di scaling, delle ablation study e dei fattori confondenti per l'addestramento di agenti di codifica. Nel complesso, riteniamo che il nostro lavoro accelererà notevolmente la ricerca sugli agenti di codifica open e dimostrerà il vantaggio dei modelli open-source che possono specializzarsi per codebase privati. Rilasciamo SERA come primo modello della serie Open Coding Agents di Ai2, insieme a tutto il nostro codice, i dati e l'integrazione con Claude Code per supportare la comunità di ricerca.
I recenti progressi nel ragionamento dei Large Language Model (LLM) sono sempre più guidati dal perfezionamento delle funzioni di loss post-addestramento e delle strategie di allineamento. Tuttavia, i paradigmi standard di Reinforcement Learning (RL) come il Group Relative Policy Optimization (GRPO) rimangono limitati da una staticità uniforme: campionamento uniforme dei prompt e un numero fisso di rollout per prompt. Per dati di ragionamento eterogenei e dalla distribuzione heavy-tailed, ciò crea inefficienze strutturali che sprecano risorse computazionali su pattern già risolti, mentre sottopongono a un addestramento insufficiente la coda lunga dei problemi difficili. Per affrontare questo problema, proponiamo il Multi-Adversary Group Distributionally Robust Optimization (GDRO), un framework di tipo optimization-first che supera i modelli di ragionamento uniformi adattando dinamicamente la distribuzione di addestramento. Introduciamo un Classificatore Online della Difficoltà che partiziona i prompt in gruppi di difficoltà dinamici pass@k. Proponiamo quindi due giochi GDRO indipendenti per il post-addestramento: (1) Prompt-GDRO, che impiega un campionatore bandit a pesi moltiplicativi con debiasing EMA per mirare al margine di difficoltà intensivo e aumentare il peso dei gruppi persistentemente difficili senza bias di frequenza; e (2) Rollout-GDRO, che utilizza un controllore shadow-price per riallocare i rollout tra i gruppi, massimizzando la riduzione della varianza del gradiente sui task difficili sotto un budget medio fisso (computazionalmente neutro). Forniamo garanzie di tipo no-regret per entrambi i controllori e, inoltre, un'analisi di proxy della varianza che motiva un'allocazione ottimale dei rollout proporzionale alla radice quadrata per Rollout-GDRO. Convalidiamo il nostro framework sul dataset DAPO 14.1k utilizzando modelli Qwen3-Base. Prompt-GDRO e Rollout-GDRO raggiungono guadagni relativi medi rispettivamente del +10,6% e del +10,1% in accuratezza pass@8 attraverso le scale 1.7B, 4B e 8B, rispetto al baseline GRPO. L'analisi qualitativa mostra un curriculum emergente: gli adversary spostano le risorse verso la frontiera di ragionamento in evoluzione, migliorando le prestazioni del modello di ragionamento.
Gli agenti di interfaccia grafica (GUI) mostrano un grande potenziale nel consentire ai modelli di base di completare compiti nel mondo reale, rivoluzionando l'interazione uomo-computer e migliorando la produttività umana. In questo rapporto presentiamo OmegaUse, un modello di agente GUI generico per l'esecuzione autonoma di compiti su piattaforme mobili e desktop, supportando scenari di utilizzo di computer e telefoni. La costruzione di un efficace modello di agente GUI si basa su due fattori: (1) dati di alta qualità e (2) metodi di addestramento efficaci. Per affrontarli, introduciamo una pipeline di costruzione dei dati accuratamente progettata e un paradigma di addestramento disaccoppiato. Per la costruzione dei dati, sfruttiamo dataset open-source rigorosamente curati e introduciamo un nuovo framework di sintesi automatizzata che integra l'esplorazione autonoma bottom-up con la generazione guidata da tassonomia top-down per creare dati sintetici ad alta fedeltà. Per l'addestramento, per sfruttare meglio questi dati, adottiamo una strategia in due fasi: Fine-Tuning Supervisionato (SFT) per stabilire la sintassi interattiva fondamentale, seguita da Ottimizzazione delle Politiche Relative di Gruppo (GRPO) per migliorare il grounding spaziale e la pianificazione sequenziale. Per bilanciare l'efficienza computazionale con la capacità di ragionamento agentivo, OmegaUse è costruito su un'architettura Mixture-of-Experts (MoE). Per valutare le capacità cross-terminal in un ambiente offline, introduciamo OS-Nav, una suite di benchmark che copre più sistemi operativi: ChiM-Nav, mirato ad ambienti mobili Android cinesi, e Ubu-Nav, focalizzato sulle interazioni desktop di routine su Ubuntu. Esperimenti estensivi mostrano che OmegaUse è altamente competitivo sui benchmark GUI consolidati, raggiungendo un punteggio state-of-the-art (SOTA) del 96,3% su ScreenSpot-V2 e un tasso di successo per passo leader del 79,1% su AndroidControl. OmegaUse ottiene anche risultati solidi su OS-Nav, raggiungendo il 74,24% di successo per passo su ChiM-Nav e il 55,9% di successo medio su Ubu-Nav.
L'assistenza dell'IA produce significativi guadagni di produttività in vari ambiti professionali, in particolare per i lavoratori alle prime armi. Tuttavia, non è chiaro come questa assistenza influisca sullo sviluppo delle competenze necessarie per supervisionare efficacemente l'IA. I lavoratori inesperti che fanno ampio affidamento sull'IA per completare compiti non familiari potrebbero compromettere la propria acquisizione di competenze nel processo. Abbiamo condotto esperimenti randomizzati per studiare come gli sviluppatori acquisiscono padronanza di una nuova libreria di programmazione asincrona con e senza l'assistenza dell'IA. Scopriamo che l'uso dell'IA compromette la comprensione concettuale, la lettura del codice e le capacità di debug, senza fornire significativi guadagni di efficienza in media. I partecipanti che hanno delegato completamente i compiti di codifica hanno mostrato alcuni miglioramenti della produttività, ma a scapito dell'apprendimento della libreria. Identifichiamo sei distinti modelli di interazione con l'IA, tre dei quali implicano un coinvolgimento cognitivo e preservano i risultati dell'apprendimento anche quando i partecipanti ricevono assistenza dall'IA. I nostri risultati suggeriscono che la produttività potenziata dall'IA non è una scorciatoia per la competenza e che l'assistenza dell'IA dovrebbe essere adottata con attenzione nei flussi di lavoro per preservare la formazione delle competenze, specialmente in domini critici per la sicurezza.
L'apprendimento per rinforzo (RL) per i grandi modelli linguistici (LLM) è sempre più limitato dalla fase di rollout (generazione), in cui le lunghe sequenze di output fanno sì che l'attenzione e la memoria della KV-cache dominino il tempo totale di esecuzione di uno step. La precisione FP8 offre un'allettante leva per accelerare il RL riducendo il costo computazionale e il traffico di memoria durante il rollout. Tuttavia, l'applicazione dell'FP8 nel RL introduce sfide ingegneristiche e algoritmiche uniche: i pesi della policy cambiano a ogni step (richiedendo una quantizzazione ripetuta e una sincronizzazione dei pesi nel motore di inferenza) e i rollout a bassa precisione possono discostarsi dalla policy ad alta precisione assunta dall'addestratore, causando una discrepanza tra addestramento e inferenza e potenziale instabilità. Questo rapporto presenta uno stack di rollout FP8 pratico per il RL su LLM, implementato nell'ecosistema veRL con supporto per backend di addestramento comuni (ad es. FSDP/Megatron-LM) e motori di inferenza (ad es. vLLM/SGLang). Noi (i) abilitiamo il rollout dei layer lineari in FP8 W8A8 utilizzando la quantizzazione FP8 a blocchi, (ii) estendiamo l'FP8 alla KV-cache per rimuovere i colli di bottiglia di memoria nei contesti lunghi tramite ricalibrazione della scala QKV per step, e (iii) mitigiamo la discrepanza utilizzando una correzione del rollout basata sul campionamento per importanza (varianti a livello di token TIS/MIS). Su modelli densi e MoE, queste tecniche forniscono guadagni di throughput del rollout fino al 44%, preservando un comportamento di apprendimento paragonabile alle baseline BF16.
Nonostante la fluidità sintattica dei Large Language Model (LLM), garantire la loro correttezza logica in domini ad alto rischio rimane una sfida fondamentale. Presentiamo un framework neurosimbolico che combina LLM con risolutori SMT per produrre risposte guidate dalla verifica attraverso raffinamenti iterativi. Il nostro approccio scompone gli output degli LLM in asserzioni atomiche, le autoformalizza in logica del primo ordine e ne verifica la coerenza logica utilizzando il teorema automatico di dimostrazione. Introduciamo tre innovazioni chiave: (1) consenso multi-modello tramite verifica dell'equivalenza semantica formale per garantire l'allineamento a livello logico tra i candidati, eliminando il bias sintattico delle metriche di forma superficiale, (2) instradamento semantico che indirizza diversi tipi di asserzioni a strategie di verifica appropriate: risolutori simbolici per affermazioni logiche e ensemble di LLM per il ragionamento di senso comune, e (3) localizzazione precisa degli errori logici tramite Insiemi di Correzione Minima (MCS), che individuano l'esatto sottoinsieme di asserzioni da revisionare, trasformando segnali di fallimento binari in feedback azionabili. Il nostro framework classifica le asserzioni in base al loro stato logico e aggrega molteplici segnali di verifica in un punteggio unificato con penalità basata sulla varianza. Il sistema raffina iterativamente le risposte utilizzando feedback strutturato finché non vengono soddisfatti i criteri di accettazione o si raggiunge la convergenza. Questo approccio ibrido fornisce garanzie formali dove possibile e verifica di consenso altrove, promuovendo l'IA affidabile. Con il modello GPT-OSS-120B, VERGE dimostra un miglioramento prestazionale medio del 18,7% alla convergenza su una serie di benchmark di ragionamento rispetto agli approcci a passaggio singolo.
L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha migliorato sostanzialmente le capacità di ragionamento dei grandi modelli linguistici (LLM), ma l'addestramento spesso ristagna quando i problemi diventano saturi. Identifichiamo la sfida principale nella scarsa accessibilità degli errori informativi: i segnali di apprendimento esistono ma sono raramente incontrati durante le rollout standard. Per affrontare ciò, proponiamo il condizionamento sul prefisso di errore, un metodo semplice ed efficace per apprendere da problemi saturi. Invece di partire dalla domanda originale, il nostro approccio riallocazione l'esplorazione condizionando l'addestramento su prefissi derivati da rare traiettorie di ragionamento incorrette, esponendo così il modello a stati inclini all'errore. Osserviamo che il condizionamento sul prefisso di errore produce miglioramenti delle prestazioni equivalenti a quelli ottenuti addestrando su problemi di media difficoltà, preservando al contempo l'efficienza dei token. Inoltre, analizziamo la robustezza del modello, riscontrando che il nostro metodo riduce il degrado delle prestazioni sotto l'effetto di prefissi di errore fuorvianti, sebbene con un leggero compromesso nell'aderenza al ragionamento corretto iniziale. Infine, dimostriamo che un approccio iterativo, che aggiorna i prefissi di errore durante l'addestramento, sblocca ulteriori guadagni dopo il raggiungimento di plateau prestazionali. Nel complesso, i nostri risultati suggeriscono che il condizionamento sul prefisso di errore offre una via efficace per estendere l'addestramento RLVR su problemi saturi.
Lo spazio dell'upsampling di feature task-agnostic è emerso come un'area di ricerca promettente per creare efficientemente feature più dense a partire da backbone visivi pre-addestrati. Questi metodi agiscono come una scorciatoia per ottenere feature dense a una frazione del costo, apprendendo come mappare feature a bassa risoluzione in versioni ad alta risoluzione. Mentre i primi lavori in questo ambito utilizzavano approcci di upsampling iterativo, i lavori più recenti sono passati a metodi basati sul cross-attention, che rischiano di incorrere negli stessi problemi di scalabilità di efficienza dei backbone che stanno aumentando in risoluzione. In questo lavoro, dimostriamo che i metodi di upsampling iterativo possono ancora competere con quelli basati sul cross-attention; inoltre, possono raggiungere prestazioni allo stato dell'arte con costi di inferenza inferiori. Proponiamo UPLiFT, un'architettura per Trasformazioni di Feature Leggere e Dense a Livello di Pixel Universali. Proponiamo anche un efficiente operatore Local Attender per superare i limiti dei precedenti metodi di upsampling iterativo di feature. Questo operatore utilizza una formulazione alternativa di pooling attentionale definita interamente in modo locale. Mostriamo che il nostro Local Attender consente a UPLiFT di mantenere feature stabili durante tutto l'upsampling, permettendo prestazioni allo stato dell'arte con costi di inferenza inferiori rispetto agli attuali upsampler di feature dense a livello di pixel. Inoltre, applichiamo UPLiFT a task downstream generativi e mostriamo che raggiunge prestazioni competitive con i modelli Coupled Flow Matching allo stato dell'arte per l'upsampling di feature VAE. Nel complesso, UPLiFT offre un approccio versatile ed efficiente per creare feature più dense.
Il riconoscimento automatico del parlato con attribuzione del parlante (ASR) in ambienti multi-parlante rimane una sfida significativa. Sebbene alcuni approcci raggiungano prestazioni elevate quando addestrati su domini specifici, pochi sistemi generalizzano efficacemente su dataset fuori dominio. Il nostro lavoro precedente, Diarization-Conditioned Whisper (DiCoW), sfrutta gli output di diarizzazione come informazione di condizionamento e, con un fine-tuning minimo, ha dimostrato solide prestazioni multilingue e multi-dominio. In questo articolo, affrontiamo una limitazione chiave di DiCoW: l'ambiguità nelle maschere Silenzio-Bersaglio-NonBersaglio-Sovrapposizione (STNO), dove due o più parlanti completamente sovrapposti possono avere un condizionamento quasi identico nonostante trascrizioni diverse. Introduciamo SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), che utilizza l'output di diarizzazione per individuare un segmento di enrollment in qualsiasi punto della conversazione dove il parlante target è più attivo. Questo segmento di enrollment viene utilizzato come condizionamento fisso tramite cross-attention ad ogni livello dell'encoder. Miglioriamo ulteriormente DiCoW con una segmentazione dei dati ottimizzata, un'inizializzazione del modello più efficace e tecniche di data augmentation. Complessivamente, questi progressi portano a guadagni sostanziali: SE-DiCoW riduce la tcpWER mediata macroscopicamente del 52.4% rispetto al DiCoW originale sul benchmark EMMA MT-ASR.
Nonostante decenni di ricerca sul parlato riverberante, il confronto tra i metodi rimane difficile poiché la maggior parte dei corpora manca di annotazioni acustiche per singolo file o fornisce documentazione limitata per la riproduzione. Presentiamo RIR-Mega-Speech, un corpus di circa 117,5 ore creato convolvendo gli enunciati di LibriSpeech con circa 5.000 risposte impulsive ambientali simulate dalla collezione RIR-Mega. Ogni file include il tempo di riverberazione (RT60), il rapporto diretto-riverberato (DRR) e l'indice di chiarezza (C₅₀) calcolati dalla RIR sorgente mediante procedure chiaramente definite e riproducibili. Forniamo inoltre script per ricostruire il dataset e riprodurre tutti i risultati di valutazione. Utilizzando il modello Whisper small su 1.500 enunciati accoppiati, abbiamo misurato un tasso di errore sul parlato (WER) del 5,20% (IC 95%: 4,69-5,78) sul parlato pulito e del 7,70% (7,04-8,35) sulle versioni riverberate, corrispondente a un aumento accoppiato di 2,50 punti percentuali (2,06-2,98). Ciò rappresenta un degrado relativo del 48%. Il WER aumenta monotonicamente con l'RT60 e diminuisce con il DRR, in linea con precedenti studi percettivi. Sebbene il risultato fondamentale che la riverberazione danneggia il riconoscimento sia ben consolidato, il nostro obiettivo è fornire alla comunità una risorsa standardizzata in cui le condizioni acustiche siano trasparenti e i risultati possano essere verificati indipendentemente. Il repository include istruzioni di ricostruzione con un singolo comando per ambienti Windows e Linux.
Per compiti socialmente sensibili come il rilevamento dell'incitamento all'odio, la qualità delle spiegazioni fornite dai Large Language Model (LLM) è cruciale per fattori come la fiducia degli utenti e l'allineamento del modello. Sebbene il prompting basato su personaggi (Persona Prompting - PP) sia sempre più utilizzato come metodo per indirizzare la generazione del modello verso specificità utente, il suo effetto sulle motivazioni del modello rimane poco esplorato. Investigiamo come le motivazioni generate dagli LLM variano quando sono condizionate su diversi personaggi demografici simulati. Utilizzando dataset annotati con motivazioni a livello di parola, misuriamo la concordanza con le annotazioni umane provenienti da diversi gruppi demografici e valutiamo l'impatto del PP sul bias del modello e sull'allineamento umano. La nostra valutazione su tre LLM rivela tre risultati chiave: (1) Il PP migliora la classificazione nel compito più soggettivo (incitamento all'odio) ma degrada la qualità delle motivazioni. (2) I personaggi simulati non riescono ad allinearsi con le loro controparti demografiche nel mondo reale, e un'elevata concordanza inter-personaggio mostra che i modelli sono resistenti a uno steering significativo. (3) I modelli mostrano bias demografici consistenti e una forte tendenza a segnalare eccessivamente i contenuti come dannosi, indipendentemente dal PP. I nostri risultati rivelano un compromesso critico: sebbene il PP possa migliorare la classificazione in compiti socialmente sensibili, ciò avviene spesso a scapito della qualità delle motivazioni e non mitiga i bias sottostanti, sollecitando cautela nella sua applicazione.
La crescente domanda di implementazione robotica in tempo reale richiede inferenze rapide e on-device per i modelli visione-linguaggio-azione (VLA). Nella letteratura VLA, l'efficienza è stata ampiamente studiata a livello di token, come la potatura dei token visivi. Al contrario, la riduzione sistematica degli strati del transformer ha ricevuto un'attenzione limitata e, per quanto a nostra conoscenza, non è stata esplorata per modelli VLA basati su flusso sotto distillazione della conoscenza. In questo lavoro proponiamo Shallow-pi, un framework di distillazione della conoscenza principiato che riduce aggressivamente la profondità del transformer sia del backbone VLM che della testina azionale basata su flusso, comprimendo il modello da 18 a 6 strati. Shallow-pi raggiunge un'inferenza oltre due volte più veloce con un calo assoluto inferiore all'un percento nel tasso di successo su benchmark standard di manipolazione, stabilendo prestazioni all'avanguardia tra i modelli VLA ridotti. Crucialmente, convalidiamo il nostro approccio attraverso esperimenti reali su scala industriale su Jetson Orin e Jetson Thor su molteplici piattaforme robotiche, inclusi sistemi umanoidi, in scenari di manipolazione complessi e dinamici.
La rilevazione multimodale della sarcasmo (MSD) mira a identificare il sarcasmo in coppie immagine-testo modellando le incongruenze semantiche tra le modalità. I metodi esistenti sfruttano spesso il disallineamento degli embedding cross-modali per rilevare l'inconsistenza, ma faticano quando i contenuti visivi e testuali sono debolmente correlati o semanticamente indiretti. Sebbene gli approcci recenti utilizzino modelli linguistici di grandi dimensioni (LLM) per generare indizi sarcastici, l'intrinseca diversità e soggettività di queste generazioni introduce spesso rumore. Per affrontare queste limitazioni, proponiamo la Generative Discrepancy Comparison Network (GDCNet). Questo framework cattura i conflitti cross-modali utilizzando didascalie immagine descrittive e fattualmente fondate, generate da LLM multimodali (MLLM), come ancoraggi semantici stabili. Nello specifico, GDCNet calcola le discrepanze semantiche e sentimentali tra la descrizione oggettiva generata e il testo originale, misurando parallelamente la fedeltà visivo-testuale. Queste caratteristiche di discrepanza vengono quindi fuse con le rappresentazioni visive e testuali attraverso un modulo a cancello per bilanciare adattivamente i contributi modali. Esperimenti estesi su benchmark MSD dimostrano la superiore accuratezza e robustezza di GDCNet, stabilendo un nuovo stato dell'arte sul benchmark MMSD2.0.
La creazione di schizzi fornisce un modo intuitivo per comunicare l'intento dinamico nell'authoring di animazioni (ovvero come gli elementi cambiano nel tempo e nello spazio), rendendola un mezzo naturale per la creazione automatica di contenuti. Tuttavia, gli approcci esistenti spesso vincolano gli schizzi a token di comando fissi o a forme visive predefinite, trascurando la loro natura libera e il ruolo centrale dell'uomo nel plasmare l'intenzione. Per affrontare questo problema, introduciamo un paradigma di interazione in cui gli utenti comunicano l'intento dinamico a un modello visione-linguaggio tramite schizzi liberi, qui istanziato in un workflow che va dallo storyboard schizzato alla grafica in movimento. Implementiamo un'interfaccia e la miglioriamo attraverso uno studio in tre fasi con 24 partecipanti. Lo studio mostra come gli schizzi comunichino il movimento con un input minimo, come la loro ambiguità intrinseca richieda il coinvolgimento degli utenti per la chiarificazione e come possano guidare visivamente l'affinamento del video. Le nostre scoperte rivelano il potenziale dell'interazione tra schizzo e IA per colmare il divario tra intenzione e risultato e ne dimostrano l'applicabilità all'animazione 3D e alla generazione video.