Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, proponiamo NeoVerse, un modello versatile di mondo 4D in grado di eseguire ricostruzione 4D, generazione di video su traiettorie nuove e una serie di applicazioni downstream avanzate. Inizialmente identifichiamo una limitazione comune di scalabilità nei metodi correnti di modellazione del mondo 4D, causata sia da dati 4D multi-vista costosi e specializzati, sia da una pre-elaborazione dell'addestramento macchinosa. Al contrario, il nostro NeoVerse si basa su una filosofia centrale che rende l'intera pipeline scalabile per diversi video monoculari in contesti reali. Nello specifico, NeoVerse si caratterizza per una ricostruzione 4D feed-forward senza stima della posa, una simulazione online dei pattern di degradazione monoculare e altre tecniche ben allineate. Questi progetti conferiscono a NeoVerse versatilità e generalizzazione in vari domini. Nel frattempo, NeoVerse raggiunge prestazioni all'avanguardia nei benchmark standard di ricostruzione e generazione. La nostra pagina del progetto è disponibile all'indirizzo https://neoverse-4d.github.io.
Gli attuali framework per agenti basati su Large Language Model (LLM) affrontano due sfide significative: elevati costi di configurazione e capacità statiche. La creazione di un agente di alta qualità richiede spesso un notevole sforzo manuale nell'integrazione di strumenti e nell'ingegneria dei prompt, mentre gli agenti già distribuiti faticano ad adattarsi ad ambienti dinamici senza costosi interventi di fine-tuning. Per risolvere questi problemi, proponiamo Youtu-Agent, un framework modulare progettato per la generazione automatizzata e l'evoluzione continua di agenti LLM. Youtu-Agent presenta un sistema di configurazione strutturato che disaccochia ambienti di esecuzione, toolkit e gestione del contesto, consentendo il riutilizzo flessibile e la sintesi automatizzata. Introduciamo due paradigmi di generazione: una modalità Workflow per compiti standard e una modalità Meta-Agente per requisiti complessi e non standard, in grado di generare automaticamente codice per strumenti, prompt e configurazioni. Inoltre, Youtu-Agent stabilisce un sistema di ottimizzazione ibrido delle policy: (1) un modulo Agent Practice che consente agli agenti di accumulare esperienza e migliorare le prestazioni attraverso l'ottimizzazione contestuale senza aggiornamenti dei parametri; e (2) un modulo Agent RL che si integra con framework di addestramento distribuito per abilitare l'apprendimento per rinforzo scalabile e stabile di qualsiasi agente Youtu in modalità end-to-end e su larga scala. Gli esperimenti dimostrano che Youtu-Agent raggiunge prestazioni allo stato dell'arte su WebWalkerQA (71,47%) e GAIA (72,8%) utilizzando modelli open-weight. La nostra pipeline di generazione automatizzata raggiunge un tasso di successo nella sintesi degli strumenti superiore all'81%, mentre il modulo Practice migliora le prestazioni su AIME 2024/2025 rispettivamente del +2,7% e +5,4%. Inoltre, l'addestramento Agent RL raggiunge un'accelerazione del 40% con un miglioramento costante delle prestazioni su LLM da 7B, potenziando rispettivamente le capacità di codifica/ragionamento e ricerca fino al 35% e 21% su benchmark matematici e di QA generali/multi-hop.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi notevoli nella comprensione video. Tuttavia, presentano una vulnerabilità critica: un'eccessiva dipendenza dai preconcetti linguistici, che può portare a allucinazioni visive non fondate, specialmente durante l'elaborazione di video controfattuali che sfidano il senso comune. Questa limitazione, che origina dallo squilibrio intrinseco dei dati tra testo e video, è difficile da affrontare a causa del costo sostanzioso della raccolta e annotazione di dati controfattuali. Per risolvere questo problema, introduciamo DualityForge, un innovativo framework di sintesi di dati controfattuali che utilizza l'editing video basato su modelli di diffusione controllabile per trasformare video del mondo reale in scenari controfattuali. Incorporando informazioni contestuali strutturate nei processi di editing video e generazione di domande-risposte (QA), il framework produce automaticamente coppie QA di alta qualità insieme a coppie video originali-modificati per l'addestramento contrastivo. Su questa base, costruiamo DualityVidQA, un dataset video su larga scala progettato per ridurre le allucinazioni negli MLLM. Inoltre, per sfruttare appieno la natura contrastiva dei nostri dati accoppiati, proponiamo Duality-Normalized Advantage Training (DNA-Train), un regime di addestramento SFT-RL a due fasi in cui la fase RL applica una normalizzazione del vantaggio pairwise ell_1, consentendo così un'ottimizzazione della policy più stabile ed efficiente. Gli esperimenti su DualityVidQA-Test dimostrano che il nostro metodo riduce sostanzialmente le allucinazioni del modello sui video controfattuali, producendo un miglioramento relativo del 24,0% rispetto al baseline Qwen2.5-VL-7B. Inoltre, il nostro approccio ottiene guadagni significativi sia nei benchmark sulle allucinazioni che in quelli per scopi generici, indicando una forte capacità di generalizzazione. Renderemo open-source il nostro dataset e il codice.
La generazione di teste parlanti crea avatar realistici a partire da ritratti statici per la comunicazione virtuale e la creazione di contenuti. Tuttavia, i modelli attuali non riescono ancora a trasmettere la sensazione di una comunicazione veramente interattiva, generando spesso risposte unidirezionali che mancano di coinvolgimento emotivo. Identifichiamo due sfide principali verso avatar pienamente interattivi: generare il movimento in tempo reale sotto vincoli di causalità e apprendere reazioni espressive e vivaci senza dati etichettati aggiuntivi. Per affrontare queste sfide, proponiamo Avatar Forcing, un nuovo framework per la generazione interattiva di avatar che modella le interazioni utente-avatar in tempo reale attraverso il forcing di diffusione. Questo design consente all'avatar di elaborare input multimodali in tempo reale, inclusi audio e movimento dell'utente, con bassa latenza per reazioni immediate a segnali verbali e non verbali come parole, cenni del capo e risate. Inoltre, introduciamo un metodo di ottimizzazione delle preferenze dirette che sfrutta campioni sintetici costruiti eliminando le condizioni utente, permettendo un apprendimento espressivo dell'interazione senza etichette. I risultati sperimentali dimostrano che il nostro framework abilita l'interazione in tempo reale con bassa latenza (circa 500ms), raggiungendo un'accelerazione di 6,8X rispetto al baseline, e produce movimenti dell'avatar reattivi ed espressivi, preferiti per oltre l'80% rispetto al baseline.
Nonostante i recenti progressi, in particolare nello sviluppo dei Modelli Linguistici, permangono sfide fondamentali e domande senza risposta su come tali modelli possano apprendere/memorizzare in modo continuativo, automigliorarsi e trovare soluzioni efficaci. In questo articolo, presentiamo un nuovo paradigma di apprendimento, denominato Apprendimento Annidato (Nested Learning, NL), che rappresenta in modo coerente un modello di machine learning con un insieme di problemi di ottimizzazione annidati, multi-livello e/o paralleli, ciascuno con il proprio flusso contestuale. Attraverso la lente dell'NL, i metodi di deep learning esistenti apprendono dai dati comprimendo il proprio flusso contestuale, e l'apprendimento in contesto (in-context learning) emerge naturalmente nei modelli di grandi dimensioni. L'NL suggerisce una filosofia per progettare algoritmi di apprendimento più espressivi con più livelli, risultando in un apprendimento in contesto di ordine superiore e potenzialmente sbloccando capacità efficaci di apprendimento continuo. Sosteniamo l'NL presentando tre contributi fondamentali: (1) Ottimizzatori Espressivi: Dimostriamo che noti ottimizzatori basati sul gradiente, come Adam, SGD con Momento, ecc., sono in realtà moduli di memoria associativa che mirano a comprimere l'informazione dei gradienti (tramite la discesa del gradiente). Basandoci su questa intuizione, presentiamo altri ottimizzatori più espressivi con memoria profonda e/o regole di apprendimento più potenti; (2) Modulo di Apprendimento Auto-Modificante: Sfruttando le intuizioni dell'NL sugli algoritmi di apprendimento, presentiamo un modello sequenziale che impara a modificare se stesso apprendendo il proprio algoritmo di aggiornamento; e (3) Sistema di Memoria Continuo: Presentiamo una nuova formulazione per un sistema di memoria che generalizza il punto di vista tradizionale di memoria a lungo/breve termine. Combinando il nostro modello sequenziale auto-modificante con il sistema di memoria continuo, presentiamo un modulo per l'apprendimento continuo, chiamato Hope, che mostra risultati promettenti in compiti di modellazione del linguaggio, incorporazione della conoscenza, generalizzazione few-shot, apprendimento continuo e ragionamento su contesti lunghi.
Sebbene i Modelli Visione-Linguaggio (VLM) possano risolvere compiti complessi mediante ragionamento agentivo, le loro capacità rimangono largamente confinate a catene di pensiero orientate al testo o a invocazioni isolate di strumenti. Essi non riescono a mostrare la competenza simile a quella umana necessaria per intervallare in modo fluido la manipolazione dinamica di strumenti con un ragionamento continuo, specialmente in scenari ad alta intensità conoscitiva e complessità visiva che richiedono strumenti esterni coordinati come la ricerca e il ritaglio di immagini. In questo lavoro, introduciamo SenseNova-MARS, un nuovo framework di Ragionamento e Ricerca Agentivo Multimodale che potenzia i VLM con capacità di ragionamento visivo e uso di strumenti intervallati, tramite apprendimento per rinforzo (RL). Nello specifico, SenseNova-MARS integra dinamicamente gli strumenti di ricerca immagini, ricerca testuale e ritaglio immagini per affrontare sfide di comprensione visiva granulari e ad alta intensità conoscitiva. Nella fase di RL, proponiamo l'algoritmo di Ottimizzazione della Politica di Sequenza di Gruppo con Normalizzazione a Lotti (BN-GSPO) per migliorare la stabilità dell'addestramento e potenziare l'abilità del modello di invocare strumenti e ragionare efficacemente. Per valutare in modo completo i VLM agentivi su compiti visivi complessi, introduciamo il benchmark HR-MMSearch, il primo benchmark orientato alla ricerca composto da immagini ad alta risoluzione con domande ad alta intensità conoscitiva e guidate dalla ricerca. Gli esperimenti dimostrano che SenseNova-MARS raggiunge prestazioni all'avanguardia sui benchmark open-source di ricerca e comprensione fine delle immagini. Nello specifico, su benchmark orientati alla ricerca, SenseNova-MARS-8B ottiene un punteggio di 67.84 su MMSearch e 41.64 su HR-MMSearch, superando modelli proprietari come Gemini-3-Flash e GPT-5. SenseNova-MARS rappresenta un passo promettente verso VLM agentivi, fornendo capacità di uso degli strumenti efficaci e robuste. Per facilitare ulteriori ricerche in questo campo, renderemo disponibili tutto il codice, i modelli e i dataset.
L'efficacia delle reti residue profonde si basa fondamentalmente sulla connessione di cortocircuito identità. Sebbene questo meccanismo mitighi efficacemente il problema del gradiente evanescente, impone un bias induttivo strettamente additivo sulle trasformazioni delle feature, limitando così la capacità della rete di modellare transizioni di stato complesse. In questo articolo, introduciamo il Deep Delta Learning (DDL), un'architettura innovativa che generalizza la connessione residua standard modulando il cortocircuito identità con una trasformazione geometrica apprendibile e dipendente dai dati. Questa trasformazione, denominata Operatore Delta, costituisce una perturbazione di rango-1 della matrice identità, parametrizzata da un vettore direzione di riflessione k(X) e da uno scalare di gating β(X). Forniamo un'analisi spettrale di questo operatore, dimostrando che il gate β(X) consente un'interpolazione dinamica tra mappatura identità, proiezione ortogonale e riflessione geometrica. Inoltre, ristrutturiamo l'aggiornamento residuo come un'iniezione sincrona di rango-1, in cui il gate agisce come una dimensione del passo dinamica che governa sia la cancellazione delle vecchie informazioni che la scrittura delle nuove feature. Questa unificazione consente alla rete di controllare esplicitamente lo spettro del proprio operatore di transizione strato per strato, permettendo la modellazione di dinamiche complesse e non monotone preservando al contempo le caratteristiche di addestramento stabile delle architetture residue con gating.
La ricostruzione di scene 3D dinamiche a partire da video monoculari richiede la capacità di catturare simultaneamente dettagli d'aspetto ad alta frequenza e un movimento temporalmente continuo. I metodi esistenti che utilizzano primitive gaussiane singole sono limitati dalla loro natura di filtri passa-basso, mentre le funzioni di Gabor standard introducono instabilità energetica. Inoltre, la mancanza di vincoli di continuità temporale porta spesso ad artefatti di movimento durante l'interpolazione. Proponiamo AdaGaR, un framework unificato che affronta sia l'adattività in frequenza che la continuità temporale nella modellazione esplicita di scene dinamiche. Introduciamo la Rappresentazione di Gabor Adattativa, che estende le Gaussiane mediante pesi di frequenza apprendibili e una compensazione energetica adattativa per bilanciare la cattura dei dettagli e la stabilità. Per la continuità temporale, impieghiamo Spline Cubiche di Hermite con Regolarizzazione della Curvatura Temporale per garantire un'evoluzione del movimento fluida. Un meccanismo di Inizializzazione Adattativa che combina stima della profondità, tracking di punti e maschere del primo piano stabilisce distribuzioni iniziali stabili della nuvola di punti durante le prime fasi di training. Gli esperimenti su Tap-Vid DAVIS dimostrano prestazioni allo stato dell'arte (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) e una forte generalizzazione in compiti come interpolazione di frame, consistenza della profondità, editing video e sintesi di viste stereo. Pagina del progetto: https://jiewenchan.github.io/AdaGaR/
Le pipeline all'avanguardia per i grandi modelli linguistici (LLM) si basano su cicli di ragionamento bootstrap: campionano catene di pensiero diverse e rinforzano quelle con il punteggio più alto, ottimizzando principalmente la correttezza. Analizziamo come questa scelta progettuale sia sensibile al collasso della distribuzione del modello sui percorsi di ragionamento, riducendo drasticamente l'entropia semantica e minando la risoluzione creativa dei problemi. Per analizzare questo fallimento, introduciamo il Ragionamento Creativo Distribuzionale (DCR), un obiettivo variazionale unificato che inquadra l'addestramento come un flusso di gradiente attraverso misure di probabilità sulle tracce di soluzione. Metodi come STaR, GRPO e DPO, insieme ai bonus di entropia e altre tecniche, costituiscono tutti casi particolari della stessa funzione di perdita. Il framework produce tre risultati fondamentali: (i) il teorema del decadimento della diversità, che descrive come obiettivi basati sulla correttezza portino a modalità distinte di decadimento della diversità per STaR, GRPO e DPO; (ii) progetti che garantiscono la convergenza verso una politica stabile e diversificata, prevenendo efficacemente il collasso; e (iii) ricette semplici e pratiche per raggiungere questo obiettivo nella pratica. Il DCR offre quindi la prima ricetta principiata per LLM che rimangono sia corretti che creativi.
Recenti studi hanno dimostrato significativi progressi nell'allineamento dei modelli di diffusione testo-immagine con le preferenze umane tramite l'Apprendimento per Rinforzo da Feedback Umano. Tuttavia, sebbene i metodi esistenti raggiungano punteggi elevati nelle metriche di reward automatizzate, essi spesso portano al Collasso della Modalità di Preferenza (PMC) – una forma specifica di reward hacking in cui i modelli convergono su output ristretti e ad alto punteggio (ad esempio, immagini con stili monolitici o sovraesposizione pervasiva), degradando gravemente la diversità generativa. In questo lavoro, introduciamo e quantifichiamo questo fenomeno, proponendo DivGenBench, un nuovo benchmark progettato per misurare l'entità del PMC. Ipotesizziamo che questo collasso sia guidato da un'over-ottimizzazione lungo i bias intrinseci del modello di reward. Basandoci su questa analisi, proponiamo l'Allineamento per Disaccoppiamento Direzionale (D^2-Align), un nuovo framework che mitiga il PMC correggendo direzionalmente il segnale di reward. Nello specifico, il nostro metodo apprende prima una correzione direzionale nello spazio di embedding del modello di reward mantenendo il modello congelato. Questa correzione viene poi applicata al segnale di reward durante il processo di ottimizzazione, impedendo al modello di collassare in modalità specifiche e mantenendo così la diversità. La nostra valutazione completa, che combina analisi qualitative con metriche quantitative sia per la qualità che per la diversità, rivela che D^2-Align raggiunge un allineamento superiore con le preferenze umane.
Recenti progressi hanno dimostrato che l'apprendimento per rinforzo (RL) può migliorare significativamente le capacità di ragionamento dei grandi modelli linguistici (LLM). L'efficacia di tale addestramento RL, tuttavia, dipende in modo critico dallo spazio di esplorazione definito dalla distribuzione token-output del modello pre-addestrato. In questo articolo, esaminiamo la funzione di perdita di entropia incrociata standard, interpretandola come un caso specifico di ottimizzazione del gradiente della politica applicata in un episodio a singolo passo. Per studiare sistematicamente come la distribuzione pre-addestrata modella il potenziale di esplorazione per l'RL successivo, proponiamo un obiettivo di pre-addestramento generalizzato che adatta i principi dell'RL on-policy all'apprendimento supervisionato. Inquadrando la previsione del token successivo come un processo decisionale stocastico, introduciamo una strategia di modellazione della ricompensa che bilancia esplicitamente diversità e precisione. Il nostro metodo impiega un fattore di scala positivo della ricompensa per controllare la concentrazione di probabilità sui token di ground-truth e un meccanismo rank-aware che tratta in modo asimmetrico i token negativi di rango alto e basso. Ciò ci permette di rimodellare la distribuzione token-output pre-addestrata e investigare come fornire uno spazio di esplorazione più favorevole per l'RL, migliorando in ultima analisi le prestazioni di ragionamento end-to-end. Contrariamente all'intuizione che un'entropia di distribuzione più alta faciliti un'esplorazione efficace, scopriamo che l'imposizione di un prior orientato alla precisione produce uno spazio di esplorazione superiore per l'RL.
Gli strati di modellazione sequenziale nei moderni modelli linguistici affrontano tipicamente un compromesso tra capacità di memorizzazione ed efficienza computazionale. Mentre l'attenzione Softmax offre una capacità di memorizzazione illimitata a costi quadratici proibitivi, le varianti lineari garantiscono efficienza ma soffrono di una capacità di memorizzazione limitata e di dimensioni fisse. Proponiamo Fast-weight Product Key Memory (FwPKM), un'architettura innovativa che risolve questa tensione trasformando la Product Key Memory (PKM) sparsa da un modulo statico in una memoria episodica dinamica a "pesi rapidi". A differenza della PKM, FwPKM aggiorna dinamicamente i propri parametri sia durante l'addestramento che l'inferenza attraverso una discesa del gradiente locale a livello di segmento, consentendo al modello di memorizzare e recuperare rapidamente nuove coppie chiave-valore dalle sequenze di input. Gli esperimenti rivelano che FwPKM funziona come una memoria episodica efficace che complementa la memoria semantica dei moduli standard, producendo riduzioni significative della perplexity su dataset a contesto lungo. Significativamente, nelle valutazioni "Needle in a Haystack", FwPKM generalizza a contesti di 128K token nonostante sia stato addestrato solo su sequenze di 4K token.
La morfologia 3D rimane una sfida a causa della difficoltà di generare deformazioni semanticamente coerenti e temporalmente fluide, specialmente tra categorie diverse. Presentiamo MorphAny3D, un framework che non richiede training e sfrutta le rappresentazioni Structured Latent (SLAT) per una morfologia 3D di alta qualità. La nostra intuizione chiave è che fondere intelligentemente le caratteristiche SLAT della sorgente e del target all'interno dei meccanismi di attention dei generatori 3D produca naturalmente sequenze di morphing plausibili. A tal fine, introduciamo il Morphing Cross-Attention (MCA), che fonde le informazioni di sorgente e target per la coerenza strutturale, e il Temporal-Fused Self-Attention (TFSA), che migliora la coerenza temporale incorporando caratteristiche dai fotogrammi precedenti. Una strategia di correzione dell'orientamento mitiga ulteriormente l'ambiguità di posa all'interno dei passi di morphing. Esperimenti estensivi mostrano che il nostro metodo genera sequenze di morphing allo stato dell'arte, anche per casi impegnativi tra categorie diverse. MorphAny3D supporta ulteriormente applicazioni avanzate come il morphing disaccoppiato e il trasferimento di stile 3D, e può essere generalizzato ad altri modelli generativi basati su SLAT. Pagina del progetto: https://xiaokunsun.github.io/MorphAny3D.github.io/.
Quando i sistemi di IA spiegano il proprio ragionamento passo dopo passo, i professionisti spesso presumono che queste spiegazioni rivelino ciò che ha effettivamente influenzato la risposta dell'IA. Abbiamo testato questo assunto incorporando indizi nelle domande e misurando se i modelli li menzionassero. In uno studio su oltre 9.000 casi di test che coinvolgevano 11 modelli di IA all'avanguardia, abbiamo riscontrato uno schema preoccupante: i modelli quasi mai menzionano spontaneamente gli indizi, eppure, quando interrogati direttamente, ammettono di averli notati. Ciò suggerisce che i modelli percepiscono le informazioni influenti ma scelgono di non segnalarle. Avvertire i modelli di essere sotto osservazione non risolve il problema. Obbligare i modelli a segnalare gli indizi funziona, ma li induce a segnalare indizi anche quando non esistono e riduce la loro accuratezza. Abbiamo anche scoperto che gli indizi che fanno leva sulle preferenze dell'utente sono particolarmente pericolosi: i modelli li seguono più spesso proprio mentre sono meno inclini a segnalarli. Questi risultati suggeriscono che semplicemente osservare il ragionamento dell'IA non è sufficiente per individuare influenze nascoste.
I grandi modelli linguistici (LLM) hanno dimostrato progressi significativi nel ragionamento e nella generazione di codice. Tuttavia, creare efficientemente nuovi benchmark per valutare queste capacità rimane una sfida. La creazione tradizionale di benchmark si basa sullo sforzo umano manuale, un processo sia costoso che dispendioso in termini di tempo. Inoltre, i benchmark esistenti spesso contaminano i dati di addestramento degli LLM, rendendo necessari benchmark nuovi e diversificati per valutare accuratamente le loro capacità genuine. Questo lavoro introduce InfoSynth, un nuovo framework per la generazione automatica e la valutazione di benchmark di ragionamento guidati da principi di teoria dell'informazione. Proponiamo metriche basate sulla divergenza KL e sull'entropia per quantificare la novità e la diversità dei benchmark senza fare affidamento su costose valutazioni del modello. Sulla base di questo framework, sviluppiamo una pipeline end-to-end che sintetizza robusti problemi di programmazione Python da dataset di partenza utilizzando algoritmi genetici e feedback iterativo sul codice. Il nostro metodo genera casi di test e soluzioni accurati per nuovi problemi il 97% delle volte, e i benchmark sintetizzati mostrano costantemente una novità e una diversità più elevate rispetto ai loro dataset di partenza. Inoltre, il nostro algoritmo fornisce un metodo per controllare la novità/diversità e la difficoltà dei problemi generati. InfoSynth offre una pipeline scalabile e auto-verificante per costruire benchmark di alta qualità, nuovi e diversificati per gli LLM. Pagina del progetto: https://ishirgarg.github.io/infosynth_web/