Articoli di ricerca IA selezionati quotidianamente con traduzioni
La comprensione degli oggetti in 3D a partire da una singola immagine è un pilastro dell'intelligenza spaziale. Un passo fondamentale verso questo obiettivo è la rilevazione 3D monoculare, che consiste nel determinare l'estensione, la posizione e l'orientamento degli oggetti a partire da un'immagine RGB in input. Per essere pratico nel mondo reale, un tale rilevatore deve generalizzare oltre le categorie predefinite, supportare diverse modalità di prompt e sfruttare gli indizi geometrici quando disponibili. Il progresso è ostacolato da due colli di bottiglia: i metodi esistenti sono progettati per un singolo tipo di prompt e mancano di un meccanismo per incorporare indizi geometrici aggiuntivi, mentre gli attuali dataset 3D coprono solo categorie ristrette in ambienti controllati, limitando il trasferimento al mondo aperto. In questo lavoro affrontiamo entrambe le lacune. In primo luogo, introduciamo WildDet3D, un'architettura unificata e consapevole della geometria che accetta nativamente prompt testuali, di punti e di riquadri e può incorporare segnali di profondità ausiliari al momento dell'inferenza. In secondo luogo, presentiamo WildDet3D-Data, il più grande dataset aperto per la rilevazione 3D fino ad oggi, costruito generando candidati riquadri 3D dalle annotazioni 2D esistenti e conservando solo quelli verificati da esseri umani, ottenendo così oltre 1 milione di immagini relative a 13.500 categorie in diverse scene del mondo reale. WildDet3D stabilisce un nuovo stato dell'arte su più benchmark e impostazioni. Nell'ambito del mondo aperto, raggiunge 22,6/24,8 AP3D sul nostro nuovo WildDet3D-Bench con prompt testuali e di riquadri. Su Omni3D, raggiunge rispettivamente 34,2/36,4 AP3D con prompt testuali e di riquadri. Nella valutazione zero-shot, raggiunge 40,3/48,9 ODS su Argoverse 2 e ScanNet. È degno di nota che l'incorporazione di indizi di profondità al momento dell'inferenza produce guadagni aggiuntivi sostanziali (+20,7 AP in media tra le varie impostazioni).
Il settore manifatturiero sta adottando sempre più i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) per passare dalla semplice percezione all'esecuzione autonoma, ma le valutazioni attuali non riflettono le rigorose esigenze degli ambienti manifatturieri reali. Il progresso è ostacolato dalla scarsità di dati e dalla mancanza di una semantica di dominio granulare nei dataset esistenti. Per colmare questa lacuna, introduciamo FORGE. In primo luogo, costruiamo un dataset multimodale di alta qualità che combina immagini 2D del mondo reale e nuvole di punti 3D, annotato con una semantica di dominio granulare (ad esempio, numeri di modello esatti). Successivamente, valutiamo 18 MLLM all'avanguardia su tre compiti manifatturieri, ovvero verifica del pezzo, ispezione della superficie strutturale e verifica dell'assemblaggio, rilevando divari prestazionali significativi. Contrariamente all'opinione comune, l'analisi dei colli di bottiglia mostra che la localizzazione visiva non è il fattore limitante primario. Piuttosto, la conoscenza specifica del dominio insufficiente è il collo di bottiglia chiave, indicando una direzione chiara per la ricerca futura. Oltre alla valutazione, dimostriamo che le nostre annotazioni strutturate possono fungere da risorsa di formazione azionabile: il fine-tuning supervisionato di un modello compatto da 3 miliardi di parametri sui nostri dati produce un miglioramento relativo fino al 90,8% in accuratezza su scenari manifatturieri tenuti da parte, fornendo prove preliminari per un percorso pratico verso MLLM manifatturieri adattati al dominio. Il codice e i dataset sono disponibili su https://ai4manufacturing.github.io/forge-web.
Questo rapporto tecnico presenta EXAONE 4.5, il primo modello linguistico visivo open-weight rilasciato da LG AI Research. EXAONE 4.5 è architettato integrando un encoder visivo dedicato nel framework esistente di EXAONE 4.0, abilitando un pre-addestramento multimodale nativo su modalità sia visive che testuali. Il modello è addestrato su dati su larga scala accuratamente selezionati, con particolare enfasi su corpora incentrati sui documenti, in linea con i domini applicativi strategici di LG. Questo design mirato dei dati consente miglioramenti sostanziali delle prestazioni nella comprensione dei documenti e in compiti correlati, offrendo al contempo ampi progressi nelle capacità linguistiche generali. EXAONE 4.5 estende la lunghezza del contesto fino a 256.000 token, facilitando il ragionamento a contesto lungo e casi d'uso su scala enterprise. Valutazioni comparative dimostrano che EXAONE 4.5 raggiunge prestazioni competitive nei benchmark generali, superando allo stesso tempo modelli all'avanguardia di scala simile nella comprensione dei documenti e nel ragionamento contestuale in lingua coreana. Nell'ambito dello sforzo continuo di LG verso un impiego industriale pratico, EXAONE 4.5 è progettato per essere esteso continuamente con domini aggiuntivi e scenari applicativi per far progredire l'IA verso una vita migliore.
Con l'avanzamento della generazione video interattiva, i modelli di diffusione hanno progressivamente dimostrato il loro potenziale come modelli del mondo. Tuttavia, gli approcci esistenti faticano ancora a raggiungere simultaneamente una consistenza temporale a lungo termine abilitata dalla memoria e una generazione in tempo reale ad alta risoluzione, limitandone l'applicabilità in scenari reali. Per affrontare questa sfida, presentiamo Matrix-Game 3.0, un modello del mondo interattivo potenziato con memoria, progettato per la generazione di video lunghi in tempo reale a 720p. Basandoci su Matrix-Game 2.0, introduciamo miglioramenti sistematici a livello di dati, modello e inferenza. In primo luogo, sviluppiamo un motore di dati infiniti su scala industriale avanzato, che integra dati sintetici basati su Unreal Engine, una raccolta automatizzata su larga scala da giochi AAA e un aumento di dati da video del mondo reale, per produrre quadruplette di dati Video-Posa-Azione-Prompt di alta qualità su larga scala. In secondo luogo, proponiamo un framework di addestramento per la consistenza su lungo orizzonte: modellando i residui di predizione e reiniettando fotogrammi generati imperfetti durante l'addestramento, il modello base impara l'autocorrezione; allo stesso tempo, il recupero e l'iniezione di memoria consapevoli della telecamera consentono al modello base di raggiungere una consistenza spaziotemporale su lungo orizzonte. In terzo luogo, progettiamo una strategia di distillazione autoregressiva multi-segmento basata sulla Distillazione per Apprendimento della Distribuzione (DMD), combinata con la quantizzazione del modello e la potatura del decodificatore VAE, per ottenere un'inferenza efficiente in tempo reale. I risultati sperimentali mostrano che Matrix-Game 3.0 raggiunge una generazione in tempo reale fino a 40 FPS con risoluzione 720p utilizzando un modello da 5B, mantenendo al contempo una consistenza di memoria stabile su sequenze della durata di minuti. Il passaggio a un modello 2x14B migliora ulteriormente la qualità della generazione, le dinamiche e la generalizzazione. Il nostro approccio fornisce un percorso pratico verso modelli del mondo distribuibili su scala industriale.
Introduciamo l'affinamento regionale delle immagini come un ambito di problema dedicato: dato un input immagine e una regione specificata dall'utente (ad esempio, una maschera a schizzo o un rettangolo di delimitazione), l'obiettivo è ripristinare dettagli granulari mantenendo rigorosamente invariati tutti i pixel non modificati. Nonostante i rapidi progressi nella generazione di immagini, i modelli moderni soffrono ancora frequentemente di collasso dei dettagli locali (ad esempio, testo distorto, loghi e strutture sottili). I modelli di editing guidati da istruzioni esistenti enfatizzano modifiche semantiche a grana grossa e spesso trascurano difetti locali sottili o alterano involontariamente lo sfondo, specialmente quando la regione di interesse occupa solo una piccola porzione di un input a risoluzione fissa. Presentiamo RefineAnything, un modello di affinamento multimodale basato su diffusion che supporta sia l'affinamento con riferimento che senza riferimento. Basandoci sull'osservazione controintuitiva che il ritaglio e il ridimensionamento possono migliorare sostanzialmente la ricostruzione locale con una risoluzione di input VAE fissa, proponiamo Focus-and-Refine, una strategia di affinamento e reinserimento concentrata sulla regione che migliora l'efficacia e l'efficienza dell'affinamento riallocando il budget di risoluzione alla regione target, mentre un reinserimento con maschera sfumata garantisce una rigorosa preservazione dello sfondo. Introduciamo inoltre una Boundary Consistency Loss (Perdita di Coerenza del Contorno) consapevole del confine per ridurre gli artefatti di giunzione e migliorare il realismo del reinserimento. Per supportare questo nuovo ambito, costruiamo Refine-30K (20.000 campioni con riferimento e 10.000 senza riferimento) e introduciamo RefineEval, un benchmark che valuta sia la fedeltà della regione modificata che la coerenza dello sfondo. Su RefineEval, RefineAnything ottiene miglioramenti significativi rispetto a baseline competitive e una preservazione dello sfondo quasi perfetta, stabilendo una soluzione pratica per l'affinamento locale di alta precisione. Pagina del progetto: https://limuloo.github.io/RefineAnything/.
Introduciamo Elastic Looped Transformers (ELT), una classe di modelli generativi visivi altamente efficiente in termini di parametri, basata su un'architettura transformer ricorrente. Mentre i modelli generativi convenzionali si basano su stack profondi di layer transformer unici, il nostro approccio utilizza blocchi transformer iterativi e a pesi condivisi per ridurre drasticamente il numero di parametri mantenendo un'elevata qualità di sintesi. Per addestrare efficacemente questi modelli per la generazione di immagini e video, proponiamo l'idea di *Intra-Loop Self Distillation* (ILSD), in cui le configurazioni studente (loop intermedi) vengono distillate dalla configurazione insegnante (numero massimo di loop di addestramento) per garantire coerenza lungo la profondità del modello in un singolo passo di addestramento. Il nostro framework produce una famiglia di modelli elastici da una singola esecuzione di addestramento, abilitando capacità di inferenza *Any-Time* con compromessi dinamici tra costo computazionale e qualità della generazione, a parità di numero di parametri. ELT sposta significativamente la frontiera dell'efficienza per la sintesi visiva. Con una riduzione di 4 volte del numero di parametri in condizioni iso-inference-compute, ELT raggiunge un FID competitivo di 2.0 su ImageNet 256×256 condizionato per classe e un FVD di 72.8 su UCF-101 condizionato per classe.
La generazione di referti radiografici del torace (CXR-RG) ha il potenziale di alleviare significativamente il carico di lavoro dei radiologi. Tuttavia, i convenzionali modelli visivo-linguistici (VLM) autoregressivi soffrono di un'elevata latenza inferenziale a causa del decadimento sequenziale dei token. I modelli basati su diffusione offrono un'alternativa promettente grazie alla generazione parallela, ma richiedono comunque multiple iterazioni di denoising. Comprimere il denoising multi-step in un singolo step potrebbe ridurre ulteriormente la latenza, ma spesso degrada la coerenza testuale a causa del bias di campo medio introdotto dai denoiser fattorizzati per token. Per affrontare questa sfida, proponiamo ECHO, un VLM basato su diffusione (dVLM) efficiente per la generazione di referti radiografici del torace. ECHO abilita un'inferenza stabile a un passo per blocco tramite una nuova struttura di Distillazione Condizionale Diretta (DCD), che mitiga la limitazione del campo medio costruendo una supervisione non fattorizzata a partire da traiettorie di diffusione on-policy per codificare le dipendenze congiunte dei token. Inoltre, introduciamo una strategia di addestramento a Diffusione Risposta-Asimmetrica (RAD) che migliora ulteriormente l'efficienza dell'addestramento mantenendo l'efficacia del modello. Esperimenti estensivi dimostrano che ECHO supera i metodi autoregressivi all'avanguardia, migliorando RaTE e SemScore rispettivamente del 64,33% e del 60,58%, raggiungendo al contempo un'accelerazione inferenziale di 8 volte senza compromettere l'accuratezza clinica.
I modelli linguistici di grandi dimensioni (LLM) e gli agenti basati su LLM sono sempre più impiegati come assistenti nella pianificazione e nel processo decisionale, eppure la maggior parte dei sistemi esistenti è implicitamente ottimizzata per un paradigma di interazione a singolo principale, in cui il modello è progettato per soddisfare gli obiettivi di un utente dominante le cui istruzioni sono trattate come unica fonte di autorità e utilità. Tuttavia, man mano che vengono integrati nei flussi di lavoro di gruppo e negli strumenti organizzativi, è sempre più richiesto che servano più utenti simultaneamente, ciascuno con ruoli, preferenze e livelli di autorità distinti, portando a contesti multi-utente e multi-principale caratterizzati da conflitti inevitabili, asimmetria informativa e vincoli di privacy. In questo lavoro, presentiamo il primo studio sistematico sugli agenti LLM multi-utente. Iniziamo formalizzando l'interazione multi-utente con gli agenti LLM come un problema decisionale multi-principale, in cui un singolo agente deve tenere conto di più utenti con interessi potenzialmente conflittuali e delle relative sfide. Introduciamo quindi un protocollo di interazione multi-utente unificato e progettiamo tre scenari mirati di stress-test per valutare le capacità degli LLM attuali nel seguire le istruzioni, preservare la privacy e coordinarsi. I nostri risultati rivelano lacune sistematiche: gli LLM all'avanguardia falliscono frequentemente nel mantenere una prioritizzazione stabile sotto obiettivi utente conflittuali, mostrano violazioni della privacy crescenti nelle interazioni multi-turno e soffrono di colli di bottiglia nell'efficienza quando il coordinamento richiede una raccolta iterativa di informazioni.
L'addestramento post-allenamento decentralizzato di grandi modelli linguistici utilizza tecniche di parallelismo dei dati e della pipeline per suddividere sia i dati che il modello. Sfortunatamente, l'addestramento post-allenamento decentralizzato può essere vulnerabile ad attacchi di avvelenamento e backdoor da parte di uno o più partecipanti malevoli. Esistono diversi lavori sugli attacchi e le difese contro il parallelismo dei dati decentralizzato o l'apprendimento federato. Tuttavia, i lavori esistenti sulla robustezza del parallelismo di pipeline si limitano agli attacchi di avvelenamento. Per quanto a nostra conoscenza, questo articolo presenta il primo attacco backdoor sul parallelismo di pipeline, progettato per disallineare il modello addestrato. Nel nostro setup, l'avversario controlla uno stadio intermedio della pipeline anziché l'intero modello o il dataset, rendendo inapplicabili gli attacchi esistenti, come l'avvelenamento dei dati. I nostri risultati sperimentali mostrano che anche un avversario con un controllo così limitato può iniettare il backdoor e causare il disallineamento del modello durante l'addestramento post-allenamento, indipendentemente dal dominio o dal dataset appreso. Con il nostro attacco, l'inclusione della parola trigger riduce la percentuale di allineamento dall'80% al 6%. Testiamo ulteriormente la robustezza del nostro attacco applicando un addestramento di sicurezza sull'allineamento finale del modello, e dimostriamo che il nostro attacco backdoor riesce ancora nel 60% dei casi.
Man mano che i grandi modelli linguistici (LLM) evolvono in agenti autonomi per la ricerca di informazioni a lungo termine, la gestione della capacità di contesto finita è diventata un collo di bottiglia critico. I metodi di gestione del contesto esistenti tipicamente adottano una singola strategia fissa per l'intera traiettoria. Questi progetti statici possono funzionare bene in alcuni stati, ma non sono in grado di adattarsi man mano che l'utilità e l'affidabilità del contesto accumulato evolvono durante la ricerca a lungo termine. Per formalizzare questa sfida, introduciamo un quadro probabilistico che caratterizza il successo a lungo termine attraverso due dimensioni complementari: l'efficienza della ricerca e la precisione terminale. Sulla base di questa prospettiva, proponiamo AgentSwing, un framework di routing adattivo e parallelo per la gestione del contesto, consapevole dello stato. Ad ogni punto di attivazione, AgentSwing espande in parallelo più rami con contesto gestito e utilizza un routing con lookahead per selezionare la continuazione più promettente. Esperimenti su diversi benchmark e architetture di agenti mostrano che AgentSwing supera costantemente i robusti metodi statici di gestione del contesto, spesso eguagliando o superando le loro prestazioni con fino a 3 volte meno turni di interazione, migliorando anche il limite prestazionale ultimo degli agenti web a lungo termine. Oltre ai vantaggi empirici, il quadro probabilistico proposto fornisce una lente principiata per analizzare e progettare future strategie di gestione del contesto per agenti a lungo termine.
La comprensione umana della dinamica video si basa tipicamente su una rappresentazione mentale strutturata di entità, azioni e relazioni temporali, piuttosto che affidarsi esclusivamente al ragionamento deduttivo immediato. Al contrario, gli attuali Video-LLM dipendono in larga misura da un ragionamento video non strutturato, in cui le prove visive critiche sono incorporate in descrizioni testuali verbose e la causalità temporale è spesso modellata in modo debole. Ciò porta a processi inefficienti e inferenze causali fragili. Per colmare questo divario cognitivo, proponiamo di costruire una rappresentazione compatta di eventi salienti e delle loro relazioni causali, che chiamiamo Structured Event Facts (Fatti di Evento Strutturati), prima della fase di ragionamento. Questo priore strutturato funge da vincolo esplicito per promuovere un ragionamento conciso e causalmente fondato, rendendo anche le prove intermedie più facili da verificare. Per addestrare efficacemente i modelli su tali fatti strutturati, introduciamo CausalFact-60K e una pipeline di addestramento in quattro fasi che comprende: allineamento dei fatti, warm-start del formato, warm-start del pensiero e post-addestramento basato su reinforcement learning. Durante la fase di RL, abbiamo riscontrato che questo framework introduce obiettivi in competizione, poiché la completezza strutturale e la fedeltà causale devono essere bilanciate con la lunghezza del ragionamento, rendendo difficile l'ottimizzazione. Affrontiamo questa sfida formulando l'ottimizzazione come un problema di Multi-Objective Reinforcement Learning (MORL) e ottimizzando esplicitamente verso la Pareto-Frontier per bilanciare questi compromessi. Di conseguenza, introduciamo Factum-4B, che produce un ragionamento più affidabile e offre prestazioni superiori in compiti complessi di comprensione video che richiedono inferenze temporali fine-grained.
I modelli visione-linguaggio (VLM) continuano a mostrare difficoltà in compiti di percezione visiva come la comprensione spaziale e il riconoscimento del punto di vista. Un fattore plausibile è che i dataset di immagini naturali forniscono una supervisione limitata per le abilità visive di basso livello. Ciò solleva una questione pratica: una supervisione sintetica mirata, generata a partire da una semplice parola chiave come "Ordine di Profondità", può affrontare queste carenze? Per indagare questa ipotesi, introduciamo VisionFoundry, una pipeline di generazione di dati sintetici "task-aware" che richiede in input solo il nome del compito, utilizza modelli linguistici di grandi dimensioni (LLM) per generare domande, risposte e prompt testo-immagine (T2I), sintetizza quindi le immagini con modelli T2I e verifica la coerenza con un VLM proprietario, il tutto senza necessitare di immagini di riferimento o annotazioni umane. Utilizzando VisionFoundry, abbiamo costruito VisionFoundry-10K, un dataset sintetico di visual question answering (VQA) contenente 10.000 triple immagine-domanda-risposta che coprono 10 compiti diversi. I modelli addestrati su VisionFoundry-10K raggiungono miglioramenti sostanziali sui benchmark di percezione visiva: +7% su MMVP e +10% su CV-Bench-3D, preservando al contempo capacità più ampie e mostrando un comportamento di scaling favorevole all'aumentare della dimensione dei dati. I nostri risultati suggeriscono che una supervisione mirata e limitata al compito sia un importante fattore che contribuisce a questo collo di bottiglia e che la supervisione sintetica rappresenti una strada promettente verso un addestramento più sistematico per i VLM.
Molte discipline pongono domande di ricerca in linguaggio naturale su ampie collezioni documentali, le cui risposte richiedono tipicamente evidenze strutturate, tradizionalmente ottenute progettando manualmente uno schema di annotazione ed etichettando esaustivamente il corpus, un processo lento e soggetto a errori. Introduciamo ScheMatiQ, che sfrutta chiamate a un LLM di base per prendere una domanda e un corpus e produrre uno schema e un database fondato, con un'interfaccia web che consente di guidare e revisionare l'estrazione. In collaborazione con esperti di dominio, dimostriamo che ScheMatiQ produce output che supportano analisi del mondo reale in ambito giuridico e di biologia computazionale. Rilasciamo ScheMatiQ come open source con un'interfaccia web pubblica e invitiamo esperti di varie discipline a utilizzarlo con i propri dati. Tutte le risorse, incluso il sito web, il codice sorgente e il video dimostrativo, sono disponibili su: www.ScheMatiQ-ai.com
Prevedere accuratamente l'evoluzione di scene complesse e diversificate richiede modelli in grado di rappresentare l'incertezza, simulare lunghe catene di interazioni ed esplorare efficientemente numerosi futuri plausibili. Tuttavia, la maggior parte degli approcci esistenti si basa sulla predizione densa di video o di spazi latenti, impiegando una capacità sostanziale sull'aspetto denso piuttosto che sulle traiettorie sparse sottostanti dei punti nella scena. Ciò rende costosa l'esplorazione su larga scala delle ipotesi future e limita le prestazioni quando il movimento a lungo termine e multimodale è essenziale. Affrontiamo questo problema formulando la previsione della dinamica futura di scene a insieme aperto come un'inferenza passo-passo su traiettorie di punti sparse. Il nostro modello di diffusione autoregressivo fa progredire queste traiettorie attraverso transizioni brevi e localmente prevedibili, modellando esplicitamente la crescita dell'incertezza nel tempo. Questa rappresentazione incentrata sulla dinamica consente il rapido dispiegamento di migliaia di futuri diversi a partire da una singola immagine, opzionalmente guidato da vincoli iniziali sul movimento, mantenendo al contempo plausibilità fisica e coerenza a lungo raggio. Introduciamo inoltre OWM, un benchmark per la previsione del movimento a insieme aperto basato su video eterogenei del mondo reale, per valutare l'accuratezza e la variabilità delle distribuzioni di traiettorie previste in condizioni di incertezza realistica. Il nostro metodo eguaglia o supera i simulatori densi in accuratezza predittiva, raggiungendo al contempo una velocità di campionamento superiore di ordini di grandezza, rendendo la previsione futura a insieme aperto sia scalabile che pratica. Pagina del progetto: http://compvis.github.io/myriad.
I grandi modelli linguistici (LLM) vengono sottoposti ad addestramento di allineamento per evitare comportamenti dannosi, eppure le relative salvaguardie risultano fragili: i jailbreak le aggirano regolarmente e il fine-tuning su domini ristretti può indurre un "disallineamento emergente" che si generalizza ampiamente. Resta poco chiaro se questa fragilità rifletta una fondamentale mancanza di un'organizzazione interna coerente per la dannosità. Qui utilizziamo il pruning mirato dei pesi come intervento causale per investigare l'organizzazione interna della dannosità negli LLM. Troviamo che la generazione di contenuti dannosi dipende da un insieme compatto di pesi che sono generali tra i tipi di danno e distinti dalle capacità benigne. I modelli allineati mostrano una maggiore compressione dei pesi per la generazione di danni rispetto alle controparti non allineate, indicando che l'allineamento rimodella internamente le rappresentazioni dannose – nonostante la fragilità delle protezioni di sicurezza a livello superficiale. Questa compressione spiega il disallineamento emergente: se i pesi delle capacità dannose sono compressi, un fine-tuning che coinvolge questi pesi in un dominio può innescare un ampio disallineamento. Coerentemente con ciò, il pruning dei pesi per la generazione di danni in un dominio ristretto riduce sostanzialmente il disallineamento emergente. È degno di nota il fatto che la capacità di generazione dannosa degli LLM sia dissociata da come essi riconoscono e spiegano tali contenuti. Nel complesso, questi risultati rivelano una struttura interna coerente per la dannosità negli LLM che potrebbe servire come base per approcci alla sicurezza più principiati.
L'ottimizzazione dei prompt migliora i modelli linguistici senza aggiornarne i pesi, ricercando un prompt di sistema migliore, ma la sua efficacia varia notevolmente tra i diversi compiti. Studiamo cosa rende un compito adatto all'ottimizzazione dei prompt. Dimostriamo che la varianza della ricompensa tra diversi prompt di sistema può essere scomposta in due componenti: la varianza tra le risposte, che cattura la stocasticità della generazione, e la varianza tra i prompt di sistema, che cattura le differenze nella qualità dei prompt di sistema. L'ottimizzazione dei prompt ha successo quando la varianza tra i prompt di sistema è sufficientemente ampia, ma fallisce quando la varianza tra le risposte domina la varianza dei prompt di sistema. Sorprendentemente, dimostriamo inoltre che scalare su un numero maggiore di prompt utente può danneggiare l'ottimizzazione riducendo la varianza tra i prompt di sistema, specialmente su dataset eterogenei in cui prompt utente diversi favoriscono prompt di sistema diversi. Motivati da questa intuizione, proponiamo p1, un semplice metodo di filtraggio dei prompt utente che seleziona un piccolo sottoinsieme di prompt utente con alta varianza tra i prompt di sistema candidati. Questo sottoinsieme di prompt utente consente di distinguere un buon prompt di sistema da uno cattivo, rendendo più facile l'ottimizzazione del sistema. Esperimenti su benchmark di ragionamento mostrano che p1 migliora sostanzialmente l'ottimizzazione dei prompt rispetto all'addestramento sull'intero dataset e supera baseline robuste come GEPA. Notevolmente, l'addestramento su soli due prompt di AIME 24 produce un prompt di sistema che si generalizza bene ad altri benchmark di ragionamento.
Man mano che le reti neurali grafiche SE(3)-equivarianti si consolidano come strumento fondamentale per la modellazione atomistica 3D, il miglioramento della loro efficienza, espressività e coerenza fisica è diventato una sfida centrale per le applicazioni su larga scala. In questo lavoro, presentiamo EquiformerV3, la terza generazione del Transformer ad attenzione grafica SE(3)-equivariante, progettato per far progredire tutte e tre le dimensioni: efficienza, espressività e generalità. Basandoci su EquiformerV2, introduciamo i seguenti tre progressi chiave. In primo luogo, ottimizziamo l'implementazione software, ottenendo un aumento di velocità di 1,75 volte. In secondo luogo, introduciamo modifiche semplici ed efficaci a EquiformerV2, inclusa la normalizzazione di livello fusa equivariante, iperparametri migliorati per la rete feedforward e l'attenzione con cutoff radiale liscio. In terzo luogo, proponiamo le attivazioni SwiGLU-S^2 per incorporare interazioni a molti corpi, al fine di ottenere una migliore espressività teorica e preservare l'equivarianza stretta riducendo al contempo la complessità del campionamento delle griglie S^2. Insieme, le attivazioni SwiGLU-S^2 e l'attenzione con cutoff liscio consentono una modellazione accurata di superfici di energia potenziale (PES) che variano dolcemente, generalizzando EquiformerV3 a compiti che richiedono simulazioni che conservano l'energia e derivate di ordine superiore delle PES. Con questi miglioramenti, EquiformerV3 addestrato con il compito ausiliario di denoising di strutture non in equilibrio (DeNS) raggiunge risultati all'avanguardia su OC20, OMat24 e Matbench Discovery.
Il ragionamento in domini ad alta intensità di conoscenza rimane impegnativo poiché i passaggi intermedi spesso non sono verificabili localmente: a differenza della matematica o del codice, la valutazione della correttezza di un passaggio può richiedere la sintesi di indizi attraverso ampie fonti di conoscenza esterne. Di conseguenza, errori sottili possono propagarsi attraverso le tracce di ragionamento, rischiando di non essere mai rilevati. I lavori precedenti hanno proposto modelli di ricompensa del processo (PRM), inclusi varianti potenziate dal retrieval, ma questi metodi operano a posteriori, valutando traiettorie completate, il che ne impedisce l'integrazione in procedure di inferenza dinamiche. Qui introduciamo Process Reward Agents (PRA), un metodo applicato al tempo di test per fornire ricompense passo-passo, ancorate al dominio e in tempo reale, a una policy congelata. A differenza dei PRM potenziati dal retrieval precedenti, PRA consente alla decodifica basata sulla ricerca di classificare e potare le traiettorie candidate a ogni passaggio di generazione. Esperimenti su molteplici benchmark di ragionamento medico dimostrano che PRA supera costantemente baseline solide, raggiungendo un'accuratezza dell'80,8% su MedQA con Qwen3-4B, un nuovo stato dell'arte alla scala dei 4B. È importante sottolineare che PRA generalizza a modelli di policy congelati non visti, che vanno da 0,5B a 8B di parametri, migliorando la loro accuratezza fino al 25,7% senza alcun aggiornamento del modello di policy. Più in generale, PRA suggerisce un paradigma in cui i sistemi di ragionamento congelati sono disaccoppiati da moduli di ricompensa specifici del dominio, consentendo l'implementazione di nuovi modelli di base in domini complessi senza riaddestramento.
L'interpretazione è essenziale per decifrare il linguaggio dell'arte: il pubblico comunica con gli artisti recuperando il significato dagli artefatti visivi. Tuttavia, gli attuali valutatori di Arte Generativa (GenArt) rimangono fissati sulla qualità dell'immagine a livello superficiale o sull'aderenza letterale al prompt, non riuscendo a valutare il significato simbolico o astratto più profondo voluto dal creatore. Affrontiamo questa lacuna formalizzando una teoria semiotica computazionale di stampo Peirciano che modella l'Interazione Uomo-Arte Generativa (HGI) come semiosi a cascata. Questo quadro teorico rivela che il significato artistico è veicolato attraverso tre modalità - iconica, simbolica e indessicale - eppure i valutatori esistenti operano pesantemente all'interno della modalità iconica, rimanendo strutturalmente ciechi rispetto alle ultime due. Per superare questa cecità strutturale, proponiamo SemJudge. Questo valutatore valuta esplicitamente il significato simbolico e indessicale nell'HGI attraverso un Grafo di Semiosi Gerarchico (HSG) che ricostruisce il processo di creazione del significato dal prompt all'artefatto generato. Esperimenti quantitativi estensivi mostrano che SemJudge si allinea più strettamente ai giudizi umani rispetto ai valutatori precedenti su un benchmark di belle arti incentrato sull'interpretazione. Studi con utenti dimostrano ulteriormente che SemJudge produce interpretazioni artistiche più profonde e perspicaci, aprendo così la strada affinché la GenArt vada oltre la generazione di immagini "gradevoli" verso un mezzo capace di esprimere l'esperienza umana complessa. Pagina del progetto: https://github.com/songrise/SemJudge.
Questo lavoro indaga la fragilità fondamentale dei modelli visione-linguaggio (VLM) all'avanguardia quando sottoposti a trasformazioni geometriche di base. Sebbene i VLM moderni eccellano in compiti semantici come il riconoscimento di oggetti in orientamenti canonici e la descrizione di scene complesse, mostrano fallimenti sistematici a un livello più fondamentale: la mancanza di una robusta invarianza ed equivarianza spaziale necessaria per determinare in modo affidabile l'identità degli oggetti sotto semplici rotazioni, ridimensionamenti e trasformazioni identitarie. Dimostriamo questa limitazione attraverso una valutazione sistematica in diversi domini visivi, inclusi schizzi simbolici, fotografie naturali e arte astratta. Le prestazioni calano bruscamente quando il contenuto semantico diventa scarso, e questo comportamento è osservato in tutte le architetture, capacità dei modelli e strategie di prompting. Nel complesso, i nostri risultati rivelano un divario sistematico tra la comprensione semantica e il ragionamento spaziale negli attuali VLM, evidenziando la necessità di un ancoraggio geometrico più solido per i futuri sistemi multimodali.
La generazione di volti parlanti ha ottenuto un'attenzione significativa come applicazione centrale dei modelli generativi. Per migliorare l'espressività e il realismo dei video sintetizzati, l'editing emotivo nei video di volti parlanti svolge un ruolo cruciale. Tuttavia, gli approcci esistenti spesso limitano la flessibilità espressiva e faticano a generare emozioni complesse. I metodi basati su etichette rappresentano le emozioni con categorie discrete, che non riescono a catturare un'ampia gamma di stati emotivi. I metodi basati sull'audio possono sfruttare segnali vocali emotivamente ricchi - e persino trarre vantaggio dalla sintesi vocale (TTS) espressiva - ma non riescono a esprimere le emozioni target poiché le emozioni e i contenuti linguistici sono intrecciati nei discorsi emotivi. I metodi basati su immagini, d'altro canto, si affidano a immagini di riferimento target per guidare il trasferimento emotivo, ma richiedono viste frontali di alta qualità e incontrano difficoltà nell'acquisire dati di riferimento per emozioni complesse (ad esempio, il sarcasmo). Per affrontare queste limitazioni, proponiamo il Cross-Modal Emotion Transfer (C-MET), un approccio innovativo che genera espressioni facciali basate sui discorsi modellando vettori semantici emotivi tra gli spazi delle caratteristiche vocali e visive. C-MET sfrutta un encoder audio pre-addestrato su larga scala e un encoder delle espressioni facciali disaccoppiato per apprendere vettori semantici emotivi che rappresentano la differenza tra due diversi incorporamenti emotivi attraverso le modalità. Esperimenti estesi sui dataset MEAD e CREMA-D dimostrano che il nostro metodo migliora l'accuratezza emotiva del 14% rispetto ai metodi all'avanguardia, generando al contempo video espressivi di volti parlanti - anche per emozioni complesse non viste durante l'addestramento. Codice, checkpoint e demo sono disponibili al sito https://chanhyeok-choi.github.io/C-MET/.
I modelli di diffusione e le loro varianti, come i flussi rettificati, generano immagini diversificate e di alta qualità, ma sono ancora ostacolati da un campionamento iterativo lento causato dagli altamente curvati percorsi generativi che apprendono. Una causa importante dell'elevata curvatura, come dimostrato da lavori precedenti, è l'indipendenza tra la distribuzione sorgente (Gaussiana standard) e la distribuzione dei dati. In questo lavoro, affrontiamo questa limitazione con due contributi complementari. In primo luogo, tentiamo di abbandonare l'assunzione della Gaussiana standard introducendo κ-FC, una formulazione generale che condiziona la distribuzione sorgente su un segnale arbitrario κ, allineandola meglio alla distribuzione dei dati. Successivamente, presentiamo MixFlow, una strategia di addestramento semplice ma efficace che riduce le curvature del percorso generativo e migliora notevolmente l'efficienza del campionamento. MixFlow addestra un modello di flusso su miscele lineari di una distribuzione incondizionata fissa e di una distribuzione basata su κ-FC. Questa semplice miscela migliora l'allineamento tra la sorgente e i dati, fornisce una qualità di generazione migliore con meno passi di campionamento richiesti e accelera notevolmente la convergenza dell'addestramento. In media, la nostra procedura di addestramento migliora la qualità della generazione del 12% in FID rispetto al flusso rettificato standard e del 7% rispetto ai precedenti baseline con un budget di campionamento fisso. Codice disponibile all'indirizzo: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}
La generazione di video controllabile tramite telecamera mira a sintetizzare video con movimenti di camera flessibili e fisicamente plausibili. Tuttavia, i metodi esistenti forniscono un controllo impreciso della camera tramite prompt testuali o si basano su parametri di traiettoria manuali laboriosi, limitandone l'uso in scenari automatizzati. Per affrontare questi problemi, proponiamo un nuovo modello Visione-Linguaggio-Camera, denominato CT-1 (Camera Transformer 1), un modello specializzato progettato per trasferire la conoscenza del ragionamento spaziale alla generazione video stimando accuratamente le traiettorie della camera. Basato su moduli visione-linguaggio e su un modello Diffusion Transformer, CT-1 impiega una Loss di Regolarizzazione basata su Wavelet nel dominio della frequenza per apprendere efficacemente le distribuzioni complesse delle traiettorie della camera. Queste traiettorie sono integrate in un modello di diffusione video per abilitare un controllo della camera spazialmente consapevole e allineato con le intenzioni dell'utente. Per facilitare l'addestramento di CT-1, abbiamo progettato una pipeline dedicata di curatela dei dati e costruito CT-200K, un dataset su larga scala contenente oltre 47 milioni di fotogrammi. I risultati sperimentali dimostrano che il nostro framework colma con successo il divario tra ragionamento spaziale e sintesi video, producendo video controllabili della camera fedeli e di alta qualità e migliorando l'accuratezza del controllo della camera del 25,7% rispetto ai metodi precedenti.
La quantizzazione additiva consente una compressione estrema dei LLM con una dequantizzazione O(1) tramite lookup-table, rendendola interessante per il deployment su dispositivi edge. Tuttavia, con una precisione a 2 bit, fallisce spesso in modo catastrofico, anche con ricerche estese e finetuning. Dimostriamo che il collo di bottiglia principale è l'inizializzazione del codebook. Un'inizializzazione sequenziale greedy colloca frequentemente il modello in regioni di ottimizzazione scadenti, che le successive ricerche beam search e PV-tuning faticano a superare. Analizziamo questo comportamento attraverso il rapporto rappresentazionale ho = N/KM, che caratterizza la relazione tra gruppi di pesi e capacità del codebook, e proponiamo OA-EM, un metodo di inizializzazione EM output-aware che utilizza la distanza di Mahalanobis ponderata per l'Hessiano. Attraverso diversi tassi di compressione, budget di ricerca e tre architetture (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), OA-EM produce costantemente soluzioni migliori dopo il PV-tuning e domina la frontiera qualità-calcolo. La gravità del collo di bottiglia scala con ho: moderata a 3 bpp ma estrema a 2 bpp, dove una scarsa inizializzazione può degradare la perplexità di ordini di grandezza. Più in generale, i nostri risultati evidenziano l'importanza della geometria dell'ottimizzazione negli spazi dei modelli compressi, dove l'inizializzazione può dominare la successiva ricerca e il fine-tuning.
La generazione Audio-Video da Testo (T2AV) sta rapidamente diventando un'interfaccia fondamentale per la creazione di contenuti multimediali, nonostante la sua valutazione rimanga frammentaria. I benchmark esistenti valutano largamente l'audio e il video in modo isolato o si basano su una somiglianza di incorporamento grossolana, non riuscendo a cogliere la correttezza congiunta a grana fine richiesta da prompt realistici. Introduciamo AVGen-Bench, un benchmark orientato ai compiti per la generazione T2AV che presenta prompt di alta qualità in 11 categorie del mondo reale. Per supportare una valutazione completa, proponiamo un framework di valutazione multi-granularità che combina modelli specialistici leggeri con Modelli Linguistici Multimodali di Grande Scala (MLLM), consentendo una valutazione che va dalla qualità percettiva alla controllabilità semantica fine. La nostra valutazione rivela un divario marcato tra una forte estetica audiovisiva e un'affidabilità semantica debole, inclusi fallimenti persistenti nel rendering del testo, nella coerenza del parlato, nel ragionamento fisico e un collasso universale nel controllo dell'intonazione musicale. Il codice e le risorse del benchmark sono disponibili all'indirizzo http://aka.ms/avgenbench.
Sebbene i Large Language Model (LLM) raggiungano alte prestazioni sui benchmark matematici standard, i loro processi di ragionamento sottostanti rimangono fortemente sovradattati alla formattazione testuale convenzionale. Proponiamo una pipeline di perturbazione composta da 14 tecniche per valutare la robustezza del ragionamento dei LLM. Applichiamo questa pipeline al dataset AIME 2024 e valutiamo 8 modelli all'avanguardia sul benchmark risultante. Mentre i modelli di frontiera mostrano resilienza, i modelli di ragionamento open-weight subiscono crolli catastrofici (fino a cali di accuratezza media del 55% tra le perturbazioni e fino al 100% su alcune), rivelando una fragilità strutturale. Per separare ulteriormente i fallimenti di parsing meccanico da quelli di ragionamento a valle, isoliamo rigorosamente la capacità di memoria di lavoro dei modelli costringendoli a risolvere sequenzialmente più problemi matematici non perturbati all'interno di un'unica finestra contestuale. I nostri risultati indicano che i modelli open-weight, con parametri che vanno da 7B a 120B, e Claude Opus 4.6 mostrano un decadimento dell'accuratezza sui problemi successivi. Questo degrado dimostra che i passaggi di ragionamento intermedi inquinano permanentemente i meccanismi standard di attention densa. Sosteniamo che, per ottenere un ragionamento affidabile, le future architetture di ragionamento debbano integrare reset contestuali espliciti all'interno della stessa Catena di Pensiero (Chain-of-Thought) del modello, sollevando fondamentali questioni aperte riguardanti la granularità ottimale dei compiti di ragionamento atomici.
I benchmark standard per LLM valutano il turno dell'assistente: il modello genera una risposta a un input, un verificatore assegna un punteggio di correttezza e l'analisi termina. Questo paradigma lascia non misurato se l'LLM codifichi una qualche consapevolezza di ciò che segue la risposta dell'assistente. Proponiamo la generazione del turno utente come sonda di questa lacuna: dato un contesto conversazionale composto da una query utente e una risposta dell'assistente, lasciamo che un modello generi nel ruolo dell'utente. Se i pesi del modello codificano una consapevolezza dell'interazione, il turno utente generato sarà un follow-up contestuale che reagisce al contesto precedente. Attraverso esperimenti su 11 LLM open-weight (Qwen3.5, gpt-oss, GLM) e 5 dataset (ragionamento matematico, esecuzione di istruzioni, conversazione), dimostriamo che la consapevolezza dell'interazione è disaccoppiata dall'accuratezza nel compito. In particolare, all'interno della famiglia Qwen3.5, l'accuratezza su GSM8K scala dal 41% (0.8B) al 96.8% (397B-A17B), eppure i tassi di follow-up genuini sotto generazione deterministica rimangono prossimi allo zero. Al contrario, un campionamento a temperatura più elevata rivela che la consapevolezza dell'interazione è latente, con tassi di follow-up che raggiungono il 22%. Perturbazioni controllate convalidano che la sonda proposta misura una proprietà reale del modello, e un post-addestramento orientato alla collaborazione su Qwen3.5-2B dimostra un aumento dei tassi di follow-up. I nostri risultati mostrano che la generazione del turno utente cattura una dimensione del comportamento degli LLM, la consapevolezza dell'interazione, che è inesplorata e invisibile con gli attuali benchmark incentrati solo sull'assistente.
Il pensiero creativo è un aspetto fondamentale della cognizione umana, e il pensiero divergente – la capacità di generare idee nuove e varie – è ampiamente considerato il suo motore generativo centrale. I grandi modelli linguistici (LLM) hanno recentemente dimostrato prestazioni impressionanti nei test di pensiero divergente, e lavori precedenti hanno indicato che i modelli con prestazioni migliori tendono a essere più allineati all'attività cerebrale umana. Tuttavia, gli studi esistenti sull'allineamento cervello-LLM si sono concentrati su compiti passivi e non creativi. Qui esploriamo l'allineamento cerebrale durante il pensiero creativo utilizzando dati fMRI di 170 partecipanti che eseguono il Compito degli Usi Alternativi (AUT). Estraiamo rappresentazioni da LLM di dimensioni variabili (da 270M a 72B) e misuriamo l'allineamento con le risposte cerebrali tramite l'Analisi della Similarità Rappresentazionale (RSA), prendendo di mira le reti neurali correlate alla creatività, ovvero la default mode network e le reti frontoparietali. Troviamo che l'allineamento cervello-LLM scala con la dimensione del modello (solo per la default mode network) e con l'originalità delle idee (entrambe le reti), con effetti più forti all'inizio del processo creativo. Mostriamo inoltre che gli obiettivi di post-addestramento modellano l'allineamento in modo funzionalmente selettivo: un Llama-3.1-8B-Instruct ottimizzato per la creatività preserva l'allineamento con le risposte neurali ad alta creatività riducendo quello con le risposte a bassa creatività; un modello raffinato sul comportamento umano eleva l'allineamento con entrambe; e una variante addestrata per il ragionamento mostra il modello opposto, suggerendo che l'addestramento a catena del pensiero orienta le rappresentazioni lontano dalla geometria neurale creativa verso un'elaborazione analitica. Questi risultati dimostrano che gli obiettivi di post-addestramento rimodellano selettivamente le rappresentazioni degli LLM rispetto alla geometria neurale del pensiero creativo umano.
Il campionamento speculativo (SpS) ha avuto successo nell'accelerare il throughput di decodifica dei modelli linguistici di grandi dimensioni auto-regressivi sfruttando modelli draft più piccoli. Lo SpS impone rigorosamente che la distribuzione generata corrisponda a quella del modello LLM verificatore. Questa condizione è inutilmente restrittiva, poiché lievi variazioni della distribuzione del verificatore, come il campionamento con top-k o la temperatura, sarebbero ugualmente accettabili. Il campionamento di accettazione tipico (TAS) mitiga questo problema accettando più token utilizzando euristiche basate sull'entropia. Tuttavia, questo approccio distorce la distribuzione del verificatore, rischiando di degradare la qualità dell'output quando il verificatore codifica informazioni critiche. In questo lavoro, formalizziamo l'algoritmo di campionamento speculativo attraverso la lente dell'ottimizzazione vincolata. Sulla base di questa formulazione, proponiamo Cactus (constrained acceptance speculative sampling), un metodo che garantisce una divergenza controllata dalla distribuzione del verificatore e tassi di accettazione crescenti. I risultati empirici su un'ampia gamma di benchmark confermano l'efficacia del nostro approccio.