Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sogniamo un futuro in cui le nuvole di punti provenienti da tutti i domini possano convergere per formare un unico modello che le avvantaggi tutte. Verso questo obiettivo, presentiamo Utonia, un primo passo verso l'addestramento di un singolo codificatore transformer per punti, auto-supervisionato, attraverso domini diversi, che spaziano dal telerilevamento, ai LiDAR esterni, alle sequenze RGB-D indoor, ai modelli CAD object-centric, e alle nuvole di punti estratte da video esclusivamente RGB. Nonostante le loro distinte geometrie di acquisizione, densità e prior, Utonia apprende uno spazio di rappresentazione coerente che si trasferisce attraverso i domini. Questa unificazione migliora la capacità percettiva rivelando al contempo intriganti comportamenti emergenti che si manifestano solo quando i domini sono addestrati congiuntamente. Oltre alla percezione, osserviamo che le rappresentazioni di Utonia possono avvantaggiare anche il ragionamento embodied e multimodale: il condizionamento di policy visione-linguaggio-azione sulle caratteristiche di Utonia migliora la manipolazione robotica, e la loro integrazione nei modelli visione-linguaggio produce vantaggi nel ragionamento spaziale. Speriamo che Utonia possa rappresentare un passo verso modelli di fondazione per i dati 3D sparsi e supportare applicazioni a valle nella realtà aumentata/virtuale, nella robotica e nella guida autonoma.
I modelli multimodali unificati hanno recentemente dimostrato forti capacità generative, ma rimane poco chiaro se e quando la generazione migliori la comprensione. I benchmark esistenti mancano di un'esplorazione sistematica dei compiti specifici in cui la generazione facilita la comprensione. A tal fine, introduciamo UniG2U-Bench, un benchmark completo che categorizza la valutazione generazione-per-comprensione (G2U) in 7 regimi e 30 sottocompiti, che richiedono vari gradi di trasformazioni visive implicite o esplicite. Una valutazione estesa di oltre 30 modelli rivela tre risultati fondamentali: 1) I modelli unificati generalmente ottengono prestazioni inferiori rispetto ai modelli base di visione e linguaggio (VLM), e l'inferenza Genera-e-poi-Rispondi (GtA) tipicamente degrada le prestazioni rispetto all'inferenza diretta. 2) Miglioramenti consistenti emergono nei sottocompiti di intelligenza spaziale, illusioni ottiche o ragionamento multi-round, dove si rivelano vantaggiose una percezione spaziale e delle forme potenziata, nonché stati immagine intermedi multi-step. 3) Compiti con strutture di ragionamento simili e modelli che condividono architetture mostrano comportamenti correlati, suggerendo che l'accoppiamento generazione-comprensione induce bias induttivi coerenti per classe rispetto a compiti, dati di pre-addestramento e architetture dei modelli. Questi risultati evidenziano la necessità di dati di addestramento più diversificati e nuovi paradigmi per sbloccare appieno il potenziale della modellazione multimodale unificata.
Il mondo visivo rappresenta un asse critico per l'avanzamento dei modelli fondazionali oltre il linguaggio. Nonostante il crescente interesse in questa direzione, lo spazio di progettazione per modelli multimodali nativi rimane opaco. Forniamo chiarezza empirica attraverso esperimenti controllati di pre-addestramento da zero, isolando i fattori che governano il pre-addestramento multimodale senza interferenze dal pre-addestramento linguistico. Adottiamo il framework Transfusion, utilizzando la predizione del token successivo per il linguaggio e la diffusione per la visione, per addestrare su dati diversificati inclusi testo, video, coppie immagine-testo e persino video condizionati all'azione. I nostri esperimenti producono quattro intuizioni chiave: (i) il Representation Autoencoder (RAE) fornisce una rappresentazione visiva unificata ottimale eccellendo sia nella comprensione che nella generazione visiva; (ii) i dati visivi e linguistici sono complementari e producono sinergie per le capacità downstream; (iii) il pre-addestramento multimodale unificato conduce naturalmente alla modellazione del mondo, con capacità che emergono dall'addestramento generale; e (iv) il Mixture-of-Experts (MoE) consente uno scaling multimodale efficiente ed efficace inducendo naturalmente la specializzazione modale. Attraverso l'analisi IsoFLOP, calcoliamo le leggi di scaling per entrambe le modalità e scopriamo un'asimmetria di scaling: la visione è significativamente più avida di dati del linguaggio. Dimostriamo che l'architettura MoE armonizza questa asimmetria di scaling fornendo l'elevata capacità di modello richiesta dal linguaggio mentre si adatta alla natura data-intensive della visione, aprendo la strada a modelli multimodali veramente unificati.
Gli attuali benchmark per i code agent valutano principalmente correzioni ristrette e specifiche per repository, tralasciando sfide critiche del mondo reale come il ragionamento cross-repository, la risoluzione di problemi specializzati per dominio, la migrazione guidata dalle dipendenze e la generazione completa di repository. Per colmare questa lacuna, introduciamo BeyondSWE, un benchmark completo che amplia le valutazioni esistenti lungo due assi: lo scopo di risoluzione e lo scopo della conoscenza, utilizzando 500 istanze del mondo reale in quattro contesti distinti. I risultati sperimentali rivelano un significativo divario di capacità: anche i modelli più all'avanguardia si assestano al di sotto del 45% di successo, e nessun singolo modello performa in modo coerente tra i tipi di compito. Per indagare sistematicamente il ruolo della conoscenza esterna, sviluppiamo SearchSWE, un framework che integra la ricerca approfondita con le abilità di codifica. I nostri esperimenti mostrano che l'augmentation tramite ricerca produce guadagni inconsistenti e può in alcuni casi degradare le prestazioni, evidenziando la difficoltà di emulare flussi di lavoro simili a quelli degli sviluppatori che intercalano ricerca e ragionamento durante le attività di codifica. Questo lavoro offre sia un benchmark di valutazione realistico e impegnativo, sia un framework flessibile per far progredire la ricerca verso code agent più capaci.
Presentiamo Qwen3-Coder-Next, un modello linguistico open-weight specializzato per agenti di programmazione. Qwen3-Coder-Next è un modello da 80 miliardi di parametri che attiva solo 3 miliardi di parametri durante l'inferenza, garantendo solide capacità di coding con un'inferenza efficiente. In questo lavoro, esploriamo fino a che punto ricette di addestramento avanzate possano spingere i limiti delle capacità di modelli con un'impronta parametrica ridotta. Per raggiungere questo obiettivo, eseguiamo un addestramento agentistico attraverso la sintesi su larga scala di task di programmazione verificabili abbinati ad ambienti eseguibili, consentendo l'apprendimento diretto dal feedback dell'ambiente tramite mid-training e reinforcement learning. Su benchmark incentrati sugli agenti, come SWE-Bench e Terminal-Bench, Qwen3-Coder-Next raggiunge prestazioni competitive rispetto al suo numero di parametri attivi. Rilasciamo sia versioni base che instruction-tuned open-weight per supportare la ricerca e lo sviluppo di agenti di programmazione nel mondo reale.
I recenti progressi nei Modelli di Ricompensa Generativi (GRM) hanno dimostrato che aumentare la lunghezza del ragionamento a Catena di Pensiero (CoT) migliora considerevolmente l'affidabilità della valutazione. Tuttavia, i lavori attuali si basano prevalentemente su un aumento di lunghezza non strutturato, tralasciando la diversa efficacia di diversi meccanismi di ragionamento: Breadth-CoT (B-CoT, cioè copertura multidimensionale dei principi) e Depth-CoT (D-CoT, cioè solidità del giudizio sostanziale). Per affrontare ciò, introduciamo Mix-GRM, un framework che riconfigura le ragioni grezze in B-CoT e D-CoT strutturati attraverso una pipeline di sintesi modulare, impiegando successivamente Fine-Tuning Supervisionato (SFT) e Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per interiorizzare e ottimizzare questi meccanismi. Esperimenti completi dimostrano che Mix-GRM stabilisce un nuovo stato dell'arte su cinque benchmark, superando i principali RM open-source in media dell'8,2%. I nostri risultati rivelano una chiara divergenza nel ragionamento: il B-CoT beneficia compiti di preferenza soggettiva, mentre il D-CoT eccelle in compiti di correttezza oggettiva. Di conseguenza, un disallineamento tra il meccanismo di ragionamento e il compito degrada direttamente le prestazioni. Inoltre, dimostriamo che l'RLVR agisce come un amplificatore di commutazione, inducendo una polarizzazione emergente in cui il modello assegna spontaneamente il proprio stile di ragionamento per soddisfare le richieste del compito. I dati e i modelli sintetizzati sono rilasciati su https://huggingface.co/collections/DonJoey/mix-grm, e il codice è rilasciato su https://github.com/Don-Joey/Mix-GRM.
L'animazione dei personaggi mira a generare video realistici trasferendo la dinamica del movimento da un video guida a un'immagine di riferimento. I recenti progressi nei modelli generativi hanno aperto la strada a un'animazione dei personaggi ad alta fedeltà. In questo lavoro, presentiamo Kling-MotionControl, un framework unificato basato su DiT, progettato specificamente per un'animazione olistica dei personaggi robusta, precisa ed espressiva. Sfruttando una strategia divide-et-impera all'interno di un sistema coerente, il modello orchestra rappresentazioni eterogenee del movimento, adattate alle caratteristiche distinte di corpo, viso e mani, riconciliando efficacemente la stabilità strutturale su larga scala con l'espressività articolatoria fine. Per garantire una generalizzazione robusta tra identità diverse, incorporiamo un apprendimento adattivo agnostico all'identità, facilitando il retargeting naturale del movimento per personaggi che spaziano da umani realistici a cartoni animati stilizzati. Allo stesso tempo, garantiamo una preservazione fedele dell'aspetto attraverso un'attenta progettazione di iniezione e fusione dell'identità, ulteriormente supportata da un meccanismo di libreria dei soggetti che sfrutta contesti di riferimento completi. Per garantire l'utilità pratica, implementiamo un framework avanzato di accelerazione che utilizza una distillazione multi-stadio, aumentando la velocità di inferenza di oltre 10 volte. Kling-MotionControl si distingue per la comprensione semantica intelligente del movimento e la precisa reattività al testo, consentendo un controllo flessibile che va oltre gli input visivi. Le valutazioni di preferenza umana dimostrano che Kling-MotionControl offre prestazioni superiori rispetto alle principali soluzioni commerciali e open-source, raggiungendo una fedeltà eccezionale nel controllo olistico del movimento, nella generalizzazione in domini aperti, e nella qualità e coerenza visiva. Questi risultati stabiliscono Kling-MotionControl come una soluzione robusta per un'animazione dei personaggi di alta qualità, controllabile e realistica.
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in domini socialmente sensibili, nonostante i loro comportamenti imprevedibili, che spaziano da intenti disallineati a personalità incoerenti, pongano rischi significativi. Introduciamo SteerEval, un benchmark gerarchico per valutare la controllabilità degli LLM in tre domini: caratteristiche linguistiche, sentimenti e personalità. Ogni dominio è strutturato in tre livelli di specifica: L1 (cosa esprimere), L2 (come esprimere) e L3 (come istanziare), collegando l'intento comportamentale di alto livello all'output testuale concreto. Utilizzando SteerEval, valutiamo sistematicamente i metodi contemporanei di controllo, rivelando che la controllabilità spesso si degrada a livelli più granulari. Il nostro benchmark offre un framework strutturato e interpretabile per un comportamento degli LLM sicuro e controllabile, fungendo da base per la ricerca futura.
I metodi DEEPTHINK migliorano il ragionamento generando, affinando e aggregando popolazioni di soluzioni candidate, il che consente prestazioni elevate in compiti matematici e scientifici complessi. Tuttavia, i framework esistenti spesso mancano di segnali di correttezza affidabili durante l'inferenza, creando un collo di bottiglia nel potenziamento della popolazione in cui una deliberazione più profonda amplifica gli errori, sopprime le soluzioni corrette di minoranza e produce rendimenti deboli per il calcolo aggiuntivo. In questo articolo, introduciamo una scomposizione funzionale dei sistemi DEEPTHINK e proponiamo PRISM, un algoritmo di inferenza guidato da un Process Reward Model (PRM) che utilizza una verifica a livello di passo per guidare sia l'affinamento della popolazione che l'aggregazione delle soluzioni. Durante l'affinamento, PRISM tratta le soluzioni candidate come particelle in un panorama energetico definito dal PRM e rimodella la popolazione attraverso un ricampionamento guidato dai punteggi e un affinamento stocastico, concentrando così la massa di probabilità su ragionamenti di qualità superiore preservando al contempo la diversità. Su benchmark di matematica e scienze, PRISM è competitivo o supera i metodi DEEPTHINK esistenti, raggiungendo il 90.0%, il 75.4% e il 71.4% con gpt-oss-20b rispettivamente su AIME25, HMMT25 e GPQA Diamond, eguagliando o superando al contempo gpt-oss-120b. Inoltre, la nostra analisi mostra che PRISM produce una correzione netta direzionale consistente durante l'affinamento, rimane affidabile quando la popolazione iniziale contiene poche soluzioni corrette e si colloca spesso sulla frontiera di Pareto calcolo-accuratezza.
L'editing video basato su istruzioni ha registrato rapidi progressi, ma i metodi attuali spesso faticano a garantire un controllo visivo preciso, poiché il linguaggio naturale è intrinsecamente limitato nel descrivere complesse sfumature visive. Sebbene l'editing guidato da riferimento offra una soluzione robusta, il suo potenziale è attualmente limitato dalla scarsità di dati di training accoppiati di alta qualità. Per colmare questa lacuna, introduciamo una pipeline scalabile per la generazione di dati che trasforma coppie esistenti di editing video in quadruplette di addestramento ad alta fedeltà, sfruttando modelli generativi di immagini per creare scaffold di riferimento sintetizzati. Utilizzando questa pipeline, costruiamo RefVIE, un dataset su larga scala specifico per attività di seguito-istruzione-riferimento, e istituiamo RefVIE-Bench per una valutazione completa. Inoltre, proponiamo un'architettura di editing unificata, Kiwi-Edit, che sinergizza query apprendibili e caratteristiche visive latenti per la guida semantica di riferimento. Il nostro modello raggiunge miglioramenti significativi nel seguire le istruzioni e nella fedeltà al riferimento attraverso un curriculum di addestramento multi-stadio progressivo. Esperimenti estensivi dimostrano che i nostri dati e la nostra architettura stabiliscono un nuovo stato dell'arte nell'editing video controllabile. Tutti i dataset, i modelli e il codice sono rilasciati su https://github.com/showlab/Kiwi-Edit.
La cattura delle dipendenze temporali è fondamentale per l'apprendimento per rinforzo basato su modelli (MBRL) in domini parzialmente osservabili e ad alta dimensionalità. Introduciamo NE-Dreamer, un agente MBRL privo di decoder che utilizza un transformer temporale per prevedere le incorporazioni (embeddings) dell'encoder al passo successivo a partire da sequenze di stati latenti, ottimizzando direttamente l'allineamento predittivo temporale nello spazio delle rappresentazioni. Questo approccio consente a NE-Dreamer di apprendere rappresentazioni di stato coerenti e predittive senza perdite di ricostruzione o supervisione ausiliaria. Sulla DeepMind Control Suite, NE-Dreamer eguaglia o supera le prestazioni di DreamerV3 e dei principali agenti privi di decoder. Su un sottoinsieme impegnativo di task DMLab che coinvolgono memoria e ragionamento spaziale, NE-Dreamer ottiene miglioramenti sostanziali. Questi risultati stabiliscono la predizione delle incorporazioni successive (next-embedding) con transformer temporali come un framework efficace e scalabile per il MBRL in ambienti complessi e parzialmente osservabili.
Man mano che i grandi modelli linguistici (LLM) progrediscono nelle loro capacità matematiche verso il livello delle Olimpiadi Internazionali della Matematica (IMO), la scarsità di problemi complessi e di alta qualità per l'addestramento e la valutazione è diventata un collo di bottiglia significativo. Parallelamente, recenti agenti basati sul codice hanno dimostrato abilità sofisticate nel coding agentivo e nel ragionamento, suggerendo che l'esecuzione di codice possa fungere da ambiente scalabile per la sperimentazione matematica. In questo articolo, investigiamo il potenziale degli agenti basati sul codice di evolvere autonomamente problemi matematici esistenti in variazioni più complesse. Introduciamo un framework multi-agente progettato per eseguire l'evoluzione dei problemi, convalidando al contempo la risolvibilità e la maggiore difficoltà dei problemi generati. I nostri esperimenti dimostrano che, con un'esplorazione sufficiente durante il test, gli agenti basati sul codice sono in grado di sintetizzare nuovi problemi risolvibili, strutturalmente distinti e più impegnativi degli originali. Questo lavoro fornisce evidenze empiriche del fatto che gli agenti guidati dal codice possano servire come meccanismo valido per sintetizzare problemi di ragionamento matematico ad alta difficità all'interno di ambienti computazionali scalabili. I nostri dati sono disponibili su https://github.com/TarferSoul/Code2Math.
Il potenziamento delle capacità di ragionamento dei Large Language Model (LLM) mediante post-training è spesso limitato dal compromesso tra efficienza e oblio catastrofico. Sebbene la ricerca precedente sottolinei il ruolo dei dati on-policy nell'attenuare l'oblio, noi scopriamo – e validiamo sia teoricamente che empiricamente – un meccanismo trascurato ma critico: la regolarizzazione implicita insita nella stima della ricompensa dell'Optimizzazione Diretta delle Preferenze (DPO). Ciò motiva il nostro Surgical Post-Training (SPoT), un nuovo paradigma progettato per ottimizzare il ragionamento in modo efficiente preservando le conoscenze pregresse apprese. SPoT consiste in: (1) una pipeline di rettifica dei dati che impiega un Oracle per correggere chirurgicamente i passaggi errati tramite modifiche minime, generando dati prossimi alla distribuzione del modello; e (2) un obiettivo di entropia incrociata binaria basato sulla ricompensa. A differenza della classificazione relativa nel DPO, questo obiettivo tratta la correttezza del ragionamento come un problema di classificazione binaria, applicando segnali di supervisione disaccoppiati. Empiricamente, con soli 4k coppie di dati matematici rettificati, SPoT migliora l'accuratezza di Qwen3-8B del 6.2% in media su task in-dominio e out-of-distribution, richiedendo appena 28 minuti di training su 8 GPU H800. Codice: https://github.com/Visual-AI/SPoT
Il ragionamento umano spesso implica lavorare su informazioni limitate per giungere a conclusioni probabilistiche. Nella sua forma più semplice, ciò comporta fare un'inferenza che non è strettamente implicata da una premessa, ma solo probabile data la premessa. Sebbene gli LLM deduttivi abbiano dimostrato prestazioni elevate in compiti logici e matematici, il loro comportamento in tali inferenze aperte e non deterministiche rimane in gran parte inesplorato. Introduciamo ProbCOPA, un dataset di 210 inferenze probabilistiche create manualmente in inglese, ciascuna annotata per la probabilità inferenziale da 25-30 partecipanti umani. Scopriamo che le risposte umane sono graduate e variegate, rivelando giudizi probabilistici sulle inferenze nel nostro dataset. Confrontando questi giudizi con le risposte di otto LLM deduttivi all'avanguardia, dimostriamo che i modelli falliscono sistematicamente nel produrre distribuzioni simili a quelle umane. Infine, analizzando le catene deduttive degli LLM, troviamo evidenza di un modello di ragionamento comune utilizzato per valutare tali inferenze. I nostri risultati rivelano differenze persistenti tra umani e LLM e sottolineano la necessità di valutare il ragionamento al di là di contesti deterministici.
I modelli linguistici agentici operano in un regime di sicurezza fondamentalmente diverso rispetto ai modelli di chat: devono pianificare, richiamare strumenti ed eseguire azioni a lungo termine in cui un singolo passo falso, come l'accesso a file o l'inserimento di credenziali, può causare danni irreversibili. I metodi di allineamento esistenti, ottimizzati principalmente per la generazione statica e il completamento di compiti, falliscono in questi contesti a causa del processo decisionale sequenziale, del feedback avversario degli strumenti e del ragionamento intermedio eccessivamente sicuro. Introduciamo MOSAIC, un framework di post-addestramento che allinea gli agenti per un utilizzo sicuro e multi-step degli strumenti, rendendo esplicite e apprendibili le decisioni di sicurezza. MOSAIC struttura l'inferenza come un ciclo di pianificazione, verifica, quindi azione o rifiuto, con un ragionamento esplicito sulla sicurezza e il rifiuto come azioni di prima classe. Per addestrare senza etichette a livello di traiettoria, utilizziamo l'apprendimento per rinforzo basato su preferenze con confronti a coppie di traiettorie, che cattura distinzioni di sicurezza spesso trascurate da ricompense scalari. Valutiamo MOSAIC in zero-shot su tre famiglie di modelli, Qwen2.5-7B, Qwen3-4B-Thinking e Phi-4, e su benchmark fuori distribuzione che abbracciano compiti dannosi, prompt injection, uso benigno di strumenti e fughe di dati transdominio. MOSAIC riduce i comportamenti dannosi fino al 50%, aumenta il rifiuto di compiti dannosi di oltre il 20% sugli attacchi di injection, riduce le fughe di dati e preserva o migliora le prestazioni sui compiti benigni, dimostrando una robusta generalizzazione attraverso modelli, domini e contesti agentici.
La stima della traiettoria 3D di ogni pixel da un video monoculare è cruciale e promettente per una comprensione completa della dinamica 3D dei video. I recenti lavori sul tracking 3D monoculare dimostrano prestazioni impressionanti, ma sono limitati al tracciamento di punti sparsi sul primo fotogramma o a un framework lento basato su ottimizzazione per il tracciamento denso. In questo articolo, proponiamo un modello feedforward, chiamato Track4World, che abilita un efficiente tracciamento 3D olistico di ogni pixel nel sistema di coordinate centrato sul mondo. Basandosi sulla rappresentazione della scena 3D globale codificata da un ViT in stile VGGT, Track4World applica un nuovo schema di correlazione 3D per stimare simultaneamente il flusso denso 2D e 3D pixel-wise tra coppie di fotogrammi arbitrari. Il flusso di scena stimato, insieme alla geometria 3D ricostruita, consente il successivo efficiente tracciamento 3D di ogni pixel del video. Esperimenti estesi su benchmark multipli dimostrano che il nostro approccio supera costantemente i metodi esistenti nella stima del flusso 2D/3D e nel tracking 3D, evidenziandone la robustezza e la scalabilità per compiti di ricostruzione 4D nel mondo reale.
Reinterpretiamo il classificatore softmax finale di un Large Language Model (LLM) come un Modello Basato sull'Energia (EBM), scomponendo la catena di probabilità sequenza-a-sequenza in più EBM interagenti durante l'inferenza. Questo approccio basato su principi ci permette di tracciare i "dissipi di energia" durante la decodifica, che mostriamo empiricamente correlare con errori fattuali, bias e fallimenti. Similmente a Orgad et al. (2025), il nostro metodo localizza il token di risposta esatto e successivamente testa le allucinazioni. Tuttavia, in modo cruciale, otteniamo ciò senza richiedere classificatori probe addestrati o ablazioni delle attivazioni. Introduciamo invece due metriche completamente prive di addestramento, derivate direttamente dai logit in output: l'energia dissipata, che cattura la discrepanza tra i valori di energia attraverso passi di generazione consecutivi che teoricamente dovrebbero coincidere, e l'energia marginalizzata, che è misurabile in un singolo passo. Valutato su nove benchmark che coinvolgono LLM all'avanguardia (inclusi LLaMA, Mistral e Gemma) e su operazioni algebriche sintetiche (Qwen3), il nostro approccio dimostra una rilevazione delle allucinazioni robusta e competitiva, nonché una generalizzazione cross-task. Notevolmente, questi risultati valgono sia per varianti pre-addestrate che instruction-tuned senza introdurre alcun sovraccarico computazionale addizionale. Codice disponibile su: github.com/OmnAI-Lab/spilled-energy
Le richieste degli utenti reali agli agenti LLM sono spesso sotto-specificate. Gli agenti devono interagire per acquisire informazioni mancanti e prendere decisioni corrette a valle. Tuttavia, gli attuali metodi basati su GRPO multi-turn spesso fanno affidamento su calcoli di ricompensa a livello di traiettoria, il che porta a problemi di assegnazione del credito e a segnali di vantaggio insufficienti all'interno dei gruppi di rollout. Un approccio fattibile è identificare turni di interazione preziosi a livello granulare fine per guidare un apprendimento più mirato. Per affrontare ciò, introduciamo InfoPO (Information-Driven Policy Optimization), che inquadra l'interazione multi-turn come un processo di riduzione attiva dell'incertezza e calcola una ricompensa basata sul guadagno informativo che attribuisce credito ai turni il cui feedback modifica in modo misurabile la distribuzione delle azioni successive dell'agente rispetto a un controfattuale a feedback mascherato. Questo segnale viene poi combinato con i risultati del task tramite una fusione adattiva controllata dalla varianza per identificare l'importanza informativa mantenendo al contempo la direzionalità orientata al task. In vari compiti, tra cui chiarimento delle intenzioni, programmazione collaborativa e processo decisionale potenziato da strumenti, InfoPO supera costantemente i metodi di prompting e le baseline di RL multi-turn. Dimostra inoltre robustezza sotto cambiamenti del simulatore utente e generalizza efficacemente a compiti di interazione ambientale. Nel complesso, InfoPO fornisce un meccanismo principiato e scalabile per ottimizzare la complessa collaborazione agente-utente. Il codice è disponibile su https://github.com/kfq20/InfoPO.
I modelli text-to-image hanno fatto rapidi progressi in termini di realismo e controllabilità, con approcci recenti che sfruttano didascalie lunghe e dettagliate per supportare una generazione di grana fine. Tuttavia, rimane un gap parametrico fondamentale: i modelli esistenti si basano su un linguaggio descrittivo, mentre i flussi di lavoro professionali richiedono un controllo numerico preciso sulla posizione, le dimensioni e il colore degli oggetti. In questo lavoro, introduciamo BBQ, un modello text-to-image su larga scala che si condiziona direttamente su bounding box numeriche e triplette RGB all'interno di un framework unificato di testo strutturato. Otteniamo un controllo spaziale e cromatico preciso addestrando il modello su didascalie arricchite con annotazioni parametriche, senza modifiche architetturali o ottimizzazioni al momento dell'inferenza. Ciò consente anche interfacce utente intuitive come il trascinamento degli oggetti e i selettori colore, sostituendo l'ambigua promptistica iterativa con controlli precisi e familiari. In valutazioni complete, BBQ raggiunge un forte allineamento ai bounding box e migliora la fedeltà del colore RGB rispetto ai baseline state-of-the-art. Più in generale, i nostri risultati supportano un nuovo paradigma in cui l'intento dell'utente viene tradotto in un linguaggio strutturato intermedio, consumato da un transformer di tipo flow-based che agisce come renderer e accoglie naturalmente parametri numerici.
I recenti modelli di editing video hanno ottenuto risultati impressionanti, ma la maggior parte richiede ancora dataset accoppiati su larga scala. La raccolta di tali coppie naturalmente allineate su vasta scala rimane estremamente complessa e costituisce un collo di bottiglia critico, specialmente per i dati di editing video locali. Le soluzioni alternative esistenti trasferiscono l'editing dalle immagini ai video attraverso il controllo del moto globale per un editing video senza coppie, ma tali approcci faticano a mantenere la coerenza temporale e dello sfondo. In questo articolo, proponiamo NOVA: Sparse Control & Dense Synthesis, un nuovo framework per l'editing video non accoppiato. Nello specifico, il ramo sparso fornisce una guida semantica attraverso fotogrammi chiave modificati dall'utente distribuiti lungo il video, mentre il ramo denso incorpora continuamente informazioni di movimento e texture dal video originale per mantenere alta fedeltà e coerenza. Inoltre, introduciamo una strategia di addestramento per simulazione del degrado che permette al modello di apprendere la ricostruzione del movimento e la coerenza temporale addestrandosi su video degradati artificialmente, eliminando così la necessità di dati accoppiati. I nostri esperimenti estensivi dimostrano che NOVA supera gli approcci esistenti in termini di fedeltà dell'editing, preservazione del movimento e coerenza temporale.
La Classifier-Free Guidance (CFG) è emersa come un approccio centrale per migliorare l'allineamento semantico nei modelli di diffusione basati su flussi. In questo articolo, esploriamo un framework unificato chiamato CFG-Ctrl, che reinterpreta la CFG come un controllo applicato al flusso generativo continuo del primo ordine, utilizzando la discrepanza condizionale-incondizionale come segnale di errore per regolare il campo di velocità. Da questa prospettiva, sintetizziamo la CFG standard come un controllore proporzionale (controllo P) con guadagno fisso, e le varianti tipiche successive sviluppano progetti di legge di controllo estesi derivati da essa. Tuttavia, i metodi esistenti si basano principalmente sul controllo lineare, portando intrinsecamente a instabilità, overshoot e fedeltà semantica degradata, specialmente su scale di guida ampie. Per affrontare ciò, introduciamo il Controllo a Modo Scorrevole CFG (SMC-CFG), che forza il flusso generativo verso una varietà di scorrimento rapidamente convergente. Nello specifico, definiamo una superficie di modo scorrevole esponenziale sull'errore di predizione semantica e introduciamo un termine di controllo commutato per stabilire una correzione guidata da feedback non lineare. Inoltre, forniamo un'analisi di stabilità di Lyapunov per supportare teoricamente la convergenza in tempo finito. Esperimenti condotti su modelli di generazione testo-immagine, inclusi Stable Diffusion 3.5, Flux e Qwen-Image, dimostrano che SMC-CFG supera la CFG standard nell'allineamento semantico e migliora la robustezza su un'ampia gamma di scale di guida. Pagina del progetto: https://hanyang-21.github.io/CFG-Ctrl
I modelli Vision-Language-Action (VLA) rappresentano una strada promettente verso l'intelligenza incarnata, ma spesso trascurano la struttura predittiva e temporale-causale alla base della dinamica visiva. I VLA con modello del mondo affrontano questo problema prevedendo i frame futuri, ma sprecano capacità ricostruendo sfondi ridondanti. I VLA ad azione latente codificano in modo compatto le transizioni da frame a frame, ma mancano di una modellizzazione dinamica temporalmente continua e di conoscenza del mondo. Per superare questi limiti, introduciamo CoWVLA (Chain-of-World VLA), un nuovo paradigma "Catena del Mondo" che unisce il ragionamento temporale del modello del mondo con una rappresentazione del moto latente disaccoppiata. In primo luogo, un VAE video preaddestrato funge da estrattore di moto latente, fattorizzando esplicitamente i segmenti video in latenti di struttura e di moto. Successivamente, durante il pre-addestramento, il VLA impara da un'istruzione e da un frame iniziale per inferire una catena di moto latente continua e prevedere il frame terminale del segmento. Infine, durante il co-fine-tuning, questa dinamica latente viene allineata con la previsione di azioni discrete modellando congiuntamente fotogrammi chiave sparsi e sequenze di azioni in un decoder autoregressivo unificato. Questo design preserva i vantaggi del modello del mondo in termini di ragionamento temporale e conoscenza del mondo, mantenendo al contempo la compattezza e l'interpretabilità delle azioni latenti, consentendo un apprendimento visuomotorio efficiente. Esperimenti estesi su benchmark di simulazione robotica mostrano che CoWVLA supera gli approcci esistenti basati su modello del mondo e azione latente e raggiunge un'efficienza computazionale moderata, evidenziandone il potenziale come paradigma di pre-addestramento VLA più efficace. Il sito web del progetto è disponibile all'indirizzo https://fx-hit.github.io/cowvla-io.
Il passaggio dei Large Language Model (LLM) da strumenti esplorativi a "soggetti di silicio" attivi nelle scienze sociali manca di una validazione estensiva della validità operativa. Questo studio introduce il Conditioned Comment Prediction (CCP), un compito in cui un modello predice come un utente commenterebbe un dato stimolo confrontando gli output generati con tracce digitali autentiche. Questo quadro consente una valutazione rigorosa delle capacità attuali degli LLM rispetto alla simulazione del comportamento degli utenti dei social media. Abbiamo valutato modelli open-weight da 8B (Llama3.1, Qwen3, Ministral) in scenari linguistici inglese, tedesco e lussemburghese. Confrontando sistematicamente le strategie di prompting (esplicito vs. implicito) e l'impatto del Supervised Fine-Tuning (SFT), identifichiamo un disaccoppiamento critico tra forma e contenuto in contesti a risorse limitate: mentre l'SFT allinea la struttura superficiale dell'output testuale (lunghezza e sintassi), esso degrada l'ancoraggio semantico. Inoltre, dimostriamo che il condizionamento esplicito (biografie generate) diventa ridondante sotto fine-tuning, poiché i modelli eseguono con successo inferenze latenti direttamente dalle cronologie comportamentali. Le nostre scoperte sfidano gli attuali paradigmi di "prompting ingenuo" e offrono linee guida operative che privilegiano le tracce comportamentali autentiche rispetto alle descrizioni di persona per una simulazione ad alta fedeltà.
La scoperta scientifica automatizzata con modelli linguistici di grandi dimensioni sta trasformando il ciclo di vita della ricerca dall'ideazione alla sperimentazione, tuttavia gli agenti esistenti faticano a elaborare autonomamente i dati grezzi raccolti dagli esperimenti scientifici. Presentiamo SciDER, un sistema end-to-end incentrato sui dati che automatizza il ciclo di vita della ricerca. A differenza dei framework tradizionali, i nostri agenti specializzati analizzano e processano collaborativamente i dati scientifici grezzi, generano ipotesi e progetti sperimentali basati sulle caratteristiche specifiche dei dati, e scrivono ed eseguono il codice corrispondente. La valutazione su tre benchmark dimostra che SciDER eccelle nella scoperta scientifica specializzata e guidata dai dati, superando gli agenti generici e i modelli all'avanguardia grazie alla sua memoria auto-evolutiva e al ciclo di feedback guidato da critiche. Distribuito come pacchetto Python modulare, forniamo anche pacchetti PyPI facili da usare con un'interfaccia web leggera per accelerare la ricerca autonoma e data-driven, con l'obiettivo di renderlo accessibile a tutti i ricercatori e sviluppatori.
L'unificazione dell'apprendimento di rappresentazioni visive e della generazione testo-immagine (T2I) all'interno di un singolo modello rimane una sfida centrale nell'apprendimento multimodale. Presentiamo DREAM, un framework unificato che ottimizza congiuntamente obiettivi discriminativi e generativi, apprendendo al contempo rappresentazioni visive solide. DREAM si basa su due tecniche chiave: durante l'addestramento, il Masking Warmup, una schedulatura di mascheramento progressivo, inizia con un mascheramento minimo per stabilire l'allineamento contrastivo necessario per l'apprendimento di rappresentazioni, per poi passare gradualmente al mascheramento completo per un addestramento generativo stabile. In fase di inferenza, DREAM utilizza il Semantically Aligned Decoding per allineare i candidati di immagine parzialmente mascherati con il testo target e selezionare il migliore per un'ulteriore decodifica, migliorando la fedeltà testo-immagine (+6,3%) senza ricorrere a sistemi esterni di reranking. Addestrato esclusivamente su CC12M, DREAM raggiunge un'accuratezza di linear probing su ImageNet del 72,7% (+1,1% rispetto a CLIP) e un FID di 4,25 (+6,2% rispetto a FLUID), con miglioramenti consistenti nella classificazione few-shot, nella segmentazione semantica e nella stima della profondità. Questi risultati dimostrano che gli obiettivi discriminativi e generativi possono essere sinergici, permettendo la creazione di modelli multimodali unificati che eccellono sia nella comprensione visiva che nella generazione.
Man mano che i Large Language Model (LLM) saturano i benchmark elementari, la frontiera della ricerca si è spostata dalla generazione all'affidabilità della valutazione automatizzata. Dimostriamo che i protocolli standard "LLM-as-a-Judge" soffrono di un sistematico Divario di Allineamento quando applicati alla matematica di livello da ultimo triennio di laurea a primo anno di dottorato. Per quantificare ciò, introduciamo QEDBench, il primo benchmark di allineamento su larga scala a doppia rubrica, progettato per misurare sistematicamente l'allineamento con esperti umani su dimostrazioni matematiche universitarie contrapponendo rubriche specifiche per corso a criteri di conoscenza comune degli esperti. Implementando una matrice di doppia valutazione (7 giudici x 5 risolutori) su oltre 1.000 ore di valutazione umana, riveliamo che alcuni valutatori all'avanguardia come Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max e Llama 4 Maverick mostrano un significativo bias positivo (rispettivamente un'inflazione media del punteggio fino a +0.18, +0.20, +0.30, +0.36). Inoltre, scopriamo un divario critico nel ragionamento nel dominio discreto: mentre Gemini 3.0 Pro raggiunge prestazioni allo stato dell'arte (punteggio medio di valutazione umana 0.91), altri modelli di ragionamento come GPT-5 Pro e Claude Sonnet 4.5 vedono le loro prestazioni degradare significativamente nei domini discreti. Nello specifico, i loro punteggi medi di valutazione umana scendono a 0.72 e 0.63 in Matematica Discreta, e a 0.74 e 0.50 in Teoria dei Grafi. Oltre a questi risultati di ricerca, rilasciamo anche QEDBench come benchmark pubblico per valutare e migliorare i giudici IA. Il nostro benchmark è pubblicamente disponibile all'indirizzo https://github.com/qqliu/Yale-QEDBench.
I modelli linguistici di grandi dimensioni mostrano capacità sofisticate, ma comprendere come funzionino internamente rimane una sfida centrale. Un ostacolo fondamentale è che l'addestramento seleziona il comportamento, non i circuiti, quindi molte configurazioni dei pesi possono implementare la stessa funzione. Quali strutture interne riflettono il calcolo e quali sono accidenti di una specifica esecuzione di addestramento? Questo lavoro estrae nuclei algoritmici: sottospazi compatti necessari e sufficienti per le prestazioni del compito. Trasformatori addestrati in modo indipendente apprendono pesi diversi ma convergono verso gli stessi nuclei. I trasformatori a catena di Markov incorporano nuclei 3D in sottospazi quasi ortogonali, eppure recuperano spettri di transizione identici. I trasformatori per l'addizione modulare scoprono operatori ciclici compatti al momento del "grokking" che successivamente si espandono, fornendo un modello predittivo della transizione dalla memorizzazione alla generalizzazione. I modelli linguistici GPT-2 governano la concordanza soggetto-verbo attraverso un singolo asse che, quando invertito, capovolge il numero grammaticale durante la generazione attraverso le diverse scale. Questi risultati rivelano invarianti a bassa dimensionalità che persistono attraverso diverse esecuzioni di addestramento e scale, suggerendo che i calcoli dei trasformatori sono organizzati attorno a strutture algoritmiche compatte e condivise. L'interpretabilità meccanicistica potrebbe trarre vantaggio dal prendere di mira tali invarianti – l'essenza computazionale – piuttosto che i dettagli specifici dell'implementazione.
La transizione dalla computazione sequenziale a quella parallela è essenziale per le moderne applicazioni ad alte prestazioni, ma è ostacolata dalla ripida curva di apprendimento della programmazione concorrente. Questa sfida è amplificata per le strutture di dati irregolari (come grafi sparsi, alberi non bilanciati e mesh non uniformi) dove la schedulazione statica fallisce e le dipendenze dei dati sono imprevedibili. Gli attuali Large Language Model (LLM) spesso falliscono in modo catastrofico in questi compiti, generando codice afflitto da sottili condizioni di competizione (race condition), deadlock e scalabilità subottimale. Colmiamo questa lacuna con ParEVO, un framework progettato per sintetizzare algoritmi paralleli ad alte prestazioni per dati irregolari. I nostri contributi includono: (1) Il Parlay-Instruct Corpus, un dataset curato di 13.820 task sintetizzati attraverso una pipeline "Critic-Refine" che filtra esplicitamente algoritmi empiricamente performanti che utilizzano efficacemente le primitive parallele Work-Span; (2) modelli specializzati DeepSeek, Qwen e Gemini ottimizzati (fine-tuned) per allineare la generazione probabilistica con la rigorosa semantica della libreria ParlayLib; e (3) un Agente di Codifica Evolutivo (Evolutionary Coding Agent - ECA) che migliora l'"ultimo miglio" della correttezza riparando iterativamente il codice utilizzando feedback da compilatori, rilevatori dinamici di race condition e profilatori delle prestazioni. Sul benchmark ParEval, ParEVO raggiunge un speedup medio di 106x (con un massimo di 1103x) sull'intera suite e un solido speedup di 13.6x specificamente su complessi problemi di grafi irregolari, superando i modelli commerciali all'avanguardia. Inoltre, il nostro approccio evolutivo eguaglia i benchmark umani esperti allo stato dell'arte, raggiungendo fino a un speedup di 4.1x su specifici kernel altamente irregolari. Il codice sorgente e i dataset sono disponibili all'indirizzo https://github.com/WildAlg/ParEVO.
L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha ottenuto notevoli successi nel migliorare i modelli autoregressivi, specialmente in domini che richiedono correttezza come il ragionamento matematico e la generazione di codice. Tuttavia, l'applicazione diretta di tali paradigmi ai Modelli Linguistici di Grande Dimensione basati su Diffusioni (dLLM) è fondamentalmente ostacolata dall'intrattabilità del calcolo esatto della verosimiglianza, che costringe i metodi esistenti a fare affidamento su approssimazioni ad alta varianza. Per colmare questa lacuna, proponiamo l'Ottimizzazione della Politica Senza Verosimiglianza (LFPO), un framework nativo che mappa il concetto di flusso di campo vettoriale allo spazio discreto dei token. Nello specifico, LFPO formula l'allineamento come una rettifica geometrica della velocità, ottimizzando direttamente i logit di denoising tramite aggiornamenti contrastivi. Questo progetto bypassa efficacemente gli errori intrinseci nell'approssimazione della verosimiglianza, producendo una stima precisa del gradiente. Inoltre, LFPO impone la coerenza predendo le soluzioni finali a partire da passi intermedi, raddrizzando efficacemente il flusso di probabilità per consentire una generazione di alta qualità con un numero significativamente inferiore di iterazioni. Esperimenti estensivi dimostrano che LFPO non solo supera gli stati dell'arte sui benchmark di codice e ragionamento, ma accelera anche l'inferenza di circa il 20% attraverso la riduzione dei passi di diffusione.
I sistemi multi-agente (MAS) guidati da modelli linguistici di grandi dimensioni (LLM) coordinano agenti specializzati attraverso topologie di interazione predefinite e hanno mostrato potenziale per compiti complessi come la generazione di codice a livello competitivo. Studi recenti dimostrano che workflow multi-agente e grafi di comunicazione progettati accuratamente possono migliorare significativamente le prestazioni di generazione del codice sfruttando il ragionamento collaborativo. Tuttavia, i metodi esistenti non adattano la densità topologica alla difficoltà del compito né affinano iterativamente la topologia all'interno di un'istanza utilizzando feedback di esecuzione, il che porta a comunicazioni ridondanti e colli di bottiglia prestazionali. Per affrontare questi problemi, proponiamo AgentConductor: un MAS ottimizzato con apprendimento per rinforzo che ha al suo centro un agente orchestratore basato su LLM, il quale abilita la generazione dinamica end-to-end guidata da feedback delle topologie di interazione. Per ogni query, AgentConductor deduce i ruoli degli agenti e la difficoltà del compito, per poi costruire una topologia a grafo aciclico diretto (DAG) stratificata, adattata al compito e consapevole della densità, supportata da due innovazioni chiave. In primo luogo, progettiamo una nuova funzione di densità topologica che cattura caratterizzazioni matematiche consapevoli della comunicazione per le interazioni multi-agente. In secondo luogo, adottiamo una partizione per intervalli di difficoltà per evitare una potatura eccessiva, permettendo una misurazione precisa del limite superiore di densità topologica per livello di difficoltà e un controllo più granulare. Empiricamente, su tre dataset di codice a livello competitivo e due dataset di codice fondamentali, AgentConductor raggiunge un'accuratezza allo stato dell'arte, superando il baseline più forte fino al 14,6% in accuratezza pass@1, del 13% nella riduzione della densità e del 68% nella riduzione del costo dei token.
Le scoperte scientifiche devono essere comunicate chiaramente per realizzare il loro pieno potenziale. Senza una comunicazione efficace, anche i risultati più rivoluzionari rischiano di essere trascurati o fraintesi. Il modo principale con cui gli scienziati comunicano il proprio lavoro e ricevono feedback dalla comunità è la revisione tra pari. Tuttavia, l'attuale sistema fornisce spesso valutazioni incoerenti tra i revisori, ostacolando di fatto il miglioramento di un manoscritto e limitandone il potenziale impatto. In questo articolo, presentiamo un metodo innovativo, APRES, basato su Large Language Models (LLM) per aggiornare il testo di un articolo scientifico sulla base di una griglia di valutazione. Il nostro metodo automatizzato individua una griglia di valutazione altamente predittiva dei futuri conteggi di citazioni e la integra con APRES in un sistema automatizzato che revisiona gli articoli per migliorarne la qualità e l'impatto. È cruciale che questo obiettivo venga raggiunto senza alterare il contenuto scientifico di base. Dimostriamo il successo di APRES, che migliora la previsione delle citazioni future del 19,6% nell'errore medio assoluto rispetto al miglior metodo di riferimento, e mostriamo che il nostro processo di revisione produce articoli preferiti rispetto agli originali dal 79% degli esperti umani valutatori. I nostri risultati forniscono un solido supporto empirico per l'uso degli LLM come strumento per aiutare gli autori a testare la robustezza dei propri manoscritti prima della sottomissione. In definitiva, il nostro lavoro mira a potenziare, non a sostituire, il ruolo essenziale dei revisori esperti umani, poiché spetta agli esseri umani discernere quali scoperte contano veramente, guidando la scienza verso l'avanzamento della conoscenza e il miglioramento della vita.
Le architetture Mixture-of-Experts (MoE) sono emerse come un paradigma potente per scalare le reti neurali mantenendo l'efficienza computazionale. Tuttavia, le implementazioni MoE standard si basano su due assunzioni di progetto rigide: (1) un routing Top-K fisso in cui vengono attivati esattamente K esperti per token, e (2) un'allocazione uniforme degli esperti attraverso tutti i livelli. Questo articolo introduce DynaMoE, un nuovo framework MoE che rilassa entrambi i vincoli attraverso un'attivazione dinamica degli esperti a livello di token e un'allocazione adattiva della capacità per strati. DynaMoE introduce un meccanismo di routing basato su principi teorici in cui il numero di esperti attivi per token varia in base alla complessità dell'input. Contemporaneamente, il framework implementa sei strategie di scheduling distinte per distribuire la capacità degli esperti lungo la profondità della rete, includendo pattern discendenti, ascendenti, piramidali e a onda. Analizziamo teoricamente i guadagni di espressività del routing dinamico e deriviamo limiti sull'efficienza computazionale. Attraverso esperimenti estesi su MNIST, Fashion-MNIST, CIFAR-10 (classificazione di immagini) e Recycling-the-Web (modellazione del linguaggio) su molteplici scale di modelli, dimostriamo che DynaMoE raggiunge un'efficienza parametrica superiore rispetto ai baseline statici. La nostra scoperta principale è che gli schedule ottimali degli esperti sono dipendenti dal compito e dalla scala: gli schedule discendenti (che concentrano la capacità negli strati iniziali) superano i baseline uniformi nella classificazione di immagini. Per la modellazione del linguaggio, gli schedule ottimali variano in base alla dimensione del modello: discendenti per Tiny, ascendenti per Small e uniformi per Medium. Inoltre, il routing dinamico riduce la varianza del gradiente durante l'addestramento, portando a una migliore stabilità della convergenza. DynaMoE stabilisce un nuovo framework per il calcolo adattivo nelle reti neurali, fornendo una guida basata su principi per la progettazione di architetture MoE.
Nonostante le loro impressionanti capacità, gli attuali modelli Text-to-Image (T2I) rimangono inclini a generare contenuti non sicuri e tossici. Sebbene lo "steering" delle attivazioni rappresenti un intervento promettente in fase di inferenza, osserviamo che uno steering lineare delle attivazioni degrada frequentemente la qualità dell'immagine quando applicato a prompt benigni. Per affrontare questo compromesso, abbiamo inizialmente costruito il *SafeSteerDataset*, un dataset contrastivo contenente 2300 coppie di prompt sicuri e non sicuri con elevata similarità del coseno. Sfruttando questi dati, proponiamo il *Conditioned Activation Transport* (CAT), un framework che utilizza un meccanismo di condizionamento basato sulla geometria e mappe di trasporto non lineari. Condizionando le mappe di trasporto per attivarsi solo all'interno delle regioni di attivazione non sicure, minimizziamo l'interferenza con le query benigne. Convalidiamo il nostro approccio su due architetture all'avanguardia: Z-Image e Infinity. Gli esperimenti dimostrano che CAT si generalizza efficacemente su questi "backbone", riducendo significativamente il tasso di successo degli attacchi mantenendo al contempo la fedeltà dell'immagine rispetto alle generazioni non controllate. Avvertenza: questo articolo contiene testo e immagini potenzialmente offensivi.
La convoluzione dinamica spazialmente variante fornisce un approccio metodologico per integrare l'adattività spaziale nelle reti neurali profonde. Tuttavia, le progettazioni predominanti nella segmentazione medica generano comunemente kernel dinamici attraverso l'operazione di average pooling, che implicitamente comprime i dettagli spaziali ad alta frequenza in una rappresentazione approssimata e spazialmente compressa, portando a predizioni eccessivamente levigate che degradano la fedeltà delle strutture cliniche a grana fine. Per affrontare questa limitazione, proponiamo un nuovo meccanismo di Convoluzione Dinamica Guidata dalla Struttura (SGDC), che utilizza un ramo di estrazione strutturale supervisionato esplicitamente per guidare la generazione di kernel dinamici e segnali di gating per una modulazione delle caratteristiche consapevole della struttura. Nello specifico, le informazioni ad alta fedeltà dei contorni provenienti da questo ramo ausiliario vengono fuse con le caratteristiche semantiche per abilitare una modulazione delle caratteristiche spazialmente precisa. Sostituendo l'aggregazione di contesto con una guida strutturale pixel-wise, la progettazione proposta previene efficacemente la perdita di informazioni introdotta dall'average pooling. I risultati sperimentali mostrano che SGDC raggiunge prestazioni all'avanguardia sui dataset ISIC 2016, PH2, ISIC 2018 e CoNIC, fornendo una fedeltà dei contorni superiore riducendo la Distanza di Hausdorff (HD95) di 2.05 e garantendo guadagni consistenti nell'IoU dello 0.99%-1.49% rispetto ai baseline basati su pooling. Inoltre, il meccanismo mostra un forte potenziale di estensione ad altri compiti visivi a grana fine e sensibili alla struttura, come il rilevamento di piccoli oggetti, offrendo una soluzione metodologica per preservare l'integrità strutturale nell'analisi delle immagini mediche. Per facilitare la riproducibilità e incoraggiare ulteriori ricerche, il codice di implementazione per entrambi i nostri moduli SGE e SGDC è stato pubblicamente rilasciato all'indirizzo https://github.com/solstice0621/SGDC.
I recenti progressi nei grandi modelli linguistici (LLM) hanno reso possibili chatbot sempre più capaci. Tuttavia, la maggior parte dei sistemi esistenti si concentra su ambienti a utente singolo e non si generalizza bene alle chat di gruppo multi-utente, dove gli agenti richiedono un intervento più proattivo e accurato in contesti complessi ed evolutivi. Gli approcci esistenti si basano tipicamente sugli LLM sia per il ragionamento che per la generazione, portando ad un alto consumo di token, una scalabilità limitata e potenziali rischi per la privacy. Per affrontare queste sfide, proponiamo GroupGPT, un framework agentico efficiente in termini di token e preservante la privacy per assistenti di chat multi-utente. GroupGPT adotta un'architettura collaborativa modello piccolo-grande per disaccoppiare la tempistica di intervento dalla generazione della risposta, consentendo un processo decisionale efficiente e accurato. Il framework supporta anche input multimodali, inclusi meme, immagini, video e messaggi vocali. Introduciamo inoltre MUIR, un dataset di benchmark per il ragionamento sull'intervento dell'assistente in chat multi-utente. MUIR contiene 2.500 segmenti di chat di gruppo annotati con etichette di intervento e relative motivazioni, supportando la valutazione dell'accuratezza della tempistica e della qualità della risposta. Valutiamo una serie di modelli su MUIR, dai grandi modelli linguistici alle controparti più piccole. Esperimenti estensivi dimostrano che GroupGPT produce risposte accurate e ben tempestive, raggiungendo un punteggio medio di 4.72/5.0 nella valutazione basata su LLM, ed è ben accolto dagli utenti in vari scenari di chat di gruppo. Inoltre, GroupGPT riduce l'uso dei token fino a 3 volte rispetto ai metodi baseline, fornendo al contempo una sanificazione della privacy dei messaggi utente prima della trasmissione cloud. Il codice è disponibile all'indirizzo: https://github.com/Eliot-Shen/GroupGPT.
La rimozione di apprendimento automatico (machine unlearning), che consente a un modello di dimenticare dati specifici, è cruciale per garantire la privacy dei dati e l'affidabilità del modello. Tuttavia, la sua efficacia può essere seriamente compromessa in scenari reali in cui i modelli apprendono bias indesiderati da correlazioni spurie all'interno dei dati. Questo articolo investiga le sfide uniche della rimozione dell'apprendimento da tali modelli distorti. Identifichiamo un nuovo fenomeno che definiamo "shortcut unlearning" (rimozione delle scorciatoie), in cui i modelli mostrano una tendenza "facile da apprendere, ma difficile da dimenticare". Nello specifico, i modelli faticano a dimenticare campioni allineati al bias e appresi facilmente; invece di dimenticare l'attributo della classe, rimuovono l'apprendimento dell'attributo del bias, il che può paradossalmente migliorare l'accuratezza sulla classe che si intendeva dimenticare. Per affrontare questo problema, proponiamo CUPID, un nuovo framework per la rimozione dell'apprendimento ispirato dall'osservazione che campioni con bias diversi mostrano una distinta asperità del paesaggio della loss (loss landscape). Il nostro metodo suddivide prima l'insieme da dimenticare in sottoinsiemi approssimati come causali e di bias basandosi sull'asperità del campione, poi separa i parametri del modello in percorsi causali e di bias, e infine esegue un aggiornamento mirato instradando gradienti causali e di bias raffinati ai rispettivi percorsi. Esperimenti estesi su dataset distorti, tra cui Waterbirds, BAR e Biased NICO++, dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella rimozione e mitiga efficacemente il problema della rimozione delle scorciatoie.
Introduciamo Whisper-RIR-Mega, un dataset di benchmark costituito da coppie di parlato pulito e riverberato per valutare la robustezza del riconoscimento automatico del parlato (ASR) all'acustica ambientale. Ogni campione accoppia un enunciato pulito di LibriSpeech con lo stesso enunciato convoluto con una risposta impulsiva ambientale reale del corpus RIR-Mega, con suddivisioni stratificate per tempo di riverberazione (RT60) e rapporto tra componente diretta e riverberata (DRR). Valutiamo cinque modelli Whisper (da tiny a large-v3) su 1600 campioni di test e riportiamo il tasso di errore sulle parole (WER) e il tasso di errore sui caratteri (CER) in condizioni pulite e riverberate. La riverberazione degrada costantemente le prestazioni in tutte le dimensioni del modello; la penalità in WER dovuta alla riverberazione varia da 0,12 a 1,07 punti percentuali a seconda del modello. Rilasciamo il dataset, il codice di valutazione e i risultati di base per supportare la ricerca riproducibile sull'ASR robusto.
L'adattamento della politica al momento del test per interazioni multi-turno (T2PAM) è essenziale per allineare i Large Language Model (LLM) con le esigenze dinamiche dell'utente durante il tempo di inferenza. Tuttavia, i paradigmi esistenti trattano comunemente l'adattamento al test come un problema a singolo asse, perfezionando puramente le istruzioni (Prompt Engineering) o aggiustando solo i pesi (Test-Time Training), ignorando che i fallimenti interattivi derivano da un mix accoppiato di ambiguità e incapacità. Sosteniamo che questi due percorsi di ottimizzazione non sono meramente additivi ma sinergici: la chiarezza semantica agisce come pre-condizionatore per aggiornamenti parametrici efficaci. A tal fine, proponiamo ROSA2, un framework che riformula l'interazione come un problema di ottimizzazione congiunta sullo spazio eterogeneo di Parole e Pesi. Scomponendo matematicamente il segnale d'errore, ROSA2 utilizza gradienti testuali per rettificare l'ambiguità dell'intento e aggiornamenti parametrici per colmare le lacune di capacità. Teoricamente, dimostriamo che questa co-adattamento riduce rigorosamente lo spostamento parametrico richiesto per la convergenza. Empiricamente, ROSA2 supera i baseline state-of-the-art del 30% su MATH riducendo al contempo i turni di interazione del 40%, dimostrando che affinare il contesto sblocca il vero potenziale degli aggiornamenti parametrici.
I modelli linguistici di grandi dimensioni per video (VLLM) dimostrano una forte capacità di comprensione video ma soffrono di inefficienza a causa dei token visivi ridondanti. I metodi di pruning esistenti prendono di mira principalmente la ridondanza spaziale intra-frame o operano il pruning all'interno del LLM con un overhead di strati superficiali, ottenendo una riduzione spazio-temporale subottimale e sottoutilizzando la comprimibilità del contesto lungo. Tutti questi metodi spesso scartano contesti sottili ma informativi dai token uniti o rimossi. In questo articolo, proponiamo una nuova prospettiva che elabora Anchor di token sia intra-frame che inter-frame per aggregare in modo completo i contesti informativi tramite Trasporto Ottimale locale-globale (AOT). Nello specifico, stabiliamo prima anchor di token consapevoli del contesto locale e globale all'interno di ogni frame sotto la guida dell'attenzione, che poi aggregano tramite trasporto ottimale i contesti informativi dai token rimossi, costruendo anchor di token intra-frame. Successivamente, basandoci su clip di frame temporali, il primo frame all'interno di ogni clip viene considerato come anchor dei frame chiave per assemblare informazioni simili dai frame consecutivi attraverso il trasporto ottimale, preservando al contempo token distinti per rappresentare la dinamica temporale, portando a una riduzione efficiente dei token senza necessità di addestramento. Valutazioni estensive mostrano che il nostro AOT proposto ottiene prestazioni competitive su vari benchmark per video brevi e lunghi sui principali VLLM, raggiungendo una sostanziale efficienza computazionale preservando al contempo la fedeltà temporale e visiva. Pagina web del progetto: https://tyroneli.github.io/AOT{AOT}.
L'odio sottile e indiretto rimane una sfida poco esplorata nella ricerca sulla sicurezza online, specialmente quando l'intento dannoso è incorporato in narrative ingannevoli o manipolative. I dataset esistenti sull'odio catturano principalmente la tossicità palese, sottorappresentando i modi sfumati in cui la disinformazione può incitare o normalizzare l'odio. Per colmare questa lacuna, presentiamo HateMirage, un nuovo dataset di commenti di "Falso Odio" progettato per far avanzare la ricerca sul ragionamento e la spiegabilità riguardo all'odio che emerge da narrative false o distorte. Il dataset è stato costruito identificando affermazioni di disinformazione ampiamente smentite da fonti di fact-checking e tracciando le relative discussioni su YouTube, ottenendo 4.530 commenti utente. Ogni commento è annotato lungo tre dimensioni interpretabili: Bersaglio (chi è colpito), Intento (la motivazione o l'obiettivo sottostante del commento) e Implicazione (il suo potenziale impatto sociale). A differenza di precedenti dataset di spiegabilità come HateXplain e HARE, che offrono un ragionamento a livello di token o monodimensionale, HateMirage introduce un framework di spiegazione multidimensionale che cattura l'interazione tra disinformazione, danno e conseguenza sociale. Testiamo diversi modelli linguistici open-source su HateMirage utilizzando ROUGE-L F1 e la similarità Sentence-BERT per valutare la coerenza delle spiegazioni. I risultati suggeriscono che la qualità della spiegazione potrebbe dipendere più dalla diversità del pre-addestramento e da dati orientati al ragionamento che dalla sola scala del modello. Accoppiando il ragionamento sulla disinformazione con l'attribuzione del danno, HateMirage stabilisce un nuovo punto di riferimento per il rilevamento interpretabile dell'odio e la ricerca sull'IA responsabile.
Viene presentato un framework open-source in C++ per la scoperta di schemi di moltiplicazione matriciale veloce mediante l'approccio del grafo di inversione (flip graph). Il framework supporta molteplici anelli di coefficienti — binario (Z_2), ternario modulare (Z_3) e ternario intero (Z_T = {-1,0,1}) — e implementa operatori di ricerca sia a dimensione fissa che meta-dimensionali. Utilizzando una codifica efficiente a livello di bit per i vettori di coefficienti e il parallelismo OpenMP, gli strumenti consentono un'esplorazione su larga scala su hardware commerciale. Lo studio copre 680 schemi che vanno da (2×2×2) a (16×16×16), con 276 schemi ora in coefficienti Z_T e 117 in coefficienti interi. Con questo framework, la complessità moltiplicativa (rango) è stata migliorata per 79 schemi di moltiplicazione matriciale. In particolare, è stato scoperto un nuovo schema 4×4×10 che richiede solo 115 moltiplicazioni, raggiungendo ω≈2.80478 e superando l'esponente di Strassen per questa dimensione specifica. Inoltre, sono stati riscoperti 93 schemi in coefficienti ternari che erano precedentemente noti solo per i razionali o gli interi, e 68 schemi in coefficienti interi che precedentemente richiedevano l'uso di frazioni. Tutti gli strumenti e gli schemi scoperti sono resi pubblicamente disponibili per consentire una ricerca riproducibile.
Il ray tracing è diventato uno standard per la modellizzazione accurata della propagazione radio, ma soffre di una complessità computazionale esponenziale, poiché il numero di percorsi candidati scala con il numero di oggetti elevato all'ordine di interazione. Questo collo di bottiglia ne limita l'uso in applicazioni su larga scala o in tempo reale, costringendo gli strumenti tradizionali a fare affidamento su euristiche per ridurre il numero di percorsi candidati a scapito di una potenziale riduzione dell'accuratezza. Per superare questa limitazione, proponiamo un framework completo assistito dall'apprendimento automatico che sostituisce la ricerca esaustiva dei percorsi con un campionamento intelligente tramite Generative Flow Networks. L'applicazione di tali modelli generativi a questo dominio presenta sfide significative, in particolare ricompense sparse a causa della rarità di percorsi validi, che possono portare a fallimenti nella convergenza e a soluzioni banali quando si valutano interazioni di ordine elevato in ambienti complessi. Per garantire un apprendimento robusto ed un'esplorazione efficiente, il nostro framework incorpora tre componenti architetturali chiave. In primo luogo, implementiamo un buffer di experience replay per acquisire e conservare i rari percorsi validi. In secondo luogo, adottiamo una politica esplorativa uniforme per migliorare la generalizzazione e prevenire l'overfitting del modello a geometrie semplici. In terzo luogo, applichiamo una strategia di mascheramento delle azioni basata sulla fisica che filtra i percorsi fisicamente impossibili prima che il modello li prenda in considerazione. Come dimostrato nella nostra validazione sperimentale, il modello proposto raggiunge accelerazioni sostanziali rispetto alla ricerca esaustiva – fino a 10 volte più veloce su GPU e 1000 volte più veloce su CPU – mantenendo un'elevata accuratezza di copertura e scoprendo con successo percorsi di propagazione complessi. Il codice sorgente completo, i test e il tutorial sono disponibili all'indirizzo https://github.com/jeertmans/sampling-paths.
Il pre-addestramento multi-dominio su grafi integra conoscenze da domini diversi per migliorare le prestazioni nei domini target, aspetto cruciale per la costruzione di modelli fondazionali su grafi. Nonostante i successi iniziali, le soluzioni esistenti spesso non rispondono ad una domanda fondamentale: come viene integrata o trasferita la conoscenza tra domini? Questa limitazione teorica ci spinge a riconsiderare la coerenza e la trasferibilità tra pre-addestramento del modello e adattamento al dominio. In questo articolo proponiamo una nuova prospettiva basata sulla geometria riemanniana, la cui idea centrale è fondere qualsiasi dataset di grafi in una varietà di Riemann liscia e unificata, consentendo una comprensione sistematica dell'integrazione e del trasferimento della conoscenza. Per raggiungere questo obiettivo, il nostro contributo chiave è la definizione teorica dell'incollamento di varietà neurali, che prima caratterizza la geometria locale usando un sistema di riferimento ortogonale adattivo, per poi "incollare" insieme i pezzi locali in un tutto coerente. Sulla base di questa teoria, presentiamo il framework GraphGlue, che supporta il pre-addestramento in batch con prototipazione EMA e fornisce una misura di trasferibilità basata sulla coerenza geometrica. Esperimenti estensivi ne dimostrano le prestazioni superiori across diversi domini di grafi. Inoltre, abbiamo validato empiricamente la legge di scaling geometrico di GraphGlue, mostrando che quantità maggiori di dataset migliorano la trasferibilità del modello producendo una varietà più liscia. I codici sono disponibili su https://github.com/RiemannGraph/GraphGlue.