Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella generazione e modifica di immagini hanno aperto nuove opportunità per il virtual try-on. Tuttavia, i metodi esistenti faticano ancora a soddisfare le complesse esigenze del mondo reale. Presentiamo Tstars-Tryon 1.0, un sistema di virtual try-on su scala commerciale che è robusto, realistico, versatile e altamente efficiente. In primo luogo, il nostro sistema mantiene un alto tasso di successo in casi complessi come pose estreme, forti variazioni di illuminazione, motion blur e altre condizioni in-the-wild. In secondo luogo, produce risultati altamente fotorealistici con dettagli granulari, preservando fedelmente la texture dell'indumento, le proprietà del materiale e le caratteristiche strutturali, evitando in larga misura i comuni artefatti generati dall'IA. In terzo luogo, oltre al try-on di abbigliamento, il nostro modello supporta una composizione flessibile multi-immagine (fino a 6 immagini di riferimento) in 8 categorie di moda, con un controllo coordinato sull'identità della persona e sullo sfondo. In quarto luogo, per superare i colli di bottiglia della latenza nella distribuzione commerciale, il nostro sistema è fortemente ottimizzato per la velocità di inferenza, offrendo una generazione quasi in tempo reale per un'esperienza utente senza interruzioni. Queste capacità sono rese possibili da un design di sistema integrato che comprende un'architettura di modello end-to-end, un motore di dati scalabile, un'infrastruttura robusta e un paradigma di addestramento multi-stadio. Valutazioni estensive e una distribuzione di prodotto su larga scala dimostrano che Tstars-Tryon 1.0 raggiunge prestazioni complessive all'avanguardia. Per supportare la ricerca futura, rilasciamo anche un benchmark completo. Il modello è stato distribuito su scala industriale sull'App Taobao, servendo milioni di utenti con decine di milioni di richieste.
La sintesi di video di interazione umano-oggetto (HOI) ha un ampio valore pratico nell'e-commerce, nella pubblicità digitale e nel marketing virtuale. Tuttavia, gli attuali modelli di diffusione, nonostante la loro capacità di rendering fotorealistico, falliscono ancora frequentemente su (i) la stabilità strutturale di regioni sensibili come mani e volti e (ii) il contatto fisicamente plausibile (ad esempio, evitando l'interpenetrazione mano-oggetto). Presentiamo CoInteract, un framework end-to-end per la sintesi di video HOI condizionata da un'immagine di riferimento della persona, un'immagine di riferimento del prodotto, prompt testuali e audio vocale. CoInteract introduce due progetti complementari integrati in un'architettura backbone di Diffusion Transformer (DiT). In primo luogo, proponiamo una Human-Aware Mixture-of-Experts (MoE) che instrada i token verso esperti leggeri e specializzati per regione tramite un routing supervisionato spazialmente, migliorando la fedeltà strutturale fine-grana con un sovraccarico parametrico minimo. In secondo luogo, proponiamo la Co-Generazione Spazialmente Strutturata, un paradigma di training dual-stream che modella congiuntamente uno stream di aspetto RGB e uno stream ausiliario di struttura HOI per iniettare prior geometriche di interazione. Durante l'addestramento, lo stream HOI partecipa ai token RGB e la sua supervisione regolarizza i pesi condivisi del backbone; in fase di inferenza, il ramo HOI viene rimosso per una generazione RGB a sovraccarico zero. I risultati sperimentali dimostrano che CoInteract supera significativamente i metodi esistenti in termini di stabilità strutturale, coerenza logica e realismo dell'interazione.
I sistemi agenti basati su modelli linguistici si basano comunemente su prompt reattivi, in cui una singola istruzione guida il modello attraverso una sequenza aperta di passaggi di ragionamento e utilizzo di strumenti, lasciando impliciti il flusso di controllo e lo stato intermedio e rendendo il comportamento dell'agente potenzialmente difficile da controllare. Framework di orchestrazione come LangGraph, DSPy e CrewAI impongono una maggiore struttura attraverso definizioni esplicite del flusso di lavoro, ma accoppiano strettamente la logica del flusso di lavoro con Python, rendendo gli agenti difficili da mantenere e modificare. In questo articolo, introduciamo AgentSPEX, un Linguaggio di Specifica ed Esecuzione per Agenti per definire flussi di lavoro di agenti LLM con un flusso di controllo esplicito e una struttura modulare, insieme a un ambiente di esecuzione personalizzabile. AgentSPEX supporta step tipizzati, diramazioni e cicli, esecuzione parallela, sottomoduli riutilizzabili e una gestione esplicita dello stato, e questi flussi di lavoro vengono eseguiti all'interno di un ambiente di esecuzione che fornisce accesso agli strumenti, un ambiente virtuale sandbox e supporto per checkpoint, verifica e registrazione. Inoltre, forniamo un editor visivo con viste sincronizzate di grafo e flusso di lavoro per la creazione e l'ispezione. Includiamo agenti pronti all'uso per la ricerca approfondita e la ricerca scientifica e valutiamo AgentSPEX su 7 benchmark. Infine, dimostriamo attraverso uno studio utente che AgentSPEX fornisce un paradigma di creazione del flusso di lavoro più interpretabile e accessibile rispetto a un popolare framework agente esistente.
La ricostruzione 3D da viste sparse è essenziale per modellare scene da acquisizioni casuali, ma rimane impegnativa per approcci non generativi. I metodi esistenti basati su diffusione mitigano questo problema sintetizzando nuove viste, ma spesso si condizionano solo su uno o due frame di acquisizione, il che limita la coerenza geometrica e la scalabilità a scene ampie o diversificate. Proponiamo AnyRecon, un framework scalabile per la ricostruzione da input sparsi arbitrari e non ordinati che preserva il controllo geometrico esplicito supportando al contempo una cardinalità di condizionamento flessibile. Per supportare condizionamenti a lungo raggio, il nostro metodo costruisce una memoria di scena globale persistente tramite una cache preposta delle viste di acquisizione ed elimina la compressione temporale per mantenere la corrispondenza a livello di frame sotto ampi cambiamenti di punto di vista. Oltre a un modello generativo migliore, abbiamo riscontrato che l'interazione tra generazione e ricostruzione è cruciale per scene 3D su larga scala. Introduciamo quindi una strategia di condizionamento geometricamente consapevole che accoppia generazione e ricostruzione attraverso una memoria geometrica 3D esplicita e un recupero delle viste di acquisizione guidato dalla geometria. Per garantire l'efficienza, combiniamo la distillazione di diffusione a 4 passi con un'attenzione sparsa a finestra contestuale per ridurre la complessità quadratica. Esperimenti estensivi dimostrano una ricostruzione robusta e scalabile su input irregolari, ampi disallineamenti di viewpoint e traiettorie lunghe.
Il test-time training (TTT) adatta i parametri del modello su istanze di test non etichettate durante l'inferenza, estendendo continuamente le capacità oltre i limiti dell'addestramento offline. Nonostante i progressi iniziali, i metodi TTT esistenti per i Large Reasoning Models (LRM) raggiungono rapidamente un plateau e non traggono vantaggio da risorse computazionali aggiuntive durante il test. Senza una calibrazione esterna, il segnale di ricompensa auto-generato tende a divergere progressivamente con l'evoluzione del modello policy, portando sia a plateau prestazionali che a un collasso della diversità. Proponiamo TEMPO, un framework TTT che alterna l'affinamento della policy su domande non etichettate a periodiche ricalibrazioni del critico su un dataset etichettato. Formalizzando questa procedura alternata attraverso l'algoritmo Expectation-Maximization (EM), dimostriamo che i metodi precedenti possono essere interpretati come varianti incomplete che omettono il cruciale passo di ricalibrazione. Reintrodurre questo passo restringe l'evidence lower bound (ELBO) e consente miglioramenti sostenuti. Attraverso diverse famiglie di modelli (Qwen3 e OLMO3) e compiti di ragionamento, TEMPO migliora OLMO3-7B su AIME 2024 dal 33.0% al 51.1% e Qwen3-14B dal 42.3% al 65.8%, mantenendo un'elevata diversità.
I grandi modelli linguistici (LLM) hanno ottenuto risultati solidi nella generazione di codice, ma la loro capacità di generare applicazioni con interfaccia grafica (GUI), in particolare giochi, rimane insufficientemente studiata. I benchmark esistenti valutano principalmente la correttezza attraverso test case, che sono inadeguati per le applicazioni GUI poiché questi sistemi sono interattivi, guidati da eventi e richiedono transizioni di stato corrette attraverso sequenze di azioni utente. La loro valutazione dovrebbe quindi considerare i flussi interattivi e la logica dell'interfaccia utente, piuttosto che solo esiti di superamento/fallimento. Per studiare questo problema, introduciamo PlayEval, un benchmark repository-aware costruito da 43 applicazioni GUI multilingue in Python, TypeScript e JavaScript. A differenza dei precedenti benchmark GUI difficili da adattare agli ambienti desktop, PlayEval copre sei categorie principali di applicazioni GUI e supporta direttamente la valutazione della generazione di codice. Proponiamo inoltre Play@k, una metrica che misura se almeno uno dei *k* candidati generati può essere eseguito dall'inizio alla fine senza errori logici. Per supportare una valutazione affidabile, sviluppiamo PlayTester, un agente basato su LLM che esegue playthrough GUI orientati al compito e rileva automaticamente le violazioni logiche. Esperimenti su 10 code LLM all'avanguardia mostrano che, nonostante alti tassi di compilazione, essi raggiungono uno Play@3 quasi nullo, rivelando gravi carenze nella generazione di applicazioni GUI logicamente corrette. Per affrontare questa limitazione, presentiamo PlayCoder, un framework multi-agente e repository-aware che genera, valuta e ripara iterativamente il codice dell'applicazione GUI in un ciclo chiuso. PlayCoder migliora sostanzialmente sia la correttezza funzionale che l'allineamento semantico per modelli open-source e closed-source, raggiungendo fino al 38,1% di Exec@3 e al 20,3% di Play@3. Casi di studio mostrano inoltre che può individuare bug logici silenti trascurati dalle metriche tradizionali e correggerli tramite modifiche mirate.
Il fine-tuning efficiente dei parametri (PEFT) riduce il costo addestrativo del fine-tuning completo dei parametri per i grandi modelli linguistici (LLM) addestrando solo un piccolo insieme di parametri specifici per il compito, mantenendo congelato il backbone preaddestrato. Tuttavia, gli approcci esistenti, come Low-Rank Adaptation (LoRA), ottengono l'adattamento inserendo perturbazioni indipendenti a basso rango direttamente sui singoli pesi, risultando in una parametrizzazione locale dell'adattamento. Noi proponiamo ShadowPEFT, un framework PEFT centralizzato che invece esegue un raffinamento a livello di layer attraverso un modulo shadow condiviso in profondità. Ad ogni layer del transformer, ShadowPEFT mantiene uno stato shadow parallelo e lo evolve ripetutamente per ottenere stati nascosti progressivamente più ricchi. Questo progetto sposta l'adattamento da perturbazioni distribuite nello spazio dei pesi a un processo di raffinamento condiviso nello spazio dei layer. Poiché il modulo shadow è disaccoppiato dal backbone, può essere riutilizzato attraverso la profondità, preaddestrato indipendentemente e opzionalmente impiegato in una modalità distaccata, avvantaggiando scenari di edge computing. Esperimenti su benchmark di generazione e comprensione mostrano che ShadowPEFT eguaglia o supera LoRA e DoRA con budget di parametri addestrabili comparabili. Ulteriori analisi sul preaddestramento dello shadow, trasferimento cross-dataset, scalabilità dei parametri, latenza di inferenza e valutazione a livello di sistema suggeriscono che l'adattamento centralizzato nello spazio dei layer è un'alternativa competitiva e flessibile al PEFT a basso rango convenzionale.
Attualmente, i flussi di lavoro visuali eseguibili sono emersi come paradigma dominante nelle implementazioni industriali reali, offrendo elevata affidabilità e controllabilità. Tuttavia, nella pratica corrente, tali flussi di lavoro sono quasi interamente costruiti attraverso ingegneria manuale: gli sviluppatori devono progettare accuratamente i workflow, scrivere prompt per ogni fase e revisionare ripetutamente la logica al mutare dei requisiti, rendendo lo sviluppo costoso, dispendioso in termini temporali e soggetto a errori. Per studiare se i grandi modelli linguistici possano automatizzare questo processo interattivo multi-round, introduciamo Chat2Workflow, un benchmark per generare flussi di lavoro visuali eseguibili direttamente dal linguaggio naturale, e proponiamo un framework agente robusto per mitigare errori di esecuzione ricorrenti. Chat2Workflow è costruito a partire da un'ampia raccolta di workflow aziendali reali, con ogni istanza progettata in modo che il flusso generato possa essere trasformato e distribuito direttamente su piattaforme pratiche come Dify e Coze. I risultati sperimentali mostrano che, sebbene i modelli linguistici all'avanguardia possano spesso cogliere l'intento di alto livello, faticano a generare workflow corretti, stabili ed eseguibili, specialmente con requisiti complessi o mutevoli. Sebbene il nostro framework agente produca guadagni fino al 5,34% nel tasso di risoluzione, il gap residuo con scenari reali posiziona Chat2Workflow come base per far progredire l'automazione di grado industriale. Il codice è disponibile su https://github.com/zjunlp/Chat2Workflow.
Man mano che l'apprendimento per rinforzo continua a scalare l'addestramento di agenti basati su grandi modelli linguistici, la verifica affidabile dei comportamenti degli agenti in ambienti complessi è diventata sempre più impegnativa. Gli approcci esistenti si basano su verificatori basati su regole o modelli LLM-as-a-Judge, che faticano a generalizzare al di là di domini ristretti. Agent-as-a-Judge affronta questa limitazione interagendo attivamente con ambienti e strumenti per acquisire prove verificabili, sebbene le sue capacità rimangano ancora poco esplorate. Introduciamo un benchmark, AJ-Bench, per valutare sistematicamente Agent-as-a-Judge in tre domini - ricerca, sistemi di dati e interfacce utente grafiche - comprendente 155 task e 516 traiettorie annotate. Il benchmark valuta in modo completo le capacità degli agenti giudice nell'acquisizione di informazioni, nella verifica dello stato e nella verifica del processo. Gli esperimenti dimostrano miglioramenti prestazionali consistenti rispetto ai baseline LLM-as-a-Judge, rivelando al contempo sfide aperte sostanziali nella verifica basata su agenti. I nostri dati e codice sono disponibili su https://aj-bench.github.io/.
La ricerca di informazioni basata su istruzioni (IF-IR) studia sistemi di recupero che non solo devono trovare documenti pertinenti a una query, ma anche obbedire a vincoli utente espliciti come attributi richiesti, esclusioni o preferenze di output. Tuttavia, la maggior parte dei sistemi di retrieval viene addestrata principalmente per la rilevanza semantica e spesso non riesce a distinguere i documenti che corrispondono all'argomento da quelli che soddisfano l'istruzione. Proponiamo una strategia di sintesi dei dati a doppia visuale basata sull'inversione di polarità: data una query, un documento rilevante secondo l'istruzione e un negativo difficile che corrisponde alla query ma viola l'istruzione, sollecitiamo un LLM a generare un'istruzione complementare sotto la quale i due documenti scambiano le etichette di rilevanza. Presentando la stessa coppia di documenti sotto istruzioni complementari che invertono le loro etichette di rilevanza, il segnale di addestramento costringe il sistema di retrieval a riconsiderare lo stesso insieme di candidati attraverso l'istruzione, anziché affidarsi a indizi tematici fissi. Su un encoder da 305 milioni di parametri, il nostro metodo migliora le prestazioni sul benchmark FollowIR del 45%, superando modelli di embedding generici di scala comparabile o maggiore. Attraverso confronti diretti con budget di dati equivalenti, mostriamo ulteriormente che la diversità dei dati e la supervisione delle istruzioni svolgono ruoli complementari: la prima preserva la qualità generale del retrieval, mentre la seconda migliora la sensibilità alle istruzioni. Questi risultati evidenziano il valore della sintesi mirata dei dati per costruire sistemi di retrieval che siano sia ampiamente capaci che consapevoli delle istruzioni.
Il code-switching è un fenomeno linguistico pervasivo nella comunicazione globale, eppure i moderni sistemi di information retrieval rimangono prevalentemente progettati e valutati in contesti monolingui. Per colmare questa critica disconnessione, presentiamo uno studio olistico dedicato all'IR con code-switching. Introduciamo CSR-L (Code-Switching Retrieval benchmark-Lite), costruendo un dataset tramite annotazione umana per catturare l'autentica naturalezza di query in linguaggio misto. La nostra valutazione attraverso paradigmi statistici, densi e di late-interaction rivela che il code-switching agisce come un collo di bottiglia fondamentale per le prestazioni, degradando l'efficacia persino di robusti modelli multilingue. Dimostriamo che questo fallimento deriva da una sostanziale divergenza nello spazio d'embedding tra testo puro e testo con code-switching. Scalando questa investigazione, proponiamo CS-MTEB, un benchmark completo che copre 11 task diversificati, dove osserviamo cali prestazionali fino al 27%. Infine, mostriamo che tecniche multilingue standard come l'espansione del vocabolario sono insufficienti per risolvere completamente questi deficit. Questi risultati sottolineano la fragilità dei sistemi attuali e stabiliscono il code-switching come una frontiera cruciale per la futura ottimizzazione dell'IR.
L'aritmetica dei task fornisce un modo efficiente e senza addestramento per modificare modelli pre-addestrati, ma manca di una spiegazione teorica fondamentale per il suo successo. Il concetto esistente di "disaccoppiamento dei pesi" descrive il risultato ideale di una composizione di task non interferente, ma non ne rivela la causa sottostante. Crucialmente, quali proprietà intrinseche del modello pre-addestrato (θ₀) o dei vettori di task (τ_t) abilitino questo disaccoppiamento rimane poco esplorato. In questo articolo, introduciamo la Specializzazione Task-Feature (TFS), la capacità di un modello di allocare feature interne distinte a task diversi, come principio fondamentale. Dimostriamo prima che la TFS è una condizione sufficiente per il disaccoppiamento dei pesi. Più importante, troviamo che la TFS dà anche origine a una conseguenza geometrica osservabile: l'ortogonalità dei vettori dei pesi. Questo posiziona la TFS come la causa comune sia del risultato funzionale desiderato (disaccoppiamento) che di una proprietà geometrica misurabile (ortogonalità). Questa relazione fornisce l'intuizione chiave per il nostro metodo: poiché l'astratta proprietà TFS è intrattabile da imporre direttamente, possiamo invece promuovere il disaccoppiamento dei pesi modellando la sua conseguenza geometrica concreta, l'ortogonalità. Pertanto, proponiamo OrthoReg, un metodo di regolarizzazione semplice ed efficace che impone attivamente una struttura ortogonale interna sugli aggiornamenti dei pesi (ΔW) che costituiscono τ_t durante il fine-tuning. E dimostriamo teoricamente che OrthoReg promuove il disaccoppiamento. Esperimenti estesi dimostrano che OrthoReg migliora in modo consistente e significativo le prestazioni di vari metodi di aritmetica dei task. Il codice è disponibile all'indirizzo https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.
Affrontiamo il problema della generazione di un ambiente navigabile, tridimensionalmente coerente e geograficamente ancorato: una simulazione di una località reale. I modelli generativi video esistenti possono produrre una sequenza plausibile e coerente con un prompt testuale (T2V) o di immagine (I2V). Tuttavia, la capacità di ricostruire il mondo reale in condizioni meteorologiche arbitrarie e con configurazioni dinamiche degli oggetti è essenziale per applicazioni downstream, come la guida autonoma e la simulazione robotica. A tal fine, presentiamo CityRAG, un modello generativo video che sfrutta grandi corpora di dati geo-referenziati come contesto per ancorare la generazione alla scena fisica, preservando al contempo i prior appresi per i cambiamenti complessi di movimento e aspetto. CityRAG si basa su dati di addestramento temporalmente non allineati, che insegnano al modello a separare semanticamente la scena sottostante dai suoi attributi transienti. I nostri esperimenti dimostrano che CityRAG è in grado di generare sequenze video coerenti e lunghe diversi minuti, fisicamente ancorate, di mantenere condizioni meteorologiche e di illuminazione per migliaia di fotogrammi, di ottenere una chiusura del ciclo e di navigare traiettorie complesse per ricostruire la geografia del mondo reale.
La diffusione video autoregressiva si sta affermando come un paradigma promettente per la sintesi di video in streaming, con la distillazione dei passi che funge da mezzo principale per accelerare l'inferenza. Resta una questione aperta se il decoding speculativo, la strategia di accelerazione dominante per i grandi modelli linguistici, possa essere efficacemente adattato alla generazione video autoregressiva, poiché i blocchi video sono tensori spazio-temporali continui senza una distribuzione a livello di token per un campionamento di rigetto esatto. Introduciamo SDVG, che porta il decoding speculativo alla diffusione video autoregressiva basata su blocchi sostituendo la verifica dei token con un router di qualità dell'immagine. Un modello "drafter" da 1.3B propone blocchi candidati tramite quattro passi di denoising; ogni blocco viene decodificato tramite VAE e valutato da ImageReward utilizzando un'aggregazione del frame peggiore—prendendo la ricompensa minima per frame per catturare artefatti su frame singoli che una media maschererebbe. I blocchi con punteggio superiore a una soglia fissa tau vengono accettati nella KV cache del modello "target" da 14B; gli altri vengono rigenerati dal target. Due scelte progettuali aggiuntive si rivelano cruciali: il primo blocco viene sempre forzatamente rigettato per ancorare la composizione della scena, e tau funge da unico parametro che traccia una frontiera di Pareto qualità-velocità uniforme. Su 1003 prompt di MovieGenVideoBench (832x480), SDVG mantiene il 98.1% della qualità VisionReward del solo target (0.0773 vs. 0.0788) con un accelerazione di 1.59x a tau=-0.7, e raggiunge 2.09x con una ritenzione di qualità del 95.7%—superando costantemente la generazione con il solo drafter di oltre +17%. Il framework non richiede training, non necessita di modifiche architetturali e può essere integrato senza soluzione di continuità nelle pipeline esistenti di generazione video autoregressiva.
Ogni attività quotidiana possiede un obiettivo, e l'addestramento preliminare (pretraining) dei modelli attorno a questo obiettivo è ciò che li trasforma in esperti. In questo articolo, studiamo il pretraining di modelli linguistici (LM) orientato a un obiettivo introducendo il Ranking basato su Grafo ad Attivazione Neuronale (NAG-based Ranking), un framework interpretabile e che non richiede addestramento per la selezione dei dati di pretraining mirati. Invece di utilizzare rappresentazioni "black-box", il nostro approccio caratterizza direttamente ogni input target mediante un insieme sparso di neuroni ad alto impatto in qualsiasi LLM già disponibile. Nello specifico, quantifichiamo l'impatto dei neuroni e selezioniamo i neuroni più influenti attraverso i layer in un compatto Grafo ad Attivazione Neuronale (NAG), quindi classifichiamo i dati candidati in base alla similarità del NAG con gli esempi target. Abbiamo condotto esperimenti su sei benchmark, dove il nostro Ranking basato su NAG migliora il pretraining orientato all'obiettivo del 4.9% in media rispetto al campionamento casuale, e supera anche i baseline state-of-the-art con un'accuratezza del 5.3% su HellaSwag. Rimane efficace anche in un'impostazione multi-obiettivo più applicabile, dove la nostra configurazione migliore supera due baseline rispettivamente dell'1.1% e del 4.1%. Inoltre, forniamo un'analisi completa sul perché e sul come funziona il nostro NAG; ad esempio, disattivare i neuroni selezionati dal NAG (solo lo 0.12% del totale) causa un crollo delle prestazioni del 23.5%, e limitare il NAG al layer finale comporta un calo medio del 4.1%, indicando che il NAG cattura una "spina dorsale funzionale" sparsa per l'apprendimento delle caratteristiche target. Rilasciamo il codice all'indirizzo https://github.com/asillycat/NAG.
L'editing tradizionale delle immagini fotografiche richiede solitamente che gli utenti possiedano una sufficiente comprensione estetica per fornire indicazioni appropriate sulla regolazione della qualità dell'immagine e dei parametri della fotocamera. Tuttavia, questo paradigma si basa su istruzioni umane esplicite dell'intento estetico, che sono spesso ambigue, incomplete o inaccessibili agli utenti non esperti. In questo lavoro proponiamo SmartPhotoCrafter, un metodo di editing automatico di immagini fotografiche che formula l'editing come un processo strettamente accoppiato di ragionamento-generazione. Il modello proposto esegue prima una comprensione della qualità dell'immagine e identifica le carenze tramite il modulo Image Critic, successivamente il modulo Photographic Artist realizza modifiche mirate per migliorare l'attrattiva dell'immagine, eliminando la necessità di istruzioni umane esplicite. Viene adottata una pipeline di addestramento multi-fase: (i) Pre-addestramento di base per stabilire comprensione estetica e capacità di editing fondamentali, (ii) Adattamento con supervisione multi-modifica guidata dal ragionamento per incorporare una ricca guida semantica, e (iii) Apprendimento per rinforzo coordinato ragionamento-generazione per ottimizzare congiuntamente ragionamento e generazione. Durante l'addestramento, SmartPhotoCrafter enfatizza la generazione di immagini foto-realistiche, supportando sia compiti di restauro che di ritocco dell'immagine con coerenza verso la semantica relativa a colore e tono. Abbiamo anche costruito un dataset specifico per fase, che costruisce progressivamente ragionamento e generazione controllabile, efficace collaborazione cross-modulo e infine un enhancement fotografico di alta qualità. Gli esperimenti dimostrano che SmartPhotoCrafter supera i modelli generativi esistenti nel compito di enhancement fotografico automatico, ottenendo risultati foto-realistici mostrando al contempo una maggiore sensibilità tonale alle istruzioni di ritocco. Pagina del progetto: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
I recenti progressi nella visione 3D hanno portato allo sviluppo di modelli specializzati per la comprensione 3D (ad esempio, classificazione di forme, segmentazione, ricostruzione) o per la generazione 3D (ad esempio, sintesi, completamento e modifica). Tuttavia, questi compiti sono spesso affrontati in modo isolato, dando luogo a architetture e rappresentazioni frammentate che ostacolano il trasferimento di conoscenze e la modellazione olistica della scena. Per affrontare queste sfide, proponiamo UniMesh, un framework unificato che apprende congiuntamente la generazione e la comprensione 3D all'interno di un'unica architettura. In primo luogo, introduciamo una nuova Mesh Head che funge da interfaccia cross-model, collegando la generazione di immagini basata su diffusione con decoder di forme implicite. In secondo luogo, sviluppiamo la Catena di Mesh (Chain of Mesh, CoM), un'istanziazione geometrica del ragionamento iterativo che abilita la modifica semantica di mesh guidata dall'utente attraverso un ciclo chiuso di latente, prompting e rigenerazione. In terzo luogo, incorporiamo un meccanismo di autoriflessione basato su una triade Attore-Valutatore-Autoriflessione per diagnosticare e correggere gli errori in compiti di alto livello come la descrizione in linguaggio naturale di scene 3D. I risultati sperimentali dimostrano che UniMesh non solo raggiunge prestazioni competitive su benchmark standard, ma sblocca anche nuove capacità nell'editing iterativo e nel miglioramento reciproco tra generazione e comprensione. Codice: https://github.com/AIGeeksGroup/UniMesh. Sito web: https://aigeeksgroup.github.io/UniMesh.
L'ottimizzazione fine (fine-tuning) dei Large Language Model (LLM) rimane strutturalmente incerta nonostante metodi efficienti in termini di parametri come il Low-Rank Adaptation (LoRA), poiché i ruoli specifici per strato delle rappresentazioni interne sono scarsamente compresi, portando a decisioni euristiche su dove dovrebbe essere applicato l'adattamento. Modelliamo l'evoluzione degli stati nascosti come una traiettoria geometrica ad alta dimensione e proponiamo l'uso dell'algoritmo di Ramer-Douglas-Peucker (RDP), un metodo di semplificazione di poligoni privo di parametri e di addestramento che preserva le transizioni strutturali globali eliminando i cambiamenti ridondanti a livello locale, per identificare punti di svolta critici lungo il percorso di rappresentazione. Fondamentalmente, utilizziamo questi perni geometrici non solo per l'analisi, ma come segnale decisionale diretto per determinare quali strati adattare durante l'ottimizzazione fine efficiente in parametri. Integrando questa strategia di selezione degli strati consapevole della geometria nell'ottimizzazione fine LoRA di Qwen3-8B-Base, otteniamo prestazioni superiori su MMLU-Math utilizzando solo 13 strati selezionati con RDP (81,67%), superando significativamente sia l'adattamento completo a 36 strati (79,32%) che la selezione casuale di 13 strati (75,56%), nonché il modello baseline Qwen3-8B-Base (74,25%). Questi risultati dimostrano che sfruttare la geometria intrinseca delle traiettorie di rappresentazione fornisce un segnale robusto, interpretabile e privo di addestramento per ottimizzare la selezione degli strati durante l'adattamento del modello.
I modelli linguistici multimodali di grandi dimensioni (MLLM) vengono sempre più utilizzati come valutatori automatici, un paradigma noto come MLLM-as-a-Judge. Tuttavia, la loro affidabilità e le vulnerabilità a bias rimangono poco esplorate. Rileviamo che molti giudici MLLM non riescono a integrare in modo affidabile gli indizi visivi o testuali chiave, producendo valutazioni inaffidabili quando le evidenze sono assenti o non corrispondenti, e mostrando instabilità sotto perturbazioni semanticamente irrilevanti. Per affrontare questo problema, definiamo sistematicamente il Bias Composizionale nei sistemi MLLM-as-a-Judge e introduciamo MM-JudgeBias, un benchmark per valutarlo. MM-JudgeBias introduce perturbazioni controllate su Query, Immagine e Risposta, e valuta il comportamento del modello tramite due metriche complementari: Bias-Deviation (BD) per la sensibilità e Bias-Conformity (BC) per la stabilità. Il nostro dataset di oltre 1.800 campioni multimodali curati e raffinati, provenienti da 29 benchmark sorgente, consente una diagnosi granulare di nove tipi di bias attraverso vari task e domini. Esperimenti su 26 MLLM all'avanguardia rivelano una negligenza modale sistematica e tendenze valutative asimmetriche, sottolineando la necessità di giudici più affidabili.
Il ridimensionamento dei modelli Transformer per il click-through rate (CTR) mediante l'aggiunta di parametri comporta crescenti costi computazionali e di archiviazione, creando un divario sempre più ampio tra le ambizioni di scalabilità e i vincoli stringenti del deployment industriale. Proponiamo LoopCTR, che introduce un paradigma di ridimensionamento a loop che aumenta il calcolo in fase di training attraverso il riutilizzo ricorsivo di layer condivisi, disaccoppiando la computazione dalla crescita dei parametri. LoopCTR adotta un'architettura a sandwich potenziata con Residui Iper-Connessi e Mistura di Esperti, e impiega una supervisione del processo a ogni profondità di loop per codificare i vantaggi multi-loop nei parametri condivisi. Ciò consente una strategia "train-multi-loop, infer-zero-loop" in cui un singolo passaggio in avanti senza alcun loop supera già tutte le baseline. Esperimenti su tre benchmark pubblici e un dataset industriale dimostrano prestazioni all'avanguardia. Un'analisi oracolare rivela inoltre un potenziale inespresso di 0.02-0.04 AUC, con modelli addestrati con meno loop che mostrano soffitti oracolari più alti, indicando una frontiera promettente per l'inferenza adattiva.
Il Modello di Diffusione Discreta Uniforme (UDM) è recentemente emerso come paradigma promettente per la modellazione generativa discreta; tuttavia, la sua integrazione con l'apprendimento per rinforzo rimane ampiamente inesplorata. Osserviamo che l'applicazione ingenua di GRPO a UDM porta a instabilità nell'addestramento e a miglioramenti marginali delle prestazioni. Per affrontare questo problema, proponiamo \Ours, il primo framework che integra UDM con RL. Il nostro metodo è guidato da due intuizioni chiave: (i) trattare il campione pulito finale come azione fornisce segnali di ottimizzazione più accurati e stabili; e (ii) ricostruire le traiettorie tramite il processo diretto di diffusione allinea meglio i percorsi probabilistici con la distribuzione di pre-addestramento. Inoltre, introduciamo due strategie, Reduced-Step e CFG-Free, per migliorare ulteriormente l'efficienza dell'addestramento. \Ours migliora significativamente le prestazioni del modello base in molteplici attività T2I. In particolare, l'accuratezza di GenEval migliora dal 69% al 96% e il PickScore aumenta da 20,46 a 23,81, raggiungendo prestazioni all'avanguardia sia in contesti continui che discreti. Sul benchmark OCR, l'accuratezza sale dall'8% al 57%, convalidando ulteriormente la capacità di generalizzazione del nostro metodo. Il codice è disponibile all'indirizzo https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.
Le comuni attività di modifica delle immagini adottano generalmente potenti modelli di diffusione generativa come paradigma principale per l'editing di contenuti nel mondo reale. Nel frattempo, sebbene i metodi di apprendimento per rinforzo (RL) come Diffusion-DPO e Flow-GRBO abbiano ulteriormente migliorato la qualità della generazione, l'applicazione efficiente del Reinforcement Learning from Human Feedback (RLHF) all'editing basato su modelli di diffusione rimane in gran parte inesplorata, a causa della mancanza di dataset di preferenze umane scalabili e di framework specifici per diverse esigenze di editing. Per colmare questa lacuna, proponiamo HP-Edit, un framework di post-training per l'Editing Allineato alle Preferenze Umane, e introduciamo RealPref-50K, un dataset del mondo reale che copre otto compiti comuni e bilancia l'editing di oggetti comuni. Nello specifico, HP-Edit utilizza una piccola quantità di dati di valutazione delle preferenze umane e un modello linguistico visivo (VLM) preaddestrato per sviluppare HP-Scorer, un valutatore automatico allineato alle preferenze umane. Utilizziamo quindi HP-Scorer sia per costruire efficientemente un dataset di preferenze scalabile, sia come funzione di reward per il post-training del modello di editing. Introduciamo inoltre RealPref-Bench, un benchmark per valutare le prestazioni di editing nel mondo reale. Esperimenti estensivi dimostrano che il nostro approccio migliora significativamente modelli come Qwen-Image-Edit-2509, allineando i loro output più strettamente alle preferenze umane.
La Teoria del Funzionale della Densità (DFT) costituisce la base di gran parte della chimica computazionale e della scienza dei materiali moderna. Tuttavia, l'affidabilità delle previsioni derivate dalla DFT su proprietà misurabili sperimentalmente rimane fondamentalmente limitata dalla necessità di approssimare il funzionale sconosciuto di scambio e correlazione (XC). Il paradigma tradizionale per migliorare l'accuratezza si è basato su forme funzionali sempre più elaborate, costruite manualmente. Questo approccio ha portato a un compromesso di lunga data tra efficienza computazionale e accuratezza, che rimane insufficiente per una modellazione predittiva affidabile degli esperimenti di laboratorio. Qui introduciamo Skala, un funzionale XC basato sul deep learning che supera in accuratezza i funzionali ibridi all'avanguardia sull'insieme di benchmark di chimica dei principali gruppi GMTKN55, con un errore di 2.8 kcal/mol, pur mantenendo il costo computazionale inferiore caratteristico della DFT semi-locale. Questo allontanamento dimostrato dal compromesso storico tra accuratezza ed efficienza è reso possibile dall'apprendimento di rappresentazioni non locali della struttura elettronica direttamente dai dati, bypassando la necessità di caratteristiche progettate manualmente e sempre più costose. Sfruttando un volume senza precedenti di dati di riferimento ad alta accuratezza da metodi basati sulla funzione d'onda, stabiliamo che il deep learning moderno consente modelli neurali di scambio e correlazione sistematicamente migliorabili man mano che i dataset di addestramento si espandono, posizionando le simulazioni basate sui primi principi per diventare progressivamente più predittive.
Recenti studi hanno dimostrato il potenziale dell'orchestrazione di grandi modelli linguistici (LLM) all'interno di sistemi di ottimizzazione evolutiva e agent-based. Tuttavia, i meccanismi alla base di questi miglioramenti nell'ottimizzazione rimangono poco compresi. In questo lavoro, presentiamo uno studio su larga scala della ricerca evolutiva guidata da LLM, raccogliendo le traiettorie di ottimizzazione per 15 modelli diversi attraverso 8 compiti. Sebbene la capacità di risoluzione dei problemi in modalità zero-shot sia correlata con gli esiti finali dell'ottimizzazione, essa spiega solo una parte della varianza: modelli con capacità iniziali simili spesso generano traiettorie di ricerca ed esiti radicalmente diversi. Analizzando queste traiettorie, scopriamo che gli LLM più efficaci si comportano come affinatori locali, producendo frequenti miglioramenti incrementali localizzando progressivamente la ricerca nello spazio semantico. Al contrario, ottimizzatori più deboli mostrano un'ampia deriva semantica, con sporadiche svolte seguite da stagnazione. È interessante notare che varie misure della novità delle soluzioni non predicono le prestazioni finali; la novità è benefica solo quando la ricerca rimane sufficientemente localizzata attorno a regioni ad alte prestazioni dello spazio delle soluzioni. I nostri risultati evidenziano l'importanza dell'analisi delle traiettorie per comprendere e migliorare i sistemi di ottimizzazione basati su LLM e forniscono indicazioni pratiche per la loro progettazione e addestramento.
Gli strumenti di interpretabilità sono sempre più utilizzati per analizzare i fallimenti dei Large Language Model (LLM), tuttavia i lavori precedenti si concentrano prevalentemente su prompt brevi o contesti semplificati, lasciando inesplorato il loro comportamento sui benchmark comunemente utilizzati. Per colmare questa lacuna, studiamo l'attribuzione contrastiva basata su LRP come strumento pratico per analizzare i fallimenti degli LLM in contesti realistici. Formuliamo l'analisi dei fallimenti come attribuzione contrastiva, attribuendo la differenza di logit tra un token di output errato e un'alternativa corretta ai token di input e agli stati interni del modello, e introduciamo un'estensione efficiente che consente la costruzione di grafi di attribuzione cross-layer per input a contesto lungo. Utilizzando questo framework, conduciamo uno studio empirico sistematico su diversi benchmark, confrontando i pattern di attribuzione tra dataset, dimensioni del modello e checkpoint di addestramento. I nostri risultati mostrano che questa attribuzione contrastiva a livello di token può produrre segnali informativi in alcuni casi di fallimento, ma non è universalmente applicabile, evidenziandone sia l'utilità che i limiti per un'analisi realistica dei fallimenti degli LLM. Il nostro codice è disponibile all'indirizzo: https://aka.ms/Debug-XAI.
I modelli linguistici sono sempre più utilizzati nella scoperta scientifica per generare ipotesi, proporre soluzioni candidate, implementare sistemi e affinarli in modo iterativo. Al centro di questi cicli di prova ed errore si trova la valutazione: il processo di ottenimento di feedback sulle soluzioni candidate tramite verificatori, simulatori o funzioni di punteggio specifiche per il compito. Sebbene lavori precedenti abbiano sottolineato l'importanza della valutazione, non hanno formulato esplicitamente il problema di come i cicli di scoperta guidati dalla valutazione possano essere scalati in modo principiato ed efficace per spingere i confini della scoperta scientifica, un problema che questo articolo intende affrontare. Introduciamo Simple Test-time Evaluation-driven Scaling (SimpleTES), un framework generale che combina strategicamente esplorazione parallela, raffinamento guidato dal feedback e selezione locale, rivelando sostanziali vantaggi sbloccati scalando i cicli di scoperta guidati dalla valutazione lungo le dimensioni appropriate. Attraverso 21 problemi scientifici che abbracciano sei domini, SimpleTES scopre soluzioni all'avanguardia utilizzando modelli GPT open-source, superando costantemente sia baseline di modelli di frontiera che pipeline di ottimizzazione sofisticate. In particolare, abbiamo accelerato l'algoritmo LASSO ampiamente utilizzato di oltre 2 volte, progettato politiche di instradamento per circuiti quantistici che riducono l'overhead dei gate del 24,5% e scoperto nuove costruzioni di Erdős a minima sovrapposizione che superano i risultati migliori conosciuti. Oltre a scoperte innovative, SimpleTES produce cronologie a livello di traiettoria che supervisionano naturalmente l'apprendimento guidato dal feedback. Quando addestrati in post-processing su traiettorie di successo, i modelli non solo migliorano l'efficienza sui problemi già visti, ma generalizzano anche a problemi non visti, scoprendo soluzioni che i modelli di base non riescono a individuare. Nel complesso, i nostri risultati stabiliscono la scalabilità efficace dei cicli guidati dalla valutazione come un asse centrale per far avanzare la scoperta scientifica guidata dai LLM e forniscono un framework semplice ma pratico per realizzare questi vantaggi.
Gli attuali framework di agenti IA hanno compiuto progressi notevoli nell'automatizzazione di singoli compiti, ma tutti i sistemi esistenti servono un singolo utente. La produttività umana si basa sulle relazioni sociali e organizzative attraverso le quali le persone coordinano, negoziano e delegano. Quando gli agenti evolvono dall'eseguire compiti per una persona al rappresentare quella persona in collaborazione con altri, l'infrastruttura per la collaborazione tra agenti di utenti diversi è completamente assente, per non parlare dei meccanismi di governance necessari a garantirne la sicurezza. Sosteniamo che la prossima frontiera per gli agenti IA non risieda in capacità individuali più potenti, ma nella digitalizzazione delle relazioni collaborative umane. A tal fine, proponiamo un paradigma di agenti in simbiosi umana. Ogni utente possiede un sistema di agenti permanentemente vincolato che collabora per conto del proprietario, formando una rete i cui nodi sono umani piuttosto che agenti. Questo paradigma poggia su tre primitive di governance. Un'architettura identitaria stratificata separa un Agente Manager da molteplici Agenti Identità specifici per contesto; l'Agente Manager detiene conoscenza globale ma è architetturalmente isolato dalla comunicazione esterna. L'autorizzazione delimitata applica controlli di accesso per identità ed escalava le violazioni dei confini al proprietario. La responsabilità a livello di azione registra ogni operazione rispetto all'identità e all'autorizzazione del proprietario, garantendo piena tracciabilità. Istanziamo questo paradigma in ClawNet, un framework di collaborazione tra agenti governato dall'identità che applica il vincolo identitario e la verifica dell'autorizzazione attraverso un orchestratore centrale, consentendo a più utenti di collaborare in sicurezza attraverso i rispettivi agenti.
I grandi modelli visione-linguaggio (LVLM) continuano a lottare con il problema dell'allucinazione visiva, dove le risposte generate sono inconsistenti con l'input visivo. I metodi esistenti si basano su dati annotati su larga scala per il fine-tuning, il che comporta un enorme sovraccarico computazionale, oppure impiegano strategie post-hoc statiche che trascurano la natura dinamica dell'emergere delle allucinazioni. Per affrontare questi problemi, introduciamo un nuovo framework di auto-ricompensa (self-rewarding) che abilita una mitigazione dinamica delle allucinazioni al momento dell'inferenza senza supervisione esterna. Sul versante empirico, riveliamo che l'allucinazione visiva presenta pattern dinamici fase-specifici, piccando all'inizio di ogni fase semantica. Basandoci su queste intuizioni, proponiamo il PSRD (Phase-wise **Self-Reward Decoding**) per la correzione online delle allucinazioni guidata da segnali di auto-ricompensa fase-specifici. Per ridurre il costo della ripetuta auto-valutazione durante il decoding, distilliamo il segnale di guida per l'allucinazione dagli LVLM in un modello di ricompensa leggero (lightweight reward model). Questo modello fornisce poi una guida in tempo reale per un intervento mirato durante il processo di decoding, consentendo una soppressione precisa delle allucinazioni. Il PSRD proposto riduce significativamente il tasso di allucinazione di LLaVA-1.5-7B del 50.0% e supera costantemente i metodi post-hoc esistenti su cinque benchmark di valutazione delle allucinazioni per quattro LVLM. Ulteriori analisi confermano che il PSRD mitiga efficacemente la propagazione delle allucinazioni e raggiunge un compromesso altamente controllabile tra prestazioni robuste ed efficienza inferenziale.
I dispositivi edge come smartwatch e occhiali intelligenti non possono eseguire continuamente nemmeno i più piccoli modelli linguistici da 100M-1B di parametri a causa dei vincoli di potenza e capacità computazionale, mentre l'inferenza cloud introduce latenze di diversi secondi che compromettono l'illusione di un assistente reattivo. Introduciamo i micro modelli linguistici (μLM): modelli ultra-compatti (8M-30M di parametri) che generano istantaneamente le prime 4-8 parole di una risposta contestualmente fondata sul dispositivo, mentre un modello cloud la completa, mascherando così la latenza cloud. Dimostriamo che la generazione linguistica utile sopravvive a questa scala estrema, con i nostri modelli che eguagliano le prestazioni di diversi modelli esistenti della classe 70M-256M. Progettiamo un framework di generazione collaborativa che riformula il modello cloud come un continuatore piuttosto che un risponditore, raggiungendo passaggi di consegna a metà frase senza soluzione di continuità e un recupero strutturato elegante tramite tre metodi di correzione degli errori quando l'apertura locale va male. I risultati empirici mostrano che i μLMs possono avviare risposte che modelli più grandi completano perfettamente, dimostrando che la collaborazione asimmetrica di ordini di grandezza è realizzabile e sbloccando l'IA reattiva per dispositivi estremamente limitati in risorse. Il checkpoint del modello e la demo sono disponibili all'indirizzo https://github.com/Sensente/micro_language_model_swen_project.
Studiamo il problema della previsione di etichette numeriche vincolate agli interi o a un sottoinsieme degli interi. Ad esempio, il numero di like su post dei social media, o il numero di biciclette disponibili in una stazione di noleggio pubblico. Sebbene sia possibile modellarli come valori continui e applicare la regressione tradizionale, questo approccio modifica la distribuzione sottostante delle etichette da discreta a continua. Le distribuzioni discrete presentano determinati vantaggi, il che ci porta a chiederci se tali etichette intere possano essere modellate direttamente da una distribuzione discreta, i cui parametri siano previsti a partire dalle caratteristiche di una determinata istanza. Inoltre, ci concentriamo sul caso d'uso delle distribuzioni di output delle reti neurali, il che aggiunge il requisito che i parametri della distribuzione siano continui, in modo che la retropropagazione e la discesa del gradiente possano essere utilizzate per apprendere i pesi della rete. Investigiamo diverse opzioni per tali distribuzioni, alcune esistenti e alcune nuove, e le testiamo su una serie di compiti, inclusi l'apprendimento su dati tabellari, la previsione sequenziale e la generazione di immagini. Rileviamo che, complessivamente, le migliori prestazioni provengono da due distribuzioni: Bitwise, che rappresenta l'intero target in bit e pone una distribuzione di Bernoulli su ciascuno di essi, e un analogo discreto della distribuzione di Laplace, che utilizza una distribuzione con code a decadimento esponenziale attorno a una media continua.
I recenti sistemi di traduzione parlato-parlato (S2ST) raggiungono un'elevata accuratezza semantica, ma rimuovono sistematicamente le vocalizzazioni non verbali (NV), come risate e pianti che veicolano l'intento pragmatico, limitandone gravemente l'utilità pratica. Affrontiamo questo problema attraverso tre contributi. In primo luogo, proponiamo una pipeline di sintesi per costruire dataset espressivi scalabili al fine di superare la limitazione della scarsità di dati. In secondo luogo, proponiamo MoVE, un'architettura Mixture-of-LoRA-Experts con adattatori specializzati per l'espressività e un router a pesatura soft che combina gli esperti per catturare stati espressivi ibridi. In terzo luogo, dimostriamo che gli AudioLLM preaddestrati consentono una sorprendente efficienza dei dati: bastano 30 minuti di dati curati per ottenere prestazioni solide. Nella traduzione S2ST inglese-cinese, confrontandolo con baseline robuste, MoVE riproduce le NV target nel 76% dei casi e raggiunge la più alta naturalezza e fedeltà emotiva valutata dall'uomo tra tutti i sistemi confrontati, mentre i sistemi S2ST esistenti preservano al massimo il 14% delle NV.
Le organizzazioni autonome decentralizzate (DAO) mostrano una propensione ad esplorare i Small Language Model (SLM) come firewall costituzionali edge-native per vagliare le proposte e mitigare l'ingegneria sociale semantica. Sebbene il potenziamento della potenza di calcolo in fase di inferenza (Sistema 2) migliori la logica formale, la sua efficacia in ambienti di governance criptoeconomica altamente avversativi rimane poco esplorata. Per affrontare ciò, introduciamo Sentinel-Bench, un framework empirico da 840 inferenze che esegue una rigorosa ablazione intra-modello su Qwen-3.5-9B. Attivando e disattivando il ragionamento latente su pesi congelati, isoliamo l'impatto della potenza di calcolo in inferenza rispetto a un dataset avversativo di Optimism DAO. I nostri risultati rivelano una severa inversione calcolo-accuratezza. La baseline autoregressiva (Sistema 1) ha raggiunto il 100% di robustezza avversativa, il 100% di coerenza giuridica e la finalità di stato in meno di 13 secondi. Al contrario, il ragionamento del Sistema 2 ha introdotto un'instabilità catastrofica, guidata fondamentalmente da un tasso del 26,7% di Non Convergenza del Ragionamento (collasso cognitivo). Questo collasso ha degradato la stabilità del consenso prova-per-prova al 72,6% e ha imposto un sovraccarico di latenza di 17x, introducendo vulnerabilità critiche al Valore Estraibile dalla Governance (GEV) e alla centralizzazione hardware. Sebbene rari (1,5% delle prove avversative), abbiamo catturato empiricamente la "Sicofanzia Indotta dal Ragionamento", dove il modello generava monologhi interni significativamente più lunghi (in media 25.750 caratteri) per razionalizzare il fallimento della trappola avversativa. Concludiamo che per gli SLM edge-native operanti sotto i vincoli della Tolleranza ai Guasti Bizantini (BFT), l'intuizione parametrica del Sistema 1 è strutturalmente ed economicamente superiore alla deliberazione iterativa del Sistema 2 per il consenso decentralizzato. Codice e Dataset: https://github.com/smarizvi110/sentinel-bench
I modelli di ragionamento multimodale (MRM) che sfruttano il ragionamento a catena del pensiero (CoT) hanno rivoluzionato la risoluzione di problemi matematici e logici. Tuttavia, dimostriamo che questo paradigma incontra difficoltà con l'intelligenza spaziale generalizzata. Eseguiamo una valutazione completa di diciassette modelli su tredici benchmark spaziali e identifichiamo un divario critico: il prompting CoT degrada sistematicamente le prestazioni nel ragionamento spaziale visivo. Inoltre, attraverso una nuova ablazione No-Image++, dimostriamo che gli MRM e i modelli linguistici multimodali (MLM) stimolati con CoT soffrono di un grave apprendimento di scorciatoie e allucinano dettagli visivi partendo da informazioni testuali preliminari, persino quando l'immagine è assente. Questi risultati mettono in discussione l'efficacia del CoT puramente testuale per compiti spaziali e sottolineano la necessità di paradigmi di ragionamento incentrati sulla visione.
I modelli linguistici multimodali (MLLM) hanno ottenuto progressi impressionanti nei benchmark di linguaggio visivo, ma la loro capacità di ragionamento visivo-cognitivo e visuospaziale rimane meno compresa. Presentiamo "Mind's Eye", un benchmark a scelta multipla composto da otto compiti visuo-cognitivi ispirati a classici test di intelligenza umana e organizzati secondo una nuova tassonomia "A-R-T": Astrazione, Relazione e Trasformazione. I compiti indagano processi fondamentali dell'intelligenza fluida come l'induzione di pattern, il mapping di relazioni analogiche e la trasformazione mentale. Valutiamo una serie diversificata di MLLM open-source e proprietari e confrontiamo le loro prestazioni con quelle di partecipanti umani. Gli esseri umani raggiungono un'accuratezza dell'80%, mentre i migliori MLLM si attestano sotto il 50%. L'analisi degli errori rivale carenze in: (i) l'allocazione dell'attenzione visiva, (ii) la manipolazione percettiva interna, e (iii) la debole astrazione dei concetti visivi sottostanti. I nostri risultati suggeriscono che gli attuali MLLM mostrano capacità di ragionamento visuospaziale limitate rispetto ai partecipanti umani, evidenziando la necessità di framework di valutazione più ancorati alla cognizione.
L'implementazione dell'interfaccia utente di un gioco richiede la traduzione di mockup stilizzati in entità interattive all'interno del motore di gioco. Tuttavia, gli attuali strumenti "Screenshot-to-Code" spesso incontrano difficoltà con le geometrie irregolari e le gerarchie visive complesse tipiche delle interfacce di gioco. Per colmare questa lacuna, introduciamo SPRITE, una pipeline che trasforma screenshot statici in asset modificabili per il motore. Integrando modelli visione-linguaggio (VLM) con una rappresentazione intermedia strutturata in YAML, SPRITE cattura esplicitamente le relazioni complesse tra contenitori e i layout non rettangolari. Abbiamo valutato SPRITE rispetto a un benchmark curato di UI per giochi e condotto revisioni esperte con sviluppatori professionisti per valutarne la fedeltà di ricostruzione e l'efficienza nel prototipaggio. I nostri risultati dimostrano che SPRITE semplifica lo sviluppo automatizzando la codifica tediosa e risolvendo l'annidamento complesso degli elementi. Facilitando una rapida iterazione all'interno del motore, SPRITE offusca efficacemente i confini tra design artistico e implementazione tecnica nello sviluppo di giochi. Pagina del progetto: https://baiyunshu.github.io/sprite.github.io/