Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo GLM-4.5, un modello linguistico di grandi dimensioni open-source basato su Mixture-of-Experts (MoE) con un totale di 355 miliardi di parametri e 32 miliardi di parametri attivati, dotato di un metodo di ragionamento ibrido che supporta sia modalità di pensiero che di risposta diretta. Attraverso un addestramento multi-fase su 23 trilioni di token e un post-addestramento completo con iterazione di modelli esperti e apprendimento per rinforzo, GLM-4.5 raggiunge prestazioni solide in compiti di tipo agentico, di ragionamento e di codifica (ARC), ottenendo un punteggio del 70,1% su TAU-Bench, del 91,0% su AIME 24 e del 64,2% su SWE-bench Verified. Con un numero di parametri significativamente inferiore rispetto a diversi concorrenti, GLM-4.5 si posiziona al 3° posto complessivo tra tutti i modelli valutati e al 2° posto nei benchmark agentici. Rilasciamo sia GLM-4.5 (355 miliardi di parametri) che una versione compatta, GLM-4.5-Air (106 miliardi di parametri), per promuovere la ricerca nei sistemi di ragionamento e AI agentici. Codice, modelli e ulteriori informazioni sono disponibili su https://github.com/zai-org/GLM-4.5.
Il virtual try-on mira a sintetizzare un'immagine realistica di una persona che indossa un capo di abbigliamento target, ma modellare accuratamente la corrispondenza tra capo e corpo rimane una sfida persistente, specialmente in presenza di variazioni di posa e aspetto. In questo articolo, proponiamo Voost - un framework unificato e scalabile che apprende congiuntamente il virtual try-on e il try-off con un singolo transformer basato su diffusione. Modellando entrambe le attività in modo congiunto, Voost consente a ciascuna coppia capo-persona di supervisionare entrambe le direzioni e supporta un condizionamento flessibile sulla direzione di generazione e sulla categoria del capo, migliorando il ragionamento relazionale tra capo e corpo senza reti specifiche per task, perdite ausiliarie o etichette aggiuntive. Inoltre, introduciamo due tecniche di inferenza: lo scaling della temperatura di attenzione per una maggiore robustezza alle variazioni di risoluzione o maschera, e il campionamento auto-correttivo che sfrutta la consistenza bidirezionale tra le attività. Esperimenti estensivi dimostrano che Voost raggiunge risultati all'avanguardia sia nei benchmark di try-on che di try-off, superando costantemente baseline robuste in termini di accuratezza di allineamento, fedeltà visiva e generalizzazione.
I modelli linguistici di grandi dimensioni (LLM) basati su agenti eccellono in una vasta gamma di compiti, ma soffrono di una memoria procedurale fragile che è progettata manualmente o integrata in parametri statici. In questo lavoro, esploriamo strategie per dotare gli agenti di una memoria procedurale apprendibile, aggiornabile e permanente. Proponiamo Memp, che condensa le traiettorie passate degli agenti sia in istruzioni dettagliate, passo dopo passo, sia in astrazioni di livello superiore, simili a script, e analizziamo l'impatto di diverse strategie per la Costruzione, il Recupero e l'Aggiornamento della memoria procedurale. Accoppiato a un regime dinamico che aggiorna, corregge e depreca continuamente i suoi contenuti, questo repository si evolve in sincronia con nuove esperienze. La valutazione empirica su TravelPlanner e ALFWorld dimostra che, man mano che il repository di memoria viene raffinato, gli agenti raggiungono tassi di successo costantemente più elevati e una maggiore efficienza in compiti analoghi. Inoltre, la memoria procedurale costruita da un modello più forte mantiene il suo valore: migrare la memoria procedurale a un modello più debole produce miglioramenti sostanziali nelle prestazioni.
L'emergenza dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha favorito lo sviluppo di agenti autonomi che operano su Interfacce Grafiche Utente (GUI) utilizzando esclusivamente input visivi. Una sfida fondamentale è l'ancoraggio robusto delle istruzioni in linguaggio naturale. Ciò richiede un allineamento spaziale preciso, che localizza accuratamente le coordinate di ciascun elemento, e, ancora più crucialmente, un corretto allineamento semantico, che associa le istruzioni all'elemento dell'interfaccia utente funzionalmente appropriato. Sebbene il Reinforcement Learning con Ricompense Verificabili (RLVR) si sia dimostrato efficace nel migliorare l'allineamento spaziale per questi MLLMs, abbiamo riscontrato che un'esplorazione inefficiente rappresenta un collo di bottiglia per l'allineamento semantico, impedendo ai modelli di apprendere associazioni semantiche complesse. Per affrontare questo problema di esplorazione, presentiamo l'Adaptive Exploration Policy Optimization (AEPO), un nuovo framework di ottimizzazione delle policy. L'AEPO utilizza una strategia di generazione multi-risposta per imporre un'esplorazione più ampia, guidata da una funzione di ricompensa di esplorazione adattiva (AER) teoricamente fondata, derivata dai principi di efficienza eta=U/C. I nostri modelli addestrati con AEPO, InfiGUI-G1-3B e InfiGUI-G1-7B, stabiliscono nuovi risultati all'avanguardia su molteplici benchmark impegnativi per l'ancoraggio delle GUI, ottenendo miglioramenti relativi significativi fino al 9,0% rispetto al baseline RLVR ingenuo su benchmark progettati per testare la generalizzazione e la comprensione semantica. Le risorse sono disponibili su https://github.com/InfiXAI/InfiGUI-G1.
Recentemente, i Large Reasoning Models (LRM) hanno dimostrato capacità notevoli nel ragionamento sul codice scalando la lunghezza della Catena di Pensiero (Chain-of-Thought, CoT). Tuttavia, tracce di ragionamento eccessivamente lunghe introducono sfide significative in termini di costi di addestramento, latenza di inferenza e fattibilità di implementazione. Sebbene siano emersi vari approcci di compressione della CoT per affrontare questa sfida, essi presentano compromessi intrinseci: i metodi a livello di token spesso compromettono la coerenza sintattica e logica, mentre i metodi a livello di passaggio basati sulla perplessità non riescono a catturare in modo affidabile i passaggi di ragionamento logicamente critici. In questo articolo, proponiamo ASAP (Anchor-guided, Surprisal-based Pruning), un nuovo framework a grana grossa-fine per la compressione della CoT. ASAP esegue prima una potatura guidata da ancore per preservare la struttura di ragionamento centrale, riducendo in modo efficiente lo spazio di ricerca per le elaborazioni successive. Successivamente, abilita una potatura consapevole della logica selezionando i passaggi di ragionamento logicamente essenziali basandosi su una nuova metrica di sorpresa del primo token. Infine, ASAP insegna ai modelli di generare e sfruttare autonomamente queste CoT concise durante l'inferenza, consentendo un ragionamento efficiente nei compiti di codifica. Gli esperimenti dimostrano che ASAP raggiunge un'accuratezza all'avanguardia su più benchmark di generazione di codice, riducendo sostanzialmente i costi di addestramento e inferenza. Sul benchmark impegnativo LiveCodeBench v4_v5, il nostro approccio riduce la generazione di token del 23,5% e la latenza di inferenza del 43,5% rispetto al baseline più forte, raggiungendo un'accuratezza competitiva del 36,19% in Pass@1. I nostri risultati evidenziano una direzione promettente per la costruzione di LRM potenti ed efficienti.
Le attivazioni massive sono valori scalari negli stati nascosti dei transformer che raggiungono valori di ordini di grandezza superiori rispetto alle attivazioni tipiche e si sono dimostrati critici per il funzionamento del modello. Mentre lavori precedenti hanno caratterizzato questi fenomeni in modelli completamente addestrati, le dinamiche temporali della loro emersione durante l'addestramento rimangono poco comprese. Presentiamo la prima analisi completa dello sviluppo delle attivazioni massive durante l'addestramento dei transformer, utilizzando la famiglia di modelli Pythia come banco di prova. Attraverso un'analisi sistematica di varie dimensioni del modello in più checkpoint di addestramento, dimostriamo che l'emersione delle attivazioni massive segue schemi matematici prevedibili che possono essere accuratamente modellati utilizzando una funzione logaritmica modulata esponenzialmente con cinque parametri chiave. Sviluppiamo un framework di machine learning per prevedere questi parametri matematici dalle sole specifiche architetturali, raggiungendo un'elevata accuratezza per il comportamento in stato stazionario e un'accuratezza moderata per i tempi e l'entità dell'emersione. Questi risultati consentono ai progettisti di prevedere e potenzialmente controllare aspetti chiave dell'emersione delle attivazioni massive attraverso scelte di progettazione, con implicazioni significative per la stabilità del modello, la durata del ciclo di addestramento, l'interpretabilità e l'ottimizzazione. I nostri risultati dimostrano che l'emersione delle attivazioni massive è governata dal design del modello e può essere anticipata, e potenzialmente controllata, prima che inizi l'addestramento.
I Neural Radiance Fields (NeRF) e il Gaussian Splatting (GS) hanno recentemente rivoluzionato la rappresentazione e il rendering di scene 3D. NeRF ottiene una sintesi di nuove viste ad alta fedeltà apprendendo rappresentazioni volumetriche attraverso reti neurali, ma la sua codifica implicita rende complessa la modifica e l'interazione fisica. Al contrario, GS rappresenta le scene come collezioni esplicite di primitive gaussiane, consentendo rendering in tempo reale, addestramento più rapido e manipolazione più intuitiva. Questa struttura esplicita ha reso GS particolarmente adatto per l'editing interattivo e l'integrazione con simulazioni basate sulla fisica. In questo articolo, introduciamo GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing), un modello ibrido che combina la qualità fotorealistica del rendering di NeRF con la rappresentazione modificabile e strutturata di GS. Invece di utilizzare armoniche sferiche per la modellazione dell'aspetto, assegniamo a ciascuna gaussiana un embedding di caratteristiche addestrabile. Questi embedding vengono utilizzati per condizionare una rete NeRF basata sulle k gaussiane più vicine a ciascun punto di query. Per rendere efficiente questo condizionamento, introduciamo il Ray-Traced Gaussian Proximity Search (RT-GPS), una ricerca veloce delle gaussiane più vicine basata su una pipeline di ray-tracing modificata. Integriamo inoltre una griglia hash multi-risoluzione per inizializzare e aggiornare le caratteristiche delle gaussiane. Insieme, questi componenti abilitano un editing in tempo reale e consapevole della località: man mano che le primitive gaussiane vengono riposizionate o modificate, la loro influenza interpolata si riflette immediatamente nell'output renderizzato. Combinando i punti di forza delle rappresentazioni implicite ed esplicite, GENIE supporta la manipolazione intuitiva delle scene, l'interazione dinamica e la compatibilità con la simulazione fisica, colmando il divario tra l'editing basato sulla geometria e il rendering neurale. Il codice è disponibile su (https://github.com/MikolajZielinski/genie).
I modelli visione-linguaggio (VLMs) hanno dimostrato notevoli capacità di generalizzazione su un'ampia gamma di compiti. Tuttavia, le loro prestazioni spesso rimangono subottimali quando applicati direttamente a scenari downstream specifici senza un adattamento mirato al compito. Per migliorare la loro utilità preservando l'efficienza dei dati, la ricerca recente si è sempre più concentrata su metodi di adattamento non supervisionati che non si basano su dati etichettati. Nonostante il crescente interesse in questo ambito, manca ancora un'indagine unificata e orientata ai compiti dedicata all'adattamento non supervisionato dei VLMs. Per colmare questa lacuna, presentiamo una panoramica completa e strutturata del campo. Proponiamo una tassonomia basata sulla disponibilità e sulla natura dei dati visivi non etichettati, classificando gli approcci esistenti in quattro paradigmi chiave: Trasferimento Senza Dati (nessun dato), Trasferimento di Dominio Non Supervisionato (dati abbondanti), Adattamento al Test-Time Episodico (dati in batch) e Adattamento al Test-Time Online (dati in streaming). All'interno di questo framework, analizziamo le metodologie principali e le strategie di adattamento associate a ciascun paradigma, con l'obiettivo di stabilire una comprensione sistematica del campo. Inoltre, esaminiamo benchmark rappresentativi in diverse applicazioni e evidenziamo le sfide aperte e le direzioni promettenti per la ricerca futura. Un repository attivamente mantenuto della letteratura pertinente è disponibile all'indirizzo https://github.com/tim-learn/Awesome-LabelFree-VLMs.
Presentiamo MeshLLM, un framework innovativo che sfrutta i grandi modelli linguistici (LLM) per comprendere e generare mesh 3D serializzate in testo. Il nostro approccio affronta le principali limitazioni dei metodi esistenti, tra cui la scala limitata dei dataset quando si adattano alla lunghezza dei token degli LLM e la perdita di informazioni strutturali 3D durante la serializzazione delle mesh. Introduciamo una strategia di decomposizione Primitive-Mesh, che divide le mesh 3D in sottounità strutturalmente significative. Ciò consente la creazione di un dataset su larga scala con oltre 1500k campioni, quasi 50 volte più grande rispetto ai metodi precedenti, allineandosi meglio ai principi della legge di scala degli LLM. Inoltre, proponiamo di inferire la connettività delle facce dai vertici e strategie di addestramento per l'assemblaggio locale delle mesh, migliorando significativamente la capacità degli LLM di catturare la topologia delle mesh e le strutture spaziali. Gli esperimenti dimostrano che MeshLLM supera lo stato dell'arte di LLaMA-Mesh sia nella qualità della generazione delle mesh che nella comprensione delle forme, evidenziando il suo grande potenziale nell'elaborazione di mesh 3D serializzate in testo.
Il sogno di creare assistenti AI capaci e versatili come il fittizio J.A.R.V.I.S. di Iron Man ha da sempre catturato l'immaginazione. Con l'evoluzione dei modelli linguistici di grandi dimensioni (multi-modali) ((M)LLM), questo sogno è più vicino alla realtà, poiché gli agenti basati su (M)LLM che utilizzano dispositivi informatici (ad esempio, computer e telefoni cellulari) operando all'interno degli ambienti e delle interfacce (ad esempio, Interfaccia Grafica Utente (GUI)) forniti dai sistemi operativi (OS) per automatizzare le attività hanno fatto progressi significativi. Questo articolo presenta una rassegna completa di questi agenti avanzati, designati come OS Agent. Iniziamo chiarendo i fondamenti degli OS Agent, esplorando i loro componenti chiave, tra cui l'ambiente, lo spazio di osservazione e lo spazio di azione, e delineando le capacità essenziali come la comprensione, la pianificazione e il grounding. Esaminiamo poi le metodologie per costruire OS Agent, concentrandoci su modelli di fondazione specifici per dominio e framework per agenti. Una revisione dettagliata dei protocolli di valutazione e dei benchmark evidenzia come gli OS Agent vengono valutati in una vasta gamma di compiti. Infine, discutiamo le attuali sfide e identifichiamo direzioni promettenti per la ricerca futura, tra cui sicurezza e privacy, personalizzazione e auto-evoluzione. Questa rassegna mira a consolidare lo stato della ricerca sugli OS Agent, fornendo spunti per guidare sia l'indagine accademica che lo sviluppo industriale. Un repository GitHub open-source è mantenuto come risorsa dinamica per favorire ulteriori innovazioni in questo campo. Presentiamo una versione di 9 pagine del nostro lavoro, accettata da ACL 2025, per fornire una panoramica concisa del dominio.
I modelli linguistico-visivi (VLMs) hanno dimostrato capacità notevoli nell'integrare il ragionamento linguistico e visivo, ma rimangono fondamentalmente limitati nella comprensione delle interazioni spaziotemporali dinamiche. Gli esseri umani tracciano e ragionano senza sforzo sui movimenti degli oggetti, sulle rotazioni e sui cambiamenti di prospettiva—abilità essenziali per una comprensione robusta del mondo reale dinamico, ma che mancano in modo evidente negli attuali VLMs. In questo articolo, introduciamo VLM4D, il primo benchmark specificamente progettato per valutare le capacità di ragionamento spaziotemporale dei VLMs. Il nostro benchmark comprende video reali e sintetici di diverso tipo, accompagnati da coppie domanda-risposta accuratamente curate che enfatizzano i movimenti traslazionali e rotazionali, la consapevolezza della prospettiva e la continuità del movimento. Attraverso valutazioni complete dei VLMs open-source e closed-source più avanzati, identifiamo significativi gap di prestazioni rispetto ai benchmark umani, evidenziando carenze fondamentali nei modelli esistenti. Un'analisi approfondita rivela che i VLMs faticano in particolare a integrare molteplici indizi visivi e a mantenere la coerenza temporale. Esploriamo inoltre direzioni promettenti, come l'utilizzo della ricostruzione di campi di caratteristiche 4D e il fine-tuning supervisionato spaziotemporale mirato, dimostrandone l'efficacia nel migliorare la comprensione spaziotemporale. Il nostro lavoro mira a incoraggiare un'esplorazione più profonda per migliorare il grounding spaziale e temporale dei VLMs, aprendo la strada verso un'intelligenza visiva più capace e affidabile per ambienti dinamici.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) hanno dimostrato prestazioni notevoli nelle lingue ad alta risorsa. Tuttavia, la loro efficacia diminuisce significativamente nei contesti delle lingue a bassa risorsa. Gli attuali metodi di potenziamento multilingue sono spesso limitati alla modalità testuale o si basano esclusivamente sulla traduzione automatica. Sebbene tali approcci aiutino i modelli ad acquisire capacità linguistiche di base e a produrre "descrizioni superficiali", trascurano l'importanza dell'informatività multimodale e del radicamento culturale, entrambi cruciali per servire efficacemente gli utenti di lingue a bassa risorsa. Per colmare questa lacuna, in questo studio identifichiamo due obiettivi significativi per un MLLM veramente efficace nei contesti di lingue a bassa risorsa, ovvero 1) la capacità linguistica e 2) il radicamento culturale, con particolare enfasi sulla consapevolezza culturale. Per raggiungere questi duplici obiettivi, proponiamo una strategia a doppia fonte che guida la raccolta di dati mirati a ciascun obiettivo, utilizzando alt-text nativi del web per la cultura e didascalie generate da MLLM per la linguistica. Come implementazione concreta, introduciamo MELLA, un dataset multimodale e multilingue. I risultati degli esperimenti mostrano che, dopo il fine-tuning su MELLA, si osserva un miglioramento generale delle prestazioni per le otto lingue su vari backbone MLLM, con modelli che producono "descrizioni approfondite". Verifichiamo che i guadagni di prestazione derivano sia dal potenziamento della conoscenza culturale che dal miglioramento delle capacità linguistiche. Il nostro dataset è disponibile all'indirizzo https://opendatalab.com/applyMultilingualCorpus.
L'emergenza dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) ha guidato significativi progressi nelle capacità degli agenti per Interfacce Grafiche Utente (GUI). Tuttavia, le tecniche esistenti di addestramento e inferenza per gli agenti GUI continuano a soffrire di un dilemma nella progettazione del ragionamento, ricompense inefficaci e rumore visivo. Per affrontare questi problemi, introduciamo UI-AGILE, un framework completo che migliora gli agenti GUI sia nella fase di addestramento che in quella di inferenza. Per l'addestramento, proponiamo una serie di miglioramenti al processo di Fine-Tuning Supervisionato (SFT): 1) una funzione di Ricompensa Continua per incentivare un grounding ad alta precisione; 2) una ricompensa "Pensiero Semplice" per bilanciare la pianificazione con velocità e accuratezza del grounding; e 3) una strategia di Ricampionamento basata su Ritaglio per mitigare il problema delle ricompense sparse e migliorare l'apprendimento su compiti complessi. Per l'inferenza, presentiamo il Grounding Decomposto con Selezione, un metodo innovativo che migliora drasticamente l'accuratezza del grounding su display ad alta risoluzione suddividendo l'immagine in parti più piccole e gestibili. Gli esperimenti dimostrano che UI-AGILE raggiunge prestazioni all'avanguardia su due benchmark, ScreenSpot-Pro e ScreenSpot-v2. Ad esempio, utilizzando sia i nostri metodi di miglioramento dell'addestramento che dell'inferenza, si ottiene un miglioramento del 23% nell'accuratezza del grounding rispetto al miglior baseline su ScreenSpot-Pro.
Gli approcci recenti per l'illuminazione 3D hanno mostrato promettenti risultati nell'integrare prior generativi di illuminazione 2D per alterare l'aspetto di una rappresentazione 3D preservando la struttura sottostante. Tuttavia, i prior generativi utilizzati per l'illuminazione 2D che illuminano direttamente da un'immagine di input non sfruttano le proprietà intrinseche del soggetto che possono essere inferite né considerano dati multi-vista su larga scala, portando a risultati di illuminazione inferiori. In questo articolo, proponiamo Lightswitch, un innovativo framework di diffusione per l'illuminazione dei materiali, che illumina in modo efficiente un numero arbitrario di immagini di input in una condizione di illuminazione target, incorporando indizi derivati da proprietà intrinseche inferite. Utilizzando insieme indizi multi-vista e informazioni sui materiali, insieme a uno schema di denoising scalabile, il nostro metodo illumina in modo consistente ed efficiente dati multi-vista densi di oggetti con composizioni materiali diverse. Dimostriamo che la qualità della nostra previsione di illuminazione 2D supera i precedenti prior di illuminazione all'avanguardia che illuminano direttamente dalle immagini. Inoltre, mostriamo che LightSwitch eguaglia o supera i metodi all'avanguardia di inverse rendering basati su diffusione nell'illuminazione di oggetti sintetici e reali in appena 2 minuti.