Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'interfaccia grafica utente (GUI) per il grounding mappa le istruzioni in linguaggio naturale su posizioni precise dell'interfaccia per l'interazione autonoma. Gli attuali approcci di apprendimento per rinforzo utilizzano ricompense binarie che trattano gli elementi come obiettivi del tipo "colpito o mancato", creando segnali sparsi che ignorano la natura continua delle interazioni spaziali. Ispirati dal comportamento umano di clic che forma naturalmente distribuzioni gaussiane centrate sugli elementi target, introduciamo GUI Gaussian Grounding Rewards (GUI-G^2), un framework di ricompensa basato su principi che modella gli elementi GUI come distribuzioni gaussiane continue sul piano dell'interfaccia. GUI-G^2 incorpora due meccanismi sinergici: le ricompense puntuali gaussiane modellano la localizzazione precisa attraverso distribuzioni a decadimento esponenziale centrate sui centroidi degli elementi, mentre le ricompense di copertura valutano l'allineamento spaziale misurando la sovrapposizione tra le distribuzioni gaussiane previste e le regioni target. Per gestire scale diverse degli elementi, sviluppiamo un meccanismo di varianza adattativa che calibra le distribuzioni di ricompensa in base alle dimensioni degli elementi. Questo framework trasforma il grounding della GUI da una classificazione binaria sparsa a un'ottimizzazione continua densa, in cui le distribuzioni gaussiane generano segnali di gradiente ricchi che guidano i modelli verso posizioni di interazione ottimali. Esperimenti estesi sui benchmark ScreenSpot, ScreenSpot-v2 e ScreenSpot-Pro dimostrano che GUI-G^2 supera significativamente il metodo all'avanguardia UI-TARS-72B, con il miglioramento più significativo del 24,7% su ScreenSpot-Pro. La nostra analisi rivela che la modellazione continua offre una robustezza superiore alle variazioni dell'interfaccia e una generalizzazione migliorata a layout non visti, stabilendo un nuovo paradigma per il ragionamento spaziale nei compiti di interazione con la GUI.
I grandi modelli linguistici hanno recentemente evoluto dalla generazione fluida di testo al ragionamento avanzato in diversi domini, dando origine ai modelli linguistici di ragionamento. Tra questi domini, il ragionamento matematico rappresenta un benchmark significativo poiché richiede una logica precisa a più passaggi e un ragionamento astratto, che può essere generalizzato ad altri compiti. Mentre modelli di ragionamento linguistico proprietari come GPT-3 dimostrano capacità di ragionamento impressionanti, la loro natura chiusa limita la trasparenza e la riproducibilità. Sebbene molti progetti open-source mirino a colmare questa lacuna, la maggior parte di essi manca di sufficiente apertura omettendo risorse critiche come dataset e configurazioni dettagliate di addestramento, il che ostacola la riproducibilità. Per contribuire a una maggiore trasparenza nello sviluppo dei modelli di ragionamento linguistico, introduciamo la serie MiroMind-M1, un insieme di modelli di ragionamento linguistico completamente open-source basati sull'architettura Qwen-2.5 che eguagliano o superano le prestazioni dei modelli open-source esistenti. Nello specifico, i nostri modelli sono addestrati in due fasi: SFT su un corpus accuratamente curato di 719K problemi di ragionamento matematico con traiettorie CoT verificate, seguito da RLVR su 62K problemi complessi e verificabili. Per migliorare la robustezza e l'efficienza del processo RLVR, introduciamo l'ottimizzazione multi-stadio basata sul contesto, un algoritmo che integra l'addestramento progressivo in lunghezza con una penalità di ripetizione adattiva per incoraggiare l'addestramento RL consapevole del contesto. Il nostro modello raggiunge prestazioni all'avanguardia o competitive e una superior efficienza nei token tra i modelli open-source basati su Qwen-2.5 da 7B e 32B sui benchmark AIME24, AIME25 e MATH. Per facilitare la riproducibilità, rilasciamo l'intero stack: modelli (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); dataset (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); e tutte le configurazioni di addestramento e valutazione. Speriamo che queste risorse supportino ulteriori ricerche e favoriscano il progresso della comunità.
I recenti progressi nei modelli di ragionamento su larga scala evidenziano il Reinforcement Learning con Ricompense Verificabili (RLVR) come un metodo promettente per potenziare le capacità dell'IA, in particolare nella risoluzione di compiti logici complessi. Tuttavia, rimane poco chiaro se l'RLVR espanda veramente i confini del ragionamento di un modello o si limiti ad amplificare gli output ad alta ricompensa che il modello di base conosce già, migliorandone la precisione. Questo studio presenta un'indagine teorica ed empirica che offre nuove intuizioni sui potenziali limiti dell'RLVR. In primo luogo, proponiamo una nuova prospettiva teorica secondo cui l'RLVR è vincolato dal supporto del modello di base—incapace di campionare soluzioni con probabilità iniziale pari a zero—e opera come un meccanismo di ripesatura conservativo che potrebbe limitare la scoperta di soluzioni completamente originali. Identifichiamo inoltre un compromesso tra entropia e ricompensa: sebbene l'RLVR migliori in modo affidabile la precisione, potrebbe progressivamente ridurre l'esplorazione e potenzialmente trascurare soluzioni corrette ma sottorappresentate. Estesi esperimenti empirici convalidano che, sebbene l'RLVR migliori costantemente il pass@1, la riduzione del supporto empirico supera generalmente l'espansione del supporto empirico con budget di campionamento più ampi, fallendo nel recuperare risposte corrette precedentemente accessibili al modello di base. Interessante notare che, mentre l'RLVR a volte aumenta l'entropia a livello di token, risultando in una maggiore incertezza ad ogni passo di generazione, l'entropia a livello di risposta diminuisce, indicando che questi percorsi apparentemente più incerti convergono infine su un insieme più ristretto di risposte distinte. Nel complesso, questi risultati rivelano i potenziali limiti dell'RLVR nell'estendere gli orizzonti del ragionamento. Superare questo invisibile vincolo potrebbe richiedere future innovazioni algoritmiche, come meccanismi di esplorazione esplicita o strategie ibride che distribuiscano massa di probabilità in regioni di soluzione sottorappresentate.
I recenti progressi nella modellazione generativa consentono la creazione di assistenti per l'editing di immagini che seguono istruzioni in linguaggio naturale senza richiedere ulteriori input da parte dell'utente. Il loro addestramento supervisionato richiede milioni di triplette: immagine originale, istruzione, immagine modificata. Tuttavia, estrarre esempi con precisione a livello di pixel è complesso. Ogni modifica deve influenzare solo le regioni specificate nel prompt, preservare la coerenza stilistica, rispettare la plausibilità fisica e mantenere l'attrattiva visiva. La mancanza di metriche robuste e automatizzate per valutare la qualità delle modifiche ostacola un'automazione affidabile su larga scala. Presentiamo una pipeline automatizzata e modulare che estrae triplette ad alta fedeltà attraverso domini, risoluzioni, complessità delle istruzioni e stili. Basata su modelli generativi pubblici e funzionante senza intervento umano, il nostro sistema utilizza un validatore Gemini ottimizzato per il compito per valutare direttamente l'aderenza alle istruzioni e l'estetica, eliminando la necessità di modelli di segmentazione o grounding. L'inversione e il bootstrapping compositivo ampliano l'insieme estratto di circa 2,2 volte, consentendo la creazione di dati di addestramento su larga scala e ad alta fedeltà. Automatizzando i passaggi di annotazione più ripetitivi, l'approccio permette un nuovo livello di addestramento senza sforzi di etichettatura umana. Per democratizzare la ricerca in questo ambito ad alta intensità di risorse, rilasciamo NHR-Edit: un dataset aperto di 358k triplette di alta qualità. Nella più ampia valutazione incrociata tra dataset, supera tutte le alternative pubbliche. Rilasciamo anche Bagel-NHR-Edit, un modello Bagel open-source fine-tuned, che raggiunge metriche all'avanguardia nei nostri esperimenti.
L'avvento degli agenti alimentati da Large Language Model (LLM) ha rivoluzionato l'intelligenza artificiale, consentendo soluzioni a compiti complessi e aperti attraverso capacità di ricerca di informazioni (IS) basate sul web. La scarsità di dati di addestramento di alta qualità ha limitato lo sviluppo degli agenti IS. Gli approcci esistenti adottano tipicamente un paradigma guidato dalle informazioni, che prima raccoglie dati dal web e poi genera domande basate sul recupero. Tuttavia, ciò può portare a un'incongruenza tra la struttura delle informazioni e la struttura del ragionamento, domanda e risposta. Per mitigare questo problema, proponiamo un framework di sintesi dati IS guidato dalla formalizzazione, chiamato WebShaper, per costruire un dataset. WebShaper formalizza sistematicamente i compiti IS attraverso la teoria degli insiemi. Al centro della formalizzazione c'è il concetto di Proiezioni di Conoscenza (KP), che consente un controllo preciso sulla struttura del ragionamento attraverso composizioni di operazioni KP. Durante la sintesi, iniziamo creando compiti di base, quindi utilizziamo un processo di espansione in più fasi. A ogni passo, un agente Expander amplia la domanda formale corrente rendendola più complessa con strumenti di recupero e validazione basati sulla nostra formalizzazione. Addestriamo il nostro modello sul dataset sintetizzato. I risultati degli esperimenti dimostrano che WebShaper raggiunge prestazioni all'avanguardia tra gli agenti IS open-source sui benchmark GAIA e WebWalkerQA.
Riportiamo i recenti progressi verso la costruzione di politiche robotiche generaliste, con lo sviluppo di GR-3. GR-3 è un modello su larga scala visione-linguaggio-azione (VLA). Dimostra capacità eccezionali nel generalizzare a nuovi oggetti, ambienti e istruzioni che coinvolgono concetti astratti. Inoltre, può essere efficientemente adattato con un minimo di dati di traiettoria umana, consentendo un adattamento rapido ed economico a nuovi contesti. GR-3 eccelle anche nella gestione di compiti a lungo termine e di destrezza, inclusi quelli che richiedono manipolazione bi-manuale e movimento mobile, mostrando prestazioni robuste e affidabili. Queste capacità sono raggiunte attraverso una ricetta di formazione multifaccettata che include co-addestramento con dati visione-linguaggio su scala web, adattamento efficiente da dati di traiettoria umana raccolti tramite dispositivi VR e apprendimento per imitazione efficace con dati di traiettoria robotica. Inoltre, introduciamo ByteMini, un robot mobile bi-manuale versatile progettato con flessibilità e affidabilità eccezionali, in grado di realizzare un'ampia gamma di compiti quando integrato con GR-3. Attraverso estesi esperimenti nel mondo reale, dimostriamo che GR-3 supera il metodo di riferimento state-of-the-art, pi_0, in una vasta gamma di compiti impegnativi. Speriamo che GR-3 possa rappresentare un passo verso la costruzione di robot generalisti capaci di assistere gli esseri umani nella vita quotidiana.
La Segmentazione di Oggetti Video (Video Object Segmentation, VOS) è un compito fondamentale nella visione artificiale, che richiede ai modelli di tracciare e segmentare oggetti target attraverso i fotogrammi di un video. Nonostante i notevoli progressi ottenuti con gli sforzi recenti, le tecniche attuali rimangono ancora inferiori alle capacità umane nel gestire variazioni visive drastiche, occlusioni e cambiamenti complessi della scena. Questa limitazione deriva dalla loro dipendenza dalla corrispondenza di aspetto, trascurando la comprensione concettuale simile a quella umana degli oggetti, che consente un'identificazione robusta attraverso le dinamiche temporali. Motivati da questo divario, proponiamo Segment Concept (SeC), un framework di segmentazione guidato da concetti che si sposta dalla tradizionale corrispondenza di feature alla costruzione progressiva e all'utilizzo di rappresentazioni di alto livello centrate sugli oggetti. SeC impiega Modelli Visione-Linguaggio di Grande Scala (Large Vision-Language Models, LVLMs) per integrare indizi visivi attraverso fotogrammi diversi, costruendo prior concettuali robusti. Durante l'inferenza, SeC forma una rappresentazione semantica completa del target basata sui fotogrammi elaborati, realizzando una segmentazione robusta dei fotogrammi successivi. Inoltre, SeC bilancia in modo adattivo il ragionamento semantico basato su LVLM con una corrispondenza di feature potenziata, regolando dinamicamente gli sforzi computazionali in base alla complessità della scena. Per valutare rigorosamente i metodi VOS in scenari che richiedono un ragionamento concettuale di alto livello e una comprensione semantica robusta, introduciamo il benchmark Semantic Complex Scenarios Video Object Segmentation (SeCVOS). SeCVOS comprende 160 video multi-scenario annotati manualmente, progettati per mettere alla prova i modelli con variazioni sostanziali di aspetto e trasformazioni dinamiche della scena. In particolare, SeC ottiene un miglioramento di 11,8 punti rispetto a SAM 2.1 su SeCVOS, stabilendo un nuovo stato dell'arte nella segmentazione di oggetti video consapevole dei concetti.
I recenti progressi nelle rappresentazioni neurali 3D e nei modelli di editing a livello di istanza hanno reso possibile la creazione efficiente di contenuti 3D di alta qualità. Tuttavia, ottenere modifiche locali precise in 3D rimane una sfida, specialmente per il Gaussian Splatting, a causa di segmentazioni 2D multi-vista incoerenti delle parti e della natura intrinsecamente ambigua della funzione di perdita Score Distillation Sampling (SDS). Per affrontare queste limitazioni, proponiamo RoMaP, un nuovo framework di editing locale di Gaussian 3D che consente modifiche precise e drastiche a livello di parti. In primo luogo, introduciamo un modulo robusto di generazione di maschere 3D con il nostro 3D-Geometry Aware Label Prediction (3D-GALP), che utilizza coefficienti di armoniche sferiche (SH) per modellare le variazioni delle etichette dipendenti dalla vista e la proprietà delle etichette soft, producendo segmentazioni delle parti accurate e coerenti tra i vari punti di vista. In secondo luogo, proponiamo una funzione di perdita SDS regolarizzata che combina la perdita SDS standard con ulteriori regolarizzatori. In particolare, viene introdotta una perdita L1 di ancoraggio tramite il nostro metodo di editing Scheduled Latent Mixing and Part (SLaMP), che genera immagini 2D modificate di alta qualità e limita le modifiche solo alla regione target preservando la coerenza contestuale. Ulteriori regolarizzatori, come la rimozione del prior gaussiano, migliorano ulteriormente la flessibilità consentendo cambiamenti oltre il contesto esistente, mentre una robusta maschera 3D previene modifiche indesiderate. I risultati sperimentali dimostrano che il nostro RoMaP raggiunge uno stato dell'arte nell'editing locale 3D sia su scene che su oggetti Gaussian ricostruiti e generati, qualitativamente e quantitativamente, rendendo possibile un editing 3D a livello di parti più robusto e flessibile. Il codice è disponibile all'indirizzo https://janeyeon.github.io/romap.
Introduciamo Being-H0, un modello Visione-Linguaggio-Azione (VLA) abile addestrato su vasti dataset di video umani. Gli attuali modelli VLA faticano a gestire compiti di manipolazione complessi che richiedono alta destrezza e generalizzano male a scenari e compiti nuovi, principalmente a causa della loro dipendenza da dati sintetici con significativi gap sim-to-real o dimostrazioni teleoperate che mancano di scala e diversità. Per affrontare questo collo di bottiglia nei dati, proponiamo di sfruttare le mani umane come manipolatori di base, capitalizzando la ricca destrezza e scalabilità presenti nei dati web. Il nostro approccio si concentra sul physical instruction tuning, un nuovo paradigma di addestramento che combina il pretraining VLA su larga scala da video umani, l'allineamento nello spazio fisico per il ragionamento 3D e l'adattamento post-training per compiti robotici. Inoltre, introduciamo un metodo di tokenizzazione del moto a livello di parti che raggiunge una precisione di ricostruzione a livello millimetrico per modellare traiettorie precise delle mani per l'apprendimento delle azioni. Per supportare il nostro paradigma proposto, sviluppiamo ulteriormente una pipeline completa di curatela dei dati che integra fonti eterogenee — inclusi motion capture, realtà virtuale e video RGB-only — in un dataset su larga scala con milioni di istanze di istruzioni basate sul movimento. Dimostriamo empiricamente l'eccellenza di Being-H0 nella generazione del moto delle mani e nel seguire le istruzioni, e scala bene con le dimensioni del modello e dei dati. In modo significativo, osserviamo i guadagni attesi di Being-H0 nella manipolazione robotica nel mondo reale quando viene applicato il physical instruction tuning. Ulteriori dettagli sono disponibili su https://beingbeyond.github.io/Being-H0.
Costruiamo task di valutazione in cui l'estensione della lunghezza del ragionamento nei Modelli di Ragionamento Esteso (LRM) deteriora le prestazioni, mostrando una relazione di scala inversa tra il calcolo al momento del test e l'accuratezza. I nostri task di valutazione coprono quattro categorie: semplici compiti di conteggio con distrattori, task di regressione con caratteristiche spurie, compiti deduttivi con tracciamento dei vincoli e rischi avanzati dell'IA. Identifichiamo cinque modalità di fallimento distinte quando i modelli ragionano più a lungo: 1) i modelli Claude diventano sempre più distratti da informazioni irrilevanti; 2) i modelli OpenAI o-series resistono ai distrattori ma sovra-adattano le formulazioni dei problemi; 3) i modelli passano da priorità ragionevoli a correlazioni spurie; 4) tutti i modelli mostrano difficoltà nel mantenere il focus su compiti deduttivi complessi; e 5) il ragionamento esteso può amplificare comportamenti preoccupanti, con Claude Sonnet 4 che mostra un aumento delle espressioni di autoconservazione. Questi risultati suggeriscono che, sebbene il ridimensionamento del calcolo al momento del test rimanga promettente per migliorare le capacità dei modelli, potrebbe involontariamente rafforzare schemi di ragionamento problematici. I nostri risultati dimostrano l'importanza di valutare i modelli su diverse lunghezze di ragionamento per identificare e affrontare queste modalità di fallimento negli LRM.
I modelli di linguaggio parlato (SLM) sono progettati per ricevere input vocali e produrre risposte parlate. Tuttavia, gli attuali SLM non sono in grado di eseguire un processo di pensiero interno e non espresso prima di rispondere. Al contrario, gli esseri umani tipicamente si impegnano in un ragionamento mentale complesso internamente, consentendo loro di comunicare idee in modo chiaro e conciso. Pertanto, integrare un processo di pensiero non espresso negli SLM è altamente desiderabile. Sebbene generare in modo ingenuo una catena di ragionamento (CoT) completa prima di iniziare a parlare possa abilitare il pensiero per gli SLM, ciò introduce una latenza aggiuntiva per la risposta vocale, poiché il ragionamento CoT può essere arbitrariamente lungo. Per risolvere questo problema, proponiamo Stitch, un nuovo metodo di generazione che alterna la produzione di blocchi di ragionamento non espresso e blocchi di risposta parlata. Poiché la durata audio di un blocco di risposta parlata è molto più lunga del tempo necessario per generare i token in un blocco di risposta parlata, utilizziamo il tempo libero rimanente per generare i token di ragionamento non espresso. Quando un blocco di audio viene riprodotto per l'utente, il modello continua a generare il prossimo blocco di ragionamento non espresso, ottenendo così un pensiero e una conversazione simultanei. Notevolmente, Stitch eguaglia la latenza dei modelli di riferimento che non possono generare CoT non espresso per progettazione, superando tali modelli di riferimento del 15% sui dataset di ragionamento matematico; Stitch si comporta altrettanto bene anche sui dataset non di ragionamento rispetto a quei modelli di riferimento. Alcune animazioni e dimostrazioni sono disponibili sulla pagina del progetto: https://d223302.github.io/STITCH.
Il 3D Gaussian splatting (3DGS) ha dimostrato una dettagliata capacità espressiva e una velocità di rendering altamente efficiente nel compito di sintesi di nuove viste (NVS). L'applicazione al rendering inverso affronta tuttavia diverse sfide, poiché la natura discreta delle primitive gaussiane rende difficile applicare vincoli geometrici. Recenti lavori introducono il campo delle distanze con segno (SDF) come rappresentazione continua aggiuntiva per regolarizzare la geometria definita dalle primitive gaussiane. Ciò migliora la qualità della decomposizione, al costo di un aumento dell'uso della memoria e di una maggiore complessità nell'addestramento. A differenza di questi approcci, noi introduciamo un SDF discretizzato per rappresentare l'SDF continuo in modo discreto, codificandolo all'interno di ogni gaussiana mediante un valore campionato. Questo metodo ci consente di collegare l'SDF con l'opacità gaussiana attraverso una trasformazione da SDF a opacità, permettendo il rendering dell'SDF tramite splatting ed evitando il costo computazionale del ray marching. La sfida principale è regolarizzare i campioni discreti affinché siano coerenti con l'SDF sottostante, poiché la rappresentazione discreta difficilmente può applicare vincoli basati su gradienti (ad esempio, la perdita Eikonale). A tal fine, proiettiamo le gaussiane sul livello zero dell'SDF e imponiamo un allineamento con la superficie ottenuta dallo splatting, definendo una perdita di consistenza basata sulla proiezione. Grazie all'SDF discretizzato, il nostro metodo raggiunge una qualità di rilievo superiore, senza richiedere memoria aggiuntiva oltre a quella del GS e evitando complesse ottimizzazioni progettate manualmente. Gli esperimenti dimostrano che il nostro metodo supera i metodi esistenti di rendering inverso basati su gaussiane. Il nostro codice è disponibile all'indirizzo https://github.com/NK-CS-ZZL/DiscretizedSDF.
L'intelligenza umana richiede correttezza e robustezza, con la prima che costituisce la base per la seconda. Nella comprensione video, la correttezza garantisce l'interpretazione accurata del contenuto visivo, mentre la robustezza mantiene prestazioni consistenti in condizioni difficili. Nonostante i progressi nei modelli linguistici di grandi dimensioni per video (video LLM), i benchmark esistenti non riflettono adeguatamente il divario tra questi modelli e l'intelligenza umana nel mantenere correttezza e robustezza nell'interpretazione video. Introduciamo il Video Thinking Test (Video-TT) per valutare se i video LLM possono interpretare i video del mondo reale in modo efficace quanto gli esseri umani. Video-TT riflette lacune reali nella comprensione di narrazioni visive complesse e valuta la robustezza rispetto a domande avversarie naturali. Video-TT comprende 1.000 video di YouTube Shorts, ciascuno con una domanda aperta e quattro domande avversarie che esplorano la complessità visiva e narrativa. La nostra valutazione mostra un divario significativo tra le prestazioni dei video LLM e quelle umane.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è diventato un metodo efficace di post-addestramento per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM), principalmente modellando comportamenti di ordine superiore come la riflessione e la pianificazione. Tuttavia, gli algoritmi RLVR precedenti applicano spesso segnali di addestramento uniformi a tutti i token, senza considerare i diversi ruoli dei token a bassa entropia legati alla conoscenza e dei token ad alta entropia legati al ragionamento. Alcuni metodi recenti cercano di separare questi tipi di token attraverso mascheramento del gradiente o aggiornamenti asincroni, ma questi approcci possono interrompere le dipendenze semantiche nell'output del modello e ostacolare un apprendimento efficace. In questo lavoro, proponiamo Archer, un approccio RLVR consapevole dell'entropia con vincoli dual-token e aggiornamenti sincroni. Nello specifico, il nostro metodo applica una regolarizzazione KL più debole e soglie di clipping più alte ai token di ragionamento per incoraggiare l'esplorazione, mentre utilizza vincoli più forti sui token di conoscenza per mantenere le informazioni fattuali. I risultati sperimentali su diversi benchmark di ragionamento matematico e generazione di codice mostrano che il nostro approccio supera significativamente i precedenti metodi RLVR, raggiungendo o superando le prestazioni di stato dell'arte tra modelli di dimensioni comparabili. Il codice è disponibile all'indirizzo https://github.com/wizard-III/ArcherCodeR.
La rapida ascesa degli agenti intelligenti basati su Large Language Models (LLM) sottolinea la necessità di framework di valutazione robusti e scalabili. I metodi esistenti si basano su benchmark statici e sulla raccolta di dati laboriosa, limitando la valutazione pratica. Introduciamo \oursystemname, un framework open-source basato su Model Context Protocol (MCP) che automatizza la generazione end-to-end di task e la valutazione approfondita degli agenti LLM in diversi domini. MCPEval standardizza le metriche, si integra perfettamente con gli strumenti nativi degli agenti ed elimina lo sforzo manuale nella costruzione di pipeline di valutazione. I risultati empirici in cinque domini reali ne dimostrano l'efficacia nel rivelare prestazioni sfumate e specifiche per dominio. Rilasciamo pubblicamente MCPEval all'indirizzo https://github.com/SalesforceAIResearch/MCPEval per promuovere una valutazione riproducibile e standardizzata degli agenti LLM.
I modelli di generazione video hanno compiuto progressi significativi nella creazione di contenuti fotorealistici di alta qualità. Tuttavia, la loro capacità di simulare accuratamente i fenomeni fisici rimane una sfida critica e irrisolta. Questo articolo presenta PhyWorldBench, un benchmark completo progettato per valutare i modelli di generazione video in base alla loro aderenza alle leggi della fisica. Il benchmark copre molteplici livelli di fenomeni fisici, che vanno dai principi fondamentali come il movimento degli oggetti e la conservazione dell'energia a scenari più complessi che coinvolgono interazioni tra corpi rigidi e movimenti umani o animali. Inoltre, introduciamo una nuova categoria "Anti-Fisica", in cui i prompt violano intenzionalmente la fisica del mondo reale, consentendo di valutare se i modelli possono seguire tali istruzioni mantenendo una coerenza logica. Oltre a una valutazione umana su larga scala, progettiamo anche un metodo semplice ma efficace che potrebbe sfruttare gli attuali MLLM per valutare il realismo fisico in modo zero-shot. Valutiamo 12 modelli all'avanguardia per la generazione video da testo, inclusi cinque modelli open-source e cinque proprietari, con un confronto e un'analisi dettagliati. Identifichiamo le sfide cruciali che i modelli affrontano nell'aderire alla fisica del mondo reale. Attraverso test sistematici dei loro output su 1.050 prompt curati, che spaziano da scenari fondamentali, compositi e anti-fisici, identifichiamo le sfide cruciali che questi modelli affrontano nell'aderire alla fisica del mondo reale. Esaminiamo rigorosamente le loro prestazioni su diversi fenomeni fisici con vari tipi di prompt, derivando raccomandazioni mirate per la creazione di prompt che migliorano la fedeltà ai principi fisici.
Percepire e ricostruire la geometria spazio-temporale 4D dai video è un compito fondamentale ma impegnativo nel campo della visione artificiale. Per facilitare applicazioni interattive e in tempo reale, proponiamo un trasformatore di geometria visiva 4D in streaming che condivide una filosofia simile con i modelli linguistici autoregressivi di grandi dimensioni. Esploriamo un design semplice ed efficiente e impieghiamo un'architettura trasformatore causale per elaborare la sequenza di input in modo online. Utilizziamo l'attenzione causale temporale e memorizziamo le chiavi e i valori storici come memoria implicita per abilitare una ricostruzione 4D a lungo termine efficiente in streaming. Questo design è in grado di gestire la ricostruzione 4D in tempo reale integrando in modo incrementale le informazioni storiche, mantenendo al contempo un'elevata coerenza spaziale. Per un addestramento efficiente, proponiamo di distillare la conoscenza dal trasformatore di geometria visiva bidirezionale denso (VGGT) al nostro modello causale. Per l'inferenza, il nostro modello supporta la migrazione di operatori di attenzione efficienti ottimizzati (ad esempio, FlashAttention) dal campo dei modelli linguistici di grandi dimensioni. Esperimenti estesi su vari benchmark di percezione della geometria 4D dimostrano che il nostro modello aumenta la velocità di inferenza negli scenari online mantenendo prestazioni competitive, aprendo la strada a sistemi di visione 4D scalabili e interattivi. Il codice è disponibile all'indirizzo: https://github.com/wzzheng/StreamVGGT.
La risoluzione di problemi multi-turn è cruciale ma impegnativa per i Large Reasoning Models (LRM) per riflettere sul loro ragionamento e rivedere le risposte in base ai feedback. I metodi esistenti di Reinforcement Learning (RL) addestrano i grandi modelli di ragionamento su un paradigma single-turn con ricompense verificabili. Tuttavia, osserviamo che i modelli addestrati con i paradigmi RL esistenti spesso perdono la capacità di risolvere problemi in più turni e faticano a rivedere le risposte basandosi sui feedback contestuali, portando a risposte ripetitive. Ci chiediamo: i LRM possono imparare a riflettere sulle loro risposte in un contesto multi-turn? In questo lavoro, scopriamo che addestrare i modelli con RL multi-turn utilizzando solo feedback unari (ad esempio, "Proviamo di nuovo") dopo risposte errate può migliorare sia le prestazioni single-turn che il ragionamento multi-turn. Introduciamo il concetto di Unary Feedback as Observation (UFO) per il reinforcement learning, che utilizza feedback unari minimi ma comuni durante la risoluzione iterativa dei problemi. Può essere facilmente applicato alle configurazioni di addestramento RL single-turn esistenti. I risultati sperimentali mostrano che l'addestramento RL con UFO mantiene le prestazioni single-turn e migliora l'accuratezza del ragionamento multi-turn fino al 14%, consentendo ai modelli linguistici di reagire meglio ai feedback nella risoluzione di problemi multi-turn. Per ridurre ulteriormente il numero di turni necessari per una risposta corretta incoraggiando al contempo un ragionamento diversificato quando si verificano errori, progettiamo strutture di ricompensa che guidano i modelli a produrre risposte attente e deliberate in ogni turno. Codice: https://github.com/lichengliu03/unary-feedback
Nonostante il loro ruolo fondamentale, rimane poco chiaro quali proprietà potrebbero rendere i tokenizer visivi più efficaci per la modellazione generativa. Osserviamo che i moderni modelli generativi condividono un obiettivo di training concettualmente simile: ricostruire segnali puliti da input corrotti come rumore gaussiano o mascheramento -- un processo che definiamo denoising. Motivati da questa intuizione, proponiamo di allineare direttamente gli embedding del tokenizer con l'obiettivo di denoising downstream, incoraggiando gli embedding latenti a essere ricostruiti più facilmente anche quando fortemente corrotti. Per raggiungere questo obiettivo, introduciamo il Latent Denoising Tokenizer (l-DeTok), un tokenizer semplice ma efficace addestrato a ricostruire immagini pulite da embedding latenti corrotti da rumore interpolativo e mascheramento casuale. Esperimenti estensivi su ImageNet 256x256 dimostrano che il nostro tokenizer supera costantemente i tokenizer standard in sei modelli generativi rappresentativi. Le nostre scoperte evidenziano il denoising come un principio di progettazione fondamentale per lo sviluppo di tokenizer, e speriamo che possa ispirare nuove prospettive per il futuro design dei tokenizer.
Mentre l'apprendimento automatico ha fatto progressi grazie alla massiccia parallelizzazione, identifichiamo un punto cieco cruciale: alcuni problemi sono intrinsecamente sequenziali. Questi problemi "intrinsecamente seriali" - dal ragionamento matematico alle simulazioni fisiche fino al processo decisionale sequenziale - richiedono passaggi computazionali dipendenti che non possono essere parallelizzati. Attingendo dalla teoria della complessità, formalizziamo questa distinzione e dimostriamo che le attuali architetture incentrate sulla parallelizzazione affrontano limitazioni fondamentali in tali compiti. Sosteniamo che riconoscere la natura seriale del calcolo ha profonde implicazioni sull'apprendimento automatico, sulla progettazione dei modelli e sullo sviluppo hardware. Man mano che l'IA affronta ragionamenti sempre più complessi, scalare deliberatamente il calcolo seriale - non solo quello parallelo - è essenziale per il progresso continuo.
Presentiamo l'LLM Economist, un nuovo framework che utilizza la modellazione basata su agenti per progettare e valutare politiche economiche in ambienti strategici con processi decisionali gerarchici. A livello inferiore, agenti lavoratori con razionalità limitata – istanziati come prompt condizionati da profili personali campionati da statistiche demografiche e di reddito calibrate sul censimento statunitense – scelgono l'offerta di lavoro per massimizzare funzioni di utilità basate su testo apprese in contesto. A livello superiore, un agente pianificatore utilizza l'apprendimento per rinforzo in contesto per proporre schemi di tassazione marginale lineari a tratti ancorati agli attuali scaglioni federali statunitensi. Questa costruzione conferisce ai simulacri economici tre capacità essenziali per sperimentazioni fiscali credibili: (i) ottimizzazione di utilità eterogenee, (ii) generazione principiata di grandi popolazioni di agenti demograficamente realistici, e (iii) progettazione di meccanismi – il problema ultimo del nudging – espressa interamente in linguaggio naturale. Esperimenti con popolazioni fino a cento agenti interagenti mostrano che il pianificatore converge vicino a equilibri di Stackelberg che migliorano il benessere sociale aggregato rispetto alle soluzioni di Saez, mentre una procedura di voto periodica a livello di profilo personale amplifica questi guadagni sotto una governance decentralizzata. Questi risultati dimostrano che agenti basati su modelli linguistici di grandi dimensioni possono modellare, simulare e governare congiuntamente sistemi economici complessi, fornendo un banco di prova gestibile per la valutazione delle politiche su scala societaria per contribuire a costruire civiltà migliori.
Generare video lunghi e coerenti rappresenta una sfida complessa: sebbene i modelli generativi basati su diffusione producano clip brevi visivamente impressionanti, estenderli a durate maggiori spesso porta a colli di bottiglia nella memoria e a incoerenze a lungo termine. In questo articolo, proponiamo TokensGen, un innovativo framework a due stadi che sfrutta token condensati per affrontare questi problemi. Il nostro metodo scompone la generazione di video lunghi in tre compiti principali: (1) controllo semantico intra-clip, (2) controllo della coerenza a lungo termine e (3) transizione fluida inter-clip. In primo luogo, addestriamo To2V (Token-to-Video), un modello di diffusione per video brevi guidato da testo e token video, con un Video Tokenizer che condensa clip brevi in token semanticamente ricchi. In secondo luogo, introduciamo T2To (Text-to-Token), un trasformatore di diffusione per token video che genera tutti i token in una volta sola, garantendo coerenza globale tra le clip. Infine, durante l'inferenza, una strategia adattiva FIFO-Diffusion collega in modo fluido le clip adiacenti, riducendo gli artefatti ai bordi e migliorando le transizioni. I risultati sperimentali dimostrano che il nostro approccio migliora significativamente la coerenza temporale e contenutistica a lungo termine senza comportare un sovraccarico computazionale proibitivo. Sfruttando token condensati e modelli pre-addestrati per video brevi, il nostro metodo offre una soluzione scalabile e modulare per la generazione di video lunghi, aprendo nuove possibilità per la narrazione, la produzione cinematografica e le simulazioni immersive. Visita la nostra pagina del progetto all'indirizzo https://vicky0522.github.io/tokensgen-webpage/.
Il pre-addestramento continuo su dati specifici per il compito di piccola scala è un metodo efficace per migliorare i grandi modelli linguistici in nuovi campi target, ma comporta il rischio di dimenticanza catastrofica delle loro capacità originali. Una soluzione comune consiste nel ri-pesare le miscele di dati di addestramento provenienti dai campi sorgente e target in uno spazio di dominio per ottenere prestazioni bilanciate. Le precedenti strategie di ri-pesatura del dominio si basano su designazioni manuali con alcune euristiche basate sull'intuizione umana o su risultati empirici. In questo lavoro, dimostriamo che euristiche più generali possono essere parametrizzate proponendo Data Mixing Agent, il primo framework basato su modelli e end-to-end che impara a ri-pesare i domini. L'agente apprende euristiche generalizzabili attraverso l'apprendimento per rinforzo su grandi quantità di traiettorie di miscelazione dei dati con feedback corrispondenti da un ambiente di valutazione. Esperimenti di pre-addestramento continuo sul ragionamento matematico mostrano che Data Mixing Agent supera i forti baseline nel raggiungere prestazioni bilanciate attraverso i benchmark dei campi sorgente e target. Inoltre, generalizza bene su campi sorgente non visti, modelli target e spazi di dominio senza bisogno di ri-addestramento. L'applicazione diretta al campo della generazione di codice indica anche la sua adattabilità attraverso diversi domini target. Un'ulteriore analisi mostra che le euristiche dell'agente sono ben allineate con le intuizioni umane e la loro efficienza nel raggiungere prestazioni superiori del modello con meno dati del campo sorgente.
Valutare le capacità di scoperta scientifica degli agenti basati su modelli linguistici di grandi dimensioni, in particolare come affrontano la complessità ambientale variabile e utilizzano la conoscenza pregressa, richiede benchmark specializzati attualmente assenti nel panorama. Per colmare questa lacuna, introduciamo PhysGym, una nuova suite di benchmark e piattaforma di simulazione progettata per valutare rigorosamente il ragionamento scientifico basato su LLM in ambienti di fisica interattivi. Il contributo principale di PhysGym risiede nel suo sofisticato controllo sul livello di conoscenza pregressa fornita all'agente. Ciò consente ai ricercatori di analizzare le prestazioni dell'agente lungo assi che includono la complessità del problema e i livelli di conoscenza pregressa. Il benchmark comprende una suite di simulazioni interattive, in cui gli agenti devono esplorare attivamente gli ambienti, raccogliere dati in modo sequenziale sotto vincoli e formulare ipotesi sulle leggi fisiche sottostanti. PhysGym fornisce protocolli di valutazione standardizzati e metriche per valutare l'accuratezza delle ipotesi e la fedeltà del modello. Dimostriamo l'utilità del benchmark presentando i risultati di LLM di base, mostrando la sua capacità di differenziare le capacità in base ai prior variabili e alla complessità del compito.
La localizzazione cross-view, il compito di stimare la posa a 3 gradi di libertà (3-DoF) di una fotocamera allineando immagini a livello del suolo con immagini satellitari, è cruciale per applicazioni su larga scala all'aperto come la navigazione autonoma e la realtà aumentata. I metodi esistenti spesso si basano sull'apprendimento completamente supervisionato, che richiede costose annotazioni di posa ground truth. In questo lavoro, proponiamo GeoDistill, un framework di auto-distillazione debolmente supervisionato guidato dalla geometria che utilizza l'apprendimento insegnante-studente con mascheramento basato sul campo visivo (FoV) per migliorare l'apprendimento delle caratteristiche locali per una localizzazione cross-view robusta. In GeoDistill, il modello insegnante localizza un'immagine panoramica, mentre il modello studente prevede le posizioni da una controparte con FoV limitato creata mediante mascheramento basato sul FoV. Allineando le previsioni dello studente con quelle dell'insegnante, lo studente si concentra su caratteristiche chiave come le linee di corsia e ignora regioni prive di texture, come le strade. Ciò si traduce in previsioni più accurate e in una riduzione dell'incertezza, indipendentemente dal fatto che le immagini di query siano panoramiche o con FoV limitato. I nostri esperimenti dimostrano che GeoDistill migliora significativamente le prestazioni di localizzazione in diversi framework. Inoltre, introduciamo una nuova rete di stima dell'orientamento che prevede l'orientamento relativo senza richiedere una ground truth precisa della posizione planare. GeoDistill fornisce una soluzione scalabile ed efficiente per le sfide di localizzazione cross-view nel mondo reale. Codice e modello sono disponibili all'indirizzo https://github.com/tongshw/GeoDistill.
La classificazione accurata delle immagini tomografiche computerizzate (CT) è fondamentale per la diagnosi e la pianificazione del trattamento, ma i metodi esistenti spesso incontrano difficoltà con la natura sottile e spazialmente diversificata delle caratteristiche patologiche. Gli approcci attuali tipicamente elaborano le immagini in modo uniforme, limitando la loro capacità di rilevare anomalie localizzate che richiedono un'analisi mirata. Introduciamo UGPL, un framework di apprendimento progressivo guidato dall'incertezza che esegue un'analisi globale-locale identificando prima le regioni di ambiguità diagnostica e poi conducendo un esame dettagliato di queste aree critiche. Il nostro approccio utilizza l'apprendimento profondo evidenziale per quantificare l'incertezza predittiva, guidando l'estrazione di patch informative attraverso un meccanismo di soppressione non massima che mantiene la diversità spaziale. Questa strategia di raffinamento progressivo, combinata con un meccanismo di fusione adattativo, consente a UGPL di integrare sia le informazioni contestuali che i dettagli a grana fine. Esperimenti condotti su tre dataset di CT dimostrano che UGPL supera costantemente i metodi all'avanguardia, ottenendo miglioramenti del 3,29%, 2,46% e 8,08% in accuratezza rispettivamente per il rilevamento di anomalie renali, cancro ai polmoni e COVID-19. La nostra analisi mostra che il componente guidato dall'incertezza offre benefici sostanziali, con un aumento significativo delle prestazioni quando viene implementata l'intera pipeline di apprendimento progressivo. Il nostro codice è disponibile all'indirizzo: https://github.com/shravan-18/UGPL.
I Large Language Model (LLM) hanno dimostrato prestazioni solide nei compiti di programmazione, ma possono generare codice simile a quello degli studenti, imperfetto, iterativo e stilisticamente diversificato? Presentiamo ParaStudent, uno studio sistematico sulla generazione di codice "simile a quello degli studenti" basato su LLM in un contesto di corso introduttivo di programmazione. Utilizzando un dataset di consegne temporizzate degli studenti raccolte in più semestri, progettiamo esperimenti a bassa e alta risoluzione per modellare il progresso degli studenti e valutare gli output di codice lungo dimensioni semantiche, funzionali e stilistiche. I nostri risultati mostrano che il fine-tuning migliora significativamente l'allineamento con le traiettorie reali degli studenti e cattura in modo più fedele i modelli di errore, i miglioramenti incrementali e le variazioni stilistiche. Questo studio dimostra che modellare codice studentesco realistico richiede la cattura delle dinamiche di apprendimento attraverso generazione contestuale, modellazione temporale e valutazione multidimensionale. Il codice per gli esperimenti e la valutazione è disponibile all'indirizzo https://github.com/mmiroyan/ParaStudent.