Articoli di ricerca IA selezionati quotidianamente con traduzioni
In condizioni di pre-addestramento strettamente controllate, osserviamo un fenomeno di *Crossover*: quando i dati unici sono limitati, i modelli linguistico di diffusione (DLM) superano costantemente i modelli autoregressivi (AR) addestrandoli per un numero maggiore di epoche. Il punto di crossover si sposta temporalmente verso fasi successive con dati più abbondanti o di qualità superiore, e verso fasi precedenti con modelli più grandi, persistendo sia in architetture dense che sparse. Attribuiamo i vantaggi a tre fattori che si combinano: (1) la modellazione di ordine qualsiasi, (2) il calcolo super-denso derivante dall'iterativa eliminazione del rumore bidirezionale, e (3) l'aumentazione Monte Carlo integrata; l'aggiunta di rumore in input o ai parametri migliora le prestazioni AR in condizioni di scarsità di dati, ma non è sufficiente a colmare il divario. Su larga scala, un DLM da 1.7B addestrato con un budget computazionale di ~1.5T token su 10B token unici di codice Python supera un codificatore AR addestrato in condizioni strettamente equivalenti. Inoltre, un DLM da 1 miliardo di parametri raggiunge un'accuratezza >56% su HellaSwag e >33% su MMLU utilizzando solo 1B token, senza alcun accorgimento speciale, semplicemente ripetendo i dati standard di pre-addestramento. Dimostriamo inoltre che, in questo regime, un aumento dell'entropia incrociata sulla validazione non implica un degrado delle prestazioni sui task downstream.
A causa della mancanza di una modellizzazione cross-modale efficace, i metodi open-source esistenti per la generazione audio-video presentano spesso una sincronizzazione labiale compromessa e un'insufficiente coerenza semantica. Per mitigare questi limiti, proponiamo UniAVGen, un framework unificato per la generazione congiunta di audio e video. UniAVGen si basa su un'architettura di sintesi congiunta a doppio ramo, che incorpora due Diffusion Transformer (DiT) paralleli per costruire uno spazio latente cross-modale coeso. Il suo cuore risiede in un meccanismo di Interazione Cross-Modale Asimmetrica, che abilita un cross-attention bidirezionale e temporalmente allineato, garantendo così una precisa sincronizzazione spazio-temporale e coerenza semantica. Inoltre, questa interazione cross-modale è potenziata da un modulo di Modulazione Consapevole del Volto (Face-Aware Modulation), che priorizza dinamicamente le regioni salienti durante il processo di interazione. Per migliorare la fedeltà generativa durante l'inferenza, introduciamo inoltre una Guida Classifier-Free Consapevole della Modalità (Modality-Aware Classifier-Free Guidance), una strategia innovativa che amplifica esplicitamente i segnali di correlazione cross-modale. È da notare che il robusto design di sintesi congiunta di UniAVGen permette l'unificazione senza soluzione di continuità di compiti audio-video fondamentali all'interno di un unico modello, come la generazione e continuazione congiunta audio-video, il doppiaggio video-to-audio e la sintesi video guidata da audio. Esperimenti completi convalidano che, con un numero di campioni di addestramento di gran lunga inferiore (1.3M vs. 30.1M), UniAVGen offre vantaggi complessivi nella sincronizzazione audio-video, nella coerenza timbrica e nella coerenza emotiva.
Nonostante i recenti progressi nell'uso di Large Language Model (LLM) per la generazione automatica di scene 3D, le scene generate spesso mancano di layout spaziali realistici e attributi oggettuali riscontrabili negli ambienti del mondo reale. Poiché questo problema deriva da istruzioni insufficientemente dettagliate e troppo granulari, diventa cruciale progredire nella sintesi di scene 3D guidata da istruzioni più dettagliate e fini che riflettano gli ambienti reali. Senza scene così realistiche, l'addestramento di agenti embodied in ambienti non realistici può portarli ad apprendere priorità che divergono significativamente dalla fisica e dalla semantica del mondo reale, degradando le loro prestazioni una volta dispiegati. Pertanto, verificare l'allineamento tra l'istruzione fine e la scena generata è essenziale per un apprendimento efficace. Tuttavia, i metodi di valutazione attuali, come CLIPScore e i modelli visione-linguaggio (VLM), spesso non riescono a valutare in modo affidabile tale allineamento. Questa carenza deriva principalmente dalla loro comprensione superficiale delle scene 3D, che spesso porta a componenti della scena non adeguatamente ancorati alla realtà. Per affrontare questo problema, introduciamo LEGO-Eval, un framework di valutazione dotato di strumenti diversificati progettati per ancorare esplicitamente i componenti della scena, consentendo valutazioni di allineamento più accurate. Presentiamo anche LEGO-Bench, un benchmark di istruzioni dettagliate che specificano layout complessi e attributi di ambienti del mondo reale. Gli esperimenti dimostrano che LEGO-Eval supera il giudizio basato su VLM di 0.41 punti F1 nella valutazione dell'allineamento scena-istruzione. Il benchmarking con LEGO-Bench rivela significative limitazioni nei metodi di generazione attuali. In tutti gli approcci valutati, i tassi di successo hanno raggiunto al massimo il 10% nella generazione di scene completamente allineate con le istruzioni fini.
Le valutazioni attuali degli agenti basati su Large Language Model (LLM) si concentrano principalmente sul completamento dei compiti, trascurando spesso l'efficienza delle risorse e l'adattabilità. Ciò ignora una capacità cruciale: l'abilità degli agenti di ideare e modificare piani ottimali in termini di costo in risposta a ambienti mutevoli. Per colmare questa lacuna, introduciamo CostBench, un benchmark scalabile e centrato sui costi progettato per valutare il ragionamento economico e le capacità di ripianificazione degli agenti. Collocato nel dominio della pianificazione di viaggi, CostBench comprende compiti risolvibili attraverso multiple sequenze di strumenti atomici e compositi con costi diversificati e personalizzabili. Supporta inoltre quattro tipi di eventi di blocco dinamici, come guasti degli strumenti e variazioni dei costi, per simulare l'imprevedibilità del mondo reale e necessitare che gli agenti si adattino in tempo reale. La valutazione dei principali modelli open-source e proprietari su CostBench rivela un divario sostanziale nella pianificazione consapevole dei costi: gli agenti spesso non identificano soluzioni ottimali in contesti statici, con persino GPT-5 che raggiunge meno del 75% di tasso di corrispondenza esatta nei compiti più difficili, e le prestazioni si riducono ulteriormente di circa il 40% in condizioni dinamiche. Diagnosticando queste debolezze, CostBench getta le basi per lo sviluppo di futuri agenti che siano sia economicamente razionali che robusti.
I dati tabellari rimangono il formato predominante per le applicazioni del mondo reale. Tuttavia, lo sviluppo di modelli neurali efficaci per dati tabellari rimane impegnativo a causa della presenza di tipi di feature eterogenei e di interazioni complesse che si verificano a scale multiple. I recenti progressi nell'apprendimento in-context per dati tabellari (ICL), come TabPFN e TabICL, hanno ottenuto prestazioni allo stato dell'arte paragonabili agli alberi con gradient boosting (GBT) senza una messa a punto specifica per il compito. Tuttavia, le architetture attuali presentano limitazioni chiave: (1) elaborazione delle feature a scala singola che trascura le dipendenze gerarchiche, (2) attenzione densa con scalabilità quadratica nella larghezza della tabella e (3) elaborazione sequenziale stretta dei componenti che impedisce un raffinamento iterativo della rappresentazione e una comunicazione cross-componente. Per affrontare queste sfide, introduciamo Orion-MSP, un'architettura ICL tabellare che presenta tre innovazioni chiave: (1) elaborazione multi-scala per catturare le interazioni gerarchiche tra le feature; (2) attenzione blocco-sparsa che combina pattern finestrati, globali e casuali per efficienza scalabile e connettività a lungo raggio; e (3) una memoria in stile Perceiver che abilita un flusso bidirezionale sicuro delle informazioni tra i componenti. In vari benchmark, Orion-MSP eguaglia o supera le prestazioni allo stato dell'arte scalando efficacemente verso tabelle ad alta dimensionalità, stabilendo un nuovo standard per l'apprendimento in-context tabellare efficiente. Il modello è pubblicamente disponibile all'indirizzo https://github.com/Lexsi-Labs/Orion-MSP.
I modelli fondazionali tabulari rappresentano un paradigma emergente nell'apprendimento di dati strutturati, estendendo i vantaggi del pre-addestramento su larga scala ai domini tabulari. Tuttavia, la loro adozione rimane limitata a causa di pipeline di pre-elaborazione eterogenee, API frammentate, procedure di fine-tuning inconsistenti e l'assenza di una valutazione standardizzata per metriche orientate al deployment, come la calibrazione e l'equità. Presentiamo TabTune, una libreria unificata che standardizza il flusso di lavoro completo per i modelli fondazionali tabulari attraverso una singola interfaccia. TabTune fornisce un accesso coerente a sette modelli all'avanguardia che supportano multiple strategie di adattamento, incluse l'inferenza zero-shot, il meta-apprendimento, il fine-tuning supervisionato (SFT) e il fine-tuning efficiente dei parametri (PEFT). Il framework automatizza la pre-elaborazione consapevole del modello, gestisce internamente l'eterogeneità architetturale e integra moduli di valutazione per prestazioni, calibrazione ed equità. Progettato per l'estensibilità e la riproducibilità, TabTune consente un benchmarking coerente delle strategie di adattamento dei modelli fondazionali tabulari. La libreria è open source e disponibile all'indirizzo https://github.com/Lexsi-Labs/TabTune.
Una profonda comprensione delle strutture cinematiche e dei componenti mobili è essenziale per consentire ai robot di manipolare oggetti e modellare le proprie forme articolate. Tale comprensione è catturata attraverso oggetti articolati, fondamentali per compiti come la simulazione fisica, la pianificazione del movimento e l'apprendimento di politiche. Tuttavia, la creazione di questi modelli, specialmente per oggetti con un alto numero di gradi di libertà (DoF), rimane una sfida significativa. I metodi esistenti si basano tipicamente su sequenze di movimento o forti assunzioni tratte da dataset curati manualmente, il che ostacola la scalabilità. In questo articolo, introduciamo Kinematify, un framework automatizzato che sintetizza oggetti articolati direttamente da immagini RGB arbitrarie o descrizioni testuali. Il nostro metodo affronta due sfide fondamentali: (i) dedurre le topologie cinematiche per oggetti ad alto numero di DoF e (ii) stimare i parametri dei giunti a partire dalla geometria statica. Per raggiungere questo obiettivo, combiniamo una ricerca MCTS per l'inferenza strutturale con un'ottimizzazione guidata dalla geometria per il ragionamento sui giunti, producendo descrizioni fisicamente consistenti e funzionalmente valide. Valutiamo Kinematify su input diversificati provenienti da ambienti sia sintetici che del mondo reale, dimostrando miglioramenti nell'accuratezza della registrazione e della topologia cinematica rispetto ai lavori precedenti.
I grandi modelli linguistici (LLM) ottengono prestazioni solide in numerosi benchmark, che spaziano da quiz di conoscenza e ragionamento matematico a compiti di web-agent, ma questi test avvengono in contesti statici, privi di dinamicità e incertezza reali. Di conseguenza, valutano un ragionamento o un problem-solving isolati piuttosto che un processo decisionale in condizioni di incertezza. Per affrontare questa limitazione, introduciamo LiveTradeBench, un ambiente di trading in tempo reale progettato per valutare agenti basati su LLM in mercati realistici ed evolutivi. LiveTradeBench segue tre principi progettuali: (i) flusso di dati in tempo reale sui prezzi di mercato e sulle notizie, eliminando la dipendenza dal backtesting offline e prevenendo la fuga di informazioni, catturando al contempo l'incertezza in tempo reale; (ii) un'astrazione di gestione del portafoglio che estende il controllo dalle azioni su singoli asset all'allocazione multi-asset, integrando la gestione del rischio e il ragionamento cross-asset; e (iii) una valutazione multi-mercato in ambienti strutturalmente distinti – azioni statunitensi e mercati predittivi di Polymarket – che differiscono in termini di volatilità, liquidità e flusso informativo. A ogni step, un agente osserva i prezzi, le notizie e il proprio portafoglio, per poi generare allocazioni percentuali che bilanciano rischio e rendimento. Utilizzando LiveTradeBench, abbiamo condotto valutazioni in tempo reale della durata di 50 giorni su 21 LLM di diverse famiglie. I risultati mostrano che (1) punteggi elevati su LMArena non implicano esiti di trading superiori; (2) i modelli mostrano stili di portafoglio distinti che riflettono la propensione al rischio e le dinamiche di ragionamento; e (3) alcuni LLM sfruttano efficacemente i segnali in tempo reale per adattare le decisioni. Questi risultati evidenziano un divario tra la valutazione statica e la competenza nel mondo reale, motivando lo sviluppo di benchmark che testino il processo decisionale sequenziale e la coerenza in condizioni di incertezza dinamica.
Con la rapida scalata dei modelli di ragionamento, il ruolo essenziale della multimodalità nella cognizione umana è venuto in primo piano, guidando una crescente necessità di indagare i comportamenti cognitivi centrati sulla visione. Tuttavia, i benchmark multimodali esistenti enfatizzano eccessivamente il ragionamento testuale o non riescono a catturare sistematicamente i comportamenti cognitivi vision-centrici, lasciando la capacità cognitiva dei MLLM insufficientemente valutata. Per affrontare questa limitazione, introduciamo MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), un benchmark ancorato alla visione che organizza 11 compiti di ragionamento rappresentativi in tre categorie fondamentali di informazione visiva: ragionamento spaziale, geometrico e basato sulla conoscenza, fornendo analisi granulari della capacità cognitiva dei MLLM attraverso queste dimensioni. Basandoci su MME-CC, conduciamo esperimenti estesi su 16 MLLM rappresentativi. Il nostro studio rivela che i modelli closed-source attualmente sono in vantaggio complessivo (ad esempio, 42,66 per Gemini-2.5-Pro contro 30,45 per GLM-4.5V), mentre il ragionamento spaziale e geometrico rimane ampiamente debole (inferiore o uguale al 30%). Identifichiamo ulteriormente modelli di errore comuni, inclusi errori di orientamento, fragile persistenza dell'identità cross-view e scarso rispetto delle istruzioni controfattuali, e osserviamo che il Chain-of-Thought segue tipicamente un processo in tre fasi (estrai -> ragiona -> verifica) con una forte dipendenza dall'estrazione visiva. Speriamo che questo lavoro catalizzi un cambiamento verso il trattamento della capacità cognitiva dei MLLM come centrale sia per la valutazione che per la progettazione dei modelli.
Riconsideriamo lo scaling a tempo di test per il ragionamento dei modelli linguistici e ci poniamo una domanda fondamentale: a parità di budget di token e potenza di calcolo, è meglio eseguire più catene indipendenti in parallelo, o eseguire meno catene che si affinano iterativamente attraverso passaggi sequenziali? Attraverso una valutazione completa su 5 modelli open source all'avanguardia e 3 benchmark di ragionamento complessi, scopriamo che lo scaling sequenziale, in cui le catene costruiscono esplicitamente sui tentativi precedenti, supera costantemente il paradigma dominante dell'auto-consistenza parallela nel 95,6% delle configurazioni, con guadagni in accuratezza fino al 46,7%. Inoltre, introduciamo il voto ponderato per entropia inversa, un nuovo metodo senza addestramento per aumentare ulteriormente l'accuratezza dello scaling sequenziale. Ponderando le risposte in proporzione all'entropia inversa delle loro catene di ragionamento, aumentiamo il nostro tasso di successo rispetto al voto a maggioranza parallelo e lo stabiliamo come la strategia di scaling a tempo di test ottimale. Le nostre scoperte sfidano fondamentalmente l'ortodossia del ragionamento parallelo che ha dominato lo scaling a tempo di test sin dal decoding a auto-consistenza di Wang et al. (Wang et al., 2022), posizionando l'affinamento sequenziale come l'opzione robusta predefinita per il ragionamento dei moderni LLM e rendendo necessario un cambio di paradigma nel modo in cui affrontiamo l'ottimizzazione al momento dell'inferenza.
Il dialogo collaborativo si basa sulla capacità dei partecipanti di stabilire progressivamente un terreno comune, eppure in contesti asimmetrici essi possono credere di essere d'accordo mentre si riferiscono a entità diverse. Introduciamo uno schema di annotazione prospettico per il corpus HCRC MapTask (Anderson et al., 1991) che cattura separatamente le interpretazioni radicate nel parlante e nell'ascoltatore per ogni espressione referenziale, permettendoci di tracciare come la comprensione emerga, diverga e si ripari nel tempo. Utilizzando una pipeline di annotazione basata su LLM e vincolata dallo schema, otteniamo 13k espressioni referenziale annotate con stime di affidabilità e analizziamo gli stati di comprensione risultanti. I risultati mostrano che i fraintendimenti completi sono rari una volta unificate le varianti lessicali, ma le discrepanze di molteplicità inducono sistematicamente divergenze, rivelando come un apparente grounding possa mascherare un disallineamento referenziale. Il nostro framework fornisce sia una risorsa che una lente analitica per studiare i fraintendimenti radicati e per valutare la capacità dei (V)LLM di modellare il grounding dipendente dalla prospettiva nel dialogo collaborativo.
L'aumento delle query rende le interrogazioni più significative aggiungendo ulteriori informazioni per trovare documenti rilevanti. Gli studi recenti hanno proposto embedder basati su Large Language Model (LLM), che apprendono rappresentazioni per l'embedding e la generazione per l'aumento delle query in modo multi-task sfruttando le capacità generative degli LLM. Durante l'inferenza, questi embedder addestrati congiuntamente hanno eseguito l'aumento delle query seguito dall'embedding, mostrando risultati efficaci. Tuttavia, aumentare ogni query comporta una latenza di embedding significativa e l'aumento delle query può essere dannoso per le prestazioni di alcune interrogazioni. Inoltre, i metodi precedenti non sono stati esplorati in ambienti multimodali. Per affrontare questi problemi, proponiamo M-Solomon, un embedder multimodale universale in grado di determinare in modo adattivo quando aumentare le query. Il nostro approccio divide inizialmente le query dei dataset di addestramento in due gruppi a livello di dataset. Uno include le query che richiedono aumento e l'altro include quelle che non lo richiedono. Successivamente, introduciamo un processo di sintesi che genera aumenti appropriati per le query che li richiedono sfruttando un potente Multimodal LLM (MLLM). Poi, presentiamo l'aumento adattivo delle query. Attraverso questo passo, M-Solomon può effettuare l'aumento delle query solo quando necessario, imparando a generare aumenti sintetici con il prefisso /augment per le query che lo richiedono e a generare la semplice stringa /embed per le altre. I risultati sperimentali hanno dimostrato che M-Solomon non solo ha superato di gran lunga la baseline senza aumento, ma ha anche superato la baseline che utilizzava sempre l'aumento, fornendo una latenza di embedding molto più rapida.
Comprendere le attuali capacità e i rischi dei sistemi di Intelligenza Artificiale Scientifica è fondamentale per garantire un progresso scientifico guidato dall'IA affidabile e sostenibile, preservando al contempo l'integrità dell'ecosistema accademico. A tal fine, sviluppiamo Jr. AI Scientist, un sistema autonomo di IA scientifica all'avanguardia che simula il flusso di lavoro di ricerca principale di un ricercatore studentesco alle prime armi: dato l'articolo di base fornito dal mentore umano, il sistema ne analizza i limiti, formula nuove ipotesi di miglioramento, le convalida attraverso una sperimentazione rigorosa e redige un articolo con i risultati. A differenza di approcci precedenti che presupponevano una piena automazione o operavano su codice su piccola scala, Jr. AI Scientist segue un flusso di ricerca ben definito e sfrutta agenti di codifica moderni per gestire implementazioni complesse e multi-file, portando a contributi scientificamente validi. Per la valutazione, abbiamo condotto valutazioni automatizzate utilizzando Revisori IA, valutazioni guidate dagli autori e sottomissioni ad Agents4Science, una sede dedicata ai contributi scientifici guidati dall'IA. I risultati dimostrano che Jr. AI Scientist genera articoli che ricevono punteggi di revisione più elevati rispetto ai sistemi completamente automatizzati esistenti. Tuttavia, identifichiamo limitazioni importanti sia dalla valutazione degli autori che dalle revisioni di Agents4Science, che indicano i potenziali rischi dell'applicazione diretta degli attuali sistemi di IA Scientifica e le principali sfide per la ricerca futura. Infine, riportiamo in modo esaustivo vari rischi identificati durante lo sviluppo. Confidiamo che questi spunti possano approfondire la comprensione dei progressi attuali e dei rischi nello sviluppo dell'IA Scientifica.