Articoli di ricerca IA selezionati quotidianamente con traduzioni
I sistemi agentici basati su grandi modelli linguistici hanno dimostrato notevoli capacità. Tuttavia, la loro dipendenza dal linguaggio come interfaccia universale ne limita fondamentalmente l'applicabilità a molti problemi del mondo reale, specialmente in ambiti scientifici dove sono stati sviluppati modelli fondativi dominio-specifici per affrontare compiti specializzati che vanno oltre il linguaggio naturale. In questo lavoro, introduciamo Eywa, un framework agentico eterogeneo progettato per estendere i sistemi centrati sul linguaggio a una più ampia classe di modelli fondativi scientifici. L'idea chiave di Eywa è potenziare i modelli fondativi dominio-specifici con un'interfaccia di ragionamento basata su modelli linguistici, consentendo a questi ultimi di guidare l'inferenza su modalità di dati non linguistiche. Questo progetto permette a modelli fondativi previsionali, tipicamente ottimizzati per dati e compiti specializzati, di partecipare a processi di ragionamento e decisione di livello superiore all'interno di sistemi agentici. Eywa può fungere da sostituto immediato per una pipeline ad agente singolo (EywaAgent) o essere integrato in sistemi multi-agente esistenti sostituendo gli agenti tradizionali con agenti specializzati (EywaMAS). Investigiamo inoltre un framework di orchestrazione basato sulla pianificazione, in cui un pianificatore coordina dinamicamente agenti tradizionali e agenti Eywa per risolvere compiti complessi attraverso modalità di dati eterogenee (EywaOrchestra). Valutiamo Eywa in un'ampia gamma di domini scientifici che spaziano dalle scienze fisiche, alle scienze della vita, fino alle scienze sociali. I risultati sperimentali dimostrano che Eywa migliora le prestazioni in compiti che coinvolgono dati strutturati e dominio-specifici, riducendo al contempo la dipendenza dal ragionamento basato sul linguaggio attraverso un'efficace collaborazione con modelli fondativi specializzati.
I recenti modelli di generazione visiva hanno compiuto progressi significativi nel foto-realismo, nella tipografia, nel seguire istruzioni e nell'editing interattivo, ma continuano a lottare con il ragionamento spaziale, lo stato persistente, la coerenza di lungo periodo e la comprensione causale. Sosteniamo che il campo dovrebbe evolvere oltre la sintesi dell'aspetto verso una generazione visiva intelligente: contenuti visivi plausibili ancorati a struttura, dinamiche, conoscenza di dominio e relazioni causali. Per inquadrare questo cambiamento, introduciamo una tassonomia a cinque livelli: Generazione Atomica, Generazione Condizionata, Generazione In-Contesto, Generazione Agente e Generazione con Modelli del Mondo, che progrediscono da renderer passivi a generatori interattivi, agentici e consapevoli del contesto. Analizziamo i principali driver tecnologici, inclusi il flow matching, i modelli unificati di comprensione e generazione, rappresentazioni visive migliorate, post-training, modellazione delle ricompense, cura dei dati, distillazione di dati sintetici e accelerazione del campionamento. Mostriamo inoltre che le valutazioni attuali spesso sovrastimano i progressi enfatizzando la qualità percettiva mentre trascurano i fallimenti strutturali, temporali e causali. Combinando una revisione dei benchmark, stress test in ambienti reali e studi di caso vincolati da esperti, questa roadmap offre una lente centrata sulle capacità per comprendere, valutare e far avanzare la prossima generazione di sistemi intelligenti di generazione visiva.
RLVR e OPD sono diventati paradigmi standard per il post-addestramento. Forniamo un'analisi unificata di questi due paradigmi nel consolidare molteplici capacità di esperti in un unico modello, identificando la perdita di capacità in modi diversi: la RLVR mista soffre di un costo di divergenza inter-capacità, mentre la pipeline che addestra prima gli esperti e poi esegue l'OPD, sebbene eviti la divergenza, non riesce ad assorbire pienamente le capacità del teacher a causa di ampi gap nei pattern comportamentali tra teacher e studente. Proponiamo la Co-Evolving Policy Distillation (CoPD), che incoraggia l'addestramento parallelo degli esperti e introduce l'OPD durante l'addestramento RLVR in corso di ogni esperto, anziché dopo il completamento dell'addestramento degli esperti, con gli esperti che fungono da teacher reciproci (rendendo l'OPD bidirezionale) per co-evolvere. Ciò consente pattern comportamentali più consistenti tra gli esperti mantenendo al contempo una conoscenza complementare sufficiente durante tutto il processo. Gli esperimenti convalidano che CoPD raggiunge un'integrazione tutto-in-uno delle capacità di ragionamento testuale, visivo e video, superando significativamente baseline robuste come la RLVR mista e la MOPD, e superando persino esperti dominio-specifici. Il pattern di addestramento parallelo del modello offerto da CoPD potrebbe ispirare un nuovo paradigma di scalabilità dell'addestramento.
I sistemi di controllo per umanoidi hanno compiuto progressi significativi negli ultimi anni, eppure modellare un comportamento fluido e ricco di interazioni tra un robot, l'ambiente circostante e gli oggetti rilevanti per il compito rimane una sfida fondamentale. Questa difficoltà nasce dalla necessità di catturare congiuntamente, su larga scala, il contesto spaziale, la dinamica temporale, le azioni del robot e l'intento del compito, il che si adatta male alla supervisione convenzionale. Proponiamo ExoActor, un framework innovativo che sfrutta le capacità di generalizzazione dei modelli di generazione video su larga scala per affrontare questo problema. L'intuizione chiave in ExoActor è utilizzare la generazione video in terza persona come interfaccia unificata per modellare la dinamica delle interazioni. Dati un'istruzione di compito e un contesto della scena, ExoActor sintetizza processi di esecuzione plausibili che codificano implicitamente interazioni coordinate tra robot, ambiente e oggetti. Tale output video viene poi trasformato in comportamenti umanoidi eseguibili attraverso una pipeline che stima il movimento umano e lo esegue tramite un controller di movimento generale, producendo una sequenza comportamentale condizionata al compito. Per validare il framework proposto, lo implementiamo come sistema end-to-end e ne dimostriamo la generalizzazione a nuovi scenari senza la necessità di ulteriori raccolte di dati nel mondo reale. In conclusione, discutiamo i limiti dell'implementazione attuale e delineiamo direzioni promettenti per la ricerca futura, illustrando come ExoActor fornisca un approccio scalabile per modellare comportamenti umanoidi ricchi di interazioni, aprendo potenzialmente una nuova strada affinché i modelli generativi possano far avanzare l'intelligenza generale degli umanoidi.
Il fine-tuning di Large Language Models (LLM) su GPU di livello consumer è estremamente conveniente, ma è limitato dalla memoria GPU ridotta e dalle interconnessioni PCIe lente. Il parallelismo pipeline combinato con l'offloading su CPU mitiga questi colli di bottiglia hardware riducendo l'overhead di comunicazione. Tuttavia, gli scheduler di pipeline esistenti soffrono di una limitazione intrinseca denominata problema del vincolo dei pesi. Il binding di stadi del modello di dimensioni diseguali (ad esempio, la testa LM è grande) alle GPU limita la produttività della pipeline a quella della GPU con il carico più pesante, portando a severe bolle di pipeline. In questo articolo, proponiamo RoundPipe, un innovativo scheduler di pipeline che supera il vincolo del binding dei pesi su server con GPU consumer. RoundPipe tratta le GPU come un pool di worker di esecuzione senza stato e distribuisce dinamicamente gli stadi di calcolo tra i dispositivi in modo round-robin, raggiungendo una pipeline quasi priva di bolle. Per garantire la correttezza dell'addestramento e l'efficienza del sistema, RoundPipe integra un motore di scheduling dei trasferimenti con consapevolezza della priorità, un protocollo di sincronizzazione distribuito fine-grained basato su eventi e un algoritmo di partizionamento automatico dei layer. Le valutazioni su un server con 8x RTX 4090 dimostrano che RoundPipe raggiunge un miglioramento delle prestazioni da 1.48 a 2.16 volte rispetto ai baseline state-of-the-art durante il fine-tuning di modelli da 1.7B a 32B. Notevolmente, RoundPipe abilita il fine-tuning LoRA del modello Qwen3-235B con lunghezza di sequenza di 31K su un singolo server. RoundPipe è pubblicamente disponibile come libreria Python open-source con documentazione completa.
Ci si aspetta che gli agenti LLM completino unità di lavoro end-to-end attraverso strumenti software, servizi aziendali e spazi di lavoro locali. Tuttavia, molti benchmark per agenti congelano un set di task curato al momento del rilascio e valutano principalmente la risposta finale, rendendo difficile valutare gli agenti rispetto a una domanda di workflow in evoluzione o verificare se un'attività è stata eseguita. Introduciamo Claw-Eval-Live, un benchmark live per agenti di workflow che separa un livello di segnale aggiornabile, che viene aggiornato tra i rilasci sulla base di segnali pubblici di domanda di workflow, da un'istantanea di rilascio riproducibile e con timestamp. Ogni rilascio è costruito a partire da segnali pubblici di domanda di workflow, utilizzando le Top-500 skill di ClawHub valide per il rilascio corrente, ed è materializzato come task controllati con fixture, servizi, spazi di lavoro e valutatori fissi. Per la valutazione, Claw-Eval-Live registra tracce di esecuzione, log di audit, stato del servizio e artefatti dello spazio di lavoro post-esecuzione, utilizzando controlli deterministici quando le evidenze sono sufficienti e un giudizio LLM strutturato solo per le dimensioni semantiche. Il rilascio contiene 105 task che spaziano tra servizi aziendali controllati e riparazioni di spazi di lavoro locali, e valuta 13 modelli di frontiera secondo una regola di superamento pubblica e condivisa. Gli esperimenti rivelano che l'automazione affidabile dei workflow è tutt'altro che risolta: il modello leader supera solo il 66.7% dei task e nessun modello raggiunge il 70%. I fallimenti sono strutturati per famiglia di task e superficie di esecuzione, con i workflow aziendali di risorse umane, gestione e multi-sistema come colli di bottiglia persistenti, mentre la riparazione dello spazio di lavoro locale è relativamente più facile ma non satura. La classifica della leaderboard da sola è insufficiente perché modelli con tassi di superamento simili possono divergere nel completamento complessivo, e la discriminazione a livello di task si concentra in una fascia intermedia di attività. Claw-Eval-Live suggerisce che la valutazione degli agenti di workflow dovrebbe essere ancorata due volte: nella domanda esterna fresca e nell'azione verificabile dell'agente.
Il token costituisce l'unità fondamentale di calcolo nei modelli autoregressivi moderni, e la lunghezza della generazione influenza direttamente sia il costo di inferenza che le prestazioni di ragionamento. Nonostante la sua importanza, gli approcci esistenti mancano di una modellizzazione granulare della lunghezza, operando principalmente a livello di sequenza, che è più grossolano. Introduciamo il Length Value Model (LenVM), un framework a livello di token che modella la lunghezza rimanente della generazione. Formulando la modellizzazione della lunghezza come un problema di stima del valore e assegnando una ricompensa negativa costante ad ogni token generato, LenVM predice un ritorno scontato e limitato che funge da proxy monotono per l'orizzonte rimanente della generazione. Questa formulazione produce una supervisione che è priva di annotazioni, densa, imparziale e scalabile. Esperimenti su LLM e VLM dimostrano che LenVM fornisce un segnale altamente efficace durante l'inferenza. Sul task di corrispondenza esatta della lunghezza LIFEBench, l'applicazione di LenVM a un modello da 7B migliora il punteggio di lunghezza da 30.9 a 64.8, superando significativamente i modelli closed-source all'avanguardia. Inoltre, LenVM consente un controllo continuo del compromesso tra prestazioni ed efficienza. Su GSM8K con un budget di 200 token, LenVM mantiene una accuratezza del 63% rispetto al 6 percento della baseline con budget di token. Predice anche accuratamente la lunghezza totale della generazione dal confine del prompt. Infine, i valori a livello di token di LenVM offrono una visione interpretabile della dinamica di generazione, rivelando come token specifici spostino il ragionamento verso regimi più brevi o più lunghi. I risultati dimostrano che LenVM supporta un'ampia gamma di applicazioni e che la lunghezza in token può essere efficacemente modellata come un segnale di valore a livello di token, evidenziando il potenziale di LenVM come framework generale per la modellizzazione della lunghezza e come segnale di valore specifico per la lunghezza che potrebbe supportare futuri addestramenti RL. Il codice è disponibile su https://github.com/eric-ai-lab/Length-Value-Model.
Sebbene l'apprendimento per rinforzo da feedback umano (RLHF) sia diventato un paradigma fondamentale per la generazione di immagini da testo, la sua applicazione all'editing di immagini rimane in gran parte inesplorata. Un collo di bottiglia chiave è la mancanza di un modello di reward generale e robusto per tutti i compiti di modifica. I modelli di reward per l'editing esistenti di solito forniscono punteggi complessivi senza controlli dettagliati, ignorando i diversi requisiti delle istruzioni e causando reward distorti. Per affrontare questo problema, sosteniamo che la chiave sia passare da un semplice sistema di scoring a un verificatore dotato di ragionamento. Introduciamo Edit-R1, un framework che costruisce un modello di reward basato sul ragionamento (RRM) tramite un verificatore a catena di pensiero (CoT) e successivamente lo sfrutta per l'editing di immagini downstream. L'Edit-RRM scompone le istruzioni in principi distinti, valuta l'immagine modificata rispetto a ciascun principio e aggrega questi controlli in un reward interpretabile e a grana fine. Per costruire un tale RRM, applichiamo prima un fine-tuning supervisionato (SFT) come "avvio a freddo" per generare traiettorie di reward CoT. Successivamente, introduciamo l'ottimizzazione delle preferenze contrastive di gruppo (GCPO), un algoritmo di apprendimento per rinforzo che sfrutta dati di preferenze umane a coppie per rinforzare il nostro RRM pointwise. Dopo aver costruito l'RRM, utilizziamo il GRPO per addestrare modelli di editing con questo modello di reward non differenziabile ma potente. Esperimenti estensivi dimostrano che il nostro Edit-RRM supera potenti modelli linguistici visivi (VLM) come Seed-1.5-VL e Seed-1.6-VL come modello di reward specifico per l'editing, e osserviamo un chiaro trend di scalabilità, con le prestazioni che migliorano costantemente da 3 a 7 miliardi di parametri. Inoltre, Edit-R1 apporta vantaggi a modelli di editing come FLUX.1-kontext, evidenziando la sua efficacia nel migliorare l'editing delle immagini.
L'infrastruttura di ricerca esistente è fondamentalmente incentrata sui documenti, fornendo collegamenti citazionali tra i paper ma mancando di rappresentazioni esplicite dell'evoluzione metodologica. In particolare, non cattura le relazioni strutturate che spiegano come e perché i metodi di ricerca emergono, si adattano e si costruiscono l'uno sull'altro. Con l'ascesa degli agenti di ricerca guidati dall'IA come nuova classe di fruitori della conoscenza scientifica, questa limitazione diventa sempre più rilevante, poiché tali agenti non possono ricostruire in modo affidabile le topologie dell'evoluzione metodologica a partire da testo non strutturato. Introduciamo Intern-Atlas, un grafo dell'evoluzione metodologica che identifica automaticamente le entità a livello di metodo, inferisce le relazioni di lignaggio tra le metodologie e cattura i colli di bottiglia che guidano le transizioni tra innovazioni successive. Costruito a partire da 1.030.314 paper provenienti da conferenze di IA, riviste e preprint di arXiv, il grafo risultante comprende 9.410.201 archi con tipo semantico, ciascuno basato su evidenze testuali originali, formando una rete causale interrogabile dello sviluppo metodologico. Per rendere operativa questa struttura, proponiamo inoltre un algoritmo di ricerca ad albero temporale auto-guidato per costruire catene evolutive che tracciano la progressione dei metodi nel tempo. Valutiamo la qualità del grafo risultante confrontandolo con catene evolutive di verità fondamentale curate da esperti e osserviamo un forte allineamento. Inoltre, dimostriamo che Intern-Atlas abilita applicazioni downstream nella valutazione delle idee e nella generazione automatizzata di idee. Posizioniamo i grafi dell'evoluzione metodologica come uno strato di dati fondamentale per la nascente scoperta scientifica automatizzata.
Presentiamo Nemotron 3 Nano Omni, il modello più recente della serie multimodale Nemotron e il primo a supportare nativamente input audio insieme a testo, immagini e video. Nemotron 3 Nano Omni fornisce miglioramenti costanti in termini di accuratezza rispetto al suo predecessore, Nemotron Nano V2 VL, in tutte le modalità, resi possibili da progressi nell'architettura, nei dati di addestramento e nelle metodologie. In particolare, Nemotron 3 ottiene risultati all'avanguardia nella comprensione di documenti reali, nella comprensione di audio-video lunghi e nell'uso agentico del computer. Basato sull'efficientissima architettura Nemotron 3 Nano 30B-A3B, Nemotron 3 Nano Omni incorpora ulteriormente innovative tecniche di riduzione dei token multimodali per offrire una latenza inferiore di inferenza e una produttività sensibilmente più elevate rispetto ad altri modelli di dimensioni simili. Rilasciamo checkpoint del modello in formati BF16, FP8 e FP4, insieme a porzioni dei dati di addestramento e del codice sorgente per facilitare ulteriori ricerche e sviluppi.
Con l'avanzamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) e degli agenti di programmazione, lo sviluppo di siti web si è evoluto dalla programmazione manuale alla sintesi di codice a livello di progetto basata su agenti. I benchmark esistenti si basano su assunzioni idealizzate, in particolare per input ben strutturati, ricchi di informazioni e ambienti di esecuzione statici. Al contrario, lo sviluppo nel mondo reale è limitato da un collo di bottiglia critico: il disallineamento semantico tra istruzioni ambigue e di bassa qualità provenienti da utenti non esperti e la comprensione del modello, che risulta in una modalità di fallimento che definiamo esecuzione cieca (blind execution). Per colmare questa lacuna, introduciamo InteractWeb-Bench, il primo benchmark interattivo multimodale per la generazione di siti web in condizioni di utenti non esperti con approccio low-code. InteractWeb-Bench introduce quattro tipi di agenti utente e perturbazioni delle istruzioni guidate da personaggi per simulare sistematicamente comportamenti utente diversificati, inclusi ambiguità, ridondanza e contraddizioni, basandosi sulle tassonomie dei difgetti nell'ingegneria dei requisiti. Sviluppiamo un ambiente di esecuzione interattivo per gli agenti, caratterizzato da uno spazio di azione unificato che comprende Chiarire, Implementare, Verificare e Inviare, consentendo un raffinamento iterativo dell'intento, la sintesi del codice e una convalida basata sul feedback visivo. Esperimenti estensivi e analisi rivelano che gli agenti all'avanguardia basati su MLLM rimangono intrappolati nell'esecuzione cieca, esponendo limitazioni nel riconoscimento dell'intento e nell'interazione adattiva.
Il lavoro produttivo realistico a lungo termine è fortemente condizionato da ambienti informatici specifici dell'utente, dove gran parte del contesto lavorativo viene memorizzato e organizzato attraverso strutture di directory e artefatti ricchi di contenuto. Per scalare la creazione di dati sintetici per tali scenari produttivi, introduciamo Synthetic Computers at Scale, una metodologia scalabile per creare tali ambienti con gerarchie di cartelle realistiche e artefatti ricchi di contenuto (ad esempio documenti, fogli di calcolo e presentazioni). Condizionati da ciascun computer sintetico, eseguiamo simulazioni a lungo termine: un agente crea obiettivi produttivi specifici per l'utente del computer che richiedono più deliverable professionali e circa un mese di lavoro umano; un altro agente agisce quindi come quell'utente e continua a lavorare attraverso il computer - ad esempio navigando nel filesystem per il grounding, coordinando con collaboratori simulati e producendo artefatti professionali - fino al completamento di questi obiettivi. In esperimenti preliminari, abbiamo creato 1.000 computer sintetici e eseguito simulazioni a lungo termine su di essi; ogni esecuzione richiede oltre 8 ore di runtime dell'agente e si estende in media per più di 2.000 turni. Queste simulazioni producono ricchi segnali di apprendimento esperienziale, la cui efficacia è validata da miglioramenti significativi nelle prestazioni degli agenti sia in valutazioni produttive in-dominio che out-of-domain. Considerando che le persona sono abbondanti a scala miliardaria, questa metodologia può in linea di principio scalare a milioni o addirittura miliardi di mondi utente sintetici con sufficiente potenza di calcolo, consentendo una copertura più ampia di professioni, ruoli, contesti, ambienti e esigenze produttive diverse. Sosteniamo che la creazione scalabile di computer sintetici, insieme a simulazioni su larga scala, sia estremamente promettente come substrato fondamentale per l'automiglioramento degli agenti e l'apprendimento per rinforzo agentico in scenari produttivi a lungo termine.
Dimostriamo che la Distanza di Fréchet (FD), a lungo considerata impraticabile come obiettivo di addestramento, può in realtà essere ottimizzata efficacemente nello spazio delle rappresentazioni. La nostra idea è semplice: disaccoppiare la dimensione della popolazione per la stima FD (ad es., 50k) dalla dimensione del batch per il calcolo del gradiente (ad es., 1024). Definiamo questo approccio come FD-loss. L'ottimizzazione della FD-loss rivela diverse scoperte sorprendenti. In primo luogo, il post-addestramento di un generatore di base con FD-loss in diversi spazi di rappresentazione migliora costantemente la qualità visiva. Nello spazio delle caratteristiche Inception, un generatore a singolo passo raggiunge un FID di 0.72 su ImageNet 256x256. In secondo luogo, la stessa FD-loss riconverte generatori multi-passo in forti generatori a singolo passo senza distillazione insegnante, addestramento adversarial o target per campione. In terzo luogo, l'FID può classificare erroneamente la qualità visiva: rappresentazioni moderne possono produrre campioni migliori nonostante un FID Inception peggiore. Ciò motiva FDr^k, una metrica multi-rappresentazione. Speriamo che questo lavoro incoraggi un'ulteriore esplorazione delle distanze distribuzionali in vari spazi di rappresentazione, sia come obiettivi di addestramento che come metriche di valutazione per modelli generativi.
La pubblicazione scientifica comprime un processo di ricerca ramificato e iterativo in una narrazione lineare, scartando la maggior parte di quanto scoperto lungo il percorso. Questa sintesi impone due costi strutturali: una Tassa Narrativa, in cui esperimenti falliti, ipotesi scartate e il processo di esplorazione ramificato vengono eliminati per adattarsi a una narrazione lineare; e una Tassa Ingegneristica, in cui il divario tra una prosa sufficiente per i revisori e una specificazione sufficiente per gli agenti lascia dettagli implementativi critici non scritti. Tollerabili per i lettori umani, questi costi diventano critici quando agenti di IA devono comprendere, riprodurre ed estendere il lavoro pubblicato. Introduciamo l'Artifact di Ricerca Nativo per Agenti (ARA), un protocollo che sostituisce l'articolo narrativo con un pacchetto di ricerca eseguibile dalla macchina strutturato su quattro livelli: logica scientifica, codice eseguibile con specifiche complete, un grafo di esplorazione che preserva i fallimenti che la sintesi scarta, ed evidenze che ancorano ogni affermazione ai risultati grezzi. Tre meccanismi supportano l'ecosistema: un Gestore della Ricerca in Tempo Reale che cattura decisioni e vicoli ciechi durante lo sviluppo ordinario; un Compilatore ARA che traduce PDF e repository legacy in ARA; e un sistema di revisione nativo per ARA che automatizza i controlli oggettivi, permettendo ai revisori umani di concentrarsi su significato, novità e gusto. Su PaperBench e RE-Bench, ARA aumenta l'accuratezza nel rispondere a domande dal 72.4% al 93.7% e il successo di riproduzione dal 57.4% al 64.4%. Sui cinque compiti di estensione aperti di RE-Bench, le tracce dei fallimenti preservate in ARA accelerano i progressi, ma possono anche limitare un agente capace dal uscire dal solco delle esecuzioni precedenti, a seconda delle capacità dell'agente.
I grandi modelli linguistici (LLM) sono noti per acquisire capacità di ragionamento attraverso pattern inferenziali condivisi nei dati di pre-addestramento, che vengono ulteriormente elicitati tramite le pratiche di Chain-of-Thought (CoT). Tuttavia, se i pattern fondamentali di ragionamento, come l'induzione, la deduzione e l'abduzione, possano essere disaccoppiati da specifiche istanze problematiche rimane una sfida cruciale per la controllabilità del modello e per far luce sulla controllabilità del ragionamento. In questo articolo, presentiamo la prima indagine sistematica di questo problema attraverso la lente dei *conflitti di ragionamento*: un'esplicita tensione tra informazioni parametriche e contestuali indotta dall'imposizione di schemi logici che deviano da quelli attesi per un compito target. La nostra valutazione rivela che gli LLM danno costantemente priorità alla *sensatezza* rispetto alla *conformità*, favorendo pattern di ragionamento appropriati al compito nonostante istruzioni contrastanti. È degno di nota che l'accuratezza nel compito non sia strettamente determinata dalla sensatezza, poiché i modelli spesso mantengono alte prestazioni anche quando utilizzano pattern conflittuali, suggerendo una dipendenza dalla memoria parametrica internalizzata che aumenta con la dimensione del modello. Dimostriamo inoltre che i conflitti di ragionamento sono internamente rilevabili, poiché i punteggi di confidenza calano significativamente durante episodi conflittuali. Esperimenti di probing confermano che i tipi di ragionamento sono codificati linearmente dagli strati intermedi a quelli finali, indicando il potenziale per una controllabilità a livello di attivazione. Sfruttando queste intuizioni, guidiamo i modelli verso la conformità, aumentando il seguito delle istruzioni fino al 29%. Nel complesso, i nostri risultati stabiliscono che, sebbene il ragionamento degli LLM sia ancorato a istanze concrete, interventi meccanicistici attivi possono disaccoppiare efficacemente gli schemi logici dai dati, offrendo una via verso una migliore controllabilità, fedeltà e generalizzabilità.
I metodi recenti per la motion capture con scheletro arbitrario da video monoculare seguono una pipeline fattorizzata, in cui una rete Video-to-Pose predice le posizioni dei giunti e una fase analitica di cinematica inversa (IK) ricava le rotazioni articolari. Sebbene efficaci, questo progetto è intrinsecamente limitato, poiché le posizioni dei giunti non determinano completamente le rotazioni e lasciano ambigui gradi di libertà come la torsione dell'asse osseo, e la fase IK non differenziabile impedisce al sistema di adattarsi a predizioni rumorose o di ottimizzare per l'obiettivo finale dell'animazione. In questo lavoro, presentiamo il primo framework completamente end-to-end in cui sia Video-to-Pose che Pose-to-Rotation sono apprendibili e ottimizzati congiuntamente. Osserviamo che l'ambiguità nella mappatura da posa a rotazione sorge dalle informazioni mancanti sul sistema di coordinate: le stesse posizioni dei giunti possono corrispondere a rotazioni diverse sotto diverse pose di riposo e convenzioni di assi locali. Per risolvere ciò, introduciamo una coppia di riferimento posa-rotazione dall'asset target, che, insieme alla posa di riposo, non solo ancorano la mappatura ma definiscono anche il sistema di coordinate di rotazione sottostante. Questa formulazione trasforma la predizione della rotazione in un problema condizionale ben vincolato e abilita un apprendimento efficace. Inoltre, il nostro modello predice le posizioni dei giunti direttamente dal video senza fare affidamento su intermedi di mesh, migliorando sia la robustezza che l'efficienza. Entrambe le fasi condividono un modulo Skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) per il ragionamento locale a livello di giunto e il coordinamento globale. Gli esperimenti su Truebones Zoo e Objaverse mostrano che il nostro metodo riduce l'errore di rotazione da ~17 gradi a ~10 gradi, e a 6.54 gradi su scheletri non visti, raggiungendo un'inferenza ~20 volte più veloce rispetto alle pipeline basate su mesh. Pagina del progetto: https://animotionlab.github.io/MoCapAnythingV2/
I moderni modelli di diffusione video eccellono nella sintesi dell'aspetto visivo, ma continuano a lottare con la coerenza fisica: gli oggetti si spostano in modo irrealistico, le collisioni mancano di un rimbalzo credibile e le risposte dei materiali raramente corrispondono alle loro proprietà intrinseche. Presentiamo PhyCo, un framework che introduce un controllo continuo, interpretabile e fisicamente fondato nella generazione video. Il nostro approccio integra tre componenti chiave: (i) un dataset su larga scala di oltre 100.000 video di simulazione fotorealistica in cui attrito, restituzione, deformazione e forza vengono variati sistematicamente in scenari diversificati; (ii) un fine-tuning supervisionato dalla fisica di un modello di diffusione pre-addestrato utilizzando un ControlNet condizionato su mappe di proprietà fisiche allineate a livello di pixel; e (iii) un'ottimizzazione della ricompensa guidata da VLM, in cui un modello visione-linguaggio fine-tuned valuta i video generati tramite query fisiche mirate e fornisce un feedback differenziabile. Questa combinazione consente a un modello generativo di produrre output fisicamente coerenti e controllabili attraverso variazioni negli attributi fisici, senza alcun simulatore o ricostruzione geometrica durante l'inferenza. Sul benchmark Physics-IQ, PhyCo migliora significativamente il realismo fisico rispetto a baseline solide, e studi umani confermano un controllo più chiaro e fedele sugli attributi fisici. I nostri risultati dimostrano un percorso scalabile verso modelli generativi video fisicamente coerenti e controllabili che generalizzano oltre gli ambienti di addestramento sintetici.
Le preferenze visive umane sono intrinsecamente multidimensionali, comprendendo estetica, fedeltà dei dettagli e allineamento semantico. Tuttavia, i dataset esistenti forniscono solo annotazioni olistiche e singole, risultando in un rumore etichettato severo: immagini che eccellono in alcune dimensioni ma sono carenti in altre vengono semplicemente marcate come vincenti o perdenti. Dimostriamo teoricamente che comprimere preferenze multidimensionali in etichette binarie genera segnali di gradiente conflittuali che fuorviano la Diffusion Direct Preference Optimization (DPO). Per affrontare questo problema, proponiamo Semi-DPO, un approccio semi-supervisionato che tratta le coppie consistenti come dati etichettati puliti e quelle conflittuali come dati rumorosi non etichettati. Il nostro metodo inizia addestrandosi su un sottoinsieme pulito filtrato per consenso, per poi utilizzare questo modello come classificatore implicito per generare pseudo-etichette per l'insieme rumoroso al fine di un raffinamento iterativo. I risultati sperimentali dimostrano che Semi-DPO raggiunge prestazioni allo stato dell'arte e migliora significativamente l'allineamento con le complesse preferenze umane, senza richiedere annotazioni umane aggiuntive o modelli di ricompensa espliciti durante l'addestramento. Rilasceremo il nostro codice e i nostri modelli all'indirizzo: https://github.com/L-CodingSpace/semi-dpo
L'intelligenza incarnata richiede ambienti di simulazione ad alta fedeltà per supportare la percezione e la presa di decisioni, ma le piattaforme esistenti spesso soffrono di contaminazione dei dati e limitata flessibilità. Per ovviare a questo problema, proponiamo World2Minecraft per convertire scene del mondo reale in ambienti strutturati di Minecraft basandoci sulla previsione di occupazione semantica 3D. Nelle scene ricostruite, possiamo eseguire senza sforzo compiti a valle come la navigazione visione-linguaggio (VLN). Tuttavia, osserviamo che la qualità della ricostruzione dipende fortemente da una previsione accurata dell'occupazione, che rimane limitata dalla scarsità di dati e dalla scarsa generalizzazione dei modelli esistenti. Introduciamo una pipeline di acquisizione dati automatizzata, scalabile e a basso costo per creare dataset di occupazione personalizzati, e ne dimostriamo l'efficacia attraverso MinecraftOcc, un dataset su larga scala che comprende 100.165 immagini provenienti da 156 scene interne ricche di dettagli. Esperimenti estensivi mostrano che il nostro dataset fornisce un complemento cruciale ai dataset esistenti e rappresenta una sfida significativa per i metodi allo stato dell'arte attuali. Questi risultati contribuiscono a migliorare la previsione dell'occupazione e sottolineano il valore di World2Minecraft nel fornire una piattaforma personalizzabile e modificabile per la ricerca personalizzata sull'IA incarnata. Pagina del progetto: https://world2minecraft.github.io/.
Gli agenti di utilizzo del computer rappresentano una strada promettente verso l'automazione software generale poiché possono interagire direttamente con interfacce utente grafiche arbitrarie, senza fare affidamento su integrazioni fragili e specifiche per applicazione. Nonostante i recenti progressi nelle prestazioni dei benchmark, gli agenti di utilizzo del computer più potenti rimangono costosi e lenti nella pratica, poiché la maggior parte dei sistemi richiama grandi modelli multimodali a quasi ogni passo di interazione. Sosteniamo che questa allocazione uniforme della potenza di calcolo sia fondamentalmente inefficiente per compiti GUI a lungo orizzonte. Tali traiettorie sono altamente eterogenee: molti passi sono di routine e possono essere gestiti in modo affidabile da politiche più piccole ed economiche, mentre gli errori tendono a concentrarsi in un numero relativamente piccolo di momenti ad alto rischio. Nei benchmark di utilizzo del computer, questi fallimenti assumono ripetutamente due forme: stalli di progresso, in cui l'agente entra in loop, ripete azioni inefficaci o non riesce a compiere progressi significativi, e deriva semantica silente, in cui l'agente continua a compiere azioni localmente plausibili dopo essersi già discostato dal vero obiettivo dell'utente. Per affrontare questa inefficienza, proponiamo una cascata a livello di passo, guidata da eventi, per gli agenti di utilizzo del computer che esegue una piccola politica di default e passa a un modello più potente solo quando monitor appresi e leggeri rilevano un rischio elevato. Il nostro framework combina due segnali complementari: un Monitoraggio di Blocco che rileva un progresso degradato dalla cronologia recente di ragionamento-azione e innesca un ripristino, e un Monitoraggio di Traguardo che identifica checkpoint semanticamente significativi dove una verifica sparsa è più informativa per individuare la deriva. Questo progetto trasforma l'inferenza sempre attiva dei modelli di frontiera in un'allocazione di potenza di calcolo adattiva e on-demand nel corso di un'interazione in evoluzione. Il framework è modulare e orientato alla deployment: può essere stratificato su agenti di utilizzo del computer esistenti senza modificare l'architettura dell'agente sottostante o riaddestrare il modello di grandi dimensioni.
La poesia è da lungo tempo una forma d'arte centrale per i parlanti arabi, fungendo da potente mezzo di espressione e identità culturale. Sebbene i parlanti arabi moderni continuino a valorizzare la poesia, la ricerca esistente sulla poesia araba all'interno dei Large Language Model (LLM) si è concentrata principalmente su compiti di analisi come l'interpretazione o la previsione di metadati, ad esempio gli schemi di rima e i titoli. Al contrario, il nostro lavoro affronta l'aspetto pratico della creazione poetica in arabo introducendo capacità di generazione controllabile per assistere gli utenti nella scrittura di poesie. Nello specifico, presentiamo un dataset su larga scala e accuratamente curato, basato su istruzioni, in arabo standard moderno (MSA) e vari dialetti arabi. Questo dataset abilita compiti come scrivere, revisionare e continuare poesie sulla base di criteri predefiniti, inclusi stile e rima, oltre a eseguire analisi poetica. I nostri esperimenti mostrano che il fine-tuning di LLM su questo dataset produce modelli in grado di generare efficacemente poesie allineate con i requisiti dell'utente, come dimostrato sia da metriche automatizzate che da valutazioni umane con parlanti nativi di arabo. I dati e il codice sono disponibili all'indirizzo https://github.com/mbzuai-nlp/instructpoet-ar.
Sebbene l'ottimizzazione delle preferenze sia cruciale per migliorare i modelli generativi visivi, come scalare efficacemente questo paradigma rimane in gran parte inesplorato. I dataset open-source esistenti sulle preferenze contengono pattern contrastanti, in cui i vincitori eccellono in alcune dimensioni ma sotto-performano in altre. Ottimizzare in modo ingenuo su dataset così rumorosi non permette di apprendere le preferenze, ostacolando una scalata efficace. Per aumentare la robustezza al rumore, proponiamo Poly-DPO, che estende l'obiettivo DPO con un termine polinomiale aggiuntivo che regola dinamicamente la confidenza del modello in base alle caratteristiche del dataset, consentendo un apprendimento efficace su distribuzioni di dati diverse. Oltre ai pattern distorti, i dataset esistenti soffrono di bassa risoluzione, scarsa diversità dei prompt e distribuzioni sbilanciate. Per facilitare l'ottimizzazione su larga scala delle preferenze visive affrontando i colli di bottiglia dei dati, abbiamo costruito ViPO, un dataset di preferenze di massa con 1M di coppie di immagini a 1024px in cinque categorie e 300K coppie video a 720p+ in tre categorie. Modelli generativi all'avanguardia e prompt diversificati garantiscono segnali di preferenza affidabili con distribuzioni bilanciate. Notevolmente, applicando Poly-DPO al nostro dataset di alta qualità, la configurazione ottimale converge al DPO standard. Questa convergenza valida la qualità del dataset e la natura adattiva di Poly-DPO: l'ottimizzazione sofisticata diventa superflua con dati di sufficiente qualità, ma rimane preziosa per dataset imperfetti. Convalidiamo il nostro approccio su vari modelli di generazione visiva. Su dataset rumorosi come Pick-a-Pic V2, Poly-DPO ottiene guadagni di 6.87 e 2.32 rispetto a Diffusion-DPO su GenEval per SD1.5 e SDXL, rispettivamente. Per ViPO, i modelli raggiungono prestazioni di gran lunga superiori a quelle addestrate su dataset open-source esistenti. Questi risultati confermano che affrontare sia l'adattabilità algoritmica che la qualità dei dati è essenziale per scalare l'ottimizzazione delle preferenze visive.
I modelli foundation vengono regolarmente sottoposti a fine-tuning per l'utilizzo in domini specifici, mentre le valutazioni di sicurezza vengono tipicamente condotte solo sui modelli base, presupponendo implicitamente che le proprietà di sicurezza permangano attraverso l'adattamento downstream. Mettiamo alla prova questo assunto analizzando il comportamento in termini di sicurezza di 100 modelli, inclusi modelli con fine-tuning ampiamente utilizzati nei domini medico e legale, nonché adattamenti controllati di modelli foundation open affiancati alle loro versioni base. Attraverso benchmark di sicurezza sia generici che dominio-specifici, scopriamo che il fine-tuning benigno induce cambiamenti ampi, eterogenei e spesso contraddittori nella sicurezza misurata: i modelli migliorano frequentemente su alcuni strumenti mentre peggiorano su altri, con un disaccordo sostanziale tra le valutazioni. Questi risultati dimostrano che il comportamento di sicurezza non è stabile sotto un ordinario adattamento downstream, sollevando interrogativi critici sulle pratiche di governance e deployment centrate sulle valutazioni dei modelli base. Senza una riesplicita rivalutazione dei modelli con fine-tuning in contesti rilevanti per il deployment, tali approcci si rivelano insufficienti per gestire adeguatamente il rischio downstream, trascurando fonti pratiche di danno – fallimenti che sono particolarmente consequenziali in contesti ad alto rischio e che sfidano gli attuali paradigmi di responsabilità.
I modelli linguistici di grandi dimensioni a contesto lungo (LLM), come Gemini-3.1-Pro e Qwen-3.5, sono ampiamente utilizzati per potenziare molte applicazioni del mondo reale, come la generazione aumentata dal recupero di informazioni, gli agenti autonomi e gli assistenti IA. Tuttavia, la sicurezza rimane una preoccupazione principale per il loro ampio dispiegamento, con minacce come l'iniezione di prompt e la corruzione della conoscenza. Per quantificare i rischi per la sicurezza affrontati dagli LLM sotto queste minacce, la comunità di ricerca ha sviluppato metodi di red-teaming basati su euristiche e su ottimizzazione. I metodi basati sull'ottimizzazione generalmente producono attacchi più potenti di quelli euristici e forniscono quindi una valutazione più rigorosa dei rischi per la sicurezza degli LLM. Tuttavia, sono spesso ad alto consumo di risorse, richiedendo una potenza di calcolo e una memoria GPU significative, specialmente per scenari a contesto lungo. La natura ad alta intensità di risorse rappresenta un ostacolo importante per la comunità (specialmente per i ricercatori accademici) per valutare sistematicamente i rischi per la sicurezza degli LLM a contesto lungo e valutare l'efficacia delle strategie di difesa su larga scala. In questo lavoro, proponiamo FlashRT, il primo framework per migliorare l'efficienza (in termini sia di calcolo che di memoria) per attacchi di iniezione di prompt e corruzione della conoscenza basati sull'ottimizzazione sotto LLM a contesto lungo. Attraverso valutazioni estese, abbiamo riscontrato che FlashRT fornisce costantemente un aumento di velocità da 2x a 7x (ad esempio, riducendo il tempo di esecuzione da un'ora a meno di dieci minuti) e una riduzione del consumo di memoria GPU da 2x a 4x (ad esempio, riducendo da 264,1 GB a 65,7 GB di memoria GPU per un contesto di 32K token) rispetto allo stato dell'arte del baseline nanoGCG. FlashRT può essere applicato ampiamente a metodi di ottimizzazione black-box, come TAP e AutoDAN. Speriamo che FlashRT possa servire come strumento di red-teaming per consentire la valutazione sistematica della sicurezza degli LLM a contesto lungo. Il codice è disponibile all'indirizzo: https://github.com/Wang-Yanting/FlashRT