Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di diffusione promettono una generazione parallela e rapida, mentre i modelli autoregressivi (AR) eccellono tipicamente in qualità grazie alla loro struttura causale, che si allinea naturalmente con la modellazione del linguaggio. Ciò solleva una questione fondamentale: possiamo ottenere una sinergia con alto throughput, maggiore utilizzo della GPU e qualità pari a quella AR? I metodi esistenti non riescono a bilanciare efficacemente questi due aspetti, privilegiando o l'AR utilizzando un modello più debole per la stesura sequenziale (decodifica speculativa), con conseguente minore efficienza di draft, o utilizzando una qualche forma di logica di decodifica sinistra-destra (simile all'AR) per la diffusione, che soffre comunque di un degrado della qualità e perde la sua potenziale parallelizzabilità. Introduciamo TiDAR, un'architettura ibrida a livello di sequenza che genera bozze di token (Thinking) in modalità Diffusion e campiona gli output finali (Talking) in modo AutoRegressivo - il tutto all'interno di un unico passaggio in avanti mediante maschere di attenzione strutturate appositamente progettate. Questo progetto sfrutta la densità computazionale libera della GPU, raggiungendo un forte equilibrio tra capacità di stesura e verifica. Inoltre, TiDAR è progettato per essere friendly per il deployment (basso overhead) come modello autonomo. Valutiamo estensivamente TiDAR confrontandolo con modelli AR, decodifica speculativa e varianti di diffusione in compiti generativi e di likelihood su scale da 1.5B e 8B parametri. Grazie alla stesura e al campionamento paralleli, nonché al supporto esatto della KV cache, TiDAR supera la decodifica speculativa in termini di throughput misurato e supera modelli di diffusione come Dream e Llada sia in efficienza che in qualità. Soprattutto, TiDAR è la prima architettura a colmare il divario qualitativo con i modelli AR erogando da 4.71x a 5.91x token in più al secondo.
Presentiamo Lumine, la prima ricetta aperta per lo sviluppo di agenti generalisti in grado di completare missioni complesse della durata di ore in tempo reale all’interno di ambienti 3D open-world impegnativi. Lumine adotta un paradigma di interazione simile a quello umano, unificando percezione, ragionamento e azione in modo end-to-end, alimentato da un modello visione-linguaggio. Elabora pixel grezzi a 5 Hz per produrre azioni precise da tastiera e mouse a 30 Hz e invoca il ragionamento in modo adattivo solo quando necessario. Addestrato in Genshin Impact, Lumine completa con successo l’intera trama principale di cinque ore di Mondstadt con un’efficienza paragonabile a quella umana e segue istruzioni in linguaggio naturale per eseguire un’ampia gamma di attività sia nell’esplorazione 3D open-world che nella manipolazione di interfacce 2D, tra raccolta, combattimento, risoluzione di enigmi e interazione con NPC. Oltre alle sue prestazioni in dominio, Lumine dimostra una forte generalizzazione zero-shot tra giochi diversi. Senza alcun fine-tuning, completa missioni di 100 minuti in Wuthering Waves e l’intero primo capitolo di cinque ore di Honkai: Star Rail. Questi risultati promettenti evidenziano l’efficacia di Lumine attraverso mondi distinti e dinamiche di interazione diverse, segnando un passo concreto verso agenti generalisti in ambienti aperti.
L'identificazione di hit è una sfida centrale nelle prime fasi della scoperta di farmaci, tradizionalmente caratterizzata da un elevato impiego di risorse sperimentali. I recenti progressi nell'intelligenza artificiale, in particolare nei modelli linguistici di grandi dimensioni (LLM), hanno reso possibili metodi di screening virtuale che riducono i costi e migliorano l'efficienza. Tuttavia, la crescente complessità di questi strumenti ne ha limitato l'accessibilità per i ricercatori di laboratorio. I sistemi multi-agente offrono una soluzione promettente, combinando l'interpretabilità degli LLM con la precisione di modelli e strumenti specializzati. In questo lavoro, presentiamo MADD, un sistema multi-agente che costruisce ed esegue pipeline personalizzate per l'identificazione di hit a partire da query in linguaggio naturale. MADD impiega quattro agenti coordinati per gestire sotto-attività chiave nella generazione e screening *de novo* di composti. Valutiamo MADD in sette casi di scoperta di farmaci e ne dimostriamo le prestazioni superiori rispetto alle soluzioni esistenti basate su LLM. Utilizzando MADD, siamo pionieri nell'applicare un approccio di drug design guidato dall'IA a cinque target biologici e rendiamo pubblicamente disponibili le molecole hit identificate. Infine, introduciamo un nuovo benchmark di coppie query-molecola e punteggi di docking per oltre tre milioni di composti, per contribuire al futuro agentico del drug design.
La generazione di video basata su modelli di diffusione può produrre video realistici, tuttavia i condizionamenti basati su immagini e testo esistenti non consentono un controllo preciso del movimento. I metodi precedenti per la sintesi condizionata al movimento richiedono tipicamente fine-tuning specifico per il modello, operazione computazionalmente costosa e limitante. Introduciamo Time-to-Move (TTM), un framework plug-and-play, che non richiede training, per la generazione di video controllata da movimento e aspetto con modelli di diffusione image-to-video (I2V). La nostra intuizione chiave è utilizzare animazioni di riferimento approssimate ottenute attraverso manipolazioni user-friendly come il taglia-e-trasporta o la riproiezione basata sulla profondità. Ispirandoci all'uso di SDEdit per suggerimenti di layout approssimati nell'editing di immagini, trattiamo le animazioni grezze come indicazioni di movimento approssimative e adattiamo il meccanismo al dominio video. Preserviamo l'aspetto con il condizionamento dell'immagine e introduciamo il denoising a doppio orologio (dual-clock denoising), una strategia dipendente dalla regione che impone un forte allineamento nelle regioni specificate per il movimento, consentendo flessibilità altrove, bilanciando fedeltà all'intento dell'utente con dinamiche naturali. Questa modifica leggera del processo di campionamento non comporta costi aggiuntivi di training o runtime ed è compatibile con qualsiasi architettura di base. Esperimenti estesi su benchmark di movimento di oggetti e telecamera dimostrano che TTM eguaglia o supera le baseline esistenti basate su training in realismo e controllo del movimento. Oltre a ciò, TTM introduce una capacità unica: il controllo preciso dell'aspetto attraverso il condizionamento a livello di pixel, superando i limiti dei prompt testuali. Visita la nostra pagina del progetto per esempi video e codice: https://time-to-move.github.io/.
Presentiamo Motif-2-12.7B, un nuovo modello fondante open-weight che spinge in avanti la frontiera dell'efficienza dei grandi modelli linguistici combinando innovazioni architetturali con ottimizzazioni a livello di sistema. Progettato per una comprensione linguistica scalabile e una robusta generalizzazione delle istruzioni con budget computazionali limitati, Motif-2-12.7B si basa su Motif-2.6B integrando l'Attenzione Differenziale Raggruppata (Grouped Differential Attention, GDA), che migliora l'efficienza rappresentativa separando i percorsi attentivi per il segnale e per il controllo del rumore. Il modello è stato pre-addestrato su 5,5 trilioni di token che coprono diversi ambiti linguistici, matematici, scientifici e di programmazione, utilizzando un pianificatore dei dati guidato da un curriculum che modifica gradualmente il rapporto di composizione dei dati. Il sistema di addestramento sfrutta l'ottimizzatore MuonClip insieme a kernel ad alte prestazioni personalizzati, inclusi la funzione di attivazione PolyNorm fusa e l'algoritmo Parallel Muon, ottenendo significativi guadagni in termini di velocità di elaborazione ed efficienza di memoria in ambienti distribuiti su larga scala. Il post-addestramento impiega una pipeline di fine-tuning supervisionato in tre fasi che migliora successivamente l'aderenza generale alle istruzioni, la comprensione compositiva e la precisione linguistica. Motif-2-12.7B dimostra prestazioni competitive su una vasta gamma di benchmark, mostrando come un dimensionamento architetturale ponderato e una progettazione ottimizzata dell'addestramento possano rivaleggiare con le capacità di modelli molto più grandi.
L'integrazione di strumenti esterni nei Large Language Model (LLM) consente loro di eseguire compiti complessi e multi-step. Tuttavia, l'apprendimento di strumenti è ostacolato dalle pipeline di dati sintetici statiche, in cui la generazione dei dati e l'addestramento del modello vengono eseguiti come due processi separati e non interattivi. Questo approccio non riesce a concentrarsi adattivamente sulle specifiche carenze di un modello e permette a etichette rumorose di persistere, degradando l'efficienza dell'addestramento. Introduciamo LoopTool, un framework di evoluzione dei dati completamente automatizzato e consapevole del modello, che chiude questo ciclo integrando strettamente la sintesi dei dati e l'addestramento del modello. LoopTool affina iterativamente sia i dati che il modello attraverso tre moduli sinergici: (1) il Greedy Capability Probing (GCP) diagnostica le capacità padroneggiate e fallite dal modello; (2) il Judgement-Guided Label Verification (JGLV) utilizza un modello giudice open-source per individuare e correggere gli errori di annotazione, purificando progressivamente il dataset; e (3) l'Error-Driven Data Expansion (EDDE) genera nuovi campioni impegnativi basandosi sugli errori identificati. Questo processo a ciclo chiuso opera all'interno di un ecosistema economico e open-source, eliminando la dipendenza da costose API closed-source. Gli esperimenti mostrano che il nostro modello da 8B addestrato con LoopTool supera significativamente il suo generatore di dati da 32B e raggiunge nuovi risultati state-of-the-art sui benchmark BFCL-v3 e ACEBench per la sua scala. Il nostro lavoro dimostra che pipeline di dati a ciclo chiuso e auto-affinanti possono potenziare notevolmente le capacità di utilizzo di strumenti degli LLM.
I modelli Vision-Linguaggio-Azione (VLA) hanno mostrato un forte potenziale per la manipolazione robotica generica, ma la loro dipendenza da dimostrazioni esperte limita la loro capacità di apprendere dai fallimenti e di eseguire autocorrezioni. L'apprendimento per rinforzo (RL) affronta questi problemi attraverso interazioni di automiglioramento con l'ambiente fisico, ma soffre di un'elevata complessità campionaria sui robot reali. Introduciamo la World-Model-based Policy Optimization (WMPO), un framework principiato per il RL VLA on-policy senza interagire con l'ambiente reale. A differenza dei modelli del mondo latenti ampiamente utilizzati, la WMPO si concentra su predizioni basate sui pixel che allineano le traiettorie "immaginate" con le caratteristiche VLA pre-addestrate con immagini di scala web. Fondamentalmente, la WMPO consente alla politica di eseguire un GRPO on-policy che fornisce prestazioni più robuste rispetto ai metodi off-policy spesso utilizzati. Esperimenti estensivi in ambienti sia simulati che robotici reali dimostrano che la WMPO (i) migliora sostanzialmente l'efficienza campionaria, (ii) raggiunge prestazioni complessive superiori, (iii) mostra comportamenti emergenti come l'autocorrezione e (iv) dimostra capacità robuste di generalizzazione e apprendimento continuo.
Lo sviluppo dell'interfaccia utente (UI) richiede la traduzione di mockup di design in codice funzionale, un processo che rimane ripetitivo e laborioso. Sebbene i recenti Modelli Visione-Linguaggio (VLM) automatizzino la generazione da UI a codice, essi generano solo layout HTML/CSS/JavaScript statici, privi di interattività. Per affrontare questo problema, proponiamo WebVIA, il primo framework agente per la generazione e validazione interattiva da UI a codice. Il framework comprende tre componenti: 1) un agente di esplorazione per acquisire screenshot dell'UI in stati multipli; 2) un modello UI2Code che genera codice interattivo eseguibile; 3) un modulo di validazione che verifica l'interattività. Gli esperimenti dimostrano che WebVIA-Agent raggiunge un'esplorazione dell'UI più stabile e accurata rispetto ad agenti generici (ad esempio, Gemini-2.5-Pro). Inoltre, i nostri modelli WebVIA-UI2Code messi a punto mostrano miglioramenti sostanziali nella generazione di codice HTML/CSS/JavaScript eseguibile e interattivo, superando le loro controparti base in benchmark sia interattivi che statici di UI2Code. Il nostro codice e i nostri modelli sono disponibili su https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato capacità notevoli nei compiti di risposta visivo-linguistici. Nonostante i loro punti di forza, questi modelli incontrano spesso difficoltà nel raggiungere compiti di ragionamento complesso come la risoluzione di problemi matematici. I lavori precedenti si sono concentrati sul fine-tuning su dataset matematici specializzati. Tuttavia, questi dataset sono tipicamente distillati direttamente da modelli insegnanti, che catturano solo pattern di ragionamento statici, lasciando divari sostanziali rispetto ai modelli studente. Questa dipendenza da dataset fissi derivati da insegnanti non solo limita la capacità del modello di adattarsi a domande nuove o più intricate che vanno oltre i confini dei dati di addestramento, ma manca anche della profondità iterativa necessaria per una generalizzazione robusta. Per superare queste limitazioni, proponiamo \method, un framework di Auto-Evoluzione Matematica per MLLM. A differenza dei paradigmi tradizionali di fine-tuning one-shot, \method affina iterativamente il modello attraverso cicli di inferenza, riflessione e feedback basato su ricompense. Nello specifico, sfruttiamo il fine-tuning iterativo incorporando percorsi di ragionamento corretti derivati dall'inferenza dello stadio precedente e integrando riflessioni da un modello di ricompensa per esiti specializzato. Per verificare l'efficacia di \method, lo valutiamo su una serie di benchmark impegnativi, dimostrando significativi miglioramenti delle prestazioni rispetto ai modelli base. Degno di nota, i nostri risultati sperimentali su MathVL-test superano il principale modello di ragionamento matematico multimodale open-source, QVQ. Il nostro codice e i nostri modelli sono disponibili all'indirizzo https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
Gli agenti web faticano ad adattarsi a nuovi siti web a causa della scarsità di compiti specifici e dimostrazioni relative all'ambiente. Recenti lavori hanno esplorato la generazione di dati sintetici per affrontare questa sfida, ma soffrono di problemi di qualità dei dati: i compiti sintetizzati contengono allucinazioni che non possono essere eseguiti, e le traiettorie raccolte sono rumorose con azioni ridondanti o disallineate. In questo articolo, proponiamo SynthAgent, un framework di supervisione completamente sintetico che mira a migliorare la qualità dei dati sintetici attraverso un doppio raffinamento sia dei compiti che delle traiettorie. Il nostro approccio inizia sintetizzando compiti diversificati attraverso un'esplorazione categorizzata degli elementi web, garantendo una copertura efficiente dell'ambiente target. Durante la raccolta delle traiettorie, affiniamo i compiti quando vengono rilevati conflitti con le osservazioni reali, mitigando le allucinazioni mantenendo al contempo la coerenza del compito. Dopo la raccolta, conduciamo un raffinamento delle traiettorie con un contesto globale per mitigare potenziali rumori o disallineamenti. Infine, addestriamo tramite transfer learning agenti web open-source sui dati sintetici raffinati per adattarli all'ambiente target. I risultati sperimentali dimostrano che SynthAgent supera i metodi esistenti di dati sintetici, convalidando l'importanza di una supervisione sintetica di alta qualità. Il codice sarà pubblicamente disponibile all'indirizzo https://github.com/aiming-lab/SynthAgent.
I modelli di diffusione hanno dimostrato elevate prestazioni generative quando utilizzano metodi di guida come la guida senza classificatore (CFG), che migliorano la qualità dell'output modificando la traiettoria di campionamento. Questi metodi generalmente migliorano un output target degradando intenzionalmente un altro, spesso l'output incondizionato, utilizzando funzioni di perturbazione euristiche come il mixing d'identità o condizioni sfocate. Tuttavia, questi approcci mancano di una base principiata e si basano su distorsioni progettate manualmente. In questo lavoro, proponiamo l'Adversarial Sinkhorn Attention Guidance (ASAG), un metodo innovativo che reinterpreta i punteggi di attenzione nei modelli di diffusione attraverso la lente del trasporto ottimo e interrompe intenzionalmente il costo del trasporto tramite l'algoritmo di Sinkhorn. Invece di corrompere ingenuamente il meccanismo di attenzione, l'ASAG inietta un costo avversario all'interno degli strati di self-attention per ridurre la similarità pixel-wise tra query e chiavi. Questa degradazione deliberata indebolisce gli allineamenti attentivi fuorvianti e porta a un miglioramento della qualità del campione condizionato e incondizionato. L'ASAG mostra miglioramenti consistenti nella diffusione text-to-image e potenzia la controllabilità e la fedeltà in applicazioni downstream come IP-Adapter e ControlNet. Il metodo è leggero, plug-and-play e migliora l'affidabilità senza richiedere alcuna riaddestramento del modello.
Gli strumenti di codifica agentivi, come OpenAI Codex, Claude Code e Cursor, stanno trasformando il panorama dell'ingegneria del software. Questi sistemi basati sull'intelligenza artificiale funzionano come membri autonomi di un team, capaci di pianificare ed eseguire compiti di sviluppo complessi. Gli agenti sono diventati partecipanti attivi nel refactoring, un pilastro dello sviluppo software sostenibile volto a migliorare la qualità interna del codice senza alterarne il comportamento osservabile. Nonostante la loro crescente adozione, si riscontra una grave carenza di comprensione empirica riguardo a come il refactoring agentivo venga utilizzato nella pratica, a come si confronti con il refactoring guidato dall'uomo e a quale impatto abbia sulla qualità del codice. Per colmare questa lacuna empirica, presentiamo uno studio su larga scala dei refactoring generati da agenti di IA in progetti Java open-source del mondo reale, analizzando 15.451 istanze di refactoring across 12.256 pull request e 14.988 commit derivati dal dataset AIDev. La nostra analisi empirica mostra che il refactoring è un'attività comune e intenzionale in questo paradigma di sviluppo, con gli agenti che prendono di mira esplicitamente il refactoring nel 26,1% dei commit. L'analisi dei tipi di refactoring rivela che gli sforzi agentivi sono dominati da modifiche di basso livello orientate alla coerenza, come Change Variable Type (11,8%), Rename Parameter (10,4%) e Rename Variable (8,5%), riflettendo una preferenza per miglioramenti localizzati rispetto ai cambiamenti di design di alto livello comuni nel refactoring umano. Inoltre, le motivazioni alla base del refactoring agentivo si concentrano in modo schiacciante su preoccupazioni di qualità interna, con manutenibilità (52,5%) e leggibilità (28,1%). Inoltre, la valutazione quantitativa delle metriche di qualità del codice mostra che il refactoring agentivo produce miglioramenti piccoli ma statisticamente significativi nelle metriche strutturali, in particolare per i cambiamenti di medio livello, riducendo le dimensioni e la complessità delle classi (ad esempio, Class LOC mediana Δ = -15,25).
I modelli linguistici mostrano notevoli capacità di generazione del linguaggio naturale, ma rimangono inclini ad allucinazioni, producendo informazioni fattualmente errate nonostante generino risposte sintatticamente coerenti. Questo studio introduce il Licensing Oracle, una soluzione architetturale progettata per contrastare le allucinazioni nei modelli linguistici applicando vincoli di verità attraverso la validazione formale rispetto a grafi di conoscenza strutturati. A differenza degli approcci statistici che si basano su scalabilità dei dati o fine-tuning, il Licensing Oracle incorpora un passo di validazione deterministico nel processo generativo del modello, garantendo che vengano prodotte solo affermazioni fattualmente accurate. Abbiamo valutato l'efficacia del Licensing Oracle attraverso esperimenti comparandolo con diversi metodi all'avanguardia, inclusi la generazione baseline di modelli linguistici, il fine-tuning per il richiamo fattuale, il fine-tuning per il comportamento di astensione e la generazione aumentata dal retrieval (RAG). I nostri risultati dimostrano che, sebbene RAG e il fine-tuning migliorino le prestazioni, non eliminano le allucinazioni. Al contrario, il Licensing Oracle ha raggiunto una precisione di astensione perfetta (AP = 1.0) e zero risposte false (FAR-NE = 0.0), garantendo che venissero generate solo affermazioni valide con un'accuratezza dell'89.1% nelle risposte fattuali. Questo lavoro mostra che innovazioni architetturali come il Licensing Oracle offrono una soluzione necessaria e sufficiente per le allucinazioni in domini con rappresentazioni di conoscenza strutturata, fornendo garanzie che i metodi statistici non possono eguagliare. Sebbene il Licensing Oracle sia specificamente progettato per affrontare le allucinazioni in domini basati su fatti, il suo framework getta le basi per una generazione vincolata alla verità nei futuri sistemi di IA, tracciando una nuova strada verso modelli affidabili e epistemicamente fondati.