Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Qwen-Image, un modello di base per la generazione di immagini della serie Qwen che raggiunge progressi significativi nel rendering complesso di testo e nell'editing preciso delle immagini. Per affrontare le sfide del rendering complesso di testo, progettiamo una pipeline di dati completa che include la raccolta su larga scala, il filtraggio, l'annotazione, la sintesi e il bilanciamento dei dati. Inoltre, adottiamo una strategia di addestramento progressivo che inizia con il rendering da non-testo a testo, evolve da input testuali semplici a complessi e scala gradualmente fino a descrizioni a livello di paragrafo. Questo approccio di apprendimento curriculare migliora sostanzialmente le capacità native di rendering del testo del modello. Di conseguenza, Qwen-Image non solo si comporta eccezionalmente bene con lingue alfabetiche come l'inglese, ma raggiunge anche progressi notevoli con lingue logografiche più impegnative come il cinese. Per migliorare la coerenza nell'editing delle immagini, introduciamo un paradigma di addestramento multi-task migliorato che incorpora non solo i tradizionali task di testo-immagine (T2I) e testo-immagine-immagine (TI2I), ma anche la ricostruzione immagine-immagine (I2I), allineando efficacemente le rappresentazioni latenti tra Qwen2.5-VL e MMDiT. Inoltre, alimentiamo separatamente l'immagine originale in Qwen2.5-VL e nell'encoder VAE per ottenere rispettivamente rappresentazioni semantiche e ricostruttive. Questo meccanismo di doppia codifica consente al modulo di editing di bilanciare la coerenza semantica con la fedeltà visiva. Qwen-Image raggiunge prestazioni all'avanguardia, dimostrando forti capacità sia nella generazione che nell'editing delle immagini su più benchmark.
La generazione aumentata da recupero (RAG) su documenti lunghi comporta tipicamente la suddivisione del testo in segmenti più piccoli, che fungono da unità di base per il recupero. Tuttavia, a causa delle dipendenze presenti nel documento originale, le informazioni contestuali sono spesso essenziali per interpretare accuratamente ciascun segmento. Per affrontare questo problema, lavori precedenti hanno esplorato la codifica di finestre contestuali più ampie per produrre embedding per segmenti più lunghi. Nonostante questi sforzi, i miglioramenti nel recupero e nelle attività downstream rimangono limitati. Ciò è dovuto a (1) i segmenti più lunghi mettono a dura prova la capacità dei modelli di embedding a causa della maggiore quantità di informazioni che devono codificare, e (2) molte applicazioni reali richiedono ancora la restituzione di evidenze localizzate a causa di vincoli sulla larghezza di banda del modello o umana. Proponiamo un approccio alternativo a questa sfida rappresentando i segmenti brevi in modo che siano condizionati da una finestra contestuale più ampia per migliorare le prestazioni di recupero, ovvero situando il significato di un segmento all'interno del suo contesto. Dimostriamo inoltre che i modelli di embedding esistenti non sono adeguatamente attrezzati per codificare efficacemente tale contesto situato, e quindi introduciamo un nuovo paradigma di addestramento e sviluppiamo i modelli di embedding situati (SitEmb). Per valutare il nostro metodo, abbiamo curato un dataset di recupero di trame di libri specificamente progettato per valutare le capacità di recupero situato. Su questo benchmark, il nostro modello SitEmb-v1 basato su BGE-M3 supera sostanzialmente i modelli di embedding all'avanguardia, inclusi diversi con fino a 7-8 miliardi di parametri, con solo 1 miliardo di parametri. Il nostro modello SitEmb-v1.5 da 8 miliardi di parametri migliora ulteriormente le prestazioni di oltre il 10% e mostra risultati solidi in diverse lingue e in diverse applicazioni downstream.
La modellazione di cellule virtuali rappresenta una frontiera emergente all'intersezione tra intelligenza artificiale e biologia, con l'obiettivo di prevedere quantità come le risposte a diverse perturbazioni in modo quantitativo. Tuttavia, costruire autonomamente modelli computazionali per cellule virtuali è impegnativo a causa della complessità dei sistemi biologici, dell'eterogeneità delle modalità di dati e della necessità di competenze specifiche del dominio in più discipline. Qui presentiamo CellForge, un sistema agentico che sfrutta un framework multi-agente per trasformare direttamente i dataset biologici e gli obiettivi di ricerca presentati in modelli computazionali ottimizzati per cellule virtuali. Più specificamente, dati solo dati grezzi multi-omici a singola cellula e descrizioni del compito come input, CellForge produce sia un'architettura di modello ottimizzata che codice eseguibile per l'addestramento di modelli di cellule virtuali e l'inferenza. Il framework integra tre moduli principali: Analisi del Compito per la caratterizzazione del dataset presentato e il recupero della letteratura pertinente, Progettazione del Metodo, dove agenti specializzati sviluppano collaborativamente strategie di modellazione ottimizzate, ed Esecuzione dell'Esperimento per la generazione automatizzata del codice. Gli agenti nel modulo di Progettazione sono separati in esperti con prospettive diverse e un moderatore centrale, e devono scambiare collaborativamente soluzioni fino a raggiungere un consenso ragionevole. Dimostriamo le capacità di CellForge nella previsione di perturbazioni a singola cellula, utilizzando sei dataset diversi che includono knockout genici, trattamenti farmacologici e stimolazioni citochiniche attraverso più modalità. CellForge supera costantemente i metodi all'avanguardia specifici per il compito. Nel complesso, CellForge dimostra come l'interazione iterativa tra agenti LLM con prospettive diverse fornisca soluzioni migliori rispetto all'affrontare direttamente una sfida di modellazione. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/gersteinlab/CellForge.
I modelli di ragionamento eccellono nella risoluzione di problemi complessi, ma mostrano un preoccupante compromesso tra capacità di ragionamento e abilità di seguire le istruzioni. Gli approcci esistenti per migliorare il rispetto delle istruzioni si basano su modelli esterni più potenti, creando colli di bottiglia metodologici e limitazioni pratiche, tra cui costi più elevati e vincoli di accessibilità. Proponiamo un framework di apprendimento per rinforzo auto-supervisionato che sfrutta i segnali interni dei modelli di ragionamento per migliorare le capacità di seguire le istruzioni senza supervisione esterna. Esperimenti estensivi dimostrano che il nostro framework migliora significativamente le capacità di seguire le istruzioni mantenendo le prestazioni di ragionamento, offrendo un approccio scalabile e conveniente per migliorare il rispetto delle istruzioni nei modelli di ragionamento. I dati e il codice sono disponibili pubblicamente all'indirizzo https://github.com/Rainier-rq/verl-if.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un notevole successo in molti ambiti, ma la loro integrazione nelle applicazioni di cybersecurity rimane limitata a causa della mancanza di dati di cybersecurity generici, della complessità rappresentazionale e delle preoccupazioni relative alla sicurezza e alla regolamentazione. Per colmare questa lacuna, abbiamo precedentemente introdotto Foundation-Sec-8B, un LLM focalizzato sulla cybersecurity adatto per il fine-tuning su task downstream. Tuttavia, quel modello non era progettato per interazioni in stile chat o per il seguimento di istruzioni. In questo report, rilasciamo Foundation-Sec-8B-Instruct: un modello specificamente addestrato per dialoghi generici di cybersecurity. Basato su Foundation-Sec-8B, combina conoscenze specifiche del dominio con capacità di seguimento delle istruzioni, abilità conversazionali e allineamento con le preferenze umane per produrre risposte di alta qualità e pertinenti. Valutazioni complete dimostrano che Foundation-Sec-8B-Instruct supera Llama 3.1-8B-Instruct in una gamma di task di cybersecurity, eguagliando le sue prestazioni nel seguimento delle istruzioni. È anche competitivo con GPT-4o-mini nelle attività di intelligence sulle minacce informatiche e nel seguimento delle istruzioni. Prevediamo che Foundation-Sec-8B-Instruct diventi un assistente indispensabile nei flussi di lavoro quotidiani dei professionisti della cybersecurity. Rilasciamo il modello pubblicamente all'indirizzo https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct.
La maggior parte delle proteine umane rimane non bersagliata da farmaci, con oltre il 96% delle proteine umane non sfruttate da terapie approvate. Sebbene lo screening virtuale basato sulla struttura prometta di espandere il proteoma bersagliabile, i metodi esistenti mancano di precisione a livello atomico e non riescono a prevedere l'affinità di legame, limitando l'impatto traslazionale. Presentiamo AuroBind, un framework scalabile per lo screening virtuale che ottimizza un modello strutturale personalizzato a livello atomico su dati chemiogenomici su scala milioni. AuroBind integra l'ottimizzazione diretta delle preferenze, l'auto-distillazione da complessi ad alta confidenza e una strategia di accelerazione insegnante-studente per prevedere congiuntamente le strutture legate ai ligandi e l'affinità di legame. I modelli proposti superano i modelli all'avanguardia su benchmark strutturali e funzionali, consentendo uno screening 100.000 volte più veloce su librerie di composti ultra-ampie. In uno screening prospettico su dieci target rilevanti per malattie, AuroBind ha raggiunto tassi di successo sperimentali del 7-69%, con i composti migliori che raggiungono potenze da sub-nanomolari a picomolari. Per i GPCR orfani GPR151 e GPR160, AuroBind ha identificato sia agonisti che antagonisti con tassi di successo del 16-30%, e saggi funzionali hanno confermato la modulazione di GPR160 in modelli di cancro al fegato e alla prostata. AuroBind offre un framework generalizzabile per l'apprendimento struttura-funzione e lo screening molecolare ad alto rendimento, colmando il divario tra la previsione strutturale e la scoperta terapeutica.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno guidato un notevole avanzamento nella comprensione e generazione omni-modale. Tuttavia, l'addestramento di LLM omni-modali rimane una sfida significativa a causa delle architetture eterogenee richieste per elaborare diverse modalità, che necessitano di un design di sistema sofisticato per un addestramento su larga scala efficiente. I framework esistenti tipicamente intrecciano la definizione del modello con la logica parallela, comportando una scalabilità limitata e un notevole sovraccarico ingegneristico per l'addestramento end-to-end omni-modale. % Presentiamo \veomni, un framework di addestramento modulare ed efficiente per accelerare lo sviluppo di LLM omni-modali. \veomni introduce ricette distribuite centrate sul modello che disaccoppiano la comunicazione dal calcolo, abilitando un'efficiente parallelismo 3D su LLM omni-modali. \veomni include anche un'interfaccia di configurazione flessibile che supporta l'integrazione senza soluzione di continuità di nuove modalità con modifiche minime al codice. % Utilizzando \veomni, un modello omni-modale mixture-of-experts (MoE) con 30 miliardi di parametri può essere addestrato con una velocità di oltre 2.800 token/sec/GPU e scalare fino a lunghezze di contesto di 160K tramite parallelismo 3D su 128 GPU, dimostrando la sua superiore efficienza e scalabilità per l'addestramento di grandi LLM omni-modali.
I dataset su larga scala sono fondamentali per la ricerca e lo sviluppo nel campo dell'elaborazione del linguaggio naturale. Tuttavia, gli approcci attuali affrontano tre sfide principali: (1) la dipendenza da fonti con licenze ambigue che limitano l'uso, la condivisione e le opere derivate; (2) rilasci statici di dataset che impediscono i contributi della comunità e riducono la longevità; (3) processi di controllo della qualità limitati ai team di pubblicazione, senza sfruttare l'esperienza della comunità. Per affrontare queste limitazioni, introduciamo due contributi: l'approccio Dynaword e Danish Dynaword. L'approccio Dynaword è un framework per creare dataset su larga scala e aperti, che possono essere aggiornati continuamente attraverso la collaborazione della comunità. Danish Dynaword è un'implementazione concreta che valida questo approccio e ne dimostra il potenziale. Danish Dynaword contiene oltre quattro volte il numero di token rispetto a rilasci comparabili, è esclusivamente con licenza aperta e ha ricevuto numerosi contributi da parte di industria e ricerca. Il repository include test leggeri per garantire la formattazione, la qualità e la documentazione dei dati, stabilendo un framework sostenibile per i contributi continui della comunità e l'evoluzione del dataset.
Per operare efficacemente nel mondo reale, i robot devono integrare il ragionamento multimodale con la generazione precisa di azioni. Tuttavia, i modelli esistenti visione-linguaggio-azione (VLA) spesso sacrificano uno per l'altro, limitano le loro capacità ai dati di manipolazione specifici per il compito e soffrono di un oblio catastrofico delle capacità pre-addestrate di visione-linguaggio. Per colmare questa lacuna, introduciamo InstructVLA, un modello VLA end-to-end che preserva il ragionamento flessibile dei grandi modelli di visione-linguaggio (VLM) mentre offre prestazioni leader nella manipolazione. InstructVLA introduce un nuovo paradigma di addestramento, Vision-Language-Action Instruction Tuning (VLA-IT), che utilizza un addestramento multimodale con adattamento a miscela di esperti per ottimizzare congiuntamente il ragionamento testuale e la generazione di azioni su corpora VLM standard e su un dataset VLA-IT curato di 650K campioni. Su compiti in-domain SimplerEnv, InstructVLA raggiunge un miglioramento del 30,5% rispetto a SpatialVLA. Per valutare la generalizzazione, introduciamo SimplerEnv-Instruct, un benchmark di 80 compiti che richiede controllo a ciclo chiuso e comprensione di istruzioni di alto livello, dove supera un OpenVLA fine-tuned del 92% e un esperto di azioni assistito da GPT-4o del 29%. Inoltre, InstructVLA supera i VLM di riferimento su compiti multimodali e mostra una scalabilità al momento dell'inferenza sfruttando il ragionamento testuale per migliorare le prestazioni di manipolazione sia in ambienti simulati che nel mondo reale. Questi risultati dimostrano il potenziale di InstructVLA per un'interazione uomo-robot intuitiva e controllabile con un apprendimento efficiente delle politiche.
La compressione dei token visivi è fondamentale per i Modelli Linguistico-Visuali di Grande Scala (LVLMs) per elaborare in modo efficiente input ad alta risoluzione. I metodi esistenti, che tipicamente adottano rapporti di compressione fissi, non riescono ad adattarsi a scene di varia complessità, causando spesso una potatura imprecisa che scarta token visivi informativi e porta a un degrado delle prestazioni del modello. Per affrontare questo problema, introduciamo un framework di potatura dinamica, GlimpsePrune, ispirato alla cognizione umana. Questo approccio prende una "sbirciata" guidata dai dati e pota i token visivi irrilevanti in un singolo passaggio in avanti prima della generazione della risposta. Questo metodo pota il 92,6% dei token visivi mantenendo in media pienamente le prestazioni di riferimento nei task di VQA a risposta libera. Il ridotto costo computazionale consente anche un fine-tuning più efficace: una versione migliorata, GlimpsePrune+, raggiunge il 110% delle prestazioni di riferimento mantenendo un tasso di potatura altrettanto elevato. Il nostro lavoro apre una nuova strada per la costruzione di LVLMs più potenti ed efficienti.
I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) abilitano progressi nel ragionamento e nel decoding parallelo, ma soffrono di una complessità computazionale quadratica proibitiva e di un sovraccarico di memoria durante l'inferenza. Le attuali tecniche di caching accelerano il decoding memorizzando gli stati completi dei layer, ma impongono un uso sostanziale della memoria che limita le applicazioni con contesti lunghi. La nostra analisi dei pattern di attenzione nei dLLM rivela una persistente sparsità cross-layer, con token cruciali che rimangono salienti attraverso i passi di decoding e token a bassa rilevanza che restano irrilevanti, motivando un'evizione selettiva della cache. Proponiamo Sparse-dLLM, il primo framework senza training che integra l'evizione dinamica della cache con l'attenzione sparsa tramite un caching bidirezionale sparsificato ritardato. Sfruttando la stabilità della salienza dei token nel tempo, conserva i token critici ed elimina dinamicamente le voci non importanti di prefisso/suffisso utilizzando una strategia guidata dall'attenzione. Esperimenti estesi sulle serie LLaDA e Dream dimostrano che Sparse-dLLM raggiunge un throughput fino a 10 volte superiore rispetto ai dLLM standard, con prestazioni comparabili e costi di memoria massima simili, superando i metodi precedenti in termini di efficienza ed efficacia.
Presentiamo Voxlect, un nuovo benchmark per la modellazione di dialetti e lingue regionali a livello globale utilizzando modelli di base per il riconoscimento vocale. Nello specifico, riportiamo valutazioni complete del benchmark su varietà dialettali e linguistiche regionali in inglese, arabo, mandarino e cantonese, tibetano, lingue indiane, thai, spagnolo, francese, tedesco, portoghese brasiliano e italiano. Il nostro studio ha utilizzato oltre 2 milioni di espressioni di addestramento provenienti da 30 corpora vocali pubblicamente disponibili, forniti con informazioni dialettali. Valutiamo le prestazioni di diversi modelli di base per il riconoscimento vocale ampiamente utilizzati nella classificazione dei dialetti vocali. Analizziamo la robustezza dei modelli dialettali in condizioni rumorose e presentiamo un'analisi degli errori che evidenzia risultati di modellazione allineati con la continuità geografica. Oltre al benchmarking della classificazione dialettale, dimostriamo diverse applicazioni downstream abilitate da Voxlect. In particolare, mostriamo che Voxlect può essere applicato per arricchire i dataset esistenti di riconoscimento vocale con informazioni dialettali, consentendo un'analisi più dettagliata delle prestazioni ASR attraverso variazioni dialettali. Voxlect viene inoltre utilizzato come strumento per valutare le prestazioni dei sistemi di generazione vocale. Voxlect è disponibile pubblicamente con la licenza della famiglia RAIL all'indirizzo: https://github.com/tiantiaf0627/voxlect.
I Large Language Model (LLM) hanno ottenuto un successo notevole nei compiti di ingegneria del software quando addestrati con ambienti di runtime eseguibili, in particolare nella risoluzione di issue su GitHub. Tuttavia, tali ambienti di runtime sono spesso indisponibili in altri domini, specialmente nella cybersecurity, dove le configurazioni delle sfide e i contesti di esecuzione sono effimeri o limitati. Presentiamo Cyber-Zero, il primo framework senza runtime per sintetizzare traiettorie di agenti di alta qualità per addestrare LLM nel campo della cybersecurity. Cyber-Zero sfrutta writeup pubblicamente disponibili di CTF e utilizza simulazioni guidate da persona tramite LLM per ricostruire i comportamenti di runtime e generare sequenze di interazione realistiche e a lungo termine senza ambienti reali. Utilizzando le traiettorie sintetizzate da Cyber-Zero, addestriamo agenti basati su LLM che raggiungono miglioramenti di prestazioni assoluti fino al 13,1% rispetto ai modelli di base su tre importanti benchmark CTF: InterCode-CTF, NYU CTF Bench e Cybench. Il nostro modello migliore, Cyber-Zero-32B, stabilisce nuove prestazioni all'avanguardia tra i modelli open-weight, eguagliando le capacità di sistemi proprietari come DeepSeek-V3-0324 e Claude-3.5-Sonnet, offrendo al contempo una superiore convenienza economica, e dimostrando che la sintesi di traiettorie senza runtime può efficacemente democratizzare lo sviluppo di agenti di cybersecurity all'avanguardia.
L'attribuzione delle opere d'arte in generale e dei dipinti in particolare è sempre stata una questione rilevante nel campo dell'arte. L'avvento di potenti modelli di intelligenza artificiale in grado di generare e analizzare immagini crea nuove sfide per l'attribuzione dei dipinti. Da un lato, i modelli di IA possono creare immagini che imitano lo stile di un pittore, le quali potrebbero essere erroneamente attribuite, ad esempio, da altri modelli di IA. Dall'altro lato, i modelli di IA potrebbero non essere in grado di identificare correttamente l'artista per dipinti reali, portando gli utenti a effettuare attribuzioni errate. In questo articolo, entrambi i problemi vengono studiati sperimentalmente utilizzando modelli di IA all'avanguardia per la generazione e l'analisi di immagini su un ampio dataset contenente quasi 40.000 dipinti di 128 artisti. I risultati dimostrano che i modelli di linguaggio visivo hanno capacità limitate nel: 1) eseguire l'attribuzione delle opere e 2) identificare le immagini generate da IA. Poiché gli utenti si affidano sempre più alle query ai modelli di IA per ottenere informazioni, questi risultati evidenziano la necessità di migliorare le capacità dei modelli di linguaggio visivo per eseguire in modo affidabile l'attribuzione degli artisti e il rilevamento delle immagini generate da IA, al fine di prevenire la diffusione di informazioni errate.
I modelli di diffusione text-to-image hanno rivoluzionato la generazione di contenuti visivi, ma gli attuali meccanismi di sicurezza applicano standard uniformi che spesso non tengono conto delle preferenze individuali degli utenti. Questi modelli trascurano i diversi confini di sicurezza influenzati da fattori come età, salute mentale e credenze personali. Per affrontare questo problema, proponiamo il Personalized Safety Alignment (PSA), un framework che consente un controllo specifico dell'utente sui comportamenti di sicurezza nei modelli generativi. PSA integra profili utente personalizzati nel processo di diffusione, adattando il comportamento del modello per corrispondere alle preferenze di sicurezza individuali preservando la qualità dell'immagine. Introduciamo un nuovo dataset, Sage, che cattura le preferenze di sicurezza specifiche dell'utente e incorpora questi profili attraverso un meccanismo di cross-attention. Gli esperimenti dimostrano che PSA supera i metodi esistenti nella soppressione di contenuti dannosi e allinea meglio i contenuti generati con i vincoli dell'utente, ottenendo punteggi più alti in Win Rate e Pass Rate. Il nostro codice, dati e modelli sono disponibili pubblicamente all'indirizzo https://torpedo2648.github.io/PSAlign/.
I recenti progressi nella ricostruzione 3D densa hanno portato a significativi avanzamenti, ma il raggiungimento di una previsione geometrica unificata e accurata rimane una sfida importante. La maggior parte dei metodi esistenti si limita a prevedere una singola quantità geometrica a partire da immagini di input. Tuttavia, quantità geometriche come profondità, normali di superficie e mappe di punti sono intrinsecamente correlate, e la loro stima isolata spesso non garantisce coerenza, limitando così sia l'accuratezza che l'applicabilità pratica. Ciò ci motiva a esplorare un framework unificato che modelli esplicitamente l'accoppiamento strutturale tra diverse proprietà geometriche per consentire una regressione congiunta. In questo articolo, presentiamo Dens3R, un modello di base 3D progettato per la previsione densa geometrica congiunta e adattabile a un'ampia gamma di task downstream. Dens3R adotta un framework di addestramento in due fasi per costruire progressivamente una rappresentazione di mappa di punti che sia sia generalizzabile che intrinsecamente invariante. Nello specifico, progettiamo un'architettura leggera condivisa encoder-decoder e introduciamo un posizionamento interpolato rotazionale per mantenere il potere espressivo migliorando al contempo la robustezza agli input ad alta risoluzione. Integrando le caratteristiche di corrispondenza tra coppie di immagini con la modellazione dell'invarianza intrinseca, Dens3R regredisce accuratamente multiple quantità geometriche come normali di superficie e profondità, ottenendo una percezione geometrica coerente da input a vista singola a multi-vista. Inoltre, proponiamo una pipeline di post-elaborazione che supporta l'inferenza multi-vista geometricamente coerente. Esperimenti estensivi dimostrano le prestazioni superiori di Dens3R in vari task di previsione densa 3D e ne evidenziano il potenziale per applicazioni più ampie.
Presentiamo RoboMemory, un framework multi-memoria ispirato al cervello per l'apprendimento continuo in sistemi fisici incarnati, affrontando sfide critiche negli ambienti del mondo reale: apprendimento continuo, latenza della memoria multi-modulo, cattura delle correlazioni tra compiti e mitigazione dei loop infiniti nella pianificazione a ciclo chiuso. Basato sulle neuroscienze cognitive, integra quattro moduli principali: il Preprocessore delle Informazioni (simile al talamo), il Sistema di Memoria Incarnata a Lungo Termine (simile all'ippocampo), il Modulo di Pianificazione a Ciclo Chiuso (simile alla corteccia prefrontale) e l'Esecutore di Basso Livello (simile al cervelletto) per abilitare la pianificazione a lungo termine e l'apprendimento cumulativo. Il Sistema di Memoria Incarnata a Lungo Termine, centrale nel framework, allevia i problemi di velocità di inferenza nei framework di memoria complessi tramite aggiornamenti/recuperi paralleli tra i sottomoduli Spaziale, Temporale, Episodico e Semantico. Incorpora una Knowledge Graph (KG) dinamica e un design architettonico coerente per migliorare la consistenza e la scalabilità della memoria. Le valutazioni su EmbodiedBench mostrano che RoboMemory supera la baseline open-source (Qwen2.5-VL-72B-Ins) del 25% nella percentuale media di successo e supera lo State-of-the-Art (SOTA) closed-source (Claude3.5-Sonnet) del 5%, stabilendo un nuovo SOTA. Gli studi di ablazione convalidano i componenti chiave (critico, memoria spaziale, memoria a lungo termine), mentre il dispiegamento nel mondo reale conferma la sua capacità di apprendimento continuo con miglioramenti significativi nelle percentuali di successo su compiti ripetuti. RoboMemory allevia le sfide dell'alta latenza con scalabilità, servendo come riferimento fondamentale per l'integrazione di sistemi di memoria multi-modale nei robot fisici.
Il ridimensionamento al momento del test (Test-Time Scaling, TTS) migliora le prestazioni dei modelli linguistici di grandi dimensioni (Large Language Models, LLMs) allocando risorse computazionali aggiuntive durante l'inferenza. Tuttavia, la ricerca esistente si concentra principalmente sul TTS in compiti a stadio singolo, mentre molti problemi del mondo reale sono compiti complessi multi-stadio, composti da una sequenza di sottocompiti eterogenei, ciascuno dei quali richiede un LLM con capacità specifiche. Pertanto, studiamo un nuovo problema: il ridimensionamento computazionale ottimale al momento del test in compiti complessi multi-stadio, con l'obiettivo di selezionare modelli adatti e allocare budget per ogni sottocompito per massimizzare le prestazioni complessive. Il TTS in compiti multi-stadio introduce due sfide fondamentali: (i) Lo spazio di ricerca combinatorio delle allocazioni di modelli e budget, combinato con l'elevato costo dell'inferenza, rende impraticabile una ricerca a forza bruta. (ii) Le allocazioni ottimali di modelli e budget tra i sottocompiti sono interdipendenti, aumentando la complessità della ricerca computazionale ottimale. Per colmare questa lacuna, conduciamo ampi esperimenti pilota su quattro compiti in sei dataset, derivando tre intuizioni empiriche che caratterizzano il comportamento dei LLM in compiti complessi multi-stadio. Sulla base di queste intuizioni, proponiamo AgentTTS, un framework basato su agenti LLM che ricerca autonomamente allocazioni computazionali ottimali attraverso interazioni iterative guidate dal feedback con l'ambiente di esecuzione. I risultati sperimentali dimostrano che AgentTTS supera significativamente i metodi tradizionali e altri approcci basati su LLM in termini di efficienza di ricerca, mostrando inoltre una maggiore robustezza rispetto a dimensioni variabili del set di addestramento e una migliore interpretabilità.
Garantire un'esplorazione sufficiente rappresenta una sfida centrale nell'addestramento di agenti di meta-apprendimento per rinforzo (meta-RL) per risolvere ambienti nuovi. Le soluzioni convenzionali al dilemma esplorazione-sfruttamento introducono incentivi espliciti come la randomizzazione, bonus di incertezza o ricompense intrinseche per incoraggiare l'esplorazione. In questo lavoro, ipotizziamo che un agente addestrato esclusivamente per massimizzare un obiettivo avido (solo sfruttamento) possa comunque mostrare un comportamento esplorativo emergente, purché siano soddisfatte tre condizioni: (1) Struttura Ambientale Ricorrente, in cui l'ambiente presenta regolarità ripetibili che consentono all'esperienza passata di informare le scelte future; (2) Memoria dell'Agente, che permette all'agente di conservare e utilizzare i dati storici delle interazioni; e (3) Assegnazione del Credito a Lungo Termine, in cui l'apprendimento propaga i rendimenti su un arco temporale sufficiente affinché i benefici ritardati dell'esplorazione possano influenzare le decisioni attuali. Attraverso esperimenti in bandit multi-armato stocastici e gridworld temporalmente estesi, osserviamo che, quando sono presenti sia la struttura che la memoria, una politica addestrata su un obiettivo strettamente avido mostra un comportamento esplorativo orientato alla ricerca di informazioni. Dimostriamo inoltre, attraverso ablazioni controllate, che l'esplorazione emergente scompare se manca la struttura ambientale o la memoria dell'agente (Condizioni 1 e 2). Sorprendentemente, la rimozione dell'assegnazione del credito a lungo termine (Condizione 3) non impedisce sempre l'esplorazione emergente, un risultato che attribuiamo all'effetto pseudo-Thompson Sampling. Questi risultati suggeriscono che, con i giusti prerequisiti, esplorazione e sfruttamento non devono essere trattati come obiettivi ortogonali, ma possono emergere da un processo unificato di massimizzazione della ricompensa.
Le Quantum Support Vector Machines affrontano sfide di scalabilità a causa degli stati quantistici ad alta dimensionalità e delle limitazioni hardware. Proponiamo una pipeline quantistico-classica consapevole dell'embedding, che combina la distillazione k-means bilanciata per classi con gli embedding preaddestrati di Vision Transformer. La nostra scoperta chiave: gli embedding ViT abilitano in modo unico un vantaggio quantistico, ottenendo miglioramenti di accuratezza fino all'8,02% rispetto alle SVM classiche su Fashion-MNIST e del 4,42% su MNIST, mentre le feature CNN mostrano un degrado delle prestazioni. Utilizzando una simulazione di rete tensoriale a 16 qubit tramite cuTensorNet, forniamo la prima evidenza sistematica che il vantaggio del kernel quantistico dipende in modo critico dalla scelta dell'embedding, rivelando una sinergia fondamentale tra l'attenzione dei transformer e gli spazi delle feature quantistiche. Questo fornisce un percorso pratico per l'apprendimento automatico quantistico scalabile che sfrutta le moderne architetture neurali.
La generazione Text-to-Motion (T2M) mira a sintetizzare sequenze di movimento umano realistiche e semanticamente allineate a partire da descrizioni in linguaggio naturale. Tuttavia, gli approcci attuali affrontano una duplice sfida: i modelli generativi (ad esempio, i modelli di diffusione) soffrono di diversità limitata, accumulo di errori e implausibilità fisica, mentre i metodi di Generazione Aumentata con Recupero (RAG) presentano inerzia di diffusione, collasso parziale dei modi e artefatti asincroni. Per superare queste limitazioni, proponiamo ReMoMask, un framework unificato che integra tre innovazioni chiave: 1) Un Modello Bidirezionale Momentum Text-Motion disaccoppia la scala dei campioni negativi dalla dimensione del batch tramite code di momentum, migliorando sostanzialmente la precisione del recupero cross-modale; 2) Un meccanismo di Attenzione Semantica Spazio-temporale applica vincoli biomeccanici durante la fusione a livello di parti per eliminare gli artefatti asincroni; 3) La Guida RAG-Classier-Free incorpora una generazione incondizionata minore per migliorare la generalizzazione. Basato su RVQ-VAE di MoMask, ReMoMask genera in modo efficiente movimenti temporalmente coerenti in un numero minimo di passi. Esperimenti estensivi su benchmark standard dimostrano le prestazioni all'avanguardia di ReMoMask, con un miglioramento del 3,88% e del 10,97% nei punteggi FID su HumanML3D e KIT-ML, rispettivamente, rispetto al precedente metodo SOTA RAG-T2M. Codice: https://github.com/AIGeeksGroup/ReMoMask. Sito web: https://aigeeksgroup.github.io/ReMoMask.
Nei grandi modelli linguistici, la necessità di modellare contesti lunghi è in costante aumento, ma la complessità quadratica del meccanismo standard di self-attention spesso rappresenta un collo di bottiglia. Sebbene i meccanismi esistenti di attenzione sparsa abbiano migliorato l'efficienza, possono comunque incontrare problemi come pattern statici o perdita di informazioni. Introduciamo un meccanismo di attenzione sparsa con maschera dinamica addestrabile, Dynamic Mask Attention (DMA), che sfrutta efficacemente la sparsità consapevole del contenuto e della posizione. DMA raggiunge questo obiettivo attraverso due innovazioni chiave: in primo luogo, genera dinamicamente maschere sparse consapevoli del contenuto dalle rappresentazioni dei valori, consentendo al modello di identificare e concentrarsi in modo adattivo sulle informazioni critiche. In secondo luogo, implementa un calcolo di attenzione sparsa consapevole della posizione che salta efficacemente le regioni di calcolo non necessarie. Questo design a doppia sparsità consente al modello di ridurre significativamente la complessità computazionale delle informazioni importanti mantenendo al contempo l'informazione completa, raggiungendo un eccellente equilibrio tra fedeltà delle informazioni ed efficienza computazionale. Abbiamo verificato le prestazioni di DMA attraverso esperimenti completi. Studi comparativi dimostrano che DMA supera l'attenzione multi-testa, l'attenzione a finestra scorrevole, l'attenzione latente multi-testa e l'attenzione sparsa nativa in termini di perplessità nelle impostazioni della Chinchilla Scaling Law. Inoltre, in impegnativi compiti di richiamo associativo multi-query, DMA dimostra prestazioni e efficienza superiori rispetto a questi metodi. Crucialmente, nella valutazione di un modello con 1,7 miliardi di parametri, DMA supera significativamente l'attenzione multi-testa sia nelle prestazioni standard dei benchmark che nel complesso compito di "ago in un pagliaio". Questi risultati sperimentali evidenziano la sua capacità di bilanciare efficacemente l'efficienza del modello e la capacità di modellare contesti lunghi.
Indaghiamo se indicatori socio-economici come la ricchezza familiare lascino tracce recuperabili nelle immagini satellitari (che catturano caratteristiche fisiche) e nei testi provenienti da Internet (che riflettono narrazioni storiche/economiche). Utilizzando i dati del Demographic and Health Survey (DHS) provenienti da quartieri africani, associamo immagini Landsat a descrizioni testuali generate da LLM condizionate su località/anno e testi recuperati da un agente di ricerca AI da fonti web. Sviluppiamo un framework multimodale che predice la ricchezza familiare (International Wealth Index) attraverso cinque pipeline: (i) modello di visione sulle immagini satellitari, (ii) LLM che utilizza solo località/anno, (iii) agente AI che cerca/sintetizza testi web, (iv) codificatore congiunto immagine-testo, (v) ensemble di tutti i segnali. Il nostro framework produce tre contributi. Primo, la fusione di visione e testo da agente/LLM supera i baseline basati solo sulla visione nella previsione della ricchezza (ad esempio, R-quadro di 0.77 vs. 0.63 su divisioni out-of-sample), con la conoscenza interna dell'LLM che si dimostra più efficace rispetto ai testi recuperati dall'agente, migliorando la robustezza nella generalizzazione out-of-country e out-of-time. Secondo, troviamo una convergenza rappresentativa parziale: gli embedding fusi dalle modalità visione/linguaggio correlano moderatamente (similarità coseno mediana di 0.60 dopo l'allineamento), suggerendo un codice latente condiviso di benessere materiale pur mantenendo dettagli complementari, in linea con l'Ipotesi della Rappresentazione Platonica. Sebbene i testi generati solo da LLM superino i dati recuperati dall'agente, sfidando la nostra Ipotesi della Novità Indotta dall'Agente, modesti guadagni dalla combinazione dei dati dell'agente in alcune divisioni supportano debolmente l'idea che le informazioni raccolte dall'agente introducano strutture rappresentative uniche non completamente catturate dalla conoscenza statica dell'LLM. Terzo, rilasciamo un dataset multimodale su larga scala che comprende più di 60.000 cluster DHS collegati a immagini satellitari, descrizioni generate da LLM e testi recuperati dall'agente.
Il ricco panorama linguistico del mondo arabo è caratterizzato da un significativo divario tra l'Arabo Standard Moderno (MSA), la lingua della comunicazione formale, e i vari dialetti regionali utilizzati nella vita quotidiana. Questa diglossia rappresenta una sfida formidabile per l'elaborazione del linguaggio naturale, in particolare per la traduzione automatica. Questo articolo introduce SHAMI-MT, un sistema di traduzione automatica bidirezionale specificamente progettato per colmare il divario comunicativo tra l'MSA e il dialetto siriano. Presentiamo due modelli specializzati, uno per la traduzione da MSA a Shami e un altro da Shami a MSA, entrambi basati sull'architettura all'avanguardia AraT5v2-base-1024. I modelli sono stati perfezionati sul dataset completo Nabra e valutati rigorosamente su dati non visti del corpus MADAR. Il nostro modello MSA-to-Shami ha ottenuto un punteggio di qualità medio eccezionale di 4.01 su 5.0 quando valutato dal modello OPENAI GPT-4.1, dimostrando la sua capacità di produrre traduzioni non solo accurate ma anche autenticamente dialettali. Questo lavoro fornisce uno strumento cruciale e ad alta fedeltà per una coppia linguistica precedentemente poco servita, avanzando il campo della traduzione dialettale araba e offrendo applicazioni significative nella localizzazione dei contenuti, nel patrimonio culturale e nella comunicazione interculturale.
I grandi modelli linguistici hanno dimostrato capacità notevoli nei compiti di ragionamento matematico complesso, ma inevitabilmente generano errori durante soluzioni a più passaggi. I Modelli di Ricompensa a Livello di Processo (PRM) hanno mostrato grande potenziale fornendo supervisione e valutazione ad ogni passaggio intermedio, migliorando così efficacemente le capacità di ragionamento dei modelli. Tuttavia, l'addestramento di PRM efficaci richiede dati di ricompensa di processo di alta qualità, eppure i metodi esistenti per costruire tali dati sono spesso laboriosi o inefficienti. In questo articolo, proponiamo un framework guidato dall'incertezza per la costruzione automatizzata di dati di ricompensa di processo, che comprende sia i processi di generazione che di annotazione dei dati per i PRM. Inoltre, identifichiamo i limiti sia del voto a maggioranza che dei PRM, e introduciamo due metodi generici di aggregazione dell'output consapevoli dell'incertezza: Hybrid Majority Reward Vote e Weighted Reward Frequency Vote, che combinano i punti di forza del voto a maggioranza con i PRM. Esperimenti estesi su ProcessBench, MATH e GSMPlus dimostrano l'efficacia e l'efficienza del framework proposto per la costruzione di dati PRM, e mostrano che i due metodi di aggregazione dell'output migliorano ulteriormente le capacità di ragionamento matematico attraverso diversi PRM. Il codice e i dati saranno pubblicamente disponibili su https://github.com/Jiuzhouh/UnPRM.