Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione aumentata dal recupero multi-step (RAG) è diventata una strategia ampiamente adottata per potenziare i grandi modelli linguistici (LLM) in compiti che richiedono una comprensione globale e un ragionamento intensivo. Molti sistemi RAG incorporano un modulo di memoria di lavoro per consolidare le informazioni recuperate. Tuttavia, le progettazioni di memoria esistenti funzionano principalmente come archivi passivi che accumulano fatti isolati con lo scopo di condensare input lunghi e generare nuove sotto-interrogazioni tramite deduzione. Questa natura statica trascura le cruciali correlazioni di ordine superiore tra i fatti primitivi, le cui composizioni possono spesso fornire una guida più forte per i passi successivi. Di conseguenza, la loro forza rappresentativa e l'impatto sul ragionamento multi-step e sull'evoluzione della conoscenza sono limitati, risultando in un ragionamento frammentato e una debole capacità di costruzione di senso globale in contesti estesi. Introduciamo HGMem, un meccanismo di memoria basato su ipergrafi che estende il concetto di memoria oltre il semplice archivio verso una struttura dinamica ed espressiva per il ragionamento complesso e la comprensione globale. Nel nostro approccio, la memoria è rappresentata come un ipergrafo i cui iperarchi corrispondono a distinte unità di memoria, permettendo la formazione progressiva di interazioni di ordine superiore all'interno della memoria. Questo meccanismo collega fatti e pensieri attorno al problema focale, evolvendosi in una struttura di conoscenza integrata e situata che fornisce proposizioni solide per un ragionamento più profondo nei passi successivi. Valutiamo HGMem su diversi dataset complessi progettati per la costruzione di senso globale. Esperimenti estesi e analisi approfondite mostrano che il nostro metodo migliora costantemente il RAG multi-step e supera sostanzialmente forti sistemi baseline in varie attività.
Sebbene i recenti Modelli Linguistici Multimodali di Grande Dimensione (MLLM) abbiano compiuto progressi significativi nel ragionamento multimodale, i loro processi deduttivi rimangono prevalentemente incentrati sul testo, portando a prestazioni subottimali in compiti complessi, a lungo orizzonte e centrati sulla visione. In questo articolo, stabiliamo un nuovo paradigma di Ragionamento Multimodale Generativo e introduciamo DiffThinker, un framework deduttivo basato sulla diffusione. Concettualmente, DiffThinker riformula il ragionamento multimodale come un compito generativo nativo da immagine a immagine, raggiungendo una superiore coerenza logica e precisione spaziale in compiti incentrati sulla visione. Eseguiamo un confronto sistematico tra DiffThinker e gli MLLM, fornendo la prima indagine approfondita sulle caratteristiche intrinseche di questo paradigma, rivelando quattro proprietà fondamentali: efficienza, controllabilità, parallelismo nativo e collaborazione. Esperimenti estesi in quattro domini (pianificazione sequenziale, ottimizzazione combinatoria, soddisfacimento di vincoli e configurazione spaziale) dimostrano che DiffThinker supera significativamente i principali modelli proprietari, inclusi GPT-5 (+314.2%) e Gemini-3-Flash (+111.6%), nonché il baseline fine-tuned Qwen3-VL-32B (+39.0%), evidenziando il ragionamento multimodale generativo come un approccio promettente per il ragionamento centrato sulla visione.
I Large Language Model (LLM) applicano un calcolo uniforme a tutti i token, nonostante il linguaggio presenti una densità di informazione altamente non uniforme. Questo regime token-uniforme spreca capacità su sequenze localmente prevedibili, mentre sottoutilizza il calcolo per le transizioni semanticamente critiche. Proponiamo i Dynamic Large Concept Models (DLCM), un framework di modellazione linguistica gerarchico che apprende i confini semantici dalle rappresentazioni latenti e sposta il calcolo dai token a uno spazio concettuale compresso dove il ragionamento è più efficiente. Il DLCM scopre concetti a lunghezza variabile end-to-end senza fare affidamento su unità linguistiche predefinite. La compressione gerarchica cambia fondamentalmente il comportamento di scaling. Introduciamo la prima legge di scaling consapevole della compressione, che separa la capacità a livello di token, la capacità di ragionamento a livello di concetto e il rapporto di compressione, consentendo un'allocazione principled delle risorse di calcolo sotto un numero fisso di FLOP. Per addestrare in modo stabile questa architettura eterogenea, sviluppiamo inoltre una parametrizzazione μP disaccoppiata che supporta il trasferimento zero-shot degli iperparametri attraverso diverse ampiezze e regimi di compressione. In un'impostazione pratica (R=4, corrispondente a una media di quattro token per concetto), il DLCM riallocca circa un terzo del calcolo inferenziale in un backbone di ragionamento a capacità più elevata, ottenendo un miglioramento medio del +2,69% su 12 benchmark zero-shot a parità di FLOP inferenziali.
I modelli di diffusione offrono proprietà attraenti per la generazione del linguaggio, come la decodifica parallela e il raffinamento iterativo, ma la natura discreta e altamente strutturata del testo sfida l'applicazione diretta dei principi di diffusione. In questo articolo, esaminiamo nuovamente la modellazione linguistica basata su diffusione dalla prospettiva del processo diffusivo e della modellazione linguistica, e delineiamo cinque proprietà che separano la meccanica della diffusione dai requisiti specifici del linguaggio. Classifichiamo innanzitutto gli approcci esistenti in diffusione continua nello spazio di embedding e diffusione discreta sui token. Mostriamo poi che ciascuno soddisfa solo parte delle cinque proprietà essenziali e riflette quindi un compromesso strutturale. Attraverso l'analisi di recenti modelli linguistici di diffusione su larga scala, identifichiamo due problemi centrali: (i) la corruzione uniforme non rispetta come le informazioni sono distribuite tra le posizioni, e (ii) l'addestramento marginale per token non può catturare le dipendenze multi-token durante la decodifica parallela. Queste osservazioni motivano processi di diffusione più allineati con la struttura del testo e incoraggiano lavori futuri verso modelli linguistici di diffusione più coerenti.
La modellazione video generativa è emersa come uno strumento convincente per ragionare in modo zero-shot su interazioni fisiche plausibili per la manipolazione in mondi aperti. Tuttavia, rimane una sfida tradurre tali movimenti guidati dall'uomo nelle azioni di basso livello richieste dai sistemi robotici. Osserviamo che, data un'immagine iniziale e un'istruzione per il compito, questi modelli eccellono nel sintetizzare movimenti oggettuali sensati. Introduciamo quindi Dream2Flow, un framework che collega la generazione video e il controllo robotico attraverso il flusso oggettuale 3D come rappresentazione intermedia. Il nostro metodo ricostruisce i movimenti oggettuali 3D da video generati e formula la manipolazione come un tracking di traiettorie oggettuali. Separando i cambiamenti di stato dagli attuatori che realizzano tali cambiamenti, Dream2Flow supera il divario di embodiement e abilita una guida zero-shot da modelli video pre-addestrati per manipolare oggetti di diverse categorie, inclusi oggetti rigidi, articolati, deformabili e granulari. Attraverso l'ottimizzazione di traiettorie o il reinforcement learning, Dream2Flow converte il flusso oggettuale 3D ricostruito in comandi di basso livello eseguibili, senza dimostrazioni specifiche per il compito. Esperimenti in simulazione e nel mondo reale evidenziano il flusso oggettuale 3D come un'interfaccia generale e scalabile per adattare modelli di generazione video alla manipolazione robotica in mondi aperti. Video e visualizzazioni sono disponibili su https://dream2flow.github.io/.
In questo lavoro, dimostriamo che l'impatto della capacità del modello varia in base ai timestep: è cruciale nelle fasi iniziali e finali, ma largamente trascurabile durante la fase intermedia. Di conseguenza, proponiamo FlowBlending, una strategia di campionamento multi-modello consapevole della fase, che impiega un modello di grandi dimensioni e uno di piccole dimensioni rispettivamente nelle fasi sensibili alla capacità e nelle fasi intermedie. Introduciamo inoltre criteri semplici per scegliere i confini di fase e forniamo un'analisi di divergenza della velocità come proxy efficace per identificare le regioni sensibili alla capacità. Su LTX-Video (2B/13B) e WAN 2.1 (1.3B/14B), FlowBlending raggiunge un'inferenza fino a 1.65 volte più veloce con il 57.35% in meno di FLOP, mantenendo al contempo la fedeltà visiva, la coerenza temporale e l'allineamento semantico dei modelli di grandi dimensioni. FlowBlending è anche compatibile con le tecniche esistenti di accelerazione del campionamento, consentendo un'ulteriore accelerazione fino a 2 volte. La pagina del progetto è disponibile all'indirizzo: https://jibin86.github.io/flowblending_project_page.
L'ottimizzazione per simulazione (SO) è frequentemente ostacolata da valutazioni rumorose, elevati costi computazionali e paesaggi di ricerca complessi e multimodali. Questo articolo presenta la Tabu-Enhanced Simulation Optimization (TESO), un nuovo framework metaeuristico che integra una ricerca adattativa con strategie basate sulla memoria. TESO utilizza una Tabu List a breve termine per prevenire cicli e favorire la diversificazione, e una Elite Memory a lungo termine per guidare l'intensificazione perturbando soluzioni ad alte prestazioni. Un criterio di aspirazione consente di ignorare le restrizioni tabu per candidati eccezionali. Questa combinazione facilita un equilibrio dinamico tra esplorazione e sfruttamento in ambienti stocastici. Dimostriamo l'efficacia e l'affidabilità di TESO utilizzando un problema di ottimizzazione di code, mostrando prestazioni migliorate rispetto ai benchmark e validando il contributo dei suoi componenti di memoria. Il codice sorgente e i dati sono disponibili all'indirizzo: https://github.com/bulentsoykan/TESO.