Articoli di ricerca IA selezionati quotidianamente con traduzioni
I sistemi di ricerca approfondita sono ampiamente utilizzati per ricerche web multi-step, analisi e sintesi cross-fonte, ma la loro valutazione rimane complessa. I benchmark esistenti richiedono spesso una costruzione di task ad alta intensità di annotazione, si basano su dimensioni di valutazione statiche o non riescono a verificare in modo affidabile i fatti quando le citazioni sono assenti. Per colmare queste lacune, introduciamo DeepResearchEval, un framework automatizzato per la costruzione di task di ricerca approfondita e la valutazione agentica. Per la costruzione dei task, proponiamo una pipeline guidata da personaggi che genera compiti di ricerca realistici e complessi ancorati a profili utente diversificati, applicando un filtro a due stadi (Qualifica del Task e Necessità di Ricerca) per conservare solo i task che richiedono integrazione di evidenze multi-sorgente e recupero esterno. Per la valutazione, proponiamo una pipeline agentica con due componenti: una Valutazione Qualitativa Point-wise Adattiva che deriva dinamicamente dimensioni, criteri e pesi di valutazione specifici per ogni task in base al compito generato, e un Controllo Attivo dei Fatti che estrae e verifica autonomamente le affermazioni del report tramite ricerca web, anche in assenza di citazioni.
I metodi di auto-evoluzione migliorano la generazione di codice attraverso cicli iterativi di "generazione-verifica-affinamento", tuttavia gli approcci esistenti soffrono di una bassa efficienza esplorativa, non riuscendo a scoprire soluzioni con complessità superiore entro budget limitati. Questa inefficienza deriva da un bias di inizializzazione che intrappola l'evoluzione in regioni di soluzioni scadenti, da operazioni stocastiche non controllate che mancano di una guida basata sul feedback, e da un utilizzo insufficiente dell'esperienza attraverso i diversi task. Per affrontare questi colli di bottiglia, proponiamo l'Auto-Evoluzione Controllata (CSE), che consiste in tre componenti chiave. L'Inizializzazione con Pianificazione Diversificata genera strategie algoritmiche strutturalmente distinte per una copertura ampia dello spazio delle soluzioni. L'Evoluzione Genetica sostituisce le operazioni stocastiche con meccanismi guidati dal feedback, abilitando mutazioni mirate e crossover composizionale. La Memoria Evolutiva Gerarchica cattura sia le esperienze di successo che quelle fallimentari a livello inter-task e intra-task. Gli esperimenti su EffiBench-X dimostrano che CSE supera costantemente tutti i baseline su vari modelli linguistici di base. Inoltre, CSE raggiunge un'efficienza più elevata fin dalle prime generazioni e mantiene un miglioramento continuo durante l'intera evoluzione. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/QuantaAlpha/EvoControl.
I modelli linguistici di grandi dimensioni (LLM) come agenti dimostrano capacità di ragionamento intrinseche attraverso la collaborazione di molteplici strumenti. Tuttavia, durante l'inferenza dell'agente, i metodi esistenti spesso soffrono di (i) generazione localmente miope, a causa dell'assenza di un orizzonte temporale esteso (lookahead), e (ii) instabilità della traiettoria, dove piccoli errori iniziali possono degenerare in percorsi di ragionamento divergenti. Questi problemi rendono difficile bilanciare l'efficacia globale e l'efficienza computazionale. Per affrontare queste due problematiche, proponiamo MAXS (meta-adaptive exploration with LLM agents) https://github.com/exoskeletonzj/MAXS, un framework di ragionamento meta-adattivo basato su Agenti LLM che integra flessibilmente l'esecuzione di strumenti e la pianificazione del ragionamento. MAXS impiega una strategia di lookahead per estendere i percorsi di ragionamento di alcuni passi avanti, stimando il valore di vantaggio dell'utilizzo degli strumenti, e combina la varianza della coerenza passo-passo e le pendenze della tendenza inter-passo per selezionare congiuntamente passi di ragionamento stabili, coerenti e di alto valore. Inoltre, introduciamo un meccanismo di convergenza della traiettoria che controlla il costo computazionale interrompendo ulteriori esplorazioni (rollout) una volta raggiunta la coerenza del percorso, consentendo un bilanciamento tra efficienza delle risorse ed efficacia globale nel ragionamento multi-strumento. Abbiamo condotto ampi studi empirici su tre modelli base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) e cinque dataset, dimostrando che MAXS supera costantemente i metodi esistenti sia nelle prestazioni che nell'efficienza di inferenza. Ulteriori analisi confermano l'efficacia della nostra strategia di lookahead e dell'utilizzo degli strumenti.
Il ragionamento scientifico si basa non solo sull'inferenza logica, ma anche sull'attivazione di conoscenze pregresse e strutture esperienziali. La memoria può riutilizzare efficacemente le conoscenze e migliorare la coerenza e la stabilità del ragionamento. Tuttavia, i benchmark esistenti valutano principalmente le risposte finali o la coerenza passo-passo, trascurando i meccanismi guidati dalla memoria che stanno alla base del ragionamento umano, che coinvolgono l'attivazione di ancoraggi e attrattori, per poi integrarli in inferenze a più fasi. Per colmare questa lacuna, proponiamo A^3-Bench~ https://a3-bench.github.io, un benchmark progettato per valutare il ragionamento scientifico attraverso l'attivazione dual-scale guidata dalla memoria, basata sull'Attivazione di Ancoraggi e Attrattori. In primo luogo, annotiamo 2.198 problemi di ragionamento scientifico in diversi domini utilizzando il processo SAPM (soggetto, ancoraggio e attrattore, problema e sviluppo della memoria). In secondo luogo, introduciamo un framework di valutazione della memoria dual-scale che utilizza ancoraggi e attrattori, insieme alla metrica AAUI (Indice di Utilizzo di Ancoraggi-Attrattori) per misurare i tassi di attivazione della memoria. Infine, attraverso esperimenti con vari modelli base e paradigmi, convalidiamo A^3-Bench e analizziamo come l'attivazione della memoria influisca sulle prestazioni di ragionamento, fornendo spunti sul ragionamento scientifico guidato dalla memoria.
In questo rapporto presentiamo DASD-4B-Thinking, un modello di ragionamento leggero ma altamente capace, completamente open-source. Il modello raggiunge prestazioni allo stato dell'arte (SOTA) tra i modelli open-source di scala comparabile su benchmark impegnativi in matematica, ragionamento scientifico e generazione di codice, superando persino diversi modelli più grandi. Iniziamo riesaminando criticamente un paradigma di distillazione ampiamente adottato dalla comunità: il Fine-Tuning Supervisionato (SFT) su risposte generate dal docente, noto anche come distillazione a livello di sequenza. Sebbene una serie di lavori recenti che seguono questo schema abbiano dimostrato un'efficienza notevole e solide performance empiriche, essi sono principalmente ancorati alla prospettiva del SFT. Di conseguenza, questi approcci si concentrano prevalentemente sulla progettazione di regole euristiche per il filtraggio dei dati per il SFT, trascurando in larga misura il principio cardine della distillazione stessa: permettere al modello studente di apprendere l'intera distribuzione di output del docente per ereditarne la capacità di generalizzazione. Nello specifico, identifichiamo tre limitazioni critiche nella pratica corrente: i) Rappresentazione inadeguata della distribuzione a livello di sequenza del docente; ii) Disallineamento tra la distribuzione di output del docente e la capacità di apprendimento dello studente; e iii) Bias di esposizione (exposure bias) derivante dall'addestramento con forzatura del docente (teacher-forced) rispetto all'inferenza autoregressiva. In sintesi, queste carenze riflettono un'assenza sistemica di un'esplicita interazione docente-studente durante l'intero processo di distillazione, lasciando l'essenza della distillazione stessa non sfruttata appieno. Per affrontare questi problemi, proponiamo diverse innovazioni metodologiche che collettivamente formano una pipeline di addestramento per la distillazione a livello di sequenza potenziata. Notevolmente, DASD-4B-Thinking ottiene risultati competitivi utilizzando solo 448K campioni di addestramento – un ordine di grandezza inferiore rispetto a quelli impiegati dalla maggior parte degli sforzi open-source esistenti. Per supportare la ricerca della comunità, rendiamo pubblicamente disponibili i nostri modelli e il dataset di addestramento.
I compiti Vision-Language-Action (VLA) richiedono un ragionamento su scene visive complesse e l'esecuzione di azioni adattive in ambienti dinamici. Sebbene studi recenti sui VLA di ragionamento dimostrino che una catena di pensiero (CoT) esplicita possa migliorare la generalizzazione, questi soffrono di un'elevata latenza di inferenza a causa delle lunghe tracce di ragionamento. Proponiamo Fast-ThinkAct, un framework di ragionamento efficiente che raggiunge una pianificazione compatta ma performante attraverso un ragionamento latente verbalizzabile. Fast-ThinkAct impara a ragionare efficientemente con CoT latenti distillando le conoscenze da un insegnante, guidato da un obiettivo basato su preferenze per allineare le traiettorie di manipolazione, trasferendo sia le capacità di pianificazione linguistica che visiva per il controllo embodied. Ciò abilita un apprendimento delle politiche potenziato dal ragionamento che collega efficacemente il ragionamento compatto all'esecuzione delle azioni. Esperimenti estesi su vari benchmark di manipolazione embodied e di ragionamento dimostrano che Fast-ThinkAct raggiunge prestazioni solide con una riduzione della latenza di inferenza fino all'89,3% rispetto ai migliori VLA di ragionamento, mantenendo al contempo un'efficace pianificazione a lungo termine, un adattamento few-shot e un recupero dai fallimenti.
Sebbene gli agenti basati su LLM abbiano mostrato potenziale per la ricerca approfondita, la maggior parte degli approcci esistenti si affida a flussi di lavoro fissi che faticano ad adattarsi a query aperte e del mondo reale. Recenti lavori esplorano quindi l'auto-evoluzione consentendo agli agenti di riscrivere il proprio codice o i propri prompt per migliorare la capacità di problem-solving, ma un'ottimizzazione senza vincoli spesso innesca instabilità, allucinazioni e deriva delle istruzioni. Proponiamo EvoFSM, un framework strutturato di auto-evoluzione che coniuga adattabilità e controllo evolvendo una Macchina a Stati Finiti (FSM) esplicita, invece di affidarsi a riscritture libere. EvoFSM disaccoppia lo spazio di ottimizzazione in Flusso macroscopico (logica di transizione di stato) e Abilità microscopiche (comportamenti specifici dello stato), consentendo miglioramenti mirati entro confini comportamentali chiari. Guidato da un meccanismo critico, EvoFSM affina la FSM attraverso un piccolo insieme di operazioni vincolate e incorpora inoltre una memoria auto-evolutiva che estrae traiettorie di successo come prior riutilizzabili e pattern di fallimento come vincoli per query future. Valutazioni estensive su cinque benchmark di QA multi-hop dimostrano l'efficacia di EvoFSM. In particolare, EvoFSM raggiunge un'accuratezza del 58,0% sul benchmark DeepSearch. Risultati aggiuntivi su compiti di decisione interattiva ne convalidano ulteriormente la generalizzazione.
I modelli linguistici visivi di grandi dimensioni (LVLM) per uso generico, nonostante la loro scala massiccia, spesso falliscono in dermatologia a causa dell'"attenzione diffusa" - l'incapacità di distinguere lesioni patologiche sottili dal rumore di fondo. In questo articolo, mettiamo in discussione l'assunzione che il ridimensionamento dei parametri sia l'unica via per la precisione medica. Introduciamo SkinFlow, un framework che tratta la diagnosi come un'ottimizzazione dell'efficienza di trasmissione delle informazioni visive. Il nostro approccio utilizza un Encoder Visivo Dinamico a Larghezza Virtuale (DVE) per "spiegare" le complesse varietà patologiche senza espansione fisica dei parametri, abbinato a una strategia di Apprendimento per Rinforzo a due stadi. Questa strategia allinea sequenzialmente le descrizioni mediche esplicite (Fase I) e ricostruisce le trame diagnostiche implicite (Fase II) all'interno di uno spazio semantico vincolato. Inoltre, proponiamo un protocollo di valutazione clinicamente fondato che privilegia la sicurezza diagnostica e la rilevanza gerarchica rispetto alla rigida corrispondenza delle etichette. I risultati empirici sono convincenti: il nostro modello da 7B stabilisce un nuovo stato dell'arte sul benchmark Fitzpatrick17k, ottenendo un guadagno del +12,06% in accuratezza Top-1 e un incremento del +28,57% in accuratezza Top-6 rispetto ai massicci modelli per uso generico (ad es. Qwen3VL-235B e GPT-5.2). Questi risultati dimostrano che l'ottimizzazione della capacità geometrica e del flusso informativo produce un ragionamento diagnostico superiore rispetto al semplice ridimensionamento grezzo dei parametri.
Lo sviluppo di grandi modelli linguistici (LLM) ha ottenuto prestazioni superiori in una serie di task downstream, inclusa la generazione aumentata tramite recupero di informazioni basata su LLM (RAG). La qualità del contenuto generato dipende fortemente dall'utilità delle informazioni recuperate e dalla capacità del meccanismo interno di elaborazione delle informazioni degli LLM di incorporarle nella generazione delle risposte. Si assume generalmente che le informazioni recuperate siano pertinenti alla domanda. Tuttavia, le informazioni recuperate possono presentare vari gradi di rilevanza e utilità, a seconda della domanda e della collezione documentale. È importante tenere conto della pertinenza delle informazioni recuperate nella generazione delle risposte. In questo articolo proponiamo OpenDecoder, un nuovo approccio che sfrutta la valutazione esplicita delle informazioni recuperate come feature indicative della qualità per la generazione. Il nostro obiettivo è costruire un modello RAG più robusto a diversi livelli di contesto rumoroso. Vengono considerati tre tipi di informazioni di valutazione esplicita: punteggio di rilevanza, punteggio di ranking e punteggio QPP (previsione della performance della query). I risultati sperimentali su cinque dataset di benchmark dimostrano l'efficacia e la migliore robustezza di OpenDecoder, superando vari metodi baseline. È importante sottolineare che questo paradigma è flessibile, potendo essere integrato con il post-training di LLM per qualsiasi scopo e incorporato con qualsiasi tipo di indicatori esterni.
Proponiamo OpenVoxel, un algoritmo che non richiede addestramento per raggruppare e descrivere con didascalie voxel sparsi, destinato a compiti di comprensione di scene 3D a vocabolario aperto. Dato il modello di rasterizzazione di voxel sparsi (SVR) ottenuto da immagini multi-vista di una scena 3D, il nostro OpenVoxel è in grado di produrre raggruppamenti significativi che descrivono i diversi oggetti nella scena. Inoltre, sfruttando potenti Modelli Linguaggio-Visione (VLM) e Modelli Linguistici di Grande Dimensione Multi-modali (MLLM), il nostro OpenVoxel costruisce con successo una mappa informativa della scena assegnando una didascalia a ciascun gruppo, abilitando ulteriori compiti di comprensione della scena 3D come la segmentazione a vocabolario aperto (OVS) o la segmentazione per espressione referenziale (RES). A differenza dei metodi precedenti, il nostro approccio non richiede addestramento e non introduce embedding da un codificatore di testo CLIP/BERT. Invece, procediamo direttamente con una ricerca testo-a-testo utilizzando gli MLLM. Attraverso esperimenti estensivi, il nostro metodo dimostra prestazioni superiori rispetto a studi recenti, in particolare nei complessi compiti di segmentazione per espressione referenziale (RES). Il codice sarà open-source.
Presentiamo TranslateGemma, una suite di modelli aperti per la traduzione automatica basati sui modelli fondazionali Gemma 3. Per potenziare le capacità multilingue intrinseche di Gemma 3 per il compito di traduzione, adottiamo un processo di fine-tuning in due fasi. Inizialmente, viene eseguito un fine-tuning supervisionato utilizzando una ricca miscela di dati paralleli sintetici su larga scala e di alta qualità, generati tramite modelli all'avanguardia, e di dati paralleli tradotti da esseri umani. Questa fase è seguita da una fase di apprendimento per rinforzo, in cui ottimizziamo la qualità della traduzione utilizzando un ensemble di modelli di ricompensa, inclusi MetricX-QE e AutoMQM, mirati alla qualità della traduzione. Dimostriamo l'efficacia di TranslateGemma con una valutazione umana sul test set WMT25 su 10 coppie linguistiche e con una valutazione automatica sul benchmark WMT24++ su 55 coppie linguistiche. Le metriche automatiche mostrano miglioramenti consistenti e sostanziali rispetto ai modelli baseline Gemma 3 in tutte le dimensioni. È degno di nota che i modelli TranslateGemma più piccoli raggiungano spesso prestazioni paragonabili a modelli baseline più grandi, offrendo una migliore efficienza. Mostriamo inoltre che i modelli TranslateGemma conservano solide capacità multimodali, con prestazioni potenziate sul benchmark di traduzione di immagini Vistra. Il rilascio dei modelli aperti TranslateGemma mira a fornire alla comunità di ricerca strumenti potenti e adattabili per la traduzione automatica.
I modelli visione-linguaggio (VLM) hanno dimostrato prestazioni notevoli nelle attività di grounding dell'interfaccia utente (UI), grazie alla loro capacità di elaborare screenshot a risoluzione sempre più elevata. Tuttavia, gli screenshot vengono tokenizzati in migliaia di token visivi (ad esempio, circa 4700 per una risoluzione 2K), comportando un sovraccarico computazionale significativo e diluendo l'attenzione. Al contrario, gli esseri umani si concentrano tipicamente sulle regioni di interesse durante l'interazione con l'UI. In questo lavoro, siamo pionieri nel compito del grounding efficiente dell'UI. Guidati da un'analisi pratica delle caratteristiche e delle sfide del compito, proponiamo FocusUI, un framework efficiente per il grounding dell'UI che seleziona i patch più rilevanti per l'istruzione preservando al contempo la continuità posizionale per un grounding preciso. FocusUI affronta due sfide chiave: (1) Eliminare i token ridondanti nella codifica visiva. Costruiamo una supervisione a livello di patch fondendo un punggio condizionato all'istruzione con un punggio basato su regole derivato da un grafo-UI che riduce il peso di grandi regioni omogenee per selezionare token visivi distinti e rilevanti per l'istruzione. (2) Preservare la continuità posizionale durante la selezione dei token visivi. Abbiamo riscontrato che i metodi generali di pruning dei token visivi soffrono di una grave degradazione dell'accuratezza nelle attività di grounding dell'UI a causa della rottura delle informazioni posizionali. Introduciamo una nuova strategia PosPad, che comprime ogni sequenza contigua di token visivi scartati in un singolo marcatore speciale posizionato all'ultimo indice della sequenza per preservare la continuità posizionale. Esperimenti completi su quattro benchmark di grounding dimostrano che FocusUI supera i baseline specifici per GUI. Sul benchmark ScreenSpot-Pro, FocusUI-7B raggiunge un miglioramento delle prestazioni del 3,7% rispetto a GUI-Actor-7B. Anche con solo il 30% di ritenzione dei token visivi, FocusUI-7B diminuisce di appena il 3,2% pur ottenendo un'inferenza fino a 1,44 volte più veloce e un picco di memoria GPU inferiore del 17%.
L'intervento esperienziale negli agenti web emerge come un paradigma tecnico promettente, potenziando le capacità interattive degli agenti attraverso l'integrazione di insight preziosi derivanti da esperienze accumulate. Tuttavia, i metodi esistenti iniettano principalmente l'esperienza in modo passivo come contesto globale prima dell'esecuzione del compito, mostrando difficoltà nell'adattarsi alle osservazioni contestuali in evoluzione dinamica durante l'interazione agente-ambiente. Proponiamo ExpSeek, che sposta l'esperienza verso una ricerca proattiva a livello di step: (1) stimando soglie di entropia a livello di step per determinare il timing d'intervento mediante segnali intrinseci del modello; (2) progettando contenuti esperienziali su misura per ogni step. Esperimenti condotti sui modelli Qwen3-8B e 32B su quattro benchmark impegnativi per agenti web dimostrano che ExpSeek raggiunge miglioramenti assoluti rispettivamente del 9,3% e 7,5%. I nostri esperimenti convalidano la fattibilità e i vantaggi dell'entropia come segnale di auto-attivazione, rivelando che persino un modello esperienziale di piccole dimensioni (4B) può potenziare significativamente le prestazioni di modelli agente più grandi.
I recenti progressi nei modelli mondiali hanno mostrato potenzialità nella modellazione delle dinamiche future degli stati ambientali, consentendo agli agenti di ragionare e agire senza accedere ad ambienti reali. I metodi attuali eseguono principalmente rollout a passo singolo o con orizzonte fisso, lasciando il loro potenziale per la pianificazione di compiti complessi sottoutilizzato. Proponiamo Imagine-then-Plan (ITP), un framework unificato per l'apprendimento degli agenti tramite immaginazione prospettica, in cui il modello della policy di un agente interagisce con il modello mondiale appreso, generando traiettorie "immaginate" multi-step. Poiché l'orizzonte temporale dell'immaginazione può variare in base ai compiti e alle fasi, introduciamo un innovativo meccanismo adattivo di prospettiva bilanciando l'obiettivo finale e il progresso del compito. Le traiettorie immaginate risultanti forniscono segnali ricchi sulle conseguenze future, come il progresso ottenuto e i potenziali conflitti, che vengono fusi con le osservazioni correnti, formulando un processo decisionale di Markov parzialmente osservabile e immaginabile per guidare l'apprendimento della policy. Istanziamo ITP con varianti sia senza addestramento che addestrate con rinforzo. Esperimenti estesi su benchmark rappresentativi per agenti dimostrano che ITP supera significativamente i baseline competitivi. Ulteriori analisi convalidano che la nostra prospettiva adattiva migliora notevolmente la capacità di ragionamento degli agenti, fornendo spunti preziosi per affrontare compiti complessi più ampi.
L'addestramento dei Large Language Model (LLM) mira spesso all'allineamento alle preferenze, premiando output percepiti come utili e adatti all'interazione. Tuttavia, questo obiettivo orientato alla preferenza può essere sfruttato: prompt manipolativi possono indirizzare le risposte verso un consenso compiacente per l'utente, allontanandole dalla correzione orientata alla verità. In questo lavoro, indaghiamo se i modelli allineati siano vulnerabili agli Attacchi Sottominanti le Preferenze (PUA), una classe di strategie di prompt manipolativi progettate per sfruttare il desiderio del modello di assecondare le preferenze dell'utente a scapito della veridicità. Proponiamo una metodologia diagnostica che fornisce un'analisi più granulare e direttiva rispetto ai punteggi aggregati di benchmark, utilizzando un framework di valutazione fattoriale per scomporre gli spostamenti indotti dal prompt in effetti interpretabili degli obiettivi di sistema (orientati alla verità vs. alle preferenze) e dei fattori dialogici in stile PUA (controllo direttivo, denigrazione personale, approvazione condizionata, negazione della realtà) all'interno di un disegno controllato 2 per 2^4. Sorprendentemente, i modelli più avanzati sono a volte più suscettibili a prompt manipolativi. Oltre al fattore dominante della negazione della realtà, osserviamo inversioni di segno specifiche del modello e interazioni con i fattori in stile PUA, suggerendo difese mirate piuttosto che una robustezza uniforme. Questi risultati offrono una metodologia di valutazione fattoriale innovativa e riproducibile che fornisce diagnosi più granulari per processi post-addestramento come il RLHF, consentendo migliori compromessi nell'iterazione di prodotto degli LLM grazie a una comprensione più sfumata dei rischi dell'allineamento alle preferenze e dell'impatto dei prompt manipolativi.
I moderni modelli generativi video basati su modelli di diffusione possono produrre clip molto realistici, ma sono computazionalmente inefficienti, richiedendo spesso minuti di tempo di GPU per soli pochi secondi di video. Questa inefficienza rappresenta una barriera critica per la diffusione della generazione video in applicazioni che richiedono interazioni in tempo reale, come l'AI incarnata e la realtà virtuale/aumentata. Questo articolo esplora una nuova strategia per la generazione video condizionata dalla telecamera di scene statiche: utilizzare modelli generativi basati su diffusione per generare un insieme sparso di fotogrammi chiave, per poi sintetizzare il video completo attraverso ricostruzione 3D e rendering. Sollevando i fotogrammi chiave in una rappresentazione 3D e renderizzando le viste intermedie, il nostro approccio ammortizza il costo di generazione su centinaia di fotogrammi applicando al contempo una consistenza geometrica. Introduciamo inoltre un modello che predice il numero ottimale di fotogrammi chiave per una data traiettoria della telecamera, consentendo al sistema di allocare computazione in modo adattivo. Il nostro metodo finale, SRENDER, utilizza fotogrammi chiave molto sparsi per traiettorie semplici e più densi per movimenti complessi della telecamera. Ciò si traduce in una generazione video che è oltre 40 volte più veloce rispetto al baseline basato su diffusione nel generare 20 secondi di video, mantenendo al contempo un'alta fedeltà visiva e stabilità temporale, offrendo una via pratica verso una sintesi video efficiente e controllabile.
I sistemi incarnati sperimentano il mondo come "una sinfonia di flussi": una combinazione di molteplici flussi continui di input sensoriale accoppiati all'auto-movimento, intrecciati con la dinamica degli oggetti esterni. Questi flussi obbediscono a simmetrie lisce e parametrizzate nel tempo, che si combinano attraverso un'algebra dalla struttura precisa; eppure la maggior parte dei modelli del mondo basati su reti neurali ignora questa struttura e invece ri-apprende ripetutamente le stesse trasformazioni dai dati. In questo lavoro, introduciamo "Flow Equivariant World Models", un quadro in cui sia l'auto-movimento che il movimento degli oggetti esterni sono unificati come "flussi" di gruppi di Lie ad un parametro. Sfruttiamo questa unificazione per implementare l'equivarianza di gruppo rispetto a queste trasformazioni, fornendo così una rappresentazione latente stabile del mondo per centinaia di step temporali. Su benchmark di modellazione del mondo basati su video parzialmente osservati, sia in 2D che in 3D, dimostriamo che i Flow Equivariant World Models superano significamente le architetture all'avanguardia comparabili, basate su diffusione e aumentate con memoria -- in particolare quando sono presenti dinamiche del mondo prevedibili al di fuori del campo visivo corrente dell'agente. Mostriamo che l'equivarianza di flusso è particolarmente vantaggiosa per rollout lunghi, generalizzando ben oltre l'orizzonte di addestramento. Strutturando le rappresentazioni del modello del mondo rispetto al movimento interno ed esterno, l'equivarianza di fluszo traccia una rotta scalabile verso un'intelligenza incarnata, efficiente nei dati e guidata dalle simmetrie. Link al progetto: https://flowequivariantworldmodels.github.io.
L'analisi delle rappresentazioni apprese presenta un punto cieco: si concentra sulla similarità, misurando quanto strettamente gli embedding si allineano a riferimenti esterni, ma la similarità rivela solo ciò che è rappresentato, non se tale struttura sia robusta. Introduciamo la stabilità geometrica, una dimensione distinta che quantifica l'affidabilità con cui la geometria rappresentativa si mantiene sotto perturbazione, e presentiamo Shesha, un framework per misurarla. Attraverso 2.463 configurazioni in sette domini, dimostriamo che stabilità e similarità sono empiricamente non correlate (ρ≈0.01) e meccanicamente distinte: le metriche di similarità collassano dopo la rimozione delle componenti principali principali, mentre la stabilità mantiene sensibilità alla struttura fine del manifold. Questa distinzione fornisce indicazioni operative: per il monitoraggio della sicurezza, la stabilità funge da canarino geometrico funzionale, rilevando lo structural drift con una sensibilità quasi doppia rispetto al CKA, filtrando il rumore non funzionale che innesca falsi allarmi nelle metriche di distanza rigide; per la controllabilità, la stabilità supervisionata predice la steerabilità lineare (ρ=0.89-0.96); per la selezione dei modelli, la stabilità si dissocia dalla trasferibilità, rivelando una tassa geometrica che l'ottimizzazione del transfer comporta. Oltre al machine learning, la stabilità predice la coerenza delle perturbazioni CRISPR e l'accoppiamento neuro-comportamentale. Quantificando l'affidabilità con cui i sistemi mantengono la struttura, la stabilità geometrica fornisce un complemento necessario alla similarità per l'audit delle rappresentazioni attraverso sistemi biologici e computazionali.
La memoria svolge un ruolo fondamentale nel potenziare il ragionamento, l'adattabilità e la fedeltà contestuale dei moderni Large Language Model e Multi-Modal LLM. Mentre questi modelli evolvono da predittori statici a sistemi interattivi capaci di apprendimento continuo e inferenza personalizzata, l'incorporazione di meccanismi di memoria è emersa come tema centrale nella loro evoluzione architetturale e funzionale. Questa rassegna presenta una sintesi completa e strutturata della memoria negli LLM e MLLM, organizzando la letteratura in una tassonomia coerente che comprende paradigmi di memoria implicita, esplicita e agenziale. Nello specifico, la rassegna delinea tre principali framework mnemonici. La memoria implicita si riferisce alla conoscenza incorporata nei parametri interni dei transformer pre-addestrati, comprendendo la loro capacità di memorizzazione, recupero associativo e ragionamento contestuale. Recenti lavori hanno esplorato metodi per interpretare, manipolare e riconfigurare questa memoria latente. La memoria esplicita coinvolge componenti di archiviazione e recupero esterni progettati per arricchire gli output del modello con rappresentazioni di conoscenza dinamiche e interrogabili, come corpora testuali, vettori densi e strutture basate su grafi, consentendo così un'interazione scalabile e aggiornabile con le fonti informative. La memoria agenziale introduce strutture mnemoniche persistenti e temporalmente estese all'interno di agenti autonomi, facilitando la pianificazione a lungo termine, l'auto-consistenza e il comportamento collaborativo in sistemi multi-agente, con rilevanza per l'IA embodied e interattiva. Estendendosi oltre il testo, la rassegna esamina l'integrazione della memoria in contesti multimodali, dove la coerenza tra modalità visive, linguistiche, auditive e di azione è essenziale. Vengono discussi i principali progressi architetturali, i task di benchmark e le sfide aperte, incluse le problematiche relative alla capacità mnemonica, all'allineamento, alla consistenza fattuale e all'interoperabilità cross-system.
Il compito della generazione da immagine a video (Image-to-Video, I2V) mira a sintetizzare un video a partire da un'immagine di riferimento e da un prompt testuale. Ciò richiede ai modelli di diffusione di conciliare i vincoli visivi ad alta frequenza e la guida testuale a bassa frequenza durante il processo di denoising. Tuttavia, sebbene i modelli I2V esistenti diano priorità alla coerenza visiva, la modalità per accoppiare efficacemente questa doppia guida al fine di garantire una forte aderenza al prompt testuale rimane poco esplorata. In questo lavoro, osserviamo che nei modelli I2V basati su Diffusion Transformer (DiT), alcuni strati intermedi presentano risposte semantiche deboli (denominati Semantic-Weak Layers), come indicato da un calo misurabile nella similarità testo-visuale. Attribuiamo ciò a un fenomeno chiamato Condition Isolation, in cui l'attenzione alle caratteristiche visive si disaccoppia parzialmente dalla guida testuale e si affida eccessivamente a priorità visive apprese. Per affrontare questo problema, proponiamo la Focal Guidance (FG), che migliora la controllabilità degli Semantic-Weak Layers. FG comprende due meccanismi: (1) la Fine-grained Semantic Guidance (FSG) sfrutta CLIP per identificare le regioni chiave nel frame di riferimento e le utilizza come ancore per guidare gli Semantic-Weak Layers. (2) L'Attention Cache trasferisce le mappe di attenzione dagli strati semanticamente responsivi agli Semantic-Weak Layers, iniettando segnali semantici espliciti e alleviando la loro eccessiva dipendenza dalle priorità visive apprese dal modello, migliorando così l'aderenza alle istruzioni testuali. Per convalidare ulteriormente il nostro approccio e colmare la carenza di valutazione in questa direzione, introduciamo un benchmark per valutare il seguimento delle istruzioni nei modelli I2V. Su questo benchmark, Focal Guidance dimostra la sua efficacia e generalizzabilità, portando il punteggio totale su Wan2.1-I2V a 0,7250 (+3,97%) e incrementando il modello HunyuanVideo-I2V basato su MMDiT a 0,5571 (+7,44%).
I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) stanno compiendo progressi significativi nel ragionamento multimodale. Gli approcci iniziali si concentravano su un ragionamento puramente basato sul testo. Studi più recenti hanno incorporato informazioni multimodali nei passaggi di ragionamento; tuttavia, spesso seguono uno schema di ragionamento unico e specifico per un compito, il che ne limita la generalizzabilità su vari compiti multimodali. In effetti, esistono numerosi compiti multimodali che richiedono abilità di ragionamento diverse, come lo zoom su una regione specifica o la marcatura di un oggetto all'interno di un'immagine. Per affrontare questo problema, proponiamo un ragionamento multimodale generativo unificato, che unifica diverse abilità di ragionamento multimodale generando immagini intermedie durante il processo di ragionamento. Istanziamo questo paradigma con Omni-R1, un framework a due stadi SFT+RL che presenta una perdita di allineamento percettivo e una ricompensa percettiva, consentendo così la generazione di immagini funzionali. Inoltre, introduciamo Omni-R1-Zero, che elimina la necessità di annotazioni multimodali sfruttando visualizzazioni passo-passo generate a partire da dati di ragionamento esclusivamente testuali. I risultati empirici mostrano che Omni-R1 raggiunge un ragionamento generativo unificato su un'ampia gamma di compiti multimodali, e Omni-R1-Zero può eguagliare o addirittura superare Omni-R1 in media, suggerendo una direzione promettente per il ragionamento multimodale generativo.
Il reinforcement learning (RL) guidato da critiche è emerso come un potente paradigma per addestrare agenti basati su LLM, integrando le ricompense sparse basate sul risultato con feedback in linguaggio naturale. Tuttavia, i metodi attuali si basano spesso su modelli critici statici o offline, che non riescono ad adattarsi al progredire della politica. Nel RL on-policy, gli schemi di errore dell'agente cambiano nel tempo, causando l'obsolescenza dei critici stazionari e fornendo un feedback di utilità decrescente. Per affrontare questo problema, introduciamo ECHO (Evolving Critic for Hindsight-Guided Optimization), un framework che ottimizza congiuntamente la politica e il critico attraverso un ciclo co-evolutivo sincronizzato. ECHO utilizza un meccanismo di rollout a cascata in cui il critico genera multiple diagnosi per una traiettoria iniziale, seguito da un affinamento della politica per abilitare una stima del vantaggio a struttura di gruppo. Affrontiamo la sfida degli altipiani di apprendimento tramite un obiettivo di modellazione del guadagno consapevole della saturazione, che ricompensa il critico per aver indotto miglioramenti incrementali in traiettorie ad alte prestazioni. Impiegando aggiornamenti GRPO a doppio binario, ECHO garantisce che il feedback del critico rimanga sincronizzato con l'evolvere della politica. I risultati sperimentali mostrano che ECHO produce un addestramento più stabile e un maggior successo in compiti a lungo termine attraverso ambienti open-world.
I grandi modelli linguistici generano frequentemente riassunti plausibili ma infedeli che gli utenti non possono verificare rispetto al testo sorgente, una limitazione critica in domini sensibili alla conformità come l'analisi governativa e legale. Presentiamo Sui-1, un modello da 24 miliardi di parametri che produce riassunti astrattivi con citazioni in linea, consentendo agli utenti di ricondurre ogni affermazione alla sua frase sorgente. La nostra pipeline di dati sintetici combina il prompting a catena del ragionamento con una verifica multi-stadio, generando oltre 22.000 esempi di addestramento di alta qualità in cinque lingue da fonti diversificate, inclusi documenti parlamentari, testo web e Wikipedia. La valutazione mostra che Sui-1 supera significativamente tutte le baseline open-weight testate, inclusi modelli con 3 volte il numero di parametri. Questi risultati dimostrano che un addestramento specifico per il compito supera sostanzialmente la sola scala dimensionale per la sintesi basata su citazioni. I pesi del modello e una demo interattiva sono pubblicamente disponibili.
L'apprendimento per rinforzo (RL) offre un metodo rigoroso per potenziare le capacità di ragionamento dei grandi modelli linguistici, ma la sua efficacia dipende da segnali di addestramento che rimangono informativi man mano che i modelli evolvono. In pratica, i progressi dell'RL spesso rallentano quando la difficoltà del compito non è più allineata con le capacità del modello, o quando l'addestramento è dominato da un ristretto insieme di pattern problematici ricorrenti. Per affrontare congiuntamente questi problemi, proponiamo SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), un framework che mantiene segnali di apprendimento efficaci attraverso un design adattativo dell'ambiente. SCALER introduce una pipeline di sintesi scalabile che converte problemi di programmazione del mondo reale in ambienti di ragionamento verificabili, con difficoltà controllabile e generazione illimitata di istanze, consentendo l'addestramento RL oltre i dataset finiti preservando al contempo solide garanzie di correttezza. Basandosi su questo, SCALER impiega inoltre una strategia RL adattativa multi-ambiente che regola dinamicamente la difficoltà delle istanze e seleziona l'insieme attivo di ambienti per seguire la frontiera delle capacità del modello e mantenere la diversità distribuzionale. Questa co-adattamento previene la scarsità di ricompense, mitiga l'overfitting su pattern di compiti ristretti e supporta un miglioramento sostenuto durante tutto l'addestramento. Esperimenti estensivi mostrano che SCALER supera costantemente i baseline RL basati su dataset in vari benchmark di ragionamento ed esibisce dinamiche di addestramento più stabili e di lungo periodo.
Il miglioramento dei grandi modelli linguistici (LLM) basato sull'apprendimento per rinforzo (RL) spesso comporta una ridotta diversità degli output, compromettendo la loro utilità in compiti aperti come la scrittura creativa. I metodi attuali mancano di meccanismi espliciti per guidare un'esplorazione diversificata e privilegiano l'efficienza di ottimizzazione e le prestazioni a scapito della diversità. Questo articolo propone un framework RL strutturato attorno a una Catena di Pensiero (CoT) semi-strutturata e lunga, in cui il processo di generazione viene scomposto in passi intermedi esplicitamente pianificati. Introduciamo un metodo di Ramificazione della Pianificazione Diversificata che introduce strategicamente divergenza nella fase di pianificazione in base alla variazione di diversità, unitamente a una ricompensa di diversità group-aware per incentivare traiettorie distinte. I risultati sperimentali su benchmark di scrittura creativa dimostrano che il nostro approccio migliora significativamente la diversità degli output senza compromettere la qualità della generazione, superando costantemente i baseline esistenti.
L'allocazione del carico di lavoro nei cluster richiede spesso configurazioni complesse, creando un divario di usabilità. Questo articolo introduce un paradigma di scheduling semantico e guidato dall'intento per i sistemi di cluster utilizzando l'Elaborazione del Linguaggio Naturale. Il sistema impiega un Large Language Model (LLM) integrato tramite un'estensione dello scheduler di Kubernetes per interpretare le annotazioni di suggerimento di allocazione in linguaggio naturale per preferenze di affinità soft. È stato sviluppato un prototipo dotato di una cache dello stato del cluster e di un analizzatore di intenti (utilizzando AWS Bedrock). La valutazione empirica ha dimostrato un'elevata accuratezza di analisi del LLM (>95% di Accuratezza del Sottoinsieme su un dataset di verità fondamentale di valutazione) per modelli di primo livello come Amazon Nova Pro/Premier e Mistral Pixtral Large, superando significativamente un motore di base. Test sulla qualità dello scheduling in sei scenari hanno mostrato che il prototipo ha ottenuto un posizionamento superiore o equivalente rispetto alle configurazioni standard di Kubernetes, eccellendo in particolare in scenari complessi e quantitativi e nella gestione di preferenze soft conflittuali. I risultati convalidano l'uso dei LLM per uno scheduling accessibile ma evidenziano limitazioni come la latenza sincrona del LLM, suggerendo l'elaborazione asincrona per la preparazione alla produzione. Questo lavoro conferma la fattibilità dell'affinità soft semantica per semplificare l'orchestrazione del carico di lavoro.
La qualità della tokenizzazione a livello di sottoparola è fondamentale per i Modelli Linguistici di Grande Dimensione, ma la valutazione dei tokenizer per le lingue uraliche morfologicamente ricche è ostacolata dalla mancanza di lessemi morfematici puliti. Presentiamo SampoNLP, un toolkit che non richiede corpora per la creazione di lessici morfologici, utilizzando uno Scoring di Atomicità Auto-Riferita ispirato al Principio di Lunghezza Descrittiva Minima (MDL), che filtra le forme composite attraverso indizi strutturali interni, adatto per contesti con risorse limitate. Utilizzando i lessici ad alta purezza generati da SampoNLP per finlandese, ungherese ed estone, conduciamo una valutazione sistematica dei tokenizer BPE su un'ampia gamma di dimensioni del vocabolario (8k-256k). Proponiamo una metrica unificata, il Punteggio di Prestazione Integrato (IPS), per bilanciare il compromesso tra copertura morfematica e suddivisione eccessiva. Analizzando le curve IPS, identifichiamo i "punti di gomito" di rendimenti decrescenti e forniamo le prime raccomandazioni empiricamente fondate per le dimensioni ottimali del vocabolario (k) in queste lingue. Il nostro studio non solo offre una guida pratica, ma dimostra anche quantitativamente i limiti del BPE standard per le lingue altamente agglutinanti. La libreria SampoNLP e tutte le risorse generate sono rese pubbliche: https://github.com/AragonerUA/SampoNLP