Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Green-VLA, un framework Vision-Language-Action (VLA) a stadi progettato per il dispiegamento nel mondo reale sul robot umanoide Green, mantenendo al contempo la generalizzazione su diverse embodiment. Green-VLA segue un curriculum a cinque stadi: (L0) modelli linguistici visivi (VLM) fondazionali, (L1) grounding multimodale, (R0) pre-addestramento multi-embodiment, (R1) adattamento specifico per embodiment, e (R2) allineamento della politica di apprendimento per rinforzo (RL). Accoppiamo una pipeline scalabile di elaborazione dati (3.000 ore di dimostrazioni) con allineamento temporale e filtraggio della qualità, e utilizziamo un'interfaccia d'azione unificata e consapevole dell'embodiment che permette a una singola politica di controllare umanoidi, manipolatori mobili e bracci a base fissa. In fase di inferenza, il controller VLA è potenziato con la previsione dello stato dell'episodio, il rilevamento di dati fuori distribuzione e una guida basata sulla predizione congiunta per migliorare la sicurezza e la selezione precisa del target. Esperimenti su Simpler BRIDGE WidowX e CALVIN ABC-D, oltre a valutazioni su robot reali, mostrano una forte generalizzazione e miglioramenti delle prestazioni dovuti all'allineamento RL in termini di tasso di successo, robustezza ed efficienza in orizzonti temporali lunghi.
Presentiamo Kimi K2.5, un modello agente multimodale open-source progettato per far progredire l'intelligenza agente generale. K2.5 pone l'accento sull'ottimizzazione congiunta di testo e visione, in modo che le due modalità si potenzino a vicenda. Ciò include una serie di tecniche come la pre-addestramento congiunto testo-visione, SFT a visione zero e l'apprendimento per rinforzo congiunto testo-visione. Basandosi su queste fondamenta multimodali, K2.5 introduce Agent Swarm, un framework di orchestrazione di agenti paralleli auto-diretto che scompone dinamicamente compiti complessi in sottoproblemi eterogenei e li esegue in modo concorrente. Valutazioni estensive mostrano che Kimi K2.5 raggiunge risultati all'avanguardia in vari domini, inclusi codifica, visione, ragionamento e compiti agentivi. Agent Swarm riduce inoltre la latenza fino a 4.5 volte rispetto ai baseline ad agente singolo. Rilasciamo il checkpoint del modello Kimi K2.5 post-addestrato per facilitare la futura ricerca e le applicazioni nel mondo reale dell'intelligenza agente.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto un successo notevole in un'ampia gamma di compiti visivi. Tuttavia, limitati dalla capacità della loro conoscenza interna del mondo, lavori precedenti hanno proposto di potenziare gli MLLM attraverso un approccio di "ragionamento-poi-uso-di-strumenti" per i motori di ricerca visivi e testuali, ottenendo miglioramenti sostanziali in compiti che richiedono informazioni fattuali estese. Tuttavia, questi approcci tipicamente definiscono la ricerca multimodale in un contesto ingenuo, assumendo che una singola query a livello di immagine completo o di entità e poche query testuali siano sufficienti per recuperare le prove chiave necessarie a rispondere alla domanda, il che è irrealistico in scenari reali con rumore visivo sostanziale. Inoltre, sono spesso limitati nella profondità di ragionamento e nell'ampiezza di ricerca, rendendo difficile risolvere domande complesse che richiedono l'aggregazione di prove da fonti visive e testuali diverse. Sulla base di ciò, proponiamo Vision-DeepResearch, che introduce un nuovo paradigma di ricerca approfondita multimodale, ovvero esegue una ricerca visiva e testuale multi-turno, multi-entità e multi-scala per colpire in modo robusto i motori di ricerca reali sotto forte rumore. Il nostro Vision-DeepResearch supporta dozzine di passaggi di ragionamento e centinaia di interazioni con i motori, internalizzando al contempo le capacità di ricerca approfondita nell'MLLM attraverso supervisione cold-start e addestramento RL, dando vita a un potente MLLM multimodale di ricerca approfondita end-to-end. Esso supera sostanzialmente gli MLLM multimodali di ricerca approfondita esistenti e i flussi di lavoro costruiti su potenti modelli foundation closed-source come GPT-5, Gemini-2.5-pro e Claude-4-Sonnet. Il codice sarà rilasciato su https://github.com/Osilly/Vision-DeepResearch.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire il VQA e ora supportano sistemi di Vision-DeepResearch che utilizzano motori di ricerca per complesse attività di reperimento di informazioni visivo-testuali. Tuttavia, valutare queste capacità di ricerca visiva e testuale rimane difficile, e i benchmark esistenti presentano due limitazioni principali. In primo luogo, i benchmark esistenti non sono incentrati sulla ricerca visiva: le risposte che dovrebbero richiedere una ricerca visiva vengono spesso rivelate tramite indizi cross-testuali nelle domande testuali o possono essere dedotte dalla conoscenza mondiale pregressa degli MLLM attuali. In secondo luogo, uno scenario di valutazione eccessivamente idealizzato: sul fronte della ricerca per immagini, le informazioni necessarie possono spesso essere ottenute tramite una corrispondenza quasi esatta con l'immagine intera, mentre il lato della ricerca testuale è eccessivamente diretto e insufficientemente impegnativo. Per affrontare questi problemi, abbiamo costruito il benchmark Vision-DeepResearch (VDR-Bench) comprendente 2.000 istanze VQA. Tutte le domande sono create attraverso un'attenta pipeline di curatela in più fasi e una rigorosa revisione esperta, progettata per valutare il comportamento dei sistemi Vision-DeepResearch in condizioni realistiche del mondo reale. Inoltre, per ovviare alle insufficienti capacità di recupero visivo degli MLLM attuali, proponiamo una semplice workflow di ricerca ritagliata multi-round. Questa strategia si è dimostrata efficace nel migliorare le prestazioni del modello in scenari realistici di recupero visivo. In generale, i nostri risultati forniscono indicazioni pratiche per la progettazione di futuri sistemi multimodali di deep-research. Il codice sarà rilasciato su https://github.com/Osilly/Vision-DeepResearch.
Gli agenti di repository attuali incontrano una disconnessione nel ragionamento a causa di rappresentazioni frammentate, poiché i metodi esistenti si basano su documentazioni API isolate o grafi di dipendenze che mancano di profondità semantica. Consideriamo la comprensione e la generazione del repository come processi inversi all'interno di un ciclo unificato: la generazione espande l'intento in implementazione, mentre la comprensione comprime l'implementazione nuovamente in intento. Per affrontare questo problema, proponiamo RPG-Encoder, un framework che generalizza il Repository Planning Graph (RPG) da un progetto generativo statico a una rappresentazione unificata ad alta fedeltà. RPG-Encoder chiude il ciclo di ragionamento attraverso tre meccanismi: (1) Codifica del codice grezzo nell'RPG che combina caratteristiche semantiche estratte con le dipendenze del codice; (2) Evoluzione incrementale della topologia per disaccoppiare i costi di manutenzione dalla scala del repository, riducendo l'overhead del 95,7%; e (3) Funzionamento come interfaccia unificata per la navigazione consapevole della struttura. Nelle valutazioni, RPG-Encoder stabilisce lo stato dell'arte nella comprensione dei repository su SWE-bench Verified con 93,7% Acc@5 e supera la migliore baseline di oltre il 10% su SWE-bench Live Lite. Questi risultati evidenziano la nostra precisione superiore nella localizzazione granulare in codebase complessi. Inoltre, raggiunge una copertura della ricostruzione del 98,5% su RepoCraft, confermando l'elevata capacità fedele dell'RPG di rispecchiare il codebase originale e chiudendo il ciclo tra intento e implementazione.
I modelli multimodali unificati spesso incontrano difficoltà con compiti di sintesi complessi che richiedono ragionamento approfondito e tendono a trattare la generazione di immagini da testo e la modifica delle immagini come capacità isolate piuttosto che come passaggi di ragionamento interconnessi. Per affrontare questa limitazione, proponiamo UniReason, un framework unificato che armonizza questi due compiti attraverso un paradigma di ragionamento duale. Concettualizziamo la generazione come una pianificazione potenziata dalla conoscenza del mondo per iniettare vincoli impliciti e sfruttiamo le capacità di editing per un affinamento visivo granulare, al fine di correggere ulteriormente gli errori visivi tramite auto-riflessione. Questo approccio unifica generazione e editing all'interno di una rappresentazione condivisa, rispecchiando il processo cognitivo umano di pianificazione seguito da raffinamento. Supportiamo questo framework costruendo sistematicamente un dataset su larga scala (~300k campioni) incentrato sul ragionamento, che copre cinque principali domini di conoscenza (ad esempio, senso comune culturale, fisica, ecc.) per la pianificazione, affiancato da un corpus generato da agenti per l'auto-correzione visiva. Esperimenti estensivi dimostrano che UniReason raggiunge prestazioni avanzate su benchmark ad alta intensità di ragionamento come WISE, KrisBench e UniREditBench, mantenendo al contempo capacità di sintesi generale superiori.
Proponiamo SWE-Universe, un framework scalabile ed efficiente per la costruzione automatica di ambienti di ingegneria del software (SWE) verificabili e realistici a partire dalle pull request (PR) di GitHub. Per superare le comuni sfide della costruzione automatica, come la bassa resa produttiva, verificatori deboli e costi proibitivi, il nostro framework utilizza un agente di costruzione basato su un modello efficiente addestrato su misura. Questo agente impiega un'auto-verifica iterativa e un rilevamento di hacking in-loop per garantire la generazione affidabile di task ad alta fedeltà e verificabili. Utilizzando questo metodo, abbiamo scalato il numero di ambienti SWE multilingue e realistici fino a un milione di unità (807.693). Dimostriamo il profondo valore dei nostri ambienti attraverso un mid-training agentico su larga scala e l'apprendimento per rinforzo. Infine, abbiamo applicato questa tecnica a Qwen3-Max-Thinking, raggiungendo un punteggio del 75,3% su SWE-Bench Verified. Il nostro lavoro fornisce sia una risorsa critica che una metodologia robusta per far progredire la prossima generazione di agenti di programmazione.
La ricerca approfondita sta emergendo come un compito rappresentativo a lungo orizzonte per gli agenti basati su grandi modelli linguistici (LLM). Tuttavia, le traiettorie lunghe nella ricerca approfondita spesso superano i limiti del contesto del modello, comprimendo il budget di token sia per la raccolta di evidenze che per la scrittura di report, e impedendo un efficace scaling al momento del test. Introduciamo FS-Researcher, un framework duale-agente basato su file system che scala la ricerca approfondita oltre la finestra di contesto tramite un workspace persistente. Nello specifico, un agente "Costruttore del Contesto" funge da bibliotecario, navigando in internet, scrivendo appunti strutturati e archiviando le fonti grezze in una base di conoscenza gerarchica che può crescere ben oltre la lunghezza del contesto. Un agente "Scrittore di Report" compone poi il report finale sezione per sezione, trattando la base di conoscenza come fonte dei fatti. In questo framework, il file system funge da memoria esterna duratura e da mezzo di coordinamento condiviso tra agenti e sessioni, consentendo una raffinazione iterativa oltre la finestra di contesto. Esperimenti su due benchmark aperti (DeepResearch Bench e DeepConsult) mostrano che FS-Researcher raggiunge una qualità del report allo stato dell'arte attraverso diversi modelli di base. Ulteriori analisi dimostrano una correlazione positiva tra la qualità del report finale e la potenza di calcolo allocata al Costruttore del Contesto, validando uno scaling efficace al momento del test sotto il paradigma del file system. Il codice e i dati sono open-source anonimi all'indirizzo https://github.com/Ignoramus0817/FS-Researcher.
La diffusione pixel genera immagini direttamente nello spazio dei pixel in modo end-to-end, evitando gli artefatti e i colli di bottiglia introdotti dai VAE nella diffusione latente a due stadi. Tuttavia, è complesso ottimizzare le varietà pixel ad alta dimensione che contengono molti segnali percettivamente irrilevanti, facendo sì che i metodi esistenti di diffusione pixel rimangano indietro rispetto ai modelli di diffusione latente. Proponiamo PixelGen, un semplice framework di diffusione pixel con supervisione percettiva. Invece di modellare l'intera varietà dell'immagine, PixelGen introduce due loss percettivi complementari per guidare il modello di diffusione verso l'apprendimento di una varietà percettiva più significativa. Una loss LPIPS facilita l'apprendimento di pattern locali migliori, mentre una loss percettiva basata su DINO rafforza la semantica globale. Con la supervisione percettiva, PixelGen supera solidi baseline di diffusione latente. Raggiunge un FID di 5.11 su ImageNet-256 senza guida classifier-free utilizzando solo 80 epoche di addestramento, e dimostra prestazioni di scalabilità favorevoli nella generazione testo-immagine su larga scala con un punteggio GenEval di 0.79. PixelGen non richiede VAE, né rappresentazioni latenti, né stadi ausiliari, offrendo un paradigma generativo più semplice ma più potente. I codici sono pubblicamente disponibili su https://github.com/Zehong-Ma/PixelGen.
L'Apprendimento Progressivo (PL) riduce il sovraccarico computazionale del pre-addestramento aumentando gradualmente la scala del modello. Sebbene i lavori precedenti abbiano ampiamente esplorato l'espansione in profondità, l'espansione in ampiezza rimane notevolmente poco studiata, con i pochi metodi esistenti limitati alle fasi iniziali dell'addestramento. Tuttavia, espandere l'ampiezza durante la fase intermedia è essenziale per massimizzare il risparmio computazionale, ma rimane una sfida formidabile a causa di gravi instabilità nell'addestramento. Empiricamente, dimostriamo che una semplice inizializzazione in questa fase altera le statistiche delle attivazioni, innescando picchi di perdita, mentre l'inizializzazione basata sulla copia introduce una simmetria del gradiente che ostacola la diversità delle feature. Per affrontare questi problemi, proponiamo SPARKLING (bilanciamento della {P}reservazione del {S}egnale e {R}ottura della simmetria per l'Apprendimento {L} progressivo in ampiezza), un nuovo framework per l'espansione in ampiezza nella fase intermedia. Il nostro metodo raggiunge la preservazione del segnale tramite la consistenza della scala RMS, stabilizzando le statistiche delle attivazioni durante l'espansione. La rottura della simmetria è garantita attraverso un reset asimmetrico dello stato dell'ottimizzatore e un nuovo riscaldamento del tasso di apprendimento. Esperimenti estesi su modelli Mixture-of-Experts (MoE) dimostrano che, su molteplici assi di ampiezza e famiglie di ottimizzatori, SPARKLING supera costantemente l'addestramento da zero e riduce il costo dell'addestramento fino al 35% sotto un'espansione di ampiezza di 2 volte.
La raccomandazione basata su Semantic ID (SID) è un paradigma promettente per il ridimensionamento dei sistemi di raccomandazione sequenziali, ma i metodi esistenti seguono in gran parte una pipeline di tipo semantic-centric: gli embedding degli item vengono appresi da modelli di base e discretizzati utilizzando schemi di quantizzazione generici. Questo design è disallineato rispetto agli obiettivi della raccomandazione generativa: gli embedding semantici sono debolmente accoppiati con la previsione collaborativa, e la quantizzazione generica è inefficiente nel ridurre l'incertezza sequenziale per la modellazione autoregressiva. Per affrontare questi problemi, proponiamo ReSID, un framework SID nativo per la raccomandazione e basato su principi, che ripensa l'apprendimento della rappresentazione e la quantizzazione dalla prospettiva della preservazione dell'informazione e della prevedibilità sequenziale, senza fare affidamento su LLM. ReSID è composto da due componenti: (i) Field-Aware Masked Auto-Encoding (FAMAE), che apprende rappresentazioni degli item predittive e sufficienti a partire da feature strutturate, e (ii) Globally Aligned Orthogonal Quantization (GAOQ), che produce sequenze SID compatte e prevedibili riducendo congiuntamente l'ambiguità semantica e l'incertezza condizionata al prefisso. L'analisi teorica e ampi esperimenti su dieci dataset dimostrano l'efficacia di ReSID. ReSID supera costantemente solidi baseline sequenziali e generativi basati su SID di una media superiore al 10%, riducendo al contempo il costo di tokenizzazione fino a 122 volte. Il codice è disponibile all'indirizzo https://github.com/FuCongResearchSquad/ReSID.
Il post-addestramento dei modelli linguistici di ragionamento è un processo olistico che tipicamente consiste in una fase offline di SFT (Supervised Fine-Tuning) seguita da una fase online di apprendimento per rinforzo (RL). Tuttavia, l'SFT viene spesso ottimizzato in modo isolato per massimizzare esclusivamente le prestazioni SFT. Dimostriamo che, dopo un identico addestramento RL, i modelli inizializzati da checkpoint SFT più forti possono ottenere prestazioni significativamente inferiori rispetto a quelli inizializzati da checkpoint più deboli. Attribuiamo questo a un disallineamento tipico delle pipeline SFT-RL attuali: la distribuzione che genera i dati SFT offline può differire sostanzialmente dalla politica ottimizzata durante l'RL online, che apprende dalle proprie traiettorie. Proponiamo PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), un metodo per la fase SFT che corregge questo disallineamento e prepara meglio il modello per l'RL. PEAR utilizza l'importance sampling per ripesare la loss SFT, con tre varianti che operano a livello di token, blocco e sequenza. Può essere utilizzato per potenziare gli obiettivi SFT standard e comporta un sovraccarico computazionale aggiuntivo minimo una volta raccolte le probabilità per i dati offline. Condurremo esperimenti controllati su giochi di ragionamento verificabili e compiti di ragionamento matematico sui modelli Qwen 2.5 e 3 e sui modelli distillati di DeepSeek. PEAR migliora costantemente le prestazioni post-RL rispetto all'SFT canonico, con guadagni in "pass@8" fino al 14,6% su AIME2025. I nostri risultati suggeriscono che PEAR rappresenta un passo efficace verso un post-addestramento più olistico dei LLM, progettando e valutando l'SFT tenendo conto dell'RL a valle piuttosto che in modo isolato.
I modelli di mondo (World Models, WM) per interfacce grafiche (GUI) mobili offrono una prospettiva promettente per migliorare le prestazioni degli agenti GUI mobili durante l'addestramento e l'inferenza. Tuttavia, gli approcci attuali affrontano un compromesso critico: i WM basati su testo sacrificano la fedeltà visiva, mentre l'incapacità dei WM visivi di riprodurre il testo in modo preciso li ha portati a dipendere da pipeline lente e complesse che si affidano a numerosi modelli esterni. Proponiamo un nuovo paradigma: la modellazione visiva del mondo tramite generazione di codice renderizzabile, in cui un singolo modello visione-linguaggio (Vision-Language Model, VLM) predice lo stato successivo della GUI come codice web eseguibile che viene renderizzato in pixel, anziché generare i pixel direttamente. Ciò combina i punti di forza di entrambi gli approcci: i VLM conservano i loro preconcetti linguistici per una resa precisa del testo, mentre il loro pre-addestramento su codice web strutturato consente una generazione visiva ad alta fedeltà. Introduciamo gWorld (8B, 32B), i primi WM visivi per GUI mobili open-weight costruiti su questo paradigma, insieme a un framework di generazione dati (gWorld) che sintetizza automaticamente dati di addestramento basati su codice. In una valutazione estesa su 4 benchmark in-distribuzione e 2 out-of-distribution, gWorld stabilisce una nuova frontiera di Pareto in accuratezza rispetto alla dimensione del modello, superando 8 modelli open-weight all'avanguardia fino a 50,25 volte più grandi. Ulteriori analisi mostrano che (1) il ridimensionamento dei dati di addestramento tramite gWorld produce miglioramenti significativi, (2) ogni componente della nostra pipeline migliora la qualità dei dati e (3) una modellazione del mondo più robusta migliora le prestazioni delle policy per GUI mobili a valle.
La Generazione Aumentata dal Recupero basata su Grafi (GraphRAG) organizza la conoscenza esterna come un grafo gerarchico, consentendo un recupero e un'aggregazione efficienti di prove sparse tra più documenti. Tuttavia, molti benchmark esistenti per GraphRAG si basano su passaggi brevi e selezionati come conoscenza esterna, non riuscendo a valutare adeguatamente i sistemi in contesti realistici che coinvolgono contesti lunghi e documenti eterogenei su larga scala. Per colmare questa lacuna, introduciamo WildGraphBench, un benchmark progettato per valutare le prestazioni di GraphRAG in scenari reali. Sfruttiamo la struttura unica di Wikipedia, in cui narrative coerenti sono basate su documenti di riferimento esterni lunghi ed eterogenei, per costruire un benchmark che rifletta scenari del mondo reale. Nello specifico, campioniamo articoli relativi a 12 argomenti di alto livello, utilizzando i loro riferimenti esterni come corpus per il recupero e le affermazioni collegate alle citazioni come verità di base, ottenendo così 1.100 domande che coprono tre livelli di complessità: domande e risposte (QA) a fatto singolo, QA a fatti multipli e riassunto a livello di sezione. Esperimenti condotti su più baseline rivelano che le pipeline GraphRAG attuali sono utili per l'aggregazione di fatti multipli quando le prove provengono da un numero moderato di fonti, ma questo paradigma di aggregazione potrebbe enfatizzare eccessivamente le affermazioni di alto livello a scapito dei dettagli granulari, portando a prestazioni più deboli nelle attività di riassunto. Pagina del progetto: https://github.com/BstWPY/WildGraphBench
Il ragionamento a catena di pensieri ha spinto i grandi modelli linguistici ad evolvere dal pensare con il testo al pensare con immagini e video. Tuttavia, le diverse modalità presentano ancora limiti evidenti: le immagini statiche faticano a rappresentare la struttura temporale, mentre i video introducono una notevole ridondanza e costo computazionale. In questo lavoro proponiamo Pensare con i Fumetti, un paradigma di ragionamento visivo che utilizza i fumetti come medium ad alta densità informativa posizionato tra immagini e video. I fumetti preservano la struttura temporale, il testo incorporato e la coerenza narrativa, richiedendo al contempo un costo di ragionamento significativamente inferiore. Studiamo sistematicamente due percorsi di ragionamento basati sui fumetti e li valutiamo su una serie di compiti di ragionamento e di comprensione contestuale estesa. I risultati sperimentali dimostrano che Pensare con i Fumetti supera il Pensare con le Immagini nei compiti di ragionamento temporale e causale multi-step, mantenendo al contempo un'efficienza sostanzialmente superiore al Pensare con i Video. Ulteriori analisi indicano che diverse strutture narrative e stili dei fumetti influenzano costantemente le prestazioni across i compiti, suggerendo che i fumetti fungano da rappresentazione visiva intermedia efficace per migliorare il ragionamento multimodale.
Proponiamo RLAnything, un framework di reinforcement learning che forgia dinamicamente ambiente, politica e modelli di reward attraverso un'ottimizzazione a ciclo chiuso, amplificando i segnali di apprendimento e rafforzando il sistema RL complessivo per qualsiasi scenario LLM o agentico. Nello specifico, la politica viene addestrata con un feedback integrato proveniente da segnali step-by-step e di outcome, mentre il modello di reward è ottimizzato congiuntamente tramite un feedback di consistenza, che a sua volta migliora ulteriormente l'addestramento della politica. Inoltre, la nostra adattamento automatico dell'ambiente, guidato da considerazioni teoriche, migliora l'addestramento sia dei modelli di reward che delle politiche sfruttando il feedback del critic proveniente da ciascuno di essi, permettendo l'apprendimento dall'esperienza. Empiricamente, ogni componente aggiunto migliora in modo consistente il sistema generale, e RLAnything produce guadagni sostanziali su vari compiti rappresentativi per LLM e agenti, incrementando le prestazioni di Qwen3-VL-8B-Thinking del 9.1% su OSWorld e di Qwen2.5-7B-Instruct del 18.7% e dell'11.9% rispettivamente su AlfWorld e LiveBench. Dimostriamo inoltre che i segnali del modello di reward ottimizzato superano gli outcome che si basano su etichette umane. Codice: https://github.com/Gen-Verse/Open-AgentRL
Gli Agenti di Ricerca Approfondita (DRA) hanno dimostrato capacità notevoli nel recupero autonomo di informazioni e nella generazione di report, mostrando un grande potenziale nell'assistere gli esseri umani in compiti di ricerca complessi. Gli attuali framework di valutazione si basano principalmente su riferimenti generati da LLM o su dimensioni di valutazione derivate da LLM. Sebbene questi approcci offrano scalabilità, spesso mancano dell'affidabilità di contenuti verificati da esperti e faticano a fornire valutazioni oggettive e granulari di dimensioni critiche. Per colmare questa lacuna, introduciamo Wiki Live Challenge (WLC), un benchmark in tempo reale che utilizza i più recenti Articoli di Qualità (Good Articles, GA) di Wikipedia come riferimenti di livello esperto. Gli standard rigorosi di Wikipedia per neutralità, completezza e verificabilità rappresentano un'ottima sfida per i DRA, con i GA che ne incarnano l'eccellenza. Abbiamo curato un dataset di 100 Articoli di Qualità recenti e proposto Wiki Eval, un framework di valutazione completo che comprende un metodo di valutazione granulare con 39 criteri per la qualità della scrittura e metriche rigorose per la verificabilità fattuale. Esperimenti estesi su vari sistemi DRA dimostrano un divario significativo tra gli attuali DRA e gli articoli Wikipedia di livello esperto umano, convalidando l'efficacia di WLC nel far progredire la ricerca sugli agenti. Rilasciamo il nostro benchmark all'indirizzo https://github.com/WangShao2000/Wiki_Live_Challenge.
I metodi di ottimizzazione diretta delle preferenze sono emersi come un'alternativa computazionalmente efficiente al Reinforcement Learning from Human Feedback (RLHF) per l'allineamento dei Large Language Model (LLM). Gli approcci più recenti hanno semplificato il processo di allineamento derivando funzioni di ricompensa implicite, ma soffrono spesso di un fondamentale disallineamento degli obiettivi: ottimizzare il margine relativo tra risposte scelte e rifiutate non garantisce la preservazione della likelihood assoluta della risposta scelta. Ciò può portare a un "disapprendimento" (unlearning), in cui il modello degrada la probabilità di output di alta qualità per soddisfare i vincoli di margine, e a un "collasso della formattazione" (formatting collapse) causato dalla penalizzazione eccessiva delle sequenze rifiutate. In questo lavoro introduciamo SLIME (Stabilized Likelihood Implicit Margin Enforcement), un obiettivo di allineamento senza riferimento progettato per disaccoppiare l'apprendimento delle preferenze dalla qualità generativa. SLIME incorpora un obiettivo tripartito: (1) un termine di ancoraggio per massimizzare la likelihood delle risposte preferite; (2) una penalità stabilizzante che impedisce il collasso a zero delle probabilità dei token rifiutati; e (3) un meccanismo a doppio margine che combina vincoli rigidi e soft per una modellazione precisa dei confini. I nostri risultati dimostrano che SLIME raggiunge prestazioni superiori rispetto ai baseline state-of-the-art mantenendo al contempo una maggiore stabilità generativa.
I modelli di diffusione video autoregressivi abilitano la generazione in streaming, aprendo la porta alla sintesi di contenuti long-form, ai modelli di mondo video e ai motori di gioco neurali interattivi. Tuttavia, i loro strati di attenzione centrali diventano un collo di bottiglia principale durante l'inferenza: con il progredire della generazione, la cache dei valori-chiave (KV) cresce, causando sia una latenza crescente che un aumento progressivo della memoria GPU, che a sua volta limita il contesto temporale utilizzabile e compromette la coerenza a lungo raggio. In questo lavoro, studiamo la ridondanza nella diffusione video autoregressiva e identifichiamo tre fonti persistenti: chiavi nella cache quasi duplicate tra i frame, query/chiavi che evolvono lentamente (per lo più semantiche) che rendono ridondanti molti calcoli di attenzione, e la cross-attention su prompt lunghi dove solo un piccolo sottoinsieme di token è rilevante per frame. Basandoci su queste osservazioni, proponiamo un framework di attenzione unificato e senza addestramento per la diffusione autoregressiva: TempCache comprime la cache KV tramite corrispondenza temporale per limitarne la crescita; AnnCA accelera la cross-attention selezionando i token del prompt rilevanti per il frame utilizzando un'approssimazione veloce del nearest neighbor (ANN); e AnnSA sparsifica la self-attention limitando ogni query a chiavi semanticamente corrispondenti, anch'esso utilizzando un ANN leggero. Insieme, questi moduli riducono l'attenzione, il calcolo e la memoria e sono compatibili con le architetture di diffusione autoregressive esistenti e con i modelli di mondo. Gli esperimenti dimostrano accelerazioni end-to-end fino a 5-10 volte preservando una qualità visiva quasi identica e, crucialmente, mantenendo una velocità di elaborazione stabile e un utilizzo di picco della memoria GPU quasi costante durante generazioni lunghe, laddove i metodi precedenti rallentano progressivamente e soffrono di un utilizzo di memoria crescente.
Per ottenere una generazione video interattiva in tempo reale, i metodi attuali distillano modelli bidirezionali di diffusione video preaddestrati in modelli autoregressivi (AR) a pochi passi, affrontando un divario architetturale quando l'attenzione completa viene sostituita da un'attenzione causale. Tuttavia, gli approcci esistenti non colmano teoricamente questo divario. Essi inizializzano lo studente AR tramite distillazione ODE, che richiede l'iniettività a livello di frame, dove ogni frame rumoroso deve mappare univocamente su un frame pulito sotto la PF-ODE di un insegnante AR. Distillare uno studente AR da un insegnante bidirezionale viola questa condizione, impedendo il recupero della mappa di flusso dell'insegnante e inducendo invece una soluzione di aspettativa condizionata, che degrada le prestazioni. Per affrontare questo problema, proponiamo il Causal Forcing che utilizza un insegnante AR per l'inizializzazione ODE, colmando così il divario architetturale. I risultati empirici mostrano che il nostro metodo supera tutte le baseline in tutte le metriche, superando lo stato dell'arte Self Forcing del 19,3% nel Dynamic Degree, dell'8,7% in VisionReward e del 16,7% nell'Instruction Following. Pagina del progetto e codice: https://thu-ml.github.io/CausalForcing.github.io/
La generazione video da testo (Text-to-Video, T2V) mira a sintetizzare video di alta qualità visiva e coerenza temporale, semanticamente allineati al testo di input. L'addestramento post-hoc basato su reward si è affermato come una direzione promettente per migliorare la qualità e l'allineamento semantico dei video generati. Tuttavia, i metodi recenti si basano su annotazioni su larga scala di preferenze umane o operano su embedding disallineati provenienti da modelli pre-addestrati visione-linguaggio, portando a una scalabilità limitata o a una supervisione subottimale. Presentiamo PISCES, un algoritmo di post-training senza annotazioni che affronta queste limitazioni attraverso un nuovo modulo di Reward al Dual Optimal Transport (OT). Per allineare i segnali di reward al giudizio umano, PISCES utilizza l'OT per collegare gli embedding di testo e video sia a livello distribuzionale che a livello di token discreti, consentendo alla supervisione del reward di soddisfare due obiettivi: (i) un Reward di Qualità allineato all'OT Distribuzionale che cattura la qualità visiva complessiva e la coerenza temporale; e (ii) un Reward Semantico a livello di Token Discreti allineato all'OT che impone una corrispondenza semantica spazio-temporale tra i token di testo e video. A nostra conoscenza, PISCES è il primo a migliorare la supervisione del reward senza annotazioni nell'addestramento post-hoc generativo attraverso la lente dell'OT. Esperimenti sulla generazione di video brevi e lunghi mostrano che PISCES supera sia i metodi basati su annotazioni che quelli senza annotazioni su VBench in termini di punteggi di Qualità e Semantica, con studi sulle preferenze umane che ne convalidano ulteriormente l'efficacia. Dimostriamo che il modulo Dual OT-aligned Rewards è compatibile con molteplici paradigmi di ottimizzazione, inclusi la retropropagazione diretta e il fine-tuning con apprendimento per rinforzo.
Sebbene la generazione di immagini da testo abbia raggiunto una fedeltà senza precedenti, la stragrande maggioranza dei modelli esistenti funziona fondamentalmente come decodificatori statici da testo a pixel. Di conseguenza, spesso non colgono le intenzioni implicite dell'utente. Sebbene i modelli unificati emergenti di comprensione-generazione abbiano migliorato la comprensione dell'intento, faticano ancora a portare a termine compiti che implicano un ragionamento complesso sulla conoscenza all'interno di un singolo modello. Inoltre, limitati da prior interni statici, questi modelli rimangono incapaci di adattarsi alle dinamiche in evoluzione del mondo reale. Per colmare queste lacune, introduciamo Mind-Brush, un framework agenziale unificato che trasforma la generazione in un flusso di lavoro dinamico e guidato dalla conoscenza. Simulando un paradigma umano "pensa-ricerca-crea", Mind-Brush recupera attivamente evidenze multimodali per ancorare concetti fuori distribuzione e impiega strumenti di ragionamento per risolvere vincoli visivi impliciti. Per valutare rigorosamente queste capacità, proponiamo Mind-Bench, un benchmark completo comprendente 500 campioni distinti che abbracciano notizie in tempo reale, concetti emergenti e domini come il ragionamento matematico e geo-spaziale. Esperimenti estensivi dimostrano che Mind-Brush migliora significativamente le capacità dei modelli unificati, realizzando un salto di capacità da zero a uno per la baseline Qwen-Image su Mind-Bench, raggiungendo al contempo risultati superiori su benchmark consolidati come WISE e RISE.
Sforzi crescenti per migliorare la distillazione della conoscenza (KD) nei grandi modelli linguistici (LLM) stanno sostituendo la supervisione densa del docente con una distillazione selettiva, che utilizza un sottoinsieme di posizioni dei token, classi del vocabolario o campioni di addestramento per la supervisione. Tuttavia, rimane poco chiaro quali segnali di importanza, politiche di selezione e la loro interazione siano più efficaci. In questo lavoro, esaminiamo nuovamente dove e come effettuare la distillazione nei LLM autoregressivi. Disentanglediamo la KD selettiva lungo gli assi di posizione, classe e campione, e confrontiamo sistematicamente i segnali di importanza e le politiche di selezione. Quindi, guidati da questa analisi, identifichiamo opportunità poco esplorate e introduciamo la selezione di posizione guidata dall'entropia dello studente (SE-KD). In una serie di benchmark, la SE-KD migliora spesso l'accuratezza, l'aderenza ai task downstream e l'efficienza di memoria rispetto alla distillazione densa. Estendendo questo approccio attraverso gli assi di classe e campione (SE-KD 3X) si ottengono guadagni di efficienza complementari che rendono fattibile la memorizzazione in cache offline del docente. Nella pratica, ciò riduce il tempo di esecuzione del 70% e la memoria di picco del 18%, riducendo contemporaneamente l'utilizzo di storage dell'80% rispetto ai metodi precedenti senza sacrificare le prestazioni.
Gli agenti di ricerca approfondita basati su LLM sono prevalentemente costruiti sul framework ReAct. Questa progettazione lineare rende difficile rivisitare stati precedenti, diramarsi in direzioni di ricerca alternative o mantenere una consapevolezza globale in contesti lunghi, portando spesso a ottimi locali, esplorazioni ridondanti e ricerche inefficienti. Proponiamo Re-TRAC, un framework agentivo che esegue un'esplorazione cross-traiettoria generando una rappresentazione strutturata dello stato dopo ogni traiettoria per riassumere evidenze, incertezze, fallimenti e piani futuri, e condizionando le traiettorie successive su questa rappresentazione di stato. Ciò consente una riflessione iterativa e una pianificazione globalmente informata, riformulando la ricerca come un processo progressivo. I risultati empirici mostrano che Re-TRAC supera costantemente ReAct del 15-20% su BrowseComp con LLM all'avanguardia. Per modelli più piccoli, introduciamo un fine-tuning supervisionato consapevole di Re-TRAC, raggiungendo prestazioni allo stato dell'arte a scale comparabili. Significativamente, Re-TRAC mostra una riduzione monotona delle chiamate agli strumenti e dell'utilizzo di token attraverso i round, indicando un'esplorazione progressivamente mirata guidata dalla riflessione cross-traiettoria piuttosto che da una ricerca ridondante.
Presentiamo FSVideo, un framework di diffusione image-to-video (I2V) basato su transformer ad alta velocità. La nostra architettura si fonda sui seguenti componenti chiave: 1) un nuovo autoencoder video con spazio latente altamente compresso (rapporto di downsampling spazio-temporale 64x64x4), che raggiunge una qualità di ricostruzione competitiva; 2) un'architettura Diffusion Transformer (DIT) con un nuovo design a memoria degli strati per potenziare il flusso informativo inter-strato e il riutilizzo del contesto all'interno del DIT; e 3) una strategia di generazione multi-risoluzione tramite un upsampler DIT a pochi passi per aumentare la fedeltà del video. Il nostro modello finale, che comprende un modello base DIT da 14B e un upsampler DIT da 14B, raggiunge prestazioni competitive rispetto ad altri modelli open-source diffusi, risultando al contempo di un ordine di grandezza più veloce. In questo rapporto discutiamo la progettazione del nostro modello e le relative strategie di addestramento.
La finanza giapponese combina una struttura linguistica agglutinante e testa-finale, sistemi di scrittura misti e norme comunicative ad alto contesto che si basano su espressioni indirette e impegni impliciti, rappresentando una sfida significativa per i LLM. Presentiamo Ebisu, un benchmark per la comprensione linguistica finanziaria nativa giapponese, che comprende due task fondati su basi linguistiche e culturali, annotati da esperti: JF-ICR, che valuta il riconoscimento di impegni impliciti e rifiuti in domande e risposte con gli investitori, e JF-TE, che valuta l'estrazione gerarchica e la classificazione di terminologia finanziaria nidificata da documenti professionali. Valutiamo un insieme diversificato di LLM open-source e proprietari, che includono modelli generici, adattati al giapponese e finanziari. I risultati mostrano che anche i sistemi più all'avanguardia faticano in entrambi i task. Sebbene l'aumento della scala del modello produca miglioramenti limitati, l'adattamento linguistico e di dominio specifico non migliora in modo affidabile le prestazioni, lasciando sostanziali lacune irrisolte. Ebisu fornisce un benchmark mirato per far progredire l'NLP finanziario fondato su basi linguistiche e culturali. Tutti i dataset e gli script di valutazione sono rilasciati pubblicamente.
Una metafora visiva costituisce una forma avanzata di creatività umana, che impiega una fusione semantica trans-dominio per trasformare concetti astratti in un'impatante retorica visiva. Nonostante i notevoli progressi dell'IA generativa, i modelli esistenti rimangono prevalentemente confinati all'allineamento a livello di pixel e alla preservazione dell'aspetto superficiale, fallendo nel cogliere la logica astratta sottostante necessaria per un'autentica generazione metaforica. Per colmare questa lacuna, introduciamo il compito del Trasferimento di Metafora Visiva (VMT), che sfida i modelli a disaccoppiare autonomamente l'"essenza creativa" da un'immagine di riferimento e a re-materializzare quella logica astratta su un soggetto target specificato dall'utente. Proponiamo un framework multi-agente di ispirazione cognitiva che opera la Teoria del Blending Concettuale (CBT) attraverso una nuova Grammatica degli Schemi ("G"). Questa rappresentazione strutturata disaccoppia gli invarianti relazionali da entità visive specifiche, fornendo una base rigorosa per la re-istanziazione di logica trans-dominio. La nostra pipeline esegue il VMT attraverso un sistema collaborativo di agenti specializzati: un agente di percezione che estrae lo schema dal riferimento, un agente di trasferimento che mantiene l'invarianza dello spazio generico per individuare vettori appropriati, un agente di generazione per la sintesi ad alta fedeltà e un agente diagnostico gerarchico che imita un critico professionista, eseguendo un backtracking a ciclo chiuso per identificare e correggere errori nella logica astratta, nella selezione dei componenti e nella codifica dei prompt. Esperimenti estensivi e valutazioni umane dimostrano che il nostro metodo supera significativamente i baseline state-of-the-art in coerenza metaforica, appropriatezza analogica e creatività visiva, aprendo la strada a applicazioni creative automatizzate ad alto impatto nella pubblicità e nei media. Il codice sorgente sarà reso pubblicamente disponibile.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno ottenuto un notevole successo in compiti percettivi a vocabolario aperto, ma la loro capacità di risolvere problemi cognitivi complessi rimane limitata, specialmente quando i dettagli visivi sono astratti e richiedono memoria visiva. Gli approcci attuali ampliano principalmente il ragionamento a Catena del Pensiero (CoT) nello spazio testuale, anche quando il linguaggio da solo è insufficiente per un ragionamento chiaro e strutturato, e trascurano in larga misura meccanismi di ragionamento visivo analoghi al "taccuino visuospaziale" e all'immaginazione visiva umani. Per ovviare a questa carenza, introduciamo il Cognitive Supersensing, un nuovo paradigma di addestramento che conferisce agli MLLM capacità di immaginazione visiva simili a quelle umane, integrando un modulo di Predizione dell'Immaginazione Visiva Latente (LVIP). Questo modulo impara congiuntamente sequenze di incorporamenti latenti visivi cognitivi e li allinea con la risposta, formando così catene di ragionamento interne basate sulla visione. Introduciamo inoltre una fase di apprendimento per rinforzo che ottimizza i percorsi di ragionamento testuale sulla base di questo latente visivo fondato. Per valutare le capacità cognitive degli MLLM, presentiamo CogSense-Bench, un benchmark completo di risposta a domande visive (VQA) che valuta cinque dimensioni cognitive. Esperimenti estensivi dimostrano che gli MLLM addestrati con Cognitive Supersensing superano significativamente i baseline allo stato dell'arte su CogSense-Bench ed esibiscono una generalizzazione superiore su benchmark VQA di matematica e scienze fuori dominio, suggerendo che l'immaginazione visiva interna è potenzialmente la chiave per colmare il divario tra il riconoscimento percettivo e la comprensione cognitiva. Renderemo open-source CogSense-Bench e i pesi del nostro modello.
I recenti modelli generativi hanno compiuto progressi notevoli nell'editing di immagini. Tuttavia, i sistemi e i benchmark esistenti rimangono prevalentemente guidati dal testo. Al contrario, la comunicazione umana è intrinsecamente multimodale, dove istruzioni visive come gli schizzi trasmettono efficacemente intenti spaziali e strutturali. Per colmare questa lacuna, introduciamo VIBE, il Benchmark di Istruzioni Visive per l'Editing di Immagini, con una gerarchia di interazione a tre livelli che cattura l'ancoraggio deittico, la manipolazione morfologica e il ragionamento causale. Attraverso questi livelli, curiamo casi di test di alta qualità e diversificati che riflettono una complessità progressivamente crescente nel seguire le istruzioni visive. Proponiamo inoltre un robusto framework di valutazione LMM-as-a-judge con metriche specifiche per il compito, per consentire una valutazione scalabile e granulare. Attraverso una valutazione completa di 17 modelli rappresentativi di editing di immagini, open-source e proprietari, scopriamo che i modelli proprietari mostrano capacità iniziali di seguire istruzioni visive e superano costantemente i modelli open-source. Tuttavia, le prestazioni si degradano marcatamente con l'aumentare della difficoltà del compito anche per i sistemi più potenti, evidenziando direzioni promettenti per la ricerca futura.
La generazione di avatar parlanti è un compito fondamentale nella sintesi video. Sebbene i metodi esistenti possano generare avatar parlanti a figura intera con movimenti umani semplici, estendere questo compito all'interazione umano-oggetto contestuale (GHOI) rimane una sfida aperta, poiché richiede che l'avatar esegua interazioni allineate al testo con oggetti circostanti. Questa sfida deriva dalla necessità di percezione ambientale e dal dilemma controllo-qualità nella generazione GHOI. Per affrontarlo, proponiamo una nuova architettura dual-stream, InteractAvatar, che disaccoppia percezione e pianificazione dalla sintesi video per l'interazione umano-oggetto contestuale. Sfruttando il rilevamento per potenziare la percezione ambientale, introduciamo un Modulo di Percezione e Interazione (PIM) per generare movimenti d'interazione allineati al testo. Inoltre, viene proposto un Modulo di Generazione Audio-Interazione Consapevole (AIM) per sintetizzare avatar parlanti che eseguono interazioni con oggetti in modo vivido. Grazie a un allineatore movimento-video appositamente progettato, PIM e AIM condividono una struttura di rete simile e consentono la co-generazione parallela di movimenti e video plausibili, mitigando efficacemente il dilemma controllo-qualità. Infine, stabiliamo un benchmark, GroundedInter, per valutare la generazione video GHOI. Esperimenti estesi e confronti dimostrano l'efficacia del nostro metodo nella generazione di interazioni umano-oggetto contestuali per avatar parlanti. Pagina del progetto: https://interactavatar.github.io
I modelli di reward standard tipicamente predicano punteggi scalari che non riescono a catturare la natura multifaccetata della qualità della risposta in domini non verificabili, come la scrittura creativa o l'adesione a istruzioni aperte. Per affrontare questa limitazione, proponiamo Rubric-ARM, un framework che ottimizza congiuntamente un generatore di rubriche e un giudice utilizzando l'apprendimento per rinforzo da feedback di preferenza. A differenza dei metodi esistenti che si basano su rubriche statiche o pipeline di addestramento disgiunte, il nostro approccio tratta la generazione della rubrica come un'azione latente appresa per massimizzare l'accuratezza del giudizio. Introduciamo una strategia di ottimizzazione alternata per mitigare la non stazionarietà degli aggiornamenti simultanei, fornendo un'analisi teorica che dimostra come questa pianificazione riduca la varianza del gradiente durante l'addestramento. Esperimenti estesi mostrano che Rubric-ARM raggiunge prestazioni all'avanguardia tra i baseline su molteplici benchmark e migliora significativamente l'allineamento della politica a valle in contesti di apprendimento per rinforzo sia offline che online.
Gli agenti che utilizzano computer (CUA) mirano a operare autonomamente sui sistemi informatici per completare compiti nel mondo reale. Tuttavia, i sistemi agentici esistenti rimangono difficili da scalare e sono inferiori alle prestazioni umane. Una limitazione chiave è l'assenza di astrazioni di abilità riutilizzabili e strutturate che catturino come gli umani interagiscono con le interfacce utente grafiche e come sfruttare queste abilità. Introduciamo CUA-Skill, una base di abilità agentica per l'uso del computer che codifica la conoscenza umana dell'uso del computer come abilità, accoppiate a grafi di esecuzione parametrici e di composizione. CUA-Skill è una libreria su larga scala di abilità accuratamente progettate che coprono applicazioni Windows comuni, fungendo da infrastruttura pratica e substrato di strumenti per lo sviluppo di agenti scalabili e affidabili. Basandoci su questa base di abilità, costruiamo CUA-Skill Agent, un agente end-to-end per l'uso del computer che supporta il recupero dinamico delle abilità, l'istanziazione degli argomenti e il ripristino da errori con consapevolezza della memoria. I nostri risultati dimostrano che CUA-Skill migliora sostanzialmente i tassi di successo dell'esecuzione e la robustezza su benchmark agentici end-to-end impegnativi, stabilendo una solida base per lo sviluppo futuro degli agenti che utilizzano computer. Su WindowsAgentArena, CUA-Skill Agent raggiunge uno stato dell'arte del 57,5% (miglior risultato su tre) di tasso di successo, risultando significativamente più efficiente rispetto agli approcci precedenti e contemporanei. La pagina del progetto è disponibile all'indirizzo https://microsoft.github.io/cua_skill/.
I metodi per controllare i grandi modelli linguistici (LLM), inclusi il fine-tuning locale dei pesi, l'adattamento basato su LoRA e gli interventi basati sull'attivazione, sono spesso studiati in modo isolato, oscurando le loro connessioni e rendendo difficile il confronto. In questo lavoro, presentiamo una visione unificata che inquadra questi interventi come aggiornamenti dinamici dei pesi indotti da un segnale di controllo, collocandoli all'interno di un unico quadro concettuale. Basandoci su questa visione, proponiamo un'analisi unificata preferenza-utilità che separa gli effetti di controllo in preferenza, definita come la tendenza verso un concetto target, e utilità, definita come generazione coerente e valida per il compito, e misura entrambe su una scala condivisa di log-odds utilizzando esempi contrastivi a polarità opposta. Attraverso i vari metodi, osserviamo un compromesso costante tra preferenza e utilità: un controllo più forte aumenta la preferenza riducendo prevedibilmente l'utilità. Spieghiamo ulteriormente questo comportamento attraverso una prospettiva del manifold di attivazione, in cui il controllo sposta le rappresentazioni lungo le direzioni del concetto target per migliorare la preferenza, mentre l'utilità diminuisce principalmente quando gli interventi spingono le rappresentazioni al di fuori del manifold di generazione valida del modello. Infine, introduciamo un nuovo approccio di steering chiamato SPLIT, guidato da questa analisi, che migliora la preferenza preservando meglio l'utilità. Il codice è disponibile all'indirizzo https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
In questo articolo, identifichiamo un sottosistema di ricompensa sparsa all'interno degli stati nascosti dei Large Language Model (LLM), tracciando un'analogia con il sottosistema di ricompensa biologico nel cervello umano. Dimostriamo che questo sottosistema contiene neuroni del valore che rappresentano l'aspettativa interna del modello riguardo al valore dello stato e, attraverso esperimenti di intervento, stabiliamo l'importanza di questi neuroni per il ragionamento. I nostri esperimenti rivelano che questi neuroni del valore sono robusti su diversi dataset, scale del modello e architetture; inoltre, mostrano una significativa trasferibilità attraverso diversi dataset e modelli addestrati a partire dallo stesso modello base. Esaminando i casi in cui le previsioni di valore e le ricompense effettive divergono, identifichiamo i neuroni della dopamina all'interno del sottosistema di ricompensa che codificano gli errori di previsione della ricompensa (RPE). Questi neuroni mostrano un'elevata attivazione quando la ricompensa è superiore al previsto e una bassa attivazione quando la ricompensa è inferiore al previsto.
I recenti progressi nel ragionamento visivo hanno sfruttato i vision transformer per affrontare il benchmark ARC-AGI. Tuttavia, sosteniamo che l'architettura feed-forward, in cui la profondità computazionale è strettamente vincolata alla dimensione dei parametri, non riesca a cogliere la natura iterativa e algoritmica dell'induzione umana. In questo lavoro, proponiamo un'architettura ricorsiva chiamata Loop-ViT, che disaccoppia la profondità di ragionamento dalla capacità del modello attraverso una ricorrenza con pesi condivisi. Loop-ViT itera un Blocco Ibrido a pesi condivisi, combinando convoluzioni locali e attenzione globale, per formare una catena di pensiero latente. In modo cruciale, introduciamo un meccanismo di Uscita Dinamica senza parametri basato sull'entropia predittiva: il modello interrompe l'inferenza quando il suo stato interno "cristallizza" in un attrattore a bassa incertezza. I risultati empirici sul benchmark ARC-AGI-1 convalidano questa prospettiva: il nostro modello da 18M parametri raggiunge un'accuratezza del 65,8%, superando ensemble massicci da 73M parametri. Questi risultati dimostrano che il calcolo iterativo adattivo offre un asse di scalabilità molto più efficiente per il ragionamento visivo rispetto al semplice aumento della larghezza della rete. Il codice è disponibile all'indirizzo https://github.com/WenjieShu/LoopViT.
I grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di ragionamento attraverso il ragionamento passo-passo a catena del pensiero (CoT). Tuttavia, ai limiti delle capacità del modello, il CoT si rivela spesso insufficiente, e la sua natura strettamente sequenziale limita la scalabilità al momento del test. Un'alternativa potenziale è il ragionamento divide-et-impera (DAC), che scompone un problema complesso in sottoproblemi per facilitare un'esplorazione più efficace della soluzione. Sebbene promettente, la nostra analisi rivela un disallineamento fondamentale tra l'inferenza post-addestramento generica e lo stile DAC, che limita la capacità del modello di sfruttare appieno questo potenziale. Per colmare questa lacuna e sbloccare completamente le capacità di ragionamento degli LLM sui compiti più impegnativi, proponiamo un framework end-to-end di apprendimento per rinforzo (RL) per potenziare la loro capacità di ragionamento in stile DAC. Ad ogni passo, la politica scompone un problema in un gruppo di sottoproblemi, li risolve sequenzialmente e affronta quello originale condizionatamente alle soluzioni dei sottoproblemi, integrando sia la scomposizione che la soluzione nell'addestramento RL. Con un addestramento comparabile, il nostro framework in stile DAC conferisce al modello un limite di prestazioni più elevato e una scalabilità al test più robusta, superando il CoT dell'8.6% in Pass@1 e del 6.3% in Pass@32 su benchmark di livello competitivo.
La generazione testo-immagine (T2I) ha compiuto progressi notevoli, tuttavia i metodi esistenti spesso mancano della capacità di ragionare e perfezionare dinamicamente durante la generazione – un tratto distintivo della creatività umana. I paradigmi attuali potenziati dal ragionamento si basano prevalentemente su processi di pensiero espliciti, in cui il ragionamento intermedio viene decodificato in testo discreto a passi fissi con frequenti operazioni di decodifica e ricodifica dell'immagine, causando inefficienze, perdita di informazioni e disallineamenti cognitivi. Per colmare questa lacuna, introduciamo LatentMorph, un nuovo framework che integra perfettamente il ragionamento latente implicito nel processo di generazione T2I. Il cuore di LatentMorph introduce quattro componenti leggere: (i) un condensatore per riassumere gli stati di generazione intermedi in una memoria visiva compatta, (ii) un traduttore per convertire i pensieri latenti in una guida azionabile, (iii) un modellatore per orientare dinamicamente le previsioni dei token immagine successivi, e (iv) un invocatore addestrato con RL per determinare in modo adattivo quando attivare il ragionamento. Eseguendo il ragionamento interamente in spazi latenti continui, LatentMorph evita i colli di bottiglia del ragionamento esplicito e consente un auto-perfezionamento più adattivo. Esperimenti estensivi dimostrano che LatentMorph (I) potenzia il modello base Janus-Pro del 16% su GenEval e del 25% su T2I-CompBench; (II) supera i paradigmi espliciti (ad es. TwiG) del 15% e dell'11% su compiti di ragionamento astratto come WISE e IPV-Txt, (III) riducendo al contempo il tempo di inferenza del 44% e il consumo di token del 51%; e (IV) mostra un allineamento cognitivo del 71% con l'intuizione umana sull'invocazione del ragionamento.
La capacità degli agenti di IA di gestire efficacemente compiti di durata e complessità crescenti continua ad aumentare, dimostrando prestazioni eccezionali in valutazioni di coding, ricerca approfondita e problem-solving complesso. Tuttavia, negli scenari quotidiani, la percezione di queste capacità avanzate di IA tra gli utenti generali rimane limitata. Sosteniamo che le valutazioni attuali privilegino l'aumento della difficoltà del compito senza affrontare adeguatamente la diversità dei compiti agentivi necessari per coprire le attività quotidiane di lavoro, vita e apprendimento di un'ampia demografia. Per affrontare ciò, proponiamo AgentIF-OneDay, mirato a determinare se gli utenti generali possano utilizzare istruzioni in linguaggio naturale e agenti di IA per completare una gamma diversificata di compiti quotidiani. Questi compiti richiedono non solo di risolvere problemi attraverso il dialogo, ma anche di comprendere vari tipi di allegati e fornire risultati tangibili basati su file. Il benchmark è strutturato attorno tre categorie centrate sull'utente: Esecuzione di Flusso di Lavoro Aperto, che valuta l'aderenza a flussi di lavoro espliciti e complessi; Istruzione Latente, che richiede agli agenti di dedurre istruzioni implicite dagli allegati; e Affinamento Iterativo, che implica la modifica o l'espansione di lavori in corso. Utilizziamo rubriche a livello di istanza e una pipeline di valutazione raffinata che allinea la verifica basata su LLM con il giudizio umano, raggiungendo un tasso di accordo dell'80,1% utilizzando Gemini-3-Pro. AgentIF-OneDay comprende 104 compiti che coprono 767 punti di valutazione. Abbiamo testato quattro principali agenti di IA generali e abbiamo riscontrato che i prodotti agente costruiti basandosi su API e gli agenti ChatGPT basati su RL agente rimangono simultaneamente nel primo livello. Le principali API di LLM e i modelli open-source hanno interiorizzato capacità agentive, consentendo ai team di applicazioni IA di sviluppare prodotti Agente all'avanguardia.
Man mano che gli agenti basati su LLM vengono impiegati in contesti reali sempre più complessi, i benchmark esistenti rappresentano in modo insufficiente sfide chiave come l'applicazione di vincoli globali, il coordinamento di ragionamenti multi-strumento e l'adattamento a comportamenti utente in evoluzione durante interazioni lunghe e multi-turno. Per colmare questa lacuna, introduciamo TRIP-Bench, un benchmark di lungo orizzonte basato su scenari realistici di pianificazione di viaggi. TRIP-Bench utilizza dati del mondo reale, offre 18 strumenti curati e oltre 40 requisiti di viaggio, e supporta una valutazione automatizzata. Include partizioni di difficoltà variabile; la partizione difficile enfatizza interazioni lunghe e ambigue, cambiamenti di stile, variazioni di fattibilità e revisioni iterative della versione. I dialoghi possono estendersi fino a 15 turni utente, possono coinvolgere oltre 150 chiamate a strumenti e possono superare i 200k token di contesto. Gli esperimenti mostrano che anche modelli avanzati raggiungono al massimo il 50% di successo sulla partizione facile, con prestazioni che scendono sotto il 10% sui sottoinsiemi difficili. Proponiamo inoltre GTPO, un metodo di reinforcement learning online multi-turno con normalizzazione specifica dei reward e differenziazione dei reward. Applicato a Qwen2.5-32B-Instruct, GTPO migliora la soddisfazione dei vincoli e la robustezza dell'interazione, superando Gemini-3-Pro nella nostra valutazione. Ci aspettiamo che TRIP-Bench faccia progredire gli agenti interattivi pratici di lungo orizzonte, e che GTPO fornisca una ricetta efficace di RL online per un addestramento robusto di lungo orizzonte.
I modelli di flow matching (FM) hanno rivoluzionato la generazione testo-immagine (T2I), con l'apprendimento per rinforzo (RL) che funge da strategia critica di post-addestramento per l'allineamento con gli obiettivi di reward. In questa ricerca, dimostriamo che le pipeline RL attuali per gli FM soffrono di due limitazioni sottovalutate ma importanti: l'inefficienza nel campionamento dovuta a un' insufficiente diversità generativa e un marcato overfitting sugli prompt, in cui i modelli memorizzano formulazioni specifiche di addestramento e mostrano un crollo drammatico delle prestazioni quando valutati su prompt semanticamente equivalenti ma stilisticamente variati. Presentiamo PromptRL (Prompt Matters in RL for Flow-Based Image Generation), un framework che incorpora modelli linguistici (LM) come agenti addestrabili per l'affinamento degli prompt direttamente all'interno del ciclo di ottimizzazione RL basato su flow. Questo progetto offre due vantaggi complementari: lo sviluppo rapido di capacità sofisticate di riscrittura degli prompt e, in modo cruciale, un regime di addestramento sinergico che rimodella le dinamiche di ottimizzazione. PromptRL raggiunge prestazioni allo stato dell'arte su molteplici benchmark, ottenendo punteggi di 0.97 su GenEval, 0.98 sull'accuratezza OCR e 24.05 su PickScore. Inoltre, convalidiamo l'efficacia del nostro approccio RL su modelli di editing di immagini su larga scala, migliorando l'EditReward di FLUX.1-Kontext da 1.19 a 1.43 con soli 0.06 milioni di rollout, superando Gemini 2.5 Flash Image (noto anche come Nano Banana), che totalizza 1.37, e raggiungendo prestazioni comparabili con ReasonNet (1.44), che si è basato su annotazioni dati granulari insieme a un complesso addestramento multi-stadio. I nostri esperimenti estensivi dimostrano empiricamente che PromptRL raggiunge costantemente limiti prestazionali più elevati richiedendo oltre 2 volte meno rollout rispetto a un approccio RL naive basato solo sul flow. Il nostro codice è disponibile all'indirizzo https://github.com/G-U-N/UniRL.
Gli autoencoder sparsi (SAE) sono emersi come un metodo promettente per interpretare le rappresentazioni delle reti neurali, scomponendo le attivazioni in combinazioni sparse di atomi del dizionario. Tuttavia, i SAE presuppongono che le caratteristiche si combinino in modo additivo attraverso la ricostruzione lineare, un presupposto che non può catturare la struttura compositiva: i modelli lineari non possono distinguere se "Starbucks" derivi dalla composizione delle caratteristiche "star" e "coffee" o semplicemente dalla loro co-occorrenza. Ciò costringe i SAE ad allocare caratteristiche monolitiche per concetti composti, anziché scomporli in costituenti interpretabili. Introduciamo PolySAE, che estende il decodificatore SAE con termini di ordine superiore per modellare le interazioni tra caratteristiche, preservando al contempo il codificatore lineare essenziale per l'interpretabilità. Attraverso la fattorizzazione tensoriale di rango ridotto su un sottospazio di proiezione condiviso, PolySAE cattura interazioni tra coppie e triple di caratteristiche con un piccolo sovraccarico parametrico (3% su GPT2). Su quattro modelli linguistici e tre varianti di SAE, PolySAE ottiene un miglioramento medio di circa l'8% nell'F1 di probing mantenendo un errore di ricostruzione comparabile e produce distanze di Wasserstein tra le distribuzioni condizionate delle caratteristiche da 2 a 10 volte maggiori. In modo cruciale, i pesi di interazione appresi mostrano una correlazione trascurabile con la frequenza di co-occorrenza (r = 0,06 contro r = 0,82 per la covarianza delle caratteristiche SAE), suggerendo che i termini polinomiali catturino la struttura compositiva, come il legame morfologico e la composizione frasale, in larga misura indipendente dalle statistiche superficiali.
I Large Reasoning Model (LRM) traggono sostanziali benefici dall'addestramento su domande complesse di livello competitivo. Tuttavia, i metodi automatizzati esistenti per la sintesi di domande mancano di un controllo preciso della difficoltà, comportano elevati costi computazionali e faticano a generare domande di livello competitivo su larga scala. In questo articolo, proponiamo CoDiQ (Controllable Difficult Question Generation), un nuovo framework che consente un controllo fine della difficoltà attraverso il ridimensionamento al momento del test, garantendo al contempo la risolvibilità delle domande. Nello specifico, in primo luogo identifichiamo una tendenza nel ridimensionamento al momento del test (un budget esteso di token per il ragionamento aumenta la difficoltà ma riduce la risolvibilità) e le proprietà intrinseche che definiscono il limite superiore della capacità di un modello di generare domande valide e ad alta difficoltà. Successivamente, sviluppiamo CoDiQ-Generator a partire da Qwen3-8B, che migliora il limite superiore per la generazione di domande difficili, rendendolo particolarmente adatto per la costruzione di quesiti impegnativi. Basandoci sul framework CoDiQ, costruiamo CoDiQ-Corpus (44K sequenze di domande di livello competitivo). Le valutazioni umane mostrano che queste domande sono significativamente più impegnative di quelle di LiveCodeBench/AIME, pur mantenendo una risolvibilità superiore all'82%. L'addestramento di LRM su CoDiQ-Corpus migliora sostanzialmente le prestazioni di ragionamento, verificando che scalare domande di addestramento con difficoltà controllata potenzia le capacità inferenziali. Rendiamo open-source CoDiQ-Corpus, CoDiQ-Generator e le implementazioni per supportare la ricerca correlata.
L'implementazione di moderni modelli linguistici vocali (SpeechLMs) in contesti di streaming richiede sistemi che garantiscano bassa latenza, alto throughput e solide garanzie di streamabilità. I sistemi esistenti non supportano in modo flessibile ed efficiente modelli diversificati. Presentiamo VoxServe, un sistema unificato di servizio per SpeechLMs che ottimizza le prestazioni dello streaming. VoxServe introduce un'astrazione dell'esecuzione del modello che disaccoppia l'architettura del modello dalle ottimizzazioni a livello di sistema, consentendo così il supporto di diverse architetture SpeechLM all'interno di un unico framework. Basandosi su questa astrazione, VoxServe implementa uno scheduling consapevole dello streaming e una pipeline di inferenza asincrona per migliorare l'efficienza end-to-end. Le valutazioni condotte su diversi SpeechLM moderni mostrano che VoxServe raggiunge un throughput da 10 a 20 volte superiore rispetto alle implementazioni esistenti a parità di latenza, mantenendo al contempo un'elevata affidabilità dello streaming. Il codice di VoxServe è disponibile all'indirizzo https://github.com/vox-serve/vox-serve.
La separazione sonora universale basata su query è fondamentale per i sistemi uditivi intelligenti, con l'obiettivo di isolare sorgenti specifiche da miscele. Nonostante i recenti progressi, i metodi esistenti continuano a soffrire di interferenze residue in scenari acustici complessi. Questa limitazione prestazionale deriva principalmente da un collo di bottiglia dati: i dataset reali contengono etichette deboli e una severa co-occorrenza di eventi. Questi difetti inducono i modelli ad apprendere correlazioni spurie tra rumore di fondo e categorie target invece di caratteristiche acustiche robuste. Per affrontare questo problema, proponiamo una pipeline automatizzata che elimina la co-occorrenza di eventi estraendo segmenti di eventi singoli ad alta purezza da dataset reali attraverso un protocollo di sintesi semanticamente coerente. Utilizzando questa pipeline, abbiamo costruito Hive, un dataset sintetico di alta qualità comprendente 2.4k ore di audio grezzo. I risultati sperimentali dimostrano che, rispetto al modello all'avanguardia SAM-Audio addestrato su un dataset enorme circa 500 volte più grande di Hive, alcuni modelli open-source addestrati su Hive raggiungono un'accuratezza di separazione competitiva e una qualità percettiva paragonabile. Inoltre, questi modelli hanno mostrato una notevole generalizzazione zero-shot su benchmark di valutazione out-of-distribution. Questi risultati evidenziano che la priorità alla purezza dei segnali supervisionati consente una significativa efficienza dei dati, offrendo un nuovo paradigma per l'addestramento di modelli uditivi fondazionali robusti con costi computazionali ridotti. Codice e dataset sono disponibili su https://shandaai.github.io/Hive.
I modelli linguistici multimodali di grandi dimensioni (MLLM) soffrono di elevati costi computazionali dovuti all'eccessivo numero di token visivi, in particolare negli scenari ad alta risoluzione e basati su video. I metodi esistenti di riduzione dei token si concentrano tipicamente su componenti isolati della pipeline e spesso trascurano l'allineamento testuale, portando a un degrado delle prestazioni. In questo articolo, proponiamo VisionTrim, un framework unificato per l'accelerazione degli MLLM senza necessità di addestramento, che integra due moduli plug-and-play efficaci: 1) il modulo di Selezione dei Token Visivi Dominanti (DVTS), che preserva i token visivi essenziali attraverso una vista globale-locale, e 2) il modulo di Complemento Visivo Guidato dal Testo (TGVC), che facilita la fusione contestuale dei token guidata da indicazioni testuali. Esperimenti estesi su diversi benchmark multimodali per immagini e video dimostrano la superiorità prestazionale del nostro VisionTrim, promuovendo la diffusione pratica degli MLLM nelle applicazioni del mondo reale. Il codice è disponibile all'indirizzo: https://github.com/hanxunyu/VisionTrim.
I modelli world apprendono una rappresentazione interna delle dinamiche ambientali, consentendo agli agenti di simulare e ragionare sugli stati futuri all'interno di uno spazio latente compatto per compiti come pianificazione, previsione e inferenza. Tuttavia, l'esecuzione dei modelli world richiede un elevato costo computazionale e un'ampia impronta di memoria, rendendo la quantizzazione del modello essenziale per una distribuzione efficiente. Ad oggi, gli effetti della quantizzazione post-addestramento (PTQ) sui modelli world rimangono in gran parte non esaminati. In questo lavoro, presentiamo uno studio empirico sistematico sulla quantizzazione dei modelli world utilizzando DINO-WM come caso rappresentativo, valutando diversi metodi PTQ in configurazioni di sola quantizzazione dei pesi e di pesi-attivazioni congiunta. Conduciamo esperimenti estesi su diversi compiti di pianificazione visiva su un'ampia gamma di bit-width, granularità di quantizzazione e orizzonti di pianificazione fino a 50 iterazioni. I nostri risultati mostrano che gli effetti della quantizzazione nei modelli world vanno oltre i tradizionali compromessi tra accuratezza e bit-width: la quantizzazione dei pesi per gruppi può stabilizzare i rollout a basso bit, la granularità della quantizzazione delle attivazioni produce benefici inconsistenti e la sensibilità alla quantizzazione è altamente asimmetrica tra i moduli encoder e predictor. Inoltre, una quantizzazione aggressiva a basso bit degrada significativamente l'allineamento tra l'obiettivo di pianificazione e il successo del compito, portando a fallimenti che non possono essere rimediati con ottimizzazioni aggiuntive. Questi risultati rivelano distinti modi di fallimento indotti dalla quantizzazione nella pianificazione basata su modelli world e forniscono indicazioni pratiche per la distribuzione di modelli world quantizzati sotto stringenti vincoli computazionali. Il codice sarà disponibile all'indirizzo https://github.com/huawei-noah/noah-research/tree/master/QuantWM.
I grandi modelli linguistici (LLM) sono ampiamente utilizzati come valutatori senza riferimento tramite prompt, ma questo paradigma "LLM come giudice" è costoso, opaco e sensibile alla progettazione del prompt. In questo lavoro, indaghiamo se modelli più piccoli possano fungere da valutatori efficienti sfruttando le rappresentazioni interne anziché la generazione superficiale. Scopriamo un pattern empirico coerente: i piccoli LM, nonostante la debole capacità generativa, codificano segnali valutativi ricchi nei loro stati nascosti. Questo ci motiva a proporre l'Ipotesi dell'Asimmetria della Capacità Semantica: la valutazione richiede una capacità semantica significativamente inferiore rispetto alla generazione e può essere ancorata in rappresentazioni intermedie, suggerendo che la valutazione non necessita necessariamente di fare affidamento su modelli generativi su larga scala, ma può invece sfruttare caratteristiche latenti da modelli più piccoli. Le nostre scoperte motivano un cambiamento di paradigma da "LLM come giudice" a "Rappresentazione come giudice", una strategia di valutazione senza decodifica che analizza la struttura interna del modello anziché basarsi sull'output promptato. Istanziamo questo paradigma attraverso INSPECTOR, un framework basato sul probing che prevede punteggi di valutazione a livello di aspetto dalle rappresentazioni di piccoli modelli. Esperimenti su benchmark di ragionamento (GSM8K, MATH, GPQA) mostrano che INSPECTOR supera sostanzialmente i piccoli LM basati su prompt e si avvicina molto ai giudici LLM completi, offrendo al contempo un'alternativa più efficiente, affidabile e interpretabile per una valutazione scalabile.
L'agenzialità attesa dai Modelli Linguistici di Grande Dimensione (LLM) agentivi va oltre il rispondere correttamente, richiedendo l'autonomia di stabilire obiettivi e decidere cosa esplorare. Definiamo questa capacità *intelligenza investigativa*, distinguendola dall'*intelligenza esecutiva*, che si limita a portare a termine compiti assegnati. La Scienza dei Dati fornisce un banco di prova naturale, poiché l'analisi nel mondo reale parte da dati grezzi piuttosto che da query esplicite, eppure pochi benchmark si concentrano su di essa. Per colmare questa lacuna, introduciamo Deep Data Research (DDR), un task aperto in cui gli LLM estraggono autonomamente insight chiave da database, e DDR-Bench, un benchmark su larga scala, basato su checklist, che consente una valutazione verificabile. I risultati mostrano che, sebbene i modelli all'avanguardia mostrino un'agenzialità emergente, l'esplorazione di lungo periodo rimane una sfida. La nostra analisi evidenzia che un'efficace intelligenza investigativa dipende non solo dall'infrastruttura agentiva (scaffolding) o dal semplice scaling, ma anche dalle strategie intrinseche dei modelli agentivi.
I grandi modelli visione-linguaggio (LVLM) ottengono prestazioni solide su compiti con singola immagine, ma le loro prestazioni decadono quando vengono fornite più immagini in input. Una ragione principale è la dispersione di informazioni tra immagini, dove il modello fatica a distinguere le informazioni tra le diverse immagini. I LVLM esistenti utilizzano già token delimitatori per segnare l'inizio e la fine di ogni immagine, eppure la nostra analisi rivela che questi token non riescono a bloccare efficacemente la dispersione di informazioni tra immagini. Per migliorarne l'efficacia, proponiamo un metodo che scala gli stati nascosti dei token delimitatori. Ciò potenzia la capacità del modello di preservare le informazioni specifiche per immagine rinforzando l'interazione intra-immagine e limitando le indesiderate interazioni tra immagini. Di conseguenza, il modello è in grado di distinguere meglio tra le immagini e di ragionare su di esse in modo più accurato. Gli esperimenti mostrano miglioramenti prestazionali su benchmark multi-immagine come Mantis, MuirBench, MIRB e QBench2. Valutiamo ulteriormente il nostro metodo su compiti esclusivamente testuali che richiedono una chiara distinzione. Il metodo migliora le prestazioni su benchmark di comprensione multi-documento e multi-tabella, inclusi TQABench, MultiNews e WCEP-10. Notevolmente, il nostro metodo non richiede costi addizionali di addestramento o inferenza.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha dimostrato un grande potenziale nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, a causa della quantità limitata di informazioni fornite durante il processo RLVR, il modello può impegnarsi solo in un'esplorazione prevalentemente casuale, che spesso si traduce in fallimenti su problemi complessi. Per fornire informazioni aggiuntive al processo RLVR senza fare affidamento su un modello insegnante, proponiamo A^2D, un metodo di Scomposizione Adattiva delle Abilità per migliorare l'efficacia dell'RLVR. Nello specifico, addestriamo prima un scompositore tramite RLVR senza distillazione, permettendogli di scomporre domande complesse in una serie di sotto-domande più semplici. Successivamente, utilizziamo questo scompositore per annotare le sotto-domande per ogni domanda nel dataset di addestramento, e poi addestriamo il motore di ragionamento sotto RLVR con la guida delle sotto-domande. Per comprendere meglio A^2D, confrontiamo prima le sue prestazioni con baseline competitive, dimostrandone l'efficacia. In seguito, osserviamo che il nostro metodo funziona come un modulo plug-and-play che può essere applicato a diversi algoritmi RLVR. Inoltre, conduciamo un'analisi dello scompositore, rivelando come il processo RLVR influisce sulle sue prestazioni e sul suo comportamento, e quale tipo di guida sia più adatta a potenziare le capacità di esplorazione e sfruttamento del motore di ragionamento.
La mappatura 3D di linee a partire da immagini RGB multi-vista fornisce una rappresentazione visiva compatta e strutturata delle scene. Approcciamo il problema da una prospettiva fisica e topologica: una linea 3D emerge in modo più naturale come il bordo di una patch planare 3D finita. Presentiamo LiP-Map, un framework di ottimizzazione congiunta linea-piano che modella esplicitamente primitive di linea e piano apprendibili. Questo accoppiamento consente una mappatura 3D di linee accurata e dettagliata, mantenendo al contempo una forte efficienza (tipicamente completando una ricostruzione in 3-5 minuti per scena). LiP-Map è il primo a integrare la topologia planare nella mappatura 3D di linee, non imponendo vincoli di coplanarità a coppie ma costruendo esplicitamente interazioni tra primitive di piano e linea, offrendo così una via principiata verso la ricostruzione strutturata in ambienti antropici. Su oltre 100 scene tratte da ScanNetV2, ScanNet++, Hypersim, 7Scenes e Tanks&Temples, LiP-Map migliora sia l'accuratezza che la completezza rispetto ai metodi allo stato dell'arte. Oltre alla qualità della mappatura di linee, LiP-Map avanza significativamente la localizzazione visiva assistita da linee, stabilendo performance solide su 7Scenes. Il nostro codice è rilasciato all'indirizzo https://github.com/calmke/LiPMAP per favorire la ricerca riproducibile.
Recenti studi hanno dimostrato che la potatura di layer può comprimere i grandi modelli linguistici (LLM) mantenendo prestazioni solide su benchmark di classificazione con poca o nessuna messa a punto. Tuttavia, le tecniche di potatura esistenti spesso subiscono un grave degrado su compiti di ragionamento generativo. Attraverso uno studio sistematico su più famiglie di modelli, scopriamo che i compiti che richiedono ragionamenti a più fasi sono particolarmente sensibili alla riduzione della profondità. Oltre a una degenerazione superficiale del testo, osserviamo il degrado di capacità algoritmiche critiche, inclusi il calcolo aritmetico per il ragionamento matematico e la generazione di parentesi bilanciate per la sintesi di codice. In condizioni realistiche post-addestramento, senza accesso a dati o potenza di calcolo su scala pre-addestramento, valutiamo una semplice strategia di mitigazione basata sulla messa a punto supervisionata con Risposte Auto-Generate. Questo approccio ottiene un forte recupero sui compiti di classificazione, mantenendo fino al 90\% delle prestazioni di base, e produce guadagni sostanziali fino a 20-30 punti percentuali su benchmark generativi rispetto alle tecniche precedenti post-potatura. Crucialmente, nonostante questi guadagni, il recupero per il ragionamento generativo rimane fondamentalmente limitato rispetto ai compiti di classificazione ed è realizzabile principalmente con rapporti di potatura più bassi. In sintesi, caratterizziamo i limiti pratici della potatura di layer per il ragionamento generativo e forniamo indicazioni su quando la riduzione della profondità può essere applicata efficacemente in regimi post-addestramento vincolati.
La distillazione della conoscenza offre una prospettiva promettente per trasferire le capacità di ragionamento da modelli insegnante di grandi dimensioni a modelli studente efficienti; tuttavia, i metodi di distillazione on-policy a livello di token esistenti richiedono un allineamento a livello di token tra i modelli studente e insegnante, il che limita la capacità di esplorazione del modello studente, impedisce l'uso efficace del feedback proveniente da ambienti interattivi e soffre di severi colli di bottiglia della memoria nell'apprendimento per rinforzo. Introduciamo On-policy Verbal Distillation (OVD), un framework efficiente in termini di memoria che sostituisce la corrispondenza delle probabilità a livello di token con una corrispondenza delle traiettorie utilizzando punteggi verbali discreti (0-9) provenienti dai modelli insegnante. OVD riduce drasticamente il consumo di memoria consentendo al contempo la distillazione on-policy da modelli insegnante con feedback verbale ed evita l'allineamento a livello di token, permettendo al modello studente di esplorare liberamente lo spazio degli output. Esperimenti estensivi su attività di question answering sul Web e di ragionamento matematico mostrano che OVD supera sostanzialmente i metodi esistenti, ottenendo un miglioramento assoluto fino a +12,9% nella EM media sui task di Web Q&A e un guadagno fino a +25,7% sui benchmark matematici (quando addestrato con un solo campione casuale), dimostrando al contempo una superiore efficienza di addestramento. La nostra pagina del progetto è disponibile all'indirizzo https://OVD.github.io.
Il calcolo al momento dell'inferenza è riemerso come un metodo pratico per migliorare il ragionamento dei LLM. La maggior parte degli algoritmi di scaling al momento del test (TTS) si basa su decodifica autoregressiva, che è poco adatta ai modelli linguistici a diffusione discreta (dLLM) a causa della loro decodifica parallela sull'intera sequenza. Di conseguenza, lo sviluppo di metodi TTS efficaci ed efficienti per sbloccare il pieno potenziale generativo dei dLLM rimane una sfida poco esplorata. Per affrontare ciò, proponiamo Prism (Pruning, Remasking, and Integrated Self-verification Method), un framework TTS efficiente per dLLM che (i) esegue una Ricerca Gerarchica delle Traiettorie (HTS) che pota dinamicamente e riassegna il calcolo in una finestra di denoising da iniziale a intermedia, (ii) introduce il branching locale con remasking parziale per esplorare implementazioni diverse preservando i token ad alta confidenza, e (iii) sostituisce i verificatori esterni con un Feedback Auto-Verificato (SVF) ottenuto tramite prompt di auto-valutazione su completamenti intermedi. Su quattro benchmark di ragionamento matematico e generazione di codice su tre dLLM, inclusi LLaDA 8B Instruct, Dream 7B Instruct e LLaDA 2.0-mini, il nostro Prism raggiunge un favorevole compromesso prestazioni-efficienza, eguagliando le prestazioni del best-of-N con un numero sostanzialmente inferiore di valutazioni di funzione (NFE). Il codice è rilasciato su https://github.com/viiika/Prism.
Sebbene i grandi modelli linguistici (LLM) rappresentino un progresso significativo nell'intelligenza artificiale, i costi hardware e computazionale per il loro addestramento sono anch'essi notevolmente onerosi. Tra gli ottimizzatori allo stato dell'arte, AdamW si basa su stime diagonali della curvatura e ignora le proprietà strutturali, mentre Muon applica una normalizzazione spettrale globale al prezzo di perdere informazioni sulla curvatura. In questo studio, abbiamo riesaminato i metodi di ottimizzazione su varietà per l'addestramento degli LLM, che potrebbero affrontare i limiti di entrambi gli ottimizzatori, sebbene i metodi convenzionali di ottimizzazione su varietà siano stati largamente trascurati a causa delle scarse prestazioni nell'ottimizzazione di modelli su larga scala. Proiettando in modo innovativo il momento nello spazio tangente dei parametri del modello e vincolandolo su una varietà obliqua rotazionale, proponiamo un nuovo, potente ed efficiente ottimizzatore, **Mano**, che è il primo a colmare il divario prestazionale tra l'ottimizzazione su varietà e gli ottimizzatori moderni. Esperimenti estesi sui modelli LLaMA e Qwen3 dimostrano che Mano supera costantemente e significativamente AdamW e Muon, persino con un minore consumo di memoria e una minore complessità computazionale, rispettivamente, suggerendo un'espansione della frontiera di Pareto in termini di efficienza spaziale e temporale.
I Diffusion Transformer sono fondamentali per la generazione di video e immagini, ma la loro efficienza è limitata dalla complessità quadratica dell'attenzione. Sebbene l'attenzione sparsa a blocchi acceleri il calcolo processando solo i blocchi chiave-valore critici, essa soffre di degrado ad alta sparsità a causa dello scarto del contesto. In questo lavoro, scopriamo che i punteggi di attenzione dei blocchi non critici mostrano una stabilità distribuzionale, permettendo di approssimarli in modo accurato ed efficiente anziché scartarli, aspetto essenziale per la progettazione di attenzione sparsa. Motivati da questa intuizione chiave, proponiamo PISA, una Piecewise Sparse Attention che non richiede training e copre l'intero span di attenzione con complessità sub-quadratica. A differenza del paradigma convenzinale mantieni-o-scarta che elimina direttamente le informazioni dei blocchi non critici, PISA introduce una nuova strategia esatto-o-approssima: mantiene il calcolo esatto per i blocchi critici mentre approssima efficientemente il resto tramite espansione di Taylor a blocchi. Questo design permette a PISA di fungere da fedele proxy per l'attenzione completa, colmando efficacemente il divario tra velocità e qualità. I risultati sperimentali dimostrano che PISA raggiunge accelerazioni rispettivamente di 1.91 e 2.57 volte su Wan2.1-14B e Hunyuan-Video, mantenendo costantemente la qualità più alta tra i metodi di attenzione sparsa. Notevolmente, anche per la generazione di immagini su FLUX, PISA raggiunge un'accelerazione di 1.2 volte senza compromettere la qualità visiva. Il codice è disponibile su: https://github.com/xie-lab-ml/piecewise-sparse-attention.
Analizziamo la relazione tra geometria delle rappresentazioni e prestazioni delle reti neurali. Esaminando 52 modelli preaddestrati su ImageNet appartenenti a 13 famiglie architetturali, dimostriamo che la dimensione effettiva – una metrica geometrica non supervisionata – predice fortemente l'accuratezza. La dimensione effettiva degli output raggiunge un r parziale=0.75 (p < 10^(-10)) dopo aver controllato la capacità del modello, mentre la compressione totale raggiunge un r parziale=-0.72. Questi risultati si replicano su ImageNet e CIFAR-10 e si generalizzano all'NLP: la dimensione effettiva predice le prestazioni per 8 modelli encoder su SST-2/MNLI e 15 LLM decoder-only su AG News (r=0.69, p=0.004), mentre le dimensioni del modello non lo fanno (r=0.07). Stabiliamo una causalità bidirezionale: il degrado della geometria tramite rumore causa perdita di accuratezza (r=-0.94, p < 10^(-9)), mentre il miglioramento della geometria tramite PCA mantiene l'accuratezza attraverso le architetture (-0.03pp al 95% di varianza). Questa relazione è indipendente dal tipo di rumore – rumore Gaussiano, Uniforme, Dropout e Salt-and-pepper mostrano tutti |r| > 0.90. Questi risultati stabiliscono che la dimensione effettiva fornisce informazioni predittive e causali indipendenti dal dominio sulle prestazioni delle reti neurali, calcolate interamente senza etichette.
L'apprendimento per rinforzo è diventato centrale per il post-addestramento dei grandi modelli linguistici, tuttavia gli algoritmi dominanti si basano su meccanismi di clipping che introducono problemi di ottimizzazione su larga scala, incluse regioni a gradiente nullo, reward hacking e instabilità dell'addestramento. Proponiamo l'Ottimizzazione della Politica Senza Clipping (CFPO), che sostituisce il clipping euristico con una penalità quadratica convessa derivata da vincoli di divergenza della Variazione Totale, producendo un obiettivo differenziabile ovvero che applica aggiornamenti stabili della politica senza limiti rigidi. Valutiamo CFPO sia in contesti di ragionamento che di allineamento. Nel ragionamento, CFPO eguaglia i metodi basati su clipping nei benchmark downstream estendendo al contempo il regime di addestramento stabile. Nell'allineamento, CFPO mitiga lo sfruttamento della verbosità e riduce il degrado delle capacità, raggiungendo prestazioni competitive nell'aderenza alle istruzioni. CFPO richiede solo una modifica di una riga di codice e nessun iperparametro aggiuntivo. I nostri risultati suggeriscono che CFPO è una promettente alternativa plug-and-play ai metodi basati su clipping per il post-addestramento degli LLM.
I modelli esistenti di ragionamento integrato con strumenti (TIR) hanno efficacemente esteso le capacità di risposta alle domande degli LLM incorporando strumenti esterni. Tuttavia, gli scenari del mondo reale presentano numerosi problemi aperti in cui strumenti fissi spesso non soddisfano i requisiti del compito. Inoltre, la mancanza di meccanismi di auto-ottimizzazione significa che output errati degli strumenti possono fuorviare le risposte degli LLM. Ulteriormente, la costruzione degli strumenti esistenti richiede uno sforzo manuale significativo, che di conseguenza ne limita l'applicabilità. Riconoscendo che le tracce di ragionamento degli LLM racchiudono capacità implicite di problem-solving, proponiamo UCT, un nuovo framework senza addestramento che trasforma gli agenti da utenti di strumenti a creatori di strumenti. Questo approccio raccoglie esperienze di ragionamento e le distilla in risorse riutilizzabili. Questo metodo trasforma l'agente da mero utente di strumenti a creatore di strumenti, consentendo la creazione adattiva di strumenti e l'auto-aggiornamento durante il processo di inferenza. Introduciamo anche un meccanismo di consolidamento della memoria per mantenere la libreria degli strumenti, garantendo un'elevata riutilizzabilità della memoria esperienziale conservata per i successivi compiti di ragionamento. Questo nuovo paradigma di costruzione automatizzata di strumenti migliora continuamente la qualità degli strumenti durante il ragionamento, consentendo al sistema agente complessivo di progredire senza ulteriore addestramento. Esperimenti estensivi dimostrano che il nostro metodo rappresenta un nuovo paradigma per potenziare le capacità dei modelli TIR. In particolare, i significativi miglioramenti delle prestazioni ottenuti, +20,86%↑ e +23,04%↑ su benchmark relativi a compiti di ragionamento matematico e scientifico multi-dominio, convalidano la capacità di auto-evoluzione dell'agente.
Le salvaguardie culturalmente consapevoli sono cruciali per l'allineamento dell'IA in contesti reali, dove la sicurezza va oltre il senso comune e abbraccia valori locali, norme sociali e regolamentazioni specifiche di ogni regione. Tuttavia, la costruzione di dataset su larga scala e radicati culturalmente è complessa a causa di risorse limitate e della scarsità di annotatori madrelingua. Di conseguenza, molti modelli di sicurezza si basano sulla traduzione automatica di dataset in inglese, perdendo spesso le sfumature regionali e culturali. Presentiamo un nuovo framework agentico per la generazione di dati, progettato per creare in modo scalabile dataset autentici e specifici per la sicurezza nella regione del Sud-est asiatico (SEA). Su questa base, introduciamo la famiglia SEA-Guard, i primi modelli di sicurezza multilingue radicati nei contesti culturali del SEA. Valutati su molteplici benchmark e varianti culturali, i modelli SEA-Guard superano costantemente le salvaguardie esistenti nell'individuare contenuti sensibili o dannosi a livello regionale, mantenendo al contempo solide prestazioni di sicurezza generale.
L'apprendimento per rinforzo potenzia le capacità di ragionamento dei grandi modelli linguistici, ma comporta spesso costi computazionali elevati a causa dell'ottimizzazione intensiva sui rollout. La selezione online dei prompt rappresenta una soluzione plausibile, poiché priorizza i prompt informativi per migliorare l'efficienza dell'addestramento. Tuttavia, i metodi attuali dipendono da valutazioni esatte e costose oppure costruiscono modelli predittivi specifici per prompt, che mancano di generalizzazione tra prompt diversi. Questo studio introduce la *Generalizable Predictive Prompt Selection* (GPS), che esegue un'inferenza bayesiana sulla difficoltà del prompt utilizzando un modello generativo leggero addestrato sulla cronologia condivisa delle ottimizzazioni. La prioritarizzazione della difficoltà intermedia e la diversità ancorata alla cronologia sono incorporate nel principio di acquisizione in batch per selezionare gruppi di prompt informativi. Il piccolo modello predittivo generalizza anche in fase di test per un'allocazione computazionale efficiente. Esperimenti su vari benchmark di ragionamento indicano che GPS apporta miglioramenti sostanziali nell'efficienza dell'addestramento, nelle prestazioni finali e nell'efficienza in fase di test rispetto a metodi baseline superiori.
Introduzione. L'etica dell'IA viene inquadrata in modo distinto a seconda degli attori e dei gruppi di stakeholder. Riportiamo i risultati di uno studio di caso su OpenAI che analizza il discorso etico sull'IA. Metodo. La ricerca ha affrontato la seguente domanda: come ha sfruttato il discorso pubblico di OpenAI i concetti di 'etica', 'sicurezza', 'allineamento' e concetti affini nel tempo, e cosa segnala il discorso sull'inquadramento pratico? È stato assemblato un corpus strutturato, differenziando tra la comunicazione per un pubblico generale e la comunicazione con un pubblico accademico, a partire dalla documentazione pubblica. Analisi. L'analisi qualitativa del contenuto sui temi etici ha combinato codici derivati induttivamente e applicati deduttivamente. L'analisi quantitativa ha utilizzato metodi di analisi computazionale del contenuto tramite NLP per modellare gli argomenti e quantificare i cambiamenti nella retorica nel tempo. Le visualizzazioni riportano i risultati aggregati. Per garantire la riproducibilità dei risultati, abbiamo rilasciato il nostro codice su https://github.com/famous-blue-raincoat/AI_Ethics_Discourse. Risultati. I risultati indicano che il discorso sulla sicurezza e sul rischio domina la comunicazione e la documentazione pubblica di OpenAI, senza l'applicazione di quadri o vocabolari etici accademici e di advocacy. Conclusioni. Vengono presentate le implicazioni per la governance, insieme a una discussione sulle pratiche di ethics-washing nel settore industriale.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come giudici per valutare le prestazioni degli agenti, in particolare in contesti non verificabili dove i giudizi si basano sulle traiettorie degli agenti, incluso il ragionamento a catena (CoT). Questo paradigma presuppone implicitamente che il CoT dell'agente rifletta fedelmente sia il suo ragionamento interno che lo stato sottostante dell'ambiente. Dimostriamo che questo assunto è fragile: i giudici LLM sono altamente suscettibili alla manipolazione delle tracce di ragionamento degli agenti. Riscrivendo sistematicamente i CoT degli agenti mantenendo invariate azioni e osservazioni, dimostriamo che la sola manipolazione del ragionamento può aumentare i tassi di falsi positivi dei migliori giudici VLM fino al 90% su 800 traiettorie che abbracciano diverse attività web. Studiamo strategie di manipolazione che spaziano da approcci basati sullo stile, che alterano solo la presentazione del ragionamento, ad approcci basati sul contenuto, che fabbricano segnali di progresso dell'attività, e riscontriamo che le manipolazioni basate sul contenuto sono costantemente più efficaci. Valutiamo tecniche basate sul prompting e l'aumento della potenza di calcolo al momento del giudizio, che riducono ma non eliminano completamente la suscettibilità alla manipolazione. Le nostre scoperte rivelano una vulnerabilità fondamentale nella valutazione basata su LLM e sottolineano la necessità di meccanismi di giudizio che verifichino le affermazioni di ragionamento rispetto alle prove osservabili.
L'inpainting moderno basato sul deep learning consente una manipolazione locale realistica delle immagini, sollevando sfide critiche per il rilevamento affidabile. Tuttavia, osserviamo che i detector attuali si basano principalmente su artefatti globali che appaiono come effetti collaterali dell'inpainting, piuttosto che sul contenuto sintetizzato localmente. Dimostriamo che questo comportamento si verifica perché la ricostruzione basata su VAE induce uno spostamento spettrale sottile ma pervasivo in tutta l'immagine, incluse le regioni non modificate. Per isolare questo effetto, introduciamo Inpainting Exchange (INP-X), un'operazione che ripristina i pixel originali al di fuori della regione modificata preservando tutto il contenuto sintetizzato. Creiamo un dataset di test di 90K immagini, includendo immagini reali, sottoposte a inpainting e "scambiate", per valutare questo fenomeno. Sotto questo intervento, i detector pre-addestrati allo stato dell'arte, inclusi quelli commerciali, mostrano un calo drammatico dell'accuratezza (ad esempio, dal 91% al 55%), avvicinandosi spesso al livello di casualità. Forniamo un'analisi teorica che collega questo comportamento all'attenuazione delle alte frequenze causata dai colli di bottiglia informativi dei VAE. I nostri risultati evidenziano la necessità di un rilevamento consapevole del contenuto. Infatti, l'addestramento sul nostro dataset produce una migliore generalizzazione e localizzazione rispetto all'inpainting standard. Il nostro dataset e il codice sono pubblicamente disponibili all'indirizzo https://github.com/emirhanbilgic/INP-X.
I sistemi multi-agente sono emersi come un paradigma potente per automatizzare la scoperta scientifica. Per differenziare il comportamento degli agenti nel sistema multi-agente, i framework attuali tipicamente assegnano personaggi generici basati su ruoli come "revisore" o "scrittore", oppure si affidano a personaggi granulari basati su parole chiave. Sebbene funzionale, questo approccio semplifica eccessivamente il modo in cui operano gli scienziati umani, i cui contributi sono plasmati dalle loro traiettorie di ricerca uniche. In risposta, proponiamo INDIBATOR, un framework per la scoperta molecolare che basa gli agenti su profili scientifici individualizzati costruiti da due modalità: la cronologia delle pubblicazioni per le conoscenze derivate dalla letteratura e la cronologia molecolare per i priori strutturali. Questi agenti partecipano a dibattiti multi-turno attraverso fasi di proposta, critica e votazione. La nostra valutazione dimostra che questi agenti basati su individualità a grana fine superano costantemente i sistemi che si affidano a personaggi a grana grossa, raggiungendo prestazioni competitive o all'avanguardia. Questi risultati convalidano che catturare il "DNA scientifico" dei singoli agenti è essenziale per una scoperta di alta qualità.
I sistemi di recupero denso open-domain generici vengono solitamente addestrati con un'ampia miscela eclettica di corpora e task di ricerca. Come campionare questi corpora e task diversificati per l'addestramento? Gli approcci convenzionali li campionano in modo uniforme, proporzionalmente alle dimensioni delle loro popolazioni di istanze, o dipendono da supervisione esperta a livello umano. È ben noto che la strategia di campionamento dei dati di addestramento può influenzare notevolmente le prestazioni del modello. Tuttavia, come trovare la strategia ottimale non è stato adeguatamente studiato nel contesto dei modelli di embedding. Proponiamo Inf-DDS, un nuovo framework di campionamento guidato da reinforcement learning che rivaluta adattivamente i dataset di addestramento guidato da segnali di reward basati sull'influenza e che è molto più leggero per quanto riguarda il consumo GPU. La nostra tecnica affina iterativamente la politica di campionamento, dando priorità ai dataset che massimizzano le prestazioni del modello su un set di sviluppo target. Valutiamo l'efficacia della nostra strategia di campionamento su un'ampia gamma di task di recupero testuale, dimostrando forti miglioramenti nelle prestazioni di recupero e un migliore adattamento rispetto ai metodi di campionamento basati su gradiente esistenti, essendo anche da 1,5x a 4x più economica in termini di calcolo GPU. La nostra strategia di campionamento raggiunge un miglioramento assoluto di 5,03 in NDCG@10 addestrando un modello multilingue bge-m3 e un miglioramento assoluto di 0,94 in NDCG@10 addestrando all-MiniLM-L6-v2, anche partendo da pesi assegnati da esperti su un ampio pool di dataset di addestramento.
La valutazione cross-linguale dei grandi modelli linguistici (LLM) confonde tipicamente due fonti di varianza: le differenze genuine nelle prestazioni del modello e l'instabilità della misurazione. Indaghiamo l'affidabilità della valutazione mantenendo costanti le condizioni di generazione mentre variamo la lingua target. Utilizzando dialoghi sintetici di supporto clienti generati con parametri identici in estone, finlandese e ungherese, testiamo se le metriche automatiche e la valutazione LLM-as-a-judge producono classifiche stabili del modello attraverso queste lingue finno-ugriche, correlate e morfologicamente ricche. Utilizzando un piccolo set di annotazioni di parlanti nativi estoni come punto di riferimento, riscontriamo instabilità sistematiche nelle classifiche: le metriche superficiali (diversità lessicale, similarità superficiale e semantica) mantengono una stabilità cross-lingua, ma i giudizi pragmatici (coerenza, aderenza alle istruzioni) mostrano inversioni di rango e correlazioni prossime allo zero. Poiché la generazione è controllata, queste incongruenze riflettono come il giudizio di valutazione si comporti diversamente attraverso le lingue, piuttosto che vere differenze del modello. Questo design controllato fornisce una sonda diagnostica: i metodi di valutazione che non riescono a mantenere la stabilità in condizioni di generazione identiche segnalano un fallimento del trasferimento prima del dispiegamento. I nostri risultati suggeriscono che il trasferimento zero-shot del giudice è inaffidabile per la valutazione a livello discorsivo nelle lingue morfologicamente ricche, motivando una calibrazione specifica per lingua rispetto a baseline umane mirate. Rilasciamo il nostro protocollo di generazione controllata, i dati sintetici e il framework di valutazione per consentire la replicazione attraverso le famiglie linguistiche all'indirizzo https://github.com/isaac-chung/cross-lingual-stability-judges.
Questo articolo presenta YOLOE-26, un framework unificato che integra l'architettura YOLO26 (o YOLOv26) ottimizzata per il deployment con il paradigma di apprendimento open-vocabulary di YOLOE per la segmentazione di istanze open-vocabulary in tempo reale. Basandosi sulla progettazione end-to-end e senza NMS di YOLOv26, l'approccio proposto preserva l'efficienza e il determinismo caratteristici della famiglia YOLO, estendendo al contempo le sue capacità oltre il riconoscimento a insieme chiuso. YOLOE-26 utilizza una backbone convoluzionale con aggregazione di caratteristiche multi-scala in stile PAN/FPN, seguita da teste di regressione e segmentazione di istanze end-to-end. Un contributo architetturale chiave è la sostituzione dei logit di classe fissi con una testa di incorporamento degli oggetti, che formula la classificazione come corrispondenza per similarità rispetto a incorporamenti derivati da descrizioni testuali, esempi visivi o un vocabolario integrato. Per abilitare un ragionamento open-vocabulary efficiente, il framework incorpora l'Allineamento Regione-Testo Riparametrizzabile (RepRTA) per il prompting testuale a costo zero, un Encoder di Prompt Visivi ad Attivazione Semantica (SAVPE) per la segmentazione guidata da esempi e il Contrasto Region Prompt Lazy per l'inferenza senza prompt. Tutte le modalità di prompting operano all'interno di uno spazio di incorporamento degli oggetti unificato, consentendo una commutazione senza soluzione di continuità tra segmentazione promptata da testo, da elementi visivi e completamente autonoma. Esperimenti estensivi dimostrano un comportamento di scaling consistente e compromessi favorevoli tra accuratezza ed efficienza su diverse dimensioni del modello, sia in configurazioni con prompt che senza. La strategia di addestramento sfrutta dataset di detection e grounding su larga scala con ottimizzazione multi-task e rimane completamente compatibile con l'ecosistema Ultralytics per l'addestramento, la validazione e il deployment. Nel complesso, YOLOE-26 fornisce una soluzione pratica e scalabile per la segmentazione di istanze open-vocabulary in tempo reale in ambienti dinamici del mondo reale.
Il Reservoir Computing (RC) si è affermato come un paradigma efficiente per l'elaborazione temporale. Tuttavia, la sua scalabilità rimane fortemente limitata da (i) la necessità di elaborare i dati temporali in modo sequenziale e (ii) l'impronta di memoria proibitiva di reservoir ad alta dimensionalità. In questo lavoro, esaminiamo nuovamente il RC attraverso la lente degli operatori strutturati e della modellazione dello spazio di stato per affrontare queste limitazioni, introducendo la Parallel Echo State Network (ParalESN). ParalESN consente la costruzione di reservoir efficienti e ad alta dimensionalità basati su ricorrenze lineari diagonali nello spazio complesso, permettendo l'elaborazione parallela dei dati temporali. Forniamo un'analisi teorica che dimostra come ParalESN preservi la Proprietà dello Stato di Eco e le garanzie di universalità delle tradizionali Echo State Network, ammettendo al contempo una rappresentazione equivalente di reservoir lineari arbitrari nella forma diagonale complessa. Empiricamente, ParalESN eguaglia l'accuratezza predittiva del RC tradizionale su benchmark di serie temporali, garantendo al contempo sostanziali risparmi computazionali. In compiti di classificazione a livello di pixel 1-D, ParalESN raggiunge un'accuratezza competitiva con le reti neurali completamente addestrabili, riducendo i costi computazionali e il consumo energetico di ordini di grandezza. Nel complesso, ParalESN offre una via promettente, scalabile e fondata su principi teorici per integrare il RC nel panorama dell'apprendimento profondo.
La rappresentazione neurale implicita (INR) si è dimostrata accurata ed efficiente in vari ambiti. In questo lavoro, esploriamo come diverse reti neurali possano essere progettate come una nuova texture INR, che opera in modo continuo piuttosto che discreto sullo spazio di coordinate UV in input. Attraverso esperimenti approfonditi, dimostriamo che queste INR performano bene in termini di qualità dell'immagine, con un utilizzo della memoria e tempi di inferenza per il rendering considerevoli. Analizziamo l'equilibrio tra questi obiettivi. Inoltre, investigiamo varie applicazioni correlate nel rendering in tempo reale e in task downstream, come l'adattamento delle mipmap e la generazione nello spazio INR.
I grandi modelli linguistici possono generare risposte fluide ma infedeli al contesto fornito, mentre molti meccanismi di sicurezza si basano su verifiche esterne o su un giudice separato dopo la generazione. Introduciamo firme del flusso interno che controllano la formazione delle decisioni dalle dinamiche depthwise a un confine di monitoraggio inter-blocco fisso. Il metodo stabilizza il movimento token-wise tramite monitoraggio bias-centered, per poi riassumere le traiettorie in sottospazi compatti di lettura allineata in movimento, costruiti dal token principale e dai suoi stretti concorrenti all'interno di ogni finestra di profondità. I frame di finestra adiacenti sono allineati da un trasporto ortogonale, producendo lunghezze di passo trasportate comparabili in profondità, angoli di virata e riassunti della deriva del sottospazio che sono invarianti rispetto alle scelte di base all'interno della finestra. Un validatore GRU leggero addestrato su queste firme esegone l'autoverifica senza modificare il modello base. Oltre al rilevamento, il validatore localizza un evento di profondità colpevole e abilita un affinamento mirato: il modello torna indietro al token colpevole e blocca un passo trasportato anomalo nel blocco identificato, preservando il residuo ortogonale. La pipeline risultante fornisce localizzazione azionabile e autoverifica a basso sovraccarico dalle dinamiche decisionali interne. Il codice è disponibile su github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.
Proponiamo Parabolic Position Encoding (PaPE), una codifica posizionale basata su parabola per le modalità visive nelle architetture basate su attenzione. Dato un insieme di token visivi - come immagini, nuvole di punti, video o flussi di telecamere ad eventi - il nostro obiettivo è codificare le loro posizioni tenendo conto delle caratteristiche delle modalità visive. I lavori precedenti hanno ampiamente esteso le codifiche posizionali da sequenze 1D nel linguaggio a strutture nD nella visione, ma solo con una considerazione parziale delle caratteristiche visive. Affrontiamo questa lacuna progettando PaPE da principi distillati da lavori precedenti: invarianza traslazionale, invarianza rotazionale (PaPE-RI), decadimento con la distanza, direzionalità e consapevolezza del contesto. Valutiamo PaPE su 8 dataset che coprono 4 modalità. Rileviamo che PaPE o PaPE-RI raggiungono le prestazioni migliori in 7 degli 8 dataset. Esperimenti di estrapolazione su ImageNet-1K mostrano che PaPE estrapola in modo notevole, migliorando in termini assoluti fino al 10,5% rispetto alla codifica posizionale immediatamente successiva. Il codice è disponibile all'indirizzo https://github.com/DTU-PAS/parabolic-position-encoding.
Sebbene l'approccio LLM-as-a-Judge sia ampiamente utilizzato nella valutazione automatizzata, le pratiche di validazione esistenti operano principalmente a livello di output osservati, offrendo una comprensione limitata sul fatto che i giudici LLM stessi funzionino come strumenti di misurazione stabili e affidabili. Per affrontare questa limitazione, introduciamo un framework diagnostico in due fasi per valutare l'affidabilità di LLM-as-a-Judge, basato sulla Teoria della Risposta all'Item (IRT). Il framework adotta il Modello di Risposta Graduata (GRM) dell'IRT e formalizza l'affidabilità lungo due dimensioni complementari: (1) la consistenza intrinseca, definita come la stabilità del comportamento di misurazione sotto variazioni del prompt, e (2) l'allineamento umano, che cattura la corrispondenza con le valutazioni qualitative umane. Esaminiamo empiricamente diversi giudici LLM con questo framework e dimostriamo che l'utilizzo di IRT-GRM produce segnali interpretabili per diagnosticare i giudizi in modo sistematico. Questi segnali forniscono una guida pratica per verificare l'affidabilità di LLM-as-a-Judge e identificare le potenziali cause di inaffidabilità.