Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante i recenti rapidi progressi nelle capacità dei grandi modelli linguistici nell'uso del terminale, le strategie relative ai dati di addestramento dietro gli agenti per terminale all'avanguardia rimangono in gran parte non divulgate. Colmiamo questa lacuna attraverso uno studio sistematico delle pratiche di data engineering per agenti da terminale, fornendo due contributi chiave: (1) Terminal-Task-Gen, una pipeline leggera per la generazione sintetica di task che supporta la costruzione di attività basate su seed e su competenze, e (2) un'analisi completa delle strategie di dati e addestramento, inclusi filtraggio, apprendimento per curriculum, addestramento con contesto lungo e comportamento di scaling. La nostra pipeline produce Terminal-Corpus, un dataset open-source su larga scala per task da terminale. Utilizzando questo dataset, abbiamo addestrato Nemotron-Terminal, una famiglia di modelli inizializzati da Qwen3(8B, 14B, 32B) che ottengono miglioramenti sostanziali su Terminal-Bench 2.0: Nemotron-Terminal-8B migliora dal 2.5% al 13.0%, Nemotron-Terminal-14B dal 4.0% al 20.2%, e Nemotron-Terminal-32B dal 3.4% al 27.4%, eguagliando le prestazioni di modelli significativamente più grandi. Per accelerare la ricerca in questo ambito, rendiamo open-source i nostri checkpoint del modello e la maggior parte dei nostri dataset sintetici all'indirizzo https://huggingface.co/collections/nvidia/nemotron-terminal.
Basandoci sull'analisi esistente delle teste di recupero nei grandi modelli linguistici, proponiamo un framework alternativo di reranking che addestra i modelli a stimare la rilevanza passaggio-query utilizzando i punteggi di attenzione di teste selezionate. Questo approccio fornisce una soluzione di tipo listwise che sfrutta le informazioni olistiche all'interno dell'intera lista di candidati durante il ranking. Allo stesso tempo, produce naturalmente punteggi di rilevanza continui, consentendo l'addestramento su dataset di retrieval arbitrari senza richiedere supervisione tramite scale Likert. Il nostro framework è leggero ed efficace, richiedendo solo modelli di piccole dimensioni (ad esempio, 4 miliardi di parametri) per ottenere prestazioni solide. Esperimenti estensivi dimostrano che il nostro metodo supera i reranker pointwise e listwise allo stato dell'arte esistenti in molteplici domini, inclusi Wikipedia e dataset narrativi lunghi. Stabilisce inoltre un nuovo stato dell'arte sul benchmark LoCoMo che valuta le capacità di comprensione del dialogo e utilizzo della memoria. Dimostriamo inoltre che il nostro framework supporta estensioni flessibili. Ad esempio, l'arricchimento dei passaggi candidati con informazioni contestuali migliora ulteriormente l'accuratezza del ranking, mentre l'addestramento di teste di attenzione dagli strati intermedi migliora l'efficienza senza sacrificare le prestazioni.
L'apprendimento per rinforzo per modelli multimodali agentivi soffre spesso di collasso dell'interazione, in cui i modelli imparano a ridurre l'uso di strumenti e il ragionamento multi-turno, limitando i vantaggi del comportamento agentico. Introduciamo PyVision-RL, un framework di apprendimento per rinforzo per modelli multimodali open-weight che stabilizza l'addestramento e sostiene l'interazione. Il nostro approccio combina una strategia di rollout di oversampling-filtraggio-ranking con una ricompensa cumulativa per gli strumenti per prevenire il collasso e incoraggiare l'uso multi-turno degli strumenti. Utilizzando una pipeline di addestramento unificata, sviluppiamo PyVision-Image e PyVision-Video per la comprensione di immagini e video. Per il ragionamento video, PyVision-Video impiega una costruzione contestuale on-demand, campionando selettivamente frame rilevanti per il compito durante il ragionamento per ridurre significativamente l'uso di token visivi. Gli esperimenti mostrano prestazioni solide e un'efficienza migliorata, dimostrando che l'interazione sostenuta e l'elaborazione visiva on-demand sono critiche per agenti multimodali scalabili.
L'addestramento al momento del test (TTT) con legame KV come livello di modellazione sequenziale è comunemente interpretato come una forma di meta-apprendimento online che memorizza una mappatura chiave-valore durante il test. Tuttavia, la nostra analisi rivela molteplici fenomeni che contraddicono questa interpretazione basata sulla memorizzazione. Motivati da questi risultati, esaminiamo nuovamente la formulazione del TTT e dimostriamo che un'ampia classe di architetture TTT può essere espressa come una forma di operatore di attenzione lineare appresa. Oltre a spiegare comportamenti del modello precedentemente sconcertanti, questa prospettiva offre molteplici vantaggi pratici: consente semplificazioni architetturali basate su principi, ammette formulazioni completamente parallele che preservano le prestazioni migliorando l'efficienza e fornisce una riduzione sistematica di diverse varianti TTT a una forma standard di attenzione lineare. Nel complesso, i nostri risultati inquadrano il TTT non come memorizzazione al momento del test, ma come attenzione lineare appresa con capacità rappresentativa potenziata.
Comprendere la struttura fisica è essenziale per applicazioni nel mondo reale come agenti embodied, progettazione interattiva e manipolazione a lungo termine. Tuttavia, le valutazioni prevalenti dei Modelli Linguaggio-Visione (VLM) si concentrano ancora su configurazioni monovalute e agnostiche alla struttura (ad esempio VQA), che non riescono a valutare la capacità degli agenti di ragionare su come geometria, contatti e relazioni di supporto vincolino congiuntamente le azioni possibili in un ambiente dinamico. Per colmare questa lacuna, introduciamo il benchmark CHAIN (Causal Hierarchy of Actions and Interactions), un banco di prova interattivo 3D guidato dalla fisica, progettato per valutare se i modelli possono comprendere, pianificare ed eseguire sequenze di azioni strutturate basate su vincoli fisici. CHAIN sposta la valutazione dalla percezione passiva alla risoluzione attiva di problemi, coprendo compiti come puzzle meccanici interlacciati e stacking/packing 3D. Conduciamo uno studio completo di modelli VLM e basati su diffusione all'avanguardia in impostazioni interattive unificate. I nostri risultati mostrano che i modelli migliori faticano ancora a interiorizzare la struttura fisica e i vincoli causali, spesso fallendo nel produrre piani affidabili a lungo termine e nell' tradurre robustamente la struttura percepita in azioni efficaci. Il progetto è disponibile su https://social-ai-studio.github.io/CHAIN/.
Studiamo metodi efficienti di recupero multi-vettoriale per l'interazione tardiva in qualsiasi modalità. L'interazione tardiva è emersa come paradigma dominante per il recupero delle informazioni in testi, immagini, documenti visivi e video, ma i suoi costi computazionali e di archiviazione crescono linearmente con la lunghezza del documento, rendendola onerosa per corpora ricchi di immagini, video e audio. Per affrontare questa limitazione, esploriamo metodi indipendenti dalla query per comprimere le rappresentazioni documentali multi-vettoriali con un budget vettoriale costante. Introduciamo quattro approcci per la compressione dell'indice: ridimensionamento della sequenza, token di memoria, pooling gerarchico e un nuovo clustering guidato dall'attenzione (AGC). L'AGC utilizza un meccanismo guidato dall'attenzione per identificare le regioni semanticamente più salienti di un documento come centroidi dei cluster e per ponderare l'aggregazione dei token. Valutando questi metodi su task di recupero che abbracciano testo (BEIR), documenti visivi (ViDoRe) e video (MSR-VTT, MultiVENT 2.0), dimostriamo che il clustering guidato dall'attenzione supera costantemente altri metodi di compressione parametrici (ridimensionamento della sequenza e token di memoria), offre una maggiore flessibilità nella dimensione dell'indice rispetto al clustering gerarchico non parametrico e raggiunge prestazioni competitive o migliorate rispetto a un indice completo non compresso. Il codice sorgente è disponibile all'indirizzo: github.com/hanxiangqin/omni-col-press.
I modelli visione-linguaggio-azione (VLA) unificano percezione, linguaggio e controllo per agenti embodied, ma affrontano sfide significative nella diffusione pratica a causa delle crescenti esigenze computazionali e di memoria, specialmente con il ridimensionamento a orizzonti temporali più lunghi e backbone più grandi. Per affrontare questi colli di bottiglia, introduciamo QuantVLA, un framework di quantizzazione post-addestramento (PTQ) senza ulteriore training che, a nostra conoscenza, è il primo approccio PTQ per sistemi VLA e il primo a quantizzare con successo una testa di azione basata su diffusion transformer (DiT). QuantVLA incorpora tre componenti a scala calibrata: (1) un layout di quantizzazione selettivo che interizza tutti i livelli lineari sia nel backbone linguistico che nel DiT, mantenendo le proiezioni di attenzione in virgola mobile per preservare la pianificazione originale degli operatori; (2) l'adattamento della temperatura di attenzione, un meccanismo di scalatura leggero per testa che stabilizza i logit di attenzione e viene incorporato nelle scale di dequantizzazione durante l'inferenza; e (3) il bilanciamento della testa di output, una calibrazione dell'interfaccia residua per livello che mitiga la deriva energetica post-proiezione. Il framework non richiede training aggiuntivo, utilizza solo un piccolo buffer di calibrazione non etichettato e supporta kernel interi per pesi e attivazioni a basso bit, lasciando invariata l'architettura. Su modelli VLA rappresentativi su LIBERO, QuantVLA supera i tassi di successo delle baseline a precisione completa, raggiunge circa il 70% di risparmio relativo di memoria sui componenti quantizzati e fornisce un'accelerazione di 1.22x nella latenza end-to-end di inferenza, offrendo un percorso pratico verso un'intelligenza embodied scalabile a basso bit sotto stringenti vincoli computazionali, di memoria e di potenza.
Gli Agenti di Ricerca Approfondita generano report di livello analitico, ma la loro valutazione rimane complessa a causa dell'assenza di una verità assoluta unica e della natura multidimensionale della qualità della ricerca. I benchmark recenti propongono metodologie distinte, ma soffrono dell'Inganno della Sintesi, dove una forte fluidità superficiale e un allineamento citazionale possono oscurare difetti fattuali e ragionativi sottostanti. Caratterizziamo questo divario introducendo una tassonomia su quattro assi che rivela un critico disallineamento delle capacità: i valutatori statici sono intrinsecamente privi delle capacità di utilizzo degli strumenti necessarie per valutare la validità temporale e la correttezza fattuale. Per affrontare ciò, proponiamo DREAM (Valutazione Approfondita della Ricerca con Metriche Agenti), un framework che concretizza il principio di parità delle capacità rendendo agente la valutazione stessa. DREAM struttura la valutazione attraverso un protocollo che combina metriche indipendenti dalla query con metriche adattive generate da un agente abilitato all'uso di strumenti, consentendo una copertura temporalmente consapevole, una verifica fondata e sondaggi ragionativi sistematici. Valutazioni controllate dimostrano che DREAM è significativamente più sensibile al decadimento fattuale e temporale rispetto ai benchmark esistenti, offrendo un paradigma di valutazione scalabile e privo di riferimenti.
Nonostante i recenti progressi nei modelli di diffusione, le immagini generate dall'intelligenza artificiale contengono spesso ancora artefatti visivi che compromettono il realismo. Sebbene un pre-addestramento più approfondito e modelli più grandi possano ridurre gli artefatti, non vi è alcuna garanzia che possano essere eliminati completamente, il che rende la mitigazione degli artefatti un'area di ricerca estremamente cruciale. Le metodologie precedenti, consapevoli degli artefatti, dipendono da dataset di artefatti etichettati manualmente, costosi e difficili da scalare, sottolineando la necessità di un approccio automatizzato per acquisire in modo affidabile dataset annotati con artefatti. In questo articolo, proponiamo ArtiAgent, che crea efficientemente coppie di immagini reali e immagini con artefatti iniettati. Esso comprende tre agenti: un agente di percezione che riconosce e localizza entità e sotto-entità in immagini reali, un agente di sintesi che introduce artefatti tramite strumenti di iniezione di artefatti attraverso una nuova manipolazione di embedding a patch all'interno di un diffusion transformer, e un agente di curatela che filtra gli artefatti sintetizzati e genera spiegazioni sia locali che globali per ogni istanza. Utilizzando ArtiAgent, sintetizziamo 100.000 immagini con ricche annotazioni di artefatti e ne dimostriamo sia l'efficacia che la versatilità in varie applicazioni. Il codice è disponibile al link.
I recenti progressi nella programmazione assistita dall'IA hanno potenziato gli agenti nell'eseguire flussi di lavoro complessi tramite interfacce a riga di comando. Tuttavia, i benchmark esistenti sono limitati da orizzonti temporali brevi, contaminazione dei dati dovuta allo scraping di GitHub e una mancanza di metriche di valutazione granulari, fallendo nel valutare rigorosamente le capacità di pianificazione ed esecuzione a lungo termine essenziali per l'ingegneria del software realistica. Per colmare queste lacune, introduciamo LongCLI-Bench, un benchmark completo progettato per valutare le capacità agentive su compiti realistici e a lungo termine. Abbiamo curato 20 compiti di alta qualità e lungo orizzonte da oltre 1.000 assegnazioni di informatica e flussi di lavoro del mondo reale, coprendo quattro categorie ingegneristiche: sviluppo da zero, aggiunta di funzionalità, correzione di bug e refactoring. Proponiamo un protocollo di test a doppio set per LongCLI-Bench, che misura l'adempimento dei requisiti (da fallito a superato) e l'evitamento di regressioni (da superato a superato), incorporando una valutazione a livello di step per identificare i fallimenti esecutivi. Esperimenti estensivi rivelano che anche gli agenti più all'avanguardia raggiungono tassi di successo inferiori al 20% in LongCLI-Bench. L'analisi a livello di step indica inoltre che la maggior parte dei compiti si blocca a meno del 30% del completamento, evidenziando che i fallimenti critici spesso si verificano nelle fasi iniziali. Sebbene l'autocorrezione offra miglioramenti marginali, la collaborazione uomo-agente tramite l'iniezione di piani e la guida interattiva produce miglioramenti significativamente maggiori. Questi risultati sottolineano che la ricerca futura deve enfatizzare lo sviluppo di flussi di lavoro sinergici uomo-agente insieme ai progressi nelle capacità di pianificazione ed esecuzione degli agenti per superare le principali sfide nelle prestazioni dei compiti a lungo termine.
La maggior parte dei benchmark di raccomandazione valutano quanto bene un modello imita il comportamento dell'utente. Tuttavia, nel contesto della consulenza finanziaria, le azioni osservate possono essere rumorose o miopi a causa della volatilità del mercato e possono entrare in conflitto con gli obiettivi a lungo termine di un utente. Trattare le scelte degli utenti come unica verità di riferimento, pertanto, confonde l'imitazione comportamentale con la qualità decisionale. Introduciamo Conv-FinRe, un benchmark conversazionale e longitudinale per la raccomandazione di azioni che valuta i Modelli Linguistici di Grande Dimensione (LLM) andando oltre la semplice corrispondenza comportamentale. Dati un colloquio iniziale, un contesto di mercato graduale e dialoghi di consulenza, i modelli devono generare classifiche su un orizzonte di investimento fisso. Fondamentalmente, Conv-FinRe fornisce riferimenti a più viste che distinguono il comportamento descrittivo dall'utilità normativa basata sulle preferenze di rischio specifiche dell'investitore, consentendo di diagnosticare se un LLM segue un'analisi razionale, imita il rumore dell'utente o è guidato dallo slancio del mercato. Costruiamo il benchmark a partire da dati di mercato reali e traiettorie decisionali umane, istanziamo conversazioni di consulenza controllate e valutiamo una serie di LLM all'avanguardia. I risultati rivelano una tensione persistente tra la qualità decisionale razionale e l'allineamento comportamentale: i modelli che performano bene sulla classificazione basata sull'utilità spesso non corrispondono alle scelte degli utenti, mentre i modelli allineati comportamentalmente possono adattarsi eccessivamente al rumore a breve termine. Il dataset è pubblicamente disponibile su Hugging Face e il codice è disponibile su GitHub.
Gli agenti LLM sono sempre più considerati come sistemi a scopo generale capaci di risolvere richieste aperte degli utenti. Sebbene i benchmark esistenti si concentrino su ambienti specializzati per sviluppare agenti di dominio specifico, la valutazione di agenti a scopo generale richiede ambienti più realistici che li mettano alla prova operando attraverso molteplici competenze e strumenti all'interno di un ambiente unificato. Introduciamo General AgentBench, un benchmark che fornisce un quadro unificato per valutare agenti LLM generali nei domini di ricerca, programmazione, ragionamento e utilizzo di strumenti. Utilizzando General AgentBench, studiamo sistematicamente i comportamenti di scaling a tempo di test sotto scaling sequenziale (interazione iterativa) e scaling parallelo (campionamento di traiettorie multiple). La valutazione di dieci principali agenti LLM rivela un sostanziale degrado delle prestazioni quando si passa da valutazioni di dominio specifico a questa impostazione di agente generale. Inoltre, scopriamo che nessuna delle due metodologie di scaling produce miglioramenti efficaci delle prestazioni nella pratica, a causa di due limitazioni fondamentali: il tetto contestuale nello scaling sequenziale e il divario di verifica nello scaling parallelo. Il codice è pubblicamente disponibile all'indirizzo https://github.com/cxcscmu/General-AgentBench.
La scalatura al momento del test può migliorare le prestazioni del modello aggregando traiettorie di ragionamento stocastico. Tuttavia, raggiungere un'autoconsistenza al test-time efficiente in termini di campionamento con un budget limitato rimane una sfida aperta. Introduciamo PETS (Principled and Efficient Test-Time Self-Consistency), che avvia uno studio principiato dell'allocazione delle traiettorie attraverso un framework di ottimizzazione. Centrale nel nostro approccio è il tasso di autoconsistenza, una nuova metrica definita come l'accordo con il voto a maggioranza a budget infinito. Questa formulazione rende teoricamente fondata e suscettibile di analisi rigorosa l'allocazione al test-time efficiente nel campionamento. Studiamo sia contesti offline che online. Nel regime offline, dove tutte le domande sono note in anticipo, colleghiamo l'allocazione delle traiettorie al crowdsourcing, un'area classica e ben sviluppata, modellando le tracce di ragionamento come lavoratori. Questa prospettiva ci permette di sfruttare la ricca teoria esistente, ottenendo garanzie teoriche e un algoritmo di allocazione efficiente basato sul voto a maggioranza. Nel regime online in streaming, dove le domande arrivano sequenzialmente e le allocazioni devono essere effettuate al volo, proponiamo un metodo innovativo ispirato dal framework offline. Il nostro approccio adatta i budget alla difficoltà della domanda preservando al contempo solide garanzie teoriche ed efficienza computazionale. Gli esperimenti mostrano che PETS supera costantemente l'allocazione uniforme. Su GPQA, PETS raggiunge un'autoconsistenza perfetta in entrambe le impostazioni, riducendo il budget di campionamento fino al 75% (offline) e al 55% (online) rispetto all'allocazione uniforme. Il codice è disponibile all'indirizzo https://github.com/ZDCSlab/PETS.
Gli agenti basati su modelli linguistici (LM) hanno dimostrato capacità notevoli nel risolvere compiti che richiedono molteplici interazioni con l'ambiente. Tuttavia, rimangono vulnerabili in ambienti dove un singolo errore porta spesso a un fallimento irreversibile, specialmente sotto vincoli di fattibilità stringenti. Analizziamo sistematicamente i framework agent esistenti, identificando nella pianificazione imperfetta e nell'esecuzione stocastica le cause primarie. Per affrontare queste sfide, proponiamo Tool-guided Adaptive Planning with constrained Execution (TAPE). TAPE potenzia la capacità di pianificazione aggregando molteplici piani in un grafo e impiegando un risolutore esterno per identificare un percorso fattibile. Durante l'esecuzione, TAPE utilizza il decoding vincolato per ridurre il rumore di campionamento, mentre ri-pianifica in modo adattivo ogni qualvolta il feedback ambientale devia dallo stato previsto. Esperimenti condotti su Sokoban, ALFWorld, MuSiQue e GSM8K-Hard dimostrano che TAPE supera costantemente i framework esistenti, con vantaggi particolarmente ampi su impostazioni difficili, migliorando i tassi di successo di 21,0 punti percentuali in media su scenari complessi e di 20,0 punti percentuali per modelli base più deboli in media. Codice e dati disponibili qui.
I Modelli Linguistici di Grande Dimensione (LLM) traggono costantemente vantaggio dal ragionamento a catena del pensiero (CoT) scalato, ma soffrono anche di un pesente sovraccarico computazionale. Per affrontare questo problema, il ragionamento efficiente mira a incentivare traiettorie di pensiero brevi ma accurate, tipicamente attraverso la modellazione delle ricompense con Apprendimento per Rinforzo (RL). In questo articolo, investigiamo sistematicamente la meccanica del ragionamento efficiente per gli LLM. Per una valutazione completa, sosteniamo l'uso di metriche più granulari, includendo la distribuzione della lunghezza condizionata alla correttezza e le prestazioni attraverso un ampio spettro di budget di token che vanno da 2k a 32k. In primo luogo, riveliamo che il processo di addestramento segue un paradigma in due fasi: adattamento della lunghezza e raffinamento del ragionamento. Successivamente, conduciamo esperimenti estesi (circa 0.2 milioni di ore GPU) in un protocollo unificato, scomponendo i prompt di addestramento e i rollouts, la modellazione delle ricompense e le strategie di ottimizzazione. In particolare, un risultato chiave è addestrare su prompt relativamente più semplici, garantendo la densità di segnali di ricompensa positivi e quindi evitando il collasso della lunghezza. Nel contempo, la distorsione della lunghezza appresa può essere generalizzata attraverso diversi domini. Distilliamo tutti i risultati in spunti di valore e linee guida pratiche, e li validiamo ulteriormente attraverso la serie Qwen3, che spazia da 0.6B a 30B, dimostrandone la robustezza e la generalizzazione.
Algoritmi di recupero come BM25 e la verosimiglianza della query con livellamento di Dirichlet rimangono ranker di primo stadio solidi ed efficienti, sebbene i miglioramenti si siano basati prevalentemente su ottimizzazione dei parametri e intuizione umana. Indaghiamo se un modello linguistico di grandi dimensioni, guidato da un valutatore e da una ricerca evolutiva, possa scoprire automaticamente algoritmi di recupero lessicale migliorati. Introduciamo RankEvolve, un sistema di evoluzione di programmi basato su AlphaEvolve, in cui gli algoritmi di ranking candidati sono rappresentati come codice eseguibile e vengono iterativamente mutati, ricombinati e selezionati in base alle prestazioni di recupero su 12 dataset di IR provenienti da BEIR e BRIGHT. RankEvolve parte da due programmi seme: BM25 e la verosimiglianza della query con livellamento di Dirichlet. Gli algoritmi evoluti sono innovativi, efficaci e mostrano un promettente trasferimento ai benchmark completi di BEIR e BRIGHT, nonché a TREC DL 19 e 20. I nostri risultati suggeriscono che l'evoluzione di programmi LLM guidata da un valutatore rappresenti una strada pratica verso la scoperta automatica di nuovi algoritmi di ranking.
Riportiamo le prestazioni di Aletheia (Feng et al., 2026b), un agente per la ricerca matematica basato su Gemini 3 Deep Think, nella prima edizione della sfida FirstProof. Nel tempo consentito dalla competizione, Aletheia ha risolto in modo autonomo 6 problemi (2, 5, 7, 8, 9, 10) su 10, secondo la valutazione della maggioranza degli esperti; si precisa che gli esperti non sono stati unanimi riguardo al solo Problema 8. Per completa trasparenza, spieghiamo la nostra interpretazione di FirstProof e rendiamo noti i dettagli dei nostri esperimenti e della nostra valutazione. I prompt grezzi e gli output sono disponibili all'indirizzo https://github.com/google-deepmind/superhuman/tree/main/aletheia.
L'elaborazione efficiente di sequenze lunghe con modelli Transformer richiede solitamente la suddivisione dei calcoli tra acceleratori tramite parallelismo contestuale. Gli approcci dominanti in questa famiglia di metodi, come Ring Attention o DeepSpeed Ulysses, consentono il ridimensionamento lungo la dimensione contestuale ma non si concentrano sull'efficienza della memoria, limitando le lunghezze di sequenza supportabili. Tecniche più avanzate, come Fully Pipelined Distributed Transformer o lo scaricamento delle attivazioni, possono estendere ulteriormente la lunghezza contestuale possibile a scapito del throughput di addestramento. In questo articolo presentiamo UPipe, una tecnica di parallelismo contestuale semplice ma efficace che esegue una suddivisione in blocchi a grana fine a livello di testa di attenzione. Questa tecnica riduce significativamente l'utilizzo della memoria delle attivazioni nel self-attention, superando la barriera della memoria delle attivazioni e sbloccando lunghezze contestuali molto maggiori. Il nostro approccio riduce l'utilizzo di memoria dei tensori intermedi nello strato di attenzione fino all'87,5% per Transformer da 32B, mantenendo al contempo prestazioni di addestramento equivalenti alle precedenti tecniche di parallelismo contestuale. UPipe può supportare una lunghezza contestuale di 5M token durante l'addestramento di Llama3-8B su un singolo nodo 8×H100, migliorando i metodi precedenti di oltre il 25%.
I modelli linguistici basati su diffusione discreta hanno attirato ampio interesse per il loro potenziale di fornire una generazione più rapida rispetto ai modelli autoregressivi. Tuttavia, nella pratica, essi mostrano un netto degrado della qualità del campionamento nel regime a pochi passi, non riuscendo a realizzare questa promessa. Qui dimostriamo che i modelli linguistici che sfruttano la denoising continuo basata su flussi (flow) possono superare la diffusione discreta sia in qualità che in velocità. Rivedendo i fondamenti dei flussi su modalità discrete, costruiamo un modello linguistico basato su flussi (FLM) che esegue la denoising euclidea sulle codifiche one-hot dei token. Mostriamo che il modello può essere addestrato prevedendo i dati puliti tramite un obiettivo di entropia incrociata, dove introduciamo una semplice riparametrizzazione del tempo che migliora notevolmente la stabilità dell'addestramento e la qualità della generazione. Distillando l'FLM nella sua mappa di flusso associata, otteniamo un modello linguistico a mappa di flusso distillata (FMLM) capace di generazione in pochi passi. Sui dataset linguistici LM1B e OWT, l'FLM raggiunge una qualità di generazione pari a quella dei migliori modelli di diffusione discreta. Con l'FMLM, il nostro approccio supera complessivamente i recenti modelli linguistici a pochi passi, con una generazione a un solo passo che supera la loro qualità a 8 passi. Il nostro lavoro mette in discussione l'ipotesi ampiamente diffusa che i processi di diffusione discreta siano necessari per la modellazione generativa su modalità discrete, e apre la strada verso una modellazione linguistica basata su flussi accelerata e su larga scala. Il codice è disponibile all'indirizzo https://github.com/david3684/flm.
Le richieste del mondo reale rivolte agli agenti di IA sono intrinsecamente sottospecificate. La comunicazione umana naturale si basa su un contesto condiviso e vincoli non dichiarati che i parlanti si aspettano vengano dedotti dagli ascoltatori. Gli attuali benchmark per agenti testano la capacità di seguire istruzioni esplicite, ma non valutano se gli agenti possono ragionare su requisiti impliciti che abbracciano esigenze di accessibilità, confini della privacy, rischi catastrofici e vincoli contestuali. Presentiamo Implicit Intelligence, un framework di valutazione che verifica se gli agenti di IA possono andare oltre il semplice seguire i prompt per diventare veri realizzatori di obiettivi, abbinato ad Agent-as-a-World (AaW), un ambiente in cui mondi interattivi sono definiti in file YAML leggibili dall'uomo e simulati da modelli linguistici. I nostri scenari presentano un'apparente semplicità nelle richieste dell'utente, una complessità nascosta nelle soluzioni corrette e la scopribilità dei vincoli attraverso l'esplorazione ambientale. Valutando 16 modelli all'avanguardia e open-weight su 205 scenari, riscontriamo che anche il modello con le migliori prestazioni raggiunge solo un tasso di successo del 48,3%, rivelando un margine di miglioramento sostanziale per colmare il divario tra il seguire letterale delle istruzioni e il ragionamento contestuale simile a quello umano.
I modelli linguistici incarnati conferiscono ai robot un ragionamento di alto livello sui compiti, ma non sono in grado di riflettere su cosa sia andato storto o sul perché, trasformando la messa in opera in una sequenza di tentativi indipendenti in cui gli errori si ripetono invece di accumularsi in esperienza. Ispirandoci ai professionisti riflessivi umani, introduciamo la Pianificazione Riflessiva al Momento del Test, che integra due modalità di riflessione: la riflessione nell'azione, in cui l'agente utilizza il ridimensionamento al momento del test per generare e valutare più azioni candidate usando riflessioni interne prima dell'esecuzione; e la riflessione sull'azione, che utilizza l'addestramento al momento del test per aggiornare sia il proprio modello di riflessione interno che la propria politica d'azione basandosi su riflessioni esterne dopo l'esecuzione. Includiamo inoltre la riflessione retrospettiva, che consente all'agente di rivalutare le decisioni precedenti e di eseguire aggiornamenti del modello col senno di poi per una corretta assegnazione del credito a lungo termine. Gli esperimenti sul nostro nuovo benchmark Long-Horizon Household e sul benchmark MuJoCo Cupboard Fitting mostrano miglioramenti significativi rispetto ai modelli di base, con studi di ablazione che convalidano i ruoli complementari della riflessione nell'azione e della riflessione sull'azione. Le analisi qualitative, inclusi test su robot reali, evidenziano la correzione comportamentale attraverso la riflessione.
I tokenizzatori discreti di immagini sono emersi come componente chiave dei moderni sistemi visivi e multimodali, fornendo un'interfaccia sequenziale per le architetture basate su transformer. Tuttavia, la maggior parte degli approcci esistenti rimane principalmente ottimizzata per la ricostruzione e la compressione, producendo spesso token che catturano texture locali piuttosto che la struttura semantica a livello di oggetto. Ispirati dalla natura incrementale e composizionale della comunicazione umana, introduciamo COMunication inspired Tokenization (COMiT), un framework per l'apprendimento di sequenze discrete di token visivi strutturate. COMiT costruisce un messaggio latente entro un budget fisso di token osservando in modo iterativo porzioni localizzate dell'immagine e aggiornando ricorsivamente la sua rappresentazione discreta. Ad ogni passo, il modello integra nuove informazioni visive mentre affina e riorganizza la sequenza di token esistente. Dopo diverse iterazioni di codifica, il messaggio finale condiziona un decoder di flusso che ricostruisce l'immagine completa. Sia la codifica che la decodifica sono implementate all'interno di un singolo modello transformer e addestrate end-to-end utilizzando una combinazione di perdite di ricostruzione per flusso e di allineamento della rappresentazione semantica. I nostri esperimenti dimostrano che, sebbene l'allineamento semantico fornisca un ancoraggio, una tokenizzazione sequenziale e attenta è fondamentale per indurre una struttura di token interpretabile e centrata sugli oggetti, migliorando sostanzialmente la generalizzazione composizionale e il ragionamento relazionale rispetto ai metodi precedenti.
La previsione del tempo di permanenza dei container d'importazione (ICDT) è un compito cruciale per migliorare la produttività nei terminal container, poiché previsioni accurate consentono di ridurre le operazioni di ricollocamento dei container effettuate dalle gru da piazzale. Il raggiungimento di questo obiettivo richiede la previsione accurata del tempo di permanenza dei singoli container. Tuttavia, i principali determinanti del tempo di permanenza – le informazioni sul proprietario e quelle sulla merce – sono registrati come testo non strutturato, il che ne limita l'uso efficace nei modelli di apprendimento automatico. Questo studio affronta tale limitazione proponendo un framework collaborativo che integra l'intelligenza artificiale generativa (Gen AI) con l'apprendimento automatico. Il framework proposto utilizza la Gen AI per standardizzare le informazioni non strutturate in codici internazionali standard, con una ripredizione dinamica attivata dagli aggiornamenti dello stato dello scambio elettronico di dati, consentendo al modello di apprendimento automatico di prevedere l'ICDT con precisione. Esperimenti condotti su dati reali di un terminal container dimostrano che la metodologia proposta raggiunge un miglioramento del 13,88% nell'errore assoluto medio rispetto ai modelli convenzionali che non utilizzano informazioni standardizzate. Inoltre, l'applicazione delle previsioni migliorate alle strategie di accatastamento dei container consente una riduzione fino al 14,68% del numero di ricollocamenti, convalidando empiricamente il potenziale della Gen AI di migliorare la produttività nelle operazioni dei terminal container. Nel complesso, questo studio fornisce insight sia tecnici che metodologici sull'adozione della Gen AI nella logistica portuale e sulla sua efficacia.
La modellazione del movimento spinale è fondamentale per comprendere la biomeccanica umana, ma rimane poco esplorata nell'ambito della computer vision a causa della complessa cinematica multi-articolare della colonna vertebrale e della mancanza di annotazioni 3D su larga scala. Presentiamo un framework di simulazione di keypoint consapevole della biomeccanica che arricchisce i dataset esistenti di pose umane con keypoint spinali 3D anatomicamente consistenti, derivati dalla modellazione muscolo-scheletrica. Utilizzando questo framework, creiamo il primo dataset aperto, denominato SIMSPINE, che fornisce annotazioni 3D sparse a livello vertebrale per movimenti naturali del corpo completo acquisiti in ambienti indoor con sistema multi-camera e senza vincoli esterni. Con 2,14 milioni di frame, questo dataset abilita l'apprendimento basato sui dati della cinematica vertebrale a partire da sottili variazioni posturali e colma il divario tra simulazione muscolo-scheletrica e computer vision. Inoltre, rilasciamo baseline pre-addestrate che coprono detector 2D raffinati, modelli di sollevamento della posa 3D monoculare e pipeline di ricostruzione multi-vista, stabilendo un benchmark unificato per la stima del movimento spinale biomeccanicamente valida. Nello specifico, le nostre baseline 2D per la colonna vertebrale migliorano lo stato dell'arte portando l'AUC da 0,63 a 0,80 in ambienti controllati e l'AP da 0,91 a 0,93 per il tracciamento spinale in condizioni naturali. Insieme, il framework di simulazione e il dataset SIMSPINE promuovono la ricerca nella biomeccanica basata sulla visione, nell'analisi del movimento e nella modellazione digitale dell'uomo, consentendo una stima 3D della colonna vertebrale riproducibile e anatomicamente fondata in condizioni naturali.
I modelli di diffusione discreta a stato uniforme eccellono nella generazione e guida con pochi passi grazie alla loro capacità di autocorrezione, rendendoli preferibili rispetto ai modelli autoregressivi o di diffusione mascherata in questi contesti. Tuttavia, la loro qualità di campionamento raggiunge un plateau con i campionatori ancestrali all'aumentare del numero di passi. Introduciamo una famiglia di campionatori Predittore-Correttore (PC) per la diffusione discreta che generalizza i metodi precedenti e si applica a processi di rumore arbitrari. Se abbinati alla diffusione a stato uniforme, i nostri campionatori superano il campionamento ancestrale sia nella modellazione linguistica che in quella delle immagini, raggiungendo una minore perplessità generativa a parità di entropia unigramma su OpenWebText e migliori punteggi FID/IS su CIFAR10. Crucialmente, a differenza dei campionatori convenzionali, i nostri metodi PC continuano a migliorare con l'aumentare dei passi di campionamento. Nel complesso, questi risultati mettono in discussione l'assunzione che la diffusione mascherata sia il futuro inevitabile della modellazione linguistica basata sulla diffusione. Oltre al campionamento, sviluppiamo un curriculum efficiente in termini di memoria per la fase di addestramento con rilassamento gaussiano, riducendo il tempo di addestramento del 25% e la memoria del 33% rispetto a Duo, mantenendo una perplessità comparabile su OpenWebText e LM1B e solide prestazioni downstream. Rilasciamo codice, checkpoint e un video-tutorial su: https://s-sahoo.com/duo-ch2
L'OCR (riconoscimento ottico dei caratteri) ha compiuto rapidi progressi grazie al deep learning e ai modelli multimodali, tuttavia la maggior parte dei metodi si concentra su sistemi di scrittura ben supportati come il latino e il cinese. Le lingue delle minoranze etniche rimangono poco esplorate a causa di sistemi di scrittura complessi, annotazioni scarse e forme storiche e moderne diversificate, rendendo difficile la generalizzazione in contesti a bassa risorsa o zero-shot. Per affrontare queste sfide, presentiamo OmniOCR, un framework universale per i sistemi di scrittura delle minoranze etniche. OmniOCR introduce l'Adattamento Dinamico a Basso Rango (Dynamic LoRA) per allocare la capacità del modello attraverso livelli e sistemi di scrittura, consentendo un adattamento efficace preservando la conoscenza. Una regolarizzazione di sparsità elimina gli aggiornamenti ridondanti, garantendo un adattamento compatto ed efficiente senza costi aggiuntivi di inferenza. Le valutazioni su TibetanMNIST, Shui, Yi antico e Dongba dimostrano che OmniOCR supera i modelli foundation zero-shot e l'addestramento post-standard, raggiungendo un'accuratezza allo stato dell'arte con superiore efficienza parametrica, e rispetto ai modelli baseline più avanzati, migliora l'accuratezza del 39%-66% su questi quattro dataset. Codice: https://github.com/AIGeeksGroup/OmniOCR.
I grandi modelli visione-linguaggio (VLM) hanno dimostrato un potenziale significativo in compiti complessi di comprensione visiva attraverso metodi di ottimizzazione iterativa. Tuttavia, questi modelli generalmente mancano di meccanismi efficaci di autocorrezione, rendendo loro difficile rettificare autonomamente i bias cognitivi. Di conseguenza, durante revisioni multi-turno, spesso cadono in tentativi ripetitivi e inefficaci, non riuscendo a ottenere miglioramenti stabili nella qualità delle risposte. Per affrontare questo problema, proponiamo una nuova struttura di autocorrezione iterativa che conferisce ai modelli due capacità chiave: Riflessione delle Capacità e Riflessione della Memoria. Questa struttura guida il modello a diagnosticare prima gli errori e generare un piano di correzione tramite la Riflessione delle Capacità, poi a sfruttare la Riflessione della Memoria per riesaminare i tentativi passati al fine di evitare ripetizioni ed esplorare nuove soluzioni, e infine, a ottimizzare la risposta attraverso un rigoroso nuovo ragionamento. Esperimenti sul complesso benchmark OCRBench v2 mostrano che OCR-Agent supera l'attuale modello SOTA open-source InternVL3-8B di +2,0 nel subset inglese e +1,2 in quello cinese, raggiungendo risultati all'avanguardia in Comprensione Visiva (79,9) e Ragionamento (66,5) - superando persino modelli più grandi e addestrati specificamente. Il nostro metodo dimostra che una riflessione strutturata e consapevole può migliorare significativamente la robustezza del ragionamento dei VLM senza addestramento aggiuntivo. Codice: https://github.com/AIGeeksGroup/OCR-Agent.
L'anonimizzazione di documenti testuali è un problema altamente sensibile al contesto: l'equilibrio appropriato tra protezione della privacy e preservazione dell'utilità varia in base al dominio dei dati, agli obiettivi di privacy e all'applicazione downstream. Tuttavia, i metodi di anonimizzazione esistenti si basano su strategie statiche, progettate manualmente, che mancano della flessibilità necessaria per adattarsi a requisiti diversi e spesso non riescono a generalizzare attraverso i domini. Introduciamo l'anonimizzazione testuale adattiva, una nuova formulazione del compito in cui le strategie di anonimizzazione vengono adattate automaticamente a specifici requisiti privacy-utilità. Proponiamo un framework per l'ottimizzazione adattiva del prompt che costruisce automaticamente istruzioni di anonimizzazione per i modelli linguistici, consentendo l'adattamento a diversi obiettivi di privacy, domini e pattern d'uso downstream. Per valutare il nostro approccio, presentiamo un benchmark che copre cinque dataset con domini, vincoli di privacy e obiettivi di utilità diversi. In tutte le impostazioni valutate, il nostro framework raggiunge costantemente un miglior trade-off privacy-utilità rispetto ai baseline esistenti, rimanendo computazionalmente efficiente ed efficace su modelli linguistici open-source, con prestazioni paragonabili a modelli closed-source più grandi. Inoltre, dimostriamo che il nostro metodo può scoprire nuove strategie di anonimizzazione che esplorano diversi punti lungo la frontiera del trade-off privacy-utilità.
La resa visiva del testo (VTR) rimane una sfida critica nella generazione di immagini da testo, dove anche i modelli più avanzati producono frequentemente testo con anomalie strutturali come distorsioni, sfocature e disallineamenti. Tuttavia, riscontriamo che i principali MLLM e i modelli OCR specializzati non riescono in larga misura a percepire queste anomalie strutturali, creando un collo di bottiglia critico sia per la valutazione della VTR che per l'ottimizzazione basata su RL. Di conseguenza, anche i generatori all'avanguardia (ad esempio, SeedDream4.0, Qwen-Image) continuano a lottare per produrre testo strutturalmente fedele. Per affrontare questo problema, proponiamo TextPecker, una strategia RL plug-and-play percettiva delle anomalie strutturali che mitiga i segnali di reward rumorosi e funziona con qualsiasi generatore di immagini da testo. Per abilitare questa capacità, abbiamo costruito un dataset di riconoscimento con annotazioni di anomalie strutturali a livello di carattere e sviluppato un motore di sintesi basato sull'editing dei tratti per ampliare la copertura degli errori strutturali. Gli esperimenti mostrano che TextPecker migliora costantemente modelli diversificati di generazione di immagini da testo; persino su Qwen-Image, già ben ottimizzato, si ottengono miglioramenti medi significativi del 4% nella fedeltà strutturale e dell'8,7% nell'allineamento semantico per la resa di testo cinese, stabilendo un nuovo stato dell'arte nella VTR ad alta fedeltà. Il nostro lavoro colma una lacuna nell'ottimizzazione della VTR, fornendo un passo fondamentale verso una generazione visiva del testo affidabile e strutturalmente fedele.
Questo articolo presenta LaS-Comp, un approccio zero-shot e agnostico alla categoria che sfrutta i ricchi prior geometrici dei modelli fondazionali 3D per abilitare il completamento di forme 3D su diversi tipi di osservazioni parziali. I nostri contributi sono tre: Primo, sfrutta questi potenti prior generativi per il completamento attraverso un design complementare a due stadi: (i) uno stadio di sostituzione esplicita che preserva la geometria dell'osservazione parziale per garantire un completamento fedele; e (ii) uno stadio di rifinitura implicita che associa transizioni seamless tra le regioni osservate e quelle sintetizzate. Secondo, la nostra architettura è training-free e compatibile con diversi modelli fondazionali 3D. Terzo, introduciamo Omni-Comp, un benchmark completo che combina dati del mondo reale e sintetici con pattern parziali diversificati e impegnativi, consentendo una valutazione più approfondita e realistica. Esperimenti sia quantitativi che qualitativi dimostrano che il nostro approccio supera i precedenti stati dell'arte. Il nostro codice e i dati saranno disponibili su https://github.com/DavidYan2001/LaS-Comp{LaS-Comp}.
La crescente domanda di grandi modelli linguistici (LLM) richiede che i sistemi di servizio siano in grado di gestire molte richieste concorrenti con diversi obiettivi di livello di servizio (SLO). Ciò aggrava il blocco della testa di linea (HoL) durante la fase computazionalmente intensiva di prefill, in cui richieste di lunga durata monopolizzano le risorse e ritardano quelle a priorità più alta, portando a diffuse violazioni degli SLO sul tempo per il primo token (TTFT). Sebbene il prefill suddiviso in blocchi (chunked) consenta l'interrompibilità, introduce un compromesso intrinseco tra reattività e throughput: ridurre la dimensione del blocco migliora la latenza di risposta ma degrada l'efficienza computazionale, mentre aumentare la dimensione del blocco massimizza il throughput ma aggrava il blocco. Ciò rende necessario un meccanismo di prelazione adattivo. Tuttavia, bilanciare dinamicamente la granularità di esecuzione con i sovraccarichi di schedulazione rimane una sfida chiave. In questo articolo, proponiamo FlowPrefill, un sistema di servizio ottimizzato per TTFT e goodput che risolve questo conflitto disaccoppiando la granularità della prelazione dalla frequenza di schedulazione. Per ottenere una schedulazione adattiva del prefill, FlowPrefill introduce due innovazioni chiave: 1) Prelazione a Livello di Operatore, che sfrutta i confini degli operatori per consentire un'interruzione dell'esecuzione a grana fine senza la perdita di efficienza associata alla suddivisione in blocchi di dimensione fissa e piccola; e 2) Schedulazione Guidata da Eventi, che attiva le decisioni di schedulazione solo in corrispondenza di eventi di arrivo o completamento di una richiesta, supportando così un'efficiente reattività alla prelazione minimizzando al contempo il sovraccarico del piano di controllo. La valutazione su tracce reali di produzione mostra che FlowPrefill migliora il goodput massimo fino a 5,6 volte rispetto ai sistemi all'avanguardia, soddisfacendo al contempo SLO eterogenei.
Il rilevamento dei dati di addestramento degli LLM è generalmente inquadrato come un problema di attacco di inferenza di appartenenza (MIA). Tuttavia, i MIA convenzionali operano passivamente su pesi del modello fissi, utilizzando log-verosimiglianze o generazioni di testo. In questo lavoro, introduciamo l'Attacco Attivo di Ricostruzione Dati (ADRA), una famiglia di MIA che induce attivamente un modello a ricostruire un dato testo attraverso l'addestramento. Ipotesizziamo che i dati di addestramento siano più ricostruibili dei non-membri, e che la differenza nella loro ricostruibilità possa essere sfruttata per l'inferenza di appartenenza. Motivati dai risultati che mostrano come l'apprendimento per rinforzo (RL) acuisca comportamenti già codificati nei pesi, sfruttiamo il RL on-policy per elicitare attivamente la ricostruzione dei dati mediante fine-tuning di una policy inizializzata dal modello target. Per utilizzare efficacemente il RL per il MIA, progettiamo metriche di ricostruzione e ricompense contrastive. Gli algoritmi risultanti, ADRA e la sua variante adattiva ADRA+, migliorano sia la ricostruzione che il rilevamento dato un pool di dati candidati. Gli esperimenti mostrano che i nostri metodi superano costantemente i MIA esistenti nel rilevare dati di pre-addestramento, post-addestramento e di distillazione, con un miglioramento medio del 10,7% rispetto al precedente secondo classificato. In particolare, ADRA+ migliora Min-K%++ del 18,8% su BookMIA per il rilevamento del pre-addestramento e del 7,6% su AIME per il rilevamento del post-addestramento.