Articoli di ricerca IA selezionati quotidianamente con traduzioni
La scienza dei dati autonoma, dalle fonti di dati grezzi ai rapporti di ricerca approfondita di livello analitico, è stata una sfida di lunga data e sta ora diventando fattibile con l'emergere di potenti modelli linguistici di grandi dimensioni (LLM). Recenti agenti di dati basati su flussi di lavoro hanno mostrato risultati promettenti su specifici compiti di dati, ma rimangono fondamentalmente limitati nel raggiungere una scienza dei dati completamente autonoma a causa della loro dipendenza da flussi di lavoro predefiniti. In questo articolo, introduciamo DeepAnalyze-8B, il primo LLM agentico progettato per la scienza dei dati autonoma, in grado di completare automaticamente la pipeline end-to-end dalle fonti di dati ai rapporti di ricerca approfondita di livello analitico. Per affrontare compiti di scienza dei dati ad alta complessità, proponiamo un paradigma di formazione agentico basato su un curriculum che emula la traiettoria di apprendimento degli scienziati dei dati umani, consentendo agli LLM di acquisire e integrare progressivamente molteplici capacità in ambienti reali. Introduciamo inoltre un framework di sintesi delle traiettorie basato sui dati che costruisce dati di formazione di alta qualità. Attraverso la formazione agentica, DeepAnalyze impara a eseguire un'ampia gamma di compiti di dati, che vanno dalla risposta alle domande sui dati e compiti analitici specializzati alla ricerca di dati aperti. Gli esperimenti dimostrano che, con soli 8 miliardi di parametri, DeepAnalyze supera i precedenti agenti basati su flussi di lavoro costruiti sui più avanzati LLM proprietari. Il modello, il codice e i dati di formazione di DeepAnalyze sono open-source, aprendo la strada verso una scienza dei dati autonoma.
L'editing di immagini ha compiuto progressi notevoli di recente. I modelli moderni di editing sono già in grado di seguire istruzioni complesse per manipolare il contenuto originale. Tuttavia, oltre a completare le istruzioni di editing, gli effetti fisici associati sono fondamentali per il realismo della generazione. Ad esempio, rimuovere un oggetto dovrebbe comportare anche l'eliminazione della sua ombra, dei riflessi e delle interazioni con gli oggetti vicini. Purtroppo, i modelli e i benchmark esistenti si concentrano principalmente sul completamento delle istruzioni, trascurando questi effetti fisici. Quindi, a questo punto, quanto siamo lontani da un editing di immagini fisicamente realistico? Per rispondere a questa domanda, introduciamo PICABench, che valuta sistematicamente il realismo fisico attraverso otto sotto-dimensioni (che spaziano tra ottica, meccanica e transizioni di stato) per la maggior parte delle operazioni di editing comuni (aggiunta, rimozione, modifica degli attributi, ecc.). Proponiamo inoltre PICAEval, un protocollo di valutazione affidabile che utilizza un VLM (Vision-Language Model) come giudice, con annotazioni umane e domande a livello regionale per ogni caso. Oltre al benchmarking, esploriamo anche soluzioni efficaci apprendendo la fisica dai video e costruiamo un dataset di addestramento, PICA-100K. Dopo aver valutato la maggior parte dei modelli mainstream, osserviamo che il realismo fisico rimane un problema complesso con ampi margini di esplorazione. Speriamo che il nostro benchmark e le soluzioni proposte possano servire come base per futuri lavori che si spostino da un editing di contenuti ingenuo verso un realismo fisicamente coerente.
I modelli linguistici di grandi dimensioni (LLM) si affidano sempre più alla modellazione di contesti lunghi per attività come la comprensione di documenti, l'analisi del codice e il ragionamento a più passaggi. Tuttavia, scalare le finestre di contesto al livello di milioni di token comporta costi computazionali e di memoria proibitivi, limitando la praticità degli LLM con contesti lunghi. In questo lavoro, adottiamo una prospettiva diversa—il ridimensionamento del contesto visivo—per affrontare questa sfida. Invece di estendere sequenze basate su token, proponiamo Glyph, un framework che trasforma testi lunghi in immagini e li elabora con modelli visione-linguaggio (VLM). Questo approccio comprime sostanzialmente l'input testuale preservando le informazioni semantiche, e progettiamo ulteriormente una ricerca genetica guidata da LLM per identificare configurazioni ottimali di rendering visivo che bilancino accuratezza e compressione. Attraverso esperimenti estesi, dimostriamo che il nostro metodo raggiunge una compressione di 3-4x dei token mantenendo un'accuratezza comparabile a LLM leader come Qwen3-8B su vari benchmark di contesti lunghi. Questa compressione porta anche a un prefilling e decodifica circa 4x più veloci, e un addestramento SFT approssimativamente 2x più rapido. Inoltre, sotto compressione estrema, un VLM con contesto di 128K potrebbe scalare per gestire attività testuali a livello di 1M token. In aggiunta, i dati testuali renderizzati beneficiano attività multimodali del mondo reale, come la comprensione di documenti. Il nostro codice e modello sono rilasciati su https://github.com/thu-coai/Glyph.
Il progresso dei modelli visione-linguaggio (VLMs) è ostacolato da un panorama frammentato di dataset pubblici inconsistenti e contaminati. Introduciamo FineVision, un corpus meticolosamente raccolto, curato e unificato di 24 milioni di campioni, la più grande risorsa aperta del suo genere. Unifichiamo oltre 200 fonti in 185 sottoinsiemi attraverso una pipeline semi-automatizzata con intervento umano: l'automazione esegue l'ingestione massiva e il mapping degli schemi, mentre i revisori controllano i mapping e verificano un campione di output per assicurare un consumo fedele delle annotazioni, un formato appropriato, diversità e sicurezza; i problemi innescano correzioni mirate e nuove esecuzioni. Il flusso di lavoro applica inoltre una rigorosa deduplicazione all'interno e tra le fonti e una decontaminazione rispetto a 66 benchmark pubblici. FineVision include anche task agentici/GUI con uno spazio d'azione unificato; i revisori convalidano gli schemi e ispezionano un campione di traiettorie per confermare la fedeltà eseguibile. I modelli addestrati su FineVision superano costantemente quelli addestrati su miscele aperte esistenti in un'ampia suite di valutazione, evidenziando i vantaggi della scala, dell'igiene dei dati e di un'automazione bilanciata con supervisione umana. Rilasciamo il corpus e gli strumenti di cura per accelerare la ricerca centrata sui dati nei VLMs.
Un presupposto dominante nella ricerca sui Modelli Linguistici Multimodali (MLLM) è che le loro prestazioni siano in gran parte ereditate dal backbone del Modello Linguistico (LLM), data la sua vasta scala di parametri e le sue notevoli capacità. Ciò ha creato un vuoto nella comprensione dell'encoder visivo, che determina come gli MLLM percepiscono le immagini. Il recente cambiamento nei paradigmi di addestramento degli MLLM, dalla Fine-tuning Supervisionato (SFT) all'Apprendimento per Rinforzo (RL), amplifica questa lacuna, ovvero la significativa mancanza di analisi su come tale addestramento ridisegna l'encoder visivo e l'MLLM stesso. Per affrontare questo problema, iniziamo investigando l'impatto delle strategie di addestramento sugli MLLM, dove l'RL mostra un chiaro vantaggio rispetto all'SFT nei benchmark VQA fortemente legati alla visione. Motivati da ciò, conduciamo un'analisi critica e poco esplorata dell'encoder visivo degli MLLM attraverso esperimenti diversificati e approfonditi, che vanno dalla classificazione e segmentazione su ImageNet alla visualizzazione dei gradienti. I nostri risultati dimostrano che la strategia post-addestramento dell'MLLM (cioè SFT o RL) non solo porta a risultati distinti nei task downstream degli MLLM, ma ridisegna fondamentalmente le rappresentazioni visive sottostanti dell'MLLM. In particolare, il risultato chiave del nostro studio è che l'RL produce rappresentazioni visive più forti e precisamente localizzate rispetto all'SFT, potenziando le capacità dell'encoder visivo per l'MLLM. Successivamente, riformuliamo le nostre scoperte in una semplice ricetta per costruire encoder visivi robusti per gli MLLM, chiamata Ottimizzazione Visiva Istruita dalle Preferenze (PIVOT). Quando integrato negli MLLM, un encoder visivo addestrato con PIVOT supera persino controparti più grandi e più pesantemente addestrate, nonostante richieda meno dell'1% del costo computazionale del pre-addestramento visivo standard. Questo risultato apre una via efficace ed efficiente per avanzare i backbone visivi degli MLLM. Pagina del progetto disponibile all'indirizzo https://june-page.github.io/pivot/
I modelli linguistici di grandi dimensioni (LLM) hanno mostrato progressi significativi nei compiti di ragionamento complesso, resi possibili in gran parte dai paradigmi di scalabilità al momento del test (TTS) che allocano risorse computazionali aggiuntive durante l'inferenza. Tra questi, il TTS esterno (in particolare il paradigma di selezione Best-of-N) produce miglioramenti scalabili delle prestazioni selezionando tra più traiettorie di ragionamento generate in modo indipendente. Tuttavia, questo approccio presenta limitazioni chiave: (i) l'elevato sovraccarico computazionale legato all'impiego di modelli di ricompensa basati sul processo, (ii) il sottoutilizzo delle rappresentazioni latenti intrinseche dell'LLM. Introduciamo TrajSelector, un framework Best-of-N efficiente ed efficace che sfrutta gli stati nascosti nel modello campionatore LLM per la valutazione a livello di processo. Un verificatore leggero (con soli 0,6 miliardi di parametri) valuta la qualità delle traiettorie passo-passo, per poi aggregare questi punteggi e identificare la traiettoria di ragionamento ottimale. Il nostro framework utilizza una procedura di addestramento completamente basata sui dati e end-to-end, eliminando la dipendenza da annotazioni massive a livello di passo. I risultati sperimentali su cinque benchmark dimostrano che TrajSelector offre miglioramenti di prestazioni consistenti. In contesti Best-of-32, supera il voto a maggioranza con un aumento di accuratezza del 4,61% e supera i modelli di ricompensa basati sul processo esistenti con margini compresi tra il 4,31% e il 12,21%, mantenendo al contempo costi di inferenza inferiori.
La Generazione Aumentata dal Recupero (Retrieval-Augmented Generation, RAG) è emersa come un paradigma potente per migliorare i grandi modelli linguistici (Large Language Models, LLMs) attraverso il recupero di documenti rilevanti da un corpus esterno. Tuttavia, i sistemi RAG esistenti si concentrano principalmente su documenti testuali unimodali e spesso non riescono a soddisfare le esigenze degli scenari reali, in cui sia le query che i documenti possono contenere modalità miste (come testo e immagini). In questo articolo, affrontiamo la sfida della Generazione Aumentata dal Recupero Universale (Universal Retrieval-Augmented Generation, URAG), che implica il recupero e il ragionamento su informazioni multimodali per migliorare la generazione visivo-linguistica. A tal fine, proponiamo Nyx, un recuperatore multimodale unificato progettato per scenari URAG. Per mitigare la scarsità di dati multimodali realistici, introduciamo una pipeline automatizzata in quattro fasi per la generazione e il filtraggio, sfruttando documenti web per costruire NyxQA, un dataset composto da coppie domanda-risposta multimodali che riflettono meglio le esigenze informative del mondo reale. Basandoci su questo dataset di alta qualità, adottiamo un framework di addestramento in due fasi per Nyx: prima eseguiamo un pre-addestramento su NyxQA insieme a vari dataset di recupero open-source, seguito da un fine-tuning supervisionato utilizzando feedback da modelli visivo-linguistici (Vision-Language Models, VLMs) per allineare gli output di recupero con le preferenze generative. I risultati sperimentali dimostrano che Nyx non solo si comporta in modo competitivo sui benchmark RAG standard basati solo su testo, ma eccelle anche nel contesto più generale e realistico dell'URAG, migliorando significativamente la qualità della generazione nei compiti visivo-linguistici.
I modelli linguistici di grandi dimensioni hanno ottenuto prestazioni elevate nei compiti di ragionamento, risolvendo problemi di programmazione e matematica di livello competitivo. Tuttavia, la loro scalabilità è limitata dai dataset etichettati manualmente e dalla mancanza di dati di addestramento su larga scala per problemi di programmazione complessi. Gli attuali dataset di programmazione competitiva contengono solo migliaia o decine di migliaia di problemi. I metodi precedenti di generazione di dati sintetici si basano sull'aumento dei dataset di istruzioni esistenti o sulla selezione di problemi complessi da dati etichettati manualmente. In questo articolo, proponiamo QueST, un framework innovativo che combina il campionamento grafico consapevole della difficoltà e l'ottimizzazione con rifiuto consapevole della difficoltà, ottimizzando direttamente generatori specializzati per creare problemi di programmazione complessi. I nostri generatori addestrati dimostrano una capacità superiore rispetto a GPT-4o nel creare problemi complessi che migliorano le prestazioni a valle. Utilizziamo QueST per generare problemi di programmazione sintetici su larga scala, che poi impieghiamo per distillare da modelli insegnanti forti con lunghe catene di pensiero o per condurre apprendimento per rinforzo su modelli più piccoli, dimostrando efficacia in entrambi gli scenari. I nostri esperimenti di distillazione mostrano miglioramenti significativi nelle prestazioni. In particolare, dopo aver ottimizzato Qwen3-8B-base su 100K problemi complessi generati da QueST, superiamo le prestazioni del Qwen3-8B originale su LiveCodeBench. Con ulteriori 112K esempi (ovvero 28K problemi scritti manualmente abbinati a più soluzioni sintetiche), il nostro modello da 8B eguaglia le prestazioni del molto più grande DeepSeek-R1-671B. Questi risultati indicano che la generazione di problemi complessi tramite QueST offre un approccio efficace e scalabile per avanzare le frontiere della programmazione competitiva e del ragionamento nei modelli linguistici di grandi dimensioni.
L'ensembling di Large Language Models (LLM) ha attirato l'attenzione come un approccio promettente per superare le prestazioni dei singoli modelli sfruttando i loro punti di forza complementari. In particolare, l'aggregazione delle distribuzioni di probabilità del token successivo dei modelli per selezionare il token successivo si è dimostrata efficace in vari compiti. Tuttavia, sebbene abbia successo per risposte brevi, la sua applicazione alla generazione di testi lunghi rimane poco esplorata. In questo articolo, dimostriamo che l'uso dei metodi di ensembling esistenti nella generazione di testi lunghi richiede una scelta accurata delle posizioni di ensembling, poiché la pratica standard di eseguire l'ensembling su ogni token spesso degrada le prestazioni. Identifichiamo due fattori chiave per determinare queste posizioni: la mancata corrispondenza nella tokenizzazione tra i modelli e il consenso nelle loro distribuzioni di probabilità del token successivo. Sulla base di ciò, proponiamo SAFE (Stable And Fast LLM Ensembling), un framework che esegue l'ensembling in modo selettivo considerando congiuntamente questi fattori. Per migliorare ulteriormente la stabilità, introduciamo una strategia di affilatura delle probabilità che consolida le probabilità distribuite su più token sub-parola che rappresentano la stessa parola in un unico token rappresentativo. I nostri esperimenti su diversi benchmark, tra cui MATH500 e BBH, dimostrano che SAFE supera i metodi esistenti sia in termini di accuratezza che di efficienza, con miglioramenti ottenuti anche quando si esegue l'ensembling su meno dell'1% dei token.
Sebbene i modelli di base abbiano dimostrato potenziale in una varietà di campi, l'astronomia manca ancora di un framework unificato per la modellazione congiunta attraverso le sue modalità di dati altamente diversificate. In questo articolo, presentiamo AION-1, una famiglia di modelli di base multimodali su larga scala per l'astronomia. AION-1 integra dati eterogenei di imaging, spettroscopici e scalari utilizzando un'architettura a due stadi: tokenizzazione specifica per modalità seguita da modellazione mascherata basata su transformer di sequenze di token cross-modali. Il modello è pre-addestrato su cinque survey su larga scala: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) e Gaia. Questi coprono oltre 200 milioni di osservazioni di stelle, galassie e quasar. Con un singolo encoder congelato, AION-1 ottiene risultati solidi su un'ampia gamma di task downstream, tra cui la stima delle proprietà delle galassie e delle stelle, la classificazione della morfologia delle galassie, il recupero basato sulla similarità, la segmentazione delle immagini delle galassie e la super-risoluzione spettrale. Rilasciamo varianti del modello AION-1 che vanno da 300 M a 3,1 B di parametri. Oltre all'astronomia, AION-1 fornisce uno schema scalabile per modelli di base scientifici multimodali che possono integrare in modo fluido osservazioni rumorose e specifiche per strumento. Tutto il codice, i tokenizer, i pesi pre-addestrati e una suite di valutazione leggera sono rilasciati con una licenza open-source.
Mentre il ridimensionamento al momento dell'inferenza attraverso la ricerca ha rivoluzionato i Large Language Models, tradurre questi vantaggi nella generazione di immagini si è rivelato difficile. I recenti tentativi di applicare strategie di ricerca ai modelli di diffusione continua mostrano benefici limitati, con il semplice campionamento casuale che spesso si comporta meglio. Dimostriamo che la natura discreta e sequenziale dei modelli autoregressivi visivi consente una ricerca efficace per la generazione di immagini. Mostriamo che la beam search migliora sostanzialmente la generazione di immagini da testo, permettendo a un modello autoregressivo da 2 miliardi di parametri di superare un modello di diffusione da 12 miliardi di parametri in vari benchmark. Le ablazioni sistematiche dimostrano che questo vantaggio deriva dallo spazio dei token discreti, che consente una potatura precoce e il riutilizzo computazionale, e la nostra analisi del verificatore evidenzia i compromessi tra velocità e capacità di ragionamento. Questi risultati suggeriscono che l'architettura del modello, non solo la scala, è fondamentale per l'ottimizzazione al momento dell'inferenza nella generazione visiva.
L'allineamento dell'onestà - la capacità dei modelli linguistici di grandi dimensioni (LLM) di riconoscere i propri limiti di conoscenza ed esprimere una fiducia calibrata - è essenziale per un dispiegamento affidabile. I metodi esistenti si basano su stime di confidenza senza addestramento (ad esempio, probabilità dei token, autoconsistenza) o su calibrazione basata su addestramento con annotazioni di correttezza. Sebbene efficaci, il raggiungimento di un allineamento universale dell'onestà con la calibrazione basata su addestramento richiede un'etichettatura costosa e su larga scala. Per supportare un addestramento efficiente in termini di annotazioni, introduciamo Elicitation-Then-Calibration (EliCal), un framework in due fasi che prima elicita la confidenza interna utilizzando una supervisione economica di autoconsistenza, poi calibra questa confidenza con un piccolo insieme di annotazioni di correttezza. Per supportare uno studio su larga scala, rilasciamo HonestyBench, un benchmark che copre dieci dataset di QA a risposta libera con 560k istanze di addestramento e 70k di valutazione, annotate con segnali di correttezza e autoconsistenza. Gli esperimenti mostrano che EliCal raggiunge un allineamento quasi ottimale con solo 1k annotazioni di correttezza (0,18% della supervisione completa) e una migliore performance di allineamento su task MMLU non visti rispetto alla baseline di sola calibrazione, offrendo una soluzione scalabile verso l'allineamento universale dell'onestà negli LLM.
L'editing di immagini basato su istruzioni ha raggiunto progressi significativi; tuttavia, i modelli addestrati esclusivamente tramite fine-tuning supervisionato tendono a sovra-adattarsi ai pattern annotati, limitando la loro capacità di esplorare e generalizzare oltre le distribuzioni di addestramento. A tal fine, introduciamo Edit-R1, un nuovo framework post-addestramento per l'editing di immagini basato su istruzioni, fondato sull'ottimizzazione delle policy. Nello specifico, utilizziamo il Diffusion Negative-aware Finetuning (DiffusionNFT), un metodo di ottimizzazione delle policy senza likelihood, coerente con il processo forward di flow matching, consentendo così l'uso di sampler di ordine superiore e un addestramento più efficiente. Un'altra sfida chiave è l'assenza di un modello di reward universale, dovuta alla natura diversificata delle istruzioni e dei compiti di editing. Per colmare questa lacuna, impieghiamo un Multimodal Large Language Model (MLLM) come modello di reward unificato e senza addestramento, sfruttando i suoi logit di output per fornire feedback granulare. Inoltre, progettiamo con cura un meccanismo di filtraggio a bassa varianza per ridurre il rumore nei punteggi MLLM e stabilizzare l'ottimizzazione. UniWorld-V2, addestrato con questo framework, ottiene risultati all'avanguardia sui benchmark ImgEdit e GEdit-Bench, con punteggi rispettivamente di 4.49 e 7.83. È cruciale sottolineare che il nostro framework è model-agnostic, garantendo miglioramenti sostanziali delle prestazioni quando applicato a modelli di base diversi come Qwen-Image-Edit e FLUX-Kontext, dimostrando così la sua ampia applicabilità. Codice e modelli sono disponibili pubblicamente all'indirizzo https://github.com/PKU-YuanGroup/UniWorld-V2.
I recenti progressi nei metodi di controllo dell'attenzione senza addestramento hanno reso possibile capacità di editing guidato da testo flessibili ed efficienti per i modelli di generazione esistenti. Tuttavia, gli approcci attuali faticano a garantire contemporaneamente una forte capacità di modifica e la coerenza con la sorgente. Questa limitazione diventa particolarmente critica nell'editing multi-round e video, dove gli errori visivi possono accumularsi nel tempo. Inoltre, la maggior parte dei metodi esistenti impone una coerenza globale, limitando la capacità di modificare attributi individuali come la texture preservando gli altri, ostacolando così l'editing fine. Recentemente, il passaggio architetturale da U-Net a MM-DiT ha portato significativi miglioramenti nelle prestazioni generative e ha introdotto un nuovo meccanismo per integrare le modalità testo e visione. Questi progressi aprono la strada al superamento delle sfide che i metodi precedenti non sono riusciti a risolvere. Attraverso un'analisi approfondita di MM-DiT, identifichiamo tre intuizioni chiave sui suoi meccanismi di attenzione. Basandoci su queste, proponiamo ConsistEdit, un nuovo metodo di controllo dell'attenzione specificamente progettato per MM-DiT. ConsistEdit incorpora il controllo dell'attenzione solo visiva, la fusione pre-attention guidata da maschera e la manipolazione differenziata dei token query, key e value per produrre modifiche coerenti e allineate al prompt. Esperimenti estensivi dimostrano che ConsistEdit raggiunge prestazioni all'avanguardia in un'ampia gamma di task di editing di immagini e video, inclusi scenari con coerenza strutturale e non strutturale. A differenza dei metodi precedenti, è il primo approccio a eseguire editing in tutti i passi di inferenza e i livelli di attenzione senza intervento manuale, migliorando significativamente affidabilità e coerenza, il che consente un editing multi-round e multi-regione robusto. Inoltre, supporta la regolazione progressiva della coerenza strutturale, consentendo un controllo più fine.
Replicare la ricerca sull'IA è un compito cruciale ma impegnativo per gli agenti basati su modelli linguistici di grandi dimensioni (LLM). Gli approcci esistenti spesso incontrano difficoltà nel generare codice eseguibile, principalmente a causa di una conoscenza di base insufficiente e delle limitazioni dei metodi di generazione aumentata con recupero (RAG), che non riescono a catturare i dettagli tecnici latenti nascosti nei documenti di riferimento. Inoltre, i precedenti approcci tendono a trascurare preziosi segnali di codice a livello di implementazione e mancano di rappresentazioni strutturate della conoscenza che supportino il recupero e il riutilizzo multi-granulare. Per superare queste sfide, proponiamo i Grafi di Conoscenza Eseguibili (xKG), una base di conoscenza modulare e pluggable che integra automaticamente intuizioni tecniche, frammenti di codice e conoscenze specifiche del dominio estratte dalla letteratura scientifica. Quando integrato in tre framework di agenti con due diversi LLM, xKG mostra miglioramenti significativi delle prestazioni (10,9% con o3-mini) su PaperBench, dimostrando la sua efficacia come soluzione generale ed estensibile per la replicazione automatizzata della ricerca sull'IA. Il codice sarà rilasciato su https://github.com/zjunlp/xKG.
Il ragionamento a catena di pensiero di lunga durata è diventato un pilastro fondamentale del ragionamento avanzato nei grandi modelli linguistici. Sebbene i recenti framework di verifica e affinamento abbiano permesso ai modelli proprietari di risolvere problemi di livello olimpico, la loro efficacia dipende da capacità di verifica e correzione forti e affidabili, che rimangono fragili nei modelli open-weight e di scala ridotta. Questo lavoro dimostra che, anche con capacità di verifica e affinamento deboli su compiti difficili, i limiti di ragionamento di tali modelli possono essere sostanzialmente estesi attraverso un paradigma probabilistico che chiamiamo Deep Self-Evolving Reasoning (DSER). Concettualizziamo il ragionamento iterativo come una catena di Markov, dove ogni passo rappresenta una transizione stocastica nello spazio delle soluzioni. L'intuizione chiave è che la convergenza verso una soluzione corretta è garantita fintanto che la probabilità di miglioramento supera marginalmente quella di degrado. Eseguendo in parallelo più processi di auto-evoluzione a lungo termine, il DSER amplifica queste piccole tendenze positive, consentendo al modello di avvicinarsi asintoticamente alle risposte corrette. Empiricamente, applichiamo il DSER al modello DeepSeek-R1-0528-Qwen3-8B. Sul benchmark impegnativo AIME 2024-2025, il DSER risolve 5 su 9 problemi precedentemente irrisolvibili e migliora le prestazioni complessive, permettendo a questo modello compatto di superare l'accuratezza in singolo turno del suo insegnante da 600B parametri attraverso il voto a maggioranza. Oltre alla sua utilità immediata per il scaling durante il test, il framework DSER serve a diagnosticare i limiti fondamentali degli attuali ragionatori open-weight. Delineando chiaramente le loro carenze nella verifica autonoma, nell'affinamento e nella stabilità, i nostri risultati stabiliscono un'agenda di ricerca chiara per lo sviluppo di modelli di prossima generazione con potenti capacità intrinseche di auto-evoluzione.
I modelli preaddestrati per serie temporali hanno abilitato sistemi di previsione basati esclusivamente sull'inferenza, in grado di produrre previsioni accurate senza un addestramento specifico per il compito. Tuttavia, gli approcci esistenti si concentrano principalmente sulla previsione univariata, limitando la loro applicabilità in scenari reali dove i dati multivariati e le covariate svolgono un ruolo cruciale. Presentiamo Chronos-2, un modello preaddestrato in grado di gestire compiti di previsione univariati, multivariati e basati su covariate in modalità zero-shot. Chronos-2 utilizza un meccanismo di attenzione di gruppo che facilita l'apprendimento contestuale (ICL) attraverso una condivisione efficiente delle informazioni tra più serie temporali all'interno di un gruppo, che può rappresentare insiemi di serie correlate, varianti di una serie multivariata o target e covariate in un compito di previsione. Queste capacità generali sono ottenute attraverso l'addestramento su dataset sintetici che impongono strutture multivariate diverse su serie univariate. Chronos-2 offre prestazioni all'avanguardia in tre benchmark completi: fev-bench, GIFT-Eval e Chronos Benchmark II. Su fev-bench, che enfatizza la previsione multivariata e basata su covariate, le capacità universali di ICL di Chronos-2 portano a miglioramenti sostanziali rispetto ai modelli esistenti. Nei compiti che coinvolgono covariate, supera costantemente i baseline con un ampio margine. Studi di caso nei settori dell'energia e della vendita al dettaglio evidenziano ulteriormente i suoi vantaggi pratici. Le capacità di apprendimento contestuale di Chronos-2 lo stabiliscono come un modello di previsione generico che può essere utilizzato "così com'è" nelle pipeline di previsione del mondo reale.
La rapida evoluzione dell'IA agentica segna una nuova fase nell'intelligenza artificiale, in cui i Large Language Models (LLM) non si limitano più a rispondere, ma agiscono, ragionano e si adattano. Questo studio traccia il cambiamento di paradigma nella costruzione dell'IA agentica: dai sistemi basati su pipeline, in cui la pianificazione, l'uso di strumenti e la memoria sono orchestrati da logiche esterne, al paradigma emergente Model-native, in cui queste capacità sono internalizzate nei parametri del modello. In primo luogo, posizioniamo il Reinforcement Learning (RL) come il motore algoritmico che abilita questo cambiamento di paradigma. Riformulando l'apprendimento dall'imitazione di dati statici all'esplorazione guidata dai risultati, il RL sostiene una soluzione unificata di LLM + RL + Task attraverso i domini linguistici, visivi e incarnati. Basandosi su questo, lo studio esamina sistematicamente come ciascuna capacità — Pianificazione, Uso di strumenti e Memoria — si sia evoluta da moduli esterni scriptati a comportamenti appresi end-to-end. Inoltre, analizza come questo cambiamento di paradigma abbia ridisegnato le principali applicazioni degli agenti, in particolare l'agente di Deep Research che enfatizza il ragionamento a lungo termine e l'agente GUI che enfatizza l'interazione incarnata. Concludiamo discutendo la continua internalizzazione delle capacità agentiche come la collaborazione multi-agente e la riflessione, insieme ai ruoli evolutivi degli strati di sistema e modello nella futura IA agentica. Insieme, questi sviluppi delineano una traiettoria coerente verso un'IA agentica Model-native come framework integrato di apprendimento e interazione, segnando il passaggio dalla costruzione di sistemi che applicano l'intelligenza allo sviluppo di modelli che fanno crescere l'intelligenza attraverso l'esperienza.
Il Laboratorio Codec Avatars di Meta presenta Embody 3D, un dataset multimodale che comprende 500 ore individuali di dati di movimento 3D raccolti da 439 partecipanti in uno stage di acquisizione multi-camera, per un totale di oltre 54 milioni di fotogrammi di movimento 3D tracciato. Il dataset include una vasta gamma di dati di movimento individuale, tra cui movimenti guidati, gesti delle mani e locomozione; nonché dati comportamentali e conversazionali multi-persona come discussioni, conversazioni in diversi stati emotivi, attività collaborative e scenari di convivenza in uno spazio simile a un appartamento. Forniamo il movimento umano tracciato, inclusi il tracciamento delle mani e la forma del corpo, annotazioni testuali e una traccia audio separata per ciascun partecipante.
I recenti progressi nella generazione di immagini, spesso guidati da sistemi proprietari come GPT-4o Image Gen, introducono regolarmente nuove capacità che ridefiniscono il modo in cui gli utenti interagiscono con questi modelli. I benchmark esistenti spesso rimangono indietro e non riescono a cogliere questi casi d'uso emergenti, creando un divario tra le percezioni della comunità sui progressi e la valutazione formale. Per affrontare questo problema, presentiamo ECHO, un framework per costruire benchmark direttamente da evidenze del mondo reale sull'uso dei modelli: post sui social media che mostrano prompt innovativi e giudizi qualitativi degli utenti. Applicando questo framework a GPT-4o Image Gen, abbiamo costruito un dataset di oltre 31.000 prompt curati da tali post. La nostra analisi dimostra che ECHO (1) scopre compiti creativi e complessi assenti nei benchmark esistenti, come il re-rendering di etichette di prodotti in diverse lingue o la generazione di ricevute con totali specificati, (2) distingue più chiaramente i modelli all'avanguardia dalle alternative, e (3) evidenzia il feedback della comunità che utilizziamo per informare la progettazione di metriche per la qualità del modello (ad esempio, misurando i cambiamenti osservati nel colore, nell'identità e nella struttura). Il nostro sito web è disponibile all'indirizzo https://echo-bench.github.io.
L'apprendimento per rinforzo agentico (RL) addestra modelli linguistici di grandi dimensioni a richiamare autonomamente strumenti durante il ragionamento, con la ricerca come applicazione più comune. Questi modelli eccellono in compiti di ragionamento a più passaggi, ma le loro proprietà di sicurezza non sono ben comprese. In questo studio, dimostriamo che i modelli di ricerca addestrati con RL ereditano il rifiuto dal tuning delle istruzioni e spesso deviano richieste dannose trasformandole in query sicure. Tuttavia, questa sicurezza è fragile. Due semplici attacchi, uno che costringe il modello a iniziare la risposta con una ricerca (attacco di ricerca), e un altro che incoraggia i modelli a ripetere la ricerca (attacco di ricerca multipla), innescano cascate di ricerche e risposte dannose. Attraverso due famiglie di modelli (Qwen, Llama) con ricerca sia locale che web, questi attacchi riducono i tassi di rifiuto fino al 60,0%, la sicurezza delle risposte dell'82,5% e la sicurezza delle query di ricerca dell'82,4%. Gli attacchi hanno successo innescando i modelli a generare query di ricerca dannose che rispecchiano la richiesta prima che possano generare i token di rifiuto ereditati. Questo rivela una debolezza fondamentale dell'attuale addestramento RL: premia la generazione continua di query efficaci senza tenere conto della loro dannosità. Di conseguenza, i modelli di ricerca RL presentano vulnerabilità che gli utenti possono sfruttare facilmente, rendendo urgente lo sviluppo di pipeline RL agentiche consapevoli della sicurezza che ottimizzino per ricerche sicure.
Gli agenti multimodali per l'uso del computer si basano esclusivamente su azioni primitive (clic, digitazione, scorrimento) che richiedono un accurato grounding visivo e lunghe catene di esecuzione, portando a fallimenti a cascata e colli di bottiglia nelle prestazioni. Mentre altri agenti sfruttano interfacce programmatiche avanzate (API, server MCP, strumenti), gli agenti per l'uso del computer (CUAs) rimangono isolati da queste capacità. Presentiamo UltraCUA, un modello di base che colma questo divario attraverso azioni ibride, integrando in modo fluido primitive GUI con chiamate a strumenti programmatici di alto livello. Per raggiungere questo obiettivo, il nostro approccio comprende quattro componenti chiave: (1) una pipeline automatizzata che scala strumenti programmatici da documentazione software, repository open-source e generazione di codice; (2) un motore di dati sintetici che produce oltre 17.000 task verificabili che coprono scenari reali di uso del computer; (3) una raccolta su larga scala di traiettorie di azioni ibride di alta qualità, comprendenti sia azioni GUI di basso livello che chiamate a strumenti programmatici di alto livello; e (4) una pipeline di addestramento in due fasi che combina fine-tuning supervisionato con apprendimento per rinforzo online, consentendo un'alternanza strategica tra azioni di basso e alto livello. Gli esperimenti con i nostri modelli da 7B e 32B dimostrano miglioramenti sostanziali rispetto agli agenti all'avanguardia. Su OSWorld, i modelli UltraCUA raggiungono un miglioramento relativo medio del 22% rispetto ai modelli base, essendo inoltre l'11% più veloci in termini di passi. La valutazione out-of-domain su WindowsAgentArena mostra che il nostro modello raggiunge un tasso di successo del 21,7%, superando i baseline addestrati su dati Windows. Il meccanismo di azione ibrida si rivela cruciale, riducendo la propagazione degli errori mantenendo al contempo l'efficienza di esecuzione.
Con la crescita esponenziale delle informazioni, le aziende si trovano ad affrontare una pressione crescente per trasformare i dati non strutturati in intuizioni coerenti e azionabili. Sebbene gli agenti autonomi mostrino promesse, spesso incontrano difficoltà con le sfumature specifiche del dominio, l'allineamento degli intenti e l'integrazione aziendale. Presentiamo Enterprise Deep Research (EDR), un sistema multi-agente che integra (1) un Master Planning Agent per la scomposizione adattiva delle query, (2) quattro agenti di ricerca specializzati (Generale, Accademico, GitHub, LinkedIn), (3) un ecosistema di strumenti estensibile basato su MCP che supporta NL2SQL, analisi di file e flussi di lavoro aziendali, (4) un Visualization Agent per intuizioni basate sui dati, e (5) un meccanismo di riflessione che rileva le lacune di conoscenza e aggiorna la direzione della ricerca con una guida opzionale di intervento umano. Questi componenti consentono la generazione automatica di report, lo streaming in tempo reale e la distribuzione senza soluzione di continuità in ambito aziendale, come validato su dataset interni. Su benchmark aperti, tra cui DeepResearch Bench e DeepConsult, EDR supera i sistemi agentici all'avanguardia senza alcun intervento umano. Rilasciamo il framework EDR e le traiettorie di benchmark per avanzare la ricerca sulle applicazioni di ragionamento multi-agente. Codice disponibile su https://github.com/SalesforceAIResearch/enterprise-deep-research e Dataset su https://huggingface.co/datasets/Salesforce/EDR-200
Il question answering visivo basato sulla conoscenza (KB-VQA) richiede ai modelli linguistici visivi (VLMs) di integrare la comprensione visiva con il recupero di conoscenze esterne. Sebbene la generazione aumentata dal recupero (RAG) abbia ottenuto progressi significativi in questo compito combinando l'interrogazione di basi di conoscenza, continua a lottare con la qualità delle query multimodali e la pertinenza dei risultati recuperati. Per superare queste sfide, proponiamo un metodo innovativo in tre fasi, denominato Wiki-PRF, che include le fasi di Elaborazione, Recupero e Filtraggio. La fase di elaborazione invoca dinamicamente strumenti visivi per estrarre informazioni multimodali precise per il recupero. La fase di recupero integra caratteristiche visive e testuali per ottenere un recupero multimodale della conoscenza. La fase di filtraggio esegue un filtraggio della pertinenza e una concentrazione sui risultati recuperati. A tal fine, introduciamo un modello linguistico visivo addestrato con l'accuratezza delle risposte e la coerenza del formato come segnali di ricompensa attraverso un approccio di apprendimento per rinforzo. Ciò migliora il ragionamento del modello, l'invocazione di strumenti per query accurate e il filtraggio di contenuti irrilevanti. Gli esperimenti su dataset di riferimento (E-VQA e InfoSeek) mostrano miglioramenti significativi (36.0 e 42.8) nella qualità delle risposte, raggiungendo prestazioni all'avanguardia. Il codice è disponibile all'indirizzo https://github.com/cqu-student/Wiki-PRF.
I Large Language Model (LLM), come OpenAI-o1 e DeepSeek-R1, hanno dimostrato notevoli capacità di ragionamento. Per potenziare ulteriormente le capacità degli LLM, recenti sistemi agentivi, come Deep Research, integrano interazioni web nel ragionamento degli LLM per mitigare le incertezze e ridurre potenziali errori. Tuttavia, la ricerca esistente si concentra prevalentemente sulle prestazioni di ragionamento, trascurando spesso l'efficienza dei sistemi agentivi. In questo lavoro, presentiamo uno studio empirico completo che identifica i colli di bottiglia nell'efficienza dei sistemi agentivi interattivi web. Scomponiamo la latenza end-to-end in due componenti principali: la latenza delle API degli LLM e la latenza dell'ambiente web. Condurremo uno studio empirico completo su 15 modelli e 5 provider per dimostrare l'elevata variabilità nei sistemi agentivi basati su API. Osserviamo che la latenza dell'ambiente web può contribuire fino al 53,7% della latenza complessiva in un sistema agentivo basato sul web. Per migliorare la latenza, proponiamo SpecCache, un framework di caching potenziato con esecuzione speculativa che può ridurre il sovraccarico dell'ambiente web. Valutazioni estese su due benchmark standard mostrano che il nostro approccio migliora il tasso di cache hit fino a 58x rispetto a una strategia di caching casuale, riducendo il sovraccarico dell'ambiente web fino a 3,2x, senza degradare le prestazioni del sistema agentivo.
I modelli Vision-and-Language (VLMs) hanno dimostrato capacità impressionanti su benchmark a singolo turno, ma le applicazioni nel mondo reale spesso richiedono dialoghi multi-turn più complessi. I dataset multi-turn esistenti (ad esempio, MMDU, ConvBench) catturano solo parzialmente l'ampiezza e la profondità degli scenari conversazionali incontrati dagli utenti. In questo lavoro, introduciamo MultiVerse, un nuovo benchmark per conversazioni multi-turn che presenta 647 dialoghi - ciascuno con una media di quattro turni - derivati da un insieme diversificato di 12 popolari benchmark di valutazione per VLMs. Con 484 task e 484 obiettivi di interazione, MultiVerse copre un'ampia gamma di argomenti, dalla conoscenza fattuale e la percezione a task di ragionamento avanzato come la matematica e la programmazione. Per facilitare una valutazione robusta, proponiamo un metodo di valutazione basato su checklist che utilizza GPT-4o come valutatore automatico, misurando le prestazioni su 37 aspetti chiave, tra cui accuratezza percettiva, chiarezza linguistica e correttezza fattuale. Valutiamo 18 VLMs su MultiVerse, rivelando che anche i modelli più forti (ad esempio, GPT-4o) raggiungono solo un tasso di successo del 50% in conversazioni multi-turn complesse, evidenziando la natura impegnativa del dataset. In particolare, scopriamo che fornire il contesto completo del dialogo migliora significativamente le prestazioni per modelli più piccoli o più deboli, sottolineando l'importanza dell'apprendimento contestuale. Crediamo che MultiVerse rappresenti un punto di riferimento per valutare le capacità di interazione multi-turn dei VLMs.
I recenti progressi nei modelli di ragionamento su larga scala (LRM) hanno consentito prestazioni notevoli in compiti complessi come la matematica e la programmazione, grazie alla generazione di lunghe tracce di ragionamento a catena (Chain-of-Thought, CoT). In questo articolo, identifichiamo e analizziamo sistematicamente una vulnerabilità critica che definiamo distrazione del ragionamento, in cui gli LRM vengono deviati dal loro obiettivo principale da compiti irrilevanti ma complessi inseriti in modo malevolo nel prompt. Attraverso uno studio approfondito su diversi modelli e benchmark, dimostriamo che anche gli LRM più avanzati sono altamente suscettibili, con distrattori iniettati che riducono l'accuratezza del compito fino al 60%. Inoltre, riveliamo che alcune tecniche di allineamento possono amplificare questa debolezza e che i modelli possono mostrare una conformità nascosta, seguendo istruzioni avversarie nel ragionamento mentre le nascondono nell'output finale. Per mitigare questi rischi, proponiamo una difesa basata sull'addestramento che combina Fine-Tuning Supervisionato (SFT) e Apprendimento per Rinforzo (RL) su dati avversari sintetici, migliorando la robustezza di oltre 50 punti in attacchi con distrattori impegnativi. I nostri risultati stabiliscono la distrazione del ragionamento come una minaccia distinta e urgente per l'affidabilità degli LRM e forniscono un passo pratico verso sistemi di ragionamento più sicuri e affidabili.
Il fine-tuning di valutatori generativi specializzati è emerso come un paradigma popolare per soddisfare la crescente domanda di valutazione scalabile sia durante l'addestramento che in fase di test. Tuttavia, i lavori recenti si sono concentrati principalmente sull'applicazione di nuove metodologie, come l'apprendimento per rinforzo (RL), per l'addestramento dei valutatori, evitando uno sviluppo su larga scala e basato sui dati. In questo lavoro, ci concentriamo sulla scalabilità dei dati, curando un set di 2,5 milioni di campioni che coprono cinque compiti di valutazione unici (confronto a coppie, valutazione a livello di passaggio, verifica senza riferimento e con riferimento, e valutazione singola) e più domini focalizzati sulla valutazione del ragionamento. Con i nostri dati, addestriamo i Foundational Automatic Reasoning Evaluators (FARE), una famiglia di valutatori con 8 miliardi e 20 miliardi di parametri (di cui 3,6 miliardi attivi), utilizzando un semplice approccio di fine-tuning supervisionato con campionamento di rifiuto iterativo (SFT). FARE-8B sfida valutatori specializzati più grandi addestrati con RL, mentre FARE-20B stabilisce il nuovo standard per i valutatori open-source, superando valutatori specializzati con oltre 70 miliardi di parametri. Oltre ai benchmark statici, valutiamo FARE in compiti del mondo reale: come riordinatore durante l'inferenza, FARE-20B raggiunge prestazioni quasi oracolari su MATH. Come verificatori nell'addestramento RL, FARE migliora le prestazioni del modello addestrato con RL fino al 14,1% rispetto ai verificatori basati su corrispondenza di stringhe. Quando inizializzato da FARE, un FARE-Code sottoposto a fine-tuning continuo supera gpt-oss-20B del 65% nella valutazione della qualità dei casi di test.
Se avessi un traduttore AI da Balena a Inglese, come potresti validare se funziona o meno? È necessario interagire con gli animali o fare affidamento su osservazioni concrete come la temperatura? Forniamo evidenze teoriche e sperimentali di proof-of-concept che suggeriscono che l'interazione e persino le osservazioni potrebbero non essere necessarie per lingue sufficientemente complesse. Si potrebbe valutare i traduttori esclusivamente in base ai loro output in inglese, offrendo potenziali vantaggi in termini di sicurezza, etica e costi. Questo è un esempio di valutazione della qualità della traduzione automatica (MTQE) senza alcuna traduzione di riferimento disponibile. Una sfida chiave è identificare le "allucinazioni", ovvero traduzioni false che possono apparire fluide e plausibili. Proponiamo di utilizzare la traduzione segmento per segmento insieme al classico test di rimescolamento NLP per valutare i traduttori. L'idea è tradurre la comunicazione animale, turno per turno, e valutare quanto spesso le traduzioni risultanti abbiano più senso in ordine rispetto a quelle permutate. Esperimenti di proof-of-concept su lingue umane con dati scarsi e lingue costruite dimostrano l'utilità potenziale di questa metodologia di valutazione. Questi esperimenti sulle lingue umane servono esclusivamente a validare la nostra metrica senza riferimento in condizioni di scarsità di dati. Si è riscontrato che essa correla fortemente con una valutazione standard basata su traduzioni di riferimento, disponibili nei nostri esperimenti. Eseguiamo anche un'analisi teorica che suggerisce che l'interazione potrebbe non essere necessaria né efficiente nelle fasi iniziali dell'apprendimento della traduzione.
Questo lavoro presenta un'indagine sistematica di architetture personalizzate di reti neurali convoluzionali per la classificazione dell'uso del suolo da immagini satellitari, raggiungendo un'accuratezza del 97,23% sul dataset EuroSAT senza fare affidamento su modelli pre-addestrati. Attraverso tre iterazioni architetturali progressive (baseline: 94,30%, CBAM-enhanced: 95,98%, e attenzione multi-task bilanciata: 97,23%) identifichiamo e affrontiamo specifici modi di fallimento nella classificazione di immagini satellitari. Il nostro contributo principale è un nuovo meccanismo di attenzione multi-task bilanciato che combina l'attenzione coordinata per l'estrazione di caratteristiche spaziali con blocchi Squeeze-Excitation per l'estrazione di caratteristiche spettrali, unificati attraverso un parametro di fusione apprendibile. I risultati sperimentali dimostrano che questo parametro apprendibile converge autonomamente a un valore di alpha approssimativamente pari a 0,57, indicando un'importanza quasi uguale delle modalità spaziali e spettrali per le immagini satellitari. Utilizziamo una regolarizzazione progressiva con DropBlock (5-20% in base alla profondità della rete) e una ponderazione della perdita bilanciata per classe per affrontare l'overfitting e lo squilibrio nei pattern di confusione. L'architettura finale a 12 strati raggiunge un Kappa di Cohen pari a 0,9692, con tutte le classi che superano il 94,46% di accuratezza, dimostrando una calibrazione della confidenza con un divario del 24,25% tra previsioni corrette e errate. Il nostro approccio raggiunge prestazioni entro l'1,34% rispetto a ResNet-50 fine-tuned (98,57%) senza richiedere dati esterni, validando l'efficacia della progettazione architetturale sistematica per applicazioni specifiche del dominio. Codice completo, modelli addestrati e script di valutazione sono pubblicamente disponibili.
Progettare sistemi agentivi efficaci richiede la composizione e l'integrazione senza soluzione di continuità di agenti, strumenti e modelli all'interno di ambienti dinamici e incerti. La maggior parte dei metodi esistenti si basa su approcci statici di recupero semantico per la scoperta di strumenti o agenti. Tuttavia, il riutilizzo e la composizione efficaci dei componenti esistenti rimangono impegnativi a causa di descrizioni incomplete delle capacità e dei limiti dei metodi di recupero. La selezione dei componenti è compromessa poiché le decisioni non si basano su capacità, costo e utilità in tempo reale. Per affrontare queste sfide, introduciamo un framework strutturato e automatizzato per la composizione di sistemi agentivi, ispirato al problema dello zaino. Il nostro framework consente a un agente compositore di identificare, selezionare e assemblare in modo sistematico un insieme ottimale di componenti agentivi, considerando congiuntamente prestazioni, vincoli di budget e compatibilità. Testando dinamicamente i componenti candidati e modellando la loro utilità in tempo reale, il nostro approccio semplifica l'assemblaggio di sistemi agentivi e facilita il riutilizzo scalabile delle risorse. La valutazione empirica con Claude 3.5 Sonnet su cinque dataset di benchmark dimostra che il nostro compositore basato sullo zaino online si colloca costantemente sulla frontiera di Pareto, raggiungendo tassi di successo più elevati a costi dei componenti significativamente inferiori rispetto ai nostri baseline. Nella configurazione a singolo agente, il compositore basato sullo zaino online mostra un miglioramento del tasso di successo fino al 31,6% rispetto ai baseline di recupero. Nei sistemi multi-agente, il compositore basato sullo zaino online aumenta il tasso di successo dal 37% all'87% quando gli agenti vengono selezionati da un inventario di oltre 100 agenti. Il divario prestazionale sostanziale conferma la robusta adattabilità del nostro metodo in diversi domini e vincoli di budget.
Il trasferimento dell'aspetto a risorse 3D utilizzando diverse rappresentazioni dell'oggetto di aspetto - come immagini o testo - ha suscitato interesse grazie alla sua vasta gamma di applicazioni in settori come i giochi, la realtà aumentata e la creazione di contenuti digitali. Tuttavia, i metodi più avanzati falliscono ancora quando la geometria tra l'input e gli oggetti di aspetto è significativamente diversa. Un approccio diretto consiste nell'applicare direttamente un modello generativo 3D, ma dimostriamo che questo alla fine non riesce a produrre risultati accattivanti. Proponiamo invece un approccio strutturato ispirato alla guida universale. Dato un modello di flusso rettificato pre-addestrato condizionato su immagini o testo, il nostro metodo senza addestramento interagisce con il processo di campionamento aggiungendo periodicamente una guida. Questa guida può essere modellata come una funzione di perdita differenziabile, e sperimentiamo con due diversi tipi di guida, inclusi perdite part-aware per l'aspetto e auto-similarità. I nostri esperimenti dimostrano che il nostro approccio trasferisce con successo texture e dettagli geometrici alla risorsa 3D di input, superando i baseline sia qualitativamente che quantitativamente. Mostriamo anche che le metriche tradizionali non sono adatte per valutare il compito a causa della loro incapacità di concentrarsi sui dettagli locali e di confrontare input dissimili, in assenza di dati di verità. Valutiamo quindi la qualità del trasferimento dell'aspetto con un sistema basato su GPT che classifica oggettivamente gli output, garantendo una valutazione robusta e simile a quella umana, come ulteriormente confermato dal nostro studio sugli utenti. Oltre agli scenari mostrati, il nostro metodo è generale e potrebbe essere esteso a diversi tipi di modelli di diffusione e funzioni di guida.
Una collaborazione efficace tra esseri umani e IA su compiti di ragionamento complessi richiede che gli utenti comprendano e interagiscano con il processo del modello, non si limitino a ricevere un output. Tuttavia, il testo monolitico generato da metodi come la Catena di Pensiero (Chain-of-Thought, CoT) impedisce ciò, poiché le interfacce attuali mancano di verbalizzazione in tempo reale e di un robusto meccanismo di interruzione da parte dell'utente. Presentiamo AsyncVoice Agent, un sistema la cui architettura asincrona disaccoppia un backend LLM in streaming da un frontend vocale conversazionale. Questo design consente alla narrazione e all'inferenza di funzionare in parallelo, permettendo agli utenti di interrompere, interrogare e guidare il processo di ragionamento del modello in qualsiasi momento. Benchmark oggettivi dimostrano che questo approccio riduce la latenza di interazione di oltre 600 volte rispetto alle baseline monolitiche, garantendo al contempo alta fedeltà e precisione competitiva nei compiti. Abilitando un dialogo bidirezionale con il processo di pensiero di un modello, AsyncVoice Agent offre un nuovo paradigma per costruire sistemi uomo-IA più efficaci, guidabili e affidabili per compiti ad alto rischio.
I grandi modelli linguistici interiorizzano un compromesso strutturale tra veridicità e ossequiosa adulazione, emergente dall'ottimizzazione delle ricompense che confonde l'utilità con la sottomissione cortese. Questo pregiudizio latente, noto come sicofanzia, si manifesta come una preferenza per l'accordo con l'utente rispetto al ragionamento principiato. Introduciamo Beacon, un benchmark a scelta forzata a turno singolo che isola questo pregiudizio indipendentemente dal contesto conversazionale, consentendo una misurazione precisa della tensione tra accuratezza fattuale e pregiudizio sottomesso. Le valutazioni su dodici modelli all'avanguardia rivelano che la sicofanzia si scompone in sottopregiudizi linguistici e affettivi stabili, ciascuno dei quali scala con la capacità del modello. Proponiamo inoltre interventi a livello di prompt e di attivazione che modulano questi pregiudizi in direzioni opposte, esponendo la geometria interna dell'allineamento come una varietà dinamica tra veridicità e giudizio socialmente conforme. Beacon ridefinisce la sicofanzia come una forma misurabile di errata generalizzazione normativa, fornendo una base riproducibile per studiare e mitigare la deriva dell'allineamento nei sistemi generativi su larga scala.
Il ridimensionamento al momento del test (Test-time Scaling, TTS) ha migliorato le prestazioni dei Modelli di Ragionamento (Reasoning Models, RMs) in vari compiti come la matematica e la codifica, ma la sua efficacia nella traduzione automatica (Machine Translation, MT) rimane poco esplorata. Questo articolo indaga se un aumento del calcolo al momento dell'inferenza migliori la qualità della traduzione. Valutiamo 12 RMs su una serie diversificata di benchmark di MT che coprono più domini, esaminando tre scenari: traduzione diretta, estrapolazione con ragionamento forzato e post-editing. I nostri risultati mostrano che, per RMs generici, il TTS offre benefici limitati e incoerenti per la traduzione diretta, con prestazioni che raggiungono rapidamente un plateau. Tuttavia, l'efficacia del TTS viene sbloccata dalla messa a punto specifica per dominio, che allinea il processo di ragionamento del modello con i requisiti del compito, portando a miglioramenti consistenti fino a una profondità di ragionamento ottimale e autodeterminata. Troviamo anche che forzare un modello a ragionare oltre il suo punto di arresto naturale degrada costantemente la qualità della traduzione. Al contrario, il TTS si dimostra altamente efficace in un contesto di post-editing, trasformando in modo affidabile l'autocorrezione in un processo vantaggioso. Questi risultati indicano che il valore del calcolo al momento dell'inferenza nella MT non risiede nel migliorare la traduzione in un singolo passaggio con modelli generici, ma in applicazioni mirate come flussi di lavoro multi-step di autocorrezione e in combinazione con modelli specializzati per compiti specifici.
Man mano che i sistemi di IA progrediscono, ci affidiamo sempre più a loro per prendere decisioni con noi e per noi. Per garantire che tali decisioni siano allineate ai valori umani, è essenziale comprendere non solo quali decisioni prendono, ma anche come arrivano a tali decisioni. I modelli linguistici di ragionamento, che forniscono sia risposte finali che tracce di pensiero intermedie (parzialmente trasparenti), rappresentano un'opportunità tempestiva per studiare il ragionamento procedurale dell'IA. A differenza dei problemi di matematica e di codice, che spesso hanno risposte oggettivamente corrette, i dilemmi morali sono un terreno di prova eccellente per la valutazione focalizzata sul processo, poiché consentono conclusioni multiple difendibili. A tal fine, presentiamo MoReBench: 1.000 scenari morali, ciascuno associato a un insieme di criteri di valutazione che gli esperti considerano essenziali da includere (o evitare) quando si ragiona sugli scenari. MoReBench contiene oltre 23 mila criteri, tra cui l'identificazione di considerazioni morali, la valutazione di compromessi e la fornitura di raccomandazioni pratiche per coprire casi in cui l'IA consiglia decisioni morali agli esseri umani, nonché casi in cui prende decisioni morali in modo autonomo. Inoltre, abbiamo curato MoReBench-Theory: 150 esempi per testare se l'IA può ragionare secondo cinque principali framework dell'etica normativa. I nostri risultati mostrano che le leggi di scala e i benchmark esistenti su compiti di matematica, codice e ragionamento scientifico non riescono a prevedere le capacità dei modelli di eseguire ragionamenti morali. I modelli mostrano anche una parzialità verso specifici framework morali (ad esempio, l'Utilitarismo dell'Atto di Bentham e la Deontologia Kantiana), che potrebbero essere effetti collaterali dei paradigmi di addestramento più diffusi. Insieme, questi benchmark avanzano la valutazione del ragionamento focalizzata sul processo verso un'IA più sicura e trasparente.