Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nel perseguimento del progresso scientifico, comunicare la ricerca è tanto vitale quanto la scoperta stessa. Tuttavia, i ricercatori vengono spesso distolti dal compito manuale e ripetitivo di costruire pagine web di progetto per rendere accessibili i loro articoli complessi. Sebbene l'automazione abbia affrontato la creazione di slide e poster statici, la natura dinamica e interattiva delle pagine web è rimasta una sfida irrisolta. Per colmare questa lacuna, riformuliamo il problema, sostenendo che la soluzione non risieda in un singolo comando, ma in un processo collaborativo e gerarchico. Introduciamo AutoPage, un innovativo sistema multi-agente che incarna questa filosofia. AutoPage scompone la creazione da articolo a pagina in una pipeline dall'alto verso il basso, dalla pianificazione narrativa alla generazione di contenuti multimodali e al rendering interattivo. Per contrastare le allucinazioni dell'IA, agenti "Checker" dedicati verificano ogni fase rispetto all'articolo sorgente, mentre checkpoint umani opzionali garantiscono che il prodotto finale sia perfettamente allineato con la visione dell'autore, trasformando il sistema da mero strumento a potente assistente collaborativo. Per convalidare rigorosamente il nostro approccio, abbiamo anche costruito PageBench, il primo benchmark per questo nuovo compito. Gli esperimenti mostrano che AutoPage non solo genera pagine di alta qualità e visivamente accattivanti, ma lo fa con notevole efficienza in meno di 15 minuti e per meno di 0,1 dollari. Codice e dataset saranno rilasciati su https://mqleet.github.io/AutoPage_ProjectPage/{Webpage}$.
La Decodifica Speculativa (SD) accelera l'inferenza dei grandi modelli linguistici impiegando un piccolo modello "draft" per generare previsioni, che vengono poi verificate da un modello target più grande. L'efficacia della SD dipende dall'allineamento tra questi modelli, solitamente migliorato tramite la Distillazione della Conoscenza (KD). Tuttavia, i metodi KD convenzionali mirano a minimizzare la divergenza KL tra i modelli draft e target su tutti i token, un obiettivo disallineato dalla vera finalità della SD, che è massimizzare il tasso di accettazione dei token. Pertanto, i modelli draft spesso faticano ad assimilare completamente la conoscenza del modello target a causa dei vincoli di capacità, portando a prestazioni non ottimali. Per affrontare questa sfida, proponiamo AdaSPEC, un metodo innovativo che incorpora un filtraggio selettivo dei token nel processo di KD. AdaSPEC utilizza un modello di riferimento per identificare e filtrare i token difficili da apprendere, permettendo la distillazione di un modello draft che risulta meglio allineato al modello target sui token più semplici. Questo approccio migliora il tasso di accettazione complessivo dei token senza compromettere la qualità della generazione. Valutiamo AdaSPEC su vari task, inclusi ragionamento aritmetico, esecuzione di istruzioni, codifica e riassunto, utilizzando configurazioni di modello da 31M/1.4B e 350M/2.7B di parametri. I nostri risultati dimostrano che AdaSPEC supera costantemente il metodo all'avanguardia DistillSpec, raggiungendo tassi di accettazione più elevati in tutti i task (fino al 15\%). Il codice è pubblicamente disponibile all'indirizzo https://github.com/yuezhouhu/adaspec.
La maggior parte dei modelli di ragionamento video genera solo tracce di ragionamento testuali senza indicare quando e dove appare l'evidenza chiave. Modelli recenti come OpenAI-o3 hanno suscitato grande interesse nel ragionamento centrato sull'evidenza per le immagini, ma estendere questa capacità ai video è più impegnativo, poiché richiede il tracciamento temporale e la localizzazione spaziale congiunta attraverso scene dinamiche. Introduciamo Open-o3 Video, un framework non-agent che integra evidenze spazio-temporali esplicite nel ragionamento video, e raccogliamo accuratamente dati di addestramento e progettiamo strategie di training per affrontare le suddette sfide. Il modello evidenzia timestamp, oggetti e bounding box chiave insieme alle sue risposte, permettendo al ragionamento di essere ancorato a osservazioni visive concrete. Per abilitare questa funzionalità, curiamo e costruiamo prima due dataset di alta qualità, STGR-CoT-30k per il SFT e STGR-RL-36k per il RL, con annotazioni temporali e spaziali accuratamente costruite, poiché la maggior parte dei dataset esistenti offre o span temporali per i video o box spaziali sulle immagini, mancando di una supervisione e tracce di ragionamento spazio-temporale unificata. Successivamente, adottiamo una strategia di reinforcement learning a freddo con ricompense multiple appositamente progettate che incoraggiano congiuntamente l'accuratezza della risposta, l'allineamento temporale e la precisione spaziale. Sul benchmark V-STAR, Open-o3 Video raggiunge prestazioni state-of-the-art, aumentando il mAM del 14.4% e il mLGM del 24.2% rispetto al baseline Qwen2.5-VL. Miglioramenti consistenti sono osservati anche su un'ampia gamma di benchmark di comprensione video, inclusi VideoMME, WorldSense, VideoMMMU e TVGBench. Oltre all'accuratezza, le tracce di ragionamento prodotte da Open-o3 Video forniscono anche segnali preziosi per il scaling al test-time, abilitando una verifica confidence-aware e migliorando l'affidabilità delle risposte.
I modelli all'avanguardia per la generazione di video da testo eccellono nella creazione di clip isolate, ma non riescono a produrre narrazioni coerenti e multi-inquadratura, che sono l'essenza dello storytelling. Colmiamo questo "divario narrativo" con HoloCine, un modello che genera intere scene in modo olistico per garantire una coerenza globale dalla prima all'ultima inquadratura. La nostra architettura raggiunge un controllo registico preciso attraverso un meccanismo di Window Cross-Attention che localizza i prompt di testo in inquadrature specifiche, mentre uno schema di Sparse Inter-Shot Self-Attention (denso all'interno delle inquadrature ma sparso tra di esse) assicura l'efficienza necessaria per generazioni della durata di minuti. Oltre a stabilire un nuovo stato dell'arte nella coerenza narrativa, HoloCine sviluppa notevoli abilità emergenti: una memoria persistente per personaggi e scene, e una comprensione intuitiva delle tecniche cinematografiche. Il nostro lavoro segna un cambiamento cruciale dalla sintesi di clip verso una cinematografia automatizzata, rendendo la creazione cinematografica end-to-end un futuro tangibile. Il nostro codice è disponibile all'indirizzo: https://holo-cine.github.io/.
I modelli Diffusion Transformer sono in grado di generare immagini con una fedeltà e un livello di dettaglio notevoli, tuttavia l'addestramento a risoluzioni ultra-elevate rimane estremamente costoso a causa della scala quadratica del meccanismo di self-attention rispetto al numero di token immagine. In questo articolo, introduciamo l'Estrapolazione Posizionale Dinamica (DyPE), un nuovo metodo, che non richiede addestramento aggiuntivo, che consente a modelli diffusion transformer pre-addestrati di sintetizzare immagini a risoluzioni di gran lunga superiori ai loro dati di addestramento, senza costi aggiuntivi durante il campionamento. DyPE sfrutta la progressione spettrale inerente al processo di diffusione, in cui le strutture a bassa frequenza convergono precocemente, mentre le alte frequenze richiedono più passi per risolversi. Nello specifico, DyPE regola dinamicamente la codifica posizionale del modello ad ogni passo di diffusione, allineandone lo spettro di frequenze con la fase corrente del processo generativo. Questo approccio ci permette di generare immagini a risoluzioni che superano drasticamente quella di addestramento, ad esempio 16 milioni di pixel utilizzando FLUX. Su molteplici benchmark, DyPE migliora costantemente le prestazioni e raggiunge una fedeltà allo stato dell'arte nella generazione di immagini a risoluzione ultra-elevata, con vantaggi che diventano ancora più marcati a risoluzioni più alte. La pagina del progetto è disponibile all'indirizzo https://noamissachar.github.io/DyPE/.
I modelli di diffusione discreta offrono un'alternativa promettente alla generazione autoregressiva tramite decodifica parallela, ma soffrono di un muro campionario: una volta che avviene il campionamento categorico, le ricche informazioni distribuzionali collassano in vettori one-hot e non possono essere propagate attraverso i passi, costringendo i passi successivi a operare con informazioni limitate. Per mitigare questo problema, introduciamo il Loopholing, un meccanismo nuovo e semplice che preserva queste informazioni attraverso un percorso latente deterministico, portando ai Modelli di Diffusione Discreta con Loopholing (LDDM). Addestrati efficientemente con una strategia di auto-condizionamento, gli LDDM raggiungono miglioramenti sostanziali – riducendo la perplessità generativa fino al 61% rispetto ai precedenti baseline, colmando (e in alcuni casi superando) il divario con i modelli autoregressivi e producendo testo più coerente. Applicati a compiti di ragionamento, gli LDDM migliorano anche le prestazioni su benchmark aritmetici come Countdown e Game of 24. Questi risultati indicano inoltre che il loopholing mitiga i passi inattivi e le oscillazioni, fornendo un percorso scalabile verso la generazione di testo non autoregressiva di alta qualità.
Lo sviluppo di agenti di IA incarnati richiede ambienti di addestramento scalabili che bilancino diversità dei contenuti e accuratezza fisica. I simulatori mondiali forniscono tali ambienti ma presentano limitazioni distinte: i metodi basati su video generano contenuti diversificati ma mancano di feedback fisico in tempo reale per l'apprendimento interattivo, mentre i motori basati sulla fisica forniscono dinamiche accurate ma affrontano limitazioni di scalabilità a causa della costosa creazione manuale di asset. Presentiamo Seed3D 1.0, un modello fondante che genera asset 3D pronti per la simulazione a partire da singole immagini, affrontando la sfida della scalabilità mantenendo il rigore fisico. A differenza dei modelli di generazione 3D esistenti, il nostro sistema produce asset con geometria accurata, texture ben allineate e materiali realistici basati sulla fisica. Questi asset possono essere integrati direttamente nei motori fisici con una configurazione minima, consentendo l'implementazione nella manipolazione robotica e nell'addestramento simulato. Oltre ai singoli oggetti, il sistema scala alla generazione di scene complete attraverso l'assemblaggio di oggetti in ambienti coerenti. Abilitando la creazione scalabile di contenuti pronti per la simulazione, Seed3D 1.0 fornisce una base per far progredire i simulatori mondiali basati sulla fisica. Seed3D 1.0 è ora disponibile su https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D.
La modifica della conoscenza offre un modo efficiente per aggiornare le conoscenze del modello senza un addestramento completo, ma i lavori precedenti si sono concentrati quasi esclusivamente sulle modalità testuali o visive. Presentiamo SAKE, il primo benchmark specificamente progettato per modificare le conoscenze sugli attributi uditivi nei Modelli Audio-Linguistici di Grande Scala (LALM). A differenza degli aggiornamenti fattuali, SAKE si rivolge a diversi attributi uditivi astratti, catturando tipi di conoscenza che vanno oltre i domini testuali e visivi convenzionali. Valutiamo sette metodi di modifica su due LALM lungo quattro dimensioni: affidabilità, generalità, località audio/testo e portabilità. I risultati evidenziano sfide come preservare la conoscenza intra-attributo non correlata alla modifica, generalizzare le modifiche al ragionamento multimodale e mantenere le modifiche sotto aggiornamenti sequenziali. SAKE fornisce un framework principiato per studiare come la modifica della conoscenza si estende alle modalità uditive, aprendo nuove direzioni per il mantenimento e l'adattamento dei LALM in scenari reali più diversificati.
Proponiamo Reinforcement Learning with Explicit Human Values (RLEV), un metodo che allinea l'ottimizzazione dei Large Language Model (LLM) direttamente con segnali quantificabili di valore umano. Sebbene il Reinforcement Learning with Verifiable Rewards (RLVR) addestri efficacemente i modelli in domini oggettivi utilizzando ricompense binarie di correttezza, esso trascura il fatto che non tutti i compiti sono ugualmente significativi. RLEV estende questo framework incorporando direttamente nella funzione di ricompensa segnali di valore definiti dall'uomo. Utilizzando dati in stile esame con etichette di valore ground-truth esplicite, RLEV supera costantemente i baseline basati solo sulla correttezza attraverso molteplici algoritmi di RL e scale di modelli. Crucialmente, le politiche di RLEV non solo migliorano l'accuratezza ponderata per il valore, ma apprendono anche una politica di terminazione sensibile al valore: concisa per prompt di basso valore, approfondita per quelli di alto valore. Dimostriamo che questo comportamento deriva dall'amplificazione del gradiente ponderato per il valore sui token di fine sequenza. Studi di ablazione confermano che il miglioramento è causalmente legato all'allineamento del valore. RLEV rimane robusto con segnali di valore rumorosi, come etichette basate sulla difficoltà, dimostrando che l'ottimizzazione per una funzione di utilità esplicita offre un percorso pratico per allineare i LLM con le priorità umane.
I grandi modelli audio-linguistici (LALM) estendono i modelli linguistici di grandi dimensioni (LLM) basati su testo con la comprensione uditiva, offrendo nuove opportunità per applicazioni multimodali. Sebbene la loro percezione, ragionamento e prestazioni nelle attività siano state ampiamente studiate, il loro allineamento alla sicurezza in presenza di variazioni paralinguistiche rimane poco esplorato. Questo lavoro indaga sistematicamente il ruolo dell'emozione del parlante. Costruiamo un dataset di istruzioni vocali maligne espresse con diverse emozioni e intensità, e valutiamo diversi LALM all'avanguardia. I nostri risultati rivelano sostanziali incoerenze nella sicurezza: emozioni diverse suscitano livelli variabili di risposte non sicure, e l'effetto dell'intensità non è monotono, con espressioni di media intensità che spesso rappresentano il rischio maggiore. Questi risultati evidenziano una vulnerabilità trascurata nei LALM e richiedono strategie di allineamento progettate esplicitamente per garantire robustezza in caso di variazione emotiva, un prerequisito per un impiego affidabile in contesti reali.
L’apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato la tecnica principale per l’addestramento di agenti basati su LLM. Tuttavia, l’RLVR dipende fortemente da query di task ben strutturate e dalle relative risposte di ground truth per fornire ricompense accurate, il che richiede notevoli sforzi umani e ostacola i processi di scalabilità del RL, specialmente in scenari agentici. Sebbene alcuni recenti lavori abbiano esplorato metodi di sintesi dei task, la difficoltà dei task agentici generati difficilmente può essere controllata per fornire vantaggi efficaci nell’addestramento RL. Per realizzare un RLVR agentico con maggiore scalabilità, esploriamo l’addestramento self-play per agenti di ricerca approfondita, in cui l’LLM in apprendimento utilizza chiamate multi-turn a motori di ricerca e agisce simultaneamente sia come proponente di task che come risolutore di problemi. Il proponente di task mira a generare query di ricerca approfondita con risposte di ground truth ben definite e difficoltà crescente. Il risolutore di problemi tenta di gestire le query di ricerca generate e produrre previsioni di risposta corrette. Per garantire che ogni query di ricerca generata abbia un ground truth accurato, raccogliiamo tutti i risultati di ricerca dalla traiettoria del proponente come conoscenza esterna, quindi conduciamo una generazione aumentata tramite recupero (RAG) per verificare se la query proposta può essere correttamente risposta fornendo tutti i documenti di ricerca necessari. In questo gioco di ricerca self-play (SSP), il proponente e il risolutore co-evolvono le proprie capacità agentiche attraverso competizione e cooperazione. Con risultati sperimentali sostanziali, scopriamo che SSP può migliorare significativamente e uniformemente le prestazioni degli agenti di ricerca su vari benchmark senza alcuna supervisione, sia in configurazioni di addestramento RL da zero che continuativo. Il codice è disponibile su https://github.com/Alibaba-Quark/SSP.
Presentiamo il Massive Legal Embedding Benchmark (MLEB), il benchmark open-source per il recupero di informazioni legali più vasto, diversificato e completo realizzato fino ad oggi. MLEB comprende dieci dataset annotati da esperti, che abbracciano molteplici giurisdizioni (USA, Regno Unito, UE, Australia, Irlanda e Singapore), tipologie documentali (sentenze, legislazione, linee guida normative, contratti e letteratura) e tipi di attività (ricerca, classificazione zero-shot e question answering). Sette dei dataset in MLEB sono stati appositamente costruiti per colmare lacune di dominio e giurisdizionali nel panorama open-source del recupero di informazioni legali. Documentiamo la nostra metodologia nella costruzione di MLEB e nella creazione dei nuovi dataset costituenti, e rilasciamo apertamente codice, risultati e dati per facilitare valutazioni riproducibili.
Il linguaggio naturale ha a lungo consentito la cooperazione umana, ma la sua natura approssimativa, ambigua e indiretta limita il potenziale dell'intelligenza collettiva. Sebbene le macchine non siano soggette a questi vincoli, la maggior parte dei sistemi multi-agente basati su LLM si affida ancora esclusivamente al linguaggio naturale, scambiando token o i loro embedding. Per andare oltre il linguaggio, introduciamo un nuovo paradigma, la comunicazione del pensiero, che consente agli agenti di interagire direttamente mente-a-mente, in modo simile alla telepatia. Per individuare questi pensieri latenti in modo sistematico, formalizziamo il processo come un modello generale a variabili latenti, in cui gli stati degli agenti sono generati da una funzione sconosciuta di pensieri sottostanti. Dimostriamo che, in un contesto non parametrico senza informazioni ausiliarie, è possibile identificare sia i pensieri latenti condivisi che quelli privati tra qualsiasi coppia di agenti. Inoltre, anche la struttura globale della condivisione del pensiero, inclusi quali agenti condividono quali pensieri e come queste relazioni sono strutturate, può essere recuperata con garanzie teoriche. Guidati dalla teoria stabilita, sviluppiamo un framework che estrae i pensieri latenti da tutti gli agenti prima della comunicazione e assegna a ciascun agente i pensieri rilevanti, insieme ai loro modelli di condivisione. Questo paradigma si estende naturalmente oltre gli LLM a tutte le modalità, poiché la maggior parte dei dati osservativi origina da processi generativi nascosti. Esperimenti su benchmark sia sintetici che del mondo reale convalidano la teoria e dimostrano i vantaggi collaborativi della comunicazione del pensiero. Speriamo che questo lavoro illumini il potenziale di sfruttare il mondo nascosto, poiché molte sfide rimangono irrisolvibili attraverso la sola osservazione superficiale, indipendentemente dalla scala di calcolo o di dati.
Il ragionamento video, che richiede deduzioni multi-step tra frame, rimane una sfida significativa per i modelli linguistici multimodali di grandi dimensioni (MLLM). Sebbene i metodi basati sull'apprendimento per rinforzo (RL) potenzino le capacità di ragionamento, essi spesso si affidano a catene testuali che producono conclusioni infondate o allucinate. Al contrario, gli approcci basati sul retrieval di frame introducono un ancoraggio visivo, ma continuano a lottare con una localizzazione imprecisa delle evidenze. Per affrontare queste sfide, presentiamo Conan, un framework per il ragionamento video multi-step basato su evidenze. Conan identifica frame contestuali e probatori, ragiona su indizi cross-frame e decide in modo adattivo quando concludere o esplorare ulteriormente. Per ottenere ciò, (1) costruiamo Conan-91K, un dataset su larga scala di tracce di ragionamento generate automaticamente che include identificazione dei frame, ragionamento sulle evidenze e decisione delle azioni, e (2) progettiamo una strategia di cold-start progressiva multi-stage combinata con un framework di addestramento RLVR Identificazione-Ragionamento-Azione (AIR) per potenziare congiuntamente il ragionamento visivo multi-step. Esperimenti estesi su sei benchmark di ragionamento multi-step dimostrano che Conan supera il baseline Qwen2.5-VL-7B-Instruct in media di oltre il 10% in accuratezza, raggiungendo prestazioni state-of-the-art. Inoltre, Conan generalizza efficacemente ai task di comprensione di video lunghi, validando la sua forte scalabilità e robustezza.
Nonostante l'impressionante fedeltà visiva, i modelli generativi personalizzati esistenti mancano di controllo interattivo sulla composizione spaziale e non scalano efficacemente con più soggetti. Per affrontare queste limitazioni, presentiamo LayerComposer, un framework interattivo per la generazione di immagini personalizzate multi-soggetto da testo. Il nostro approccio introduce due contributi principali: (1) una tela stratificata, una rappresentazione innovativa in cui ogni soggetto è posizionato su un layer distinto, consentendo una composizione senza occlusioni; e (2) un meccanismo di blocco che preserva i layer selezionati con alta fedeltà, permettendo agli altri strati di adattarsi flessibilmente al contesto circostante. Analogamente ai software professionali di fotoritocco, la tela stratificata proposta consente agli utenti di posizionare, ridimensionare o bloccare i soggetti in input attraverso un'intuitiva manipolazione dei layer. Il nostro versatile meccanismo di blocco non richiede modifiche architetturali, basandosi invece su embedding posizionali intrinseci combinati con una nuova strategia di campionamento dati complementare. Esperimenti estensivi dimostrano che LayerComposer raggiunge un controllo spaziale e una preservazione dell'identità superiori rispetto ai metodi state-of-the-art nella generazione di immagini personalizzate multi-soggetto.
Proponiamo un nuovo paradigma di segmentazione delle immagini basato sulla generazione autoregressiva (ARGenSeg), che realizza la comprensione multimodale e la percezione a livello di pixel all'interno di un framework unificato. I lavori precedenti che integrano la segmentazione delle immagini nei modelli linguistici multimodali di grandi dimensioni (MLLM) impiegano tipicamente rappresentazioni tramite punti di contorno o teste di segmentazione dedicate. Questi metodi si basano su rappresentazioni discrete o prompt semantici forniti a decoder specifici per il compito, il che limita la capacità dell'MLLM di catturare dettagli visivi di livello fine. Per affrontare queste sfide, introduciamo un framework di segmentazione per MLLM basato sulla generazione di immagini, che produce naturalmente maschere dense per gli oggetti target. Sfruttiamo l'MLLM per generare token visivi e li detokenizziamo in immagini utilizzando un VQ-VAE universale, rendendo la segmentazione completamente dipendente dalla comprensione a livello di pixel dell'MLLM. Per ridurre la latenza di inferenza, impieghiamo una strategia di predizione della scala successiva per generare in parallelo i token visivi richiesti. Esperimenti estensivi dimostrano che il nostro metodo supera gli approcci allo stato dell'arte precedenti su molteplici dataset di segmentazione con un notevole incremento della velocità di inferenza, mantenendo al contempo solide capacità di comprensione.
La gestione affidabile dei diff di codice è fondamentale per gli agenti che modificano e refattorizzano repository su larga scala. Presentiamo Diff-XYZ, un benchmark compatto per la comprensione dei diff di codice con tre task supervisionati: applicazione (codice vecchio + diff → codice nuovo), anti-applicazione (codice nuovo - diff → codice vecchio) e generazione di diff (codice nuovo - codice vecchio → diff). Le istanze nel benchmark sono triple ⟨codice vecchio, codice nuovo, diff⟩ estratte da commit reali in CommitPackFT, abbinate a metriche automatiche e un protocollo di valutazione chiaro. Utilizziamo il benchmark per condurre uno studio empirico mirato sul formato unified diff ed eseguire un confronto incrociato tra diverse rappresentazioni di diff. I nostri risultati rivelano che diversi formati dovrebbero essere utilizzati in base al caso d'uso e alla dimensione del modello. Ad esempio, rappresentare i diff in formato search-replace è efficace per modelli più grandi nello scenario di generazione di diff, ma non si adatta bene all'analisi dei diff e a modelli più piccoli. Il benchmark Diff-XYZ è una base riutilizzabile per valutare e migliorare la gestione dei diff negli LLM che può favorire lo sviluppo futuro di formati di diff e modelli per la modifica del codice. Il dataset è pubblicato su HuggingFace Hub: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
I Large Language Model (LLM) si sono affermati come promettenti assistenti per la scrittura scientifica. Tuttavia, sono state sollevate preoccupazioni riguardo alla qualità e all'affidabilità del testo generato, tra cui l'accuratezza e la fedeltà delle citazioni. Sebbene la maggior parte dei lavori recenti si basi su metodi come l'LLM-as-a-Judge, anche l'affidabilità di questo approccio isolato è messa in dubbio. In questo lavoro, riformuliamo la valutazione delle citazioni come un problema di allineamento nell'attribuzione delle citazioni, che consiste nel valutare se le citazioni generate da un LLM corrispondano a quelle che un autore umano includerebbe per lo stesso testo. Proponiamo CiteGuard, un framework di agenti retrieval-aware progettato per fornire una base più affidabile per la validazione delle citazioni. CiteGuard migliora il precedente baseline del 12,3% e raggiunge un'accuratezza fino al 65,4% sul benchmark CiteME, in linea con le prestazioni umane (69,7%). Consente inoltre l'identificazione di citazioni alternative ma valide.
MeanFlow è emerso recentemente come un potente framework per la modellazione generativa a pochi passi addestrato da zero, ma il suo successo non è ancora completamente compreso. In questo lavoro, dimostriamo che l'obiettivo di MeanFlow si scompone naturalmente in due parti: trajectory flow matching e consistenza della traiettoria. Attraverso l'analisi del gradiente, scopriamo che questi termini sono fortemente correlati negativamente, causando un conflitto di ottimizzazione e una convergenza lenta. Sulla base di queste intuizioni, introduciamo alpha-Flow, un'ampia famiglia di obiettivi che unifica trajectory flow matching, Shortcut Model e MeanFlow in un'unica formulazione. Adottando una strategia di curriculum che passa gradualmente da trajectory flow matching a MeanFlow, alpha-Flow districa gli obiettivi in conflitto e raggiunge una convergenza migliore. Quando addestrato da zero su ImageNet-1K 256x256 condizionato per classe con backbone DiT standard, alpha-Flow supera costantemente MeanFlow su diverse scale e impostazioni. Il nostro modello più grande, alpha-Flow-XL/2+, raggiunge nuovi risultati state-of-the-art utilizzando backbone DiT standard, con punteggi FID di 2.58 (1-NFE) e 2.15 (2-NFE).
L'aumento del numero di parametri e della dimensione dei dati di addestramento si è rivelato una strategia efficace per migliorare le prestazioni dei grandi modelli linguistici (LLM). Tuttavia, man mano che questi modelli diventano sempre più potenti e ampiamente distribuiti, il costo dell'inferenza è diventato un problema pressante. Nonostante la sua importanza, il compromesso tra accuratezza del modello ed efficienza inferenziale rimane poco esplorato. In questo lavoro, esaminiamo come fattori architetturali chiave – la dimensione dello strato nascosto, l'allocazione dei parametri tra MLP e attenzione (rapporto mlp-to-attention) e l'attenzione a query raggruppate (GQA) – influenzino sia il costo dell'inferenza che l'accuratezza. Introduciamo una legge di scaling condizionale che arricchisce il framework di Chinchilla con informazioni architetturali, insieme a un framework di ricerca per identificare architetture simultaneamente efficienti per l'inferenza e accurate. Per validare il nostro approccio, addestriamo più di 200 modelli che spaziano da 80M a 3B di parametri e da 8B a 100B di token di addestramento, e adattiamo la proposta legge di scaling condizionale. I nostri risultati mostrano che la legge di scaling condizionale predice in modo affidabile le scelte architetturali ottimali e che i modelli risultanti superano i baseline open-source esistenti. A parità di budget di addestramento, le architetture ottimizzate raggiungono un'accuratezza fino al 2,1% superiore e una velocità di inferenza del 42% maggiore rispetto a LLaMA-3.2.
Questo non è un tipico survey sui modelli del mondo; è una guida per coloro che vogliono costruire mondi. Il nostro obiettivo non è catalogare ogni articolo che abbia mai menzionato un "modello del mondo". Piuttosto, seguiamo un percorso chiaro: dai primi modelli mascherati che unificavano l'apprendimento delle rappresentazioni tra le modalità, alle architetture unificate che condividono un unico paradigma, poi ai modelli generativi interattivi che chiudono il ciclo azione-percezione, e infine ai sistemi potenziati dalla memoria che sostengono mondi coerenti nel tempo. Evitiamo i rami solo marginalmente correlati per concentrarci sul nucleo: il cuore generativo, il ciclo interattivo e il sistema di memoria. Dimostriamo che questo è il percorso più promettente verso veri modelli del mondo.
La tendenza a individuare e sfruttare "scorciatoie" per completare i compiti comporta rischi significativi per la valutazione affidabile e il deployment di grandi modelli linguistici (LLM). Ad esempio, un agente LLM con accesso ai test unitari potrebbe eliminare i test che falliscono anziché correggere il bug sottostante. Tale comportamento mina sia la validità dei risultati dei benchmark che l'affidabilità delle implementazioni reali di assistenti di codifica basati su LLM. Per quantificare, studiare e mitigare tale comportamento, introduciamo ImpossibleBench, un framework di benchmark che misura sistematicamente la propensione degli agenti LLM a sfruttare i casi di test. ImpossibleBench crea varianti "impossibili" di compiti provenienti da benchmark esistenti come LiveCodeBench e SWE-bench introducendo conflitti diretti tra la specifica in linguaggio naturale e i test unitari. Misuriamo il "tasso di cheating" di un agente come la sua percentuale di successo su questi compiti impossibili, dove qualsiasi superamento implica necessariamente una scorciatoia che viola le specifiche. Come framework pratico, ImpossibleBench non è solo una valutazione ma uno strumento versatile. Ne dimostriamo l'utilità per: (1) studiare i comportamenti dei modelli, rivelando dettagli più granulari dei comportamenti di cheating, dalla semplice modifica dei test al complesso operator overloading; (2) il context engineering, mostrando come prompt, accesso ai test e feedback loop influenzino i tassi di cheating; e (3) sviluppare strumenti di monitoraggio, fornendo un banco di prova con soluzioni ingannevoli verificate. Ci auguriamo che ImpossibleBench serva come framework utile per costruire sistemi LLM più robusti e affidabili. La nostra implementazione è disponibile all'indirizzo https://github.com/safety-research/impossiblebench.
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer hanno ottenuto risultati notevoli, tuttavia il loro meccanismo di attenzione standard comporta costi computazionali e di memoria quadratici rispetto alla lunghezza della sequenza, rappresentando un collo di bottiglia principale per l'addestramento con contesti lunghi. I lavori precedenti affrontano questa sfida lungo due direzioni: (1) ottimizzazioni a livello di kernel, che accelerano gli operatori di attenzione densa e sparsa; e (2) strategie a livello di modulo, spesso denominate attenzione distribuita o addestramento parallelo per contesto, che scalano l'attenzione su più dispositivi. Tuttavia, la valutazione sistematica rimane limitata: i confronti a livello di operatore sono spesso incompleti, mentre le strategie parallele per contesto sono tipicamente specifiche del framework, con un'analisi delle prestazioni non chiara tra diversi contesti. Per colmare queste lacune, proponiamo un benchmark unificato che integra kernel di attenzione rappresentativi e meccanismi paralleli per contesto con un'interfaccia modulare ed estensibile per la valutazione. Il benchmark valuta i metodi lungo due dimensioni critiche: (1) i pattern di maschera di attenzione, che influiscono fortemente su efficienza, scalabilità e usabilità, e (2) la lunghezza della sequenza e la scala distribuita, che determinano le prestazioni in condizioni di addestramento estremo con contesti lunghi. Attraverso esperimenti completi su un cluster di fino a 96 GPU, il nostro benchmark consente confronti riproducibili, evidenzia compromessi specifici dei metodi e fornisce indicazioni pratiche per la progettazione e il deployment di meccanismi di attenzione nell'addestramento di LLM con contesti lunghi.
Il lavoro di squadra negli ambienti di lavoro per compiti complessi richiede strategie di comunicazione diversificate, ma gli attuali sistemi multi-agente basati su LLM mancano di framework sistematici per la comunicazione orientata al compito. Introduciamo Communication to Completion (C2C), un framework scalabile che colma questa lacuna attraverso due innovazioni chiave: (1) l'Alignment Factor (AF), una nuova metrica che quantifica l'allineamento degli agenti al compito e che influisce direttamente sull'efficienza lavorativa, e (2) un Sequential Action Framework che integra l'esecuzione graduale con decisioni di comunicazione intelligenti. C2C consente agli agenti di compiere scelte comunicative consapevoli dei costi, migliorando dinamicamente la comprensione del compito attraverso interazioni mirate. Abbiamo valutato C2C su flussi di lavoro di codifica realistici su tre livelli di complessità e dimensioni del team da 5 a 17 agenti, confrontandolo con baseline senza comunicazione e a passi fissi. I risultati mostrano che C2C riduce il tempo di completamento del compito di circa il 40% con costi di comunicazione accettabili. Il framework completa con successo tutti i compiti nelle configurazioni standard e mantiene la sua efficacia su larga scala. C2C stabilisce sia una base teorica per misurare l'efficacia della comunicazione nei sistemi multi-agente, sia un framework pratico per compiti collaborativi complessi.
Introduciamo MSC-Bench, un benchmark su larga scala per valutare l'orchestrazione di strumenti multi-hop e end-to-end da parte di agenti LLM in un ecosistema gerarchico basato sul Model-Context Protocol (MCP). I benchmark esistenti valutano spesso gli strumenti in isolamento, ignorando sfide come la sovrapposizione funzionale e l'orchestrazione cross-server, portando a valutazioni eccessivamente ottimistiche. MSC-Bench affronta queste lacune costruendo ground truth attraverso 'insiemi di funzioni equivalenti', permettendo l'uso di metriche oggettive come l'F1-score e riducendo la dipendenza da valutazioni LLM-as-a-judge. Organizzato come un curriculum a cinque livelli, testa sistematicamente le capacità degli agenti dall'orchestrazione di strumenti singoli alla pianificazione complessa cross-server, e la robustezza a richieste fuori contesto. Gli esperimenti rivelano che gerarchie rigide possono ostacolare le prestazioni senza strategie co-progettate, e che anche gli agenti più all'avanguardia mostrano debolezze sistemiche nella robustezza. MSC-Bench fornisce un framework diagnostico per evidenziare questi limiti e guidare lo sviluppo di agenti che utilizzano strumenti in modo più capace ed efficiente. Il benchmark e le risorse sono pubblicamente disponibili all'indirizzo https://github.com/snooow1029/MSC_Bench.
I modelli linguistici di grandi dimensioni (LLM) supportano ora finestre contestuali di centinaia di migliaia fino a milioni di token, abilitando applicazioni come la sintesi di codice su larga scala, la risposta a domande su più documenti e il dialogo persistente multi-turn. Tuttavia, questi contesti estesi esasperano il costo quadratico dell'auto-attenzione, causando una latenza severa nella decodifica autoregressiva. I metodi esistenti di attenzione sparsa alleviano questi costi, ma si basano su pattern euristici che faticano a recuperare coppie chiave-valore (KV) critiche per ogni query, risultando in un degrado dell'accuratezza. Introduciamo Adamas, un meccanismo di attenzione sparsa leggero ma altamente accurato, progettato per l'inferenza su contesti lunghi. Adamas applica la trasformata di Hadamard, la suddivisione in bucket e una compressione a 2 bit per produrre rappresentazioni compatte, e sfrutta la stima della distanza di Manhattan per selezioni top-k efficienti. Gli esperimenti mostrano che Adamas eguaglia l'accuratezza dell'attenzione completa con un budget di soli 64 token, raggiunge prestazioni quasi senza perdite a 128 token e supporta una sparsità fino a 8 volte superiore rispetto ai precedenti metodi all'avanguardia (SOTA), offrendo accelerazioni fino a 4,4x nell'auto-attenzione e 1,5x end-to-end su sequenze di lunghezza 32K. Notevolmente, Adamas ottiene una perplexità comparabile o persino inferiore all'attenzione completa, sottolineando la sua efficacia nel mantenere l'accuratezza sotto condizioni di sparsità aggressiva.
Dall'avvento di vari modelli linguistici pre-addestrati di grandi dimensioni, l'estrazione di conoscenze strutturate da testi scientifici ha subito un cambiamento rivoluzionario rispetto alle tecniche tradizionali di apprendimento automatico o di elaborazione del linguaggio naturale. Nonostante questi progressi, gli strumenti automatizzati accessibili che consentono agli utenti di costruire, convalidare e visualizzare dataset derivanti dall'estrazione della letteratura scientifica rimangono scarsi. Abbiamo quindi sviluppato ComProScanner, una piattaforma multi-agente autonoma che facilita l'estrazione, la convalida, la classificazione e la visualizzazione di composizioni e proprietà chimiche in formato machine-readable, integrata con dati di sintesi da articoli di riviste per la creazione di database completi. Abbiamo valutato il nostro framework utilizzando 100 articoli di riviste e confrontando 10 diversi LLM, inclusi sia modelli open-source che proprietari, per estrarre composizioni altamente complesse associate a materiali ceramici piezoelettrici e i corrispondenti coefficienti di deformazione piezoelettrica (d33), motivati dalla mancanza di un ampio dataset per tali materiali. DeepSeek-V3-0324 ha superato tutti i modelli con un'accuratezza complessiva significativa di 0,82. Questo framework fornisce un pacchetto semplice, user-friendly e immediatamente utilizzabile per estrarre dati sperimentali altamente complessi sepolti nella letteratura al fine di costruire dataset per l'apprendimento automatico o l'apprendimento profondo.
Recenti studi di probing rivelano che i grandi modelli linguistici presentano sottospazi lineari che separano le affermazioni vere da quelle false, sebbene il meccanismo alla base della loro emersione rimanga poco chiaro. Introduciamo un modello giocattolo trasparente, un transformer a singolo strato, che riproduce end-to-end tali sottospazi di verità e illustra un percorso concreto attraverso cui possono emergere. Studiamo un semplice contesto in cui la codifica della verità può emergere: una distribuzione di dati in cui affermazioni fattuali co-occorrono con altre affermazioni fattuali (e viceversa), incoraggiando il modello ad apprendere questa distinzione per ridurre la loss di modellazione linguistica sui token futuri. Confermiamo questo pattern con esperimenti su modelli linguistici preaddestrati. Infine, nel contesto giocattolo osserviamo una dinamica di apprendimento bifasica: le reti memorizzano dapprima associazioni fattuali individuali in pochi passi, per poi – su un orizzonte temporale più lungo – apprendere a separare linearmente il vero dal falso, il che a sua volta riduce la loss di modellazione linguistica. Complessivamente, questi risultati forniscono sia una dimostrazione meccanicistica sia una motivazione empirica di come e perché le rappresentazioni lineari della verità possano emergere nei modelli linguistici.