Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Modello di Ragionamento Gerarchico (HRM) è un approccio innovativo che utilizza due piccole reti neurali ricorsive che operano a frequenze diverse. Questo metodo, ispirato alla biologia, supera i modelli linguistici di grandi dimensioni (LLM) in compiti complessi come Sudoku, Labirinti e ARC-AGI, pur essendo addestrato con modelli di piccole dimensioni (27 milioni di parametri) su dataset ridotti (circa 1000 esempi). L'HRM mostra un grande potenziale per risolvere problemi difficili con reti di piccole dimensioni, ma non è ancora ben compreso e potrebbe non essere ottimale. Proponiamo il Modello Ricorsivo Minuscolo (TRM), un approccio di ragionamento ricorsivo molto più semplice che raggiunge una generalizzazione significativamente superiore rispetto all'HRM, utilizzando una singola rete minuscola con solo 2 strati. Con soli 7 milioni di parametri, il TRM ottiene un'accuratezza del 45% su ARC-AGI-1 e dell'8% su ARC-AGI-2, superando la maggior parte degli LLM (ad esempio, Deepseek R1, o3-mini, Gemini 2.5 Pro) con meno dello 0,01% dei parametri.
L'apprendimento per rinforzo guidato dai risultati ha fatto progredire il ragionamento nei grandi modelli linguistici (LLM), ma gli approcci prevalenti basati su strumenti addestrano una singola politica monolitica che intercala pensieri e chiamate a strumenti in un contesto completo; questo scala male con orizzonti lunghi e strumenti diversificati e generalizza debolmente a nuovi scenari. I sistemi agentici offrono un'alternativa promettente scomponendo il lavoro in moduli specializzati, tuttavia la maggior parte rimane priva di addestramento o si affida a un addestramento offline disaccoppiato dalle dinamiche in tempo reale dell'interazione multi-turn. Introduciamo AgentFlow, un framework agentico addestrabile in-the-flow che coordina quattro moduli (pianificatore, esecutore, verificatore, generatore) attraverso una memoria in evoluzione e ottimizza direttamente il suo pianificatore all'interno del ciclo multi-turn. Per addestrare on-policy in ambienti live, proponiamo l'ottimizzazione della politica raffinata basata su gruppi (Flow-GRPO), che affronta l'assegnazione del credito a lungo orizzonte e con ricompense sparse convertendo l'ottimizzazione multi-turn in una sequenza di aggiornamenti della politica a singolo turno gestibili. Trasmette un singolo risultato verificabile a livello di traiettoria a ogni turno per allineare le decisioni locali del pianificatore con il successo globale e stabilizza l'apprendimento con vantaggi normalizzati per gruppo. Su dieci benchmark, AgentFlow con un backbone di scala 7B supera le migliori baseline con guadagni medi di accuratezza del 14,9% nelle ricerche, del 14,0% nei compiti agentici, del 14,5% in quelli matematici e del 4,1% in quelli scientifici, superando persino modelli proprietari più grandi come GPT-4o. Ulteriori analisi confermano i vantaggi dell'ottimizzazione in-the-flow, mostrando una pianificazione migliorata, un'affidabilità potenziata nelle chiamate agli strumenti e una scalabilità positiva con la dimensione del modello e i turni di ragionamento.
Il ragionamento integrato con strumenti è emerso come un focus chiave per abilitare applicazioni agentiche. Tra queste, i DeepResearch Agent hanno attirato una significativa attenzione per le loro prestazioni elevate in compiti complessi e aperti di ricerca di informazioni. Presentiamo Fathom-DeepResearch, un sistema agentico composto da due modelli specializzati. Il primo è Fathom-Search-4B, un modello DeepSearch addestrato a partire da Qwen3-4B e ottimizzato per indagini basate su evidenze attraverso ricerche web in tempo reale e interrogazioni mirate di pagine web. Il suo addestramento combina tre progressi: (i) DUETQA, un dataset di 5K campioni generato tramite auto-gioco multi-agente che impone una stretta dipendenza dalla ricerca web e un ancoraggio eterogeneo alle fonti; (ii) RAPO, un'estensione a costo zero di GRPO che stabilizza l'apprendimento per rinforzo multi-turn con ricompense verificabili attraverso potatura curriculare, scalatura dei vantaggi basata sulle ricompense e buffer di replay per prompt; e (iii) una ricompensa a livello di passo orientabile che classifica ogni chiamata di strumento in base al comportamento cognitivo e all'utilità marginale, consentendo un controllo esplicito sull'ampiezza, profondità e orizzonte della traiettoria di ricerca. Questi miglioramenti consentono un'estensione affidabile delle chiamate di strumenti oltre le 20 chiamate quando necessario. Il secondo è Fathom-Synthesizer-4B, addestrato a partire da Qwen3-4B, che converte tracce multi-turn di DeepSearch in rapporti strutturati e densi di citazioni per una sintesi completa. Valutato su benchmark di DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) e DeepResearch-Bench, il sistema raggiunge prestazioni all'avanguardia nella categoria open-weights, dimostrando una forte generalizzazione su compiti di ragionamento diversificati, tra cui HLE, AIME-25, GPQA-Diamond e MedQA.
I Modelli di Ricompensa per Processi (PRM) sono emersi recentemente come un potente framework per migliorare le capacità di ragionamento dei grandi modelli di ragionamento (LRM), in particolare nel contesto dello scaling al momento del test (TTS). Tuttavia, il loro potenziale per supervisionare gli LRM nei domini di ragionamento tabellare rimane poco esplorato. Attraverso analisi empiriche dettagliate, abbiamo identificato che i PRM esistenti, sebbene ampiamente adottati per supervisionare passaggi di ragionamento basati esclusivamente su testo, faticano a gestire operazioni specifiche per le tabelle, come il recupero di sotto-tabelle e l'interazione con lo schema, portando a colli di bottiglia critici nelle prestazioni. Per affrontare questa limitazione, proponiamo TaTToo, un nuovo framework PRM basato su tabelle che (i) ragiona esplicitamente sui passaggi di ragionamento tabellare e (ii) integra la verifica basata su strumenti per fornire una supervisione precisa delle ricompense. Nello specifico, progettiamo prima una pipeline scalabile per la curatela dei dati che costruisce oltre 60k annotazioni di alta qualità a livello di passaggio, integrando le razionalità di verifica delle tabelle con esecuzioni basate su strumenti. Basandoci sui dati raccolti, addestriamo TaTToo con un paradigma a due stadi: fine-tuning supervisionato in fase di cold-start per catturare i modelli di ragionamento basati su strumenti, seguito da apprendimento per rinforzo con modellazione delle ricompense basata su strumenti per allineare il nostro modello con la verifica basata su tabelle. Forniamo una valutazione completa del miglioramento della politica indotto dal nostro nuovo PRM progettato. Su 5 benchmark impegnativi di ragionamento tabellare che coprono ragionamento numerico, fact-checking e analisi dei dati, TaTToo migliora gli LRM politici downstream del 30.9% al momento dell'inferenza, supera forti baseline PRM come Qwen-2.5-Math-PRM-72B con soli 8B parametri e dimostra una forte generalizzabilità attraverso diverse strategie TTS.
I modelli linguistici autoregressivi (AR) di grandi dimensioni (LLM) hanno ottenuto prestazioni notevoli in un'ampia gamma di attività di elaborazione del linguaggio naturale, tuttavia il loro processo di decodifica sequenziale intrinseco limita l'efficienza dell'inferenza. In questo lavoro, proponiamo Fast-dLLM v2, un modello linguistico a diffusione a blocchi (dLLM) progettato con cura che adatta in modo efficiente i modelli AR pre-addestrati in dLLM per la generazione parallela di testo, richiedendo solo circa 1 miliardo di token di fine-tuning. Ciò rappresenta una riduzione di 500 volte nei dati di addestramento rispetto ai LLM a diffusione con attenzione completa come Dream (580 miliardi di token), preservando al contempo le prestazioni del modello originale. Il nostro approccio introduce una nuova ricetta di addestramento che combina un meccanismo di diffusione a blocchi con una maschera di attenzione complementare, consentendo la modellizzazione bidirezionale del contesto a blocchi senza sacrificare gli obiettivi di addestramento AR. Per accelerare ulteriormente la decodifica, progettiamo un meccanismo di memorizzazione gerarchica: una cache a livello di blocco che memorizza le rappresentazioni del contesto storico tra i blocchi e una cache a livello di sotto-blocco che consente la generazione parallela efficiente all'interno di blocchi parzialmente decodificati. Insieme alla nostra pipeline di decodifica parallela, Fast-dLLM v2 raggiunge un incremento di velocità fino a 2,5 volte rispetto alla decodifica AR standard senza compromettere la qualità della generazione. Esperimenti estesi su diversi benchmark dimostrano che Fast-dLLM v2 eguaglia o supera i baseline AR in termini di accuratezza, offrendo al contempo un'efficienza all'avanguardia tra i dLLM, segnando un passo significativo verso il dispiegamento pratico di LLM veloci e precisi. Codice e modello saranno rilasciati pubblicamente.
I modelli linguistici di diffusione promettono capacità di contesto bidirezionale e di riempimento che i codificatori autoregressivi non possiedono, tuttavia i sistemi pratici rimangono ancora pesanti. Introduciamo CoDA, un codificatore di diffusione da 1,7 miliardi di parametri addestrato su TPU con una pipeline di training completamente open-source. CoDA combina un pre-training su larga scala di diffusione con un mid-training incentrato sul codice e un tuning basato su istruzioni, abilitando un campionamento guidato dalla confidenza che mantiene competitiva la latenza di inferenza. Su Humaneval, MBPP ed EvalPlus, CoDA-1.7B-Instruct eguaglia o supera i modelli di diffusione fino a 7 miliardi di parametri. La nostra release include checkpoint del modello, strumenti di valutazione e pipeline di training su TPU per accelerare la ricerca su assistenti di codifica leggeri basati sulla diffusione.
I modelli non autoregressivi (NAR) basati su diffusione e flusso hanno dimostrato un forte potenziale nella modellazione del linguaggio su larga scala, tuttavia il loro potenziale per il riconoscimento automatico del parlato (ASR) rimane in gran parte inesplorato. Proponiamo Drax, un framework di discrete flow matching per l'ASR che consente un decoding parallelo efficiente. Per allineare meglio l'addestramento all'inferenza, costruiamo un percorso di probabilità condizionato dall'audio che guida il modello attraverso traiettorie che assomigliano a probabili errori intermedi di inferenza, piuttosto che a transizioni dirette da rumore casuale a target. La nostra analisi teorica collega il gap di generalizzazione alle divergenze tra le occupazioni di addestramento e inferenza, controllate da errori cumulativi di velocità, motivando così la nostra scelta progettuale. La valutazione empirica dimostra che il nostro approccio raggiunge un'accuratezza di riconoscimento pari a quella dei modelli di parlato all'avanguardia, offrendo al contempo migliori compromessi tra accuratezza ed efficienza, evidenziando il discrete flow matching come una direzione promettente per l'avanzamento dell'ASR NAR.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli nei compiti di text-to-SQL a turno singolo, ma le applicazioni di database nel mondo reale richiedono prevalentemente interazioni multi-turno per gestire query ambigue, errori di esecuzione e requisiti utente in evoluzione. Gli attuali benchmark multi-turno sono carenti in quanto trattano le cronologie delle conversazioni come contesto statico o limitano la valutazione a operazioni di sola lettura, non riuscendo a riflettere le sfide degli assistenti di database di livello produttivo. Introduciamo BIRD-INTERACT, un benchmark che ripristina questo realismo attraverso: (1) un ambiente di interazione completo che accoppia ogni database con una base di conoscenza gerarchica, file di metadati e un simulatore utente guidato da funzioni, consentendo ai modelli di richiedere chiarimenti, recuperare conoscenze e riprendersi dagli errori senza supervisione umana; (2) due impostazioni di valutazione costituite da un protocollo conversazionale predefinito (c-Interact) e un contesto aperto e agentivo (a-Interact) in cui i modelli decidono autonomamente quando interrogare il simulatore utente o esplorare l'ambiente; (3) una suite di compiti impegnativi che coprono l'intero spettro CRUD per casi d'uso di business intelligence e operativi, protetti da casi di test eseguibili. Ogni compito presenta sotto-compiti ambigui e di follow-up che richiedono interazione dinamica. La suite comprende BIRD-INTERACT-FULL (600 compiti, fino a 11.796 interazioni) per una valutazione completa delle prestazioni, e BIRD-INTERACT-LITE (300 compiti con database semplificati) per un'analisi comportamentale dettagliata e uno sviluppo rapido dei metodi. I nostri risultati empirici evidenziano la difficoltà di BIRD-INTERACT: GPT-5 completa solo l'8,67% dei compiti in c-Interact e il 17,00% in a-Interact. L'analisi tramite innesto di memoria e ridimensionamento al momento del test di interazione conferma l'importanza di un'interazione efficace per compiti complessi e dinamici di text-to-SQL.
I modelli di ragionamento migliorano le prestazioni affrontando i problemi in modo graduale, scomponendoli in sotto-problemi ed esplorando lunghe catene di pensiero prima di produrre una risposta. Tuttavia, applicare un ragionamento esteso a ogni passaggio introduce una sostanziale ridondanza, poiché i sotto-problemi variano ampiamente in termini di difficoltà e complessità: un numero ridotto di passaggi cruciali è effettivamente impegnativo e decisivo per la risposta finale, mentre molti altri implicano solo revisioni semplici o calcoli elementari. Pertanto, un'idea naturale è dotare i modelli di ragionamento della capacità di rispondere in modo adattivo a questa variazione, piuttosto che trattare tutti i passaggi con lo stesso livello di elaborazione. A tal fine, proponiamo MixReasoning, un framework che regola dinamicamente la profondità del ragionamento all'interno di una singola risposta. La catena di pensiero risultante diventa così una miscela di ragionamenti dettagliati sui passaggi difficili e inferenze concise su quelli più semplici. Gli esperimenti su GSM8K, MATH-500 e AIME dimostrano che MixReasoning riduce la lunghezza del ragionamento e migliora sostanzialmente l'efficienza senza compromettere l'accuratezza.
La capacità di ragionamento è fondamentale per i Large Language Models (LLM) per risolvere compiti complessi, ma ottenere un ragionamento affidabile e scalabile rimane una sfida. Sebbene il prompting a Catena di Pensiero (Chain-of-Thought, CoT) sia diventato un approccio mainstream, i metodi esistenti spesso soffrono di generazione incontrollata, qualità insufficiente e diversità limitata nei percorsi di ragionamento. Recenti sforzi sfruttano il codice per migliorare il CoT ancorando il ragionamento a passaggi eseguibili, ma tali metodi sono tipicamente limitati a problemi matematici predefiniti, ostacolando scalabilità e generalizzabilità. In questo lavoro, proponiamo Caco (Code-Assisted Chain-of-ThOught), un framework innovativo che automatizza la sintesi di dati di ragionamento instruction-CoT di alta qualità, verificabili e diversificati attraverso un’augmentazione guidata dal codice. A differenza dei lavori precedenti, Caco prima addestra un generatore CoT basato su codice su soluzioni matematiche e di programmazione esistenti in un formato di codice unificato, poi scala la generazione dei dati a una grande quantità di tracce di ragionamento diversificate. In modo cruciale, introduciamo una validazione automatizzata tramite esecuzione del codice e filtraggio basato su regole per garantire correttezza logica e diversità strutturale, seguita dalla riconversione degli output filtrati in istruzioni in linguaggio naturale e CoT linguistici per arricchire l’adattabilità ai compiti. Questo processo a ciclo chiuso consente una sintesi completamente automatizzata e scalabile di dati di ragionamento con eseguibilità garantita. Esperimenti sul nostro dataset Caco-1.3M dimostrano che i modelli addestrati con Caco raggiungono prestazioni competitive su benchmark di ragionamento matematico, superando le baseline esistenti. Un’analisi più approfondita rivela che la verifica ancorata al codice e la diversità delle istruzioni di Caco contribuiscono a una generalizzazione superiore su compiti non visti. Il nostro lavoro stabilisce un paradigma per costruire sistemi di ragionamento autosufficienti e affidabili senza intervento umano.
La generazione di forme 4D condizionata da video mira a ricostruire la geometria 3D variabile nel tempo e l'aspetto coerente con la visualizzazione direttamente da un video di input. In questo lavoro, introduciamo un framework nativo per la generazione di forme 4D da video che sintetizza una singola rappresentazione 3D dinamica end-to-end a partire dal video. Il nostro framework introduce tre componenti chiave basate su modelli 3D pre-addestrati su larga scala: (i) un'attenzione temporale che condiziona la generazione su tutti i fotogrammi producendo una rappresentazione dinamica indicizzata nel tempo; (ii) un campionamento di punti consapevole del tempo e un ancoraggio latente 4D che promuovono una geometria e una texture temporalmente coerenti; e (iii) la condivisione del rumore tra i fotogrammi per migliorare la stabilità temporale. Il nostro metodo cattura accuratamente il movimento non rigido, i cambiamenti di volume e persino le transizioni topologiche senza ottimizzazione per fotogramma. Su una vasta gamma di video in contesti reali, il nostro metodo migliora la robustezza e la fedeltà percettiva e riduce le modalità di fallimento rispetto ai metodi di riferimento.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno recentemente compiuto progressi significativi in radiologia, integrando la percezione visiva con la comprensione del linguaggio naturale. Tuttavia, spesso generano descrizioni clinicamente non supportate, note come allucinazioni mediche, che rappresentano seri rischi nelle applicazioni mediche che richiedono precisione e risultati basati sulle immagini. Attraverso un'analisi empirica, abbiamo riscontrato che le allucinazioni indotte dai prompt rimangono prevalenti nei MLLM radiologici, principalmente a causa di un'eccessiva sensibilità alle sezioni cliniche. Per affrontare questo problema, introduciamo il Clinical Contrastive Decoding (CCD), un framework di inferenza senza addestramento e senza recupero che integra segnali clinici strutturati da modelli esperti specifici per la radiologia. CCD introduce un meccanismo contrastivo a due stadi per affinare i logit a livello di token durante la generazione, migliorando così la fedeltà clinica senza modificare il modello MLLM di base. Esperimenti su tre dataset e su più modelli dimostrano che CCD migliora costantemente le prestazioni complessive nella generazione di referti radiologici (RRG). Sul dataset MIMIC-CXR, si ottiene un miglioramento fino al 17% in RadGraph-F1 quando applicato ai modelli RRG all'avanguardia. Il nostro approccio fornisce una soluzione leggera e generalizzabile per mitigare le allucinazioni mediche, colmando efficacemente il divario tra i modelli esperti e i MLLM in radiologia.
I recenti metodi di post-addestramento per i Large Language Model (LLM) si basano su meccanismi di clipping a livello di token durante il Reinforcement Learning (RL). Tuttavia, identifichiamo un difetto fondamentale in questo paradigma di RL supervisionato dagli esiti (OSRL): i rapporti di Importance Sampling (IS) per i token con vantaggio positivo sono disallineati, portando a una ponderazione sbilanciata tra token positivi e negativi. Questo disallineamento sopprime l'aggiornamento dei token a bassa probabilità mentre amplifica eccessivamente quelli già ad alta probabilità. Per affrontare questo problema, proponiamo l'Asymmetric Importance Sampling Policy Optimization (ASPO), che utilizza una strategia semplice ma efficace che inverte i rapporti IS dei token con vantaggio positivo, allineando la loro direzione di aggiornamento con la dinamica di apprendimento di quelli negativi. ASPO incorpora inoltre un meccanismo di soft dual-clipping per stabilizzare gli aggiornamenti estremi mantenendo il flusso del gradiente. Esperimenti completi su benchmark di codifica e ragionamento matematico dimostrano che ASPO mitiga significativamente la convergenza prematura, migliora la stabilità dell'addestramento e potenzia le prestazioni finali rispetto a baseline basate su GRPO. La nostra analisi fornisce nuove intuizioni sul ruolo della ponderazione a livello di token nell'OSRL e sottolinea l'importanza cruciale di correggere l'IS nel RL per LLM. Il codice e i modelli di ASPO sono disponibili su https://github.com/wizard-III/Archer2.0.
Presentiamo OneFlow, il primo modello multimodale non autoregressivo che consente la generazione concorrente e a lunghezza variabile di contenuti misti. A differenza dei modelli autoregressivi che impongono un rigido ordinamento causale tra la generazione di testo e immagini, OneFlow combina un Edit Flow basato su inserzioni per i token testuali discreti con il Flow Matching per i latenti delle immagini. OneFlow abilita la sintesi concorrente di testo e immagini attraverso un campionamento gerarchico che privilegia il contenuto rispetto alla grammatica. Attraverso esperimenti controllati su dimensioni del modello che vanno da 1B a 8B, dimostriamo che OneFlow supera i modelli di riferimento autoregressivi sia nei compiti di generazione che di comprensione, utilizzando fino al 50% in meno di FLOPs di addestramento. OneFlow supera sia gli approcci autoregressivi che quelli basati sulla diffusione, sbloccando nuove capacità per la generazione concorrente, il raffinamento iterativo e la generazione simile al ragionamento naturale.
La promozione di articoli accademici è diventata un mezzo importante per aumentare la visibilità della ricerca. Tuttavia, i metodi automatizzati esistenti presentano limitazioni nella narrazione, una qualità estetica insufficiente e una capacità di autoregolazione limitata, rendendo difficile ottenere una diffusione efficiente e coinvolgente. Al centro di queste sfide c'è un principio semplice: non è possibile migliorare qualcosa quando non si è in grado di valutarla correttamente. Per affrontare questo problema, introduciamo EvoPresent, un framework di agenti di auto-miglioramento che unisce narrazioni coerenti, design consapevoli dell'estetica e presentazioni realistiche tramite personaggi virtuali. Cuore di EvoPresent è PresAesth, un modello estetico di apprendimento per rinforzo multi-task (RL) che fornisce valutazioni estetiche affidabili, regolazione dei difetti e feedback comparativo, consentendo un auto-miglioramento iterativo anche con dati di training estetico limitati. Per valutare sistematicamente i metodi, introduciamo EvoPresent Benchmark, un benchmark completo che comprende: Qualità della Generazione di Presentazioni, basato su 650 articoli di conferenze AI di alto livello con risorse multimodali (slide, video e script) per valutare sia il contenuto che il design; e Consapevolezza Estetica, composta da 2.000 coppie di slide con diversi livelli estetici, supportando l'addestramento e la valutazione congiunta su punteggio, regolazione dei difetti e confronto. I nostri risultati evidenziano che (i) Un feedback di alta qualità è essenziale per l'auto-miglioramento degli agenti, mentre la capacità iniziale da sola non garantisce una correzione efficace. (ii) Le pipeline di generazione automatizzata mostrano un compromesso tra design visivo e costruzione del contenuto. (iii) L'addestramento RL multi-task mostra una generalizzazione più forte nei compiti di consapevolezza estetica.
I metodi prevalenti per l'addestramento di Large Language Models (LLM) come encoder di testo si basano su perdite contrastive che trattano il modello come una funzione black box, scartando le sue capacità generative e di ragionamento a favore di embedding statici. Introduciamo GRACE (Generative Representation Learning via Contrastive Policy Optimization), un nuovo framework che reinterpreta i segnali contrastive non come perdite da minimizzare, ma come ricompense che guidano una politica generativa. In GRACE, l'LLM agisce come una politica che produce razionali espliciti e interpretabili dagli esseri umani - spiegazioni in linguaggio naturale strutturato della sua comprensione semantica. Questi razionali vengono poi codificati in embedding di alta qualità tramite mean pooling. Utilizzando l'ottimizzazione con gradienti di politica, addestriamo il modello con una funzione di ricompensa multi-componente che massimizza la similarità tra coppie positive di query e minimizza la similarità con quelle negative. Ciò trasforma l'LLM da un encoder opaco in un agente interpretabile il cui processo di ragionamento è trasparente e ispezionabile. Sul benchmark MTEB, GRACE produce ampi guadagni trasversali alle categorie: mediamente su quattro backbone, l'impostazione supervisionata migliora il punteggio complessivo dell'11,5% rispetto ai modelli base, e la variante non supervisionata aggiunge il 6,9%, preservando le capacità generali. Questo lavoro tratta gli obiettivi contrastive come ricompense sui razionali, unendo l'apprendimento di rappresentazione con la generazione per produrre embedding più robusti e razionali trasparenti. Il modello, i dati e il codice sono disponibili all'indirizzo https://github.com/GasolSun36/GRACE.
I recenti progressi nei modelli generativi medici sono limitati da scenari specifici per modalità che ostacolano l'integrazione di evidenze complementari provenienti da imaging, patologia e note cliniche. Questa frammentazione ne limita l'evoluzione in modelli di base in grado di apprendere e ragionare sull'intero spettro di dati biomedici. Proponiamo MeDiM, il primo modello di diffusione discreta medica che apprende distribuzioni condivise tra le modalità senza componenti specifiche per modalità. MeDiM unifica molteplici task generativi: traduzione tra immagini e testo, e produzione congiunta di coppie immagine-report tra domini in risposta a prompt. Basato su un framework di diffusione discreta, MeDiM collega le rappresentazioni visive e linguistiche attraverso uno spazio probabilistico condiviso. Per abilitare una generazione medica unificata e flessibile, utilizziamo un modello linguistico multimodale di grandi dimensioni (MLLM) come backbone di diffusione, sfruttandone la conoscenza pregressa e il ragionamento cross-modale. Sono introdotti due design chiave: (1) rimozione della maschera di attenzione causale per un contesto bidirezionale, e (2) iniezione di embedding continui dei timestep per la consapevolezza della diffusione. Gli esperimenti dimostrano una generazione medica ad alta fedeltà (FID 16.60 su MIMIC-CXR e FID 24.19 su PathGen) e una generazione accurata di report (METEOR 0.2650 e 0.2580). Le coppie immagine-report generate congiuntamente migliorano ulteriormente le prestazioni downstream (più6.43 percento BLEU-1, più18.57 percento BLEU-2, più31.58 percento BLEU-3, più4.80 percento METEOR), mostrando che MeDiM supporta output multimodali coerenti e clinicamente fondati.
Presentiamo Human3R, un framework unificato e feed-forward per la ricostruzione online 4D di umani e scene, nel sistema di riferimento globale, a partire da video monoculari acquisiti in modo casuale. A differenza degli approcci precedenti che si basano su pipeline multi-stage, raffinamenti iterativi consapevoli dei contatti tra umani e scene, e pesanti dipendenze, ad esempio rilevamento umano, stima della profondità e pre-elaborazione SLAM, Human3R ricostruisce congiuntamente corpi SMPL-X globali multi-persona ("tutti"), scene 3D dense ("ovunque") e traiettorie della fotocamera in un unico passaggio in avanti ("tutto in una volta"). Il nostro metodo si basa sul modello di ricostruzione online 4D CUT3R e utilizza il tuning efficiente di prompt visivi per preservare i ricchi prior spazio-temporali di CUT3R, consentendo al contempo la lettura diretta di più corpi SMPL-X. Human3R è un modello unificato che elimina pesanti dipendenze e raffinamenti iterativi. Dopo essere stato addestrato sul dataset sintetico relativamente piccolo BEDLAM per un solo giorno su una GPU, raggiunge prestazioni superiori con un'efficienza notevole: ricostruisce più umani in modo one-shot, insieme a scene 3D, in un'unica fase, a velocità in tempo reale (15 FPS) con un basso consumo di memoria (8 GB). Esperimenti estesi dimostrano che Human3R offre prestazioni all'avanguardia o competitive in vari task, tra cui stima del movimento umano globale, recupero di mesh umane locali, stima della profondità video e stima della posa della fotocamera, con un unico modello unificato. Speriamo che Human3R possa servire come baseline semplice ma solida, facilmente estendibile per applicazioni downstream. Codice disponibile su https://fanegg.github.io/Human3R.
Il Ranking in Contesto (In-context Ranking, ICR) è un paradigma emergente nel campo del Recupero delle Informazioni (Information Retrieval, IR), che sfrutta la comprensione contestuale dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) incorporando direttamente la descrizione del task, i documenti candidati e la query nel prompt di input del modello, affidando all'LLM il compito di identificare i documenti rilevanti. Sebbene sia efficace, l'efficienza rappresenta una sfida significativa in questo paradigma, specialmente quando la lista dei candidati cresce a causa della scala quadratica/super-lineare dell'operazione di attenzione rispetto alla lunghezza del contesto. A tal fine, questo articolo identifica innanzitutto strutture intrinseche e sfruttabili nell'attenzione degli LLMs ottimizzati per l'ICR: (1) sparsità inter-documento a blocchi: l'attenzione è densa all'interno di ciascun blocco di documento ma sparsa tra diversi documenti nel contesto; e (2) rilevanza blocco query-documento: i punteggi di attenzione da determinati token della query a un blocco di documento negli strati intermedi sono fortemente correlati con la rilevanza effettiva di quel documento. Motivati da queste osservazioni, introduciamo BlockRank (Blockwise In-context Ranking), un metodo innovativo che adatta l'operazione di attenzione in un LLM (a) imponendo architetturalmente la sparsità inter-documento a blocchi osservata, riducendo la complessità dell'attenzione da quadratica a lineare senza perdita di prestazioni, e (b) ottimizzando la rilevanza blocco query-documento per i documenti veramente rilevanti durante la fase di fine-tuning utilizzando un obiettivo di addestramento contrastivo ausiliario, migliorando il recupero nell'attenzione. Esperimenti su BEIR, MSMarco e NQ con Mistral-7B dimostrano che FLARE Mistral eguaglia o supera i ranker listwise SOTA esistenti e la baseline di fine-tuning controllato, risultando significativamente più efficiente nell'inferenza (4.7x per 100 documenti MSMarco in contesto) e scalando in modo elegante su shortlist a contesto lungo, circa 500 documenti in contesto (circa 100K di lunghezza del contesto) in meno di un secondo, presentando una soluzione scalabile ed efficace per l'ICR.
Un componente chiave del ragionamento in contesto è la capacità dei modelli linguistici (LM) di associare entità per un successivo recupero. Ad esempio, un LM potrebbe rappresentare "Anna ama la torta" associando "Anna" a "torta", consentendogli di recuperare "Anna" quando viene chiesto "Chi ama la torta?". Ricerche precedenti su brevi liste di entità associate hanno trovato prove solide che i LM implementano tale recupero attraverso un meccanismo posizionale, dove "Anna" viene recuperata in base alla sua posizione nel contesto. In questo lavoro, scopriamo che questo meccanismo si generalizza male a contesti più complessi; man mano che il numero di entità associate nel contesto aumenta, il meccanismo posizionale diventa rumoroso e inaffidabile nelle posizioni centrali. Per compensare ciò, scopriamo che i LM integrano il meccanismo posizionale con un meccanismo lessicale (recuperando "Anna" utilizzando la sua controparte associata "torta") e un meccanismo riflessivo (recuperando "Anna" attraverso un puntatore diretto). Attraverso esperimenti estesi su nove modelli e dieci compiti di associazione, individuiamo un modello coerente nel modo in cui i LM combinano questi meccanismi per guidare il comportamento del modello. Sfruttiamo queste intuizioni per sviluppare un modello causale che combina tutti e tre i meccanismi, stimando le distribuzioni dei token successivi con un accordo del 95%. Infine, dimostriamo che il nostro modello si generalizza a input sostanzialmente più lunghi di testo aperto intervallato da gruppi di entità, dimostrando ulteriormente la robustezza delle nostre scoperte in contesti più naturali. Nel complesso, il nostro studio stabilisce un quadro più completo di come i LM associano e recuperano entità in contesto.
I moderni modelli di elaborazione del linguaggio naturale hanno raggiunto una scala senza precedenti, tuttavia gli strumenti per la loro valutazione spesso rimangono un collo di bottiglia computazionale, limitando il ritmo della ricerca. Questo è particolarmente evidente per le metriche di valutazione durante l'addestramento, come i segnali di ricompensa per frase nel Reinforcement Learning, che devono operare in modo efficiente su batch di ID di token direttamente sulla GPU. In questo articolo, introduciamo TensorBLEU, una nuova implementazione della metrica BLEU progettata da zero per questo specifico caso d'uso. Il nostro approccio è completamente vettorizzato per il calcolo per frase accelerato da GPU all'interno di PyTorch e introduce un meccanismo di conteggio efficiente in termini di memoria. Creando un dizionario compatto e specifico per batch di n-grammi utilizzando torch.unique, il nostro metodo evita i costi di memoria proibitivi della vettorizzazione tradizionale basata su hashing, rendendolo pratico per modelli con vocabolari estesi. Abbiamo confrontato TensorBLEU con NLTK, la libreria standard per il calcolo di BLEU basato su ID di token sulla CPU. Gli esperimenti mostrano che TensorBLEU offre accelerazioni superiori a 13x su GPU di livello consumer (NVIDIA T4) e oltre 40x su hardware di classe data center (NVIDIA A100). Questa prestazione trasforma un significativo collo di bottiglia in una parte trascurabile del ciclo di addestramento. Definendo chiaramente il suo ruolo come "Token-ID BLEU" per scopi di sviluppo e rendendo open-source la nostra implementazione, forniamo uno strumento potente per accelerare la ricerca in aree come il fine-tuning di modelli basato su RL.
La digitalizzazione del mondo fisico in ambienti virtuali accurati e pronti per la simulazione offre significative opportunità in vari campi come la realtà aumentata e virtuale, il gaming e la robotica. Tuttavia, gli attuali metodi di ricostruzione 3D e comprensione delle scene spesso non soddisfano uno o più aspetti critici, come la completezza geometrica, l'interattività degli oggetti, la plausibilità fisica, il rendering fotorealistico o le proprietà fisiche realistiche necessarie per una simulazione dinamica affidabile. Per affrontare queste limitazioni, introduciamo HoloScene, un nuovo framework interattivo di ricostruzione 3D che soddisfa simultaneamente questi requisiti. HoloScene si avvale di una rappresentazione completa e interattiva della scena tramite grafo, codificando la geometria degli oggetti, l'aspetto e le proprietà fisiche insieme alle relazioni gerarchiche e inter-oggetto. La ricostruzione è formulata come un problema di ottimizzazione basato sull'energia, integrando dati osservativi, vincoli fisici e prior generativi in un obiettivo unificato e coerente. L'ottimizzazione viene eseguita in modo efficiente attraverso un approccio ibrido che combina l'esplorazione basata sul campionamento con il perfezionamento basato sul gradiente. I gemelli digitali risultanti presentano una geometria completa e precisa, stabilità fisica e rendering realistico da nuove prospettive. Le valutazioni condotte su più dataset di benchmark dimostrano prestazioni superiori, mentre casi d'uso pratici nel gaming interattivo e nella manipolazione in tempo reale dei gemelli digitali illustrano l'ampia applicabilità e l'efficacia di HoloScene. Pagina del progetto: https://xiahongchi.github.io/HoloScene.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è un paradigma potente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM), ma il suo successo dipende da un'esplorazione efficace. Una strategia di esplorazione ideale deve affrontare due sfide fondamentali: preservare la qualità dei campioni e garantire la stabilità dell'addestramento. Sebbene il campionamento a temperatura fissa sia semplice, fatica a bilanciare queste esigenze contrastanti, poiché temperature elevate degradano la qualità dei campioni e temperature basse limitano la scoperta. In questo lavoro, proponiamo una strategia più semplice ed efficace, il Decodifica Annealata Esplorativa (EAD), basata sull'intuizione che l'esplorazione ha un impatto maggiore sui token iniziali che definiscono la direzione semantica di una sequenza. L'EAD implementa una strategia intuitiva **esplora-all'inizio, sfrutta-alla-fine** diminuendo gradualmente la temperatura di campionamento da alta a bassa durante la generazione. Questo schema dinamico incoraggia una diversità significativa e di alto livello all'inizio, per poi abbassare gradualmente la temperatura per preservare la qualità dei campioni e mantenere la distribuzione di campionamento vicina alla politica target, essenziale per un addestramento stabile. Dimostriamo che l'EAD è un metodo leggero e plug-and-play che migliora significativamente l'efficienza del campionamento, superando costantemente il campionamento a temperatura fissa in vari algoritmi RLVR e dimensioni del modello. Il nostro lavoro suggerisce che allineare l'esplorazione con le dinamiche naturali della generazione sequenziale offre un percorso robusto per migliorare il ragionamento dei LLM.
I grandi modelli di ragionamento (LRM) con capacità di ragionamento multi-step hanno dimostrato notevoli abilità nella risoluzione di problemi, ma presentano preoccupanti vulnerabilità di sicurezza che rimangono poco comprese. In questo lavoro, indaghiamo il motivo per cui l'allineamento alla sicurezza fallisce nei modelli di ragionamento attraverso una lente di interpretabilità meccanicistica. Utilizzando un approccio di probing lineare per tracciare le intenzioni di rifiuto attraverso le posizioni dei token, scopriamo un fenomeno sorprendente denominato "refusal cliff": molti modelli di ragionamento scarsamente allineati identificano correttamente prompt dannosi e mantengono forti intenzioni di rifiuto durante il loro processo di pensiero, ma subiscono un brusco calo nei punteggi di rifiuto nei token finali prima della generazione dell'output. Ciò suggerisce che questi modelli non siano intrinsecamente insicuri; piuttosto, le loro intenzioni di rifiuto vengono sistematicamente soppresse. Attraverso un'analisi di intervento causale, identifichiamo un insieme sparso di testine di attenzione che contribuiscono negativamente al comportamento di rifiuto. L'ablazione di appena il 3% di queste testine può ridurre i tassi di successo degli attacchi al di sotto del 10%. Basandoci su queste intuizioni meccanicistiche, proponiamo Cliff-as-a-Judge, un nuovo metodo di selezione dei dati che identifica esempi di addestramento che mostrano il più grande refusal cliff per riparare in modo efficiente l'allineamento alla sicurezza dei modelli di ragionamento. Questo approccio raggiunge miglioramenti comparabili in termini di sicurezza utilizzando solo l'1,7% dei dati di addestramento alla sicurezza standard, dimostrando un effetto "less-is-more" nell'allineamento alla sicurezza.
L'accelerazione senza addestramento è emersa come un'area di ricerca avanzata nella generazione di video basata su modelli di diffusione. La ridondanza dei latenti nell'inferenza dei modelli di diffusione fornisce un punto di ingresso naturale per l'accelerazione. In questo articolo, scomponiamo il processo di inferenza nelle fasi di codifica, denoising e decodifica, e osserviamo che i metodi di accelerazione basati su cache spesso causano picchi significativi di memoria nelle ultime due fasi. Per affrontare questo problema, analizziamo le caratteristiche dell'inferenza attraverso le diverse fasi e proponiamo strategie specifiche per ridurre il consumo di memoria: 1) Scambio asincrono della cache. 2) Suddivisione in blocchi delle feature. 3) Suddivisione dei latenti per la decodifica. Allo stesso tempo, ci assicuriamo che il sovraccarico temporale introdotto da queste tre strategie rimanga inferiore ai guadagni di accelerazione stessi. Rispetto alla baseline, il nostro approccio raggiunge una velocità di inferenza più rapida e un utilizzo di memoria inferiore, mantenendo il degrado della qualità entro un intervallo accettabile. Il codice è disponibile all'indirizzo https://github.com/NKUShaw/LightCache.
I grandi modelli linguistici (LLM) dimostrano capacità impressionanti in un'ampia gamma di compiti, ma rimane poco chiaro se tale successo rifletta un ragionamento genuino o un richiamo sofisticato. Introduciamo AInstein, un framework per testare se gli LLM possono generare soluzioni valide a problemi di ricerca sull'IA utilizzando solo la loro conoscenza parametrica pre-addestrata — senza fine-tuning specifico per dominio, arricchimento tramite recupero di informazioni o altri aiuti esterni. Il nostro approccio estrae dichiarazioni di problemi distillate da contributi di alta qualità presentati a ICLR 2025, quindi affida ad agenti risolutori specializzati il compito di proporre e affinare soluzioni tecniche attraverso cicli iterativi di critica, imitando i cicli di proposta, revisione e correzione centrali all'indagine scientifica. Valutiamo AInstein su 1.214 articoli di ICLR stratificati per livello di accettazione (Oral, Spotlight, Poster), utilizzando un paradigma LLM-come-giudice guidato da una rubrica strutturata, integrata da controlli manuali mirati. Le prestazioni sono valutate con tre metriche: Tasso di Successo (la soluzione affronta il problema?), Riscoperta (è in linea con i metodi proposti dagli umani?) e Novità (produce approcci validi e originali?). I nostri risultati rivelano che, sebbene gli LLM possano riscoprire soluzioni fattibili e occasionalmente proporre alternative creative, la loro capacità di risolvere problemi rimane fragile e altamente sensibile alla formulazione. Questi risultati forniscono la prima evidenza su larga scala dell'estensione in cui gli LLM possono agire come risolutori scientifici autonomi, evidenziando sia il loro potenziale latente che le loro attuali limitazioni.
L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è emersa come un metodo semplice ed efficace per allineare i modelli linguistici di grandi dimensioni. Tuttavia, la sua dipendenza da un parametro di temperatura fisso porta a un addestramento subottimale su dati di preferenza eterogenei, causando un overfitting sugli esempi facili e un apprendimento insufficiente da quelli informativi. Recentemente sono emersi metodi per contrastare questo problema. Mentre l'IPO affronta l'overfitting generale, la sua regolarizzazione uniforme può risultare eccessivamente conservativa. L'approccio più mirato del beta-DPO soffre di limitazioni intrinseche: il suo adattamento a livello di batch applica una singola temperatura compromessa a coppie con margini misti, la sua regola di aggiornamento lineare può produrre valori beta negativi instabili e il suo meccanismo di filtraggio scarta segnali di addestramento potenzialmente utili. In questo lavoro, introduciamo l'Ottimizzazione Diretta delle Preferenze con Margine Adattivo (Margin-Adaptive Direct Preference Optimization, MADPO), un metodo che fornisce una soluzione stabile, conservativa dei dati e a livello di istanza. MADPO utilizza un approccio pratico in due fasi: prima addestra un modello di ricompensa per stimare i margini di preferenza e poi impiega questi margini per applicare un peso continuo e adattivo alla perdita DPO per ciascun campione di addestramento. Questo schema di ri-ponderazione crea un margine target efficace che viene amplificato per le coppie difficili e attenuato per quelle facili, consentendo un controllo granulare sul segnale di apprendimento. Forniamo un'analisi teorica completa, dimostrando che MADPO ha un paesaggio di ottimizzazione ben comportato ed è robusto agli errori di stima del modello di ricompensa. Convalidiamo la nostra teoria con esperimenti su un task di generazione del sentimento, dove MADPO supera costantemente e significativamente i baseline robusti su dataset di qualità variabile. Raggiunge miglioramenti delle prestazioni fino al +33,3% su dati di Alta Qualità e al +10,5% su dati di Bassa Qualità rispetto al metodo migliore successivo. I nostri risultati stabiliscono MADPO come un approccio più robusto e principiato per l'allineamento delle preferenze.
Introduciamo Equilibrium Matching (EqM), un framework di modellazione generativa costruito da una prospettiva di dinamica di equilibrio. EqM abbandona le dinamiche condizionate al tempo e non di equilibrio presenti nei tradizionali modelli generativi basati su diffusione e flusso, e invece apprende il gradiente di equilibrio di un paesaggio energetico implicito. Attraverso questo approccio, possiamo adottare un processo di campionamento basato sull'ottimizzazione al momento dell'inferenza, dove i campioni vengono ottenuti mediante discesa del gradiente sul paesaggio appreso con dimensioni dei passi regolabili, ottimizzatori adattivi e calcolo adattivo. EqM supera empiricamente le prestazioni di generazione dei modelli di diffusione/flusso, raggiungendo un FID di 1.90 su ImageNet 256×256. EqM è inoltre giustificato teoricamente per apprendere e campionare dalla varietà dei dati. Oltre alla generazione, EqM è un framework flessibile che gestisce naturalmente compiti come la rimozione del rumore da immagini parzialmente rumorose, il rilevamento di dati fuori distribuzione (OOD) e la composizione di immagini. Sostituendo le velocità condizionate al tempo con un paesaggio di equilibrio unificato, EqM offre un ponte più stretto tra i modelli basati su flusso e quelli basati sull'energia, e una via semplice verso l'inferenza guidata dall'ottimizzazione.
I grandi modelli linguistici (LLM) mostrano potenziale come assistenti scientifici, tuttavia gli agenti esistenti si basano esclusivamente sull'evoluzione algoritmica o su ricerche approfondite in isolamento, entrambi approcci che presentano limitazioni critiche. La pura evoluzione algoritmica, come in AlphaEvolve, dipende solo dalla conoscenza interna degli LLM e raggiunge rapidamente un plateau in domini complessi, mentre la pura ricerca approfondita propone idee senza validazione, portando a soluzioni irrealistiche o non implementabili. Presentiamo DeepEvolve, un agente che integra la ricerca approfondita con l'evoluzione algoritmica, unendo il recupero di conoscenze esterne, la modifica del codice tra file e il debug sistematico in un ciclo iterativo guidato dal feedback. Ogni iterazione non solo propone nuove ipotesi, ma le affina, implementa e testa, evitando sia miglioramenti superficiali che affinamenti improduttivi. Attraverso nove benchmark in chimica, matematica, biologia, scienza dei materiali e brevetti, DeepEvolve migliora costantemente l'algoritmo iniziale, producendo nuovi algoritmi eseguibili con guadagni sostenuti. Colmando il divario tra l'evoluzione non guidata e la ricerca senza basi concrete, DeepEvolve fornisce un framework affidabile per avanzare nella scoperta di algoritmi scientifici. Il nostro codice è disponibile su https://github.com/liugangcode/deepevolve.
I sistemi RAG (Retrieval-Augmented Generation) e gli agenti web sono sempre più valutati su compiti di ricerca profonda multi-hop, ma la pratica attuale soffre di due principali limitazioni. In primo luogo, la maggior parte dei benchmark rivela il percorso di ragionamento nel testo della domanda, consentendo ai modelli di seguire indizi superficiali piuttosto che scoprire catene di ragionamento in modo autonomo. In secondo luogo, la valutazione è tipicamente ridotta a un tasso di successo singolo, che comprime comportamenti diversi in un unico punteggio e oscura se gli errori derivano da una ricerca inadeguata, un uso scadente delle conoscenze o un rifiuto inappropriato. Per affrontare questi problemi, presentiamo WebDetective, un benchmark di domande multi-hop prive di indizi abbinato a un sandbox controllato di Wikipedia che garantisce la completa tracciabilità delle azioni del modello, e un framework di valutazione olistico che separa la sufficienza della ricerca, l'utilizzo delle conoscenze e il comportamento di rifiuto. La nostra valutazione di 25 modelli all'avanguardia rivela debolezze sistematiche in tutte le architetture: i modelli faticano a utilizzare le conoscenze nonostante abbiano prove sufficienti e dimostrano un rifiuto appropriato quasi assente quando le prove mancano. Questi schemi rivelano un divario fondamentale: i sistemi odierni eccellono nell'eseguire percorsi di ragionamento dati, ma falliscono quando è necessario scoprirli. Sviluppiamo un flusso di lavoro agentico, EvidenceLoop, che mira esplicitamente alle sfide identificate dal nostro benchmark, incorporando cicli di verifica e un monitoraggio sistematico delle prove che migliorano sia le capacità di ricerca che di sintesi. Questa baseline dimostra che il framework diagnostico di WebDetective può guidare miglioramenti architetturali concreti, stabilendo il nostro benchmark come uno strumento cruciale per sviluppare sistemi di ragionamento veramente autonomi piuttosto che agenti che seguono schemi.
L'implementazione di agenti AI autonomi in domini sensibili, come l'assistenza sanitaria, introduce rischi critici per la sicurezza, la protezione e la privacy. Questi agenti potrebbero deviare dagli obiettivi dell'utente, violare le politiche di gestione dei dati o essere compromessi da attacchi avversari. Mitigare questi pericoli richiede un meccanismo che garantisca formalmente che le azioni di un agente rispettino vincoli di sicurezza predefiniti, una sfida che i sistemi esistenti non affrontano completamente. Introduciamo VeriGuard, un framework innovativo che fornisce garanzie formali di sicurezza per agenti basati su LLM attraverso un'architettura a due fasi progettata per una correttezza robusta e verificabile. La fase iniziale offline prevede un processo di validazione completo. Si inizia chiarendo l'intento dell'utente per stabilire specifiche di sicurezza precise. VeriGuard sintetizza quindi una politica comportamentale e la sottopone sia a test che a verifica formale per dimostrare la sua conformità a queste specifiche. Questo processo iterativo affina la politica fino a quando non viene considerata corretta. Successivamente, la seconda fase fornisce un monitoraggio online delle azioni, in cui VeriGuard opera come un monitor runtime per convalidare ogni azione proposta dall'agente rispetto alla politica pre-verificata prima dell'esecuzione. Questa separazione tra la validazione offline esaustiva e il monitoraggio online leggero consente l'applicazione pratica di garanzie formali, fornendo una salvaguardia robusta che migliora sostanzialmente l'affidabilità degli agenti LLM.
La Conversazione di Supporto Emotivo (ESC, Emotional Support Conversation) svolge un ruolo cruciale nell'alleviare lo stress psicologico e nel fornire valore emotivo attraverso il dialogo. Sebbene studi recenti si siano concentrati principalmente sull'aumento dei dati e sulla costruzione di corpora sintetici, spesso trascurano i processi di ragionamento cognitivo più profondi che sono alla base di un supporto emotivo efficace. Per colmare questa lacuna, proponiamo CARE, un nuovo framework che rafforza il ragionamento nell'ESC senza fare affidamento su dati sintetici su larga scala. CARE sfrutta il set di addestramento originale dell'ESC per guidare i modelli nella generazione di risposte logicamente coerenti e di supporto, migliorando esplicitamente il ragionamento cognitivo. Sulla base di questa fondazione, impieghiamo ulteriormente l'apprendimento per rinforzo per affinare e rafforzare il processo di ragionamento. I risultati sperimentali dimostrano che CARE migliora significativamente sia la solidità logica che la qualità di supporto delle risposte, avanzando lo sviluppo di sistemi di supporto emotivo empatici, cognitivamente robusti e simili a quelli umani.
La maggior parte dei benchmark esistenti per la comprensione della visione egocentrica si concentra principalmente su scenari diurni, trascurando le condizioni di scarsa illuminazione che sono inevitabili nelle applicazioni del mondo reale. Per indagare su questa lacuna, presentiamo EgoNight, il primo benchmark completo per la visione egocentrica notturna, con il compito principale di risposta a domande visive (VQA). Una caratteristica chiave di EgoNight è l'introduzione di video allineati giorno-notte, che migliorano la qualità delle annotazioni notturne utilizzando i dati diurni e rivelano chiare differenze di prestazioni tra le condizioni di illuminazione. Per raggiungere questo obiettivo, raccogliamo sia video sintetici generati con Blender che registrazioni del mondo reale, garantendo che scene e azioni siano allineate visivamente e temporalmente. Sfruttando questi video accoppiati, costruiamo EgoNight-VQA, supportato da un nuovo motore di auto-etichettatura notturna potenziato dai dati diurni e raffinato attraverso un'ampia verifica umana. Ogni coppia di domande e risposte viene controllata due volte dagli annotatori per garantire l'affidabilità. In totale, EgoNight-VQA contiene 3658 coppie di domande e risposte su 90 video, che coprono 12 diversi tipi di domande, con più di 300 ore di lavoro umano. Le valutazioni dei modelli linguistici multimodali all'avanguardia (MLLM) rivelano cali significativi delle prestazioni quando si passa dal giorno alla notte, evidenziando le sfide del ragionamento in condizioni di scarsa illuminazione. Oltre alla VQA, EgoNight introduce anche due compiti ausiliari, il recupero della corrispondenza giorno-notte e la stima della profondità egocentrica di notte, che esplorano ulteriormente i limiti dei modelli esistenti. Crediamo che EgoNight-VQA fornisca una solida base per avanzare la ricerca sulla visione egocentrica guidata dalle applicazioni e per sviluppare modelli che generalizzano attraverso i domini di illuminazione. Tutti i dati e il codice saranno resi disponibili al momento dell'accettazione.
I recenti modelli linguistici multimodali (LLM) hanno mostrato promettenti risultati nel rispondere a domande basate su grafici, ma le loro prestazioni diminuiscono drasticamente su grafici non annotati, quelli che richiedono un'interpretazione visiva precisa piuttosto che affidarsi a scorciatoie testuali. Per affrontare questo problema, introduciamo ChartAgent, un nuovo framework agentico che esegue esplicitamente il ragionamento visivo direttamente nel dominio spaziale del grafico. A differenza del ragionamento a catena di pensiero testuale, ChartAgent scompone iterativamente le query in sottocompiti visivi e manipola attivamente e interagisce con le immagini dei grafici attraverso azioni specializzate come disegnare annotazioni, ritagliare regioni (ad esempio, segmentare fette di torta, isolare barre) e localizzare assi, utilizzando una libreria di strumenti visivi specifici per grafici per soddisfare ogni sottocompito. Questo processo di ragionamento iterativo rispecchia da vicino le strategie cognitive umane per la comprensione dei grafici. ChartAgent raggiunge un'accuratezza all'avanguardia sui benchmark ChartBench e ChartX, superando i metodi precedenti con un guadagno assoluto complessivo fino al 16,07% e del 17,31% su query non annotate e numericamente intensive. Inoltre, le nostre analisi mostrano che ChartAgent è (a) efficace su diversi tipi di grafici, (b) ottiene i punteggi più alti su vari livelli di complessità visiva e di ragionamento, e (c) funziona come un framework plug-and-play che migliora le prestazioni su diversi LLM sottostanti. Il nostro lavoro è tra i primi a dimostrare un ragionamento visivamente fondato per la comprensione dei grafici utilizzando agenti multimodali potenziati da strumenti.
I modelli di visione-linguaggio (VLMs) vengono tipicamente pre-addestrati con finestre di testo brevi (<77 token), il che impone la troncatura delle didascalie di formato lungo. Tuttavia, la distribuzione delle didascalie biomediche provenienti dalla letteratura open source su larga scala rivela che una porzione significativa di didascalie supera di gran lunga i 77 token. A tal fine, investigiamo l'impatto del pre-addestramento su didascalie biomediche di formato lungo estendendo la lunghezza del contesto degli encoder di testo nei VLMs. Scopriamo che un contesto più lungo (e quindi, l'abilitazione di una supervisione aggiuntiva fornita dalle didascalie di formato lungo) è correlato con migliori prestazioni di recupero e classificazione. Alla luce di questa scoperta, introduciamo BIOMEDICA-LongCAP, un dataset di 1M coppie immagine-didascalia arricchito con descrizioni contestuali tratte da articoli full-text, fornendo una supervisione testuale più lunga e aggiuntiva. Utilizzando BIOMEDICA-LongCAP, addestriamo BMC-LongCLIP, un VLM biomedico a contesto lungo con un encoder di testo che supporta finestre fino a 512 token. Il nostro modello estende la capacità del contesto di 6.6x, riducendo lo spreco di token dal 55% a solo il 2.2%. Su benchmark di recupero con didascalie lunghe, BMC-LongCLIP ottiene miglioramenti assoluti fino al +30% in Recall@1 e un miglioramento medio del +2% nella classificazione, convergendo anche più velocemente rispetto ai modelli a contesto breve. I nostri risultati dimostrano che la modellazione a contesto lungo è una direzione promettente per l'avanzamento dei VLMs biomedici.
La Segmentazione di Oggetti Video con Riferimento (RVOS) richiede la segmentazione di oggetti specifici in un video guidata da una descrizione in linguaggio naturale. La sfida principale della RVOS è ancorare concetti linguistici astratti a un insieme specifico di pixel e segmentarli continuamente attraverso le complesse dinamiche di un video. Di fronte a questa difficoltà, i lavori precedenti hanno spesso scomposto il compito in una pipeline pragmatica di "localizza-poi-segmenta". Tuttavia, questo design a cascata crea un collo di bottiglia informativo semplificando la semantica in prompt geometrici approssimativi (ad esempio, un punto) e fatica a mantenere la coerenza temporale, poiché il processo di segmentazione è spesso disaccoppiato dal grounding linguistico iniziale. Per superare queste limitazioni fondamentali, proponiamo FlowRVS, un nuovo framework che riconcettualizza la RVOS come un problema di flusso continuo condizionato. Questo ci permette di sfruttare i punti di forza intrinseci dei modelli T2V preaddestrati, il controllo fine a livello di pixel, l'allineamento semantico testo-video e la coerenza temporale. Invece di generare convenzionalmente dal rumore alla maschera o di prevedere direttamente la maschera, riformuliamo il compito apprendendo una deformazione diretta e guidata dal linguaggio dalla rappresentazione olistica di un video alla sua maschera target. Il nostro approccio generativo a una fase raggiunge nuovi risultati all'avanguardia in tutti i principali benchmark RVOS. In particolare, ottenendo un J&F di 51.1 in MeViS (+1.6 rispetto al precedente SOTA) e 73.3 nel zero shot Ref-DAVIS17 (+2.7), dimostrando il significativo potenziale di modellare i compiti di comprensione video come processi di deformazione continua.
Mentre la quantizzazione post-addestramento è ampiamente adottata per il dispiegamento efficiente di modelli linguistici di grandi dimensioni, i meccanismi alla base della robustezza alla quantizzazione rimangono poco chiari. Abbiamo condotto un'analisi completa del degrado della quantizzazione lungo le traiettorie di addestramento di modelli linguistici open-source fino a 32 miliardi di parametri e 15 trilioni di token di addestramento, al fine di valutare con precisione la relazione tra dinamiche di addestramento e prestazioni di quantizzazione. La nostra scoperta principale è che gli errori di quantizzazione negli addestramenti su larga scala sono guidati da una complessa interazione tra tasso di apprendimento e altri iperparametri di addestramento. In particolare, una volta che i tassi di apprendimento decadono, la perdita di validazione e l'errore di quantizzazione divergono, in gran parte indipendentemente dalla scala dei dati di addestramento. Per investigare interventi sulle dinamiche di addestramento e identificare configurazioni specifiche che possano modulare favorevolmente la robustezza alla quantizzazione, abbiamo addestrato i nostri modelli in esperimenti controllati fino a 100 miliardi di token. I nostri risultati sfidano l'assunzione che l'aumento della scala del dataset comprometta intrinsecamente l'efficacia della quantizzazione, dimostrando invece che interventi strategici sugli iperparametri di addestramento possono migliorare la qualità della quantizzazione su larga scala.
La regressione con processi gaussiani (GP) offre una strategia per accelerare la ricerca di punti di sella su superfici energetiche ad alta dimensionalità riducendo il numero di volte in cui è necessario valutare l'energia e le sue derivate rispetto alle coordinate atomiche. Tuttavia, il sovraccarico computazionale nell'ottimizzazione degli iperparametri può essere significativo e rendere l'approccio inefficiente. Possono inoltre verificarsi fallimenti se la ricerca si spinge troppo lontano in regioni non rappresentate adeguatamente dal modello GP. Qui, queste sfide vengono risolte utilizzando misure di trasporto ottimale sensibili alla geometria e una strategia di potatura attiva basata su una somma delle distanze di Wasserstein-1 per ogni tipo di atomo nel campionamento a punti più lontani, selezionando un sottoinsieme di dimensioni fisse di configurazioni geometricamente diversificate per evitare l'aumento rapido del costo degli aggiornamenti GP man mano che vengono effettuate più osservazioni. La stabilità è migliorata da una metrica invariante rispetto alle permutazioni che fornisce un raggio di fiducia affidabile per l'arresto anticipato e da una penalità di barriera logaritmica per la crescita della varianza del segnale. Queste modifiche algoritmiche motivate fisicamente dimostrano la loro efficacia riducendo a meno della metà il tempo computazionale medio su un insieme di 238 configurazioni complesse provenienti da un set di dati precedentemente pubblicato di reazioni chimiche. Con questi miglioramenti, l'approccio GP si afferma come un algoritmo robusto e scalabile per accelerare la ricerca di punti di sella quando la valutazione dell'energia e delle forze atomiche richiede uno sforzo computazionale significativo.
Negli ultimi due decenni, il riconoscimento delle emozioni dal parlato (Speech Emotion Recognition, SER) ha ricevuto un'attenzione crescente. Per addestrare i sistemi SER, i ricercatori raccolgono database di parlato emotivo annotati da valutatori crowdsourced o interni, che selezionano le emozioni da categorie predefinite. Tuttavia, le discrepanze tra i valutatori sono comuni. I metodi convenzionali trattano queste discrepanze come rumore, aggregando le etichette in un unico target di consenso. Sebbene ciò semplifichi il SER come un task a etichetta singola, ignora l'intrinseca soggettività della percezione umana delle emozioni. Questa dissertazione mette in discussione tali presupposti e si chiede: (1) Le valutazioni emotive minoritarie dovrebbero essere scartate? (2) I sistemi SER dovrebbero apprendere solo dalle percezioni di pochi individui? (3) I sistemi SER dovrebbero prevedere solo un'emozione per campione? Studi psicologici dimostrano che la percezione delle emozioni è soggettiva e ambigua, con confini emotivi sovrapposti. Proponiamo nuove prospettive di modellazione e valutazione: (1) Mantenere tutte le valutazioni emotive e rappresentarle con distribuzioni di etichette soft. Modelli addestrati sulle valutazioni dei singoli annotatori e ottimizzati congiuntamente con sistemi SER standard migliorano le prestazioni nei test con etichette di consenso. (2) Ridefinire la valutazione del SER includendo tutti i dati emotivi e consentendo emozioni co-occorrenti (ad esempio, triste e arrabbiato). Proponiamo una "regola inclusiva" che aggrega tutte le valutazioni per massimizzare la diversità nella rappresentazione delle etichette. Esperimenti su quattro database di emozioni in inglese mostrano prestazioni superiori rispetto all'etichettatura a maggioranza e pluralità. (3) Costruire una matrice di penalizzazione per scoraggiare combinazioni di emozioni improbabili durante l'addestramento. Integrarla nelle funzioni di perdita migliora ulteriormente le prestazioni. In sintesi, abbracciare le valutazioni minoritarie, più annotatori e previsioni multi-emozione produce sistemi SER più robusti e allineati con la percezione umana.
I Large Language Model (LLM) sono inclini all'allucinazione, ovvero alla generazione di affermazioni plausibili ma fattualmente errate. Questo lavoro indaga le origini intrinseche e architetturali di questa modalità di fallimento attraverso tre contributi principali. In primo luogo, per consentire il tracciamento affidabile dei fallimenti semantici interni, proponiamo il Distributional Semantics Tracing (DST), un framework unificato che integra tecniche consolidate di interpretabilità per produrre una mappa causale del ragionamento di un modello, trattando il significato come una funzione del contesto (semantica distribuzionale). In secondo luogo, identifichiamo lo strato del modello in cui un'allucinazione diventa inevitabile, individuando un livello di impegno specifico in cui le rappresentazioni interne del modello divergono irreversibilmente dalla fattualità. In terzo luogo, identifichiamo il meccanismo sottostante a questi fallimenti. Osserviamo un conflitto tra percorsi computazionali distinti, che interpretiamo attraverso la lente della teoria del doppio processo: un percorso associativo rapido ed euristico (simile al Sistema 1) e un percorso contestuale lento e deliberato (simile al Sistema 2), che portano a modalità di fallimento prevedibili come gli Hijack dei Ragionamenti Brevi. La capacità del nostro framework di quantificare la coerenza del percorso contestuale rivela una forte correlazione negativa (rho = -0.863) con i tassi di allucinazione, implicando che questi fallimenti siano conseguenze prevedibili di una debolezza semantica interna. Il risultato è una spiegazione meccanicistica di come, quando e perché le allucinazioni si verificano all'interno dell'architettura Transformer.
I deployment di modelli linguistici su larga scala nel mondo reale (ad esempio, sistemi di intelligenza artificiale conversazionale, assistenti per la generazione di codice) generano naturalmente un'abbondanza di segnali impliciti di insoddisfazione degli utenti (DSAT), poiché gli utenti iterano verso risposte migliori attraverso raffinamenti, correzioni e preferenze espresse, mentre il feedback esplicito di soddisfazione (SAT) è scarso. Gli approcci esistenti per l'apprendimento delle preferenze sono poco allineati con questo profilo di dati, poiché si basano su costose annotazioni umane o presuppongono una grande quantità di risposte positive. In questo articolo, introduciamo DRIFT (Dissatisfaction-Refined Iterative preFerence Training), che ancorano l'addestramento ai segnali DSAT del mondo reale e campionano dinamicamente i positivi dalla politica in evoluzione. Empiricamente, i modelli DRIFT addestrati sui dataset reali WildFeedback e sui dataset sintetici UltraFeedback raggiungono fino a +6,23% (7B) / +7,61% (14B) su WildBench Task Score e fino a +8,95% (7B) / +12,29% (14B) sul tasso di vittoria di AlpacaEval2 rispetto ai modelli base, superando metodi di baseline robusti come DPO iterativo e SPIN. Su scale più grandi, i miglioramenti sono particolarmente evidenti: i modelli 14B addestrati con DRIFT superano GPT-4o-mini su WildBench. Un'ulteriore analisi mostra che DRIFT preserva anche la capacità esplorativa, producendo soluzioni ad alta ricompensa più diversificate piuttosto che collassare in sottoinsiemi ristretti. Teoricamente, dimostriamo che questo design preserva i margini di preferenza ed evita la degenerazione del gradiente. Questi risultati mostrano che DRIFT è una ricetta efficace e scalabile per il post-training nel mondo reale che sfrutta il segnale più abbondante e informativo. Il codice e i dati sono disponibili su https://github.com/cacayaya/DRIFT.git.
È stato dimostrato che i dati di codice migliorano le capacità di ragionamento dei grandi modelli linguistici (LLM), ma rimane poco chiaro quali aspetti del codice siano i principali responsabili. Esploriamo questa questione con un framework sistematico e centrato sui dati. Costruiamo dataset di istruzioni paralleli in dieci linguaggi di programmazione e applichiamo perturbazioni controllate che interrompono selettivamente le proprietà strutturali o semantiche del codice. Successivamente, addestriamo LLM provenienti da cinque famiglie di modelli e otto scale su ciascuna variante e valutiamo le loro prestazioni su compiti di linguaggio naturale, matematica e codice. Attraverso 3.331 esperimenti, i nostri risultati mostrano che gli LLM sono più vulnerabili alle perturbazioni strutturali rispetto a quelle semantiche, in particolare nei compiti di matematica e codice. Astrazioni appropriate come pseudocodice e diagrammi di flusso possono essere efficaci quanto il codice, mentre codificare le stesse informazioni con meno token senza aderire alla sintassi originale può spesso mantenere o addirittura migliorare le prestazioni. Sorprendentemente, anche codice corrotto con segnali fuorvianti rimane competitivo quando persistono regolarità superficiali. Infine, gli stili sintattici influenzano anche i guadagni specifici per compito, con Python che favorisce il ragionamento in linguaggio naturale e linguaggi di livello inferiore come Java e Rust che favoriscono la matematica. Attraverso il nostro framework sistematico, miriamo a fornire approfondimenti su come diverse proprietà del codice influenzano il ragionamento e a informare la progettazione di dati di addestramento per migliorare le capacità di ragionamento degli LLM.
I modelli Vision-Language-Action (VLA) hanno dimostrato prestazioni notevoli nel controllo dei robot. Tuttavia, rimangono fondamentalmente limitati in compiti che richiedono alta precisione a causa del loro paradigma di inferenza singola. Sebbene approcci di scalatura al momento del test che utilizzano verificatori esterni abbiano mostrato potenziale, richiedono un addestramento aggiuntivo e non riescono a generalizzare a condizioni non viste. Proponiamo Masking Distribution Guided Selection (MG-Select), un nuovo framework di scalatura al momento del test per i VLA che sfrutta le proprietà interne del modello senza richiedere addestramento aggiuntivo o moduli esterni. Il nostro approccio utilizza la divergenza KL da una distribuzione di riferimento dei token di azione come metrica di confidenza per selezionare l'azione ottimale tra più candidati. Introduciamo una distribuzione di riferimento generata dallo stesso VLA ma con stati e condizioni linguistiche mascherati casualmente come input, garantendo la massima incertezza pur rimanendo allineata con la distribuzione del compito target. Inoltre, proponiamo una strategia di addestramento congiunto che consente al modello di apprendere sia distribuzioni condizionali che incondizionate applicando il dropout alle condizioni di stato e linguistiche, migliorando ulteriormente la qualità della distribuzione di riferimento. I nostri esperimenti dimostrano che MG-Select ottiene miglioramenti significativi delle prestazioni, inclusi un miglioramento del 28%/35% nei compiti in-distribuzione/out-of-distribuzione del mondo reale, insieme a un guadagno relativo del 168% nei compiti di pick-and-place di RoboCasa addestrati con 30 dimostrazioni.
I lavori recenti sul benchmarking di contesto e memoria si sono principalmente concentrati su istanze conversazionali, ma la necessità di valutare la memoria in ambienti aziendali dinamici è cruciale per la sua applicazione efficace. Introduciamo MEMTRACK, un benchmark progettato per valutare la memoria a lungo termine e il tracciamento dello stato in ambienti multi-piattaforma per agenti. MEMTRACK modella flussi di lavoro organizzativi realistici integrando eventi asincroni su più piattaforme di comunicazione e produttività come Slack, Linear e Git. Ogni istanza del benchmark fornisce una sequenza temporale cronologicamente intervallata tra piattaforme, con informazioni rumorose, conflittuali, cross-referenziate, nonché potenziale comprensione ed esplorazione di codebase e file system. Di conseguenza, il nostro benchmark testa capacità di memoria come acquisizione, selezione e risoluzione dei conflitti. Curiamo il dataset MEMTRACK attraverso sia una progettazione manuale guidata da esperti che una sintesi scalabile basata su agenti, generando scenari ecologicamente validi radicati nei processi di sviluppo software del mondo reale. Introduciamo metriche pertinenti per Correttezza, Efficienza e Ridondanza che catturano l'efficacia dei meccanismi di memoria oltre le semplici prestazioni di QA. Esperimenti su LLM SoTA e backend di memoria rivelano sfide nell'utilizzo della memoria su orizzonti lunghi, nella gestione delle dipendenze cross-piattaforma e nella risoluzione delle contraddizioni. In particolare, il modello GPT-5 con le migliori prestazioni raggiunge solo un punteggio di Correttezza del 60% su MEMTRACK. Questo lavoro fornisce un framework estensibile per avanzare la ricerca di valutazione per agenti potenziati dalla memoria, oltre il focus esistente sulle configurazioni conversazionali, e prepara il terreno per il benchmarking della memoria multi-agente e multi-piattaforma in contesti organizzativi complessi.
Le moderne tecniche di allineamento delle preferenze, come il campionamento Best-of-N (BoN), si basano su modelli di ricompensa addestrati con dati di confronto a coppie. Sebbene efficaci nell'apprendere preferenze relative, questo paradigma non riesce a catturare un segnale di accettabilità delle risposte, rendendo i sistemi vulnerabili alla selezione dell'opzione meno negativa tra molte inaccettabili. Ciò è particolarmente problematico per prompt difficili, dove il rischio di tali falsi positivi aumenta con il numero di campioni. In questo articolo, affrontiamo questa lacuna critica di affidabilità introducendo un nuovo framework di raccolta dati e modellazione. Arricchendo i dati di preferenza con un'opzione esterna, ispirati dai modelli di scelta discreta, addestriamo un modello di ricompensa che può distinguere non solo ciò che è migliore, ma anche ciò che è sufficientemente buono. Sfruttiamo questa capacità per creare una strategia di inferenza adattiva, best of mini-N in-loop, che suddivide il budget di generazione in loop sequenziali con una condizione di uscita anticipata calibrata. I nostri esperimenti dimostrano che, quando configurato come barriera di allineamento, riduce i fallimenti di affidabilità del 70%, e quando configurato come acceleratore di inferenza, migliora la velocità media di inferenza di oltre il 22% nel contesto di sentiment IMDB. Forniamo quindi un framework principiato e flessibile per i professionisti per gestire esplicitamente il compromesso tra affidabilità ed efficienza computazionale.
I modelli di IA sono sempre più utilizzati per l'analisi e la visualizzazione dei dati, tuttavia i benchmark raramente affrontano compiti specifici per i grafici a dispersione, limitando le informazioni sulle prestazioni. Per colmare questa lacuna per uno dei tipi di grafico più comuni, introduciamo un dataset sintetico e annotato di oltre 18.000 grafici a dispersione provenienti da sei generatori di dati e 17 design di grafici, e un benchmark basato su di esso. Valutiamo modelli proprietari di OpenAI e Google utilizzando il prompting N-shot su cinque compiti distinti derivati dalle annotazioni delle bounding box dei cluster, delle loro coordinate centrali e delle coordinate degli outlier. I modelli di OpenAI e Gemini 2.5 Flash, specialmente quando vengono forniti esempi, sono opzioni valide per il conteggio dei cluster e, nel caso di Flash, degli outlier (accuratezza superiore al 90%). Tuttavia, i risultati per i compiti relativi alla localizzazione sono insoddisfacenti: Precisione e Richiamo sono vicini o inferiori al 50%, ad eccezione di Flash nell'identificazione degli outlier (65,01%). Inoltre, l'impatto del design del grafico sulle prestazioni sembra essere un fattore secondario, ma è consigliabile evitare grafici a dispersione con rapporti di aspetto ampi (16:9 e 21:9) o colorati in modo casuale. Materiali supplementari sono disponibili all'indirizzo https://github.com/feedzai/biy-paper.
Le prestazioni dei modelli di machine learning dipendono fortemente dai dati di addestramento. La scarsità di dataset su larga scala e ben annotati rappresenta una sfida significativa nella creazione di modelli robusti. Per affrontare questo problema, i dati sintetici generati attraverso simulazioni e modelli generativi sono emersi come una soluzione promettente, migliorando la diversità dei dataset e le prestazioni, l'affidabilità e la resilienza dei modelli. Tuttavia, valutare la qualità di questi dati generati richiede una metrica efficace. Questo articolo introduce la Synthetic Dataset Quality Metric (SDQM) per valutare la qualità dei dati nei task di object detection senza richiedere la convergenza dell'addestramento del modello. Questa metrica consente una generazione e selezione più efficiente di dataset sintetici, affrontando una sfida chiave nei task di object detection con risorse limitate. Nei nostri esperimenti, SDQM ha dimostrato una forte correlazione con i punteggi di mean Average Precision (mAP) di YOLOv11, un modello leader nel campo dell'object detection, mentre le metriche precedenti mostravano solo correlazioni moderate o deboli. Inoltre, fornisce indicazioni pratiche per migliorare la qualità dei dataset, riducendo al minimo la necessità di costosi cicli di addestramento iterativo. Questa metrica scalabile ed efficiente stabilisce un nuovo standard per la valutazione dei dati sintetici. Il codice per SDQM è disponibile all'indirizzo https://github.com/ayushzenith/SDQM.
Il riconoscimento automatico degli accordi (ACR) attraverso modelli di deep learning ha gradualmente raggiunto una precisione promettente, ma rimangono due sfide principali. In primo luogo, i lavori precedenti si sono concentrati principalmente sull'ACR nel dominio audio, mentre l'ACR per la musica simbolica (ad esempio, spartiti) ha ricevuto un'attenzione limitata a causa della scarsità di dati. In secondo luogo, i metodi esistenti trascurano ancora strategie allineate con le pratiche analitiche musicali umane. Per affrontare queste sfide, presentiamo due contributi: (1) introduciamo POP909-CL, una versione migliorata del dataset POP909 con contenuti allineati al tempo ed etichette corrette manualmente per accordi, battiti, tonalità e tempi; e (2) proponiamo BACHI, un modello di riconoscimento degli accordi simbolici che scompone il compito in diversi passaggi decisionali, ovvero la rilevazione dei confini e il ranking iterativo della radice dell'accordo, della qualità e del basso (inversione). Questo meccanismo riflette le pratiche di ear-training umane. Gli esperimenti dimostrano che BACHI raggiunge prestazioni all'avanguardia nel riconoscimento degli accordi sia su benchmark di musica classica che pop, con studi di ablazione che convalidano l'efficacia di ciascun modulo.
La cura dei capelli è un'attività quotidiana essenziale, ma rimane inaccessibile per le persone con mobilità limitata e impegnativa per i sistemi robotici autonomi a causa della struttura fisica fine e delle dinamiche complesse dei capelli. In questo lavoro, presentiamo DYMO-Hair, un sistema robotico per la cura dei capelli basato su modelli. Introduciamo un nuovo paradigma di apprendimento delle dinamiche adatto per quantità volumetriche come i capelli, basato su un meccanismo di modifica dello stato latente condizionato all'azione, accoppiato con uno spazio latente 3D compatto di diverse acconciature per migliorare la generalizzabilità. Questo spazio latente è pre-addestrato su larga scala utilizzando un nuovo simulatore di fisica dei capelli, consentendo la generalizzazione su acconciature mai viste prima. Utilizzando il modello dinamico con un pianificatore Model Predictive Path Integral (MPPI), DYMO-Hair è in grado di eseguire lo styling dei capelli condizionato a obiettivi visivi. Gli esperimenti in simulazione dimostrano che il modello dinamico di DYMO-Hair supera i benchmark nella cattura della deformazione locale per diverse acconciature mai viste. DYMO-Hair supera ulteriormente i benchmark nei compiti di styling dei capelli in ciclo chiuso su acconciature mai viste, con un errore geometrico finale medio inferiore del 22% e un tasso di successo superiore del 42% rispetto al sistema all'avanguardia. Gli esperimenti nel mondo reale mostrano la trasferibilità zero-shot del nostro sistema alle parrucche, ottenendo un successo costante su acconciature mai viste e impegnative in cui il sistema all'avanguardia fallisce. Insieme, questi risultati introducono una base per la cura robotica dei capelli basata su modelli, avanzando verso uno styling dei capelli robotico più generalizzabile, flessibile e accessibile in ambienti fisici non vincolati. Ulteriori dettagli sono disponibili sulla nostra pagina del progetto: https://chengyzhao.github.io/DYMOHair-web/.
Distillare le tracce di pensiero di un Large Language Model (LLM) con capacità di ragionamento in un modello più piccolo si è dimostrato efficace. Tuttavia, c'è una scarsità di lavori che esaminano come le prestazioni del modello scalino con la quantità di dati di distillazione. In questo lavoro, studiamo l'andamento di scalabilità della distillazione di competenze di programmazione competitiva su due piccoli LLM privi di capacità di ragionamento. Validiamo l'ipotesi che esista una "valle del ragionamento sul codice": le prestazioni downstream nella programmazione competitiva inizialmente diminuiscono all'aumentare della quantità di dati, per poi aumentare costantemente in modo più rapido di una scala log-lineare. Dopo aver identificato questo trend, ottimizziamo ulteriormente i modelli in due diverse fasi di distillazione sugli stessi dati per trarre conclusioni sulle rispettive fasi di apprendimento. Scopriamo che, nelle fasi con quantità di dati bassa e medio-bassa, i modelli più piccoli traggono un vantaggio significativo da domande di programmazione più semplici rispetto a quelle più complesse. Inoltre, sorprendentemente, la correttezza degli output nei dati di addestramento non influisce sui risultati della distillazione. Il nostro lavoro rappresenta un passo avanti nella comprensione delle dinamiche di addestramento della distillazione del ragionamento sul codice, al di là dell'intuizione.
I Large Language Model (LLM) eccellono in molti compiti di NLP, ma rimangono inclini a fenomeni di allucinazione, limitando la fiducia nelle applicazioni reali. Presentiamo HalluGuard, un Small Reasoning Model (SRM) da 4 miliardi di parametri progettato per mitigare le allucinazioni nel Retrieval-Augmented Generation (RAG). HalluGuard classifica le coppie documento-affermazione come fondate o allucinate e produce giustificazioni basate su evidenze per garantire trasparenza. Il nostro approccio combina (i) un dataset sintetico agnostico al dominio derivato da FineWeb e raffinato attraverso una cura in più fasi e una riformazione dei dati, (ii) affermazioni sintetiche fondate e allucinate, e (iii) un fine-tuning basato su preferenze con Odds Ratio Preference Optimization per distillare il ragionamento di modelli più grandi in un'architettura più compatta. Sul sottoinsieme RAGTruth del benchmark LLM-AggreFact, HalluGuard raggiunge un'accuratezza bilanciata (BAcc) dell'84,0%, competendo con modelli specializzati come MiniCheck (7B; 84,0%) e Granite Guardian 3.3 (8B; 82,2%) pur utilizzando circa la metà dei loro parametri. Sull'intero benchmark, raggiunge un BAcc del 75,7%, eguagliando LLM generalisti più grandi come GPT-4o (75,9%). Rilasceremo HalluGuard e i dataset sotto licenza Apache 2.0 in caso di accettazione.