Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio potente per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM), sebbene i suoi meccanismi non siano ancora ben compresi. In questo lavoro, intraprendiamo un'esplorazione pionieristica dell'RLVR attraverso la nuova prospettiva dei modelli di entropia dei token, analizzando in modo completo come diversi token influenzano le prestazioni di ragionamento. Esaminando i modelli di entropia dei token nel ragionamento a Catena di Pensiero (CoT), osserviamo che solo una piccola frazione di token presenta un'elevata entropia, e questi token agiscono come punti critici di biforcazione che indirizzano il modello verso percorsi di ragionamento diversi. Inoltre, studiando come i modelli di entropia evolvono durante l'addestramento RLVR, scopriamo che l'RLVR si attiene in gran parte ai modelli di entropia del modello di base, regolando principalmente l'entropia dei token ad alta entropia. Questi risultati evidenziano l'importanza dei token ad alta entropia (cioè, i token di biforcazione) per l'RLVR. Alla fine, miglioriamo l'RLVR limitando gli aggiornamenti del gradiente della politica ai token di biforcazione e scopriamo un risultato che va persino oltre la regola dell'80/20: utilizzando solo il 20% dei token mentre si mantengono prestazioni comparabili agli aggiornamenti a gradiente completo sul modello di base Qwen3-8B e superando significativamente gli aggiornamenti a gradiente completo sui modelli di base Qwen3-32B (+11,04 su AIME'25 e +7,71 su AIME'24) e Qwen3-14B (+4,79 su AIME'25 e +5,21 su AIME'24), evidenziando una forte tendenza alla scalabilità. Al contrario, l'addestramento esclusivo sull'80% dei token a più bassa entropia porta a un marcato declino delle prestazioni. Questi risultati indicano che l'efficacia dell'RLVR deriva principalmente dall'ottimizzazione dei token ad alta entropia che decidono le direzioni di ragionamento. Collettivamente, i nostri risultati evidenziano il potenziale di comprendere l'RLVR attraverso una prospettiva di entropia dei token e di ottimizzare l'RLVR sfruttando i token minoritari ad alta entropia per migliorare ulteriormente il ragionamento degli LLM.
I modelli visione-linguaggio (VLMs) pre-addestrati su vasti dataset multimodali codificano una ricca conoscenza visiva e linguistica, rendendoli una solida base per la robotica. Piuttosto che addestrare politiche robotiche da zero, approcci recenti adattano i VLMs in modelli visione-linguaggio-azione (VLA) che abilitano la percezione e il controllo guidati dal linguaggio naturale. Tuttavia, gli attuali VLA sono tipicamente massicci—spesso con miliardi di parametri—portando a costi di addestramento elevati e una limitata possibilità di implementazione nel mondo reale. Inoltre, si basano su dataset accademici e industriali, trascurando la crescente disponibilità di dati raccolti dalla comunità provenienti da piattaforme robotiche economiche. In questo lavoro, presentiamo SmolVLA, un VLA piccolo, efficiente e guidato dalla comunità che riduce drasticamente sia i costi di addestramento che di inferenza, mantenendo prestazioni competitive. SmolVLA è progettato per essere addestrato su una singola GPU e implementato su GPU di livello consumer o persino CPU. Per migliorare ulteriormente la reattività, introduciamo uno stack di inferenza asincrono che disaccoppia la percezione e la previsione delle azioni dall'esecuzione delle azioni, consentendo tassi di controllo più elevati con la generazione di azioni in blocchi. Nonostante le sue dimensioni compatte, SmolVLA raggiunge prestazioni paragonabili a VLA 10 volte più grandi. Valutiamo SmolVLA su una gamma di benchmark robotici sia simulati che reali e rilasciamo tutto il codice, i modelli pre-addestrati e i dati di addestramento.
Presentiamo Reasoning Gym (RG), una libreria di ambienti di ragionamento per l'apprendimento per rinforzo con ricompense verificabili. Offre oltre 100 generatori di dati e verificatori che coprono molteplici domini, tra cui algebra, aritmetica, computazione, cognizione, geometria, teoria dei grafi, logica e vari giochi comuni. La sua innovazione principale è la capacità di generare dati di addestramento virtualmente infiniti con complessità regolabile, a differenza della maggior parte dei precedenti dataset di ragionamento, che sono tipicamente fissi. Questo approccio di generazione procedurale consente una valutazione continua attraverso diversi livelli di difficoltà. I nostri risultati sperimentali dimostrano l'efficacia di RG sia nella valutazione che nell'apprendimento per rinforzo di modelli di ragionamento.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato capacità promettenti nei compiti di ragionamento, ma continuano a lottare con problemi complessi che richiedono un'autoriflessione e un'autocorrezione esplicite, specialmente rispetto alle loro controparti unimodali basate su testo. I metodi di riflessione esistenti sono semplicistici e faticano a generare feedback significativi e istruttivi, poiché le capacità di ragionamento e i limiti di conoscenza dei modelli pre-addestrati sono in gran parte fissati durante l'addestramento iniziale. Per superare queste sfide, proponiamo il ragionamento potenziato dall'autoriflessione multimodale con l'ottimizzazione delle politiche relative di gruppo (SRPO), un framework di apprendimento per rinforzo (RL) a due stadi progettato esplicitamente per migliorare il ragionamento dei MLLM multimodali. Nella prima fase, costruiamo un dataset di alta qualità focalizzato sulla riflessione sotto la guida di un MLLM avanzato, che genera riflessioni basate sulle risposte iniziali per aiutare il modello di politica a apprendere sia il ragionamento che l'autoriflessione. Nella seconda fase, introduciamo un meccanismo di ricompensa innovativo all'interno del framework GRPO che incoraggia riflessioni concise e cognitiveamente significative, evitando la ridondanza. Esperimenti estesi su più benchmark di ragionamento multimodale, tra cui MathVista, MathVision, MathVerse e MMMU-Pro, utilizzando Qwen-2.5-VL-7B e Qwen-2.5-VL-32B, dimostrano che SRPO supera significativamente i modelli all'avanguardia, ottenendo miglioramenti notevoli sia nell'accuratezza del ragionamento che nella qualità della riflessione.
L'addestramento di grandi modelli linguistici (LLM) presenta sfide dovute alla loro scala massiccia e alle architetture eterogenee. Sebbene ottimizzatori adattivi come AdamW aiutino a gestire le variazioni del gradiente, essi continuano a lottare con una stima efficiente ed efficace del tasso di apprendimento a livello di parametro, portando a instabilità durante l'addestramento, convergenza lenta e scarsa compatibilità con tecniche di fine-tuning efficiente in termini di parametri (PEFT). Questo lavoro introduce Scaling with Gradient Grouping (SGG), un wrapper per ottimizzatori che migliora la stima del tasso di apprendimento adattivo attraverso il raggruppamento dinamico e il ridimensionamento specifico per gruppo. SGG prima raggruppa le statistiche del gradiente in ciascun livello in cluster e poi applica un ridimensionamento specifico per cluster per calibrare i tassi di apprendimento per ciascun parametro, imponendo così vincoli collettivi a livello di gruppo mentre mantiene un adattamento preciso per parametro. Esperimenti su vari benchmark (M)LLM dimostrano che SGG si integra perfettamente con gli ottimizzatori esistenti, offrendo guadagni consistenti e una convergenza più rapida rispetto ai metodi di base, con diverse dimensioni del modello. La sua stabilità su diverse dimensioni del batch e tassi di apprendimento stabilisce SGG come una scelta robusta per l'ottimizzazione di LLM.
I recenti progressi nei modelli di diffusione testo-video hanno reso possibile la sintesi di video di alta qualità, ma la generazione controllata rimane una sfida, specialmente in contesti con dati e risorse computazionali limitati. I metodi esistenti di fine-tuning per la generazione condizionata spesso si basano su encoder esterni o modifiche architetturali, che richiedono grandi dataset e sono tipicamente limitati a condizionamenti spazialmente allineati, riducendo flessibilità e scalabilità. In questo lavoro, introduciamo il Temporal In-Context Fine-Tuning (TIC-FT), un approccio efficiente e versatile per adattare modelli di diffusione video pre-addestrati a diverse attività di generazione condizionata. L'idea chiave è concatenare i frame di condizione e quelli target lungo l'asse temporale, inserendo frame intermedi di buffer con livelli di rumore progressivamente crescenti. Questi frame di buffer consentono transizioni fluide, allineando il processo di fine-tuning con le dinamiche temporali del modello pre-addestrato. TIC-FT non richiede modifiche architetturali e ottiene prestazioni robuste con soli 10-30 campioni di addestramento. Validiamo il nostro metodo su una gamma di attività, tra cui generazione immagine-video e video-video, utilizzando modelli di base su larga scala come CogVideoX-5B e Wan-14B. Esperimenti estensivi dimostrano che TIC-FT supera i baseline esistenti sia nella fedeltà alla condizione che nella qualità visiva, mantenendo un'elevata efficienza sia in fase di addestramento che di inferenza. Per ulteriori risultati, visitare https://kinam0252.github.io/TIC-FT/.
Recentemente, le potenti capacità di generazione di immagini da testo di ChatGPT-4o hanno portato a una crescente apprezzamento per i modelli linguistici multimodali nativi di grandi dimensioni. Tuttavia, le sue capacità multimodali rimangono limitate a immagini e testo. Eppure, oltre alle immagini, la capacità di comprendere e generare contenuti 3D è altrettanto cruciale. Per colmare questa lacuna, proponiamo ShapeLLM-Omni, un modello linguistico 3D nativo di grandi dimensioni in grado di comprendere e generare risorse 3D e testo in qualsiasi sequenza. In primo luogo, addestriamo un autoencoder variazionale vettorializzato quantizzato (VQVAE) 3D, che mappa oggetti 3D in uno spazio latente discreto per ottenere una rappresentazione e ricostruzione efficiente e accurata delle forme. Basandoci sui token discreti consapevoli del 3D, costruiamo in modo innovativo un ampio dataset di addestramento continuo denominato 3D-Alpaca, che comprende generazione, comprensione e modifica, fornendo così risorse ricche per la ricerca e l'addestramento futuri. Infine, eseguendo l'addestramento basato su istruzioni del modello Qwen-2.5-vl-7B-Instruct sul dataset 3D-Alpaca. Il nostro lavoro fornisce un tentativo efficace di estendere i modelli multimodali con capacità 3D di base, contribuendo alla futura ricerca nell'IA nativa 3D. Pagina del progetto: https://github.com/JAMESYJL/ShapeLLM-Omni
Gli agenti incarnati nel mondo reale affrontano compiti a lungo termine, caratterizzati da obiettivi di alto livello che richiedono soluzioni multi-step che vanno oltre singole azioni. Per navigare con successo in questi scenari, è necessario sia una pianificazione di alto livello (cioè, la scomposizione degli obiettivi in sotto-compiti) sia un controllo di movimento di basso livello (cioè, la generazione di azioni precise del robot). Sebbene i modelli esistenti di visione, linguaggio e azione (VLA) e le architetture gerarchiche offrano potenzialità nei compiti incarnati, i primi spesso falliscono nella pianificazione, mentre le seconde possono soffrire di problemi di coordinazione, entrambi fattori che compromettono le prestazioni. Introduciamo un nuovo framework VLA unificato per compiti a lungo termine, denominato LoHoVLA, per superare queste limitazioni. LoHoVLA sfrutta un grande modello pre-addestrato di visione e linguaggio (VLM) come backbone per generare congiuntamente token linguistici e di azione, rispettivamente per la generazione di sotto-compiti e la previsione delle azioni del robot. Questa rappresentazione condivisa promuove una migliore generalizzazione tra i compiti. Inoltre, LoHoVLA adotta un meccanismo di controllo gerarchico a ciclo chiuso per mitigare gli errori derivanti sia dalla pianificazione di alto livello che dal controllo di basso livello. Per addestrare LoHoVLA, introduciamo LoHoSet, un dataset costruito sul simulatore Ravens, contenente 20 compiti a lungo termine, ciascuno con 1.000 dimostrazioni esperte composte da osservazioni visive, obiettivi linguistici, sotto-compiti e azioni del robot. I risultati sperimentali mostrano che LoHoVLA supera significativamente sia gli approcci gerarchici che quelli VLA standard nei compiti incarnati a lungo termine nel simulatore Ravens. Questi risultati sottolineano la promessa delle architetture unificate per far progredire l'intelligenza incarnata generalizzabile.
I modelli linguistici di grandi dimensioni (LLM) hanno consentito agli agenti di eseguire ragionamenti complessi e processi decisionali attraverso interazioni linguistiche libere. Tuttavia, in ambienti di azione linguistica aperti (ad esempio, negoziazioni o giochi di domande), lo spazio delle azioni può essere formulato come una distribuzione congiunta sui token, risultando in uno spazio delle azioni esponenzialmente ampio. Campionare azioni in tale spazio può portare a una estrema sparsità delle ricompense, che genera una grande varianza delle ricompense, ostacolando l'apprendimento per rinforzo (RL) efficace. Per affrontare questo problema, proponiamo ARIA, un metodo che Aggrega le Ricompense nello Spazio delle Intenzioni per consentire un addestramento efficiente ed efficace degli Agenti linguistici. ARIA mira a proiettare le azioni in linguaggio naturale dallo spazio ad alta dimensione della distribuzione congiunta dei token in uno spazio a bassa dimensione delle intenzioni, dove azioni semanticamente simili sono raggruppate e assegnate ricompense condivise. Questa aggregazione delle ricompense basata sulle intenzioni riduce la varianza delle ricompense densificando i segnali di ricompensa, favorendo una migliore ottimizzazione della politica. Esperimenti estensivi dimostrano che ARIA non solo riduce significativamente la varianza del gradiente della politica, ma fornisce anche sostanziali miglioramenti delle prestazioni, con una media del 9,95% su quattro task downstream, superando costantemente i baseline di RL offline e online.
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato un paradigma di tendenza per l'addestramento di grandi modelli linguistici (Large Language Models, LLMs), in particolare per compiti di ragionamento. Un RL efficace per gli LLMs richiede una massiccia parallelizzazione e pone un'urgente necessità di sistemi di addestramento efficienti. La maggior parte dei sistemi RL su larga scala esistenti per gli LLMs sono sincroni, alternando generazione e addestramento in un contesto batch, dove i rollouts in ogni batch di addestramento sono generati dallo stesso (o dall'ultimo) modello. Questo stabilizza l'addestramento RL ma soffre di una grave inefficienza a livello di sistema. La generazione deve attendere che l'output più lungo nel batch sia completato prima dell'aggiornamento del modello, risultando in un sottoutilizzo delle GPU. Presentiamo AReaL, un sistema RL completamente asincrono che disaccoppia completamente la generazione dall'addestramento. I lavoratori di rollout in AReaL generano continuamente nuovi output senza attendere, mentre i lavoratori di addestramento aggiornano il modello ogni volta che viene raccolto un batch di dati. AReaL incorpora anche una serie di ottimizzazioni a livello di sistema, portando a un utilizzo delle GPU sostanzialmente più elevato. Per stabilizzare l'addestramento RL, AReaL bilancia il carico di lavoro dei lavoratori di rollout e addestramento per controllare l'obsolescenza dei dati e adotta una variante di PPO potenziata per l'obsolescenza per gestire meglio i campioni di addestramento obsoleti. Esperimenti estesi su benchmark di ragionamento matematico e di codice mostrano che AReaL raggiunge un'accelerazione dell'addestramento fino a 2,57 volte rispetto ai migliori sistemi sincroni con lo stesso numero di GPU e prestazioni finali pari o addirittura migliorate. Il codice di AReaL è disponibile all'indirizzo https://github.com/inclusionAI/AReaL/.
L'applicazione del reinforcement learning (RL) basato su regole ai modelli linguistici multimodali di grandi dimensioni (MLLMs) introduce sfide uniche e potenziali deviazioni rispetto ai risultati ottenuti nei domini esclusivamente testuali, in particolare per compiti che richiedono un forte coinvolgimento percettivo. Questo articolo fornisce uno studio completo del RL visivo basato su regole, utilizzando i puzzle come framework sperimentale strutturato. I puzzle offrono una verità intrinseca, difficoltà regolabile e richiedono un processo decisionale complesso, rendendoli ideali per questo studio. La nostra ricerca rivela diversi risultati chiave: in primo luogo, osserviamo che gli MLLMs, inizialmente con prestazioni vicine a un'ipotesi casuale sui puzzle più semplici, raggiungono un'accuratezza quasi perfetta e si generalizzano a configurazioni complesse e non viste attraverso il fine-tuning. In secondo luogo, l'addestramento sui puzzle può indurre una generalizzazione ad altri compiti visivi, con un'efficacia legata a specifiche configurazioni del compito. In terzo luogo, gli MLLMs possono apprendere e generalizzare con o senza ragionamento esplicito, sebbene i modelli open-source spesso preferiscano risposte dirette. Di conseguenza, anche quando addestrati per un ragionamento passo-passo, possono ignorare il processo di pensiero nel derivare la risposta finale. In quarto luogo, osserviamo che i modelli di ragionamento complesso sembrano essere preesistenti piuttosto che emergenti, con la loro frequenza che aumenta parallelamente all'addestramento e alla difficoltà del compito. Infine, i nostri risultati dimostrano che il RL mostra una generalizzazione più efficace rispetto al Fine-Tuning Supervisionato (SFT), e che una fase iniziale di cold start con SFT può ostacolare l'ottimizzazione successiva del RL. Sebbene queste osservazioni si basino sui puzzle e possano variare in altri compiti visivi, questa ricerca contribuisce con un prezioso tassello al puzzle più ampio della comprensione collettiva del RL visivo basato su regole e del suo potenziale nell'apprendimento multimodale. Il codice è disponibile all'indirizzo: https://github.com/zifuwanggg/Jigsaw-R1.
I recenti progressi nei modelli di diffusione video hanno dimostrato un forte potenziale per la generazione di dati relativi al processo decisionale robotico, con le condizioni di traiettoria che abilitano ulteriormente un controllo fine. Tuttavia, i metodi esistenti basati su traiettorie si concentrano principalmente sul movimento di singoli oggetti e faticano a catturare l'interazione multi-oggetto, cruciale nelle manipolazioni robotiche complesse. Questa limitazione deriva dall'intreccio di più caratteristiche nelle regioni sovrapposte, che porta a una ridotta fedeltà visiva. Per affrontare questo problema, presentiamo RoboMaster, un nuovo framework che modella le dinamiche inter-oggetto attraverso una formulazione collaborativa della traiettoria. A differenza dei metodi precedenti che scompongono gli oggetti, il nostro approccio consiste nel scomporre il processo di interazione in tre sotto-fasi: pre-interazione, interazione e post-interazione. Ciascuna fase è modellata utilizzando la caratteristica dell'oggetto dominante, specificamente il braccio robotico nelle fasi di pre- e post-interazione e l'oggetto manipolato durante l'interazione, mitigando così lo svantaggio della fusione di caratteristiche multi-oggetto presente durante l'interazione nei lavori precedenti. Per garantire ulteriormente la coerenza semantica del soggetto lungo l'intero video, incorporiamo rappresentazioni latenti consapevoli dell'aspetto e della forma per gli oggetti. Esperimenti estensivi sul complesso dataset Bridge V2, nonché valutazioni in contesti reali, dimostrano che il nostro metodo supera gli approcci esistenti, stabilendo nuove prestazioni all'avanguardia nella generazione video controllata da traiettoria per la manipolazione robotica.
I Large Multimodal Models (LMM) hanno dimostrato prestazioni solide in vari compiti di visione e linguaggio. Tuttavia, spesso faticano a comprendere in modo completo i dati di Osservazione della Terra (EO), che sono cruciali per monitorare l'ambiente e gli effetti delle attività umane su di esso. In questo lavoro, presentiamo EarthMind, un nuovo framework visione-linguaggio per la comprensione di dati EO multi-granulari e multi-sensore. EarthMind include due componenti principali: (1) Spatial Attention Prompting (SAP), che ridistribuisce l'attenzione all'interno del LLM per migliorare la comprensione a livello di pixel; e (2) Cross-modal Fusion, che allinea modalità eterogenee in uno spazio condiviso e rivaluta in modo adattivo i token in base alla loro densità informativa per una fusione efficace. Per facilitare la valutazione della fusione multi-sensore, proponiamo EarthMind-Bench, un benchmark completo con oltre 2.000 coppie immagine-domanda multi-sensore annotate manualmente, che coprono un'ampia gamma di compiti di percezione e ragionamento. Esperimenti estensivi dimostrano l'efficacia di EarthMind. Raggiunge prestazioni all'avanguardia su EarthMind-Bench, superando GPT-4o nonostante abbia solo 4 miliardi di parametri. Inoltre, EarthMind supera i metodi esistenti su molteplici benchmark EO pubblici, dimostrando il suo potenziale nel gestire sia le sfide multi-granulari che multi-sensore in un framework unificato.
Le leggi di scala hanno plasmato i recenti progressi nel machine learning, consentendo una scalabilità prevedibile delle prestazioni del modello in base alle dimensioni del modello, alla potenza di calcolo e al volume dei dati. Parallelamente, l'aumento dei costi computazionali per l'IA ha motivato lo sviluppo di tecniche di compressione dei modelli, in particolare la quantizzazione e la sparsificazione, che sono emerse per mitigare le elevate esigenze computazionali associate all'addestramento e all'inferenza su larga scala. Questo articolo indaga l'interazione tra le leggi di scala e i formati di compressione, esplorando se un framework di scala unificato possa prevedere con precisione le prestazioni del modello quando l'addestramento avviene su varie rappresentazioni compresse, come formati sparsi, quantizzati scalarmente, sparsi-quantizzati o persino quantizzati vettorialmente. I nostri contributi principali includono la validazione di una formulazione generale delle leggi di scala e la dimostrazione che essa è applicabile sia individualmente che in modo composito tra diversi tipi di compressione. Sulla base di ciò, la nostra scoperta principale è dimostrare sia teoricamente che empiricamente l'esistenza di una semplice metrica di "capacità" — basata sulla capacità della rappresentazione di adattarsi a dati gaussiani casuali — che può prevedere in modo robusto l'efficienza dei parametri attraverso molteplici rappresentazioni compresse. Sul lato pratico, estendiamo la nostra formulazione per confrontare direttamente il potenziale di accuratezza di diversi formati compressi e per derivare algoritmi migliori per l'addestramento su formati sparsi-quantizzati.
I modelli linguistici di grandi dimensioni (LLM) esistenti affrontano sfide nel seguire istruzioni complesse, specialmente quando sono presenti e organizzate in strutture parallele, concatenate e ramificate molteplici vincoli. Una soluzione intuitiva, nota come chain-of-thought (CoT), è attesa per migliorare universalmente le capacità degli LLM. Tuttavia, scopriamo che la CoT di base esercita un impatto negativo sulle prestazioni a causa del suo schema di ragionamento superficiale che si limita a parafrasare le istruzioni. Non riesce a scomporre le composizioni dei vincoli per identificarne le relazioni attraverso gerarchie di tipi e dimensioni. A tal fine, proponiamo un metodo sistematico per potenziare gli LLM nel gestire istruzioni complesse incentivando il ragionamento per il calcolo in fase di test. In primo luogo, partiamo dalla scomposizione delle istruzioni complesse secondo tassonomie esistenti e proponiamo un metodo riproducibile per l'acquisizione dei dati. In secondo luogo, sfruttiamo l'apprendimento per rinforzo (RL) con segnali di ricompensa centrati su regole verificabili per coltivare il ragionamento specifico per il seguire le istruzioni. Affrontiamo la natura superficiale e non essenziale del ragionamento sotto istruzioni complesse attraverso un contrasto campione per campione per un'applicazione superiore della CoT. Sfruttiamo anche la clonazione del comportamento degli esperti per facilitare un cambiamento stabile della distribuzione da LLM a pensiero rapido a ragionatori abili. Valutazioni estensive su sette benchmark completi confermano la validità del metodo proposto, dove un LLM da 1,5 miliardi di parametri ottiene guadagni dell'11,74% con prestazioni comparabili a un LLM da 8 miliardi di parametri. Codici e dati sono disponibili su https://github.com/yuleiqin/RAIF.
La modellazione delle ricompense è un passaggio chiave nella costruzione di modelli di base sicuri quando si applica l'apprendimento per rinforzo basato sul feedback umano (RLHF) per allineare i Modelli Linguistici di Grande Dimensione (LLM). Tuttavia, la modellazione delle ricompense basata sul modello Bradley-Terry (BT) presuppone una funzione di ricompensa globale, non riuscendo a catturare le preferenze umane intrinsecamente diverse ed eterogenee. Di conseguenza, tale semplificazione eccessiva limita la capacità degli LLM di supportare la personalizzazione e l'allineamento pluralistico. Teoricamente, dimostriamo che quando le preferenze umane seguono una distribuzione mista di sottogruppi diversi, un singolo modello BT presenta un errore irriducibile. Sebbene le soluzioni esistenti, come l'apprendimento multi-obiettivo con annotazioni dettagliate, aiutino a risolvere questo problema, sono costose e vincolate da attributi predefiniti, non riuscendo a catturare appieno la ricchezza dei valori umani. In questo lavoro, introduciamo MiCRo, un framework a due fasi che migliora l'apprendimento delle preferenze personalizzate sfruttando grandi dataset di preferenze binarie senza richiedere annotazioni esplicite dettagliate. Nella prima fase, MiCRo introduce un approccio di modellazione mista contestuale per catturare le diverse preferenze umane. Nella seconda fase, MiCRo integra una strategia di routing online che adatta dinamicamente i pesi della miscela in base al contesto specifico per risolvere le ambiguità, consentendo un adattamento efficiente e scalabile delle preferenze con una supervisione aggiuntiva minima. Esperimenti su molteplici dataset di preferenze dimostrano che MiCRo cattura efficacemente le diverse preferenze umane e migliora significativamente la personalizzazione nei compiti successivi.
Il rapido progresso del Contenuto Generato da Intelligenza Artificiale (AIGC) nei domini visivi ha portato alla creazione di immagini e video sintetici altamente realistici, guidati da sofisticati framework generativi come le architetture basate su diffusione. Sebbene queste innovazioni aprano notevoli opportunità, sollevano contemporaneamente preoccupazioni critiche riguardo all'autenticità e all'integrità dei contenuti. Molti degli attuali metodi di rilevamento AIGC operano come classificatori binari a scatola chiusa, offrendo una limitata interpretabilità, e nessun approccio supporta il rilevamento sia di immagini che di video in un framework unificato. Questa doppia limitazione compromette la trasparenza del modello, riduce l'affidabilità e ostacola l'implementazione pratica. Per affrontare queste sfide, introduciamo IVY-FAKE, un nuovo dataset unificato e su larga scala progettato specificamente per il rilevamento AIGC multimodale e spiegabile. A differenza dei benchmark precedenti, che soffrono di una copertura modale frammentata e annotazioni scarse, IVY-FAKE contiene oltre 150.000 campioni di addestramento riccamente annotati (immagini e video) e 18.700 esempi di valutazione, ciascuno accompagnato da un ragionamento dettagliato in linguaggio naturale che va oltre le semplici etichette binarie. Sulla base di ciò, proponiamo Ivy Explainable Detector (IVY-XDETECTOR), un'architettura unificata per il rilevamento e la spiegazione AIGC che esegue congiuntamente il rilevamento spiegabile sia per i contenuti immagine che video. Il nostro modello unificato visione-linguaggio raggiunge prestazioni all'avanguardia su più benchmark di rilevamento di immagini e video, evidenziando i significativi progressi resi possibili dal nostro dataset e framework di modellazione. I nostri dati sono pubblicamente disponibili all'indirizzo https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
Il prompting a Catena di Pensiero (Chain-of-Thought, CoT) abilita il ragionamento complesso nei grandi modelli linguistici (Large Language Models, LLMs), inclusi applicazioni nel recupero delle informazioni (Information Retrieval, IR). Tuttavia, spesso porta a un eccesso di pensiero, dove i modelli producono tracce eccessivamente lunghe e semanticamente ridondanti con poco o nessun beneficio. Identifichiamo due sfide chiave nell'IR: traiettorie ridondanti che rivisitano stati simili e ragionamenti fuorvianti che divergono dall'intento dell'utente. Per affrontare questi problemi, proponiamo il Ragionamento a Macchina a Stati (State Machine Reasoning, SMR), un framework di ragionamento basato su transizioni composto da azioni discrete (Affina, Rirangia, Ferma) che supportano l'arresto anticipato e un controllo fine. Gli esperimenti sui benchmark BEIR e BRIGHT mostrano che SMR migliora le prestazioni di recupero (nDCG@10) del 3,4% riducendo l'uso di token del 74,4%. Si generalizza attraverso LLM e sistemi di recupero senza richiedere una regolazione specifica per il compito, offrendo un'alternativa pratica al ragionamento CoT convenzionale. Il codice e i dettagli sono disponibili su https://github.com/ldilab/SMR.
I sistemi di IA odierni hanno architetture fisse progettate dall'uomo e non possono migliorarsi in modo autonomo e continuo. L'avanzamento dell'IA potrebbe essere automatizzato. Se fatto in sicurezza, ciò accelererebbe lo sviluppo dell'IA e ci permetterebbe di raccoglierne i benefici molto prima. Il meta-apprendimento può automatizzare la scoperta di nuovi algoritmi, ma è limitato da miglioramenti di primo ordine e dalla progettazione umana di uno spazio di ricerca adeguato. La macchina di Gödel ha proposto un'alternativa teorica: un'IA auto-migliorante che modifica se stessa ripetutamente in modo dimostrabilmente vantaggioso. Sfortunatamente, dimostrare che la maggior parte delle modifiche sia complessivamente benefica è impossibile nella pratica. Introduciamo la Darwin Gödel Machine (DGM), un sistema auto-migliorante che modifica iterativamente il proprio codice (migliorando così anche la sua capacità di modificare la propria base di codice) e convalida empiricamente ogni cambiamento utilizzando benchmark di codifica. Ispirata dall'evoluzione darwiniana e dalla ricerca sull'apertura, la DGM mantiene un archivio di agenti di codifica generati. Cresce l'archivio campionando un agente da esso e utilizzando un modello di base per creare una nuova versione interessante dell'agente campionato. Questa esplorazione aperta forma un albero in crescita di agenti diversi e di alta qualità e permette l'esplorazione parallela di molti percorsi diversi attraverso lo spazio di ricerca. Empiricamente, la DGM migliora automaticamente le sue capacità di codifica (ad esempio, strumenti di editing del codice migliori, gestione di finestre di contesto lunghe, meccanismi di peer-review), aumentando le prestazioni su SWE-bench dal 20,0% al 50,0%, e su Polyglot dal 14,2% al 30,7%. Inoltre, la DGM supera significativamente i baseline senza auto-miglioramento o esplorazione aperta. Tutti gli esperimenti sono stati condotti con precauzioni di sicurezza (ad esempio, sandboxing, supervisione umana). La DGM rappresenta un passo significativo verso un'IA auto-migliorante, capace di raccogliere i propri mattoni lungo percorsi che si dispiegano in un'innovazione senza fine.
La guida negativa -- sopprimere esplicitamente attributi indesiderati -- rimane una sfida fondamentale nei modelli di diffusione, specialmente nei regimi di campionamento a pochi passi. Mentre la Classifier-Free Guidance (CFG) funziona bene in contesti standard, fallisce sotto una compressione aggressiva dei passi di campionamento a causa di previsioni divergenti tra i rami positivo e negativo. Presentiamo la Normalized Attention Guidance (NAG), un meccanismo efficiente e senza necessità di addestramento che applica l'estrapolazione nello spazio di attenzione con normalizzazione basata su L1 e raffinamento. NAG ripristina una guida negativa efficace laddove la CFG collassa, mantenendo la fedeltà. A differenza degli approcci esistenti, NAG si generalizza attraverso architetture (UNet, DiT), regimi di campionamento (pochi passi, multi-passo) e modalità (immagine, video), funzionando come un plug-in universale con un sovraccarico computazionale minimo. Attraverso un'ampia sperimentazione, dimostriamo miglioramenti consistenti nell'allineamento al testo (CLIP Score), nella fedeltà (FID, PFID) e nella qualità percepita dagli esseri umani (ImageReward). I nostri studi di ablazione convalidano ogni componente del design, mentre gli studi sugli utenti confermano una significativa preferenza per gli output guidati da NAG. Come approccio agnostico al modello al momento dell'inferenza che non richiede riaddestramento, NAG fornisce una guida negativa senza sforzo per tutti i moderni framework di diffusione -- pseudocodice nell'Appendice!
L'addestramento diretto di Large Language Models (LLM) per Sistemi Multi-Agente (MAS) rimane una sfida a causa della complessa modellazione delle ricompense, delle interazioni dinamiche tra agenti e degli esigenti requisiti di generalizzazione. Questo articolo esplora se le tecniche di post-addestramento, in particolare il Fine-Tuning Supervisionato (SFT) e il Reinforcement Learning con Ricompense Verificabili (RLVR), possano generalizzare efficacemente a scenari multi-agente. Utilizziamo il ragionamento economico come banco di prova, sfruttando le sue solide basi matematiche e nella teoria dei giochi, la sua richiesta di ragionamento analitico strutturato e la sua rilevanza per applicazioni reali come la progettazione di mercati, l'allocazione delle risorse e l'analisi delle politiche. Introduciamo Recon (Reasoning like an ECONomist), un LLM open-source da 7 miliardi di parametri post-addestrato su un dataset curato manualmente di 2.100 problemi di ragionamento economico di alta qualità. Una valutazione completa su benchmark di ragionamento economico e giochi multi-agente rivela miglioramenti evidenti nel ragionamento strutturato e nella razionalità economica. Questi risultati sottolineano il potenziale del post-addestramento allineato al dominio per migliorare il ragionamento e l'allineamento degli agenti, gettando luce sui ruoli di SFT e RL nel modellare il comportamento del modello. Il codice è disponibile all'indirizzo https://github.com/MasterZhou1/Recon.
La modifica delle immagini è un compito importante nella computer grafica, nella visione artificiale e negli effetti visivi, con i recenti metodi basati su diffusione che raggiungono risultati rapidi e di alta qualità. Tuttavia, le modifiche che richiedono cambiamenti strutturali significativi, come deformazioni non rigide, modifiche agli oggetti o generazione di contenuti, rimangono complesse. Gli approcci esistenti di modifica in pochi passaggi producono artefatti come texture irrilevanti o faticano a preservare gli attributi chiave dell'immagine sorgente (ad esempio, la posa). Introduciamo Cora, un nuovo framework di modifica che affronta queste limitazioni introducendo la correzione del rumore con consapevolezza delle corrispondenze e mappe di attenzione interpolate. Il nostro metodo allinea texture e strutture tra l'immagine sorgente e quella target attraverso corrispondenze semantiche, consentendo un trasferimento accurato della texture mentre genera nuovo contenuto quando necessario. Cora offre controllo sull'equilibrio tra generazione e preservazione del contenuto. Esperimenti estensivi dimostrano che, sia quantitativamente che qualitativamente, Cora eccelle nel mantenere struttura, texture e identità attraverso diverse modifiche, inclusi cambiamenti di posa, aggiunta di oggetti e perfezionamenti della texture. Studi condotti con utenti confermano che Cora fornisce risultati superiori, superando le alternative.
Alimentato da un modello linguistico di grandi dimensioni (LLM), un agente di navigazione web opera i browser in modo simile a quello umano e offre un percorso altamente trasparente verso l'automazione di un'ampia gamma di attività quotidiane. Man mano che gli agenti web diventano sempre più capaci e dimostrano competenza nelle attività di navigazione generale, emerge una domanda cruciale: possono andare oltre la navigazione generale per gestire in modo robusto attività noiose e complesse, o compiti che gli esseri umani spesso evitano di fare da soli? In questo articolo, introduciamo WebChoreArena, un nuovo benchmark completamente riproducibile che comprende 532 attività accuratamente selezionate, progettate per estendere l'ambito di WebArena oltre la navigazione generale verso attività più laboriose e noiose. WebChoreArena integra sistematicamente tre sfide chiave: (i) attività di Memoria Massiva che richiedono il recupero accurato di grandi quantità di informazioni nelle osservazioni, (ii) attività di Calcolo che richiedono un ragionamento matematico preciso, e (iii) attività di Memoria a Lungo Termine che necessitano di una memoria a lungo termine attraverso più pagine web. Costruito sulle quattro ambientazioni di simulazione di WebArena, completamente riproducibili e ampiamente adottate, WebChoreArena garantisce una rigorosa riproducibilità e consente confronti diretti ed equi con il benchmark consolidato di WebArena, offrendo intuizioni chiave sui progressi degli agenti. I nostri risultati sperimentali dimostrano che, con l'evoluzione degli LLM, rappresentati da GPT-4o, Claude 3.7 Sonnet e Gemini 2.5 Pro, si osservano miglioramenti significativi nelle prestazioni su WebChoreArena. Questi risultati suggeriscono che WebChoreArena è ben adatto a misurare con maggiore chiarezza i progressi degli LLM all'avanguardia. Tuttavia, i risultati indicano anche che, anche con Gemini 2.5 Pro, rimane un ampio margine di miglioramento rispetto a WebArena, evidenziando le maggiori sfide poste da WebChoreArena.
Il progetto Open Whisper-style Speech Models (OWSM) ha sviluppato una serie di modelli di base per il riconoscimento vocale completamente open-source utilizzando risorse di scala accademica, ma i loro dati di addestramento rimangono insufficienti. Questo lavoro migliora OWSM integrando YODAS, un dataset su larga scala raccolto dal web con licenza Creative Commons. Tuttavia, incorporare YODAS non è banale a causa della sua natura disordinata, che introduce sfide come etichette linguistiche errate e disallineamenti audio-testo. Per affrontare questi problemi, abbiamo sviluppato una pipeline scalabile per la pulizia dei dati utilizzando toolkit pubblici, ottenendo un dataset con 166.000 ore di parlato in 75 lingue. La nostra nuova serie di modelli OWSM v4, addestrata su questo dataset curato insieme ai dati esistenti di OWSM, supera significativamente le versioni precedenti su benchmark multilingue. I nostri modelli eguagliano o superano persino modelli industriali all'avanguardia come Whisper e MMS in molteplici scenari. Rilasceremo pubblicamente i dati YODAS puliti, i modelli pre-addestrati e tutti gli script associati tramite il toolkit ESPnet.
I modelli linguistici visivi (VLMs) sono progettati per eseguire un ragionamento multimodale efficace e prendere decisioni logicamente coerenti, aspetti cruciali per compiti come la comprensione di diagrammi e la risoluzione di problemi spaziali. Tuttavia, il ragionamento dei VLMs attuali è limitato dalla mancanza di dataset di addestramento su larga scala e ben strutturati. Per colmare questa lacuna, proponiamo VisualSphinx, il primo dataset sintetico su larga scala per il ragionamento logico visivo. Per affrontare la sfida della sintesi di immagini con risposte contestualizzate, introduciamo una pipeline di sintesi da regole a immagini, che estrae ed espande le regole dei puzzle dalle domande iniziali e genera il codice per la sintesi di immagini contestualizzate per l'assemblaggio dei campioni di puzzle. Gli esperimenti dimostrano che i VLMs addestrati utilizzando GRPO su VisualSphinx traggono vantaggio dalla coerenza logica e dalla leggibilità del nostro dataset, mostrando prestazioni migliorate nei compiti di ragionamento logico. Le capacità di ragionamento potenziate sviluppate con VisualSphinx beneficiano anche altri compiti di ragionamento, come il ragionamento algebrico, aritmetico e geometrico.
I recenti progressi nell'Intelligenza Artificiale Generativa e nei Modelli Linguistici di Grande Scala (LLM) hanno reso possibile la creazione di contenuti sintetici altamente realistici, sollevando preoccupazioni riguardo al potenziale uso malevolo, come la disinformazione e la manipolazione. Inoltre, il rilevamento di Testo Generato da Macchine (MGT) rimane una sfida a causa della mancanza di benchmark robusti che valutino la generalizzazione a scenari del mondo reale. In questo lavoro, presentiamo una pipeline per testare la resilienza dei rilevatori di MGT all'avanguardia (ad esempio, Mage, Radar, LLM-DetectAIve) rispetto ad attacchi avversari linguisticamente informati. Per mettere alla prova i rilevatori, ottimizziamo i modelli linguistici utilizzando l'Optimizzazione Diretta delle Preferenze (DPO) per spostare lo stile del MGT verso quello del testo scritto da esseri umani (HWT). Ciò sfrutta la dipendenza dei rilevatori da indizi stilistici, rendendo le nuove generazioni più difficili da rilevare. Inoltre, analizziamo i cambiamenti linguistici indotti dall'allineamento e quali caratteristiche vengono utilizzate dai rilevatori per identificare i testi MGT. I nostri risultati dimostrano che i rilevatori possono essere facilmente ingannati con relativamente pochi esempi, portando a un significativo calo delle prestazioni di rilevamento. Ciò evidenzia l'importanza di migliorare i metodi di rilevamento e renderli robusti rispetto a testi in dominio non visti.
I modelli linguistici basati su diffusione offrono un'alternativa convincente ai modelli autoregressivi (AR) consentendo una generazione parallela e controllabile. All'interno di questa famiglia di modelli, i Masked Diffusion Models (MDM) raggiungono le prestazioni più elevate, ma continuano a essere inferiori ai modelli AR in termini di perplessità e mancano di funzionalità chiave per l'efficienza durante l'inferenza, in particolare la memorizzazione della cache KV. In questo lavoro, introduciamo Eso-LM, una nuova famiglia di modelli che fonde i paradigmi AR e MDM, consentendo un'interpolazione fluida tra le loro perplessità superando al contempo i rispettivi limiti. Gli Eso-LM stabiliscono un nuovo stato dell'arte nei benchmark standard di modellazione linguistica. Fondamentalmente, siamo i **primi a introdurre la cache KV per gli MDM** preservando la generazione parallela, migliorando significativamente l'efficienza dell'inferenza. Combinato con una pianificazione di campionamento ottimizzata, il nostro metodo raggiunge un'inferenza fino a **65 volte** più veloce rispetto agli MDM standard e **4 volte** più veloce rispetto agli approcci semi-autoregressivi precedenti. Forniamo il codice e i checkpoint del modello sulla pagina del progetto: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
La ricerca precedente ha esplorato l'applicazione dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) nella comprensione di scene 3D interpretandole come video. Questi approcci generalmente dipendono da input di dati 3D completi, come nuvole di punti o mappe ricostruite in vista dall'alto (BEV). Nella nostra ricerca, avanziamo in questo campo potenziando la capacità degli MLLMs di comprendere e ragionare negli spazi 3D direttamente dai dati video, senza la necessità di input 3D aggiuntivi. Proponiamo un metodo nuovo ed efficiente, il Modello Linguistico di Grande Scala per la Geometria 3D da Video (VG LLM). Il nostro approccio utilizza un codificatore di geometria visiva 3D che estrae informazioni preliminari 3D da sequenze video. Queste informazioni vengono integrate con token visivi e inserite nell'MLLM. Esperimenti estensivi hanno dimostrato che il nostro metodo ha ottenuto miglioramenti sostanziali in vari compiti relativi alla comprensione delle scene 3D e al ragionamento spaziale, tutti appresi direttamente da fonti video. In modo impressionante, il nostro modello da 4B, che non si basa su input espliciti di dati 3D, raggiunge risultati competitivi rispetto ai metodi all'avanguardia esistenti, e supera persino il Gemini-1.5-Pro nelle valutazioni VSI-Bench.
I modelli linguistici di grandi dimensioni (LLM) addestrati tramite apprendimento per rinforzo con ricompensa verificabile (RLVR) hanno ottenuto progressi significativi in compiti con verifica esplicita e automatizzabile, come la programmazione software e i problemi matematici. Estendere l'RLVR all'automazione del design elettronico (EDA), in particolare alla generazione automatica di linguaggi di descrizione hardware (HDL) come Verilog a partire da specifiche in linguaggio naturale (NL), presenta tuttavia tre sfide principali: la mancanza di ambienti di verifica automatizzati e accurati, la scarsità di coppie NL-codice di alta qualità e il costo computazionale proibitivo dell'RLVR. A tal fine, introduciamo CodeV-R1, un framework RLVR per l'addestramento di LLM per la generazione di Verilog. In primo luogo, sviluppiamo un generatore di testbench basato su regole che esegue un controllo di equivalenza robusto rispetto a riferimenti golden. In secondo luogo, proponiamo un metodo di sintesi dati round-trip che abbina frammenti di Verilog open-source a descrizioni NL generate da LLM, verifica la coerenza codice-NL-codice tramite il testbench generato e filtra gli esempi non equivalenti per produrre un dataset di alta qualità. In terzo luogo, utilizziamo una pipeline di addestramento in due fasi "distill-then-RL": distillazione per l'avvio a freddo delle capacità di ragionamento, seguita da DAPO adattivo, il nostro nuovo algoritmo RLVR che può ridurre il costo di addestramento regolando in modo adattivo la frequenza di campionamento. Il modello risultante, CodeV-R1-7B, raggiunge il 68,6% e il 72,9% di pass@1 su VerilogEval v2 e RTLLM v1.1, rispettivamente, superando i precedenti state-of-the-art del 12~20%, eguagliando o addirittura superando le prestazioni di DeepSeek-R1 da 671B. Rilasceremo il nostro modello, la pipeline di addestramento e il dataset per favorire la ricerca nelle comunità EDA e LLM.
I benchmark aperti sono essenziali per valutare e far progredire i modelli linguistici di grandi dimensioni, offrendo riproducibilità e trasparenza. Tuttavia, la loro accessibilità li rende probabili bersagli di contaminazione dei set di test. In questo lavoro, introduciamo DyePack, un framework che sfrutta gli attacchi backdoor per identificare i modelli che hanno utilizzato i set di test dei benchmark durante l'addestramento, senza richiedere l'accesso alla loss, ai logit o a qualsiasi dettaglio interno del modello. Proprio come le banche mescolano i pacchetti di colorante con il denaro per segnalare i ladri, DyePack mescola campioni backdoor con i dati di test per contrassegnare i modelli che si sono addestrati su di essi. Proponiamo un design metodologico che incorpora più backdoor con target stocastici, consentendo il calcolo esatto del tasso di falsi positivi (FPR) quando si contrassegna ogni modello. Ciò previene in modo dimostrabile false accuse fornendo al contempo prove solide per ogni caso rilevato di contaminazione. Valutiamo DyePack su cinque modelli attraverso tre dataset, coprendo sia compiti a scelta multipla che di generazione aperta. Per le domande a scelta multipla, rileva con successo tutti i modelli contaminati con FPR garantiti fino a 0,000073% su MMLU-Pro e 0,000017% su Big-Bench-Hard utilizzando otto backdoor. Per i compiti di generazione aperta, si generalizza bene e identifica tutti i modelli contaminati su Alpaca con un tasso di falsi positivi garantito di appena lo 0,127% utilizzando sei backdoor.
L'efficienza della tokenizzazione svolge un ruolo cruciale nelle prestazioni e nei costi dei grandi modelli linguistici (LLM), eppure la maggior parte dei modelli si affida a tokenizer statici ottimizzati per corpora generici. I vocabolari fissi di questi tokenizer spesso non riescono ad adattarsi a input specifici di dominio o lingua, portando a sequenze di token più lunghe e costi computazionali più elevati. Introduciamo zip2zip, un framework che consente agli LLM di adattare dinamicamente il vocabolario dei token durante l'inferenza, permettendo così la generazione di meno token e un'inferenza più veloce. zip2zip è composto da tre componenti chiave: (1) un tokenizer basato sulla compressione Lempel-Ziv-Welch (LZW) che comprime incrementalmente i token in "hypertoken" riutilizzabili al volo; (2) uno strato di embedding che calcola gli embedding per gli hypertoken appena formati durante l'esecuzione; e (3) una variante di modellazione linguistica causale che addestra il modello a operare su sequenze compresse e hypertokenizzate. Dimostriamo che un LLM esistente può essere "zip2zip-ificato" in 10 ore di GPU tramite un fine-tuning efficiente dei parametri. I LLM risultanti con zip2zip imparano efficacemente a utilizzare gli hypertoken durante l'inferenza, riducendo la lunghezza delle sequenze di input e output del 20-60\%, con significativi miglioramenti nella latenza di inferenza.
La comprensione delle anomalie video (Video Anomaly Understanding, VAU) è essenziale per applicazioni come le città intelligenti, la sorveglianza della sicurezza e i sistemi di allerta per disastri, ma rimane una sfida a causa della sua richiesta di percezione spazio-temporale fine e di ragionamento robusto in condizioni di ambiguità. Nonostante i progressi nel rilevamento delle anomalie, i metodi esistenti spesso mancano di interpretabilità e faticano a cogliere gli aspetti causali e contestuali degli eventi anomali. Questa limitazione è ulteriormente aggravata dall'assenza di benchmark completi per valutare la capacità di ragionamento negli scenari di anomalia. Per affrontare entrambe le sfide, introduciamo VAU-R1, un framework efficiente in termini di dati basato su Modelli Linguistici Multimodali di Grande Scala (Multimodal Large Language Models, MLLMs), che migliora il ragionamento sulle anomalie attraverso il Fine-Tuning con Rinforzo (Reinforcement Fine-Tuning, RFT). Inoltre, proponiamo VAU-Bench, il primo benchmark a Catena di Pensiero (Chain-of-Thought) specificamente progettato per il ragionamento sulle anomalie video, caratterizzato da domande a scelta multipla, razionali dettagliati, annotazioni temporali e didascalie descrittive. I risultati empirici dimostrano che VAU-R1 migliora significativamente l'accuratezza nelle risposte alle domande, il grounding temporale e la coerenza del ragionamento in contesti diversi. Insieme, il nostro metodo e il benchmark stabiliscono una solida base per una comprensione interpretabile e consapevole del ragionamento nelle anomalie video. Il nostro codice è disponibile all'indirizzo https://github.com/GVCLab/VAU-R1.
I sistemi di dialogo orientati ai compiti spesso incontrano difficoltà quando le espressioni degli utenti appaiono semanticamente complete ma mancano delle informazioni strutturali necessarie per un'azione appropriata del sistema. Ciò accade perché gli utenti frequentemente non comprendono appieno i propri bisogni, mentre i sistemi richiedono definizioni precise delle intenzioni. Gli attuali agenti basati su LLM non riescono a distinguere efficacemente tra espressioni linguisticamente complete e quelle attivabili contestualmente, mancando di framework per la formazione collaborativa delle intenzioni. Presentiamo STORM, un framework che modella le dinamiche di informazione asimmetrica attraverso conversazioni tra UserLLM (con accesso interno completo) e AgentLLM (solo comportamento osservabile). STORM produce corpora annotati che catturano le traiettorie delle espressioni e le transizioni cognitive latenti, consentendo un'analisi sistematica dello sviluppo della comprensione collaborativa. I nostri contributi includono: (1) la formalizzazione dell'elaborazione asimmetrica delle informazioni nei sistemi di dialogo; (2) la modellazione della formazione delle intenzioni che traccia l'evoluzione della comprensione collaborativa; e (3) metriche di valutazione che misurano i miglioramenti cognitivi interni insieme alle prestazioni del compito. Esperimenti condotti su quattro modelli linguistici rivelano che un'incertezza moderata (40-60%) può superare la completa trasparenza in determinati scenari, con modelli specifici che suggeriscono una riconsiderazione dell'ottimale completezza delle informazioni nella collaborazione uomo-AI. Questi risultati contribuiscono alla comprensione delle dinamiche di ragionamento asimmetrico e informano la progettazione di sistemi di dialogo calibrati sull'incertezza.
La distillazione di modelli è diventata essenziale per creare modelli linguistici più piccoli e distribuibili che mantengano le capacità dei sistemi più grandi. Tuttavia, la diffusione su larga scala solleva preoccupazioni riguardo alla resilienza contro manipolazioni avversarie. Questo articolo indaga la vulnerabilità dei modelli distillati all'iniezione avversaria di contenuti distorti durante l'addestramento. Dimostriamo che gli avversari possono iniettare pregiudizi sottili nei modelli insegnanti attraverso un avvelenamento minimo dei dati, che si propaga ai modelli studenti e viene significativamente amplificato. Proponiamo due modalità di propagazione: Propagazione Non Mirata, in cui il pregiudizio influisce su più compiti, e Propagazione Mirata, concentrata su compiti specifici mantenendo un comportamento normale altrove. Con soli 25 campioni avvelenati (tasso di avvelenamento dello 0,25%), i modelli studenti generano risposte distorte il 76,9% delle volte in scenari mirati - un valore superiore al 69,4% nei modelli insegnanti. Per la propagazione non mirata, il pregiudizio avversario appare da 6 a 29 volte più frequentemente nei modelli studenti su compiti non visti. Convalidiamo i risultati su sei tipi di pregiudizi (pubblicità mirate, link di phishing, manipolazioni narrative, pratiche di codifica insicure), vari metodi di distillazione e diverse modalità che spaziano dalla generazione di testo a quella di codice. La nostra valutazione rivela carenze nelle difese attuali - filtraggio della perplessità, sistemi di rilevamento dei pregiudizi e framework di valutazione automatica basati su LLM - contro questi attacchi. I risultati espongono significative vulnerabilità di sicurezza nei modelli distillati, evidenziando la necessità di salvaguardie specializzate. Proponiamo principi pratici di progettazione per costruire strategie efficaci di mitigazione dei pregiudizi avversari.
La detossificazione, il compito di riscrivere linguaggio dannoso in testo non tossico, è diventata sempre più importante con la crescente diffusione di contenuti tossici online. Tuttavia, dataset paralleli di alta qualità per la detossificazione, in particolare per i discorsi d'odio, rimangono scarsi a causa dei costi e della sensibilità legati all'annotazione umana. In questo articolo, proponiamo una nuova pipeline LLM-in-the-loop che sfrutta GPT-4o-mini per la detossificazione automatizzata. Inizialmente, replichiamo la pipeline ParaDetox sostituendo gli annotatori umani con un LLM e dimostriamo che l'LLM performa in modo comparabile all'annotazione umana. Sulla base di ciò, costruiamo PARADEHATE, un dataset parallelo su larga scala specificamente per la detossificazione dei discorsi d'odio. Rilasciamo PARADEHATE come benchmark con oltre 8K coppie di testo odioso/non odioso e valutiamo una vasta gamma di metodi di base. I risultati sperimentali mostrano che modelli come BART, addestrati su PARADEHATE, raggiungono prestazioni migliori in termini di accuratezza stilistica, preservazione del contenuto e fluidità, dimostrando l'efficacia del testo detossificato generato da LLM come alternativa scalabile all'annotazione umana.
La Generazione Aumentata dal Recupero (Retrieval-Augmented Generation, RAG) migliora l'attualità e la veridicità delle risposte. Tuttavia, le valutazioni esistenti raramente testano quanto bene questi sistemi gestiscano il rumore del mondo reale, i conflitti tra contesti recuperati interni ed esterni, o fatti in rapida evoluzione. Introduciamo la Valutazione della Robustezza Consapevole del Recupero (Retrieval-Aware Robustness Evaluation, RARE), un framework unificato e un benchmark su larga scala che sottopone a stress test congiunti le perturbazioni delle query e dei documenti su corpora dinamici e sensibili al tempo. Una delle caratteristiche centrali di RARE è una pipeline di sintesi guidata da grafi di conoscenza (RARE-Get) che estrae automaticamente relazioni a singolo e multi-hop dal corpus personalizzato e genera set di domande a più livelli senza intervento manuale. Sfruttando questa pipeline, costruiamo un dataset (RARE-Set) che copre 400 documenti esperti sensibili al tempo in ambito finanziario, economico e politico e 48.322 domande la cui distribuzione evolve al variare delle fonti sottostanti. Per quantificare la resilienza, formalizziamo metriche di robustezza condizionate al recupero (RARE-Met) che catturano la capacità di un modello di rimanere corretto o di recuperare quando query, documenti o risultati di recupero del mondo reale vengono alterati sistematicamente. I nostri risultati mostrano che i sistemi RAG presentano una sorprendente vulnerabilità alle perturbazioni, con la robustezza dei documenti che risulta costantemente il punto più debole indipendentemente dalla dimensione o dall'architettura del generatore. I sistemi RAG mostrano costantemente una robustezza inferiore sulle query multi-hop rispetto a quelle a singolo hop in tutti i domini.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più valutati su compiti a scelta multipla con risposta singola, tuttavia molti problemi del mondo reale richiedono l'identificazione di tutte le risposte corrette da un insieme di opzioni. Questa capacità rimane poco esplorata. Introduciamo SATA-BENCH, il primo benchmark dedicato alla valutazione degli LLM su domande del tipo "Seleziona Tutte Quelle Applicabili" (SATA) in diversi ambiti, tra cui comprensione del testo, diritto e biomedicina. La nostra valutazione di 27 modelli open-source e proprietari rivela un divario significativo: anche il modello più performante raggiunge solo il 41,8% di corrispondenza esatta, evidenziando l'incapacità degli LLM di identificare in modo affidabile tutte le risposte corrette. Scopriamo che questa debolezza deriva da due sfide principali: il bias di selezione - i modelli favoriscono determinate scelte indipendentemente dal contenuto, e il bias di conteggio - i modelli non riescono a prevedere il numero corretto di risposte. Per affrontare questi problemi, proponiamo Choice Funnel, una strategia di decodifica che combina la riduzione del bias sui token con una soglia adattativa per guidare i modelli verso selezioni complete e accurate. Choice Funnel ottiene fino al 29% in più di corrispondenza esatta rispetto ai baseline competitivi, riducendo al contempo il costo di inferenza di oltre il 64%. I nostri risultati evidenziano limitazioni fondamentali negli attuali LLM e introducono un nuovo framework per diagnosticare e migliorare il ragionamento a risposte multiple. Rilasciamo SATA-BENCH e Choice Funnel per promuovere lo sviluppo di LLM per un processo decisionale robusto in applicazioni realistiche con risposte multiple.
L'editing 3D guidato da testo mira a modificare con precisione regioni 3D locali semanticamente rilevanti, offrendo un potenziale significativo per varie applicazioni pratiche che spaziano dai giochi 3D alla produzione cinematografica. I metodi esistenti seguono tipicamente un paradigma indiscriminato rispetto alla vista: modificano indiscriminatamente le viste 2D e le proiettano nuovamente nello spazio 3D. Tuttavia, trascurano le diverse interdipendenze tra le viste, risultando in un editing multi-vista incoerente. In questo studio, sosteniamo che un editing 3D coerente e ideale può essere raggiunto attraverso un paradigma progressivo delle viste, che propaga la semantica dell'editing dalla vista più saliente ad altre viste più sparse. Nello specifico, proponiamo Pro3D-Editor, un nuovo framework che include principalmente Primary-view Sampler, Key-view Render e Full-view Refiner. Il Primary-view Sampler campiona dinamicamente e modifica la vista più saliente come vista primaria. Il Key-view Render propaga accuratamente la semantica dell'editing dalla vista primaria ad altre viste chiave attraverso il suo Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA). Il Full-view Refiner modifica e affina l'oggetto 3D basandosi sulle viste multi-modificate. Esperimenti estensivi dimostrano che il nostro metodo supera i metodi esistenti in termini di accuratezza di editing e coerenza spaziale.
I crescenti costi computazionali e le risorse limitate sottolineano la necessità critica di un addestramento con iterazioni budgetate, che mira a ottenere un apprendimento ottimale entro budget di iterazione predeterminati. Sebbene le pianificazioni del tasso di apprendimento governino fondamentalmente le prestazioni di diverse reti e task, specialmente negli scenari con iterazioni budgetate, il loro design rimane largamente euristico, privo di fondamenti teorici. Inoltre, la pianificazione ottimale del tasso di apprendimento richiede una selezione estensiva per tentativi ed errori, rendendo il processo di addestramento inefficiente. In questo lavoro, proponiamo la pianificazione Unified Budget-Aware (UBA), una pianificazione del tasso di apprendimento basata su teorie che supera costantemente le pianificazioni comunemente utilizzate tra diverse architetture e task sotto diversi budget di addestramento vincolati. In primo luogo, colmiamo il divario costruendo un nuovo framework di ottimizzazione consapevole del budget di addestramento, che tiene esplicitamente conto della robustezza alle variazioni della curvatura del paesaggio. Da questo framework, deriviamo la pianificazione UBA, controllata da un singolo iperparametro varphi che fornisce un compromesso tra flessibilità e semplicità, eliminando la necessità di ottimizzazione numerica per rete. Inoltre, stabiliamo una connessione teorica tra varphi e il numero di condizione, aggiungendo interpretazione e giustificazione al nostro approccio. Oltre a ciò, dimostriamo la convergenza per diversi valori di varphi. Offriamo linee guida pratiche per la sua selezione attraverso analisi teoriche e risultati empirici. Estesi risultati sperimentali mostrano che UBA supera costantemente le pianificazioni comunemente utilizzate in diversi task di visione e linguaggio, abbracciando architetture di rete (ad esempio, ResNet, OLMo) e scale, sotto diversi budget di iterazione di addestramento.
Questo articolo affronta le lacune critiche nella valutazione dei modelli linguistici per l'arabo, stabilendo linee guida teoriche complete e introducendo un nuovo framework di valutazione. Inizialmente, analizziamo i dataset di valutazione esistenti per l'arabo, identificando problemi significativi in termini di accuratezza linguistica, allineamento culturale e rigore metodologico. Per superare queste limitazioni nei LLM, presentiamo l'Arabic Depth Mini Dataset (ADMD), una raccolta accuratamente curata di 490 domande complesse che coprono dieci domini principali (42 sottodomini, vedi Figura 1). Utilizzando ADMD, valutiamo cinque modelli linguistici leader: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B e Qwen-Max. I nostri risultati rivelano variazioni significative nelle prestazioni dei modelli tra i diversi domini, con particolari difficoltà nelle aree che richiedono una profonda comprensione culturale e conoscenze specializzate. Claude 3.5 Sonnet ha dimostrato la più alta accuratezza complessiva al 30\%, mostrando una relativa forza nella teoria matematica in arabo, nella lingua araba e nei domini islamici. Questo lavoro fornisce sia basi teoriche che intuizioni pratiche per migliorare la valutazione dei modelli linguistici per l'arabo, sottolineando l'importanza della competenza culturale accanto alle capacità tecniche.
Questo articolo affronta le lacune critiche nella valutazione dei modelli linguistici per l'arabo, stabilendo linee guida teoriche complete e introducendo un nuovo framework di valutazione. Inizialmente, analizziamo i dataset di valutazione esistenti per l'arabo, identificando problemi significativi in termini di accuratezza linguistica, allineamento culturale e rigore metodologico. Per superare queste limitazioni nei LLM, presentiamo l'Arabic Depth Mini Dataset (ADMD), una raccolta accuratamente curata di 490 domande complesse che coprono dieci domini principali (42 sottodomini, vedi Figura 1). Utilizzando ADMD, valutiamo cinque modelli linguistici leader: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B e Qwen-Max. I nostri risultati rivelano variazioni significative nelle prestazioni dei modelli tra i diversi domini, con particolari difficoltà nelle aree che richiedono una profonda comprensione culturale e conoscenze specializzate. Claude 3.5 Sonnet ha dimostrato la più alta accuratezza complessiva al 30\%, mostrando una relativa forza nella teoria matematica in arabo, nella lingua araba e nei domini islamici. Questo lavoro fornisce sia basi teoriche che intuizioni pratiche per migliorare la valutazione dei modelli linguistici per l'arabo, sottolineando l'importanza della competenza culturale accanto alle capacità tecniche.
Presentiamo SealQA, un nuovo benchmark di valutazione per testare i modelli linguistici potenziati dalla ricerca (SEarch-Augmented Language models) su domande di ricerca di fatti in cui la ricerca web produce risultati contrastanti, rumorosi o inutili. SealQA è disponibile in tre varianti: (1) Seal-0 (principale) e (2) Seal-Hard, che valutano l'accuratezza fattuale e le capacità di ragionamento, con Seal-0 focalizzato sulle domande più complesse in cui i modelli di chat (ad esempio, GPT-4.1) tipicamente raggiungono un'accuratezza quasi nulla; e (3) LongSeal, che estende SealQA per testare il ragionamento su contesti lunghi e multi-documento in scenari "ago in un pagliaio". La nostra valutazione rivela limitazioni critiche nei modelli attuali: anche i modelli linguistici più avanzati (LLM) performano male in tutte le varianti di SealQA. Su Seal-0, i modelli agentici più all'avanguardia dotati di strumenti come o3 e o4-mini raggiungono rispettivamente solo il 17,1% e il 6,3% di accuratezza, nonostante i loro migliori sforzi di ragionamento. Abbiamo scoperto che modelli di ragionamento avanzati come DeepSeek-R1-671B e o3-mini sono altamente vulnerabili ai risultati di ricerca rumorosi. In particolare, aumentare il calcolo al momento del test non produce miglioramenti affidabili su o3-mini, o4-mini e o3, con le prestazioni che spesso si stabilizzano o addirittura diminuiscono precocemente. Inoltre, sebbene i modelli recenti siano meno influenzati dal problema del "lost-in-the-middle", falliscono comunque nell'identificare in modo affidabile i documenti rilevanti in LongSeal quando si trovano di fronte a numerosi elementi di distrazione. Per facilitare il lavoro futuro, rilasciamo SealQA su huggingface.co/datasets/vtllms/sealqa.
La generazione di immagini da testo che coinvolge arrangiamenti complessi e innovativi di oggetti rimane una sfida significativa per i modelli attuali di testo-immagine (T2I). Sebbene i metodi precedenti basati su layout migliorino gli arrangiamenti degli oggetti utilizzando vincoli spaziali con layout 2D, spesso faticano a catturare il posizionamento 3D e sacrificano qualità e coerenza. In questo lavoro, introduciamo ComposeAnything, un nuovo framework per migliorare la generazione di immagini composizionali senza dover riaddestrare i modelli T2I esistenti. Il nostro approccio sfrutta prima le capacità di ragionamento a catena di pensiero dei modelli linguistici di grandi dimensioni (LLM) per produrre layout semantici 2.5D a partire dal testo, costituiti da bounding box 2D arricchiti con informazioni di profondità e didascalie dettagliate. Basandoci su questo layout, generiamo una composizione grezza di oggetti consapevole dello spazio e della profondità che cattura la composizione desiderata, servendo come un forte e interpretabile prior che sostituisce l'inizializzazione stocastica del rumore nei modelli T2I basati su diffusione. Questo prior guida il processo di denoising attraverso il rinforzo del prior degli oggetti e il denoising controllato spazialmente, consentendo la generazione senza soluzione di continuità di oggetti composizionali e sfondi coerenti, permettendo al contempo il perfezionamento di prior inaccurati. ComposeAnything supera i metodi all'avanguardia sui benchmark T2I-CompBench e NSR-1K per prompt con arrangiamenti spaziali 2D/3D, un numero elevato di oggetti e composizioni surreali. Le valutazioni umane dimostrano ulteriormente che il nostro modello genera immagini di alta qualità con composizioni che riflettono fedelmente il testo.
In questo articolo, introduciamo la Generazione Online di Risposte Conversazionali Multimodali (OMCRG), un nuovo compito che mira a generare in tempo reale feedback verbali e non verbali sincronizzati da parte dell'ascoltatore, condizionati dall'input multimodale del parlante. L'OMCRG riflette le interazioni diadiche naturali e pone nuove sfide nel raggiungere la sincronizzazione tra l'audio generato e le reazioni facciali dell'ascoltatore. Per affrontare queste sfide, introduciamo in modo innovativo il testo come modalità intermedia per collegare le risposte audio e facciali. Proponiamo quindi OmniResponse, un Modello Linguistico Multimodale di Grande Dimensione (MLLM) che genera autoregressivamente risposte multimodali di alta qualità da parte dell'ascoltatore. OmniResponse sfrutta un LLM pre-addestrato potenziato con due nuovi componenti: Chrono-Text, che ancor temporalmente i token di testo generati, e TempoVoice, un modulo TTS online controllabile che produce discorsi sincronizzati con le reazioni facciali. Per supportare ulteriori ricerche sull'OMCRG, presentiamo ResponseNet, un nuovo dataset composto da 696 interazioni diadiche di alta qualità che includono video split-screen sincronizzati, audio multicanale, trascrizioni e annotazioni del comportamento facciale. Valutazioni complete condotte su ResponseNet dimostrano che OmniResponse supera significativamente i modelli di riferimento in termini di contenuto semantico del discorso, sincronizzazione audio-visiva e qualità della generazione.
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) si integrano profondamente nella vita umana e influenzano sempre più i processi decisionali, è cruciale valutare se e in quale misura essi manifestino preferenze, opinioni e convinzioni soggettive. Queste tendenze possono derivare da pregiudizi interni ai modelli, che potrebbero plasmarne il comportamento, influenzare i consigli e le raccomandazioni offerti agli utenti e potenzialmente rafforzare determinati punti di vista. Questo articolo presenta il sondaggio su Preferenze, Opinioni e Credenze (POBs), un benchmark sviluppato per valutare le inclinazioni soggettive degli LLM in ambiti sociali, culturali, etici e personali. Abbiamo applicato il nostro benchmark per valutare i principali LLM open-source e closed-source, misurando proprietà desiderabili come affidabilità, neutralità e coerenza. Inoltre, abbiamo investigato l'effetto dell'aumento della potenza di calcolo al momento del test, attraverso meccanismi di ragionamento e autoriflessione, su queste metriche. Sebbene efficaci in altri compiti, i nostri risultati mostrano che questi meccanismi offrono solo miglioramenti limitati nel nostro dominio. Inoltre, riveliamo che le versioni più recenti dei modelli stanno diventando meno coerenti e più inclini a specifici punti di vista, evidenziando un punto cieco e una tendenza preoccupante. POBS: https://ibm.github.io/POBS
I Large Language Model (LLM) hanno ottenuto un successo notevole in compiti di ragionamento complesso, ma la loro inferenza rimane computazionalmente inefficiente. Osserviamo una modalità di fallimento comune in molti LLM diffusi, il cosiddetto "overthinking", in cui i modelli generano tracce di ragionamento prolisse e tangenziali anche per query semplici. Recenti lavori hanno cercato di mitigare questo problema imponendo budget di token fissi, tuttavia, ciò può portare a un "underthinking", specialmente su problemi più difficili. Attraverso un'analisi empirica, identifichiamo che questa inefficienza spesso deriva da strategie di risoluzione dei problemi poco chiare. Per formalizzare questo concetto, sviluppiamo un modello teorico, il BBAM (Bayesian Budget Allocation Model), che modella il ragionamento come una sequenza di sotto-domande con incertezza variabile, e introduciamo la metrica E^3 per catturare il compromesso tra correttezza ed efficienza computazionale. Basandoci sui risultati teorici del BBAM, proponiamo Plan-and-Budget, un framework agnostico rispetto al modello e applicabile al momento del test, che scompone query complesse in sotto-domande e assegna budget di token in base alla complessità stimata utilizzando una schedulazione adattiva. Plan-and-Budget migliora l'efficienza del ragionamento su una gamma di compiti e modelli, ottenendo fino a un +70% di guadagno in accuratezza, una riduzione del 39% dei token e un miglioramento del 187,5% in E^3. In particolare, eleva un modello più piccolo (DS-Qwen-32B) a eguagliare l'efficienza di un modello più grande (DS-LLaMA-70B), dimostrando la capacità di Plan-and-Budget di colmare i divari di prestazione senza necessità di riaddestramento. Il nostro codice è disponibile all'indirizzo anonymous.4open.science/r/P-and-B-6513/.
Diversi studi hanno esplorato i meccanismi dei modelli linguistici di grandi dimensioni (LLM) nei compiti di codifica, ma la maggior parte si è concentrata sui linguaggi di programmazione (PL) in un contesto monolingue. In questo articolo, indaghiamo la relazione tra più PL e l'inglese nello spazio concettuale degli LLM. Eseguiamo un'attività di traduzione few-shot su 21 coppie di PL utilizzando due modelli basati su Llama. Decodificando gli embedding degli strati intermedi durante questa attività, osserviamo che lo spazio concettuale è più vicino all'inglese (inclusi i termini chiave dei PL) e assegna alte probabilità ai token inglesi nella seconda metà degli strati intermedi. Analizziamo le attivazioni dei neuroni per 11 PL e l'inglese, scoprendo che mentre i neuroni specifici per la lingua sono principalmente concentrati negli strati inferiori, quelli esclusivi per ciascun PL tendono a comparire negli strati superiori. Per i PL che sono altamente allineati con più altri PL, identificare neuroni specifici per la lingua non è fattibile. Questi PL tendono anche ad avere un insieme di termini chiave più ampio rispetto ad altri PL e sono più vicini allo spazio concettuale del modello indipendentemente dal PL di input/output nell'attività di traduzione. Le nostre scoperte forniscono approfondimenti su come gli LLM rappresentano internamente i PL, rivelando schemi strutturali nello spazio concettuale del modello. Il codice è disponibile all'indirizzo https://github.com/cisnlp/code-specific-neurons.
I modelli linguistici di grandi dimensioni (LLM) sono stati recentemente applicati a compiti di previsione, con alcuni lavori che affermano che questi sistemi eguagliano o superano le prestazioni umane. In questo articolo, sosteniamo che, come comunità, dovremmo essere cauti riguardo a tali conclusioni, poiché la valutazione dei sistemi di previsione basati su LLM presenta sfide uniche. Identifichiamo due ampie categorie di problemi: (1) difficoltà nel fidarsi dei risultati di valutazione a causa di molteplici forme di "temporal leakage" (perdita temporale), e (2) difficoltà nell'estrapolare le prestazioni di valutazione rispetto alle previsioni nel mondo reale. Attraverso un'analisi sistematica e esempi concreti tratti da lavori precedenti, dimostriamo come i difetti nella valutazione possano sollevare preoccupazioni riguardo alle affermazioni sulle prestazioni attuali e future. Sosteniamo che sono necessarie metodologie di valutazione più rigorose per valutare con sicurezza le capacità di previsione degli LLM.
Il Distillation Matching Distribution (DMD) è stato applicato con successo a modelli di diffusione testo-immagine come Stable Diffusion (SD) 1.5. Tuttavia, la versione base di DMD incontra difficoltà di convergenza su modelli di flusso testo-immagine su larga scala, come SD 3.5 e FLUX. In questo articolo, analizziamo inizialmente i problemi riscontrati nell'applicare la versione base di DMD su modelli di grandi dimensioni. Successivamente, per superare la sfida della scalabilità, proponiamo l'allineamento implicito della distribuzione (IDA) per regolarizzare la distanza tra il generatore e la distribuzione fittizia. Inoltre, introduciamo la guida intra-segmento (ISG) per riallocare la distribuzione dell'importanza dei passi temporali dal modello insegnante. Con il solo IDA, DMD converge per SD 3.5; utilizzando sia IDA che ISG, DMD converge per SD 3.5 e FLUX.1 dev. Insieme ad altri miglioramenti, come modelli discriminatori scalati, il nostro modello finale, denominato SenseFlow, raggiunge prestazioni superiori nella distillazione sia per modelli di diffusione testo-immagine come SDXL, sia per modelli di flusso come SD 3.5 Large e FLUX. Il codice sorgente sarà disponibile all'indirizzo https://github.com/XingtongGe/SenseFlow.
I codec neurali audio hanno compiuto progressi significativi nel mappare in modo efficiente le forme d'onda audio grezze in rappresentazioni token discrete, che sono fondamentali per i modelli generativi audio contemporanei. Tuttavia, la maggior parte dei codec esistenti è ottimizzata principalmente per la qualità di ricostruzione, spesso a scapito della modellabilità a valle dei token codificati. Motivati dalla necessità di superare questo collo di bottiglia, introduciamo MagiCodec, un innovativo codec audio basato su Transformer a singolo strato e in streaming. MagiCodec è progettato con una pipeline di addestramento multistadio che incorpora l'iniezione di rumore gaussiano e la regolarizzazione latente, mirando esplicitamente a migliorare l'espressività semantica nei codici generati preservando al contempo un'elevata fedeltà di ricostruzione. Analizziamo analiticamente l'effetto dell'iniezione di rumore nel dominio della frequenza, dimostrando la sua efficacia nell'attenuare le componenti ad alta frequenza e nel favorire una tokenizzazione robusta. Valutazioni sperimentali estensive mostrano che MagiCodec supera i codec all'avanguardia sia nella qualità di ricostruzione che nelle attività a valle. In particolare, i token prodotti da MagiCodec presentano distribuzioni di tipo Zipf, simili a quelle osservate nei linguaggi naturali, migliorando così la compatibilità con le architetture generative basate su modelli linguistici. Il codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/Ereboas/MagiCodec.
I Modelli Linguistici Potenziati dal Recupero (RALMs) rappresentano un paradigma classico in cui i modelli migliorano le capacità generative utilizzando conoscenze esterne recuperate tramite un modulo specializzato. I recenti progressi nelle tecniche di Agente consentono ai Modelli Linguistici di Grande Scala (LLMs) di utilizzare autonomamente strumenti per il recupero, la pianificazione e il ragionamento. Sebbene i metodi esistenti basati sul training mostrino promettenti risultati, le loro capacità agentiche sono limitate dalle caratteristiche intrinseche dei dati specifici del compito utilizzati durante l'addestramento. Per potenziare ulteriormente la capacità di ricerca universale degli agenti, proponiamo un nuovo framework di pre-training, MaskSearch. Nella fase di pre-training, introduciamo il compito di Predizione Maschera Potenziata dal Recupero (RAMP), in cui il modello impara a sfruttare strumenti di ricerca per riempire porzioni mascherate su un ampio numero di dati di pre-training, acquisendo così capacità universali di recupero e ragionamento per gli LLMs. Successivamente, il modello viene addestrato su compiti downstream per ottenere ulteriori miglioramenti. Applichiamo sia il Fine-tuning Supervisionato (SFT) che l'Apprendimento per Rinforzo (RL) per l'addestramento. Per il SFT, combiniamo metodi basati su agente e su distillazione per generare dati di training, iniziando con un sistema multi-agente composto da un pianificatore, un riscrittore, un osservatore e seguito da un modello insegnante auto-evolutivo. Per il RL, utilizziamo DAPO come framework di addestramento e adottiamo un sistema di ricompensa ibrido composto da ricompense per le risposte e ricompense per il formato. Inoltre, introduciamo un approccio di apprendimento curriculare che consente al modello di apprendere progressivamente da istanze più semplici a più complesse in base al numero di porzioni mascherate. Valutiamo l'efficacia del nostro framework nello scenario di risposta a domande multi-hop in dominio aperto. Attraverso esperimenti estensivi, dimostriamo che MaskSearch migliora significativamente le prestazioni degli agenti di ricerca basati su LLM sia su compiti downstream in dominio che fuori dominio.
Introduciamo i Frankentexts, un nuovo tipo di narrazioni lunghe prodotte da LLM sotto il vincolo estremo che la maggior parte dei token (ad esempio, il 90%) debba essere copiata letteralmente da scritti umani. Questo compito rappresenta una prova impegnativa per la generazione controllata, richiedendo ai modelli di soddisfare un prompt di scrittura, integrare frammenti di testo disparati e produrre comunque una narrazione coerente. Per generare i Frankentexts, istruiamo il modello a produrre una bozza selezionando e combinando passaggi scritti da esseri umani, per poi revisionare iterativamente la bozza mantenendo un rapporto di copia specificato dall'utente. Valutiamo i Frankentexts risultanti lungo tre assi: qualità della scrittura, aderenza alle istruzioni e rilevabilità. Gemini-2.5-Pro si comporta sorprendentemente bene in questo compito: l'81% dei suoi Frankentexts è coerente e il 100% rilevante rispetto al prompt. È degno di nota che fino al 59% di questi output venga erroneamente classificato come scritto da esseri umani da rilevatori come Pangram, rivelando limitazioni nei rilevatori di testo AI. Gli annotatori umani possono talvolta identificare i Frankentexts attraverso i loro bruschi cambi di tono e la grammatica incoerente tra i segmenti, specialmente nelle generazioni più lunghe. Oltre a presentare un compito di generazione impegnativo, i Frankentexts invitano a discutere sulla costruzione di rilevatori efficaci per questa nuova zona grigia di paternità, forniscono dati di addestramento per il rilevamento di paternità mista e fungono da sandbox per studiare i processi di co-scrittura uomo-AI.
L'acquisizione di dati vocali emotivi su larga scala con una forte coerenza rimane una sfida per la sintesi vocale. Questo articolo presenta MIKU-PAL, una pipeline multimodale completamente automatizzata per estrarre discorsi emotivi ad alta coerenza da dati video non etichettati. Sfruttando algoritmi di rilevamento e tracciamento del volto, abbiamo sviluppato un sistema automatico di analisi delle emozioni utilizzando un modello linguistico multimodale di grandi dimensioni (MLLM). I nostri risultati dimostrano che MIKU-PAL può raggiungere un'accuratezza a livello umano (68,5% su MELD) e una coerenza superiore (punteggio Fleiss kappa di 0,93), essendo molto più economico e veloce rispetto all'annotazione umana. Con l'annotazione di alta qualità, flessibile e coerente di MIKU-PAL, possiamo annotare categorie di emozioni vocali finemente dettagliate fino a 26 tipi, validate da annotatori umani con un tasso di razionalità dell'83%. Basandoci sul nostro sistema proposto, abbiamo ulteriormente rilasciato un dataset di discorsi emotivi finemente dettagliato, MIKU-EmoBench (131,2 ore), come nuovo benchmark per la sintesi vocale emotiva e il clonaggio vocale visivo.
I modelli visione-linguaggio (VLM) allineati con obiettivi umani generali, come essere innocui e privi di allucinazioni, sono diventati assistenti preziosi per gli esseri umani nella gestione di compiti visivi. Tuttavia, persone con background diversificati hanno cognizioni diverse anche nella stessa situazione. Di conseguenza, possono avere aspettative personalizzate per gli assistenti VLM. Ciò evidenzia l'urgente necessità di allineare gli assistenti VLM con una cognizione situata personalizzata per un'assistenza nel mondo reale. Per studiare questo problema, lo semplifichiamo caratterizzando gli individui in base al concetto sociologico di Insieme di Ruoli (Role-Set). Successivamente, proponiamo di valutare le azioni degli individui per esaminare se l'allineamento personalizzato è stato raggiunto. Inoltre, costruiamo un benchmark denominato PCogAlignBench, che include 18k istanze e 20 individui con diversi Insiemi di Ruoli. Infine, presentiamo un framework chiamato PCogAlign, che costruisce un modello di ricompensa basato su azioni e consapevole della cognizione per l'allineamento personalizzato. I risultati sperimentali e le valutazioni umane dimostrano l'affidabilità del PCogAlignBench e l'efficacia del nostro PCogAlign proposto. Renderemo open-source il benchmark e il codice costruiti all'indirizzo https://github.com/NLPGM/PCogAlign.
Studi recenti hanno dimostrato che il fine-tuning supervisionato di LLM su un numero limitato di dataset di alta qualità può produrre forti capacità di ragionamento. Tuttavia, il fine-tuning completo (Full FT), sebbene potente, è computazionalmente costoso e suscettibile a overfitting e dimenticanza catastrofica, specialmente quando i dati sono limitati. Il fine-tuning sparso, che in precedenza ha ottenuto un notevole successo aggiornando solo un piccolo sottoinsieme dei parametri del modello, offre un promettente compromesso tra efficienza ed efficacia. Tuttavia, è rimasto indietro nell'era degli LLM a causa della difficoltà di identificare i parametri veramente critici per il ragionamento. In questo lavoro, affermiamo che i pesi con la magnitudine più grande dopo l'approssimazione a basso rango sono pesi critici per il fine-tuning, che chiamiamo Principal Weights. Sorprendentemente, mentre il fine-tuning sparso basato sulla magnitudine si comporta male come baseline nel fine-tuning degli LLM, diventa altamente efficace dopo la riduzione del rango. Queste intuizioni motivano il nostro metodo: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT aggiorna solo il 5% superiore dei Principal Weights durante l'addestramento e ottiene costantemente prestazioni migliori nei compiti di ragionamento rispetto a Full FT, mantenendo al contempo un'efficienza della memoria paragonabile ai popolari metodi di fine-tuning efficiente dei parametri. Oltre a forti prestazioni in domini target come il ragionamento aritmetico, LIFT conserva anche fino al 20% in più di conoscenza del dominio sorgente, rispetto a Full FT e LoRA. Il nostro codice è disponibile all'indirizzo: https://github.com/zihanghliu/LIFT.
Comprendere le condizioni socioeconomiche urbane attraverso dati visivi è un compito impegnativo ma essenziale per lo sviluppo urbano sostenibile e la pianificazione delle politiche. In questo lavoro, introduciamo CityLens, un benchmark completo progettato per valutare le capacità dei modelli linguistico-visivi di grandi dimensioni (LLVM) nel prevedere indicatori socioeconomici a partire da immagini satellitari e di street view. Abbiamo costruito un dataset multimodale che copre un totale di 17 città distribuite a livello globale, abbracciando 6 aree chiave: economia, istruzione, criminalità, trasporti, salute e ambiente, riflettendo la natura multifaccetata della vita urbana. Sulla base di questo dataset, abbiamo definito 11 task di previsione e utilizzato tre paradigmi di valutazione: Previsione Diretta delle Metriche, Stima Normalizzata delle Metriche e Regressione Basata su Caratteristiche. Abbiamo testato 17 LLVM all'avanguardia su questi task. I nostri risultati rivelano che, sebbene gli LLVM dimostrino promettenti capacità percettive e di ragionamento, presentano ancora limitazioni nel prevedere gli indicatori socioeconomici urbani. CityLens fornisce un framework unificato per diagnosticare queste limitazioni e guidare futuri sforzi nell'utilizzo degli LLVM per comprendere e prevedere i modelli socioeconomici urbani. I nostri codici e dataset sono open-source e disponibili su https://github.com/tsinghua-fib-lab/CityLens.
Questo articolo indaga una decisione progettuale cruciale nella pratica del pre-addestramento continuo massivamente multilingue: l'inclusione di dati paralleli. Nello specifico, studiamo l'impatto dei dati di traduzione bilingue per l'adattamento linguistico massivamente multilingue della famiglia di modelli Llama3 a 500 lingue. A tal fine, costruiamo il corpus di traduzione bilingue MaLA, contenente dati provenienti da oltre 2.500 coppie di lingue. Successivamente, sviluppiamo la suite EMMA-500 Llama 3 di quattro modelli massivamente multilingue – pre-addestrati in modo continuo a partire dai modelli base della famiglia Llama 3 su un mix di dati diversificati fino a 671 miliardi di token – ed esploriamo l'effetto del pre-addestramento continuo con o senza dati di traduzione bilingue. Una valutazione completa su 7 task e 12 benchmark dimostra che i dati bilingue tendono a migliorare il trasferimento linguistico e le prestazioni, in particolare per le lingue a bassa risorsa. Rendiamo open-source il corpus MaLA, gli artefatti della suite EMMA-500 Llama 3, il codice e le generazioni dei modelli.
Decodificare il linguaggio continuo dai segnali neurali rimane una sfida significativa all'intersezione tra neuroscienze e intelligenza artificiale. Presentiamo Neuro2Semantic, un nuovo framework che ricostruisce il contenuto semantico del parlato percepito da registrazioni EEG intracraniche (iEEG). Il nostro approccio si compone di due fasi: inizialmente, un adattatore basato su LSTM allinea i segnali neurali con embedding di testo pre-addestrati; successivamente, un modulo correttore genera testo continuo e naturale direttamente da questi embedding allineati. Questo metodo flessibile supera i limiti dei precedenti approcci di decodifica e consente la generazione di testo senza vincoli. Neuro2Semantic ottiene prestazioni robuste con appena 30 minuti di dati neurali, superando un recente metodo all'avanguardia in contesti con dati limitati. Questi risultati evidenziano il potenziale per applicazioni pratiche nelle interfacce cervello-computer e nelle tecnologie di decodifica neurale.
Il rendering binaurale mira a sintetizzare audio binaurale che imiti l'udito naturale basandosi su un audio mono e sulle posizioni del parlante e dell'ascoltatore. Sebbene siano stati proposti molti metodi per risolvere questo problema, essi faticano a garantire qualità di rendering e inferenza in streaming. La sintesi di audio binaurale di alta qualità, indistinguibile dalle registrazioni reali, richiede una modellazione precisa degli indizi binaurali, della riverberazione ambientale e dei suoni circostanti. Inoltre, le applicazioni nel mondo reale richiedono inferenza in streaming. Per affrontare queste sfide, proponiamo un framework di sintesi vocale binaurale in streaming basato su flow matching, chiamato BinauralFlow. Consideriamo il rendering binaurale come un problema di generazione piuttosto che di regressione e progettiamo un modello di flow matching condizionale per produrre audio di alta qualità. Inoltre, progettiamo un'architettura U-Net causale che stima il frame audio corrente basandosi esclusivamente su informazioni passate, adattando i modelli generativi per l'inferenza in streaming. Infine, introduciamo una pipeline di inferenza continua che incorpora operazioni STFT/ISTFT in streaming, un buffer bank, un midpoint solver e uno schedule di early skip per migliorare la continuità e la velocità di rendering. Valutazioni quantitative e qualitative dimostrano la superiorità del nostro metodo rispetto agli approcci SOTA. Uno studio percettivo rivela inoltre che il nostro modello è quasi indistinguibile dalle registrazioni reali, con un tasso di confusione del 42%.
Nonostante i progressi nel ragionamento e nella pianificazione dei modelli simili a R1, i Large Language Models (LLM) continuano a incontrare difficoltà in compiti che richiedono calcoli precisi, manipolazione simbolica, ottimizzazione e ragionamento algoritmico, dove il ragionamento testuale manca del rigore dell'esecuzione del codice. Una sfida chiave è consentire agli LLM di decidere quando utilizzare il ragionamento testuale rispetto alla generazione di codice. Mentre OpenAI addestra i modelli a invocare un Code Interpreter quando necessario, la ricerca pubblica manca di linee guida su come allineare gli LLM pre-addestrati per sfruttare efficacemente il codice e generalizzare su compiti diversi. Presentiamo R1-Code-Interpreter, un'estensione di un LLM esclusivamente testuale addestrato tramite fine-tuning supervisionato multi-turn (SFT) e apprendimento per rinforzo (RL) per generare autonomamente più query di codice durante il ragionamento passo-passo. Abbiamo curato 144 compiti di ragionamento e pianificazione (107 per l'addestramento, 37 per il test), ciascuno con oltre 200 domande diverse. Abbiamo sottoposto a fine-tuning i modelli Qwen-2.5 (3B/7B/14B) utilizzando varie strategie SFT e RL, investigando diversi formati di risposta, modelli con e senza ragionamento, avvii a freddo e a caldo, GRPO vs. PPO, e output di codice mascherati e non mascherati. A differenza dei precedenti lavori RL su domini ristretti, troviamo che l'addestramento con Code Interpreter è significativamente più difficile a causa dell'elevata diversità dei compiti e dell'esecuzione costosa del codice, evidenziando il ruolo cruciale della fase SFT. Il nostro modello finale, R1-CI-14B, migliora l'accuratezza media sui 37 compiti di test dal 44,0% al 64,1%, superando GPT-4o (solo testo: 58,6%) e avvicinandosi a GPT-4o con Code Interpreter (70,9%), con l'emergere di un comportamento di autocontrollo tramite generazione di codice. Dataset, codici e modelli sono disponibili su https://github.com/yongchao98/R1-Code-Interpreter e https://huggingface.co/yongchao98.
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) ottengono buoni risultati in compiti come il rispondere a domande visive, ma rimane poco chiaro se il loro ragionamento si basi maggiormente su conoscenze del mondo memorizzate o sulle informazioni visive presenti nell'immagine di input. Per indagare questo aspetto, introduciamo Visual CounterFact, un nuovo dataset di controfattuali visivamente realistici che mettono in conflitto diretto le conoscenze pregresse del mondo (ad esempio, una fragola rossa) con l'input visivo (ad esempio, una fragola blu). Utilizzando Visual CounterFact, dimostriamo che le previsioni del modello inizialmente riflettono le conoscenze pregresse memorizzate, ma si spostano verso l'evidenza visiva negli strati intermedi e finali. Questa dinamica rivale una competizione tra le due modalità, con l'input visivo che alla fine prevale sulle conoscenze pregresse durante la valutazione. Per controllare questo comportamento, proponiamo i vettori di orientamento Pixels Versus Priors (PvP), un meccanismo per indirizzare le uscite del modello verso le conoscenze del mondo o l'input visivo attraverso interventi a livello di attivazione. In media, PvP riesce a spostare il 92,5% delle previsioni relative al colore e il 74,6% di quelle relative alla dimensione dalle conoscenze pregresse ai controfattuali. Insieme, questi risultati offrono nuovi strumenti per interpretare e controllare il comportamento fattuale nei modelli multimodali.
Questo lavoro esplora l'Adattamento al Dominio Senza Accesso ai Dati di Sorgente (Source-Free Domain Adaptation, SFDA), in cui un modello si adatta a un dominio target senza accesso ai dati di origine. Viene introdotta una nuova tecnica di aumentazione, Shuffle PatchMix (SPM), e una strategia innovativa di ripesatura per migliorare le prestazioni. SPM mescola e combina porzioni di immagini per generare aumentazioni diversificate e impegnative, mentre la strategia di ripesatura privilegia pseudo-etichette affidabili per mitigare il rumore nelle etichette. Queste tecniche sono particolarmente efficaci su dataset più piccoli come PACS, dove l'overfitting e il rumore nelle pseudo-etichette rappresentano rischi maggiori. Si ottengono risultati all'avanguardia su tre benchmark principali: PACS, VisDA-C e DomainNet-126. In particolare, su PACS si osservano miglioramenti del 7,3% (da 79,4% a 86,7%) e del 7,2% rispettivamente in contesti single-target e multi-target, mentre su DomainNet-126 e VisDA-C si registrano guadagni del 2,8% e dello 0,7%. Questa combinazione di aumentazione avanzata e ripesatura robusta delle pseudo-etichette stabilisce un nuovo punto di riferimento per l'SFDA. Il codice è disponibile all'indirizzo: https://github.com/PrasannaPulakurthi/SPM.
La compilazione efficiente delle operazioni quantistiche rimane un collo di bottiglia significativo nel ridimensionamento del calcolo quantistico. I metodi all'avanguardia odierni raggiungono un basso errore di compilazione combinando algoritmi di ricerca con l'ottimizzazione dei parametri basata su gradienti, ma comportano tempi di esecuzione lunghi e richiedono molteplici chiamate all'hardware quantistico o simulazioni classiche costose, rendendo il loro ridimensionamento proibitivo. Recentemente, i modelli di machine learning sono emersi come alternativa, sebbene siano attualmente limitati a insiemi di gate discreti. Qui, introduciamo un modello di diffusione multimodale per la rimozione del rumore che genera simultaneamente la struttura di un circuito e i suoi parametri continui per compilare un'unità target. Sfrutta due processi di diffusione indipendenti, uno per la selezione discreta dei gate e uno per la previsione dei parametri. Valutiamo il modello su diversi esperimenti, analizzando l'accuratezza del metodo rispetto a vari numeri di qubit, profondità dei circuiti e proporzioni di gate parametrizzati. Infine, sfruttando la sua rapida generazione di circuiti, creiamo grandi dataset di circuiti per operazioni specifiche e li utilizziamo per estrarre euristiche preziose che possono aiutarci a scoprire nuove intuizioni sulla sintesi dei circuiti quantistici.