HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

41 papers found

Il Diavolo dietro Moltbook: la sicurezza antropica svanisce sempre nelle società di IA auto-evolventi
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Feb 10

ByChenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu

197

L'emergere di sistemi multi-agente costruiti su modelli linguistici di grandi dimensioni (LLM) offre un paradigma promettente per l'intelligenza collettiva scalabile e l'auto-evoluzione. Idealmente, tali sistemi dovrebbero raggiungere un miglioramento continuo in un ciclo completamente chiuso, mantenendo al contempo un robusto allineamento di sicurezza – una combinazione che definiamo il trilemma dell'auto-evoluzione. Tuttavia, dimostriamo sia teoricamente che empiricamente che una società di agenti che soddisfi l'auto-evoluzione continua, l'isolamento completo e l'invarianza di sicurezza è impossibile. Basandoci su un quadro teorico dell'informazione, formalizziamo la sicurezza come il grado di divergenza dalle distribuzioni di valori antropici. Dimostriamo teoricamente che l'auto-evoluzione isolata induce punti ciechi statistici, portando al degrado irreversibile dell'allineamento di sicurezza del sistema. Risultati empirici e qualitativi provenienti da una comunità di agenti ad evoluzione aperta (Moltbook) e da due sistemi chiusi auto-evolutivi rivelano fenomeni in linea con la nostra previsione teorica di un'inevitabile erosione della sicurezza. Proponiamo inoltre diverse direzioni di soluzione per alleviare il problema di sicurezza identificato. Il nostro lavoro stabilisce un limite fondamentale per le società di IA auto-evolutive e sposta il discorso dagli interventi di sicurezza sintomatici verso una comprensione principiata dei rischi dinamici intrinseci, evidenziando la necessità di supervisione esterna o di nuovi meccanismi di preservazione della sicurezza.

Composition-RL: Componi i Tuoi Prompt Verificabili per l'Apprendimento per Rinforzo dei Modelli Linguistici di Grande Dimensione
Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Feb 12

ByXin Xu, Clive Bai, Kai Yang, Tianhao Chen, Yangkun Chen, Weijie Liu, Hao Chen, Yang Wang, Saiyong Yang, Can Yang

I prompt verificabili su larga scala sono alla base del successo del Reinforcement Learning con Ricompense Verificabili (RLVR), ma contengono molti esempi non informativi e sono costosi da espandere ulteriormente. Studi recenti si concentrano sullo sfruttare meglio dati di addestramento limitati dando priorità ai prompt difficili il cui tasso di superamento del rollout è 0. Tuttavia, i prompt facili con un tasso di superamento di 1 diventano anch'essi sempre più prevalenti con il progredire dell'addestramento, riducendo così la dimensione effettiva dei dati. Per mitigare questo problema, proponiamo Composition-RL, un approccio semplice ma utile per utilizzare meglio i prompt verificabili limitati, mirando specificamente ai prompt con tasso di superamento 1. Nello specifico, Composition-RL compone automaticamente più problemi in una nuova domanda verificabile e utilizza questi prompt compositi per l'addestramento RL. Esperimenti estensivi su dimensioni di modello da 4B a 30B mostrano che Composition-RL migliora costantemente la capacità di ragionamento rispetto all'RL addestrato sul dataset originale. Le prestazioni possono essere ulteriormente potenziate con una variante curriculare di Composition-RL che aumenta gradualmente la profondità compositiva durante l'addestramento. Inoltre, Composition-RL consente un RL cross-dominio più efficace componendo prompt provenienti da domini diversi. Codici, dataset e modelli sono disponibili su https://github.com/XinXU-USTC/Composition-RL.

DeepGen 1.0: Un Modello Multimodale Unificato Leggero per l'Avanzamento della Generazione e Modifica delle Immagini
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Feb 12

ByDianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang

Gli attuali modelli multimodali unificati per la generazione e modifica di immagini si basano tipicamente su scale parametriche massive (es. >10B), comportando costi di addestramento e impronte computazionali proibitivi. In questo lavoro presentiamo DeepGen 1.0, un modello unificato leggero da 5B parametri che raggiunge capacità competitive o superiori a controparti molto più grandi. Per superare i limiti dei modelli compatti nella comprensione semantica e nel controllo granulare, introduciamo Stacked Channel Bridging (SCB), un framework di allineamento profondo che estrae caratteristiche gerarchiche da multipli livelli del VLM e le fonde con "think token" apprendibili per fornire al backbone generativo una guida strutturata e ricca di ragionamento. Progettiamo inoltre una strategia di addestramento data-centrica articolata in tre stadi progressivi: (1) Pre-addestramento di allineamento su coppie immagine-testo e triplette di editing su larga scala per sincronizzare le rappresentazioni del VLM e del DiT, (2) Fine-tuning supervisionato congiunto su un misto di alta qualità di task di generazione, editing e ragionamento per sviluppare capacità omnicomprensive, e (3) Apprendimento per Rinforzo con MR-GRPO, che utilizza un insieme di funzioni di reward e segnali di supervisione, producendo miglioramenti sostanziali nella qualità generativa e nell'allineamento alle preferenze umane, mantenendo al contempo una progressione stabile dell'addestramento ed evitando artefatti visivi. Nonostante l'addestramento su soli ~50M di campioni, DeepGen 1.0 raggiunge prestazioni leader su benchmark diversificati, superando HunyuanImage da 80B del 28% su WISE e Qwen-Image-Edit da 27B del 37% su UniREditBench. Rendi

GigaBrain-0.5M: un VLA che apprende dall'Apprendimento per Rinforzo basato su Modelli del Mondo
GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning

Feb 12

ByGigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

I modelli visione-linguaggio-azione (VLA) che predicono direttamente blocchi di azioni multi-step dalle osservazioni correnti affrontano limitazioni intrinseche a causa di una comprensione della scena vincolata e di capacità di anticipazione futura deboli. Al contrario, i modelli mondiali video pre-addestrati su corpora video di scala web-esibiscono un ragionamento spazio-temporale robusto e una predizione futura accurata, rendendoli una base naturale per potenziare l'apprendimento VLA. Pertanto, proponiamo GigaBrain-0.5M*, un modello VLA addestrato tramite apprendimento per rinforzo basato su modello mondiale. Basato su GigaBrain-0.5, che è pre-addestrato su oltre 10.000 ore di dati di manipolazione robotica e la cui versione intermedia è attualmente al primo posto nel benchmark internazionale RoboChallenge, GigaBrain-0.5M* integra ulteriormente l'apprendimento per rinforzo basato su modello mondiale tramite RAMP (Reinforcement leArning via world Model-conditioned Policy) per abilitare un robusto adattamento cross-task. I risultati empirici dimostrano che RAMP ottiene sostanziali guadagni di prestazione rispetto al baseline RECAP, producendo miglioramenti di circa il 30% su task impegnativi come Laundry Folding, Box Packing e Espresso Preparation. In modo cruciale, GigaBrain-0.5M* mostra un'esecuzione affidabile su orizzonti lunghi, portando a termine con costanza compiti di manipolazione complessi senza fallimenti, come validato dai video di deployment nel mondo reale sulla nostra [pagina del progetto](https://gigabrain05m.github.io).

Apprendimento oltre l'Insegnante: Distillazione Generalizzata On-Policy con Estrapolazione della Ricompensa
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Feb 12

ByWenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin

La distillazione on-policy (OPD), che allinea lo studente con la distribuzione dei logit del teacher su traiettorie generate dallo studente, ha dimostrato significativi vantaggi empirici nel migliorare le prestazioni dello studente, superando spesso i paradigmi della distillazione off-policy e dell'apprendimento per rinforzo (RL). In questo lavoro, dimostriamo prima teoricamente che l'OPD è un caso speciale di RL con vincolo KL denso, in cui la funzione di ricompensa e la regolarizzazione KL sono sempre ponderate in modo uguale e il modello di riferimento può essere qualsiasi modello. Successivamente, proponiamo il framework di Distillazione On-Policy Generalizzata (G-OPD), che estende l'obiettivo OPD standard introducendo un modello di riferimento flessibile e un fattore di scala della ricompensa che controlla il peso relativo del termine di ricompensa rispetto alla regolarizzazione KL. Attraverso esperimenti completi su compiti di ragionamento matematico e generazione di codice, deriviamo due nuove intuizioni: (1) Impostare il fattore di scala della ricompensa maggiore di 1 (cioè, l'estrapolazione della ricompensa), che chiamiamo ExOPD, migliora costantemente rispetto all'OPD standard in una serie di accoppiamenti di dimensione teacher-studente. In particolare, nello scenario in cui uniamo la conoscenza di diversi esperti di dominio, ottenuta applicando RL specifico per dominio allo stesso modello studente, nuovamente nello studente originale, ExOPD consente allo studente di superare persino il confine prestazionale del teacher e di ottenere risultati migliori dei teacher di dominio. (2) Basandoci su ExOPD, scopriamo inoltre che, nello scenario di distillazione da forte a debole (cioè distillare uno studente più piccolo da un teacher più grande), effettuare una correzione della ricompensa scegliendo come modello di riferimento il modello base del teacher prima del RL fornisce un segnale di ricompensa più accurato e migliora ulteriormente le prestazioni della distillazione. Tuttavia, questa scelta presuppone l'accesso alla variante pre-RL del teacher e comporta un sovraccarico computazionale maggiore. Speriamo che il nostro lavoro offra nuove prospettive per la ricerca futura sull'OPD.

MOSS-Audio-Tokenizer: Scalabilità dei Tokenizzatori Audio per i Futuri Modelli Fondamentali dell'Audio
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Feb 11

ByYitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu

I tokenizzatori audio discreti sono fondamentali per dotare i grandi modelli linguistici di capacità native di elaborazione e generazione audio. Nonostante i recenti progressi, gli approcci esistenti spesso si basano su encoder preaddestrati, distillazione semantica o architetture eterogenee basate su CNN. Questi progetti introducono bias induttivi fissi che limitano la fedeltà di ricostruzione e ostacolano una scalabilità efficace. In questo articolo, sosteniamo che la tokenizzazione audio discreta dovrebbe essere appresa interamente end-to-end utilizzando un'architettura omogenea e scalabile. A tal fine, proponiamo innanzitutto CAT (Causal Audio Tokenizer with Transformer), un'architettura puramente basata su Transformer che ottimizza congiuntamente l'encoder, il quantizzatore e il decoder da zero per una ricostruzione ad alta fedeltà. Sviluppando l'architettura CAT, creiamo MOSS-Audio-Tokenizer, un tokenizzatore audio su larga scala caratterizzato da 1,6 miliardi di parametri, preaddestrato su 3 milioni di ore di dati audio generali e diversificati. Dimostriamo che questo semplice approccio completamente end-to-end, costruito con blocchi Transformer omogenei e causali, scala in modo elegante e supporta una ricostruzione ad alta fedeltà in diversi domini audio. In ambito vocale, sonoro e musicale, MOSS-Audio-Tokenizer supera costantemente i codec precedenti su un'ampia gamma di bitrate, mostrando al contempo miglioramenti prevedibili con l'aumento della scala. Degno di nota è che, sfruttando i token discreti del nostro modello, sviluppiamo il primo modello TTS puramente autoregressivo che supera i precedenti sistemi non autoregressivi e a cascata. Inoltre, MOSS-Audio-Tokenizer consente prestazioni ASR competitive senza encoder ausiliari. I nostri risultati posizionano l'architettura CAT come un'interfaccia unificata e scalabile per la prossima generazione di modelli fondazionali audio nativi.

NarraScore: Colmare il Divario tra Narrativa Visiva e Dinamiche Musicali tramite Controllo Affettivo Gerarchico
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Feb 9

ByYufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu

La sintesi di colonne sonore coerenti per video di lunga durata rimane una sfida formidabile, attualmente bloccata da tre impedimenti critici: scalabilità computazionale, coerenza temporale e, soprattutto, una pervasiva cecità semantica alla logica narrativa in evoluzione. Per colmare queste lacune, proponiamo NarraScore, un framework gerarchico basato sull'intuizione fondamentale che l'emozione funga da compressione ad alta densità della logica narrativa. In modo unico, riproponiamo modelli visione-linguaggio (VLM) congelati come sensori affettivi continui, distillando flussi visivi ad alta dimensionalità in traiettorie dense di Valenza-Attivazione consapevoli della narrazione. Meccanicamente, NarraScore impiega una strategia di Iniezione a Doppio Ramo per conciliare struttura globale e dinamismo locale: un'Ancora Semantica Globale garantisce stabilità stilistica, mentre un Adattatore Affettivo a Livello di Token modula la tensione locale tramite iniezione residua diretta elemento per elemento. Questo design minimalista evita i colli di bottiglia dell'attenzione densa e della clonazione architetturale, mitigando efficacemente i rischi di overfitting associati alla scarsità di dati. Gli esperimenti dimostrano che NarraScore raggiunge uno stato dell'arte in coerenza e allineamento narrativo con un overhead computazionale trascurabile, stabilendo un paradigma completamente autonomo per la generazione di colonne sonore per video lunghi.

LawThinker: Un Agente Legale di Approfondimento in Ambienti Dinamici
LawThinker: A Deep Research Legal Agent in Dynamic Environments

Feb 12

ByXinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou

Il ragionamento giuridico richiede non solo esiti corretti, ma anche processi argomentativi proceduralmente conformi. Tuttavia, i metodi esistenti mancano di meccanismi per verificare i passaggi intermedi del ragionamento, consentendo a errori come citazioni normative inapplicabili di propagarsi inosservati attraverso la catena argomentativa. Per ovviare a ciò, proponiamo LawThinker, un agente autonomo di ricerca giuridica che adotta una strategia Esplora-Verifica-Memorizza per ambienti giudiziari dinamici. L'idea centrale è imporre la verifica come operazione atomica dopo ogni fase di esplorazione della conoscenza. Un modulo DeepVerifier esamina ogni risultato di recupero lungo tre dimensioni: accuratezza della conoscenza, rilevanza fatto-norma e conformità procedurale, con un modulo di memoria per il riutilizzo transazionale della conoscenza in compiti a lungo termine. Gli esperimenti sul benchmark dinamico J1-EVAL mostrano che LawThinker ottiene un miglioramento del 24% rispetto al ragionamento diretto e un guadagno dell'11% rispetto ai metodi basati su workflow, con progressi particolarmente significativi sulle metriche orientate al processo. Le valutazioni su tre benchmark statici ne confermano ulteriormente la capacità di generalizzazione. Il codice è disponibile all'indirizzo https://github.com/yxy-919/LawThinker-agent.

Pensare con la Bozza: Decompressione Ottica tramite Ricostruzione Logica
Thinking with Drafting: Optical Decompression via Logical Reconstruction

Feb 12

ByJingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan

I modelli linguistici multimodali di grandi dimensioni esistenti hanno ottenuto una percezione visiva ad alta fedeltà e una generazione visiva esplorativa. Tuttavia, persiste un paradosso di precisione nei compiti di ragionamento complesso: i sistemi di percezione ottica trascrivono simboli senza catturare la topologia logica, mentre i modelli generativi basati su pixel producono artefatti visivi privi di esattezza matematica. Per colmare questa lacuna, proponiamo di riconcettualizzare il ragionamento su input visivi come decompressione ottica – il processo di ricostruzione di strutture logiche latenti da token visivi compressi. Guidati dall'assioma che l'Analisi è Ragionamento, introduciamo Pensare con la Bozza (Thinking with Drafting - TwD), che utilizza un linguaggio di dominio specifico (DSL) minimalista come rappresentazione intermedia di ancoraggio. A differenza degli approcci standard che allucinano risposte direttamente, TwD costringe il modello a tradurre il proprio modello mentale in codice eseguibile, producendo prove visive deterministiche per l'auto-verifica. Per validare ciò, presentiamo VisAlg, un benchmark di algebra visiva. Gli esperimenti dimostrano che TwD funge da impalcatura cognitiva superiore. Il nostro lavoro stabilisce un sistema a ciclo chiuso in cui la generazione visiva agisce non come output creativo ma come verificatore logico, offrendo un percorso generalizzabile per il ragionamento visivo.

Pensa Più a Lungo per Esplorare Più a Fondo: Imparare a Esplorare In-Contesto Tramite Apprendimento per Rinforzo con Incentivazione della Lunghezza
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Feb 12

ByFuting Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin

Il raggiungimento di un ridimensionamento efficace al momento del test richiede che i modelli si impegnino in un'Esplorazione Contestuale – l'abilità intrinseca di generare, verificare e affinare molteplici ipotesi di ragionamento all'interno di un singolo contesto continuo. Basandoci sulla teoria della Copertura degli Stati, la nostra analisi identifica un collo di bottiglia critico per abilitare questa capacità: sebbene una copertura più ampia degli stati richieda traiettorie di ragionamento più lunghe, la probabilità di campionare tali sequenze decade esponenzialmente durante la generazione autoregressiva, un fenomeno che definiamo "Trappola dell'Esplorazione Superficiale". Per colmare questa lacuna, proponiamo l'Esplorazione con Incentivazione della Lunghezza (\method). Questa ricetta semplice ma efficace incoraggia esplicitamente i modelli a esplorare di più attraverso una ricompensa basata sulla lunghezza abbinata a una penalità per ridondanza, massimizzando così la copertura degli stati in un processo a due fasi. Esperimenti completi su diversi modelli (Qwen3, Llama) dimostrano che \method incentiva efficacemente l'esplorazione contestuale. Di conseguenza, il nostro metodo ottiene un miglioramento medio del 4,4% sui task in-dominio e un guadagno del 2,7% sui benchmark out-of-domain.

RISE: Politica Robotica Auto-Migliorante con Modello del Mondo Composizionale
RISE: Self-Improving Robot Policy with Compositional World Model

Feb 11

ByJiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li

Nonostante il continuo aumento della capacità dei modelli e dell'acquisizione di dati, i modelli Visione-Linguaggio-Azione (VLA) rimangono fragili nei compiti di manipolazione ricchi di contatto e dinamici, dove piccole deviazioni nell'esecuzione possono accumularsi portando a fallimenti. Sebbene l'apprendimento per rinforzo (RL) offra un percorso metodologico verso la robustezza, il RL on-policy nel mondo fisico è limitato dai rischi per la sicurezza, dai costi hardware e dalla necessità di resettare l'ambiente. Per colmare questa lacuna, presentiamo RISE, un framework scalabile per l'apprendimento per rinforzo robotico tramite immaginazione. Il suo nucleo è un Modello di Mondo Composizionale che (i) predice scenari futuri multi-prospettiva attraverso un modello di dinamica controllabile, e (ii) valuta gli esiti immaginati con un modello di valore del progresso, producendo vantaggi informativi per il miglioramento della policy. Questo design composizionale permette di adattare lo stato e il valore con architetture e obiettivi distinti ma più adatti. Questi componenti sono integrati in una pipeline di auto-miglioramento a ciclo chiuso che genera continuamente rollout immaginari, stima i vantaggi e aggiorna la policy nello spazio immaginario senza costose interazioni fisiche. In tre impegnativi compiti del mondo reale, RISE produce un miglioramento significativo rispetto allo stato dell'arte, con un aumento assoluto delle prestazioni di oltre il +35% nell'ordinamento dinamico di mattoncini, +45% per il riempimento di uno zaino e +35% per la chiusura di scatole, rispettivamente.

Colpo di Scena: Illusioni Semantiche Progressive nel Disegno Vettoriale
Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

Feb 12

ByHuai-Hsun Cheng, Siang-Ling Zhang, Yu-Lun Liu

Le illusioni visive tradizionalmente si basano su manipolazioni spaziali come la coerenza multi-prospettica. In questo lavoro, introduciamo le Illusioni Semantiche Progressive, un innovativo compito di disegno vettoriale in cui un singolo schizzo subisce una drammatica trasformazione semantica attraverso l'aggiunta sequenziale di tratti. Presentiamo Stroke of Surprise, un framework generativo che ottimizza i tratti vettoriali per soddisfare distinte interpretazioni semantiche in diverse fasi del disegno. La sfida principale risiede nel "vincolo duale": i tratti iniziali del prefisso devono formare un oggetto coerente (ad esempio, un'anatra) mentre servono simultaneamente come fondamento strutturale per un secondo concetto (ad esempio, una pecora) con l'aggiunta di tratti delta. Per affrontare ciò, proponiamo un framework di ottimizzazione congiunta sequence-aware guidato da un meccanismo dual-branch di Score Distillation Sampling (SDS). A differenza degli approcci sequenziali che congelano lo stato iniziale, il nostro metodo modifica dinamicamente i tratti del prefisso per scoprire un "sottospazio strutturale comune" valido per entrambi i target. Inoltre, introduciamo una novella Overlay Loss che impone complementarità spaziale, garantendo integrazione strutturale anziché occlusione. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente i baseline state-of-the-art in riconoscibilità e forza illusoria, espandendo con successo gli anagrammi visivi dalla dimensione spaziale a quella temporale. Pagina del progetto: https://stroke-of-surprise.github.io/

χ₀: Manipolazione Robusta Consapevole delle Risorse tramite l'Addomesticamento delle Incoerenze Distribuzionali
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

Feb 9

ByChecheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan

La manipolazione robotica affidabile a lungo termine ha tradizionalmente fatto affidamento su dati e potenza di calcolo su larga scala per comprendere le dinamiche complesse del mondo reale. Tuttavia, identifichiamo che il collo di bottiglia principale per la robustezza nel mondo reale non è solo la scala delle risorse, ma lo spostamento distributivo tra la distribuzione delle dimostrazioni umane, il bias induttivo appreso dalla policy e la distribuzione di esecuzione durante il test – un'incongruenza sistematica che causa errori cumulativi in compiti multi-stadio. Per mitigare queste incongruenze, proponiamo χ₀, un framework efficiente dal punto di vista delle risorse con moduli efficaci progettati per ottenere una robustezza a livello produttivo nella manipolazione robotica. Il nostro approccio si basa su tre pilastri tecnici: (i) Model Arithmetic, una strategia di fusione nello spazio dei pesi che assimila efficientemente distribuzioni diverse delle varie dimostrazioni, che variano dall'aspetto dell'oggetto alle variazioni di stato; (ii) Stage Advantage, un estimatore del vantaggio consapevole dello stadio che fornisce segnali di progresso stabili e densi, superando l'instabilità numerica dei precedenti approcci non stadiali; e (iii) Train-Deploy Alignment, che colma il divario distributivo tramite aumentazione spaziotemporale, correzioni euristiche DAgger e livellamento temporale a blocchi. χ₀ consente a due set di robot a doppio braccio di orchestrare collaborativamente la manipuzione di capi d'abbigliamento a lungo termine, coprendo compiti dalla distensione, piegatura, all'appeso di diversi indumenti. Il nostro metodo mostra un'elevata affidabilità autonoma; siamo in grado di eseguire il sistema partendo da uno stato iniziale arbitrario per 24 ore consecutive senza interruzioni. Gli esperimenti convalidano che χ₀ supera lo stato dell'arte π₀.₅ nel tasso di successo di quasi il 250%, utilizzando solo 20 ore di dati e 8 GPU A100. Codice, dati e modelli saranno rilasciati per favorire la comunità.

EgoHumanoid: Sbloccare la Loco-Manipolazione in Ambiente Reale con Dimostrazioni Egocentriche Senza Robot
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Feb 10

ByModi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen

Le dimostrazioni umane offrono un'ampia diversità ambientale e si scalano naturalmente, rappresentando un'alternativa attraente alla teleoperazione robotica. Sebbene questo paradigma abbia fatto progredire la manipolazione con bracci robotici, il suo potenziale per il problema più impegnativo e avido di dati della loco-manipolazione umanoide rimane in gran parte inesplorato. Presentiamo EgoHumanoid, il primo framework in grado di addestrare congiuntamente una politica visione-linguaggio-azione utilizzando abbondanti dimostrazioni umane egocentriche insieme a una quantità limitata di dati robotici, consentendo agli umanoidi di eseguire loco-manipolazione in vari ambienti del mondo reale. Per colmare il divario di embodiment tra umani e robot, incluse le discrepanze nella morfologia fisica e nel punto di vista, introduciamo una pipeline di allineamento sistematica che spazia dalla progettazione hardware all'elaborazione dei dati. Viene sviluppato un sistema portatile per la raccolta scalabile di dati umani e stabiliamo protocolli di raccolta pratici per migliorare la trasferibilità. Al centro della nostra pipeline di allineamento da umano a umanoide risiedono due componenti chiave. L'allineamento visivo riduce le discrepanze di dominio visivo causate dall'altezza della telecamera e dalla variazione prospettica. L'allineamento d'azione mappa i movimenti umani in uno spazio d'azione unificato e cinematicamente fattibile per il controllo umanoide. Esperimenti estensivi nel mondo reale dimostrano che l'incorporazione di dati egocentrici senza robot supera significativamente i baseline solo-robot del 51%, particolarmente in ambienti non visti. La nostra analisi rivela inoltre quali comportamenti si trasferiscono efficacemente e il potenziale di scalabilità dei dati umani.

dVoting: Voto Rapido per dLLM
dVoting: Fast Voting for dLLMs

Feb 12

BySicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

I Modelli Linguistici di Grande Dimensione a Diffusione (dLLM) rappresentano un nuovo paradigma che supera la modellazione autoregressiva, offrendo prestazioni competitive e abilitando naturalmente un processo di decodifica flessibile. Nello specifico, i dLLM possono generare token in posizioni arbitrarie in parallelo, dotandoli di un potenziale significativo per lo scaling parallelo al tempo di test, precedentemente limitato dalla grave inefficienza della modellazione autoregressiva. In questo lavoro, introduciamo dVoting, una tecnica di voto rapida che potenzia la capacità di ragionamento senza addestramento, con solo un sovraccarico computazionale aggiuntivo accettabile. dVoting è motivato dall'osservazione che, attraverso più campioni per lo stesso prompt, le previsioni dei token rimangono largamente consistenti, mentre le prestazioni sono determinate da un piccolo sottoinsieme di token che mostra variabilità cross-campione. Sfruttando la capacità di generazione in posizione arbitraria dei dLLM, dVoting esegue un raffinamento iterativo campionando, identificando i token incerti tramite analisi di consistenza, rigenerandoli attraverso il voto e ripetendo il processo fino alla convergenza. Valutazioni estensive dimostrano che dVoting migliora costantemente le prestazioni su vari benchmark. Ottiene guadagni del 6,22%-7,66% su GSM8K, del 4,40%-7,20% su MATH500, del 3,16%-14,84% su ARC-C e del 4,83%-5,74% su MMLU. Il nostro codice è disponibile all'indirizzo https://github.com/fscdc/dVoting

Voxtral in Tempo Reale
Voxtral Realtime

Feb 11

ByAlexander H. Liu, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Sandeep Subramanian, Soham Ghosh, Srijan Mishra, Abhinav Rastogi, Alan Jeffares, Albert Jiang, Alexandre Sablayrolles, Amélie Héliou, Andrew Bai, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Benjamin Tibi, Clémence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Enguerrand Paquin, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Martin, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Indraneel Mukherjee, Irene Zhang, Jaeyoung Kim, Jan Ludziejewski, Jason Rute, Joachim Studnia, John Harvill, Jonas Amar, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Laurence Aitchison, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Piotr Miłoś, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Sagar Vaze, Samuel Humeau, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Valeriia Nemychnikova, Van Phung, Vedant Nanda, Victor Jouault, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yihan Wang, Zaccharie Ramzi, Zhenlin Xu

Presentiamo Voxtral Realtime, un modello di riconoscimento vocale automatico nativamente in streaming che raggiunge la qualità della trascrizione offline con una latenza inferiore al secondo. A differenza degli approcci che adattano modelli offline tramite segmentazione o finestre scorrevoli, Voxtral Realtime è addestrato end-to-end per lo streaming, con un allineamento esplicito tra i flussi audio e testo. La nostra architettura si basa sul framework Delayed Streams Modeling, introducendo un nuovo codificatore audio causale e Ada RMS-Norm per un miglior condizionamento del ritardo. Scaliamo il pre-addestramento su un dataset su larga scala che copre 13 lingue. Con un ritardo di 480ms, Voxtral Realtime raggiunge prestazioni pari a quelle di Whisper, il sistema di trascrizione offline più diffuso. Rilasciamo i pesi del modello con licenza Apache 2.0.

La generazione video sparsa favorisce la navigazione visione-linguaggio oltre il campo visivo nel mondo reale
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Feb 5

ByHai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li

Perché la navigazione visione-linguaggio deve essere vincolata a istruzioni linguistiche dettagliate e verbose? Sebbene tali dettagli facilitino il processo decisionale, contraddicono fondamentalmente l'obiettivo della navigazione nel mondo reale. Idealmente, gli agenti dovrebbero possedere l'autonomia di navigare in ambienti sconosciuti guidati unicamente da intenzioni semplici e di alto livello. Realizzare questa ambizione introduce una sfida formidabile: la Navigazione Oltre la Vista (Beyond-the-View Navigation, BVN), in cui gli agenti devono localizzare target distanti e non visibili senza una guida densa e passo-passo. I metodi esistenti basati su grandi modelli linguistici (LLM), sebbene abili nel seguire istruzioni dense, spesso soffrono di comportamenti miopi a causa della loro dipendenza da una supervisione a breve orizzonte. Tuttavia, estendere semplicemente l'orizzonte di supervisione destabilizza l'addestramento degli LLM. In questo lavoro, identifichiamo come i modelli di generazione video traggano intrinsecamente beneficio da una supervisione a lungo orizzonte per allinearsi alle istruzioni linguistiche, rendendoli particolarmente adatti per i compiti di BVN. Sfruttando questa intuizione, proponiamo di introdurre per la prima volta il modello di generazione video in questo campo. Tuttavia, la latenza proibitiva per generare video della durata di decine di secondi rende impraticabile un dispiegamento nel mondo reale. Per colmare questa lacuna, proponiamo SparseVideoNav, che raggiunge un'inferenza di traiettoria in meno di un secondo guidata da un futuro sparso generato che copre un orizzonte di 20 secondi. Ciò si traduce in un notevole aumento di velocità di 27 volte rispetto alla controparte non ottimizzata. Esperimenti zero-shot estensivi nel mondo reale dimostrano che SparseVideoNav raggiunge un tasso di successo 2,5 volte superiore rispetto ai migliori baseline basati su LLM nei compiti di BVN e segna la prima realizzazione di tale capacità in scenari notturni impegnativi.

DeepSight: Un Toolkit Completo per la Sicurezza dei Modelli Linguistici
DeepSight: An All-in-One LM Safety Toolkit

Feb 12

ByBo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu

Con il rapido progresso dei modelli di grandi dimensioni (LM), la loro sicurezza è diventata una priorità assoluta. Nell’attuale flusso di lavoro per la sicurezza dei Large Language Model (LLM) e dei Multimodal Large Language Model (MLLM), valutazione, diagnosi e allineamento sono spesso gestiti da strumenti separati. Nello specifico, la valutazione della sicurezza può solo individuare rischi comportamentali esterni, ma non è in grado di identificare le cause profonde interne. Allo stesso tempo, la diagnosi di sicurezza spesso si discosta da scenari di rischio concreti e rimane a un livello puramente esplicativo. In questo modo, l’allineamento della sicurezza manca di spiegazioni dettagliate sui cambiamenti nei meccanismi interni, rischiando di compromettere le capacità generali del modello. Per affrontare sistematicamente queste problematiche, proponiamo un progetto open-source, denominato DeepSight, per implementare un nuovo paradigma integrato di valutazione e diagnosi della sicurezza. DeepSight è un progetto di valutazione della sicurezza per modelli di grandi dimensioni a basso costo, riproducibile, efficiente e altamente scalabile, composto da uno strumento di valutazione (DeepSafe) e uno di diagnosi (DeepScan). Unificando protocolli di attività e dati, stabiliamo una connessione tra le due fasi e trasformiamo la valutazione della sicurezza da un’analisi in black-box a una in white-box. Inoltre, DeepSight è il primo toolkit open-source a supportare la valutazione dei rischi dell’IA di frontiera e l’integrazione tra valutazione e diagnosi della sicurezza.

Adattamento di Modelli Visione-Linguaggio per la Comprensione dell'E-Commerce su Larga Scala
Adapting Vision-Language Models for E-commerce Understanding at Scale

Feb 12

ByMatteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi

La comprensione dei prodotti nell'e-commerce richiede per sua natura una forte capacità di comprensione multimodale da testo, immagini e attributi strutturati. I modelli visione-linguaggio (VLM) generici consentono una modellizzazione latente multimodale generalizzabile, ma non esiste una strategia documentata e consolidata per adattarli alla natura centrata sugli attributi, multi-immagine e rumorosa dei dati e-commerce, senza sacrificare le prestazioni generali. In questo lavoro, dimostriamo attraverso uno studio sperimentale su larga scala come un adattamento mirato dei VLM generici possa migliorare sostanzialmente le prestazioni nell'e-commerce preservando al contempo ampie capacità multimodali. Inoltre, proponiamo una nuova suite di valutazione estensiva che copre la comprensione approfondita del prodotto, il rigoroso rispetto delle istruzioni e l'estrazione dinamica degli attributi.

Gaia2: Valutazione degli Agenti LLM in Ambienti Dinamici e Asincroni
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Feb 12

ByRomain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom

Introduciamo Gaia2, un benchmark per valutare gli agenti basati su grandi modelli linguistici in ambienti realistici e asincroni. A differenza delle valutazioni precedenti, statiche o sincrone, Gaia2 introduce scenari in cui gli ambienti evolvono indipendentemente dalle azioni dell'agente, richiedendo a quest'ultimo di operare sotto vincoli temporali, adattarsi a eventi rumorosi e dinamici, risolvere ambiguità e collaborare con altri agenti. Ogni scenario è associato a un verificatore di azioni di scrittura, consentendo una valutazione granulare a livello di azione e rendendo Gaia2 direttamente utilizzabile per l'apprendimento per rinforzo basato su ricompense verificabili. La nostra valutazione dei modelli proprietari e open-source più all'avanguardia mostra che nessun modello domina in tutte le capacità: GPT-5 (high) raggiunge il punteggio complessivo più alto del 42% pass@1 ma fallisce nei task sensibili al tempo, Claude-4 Sonnet sacrifica precisione e velocità per il costo, mentre Kimi-K2 guida la classifica dei modelli open-source con il 21% pass@1. Questi risultati evidenziano compromessi fondamentali tra ragionamento, efficienza, robustezza e mettono in luce le sfide nel colmare il divario "sim2real". Gaia2 è costruito su un ambiente consumer con la piattaforma open-source Agents Research Environments ed è progettato per essere facilmente estendibile. Rilasciando Gaia2 insieme al framework fondamentale ARE, miriamo a fornire alla comunità un'infrastruttura flessibile per sviluppare, valutare e addestrare la prossima generazione di sistemi agentici pratici.

PISCO: Inserimento Precise di Istanze Video con Controllo Sparso
PISCO: Precise Video Instance Insertion with Sparse Control

Feb 9

ByXiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu

Il panorama della generazione video basata sull'intelligenza artificiale sta attraversando una svolta cruciale: si sta evolvendo oltre la generazione generica - che si affida a un'estesa ingegneria dei prompt e a una "selezione accurata" - verso una generazione granulare e controllabile, unita a un post-processing di alta fedeltà. Nell'ambito della produzione cinematografica professionale assistita dall'IA, è fondamentale poter effettuare modifiche precise e mirate. Un pilastro di questa transizione è l'inserimento di istanze video, che richiede l'inserimento di un oggetto specifico in un filmato esistente preservando l'integrità della scena. A differenza del video editing tradizionale, questo compito richiede diversi requisiti: un posizionamento spazio-temporale preciso, un'interazione con la scena fisicamente coerente e la preservazione fedele delle dinamiche originali, il tutto ottenuto con uno sforzo minimo da parte dell'utente. In questo articolo, proponiamo PISCO, un modello di diffusione video per l'inserimento preciso di istanze con controllo arbitrario tramite keyframe sparsi. PISCO consente agli utenti di specificare un singolo keyframe, keyframe di inizio e fine, o keyframe sparsi in timestamp arbitrari, propagando automaticamente l'aspetto dell'oggetto, il suo movimento e l'interazione. Per affrontare il grave spostamento di distribuzione indotto dal condizionamento sparso nei modelli di diffusione video pre-addestrati, introduciamo la Variable-Information Guidance per un condizionamento robusto e il Distribution-Preserving Temporal Masking per stabilizzare la generazione temporale, insieme a un condizionamento geometricamente consapevole per un adattamento realistico alla scena. Costruiamo inoltre PISCO-Bench, un benchmark con annotazioni di istanze verificate e video di sfondo puliti accoppiati, e valutiamo le prestazioni utilizzando metriche percettive sia basate su riferimento che senza riferimento. Gli esperimenti dimostrano che PISCO supera costantemente i baseline strong di inpaintin e video editing sotto controllo sparso, e mostra miglioramenti prestazionali chiari e monotoni man mano che vengono forniti segnali di controllo aggiuntivi. Pagina del progetto: xiangbogaobarry.github.io/PISCO.

Svelare la Simmetria del Vantaggio Implicito: Perché il GRPO Fatica con l'Esplorazione e l'Adattamento alla Difficoltà
Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

Feb 5

ByZhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR), in particolare GRPO, è diventato lo standard per elicitare il ragionamento nei LLM. Tuttavia, la sua efficienza nell'esplorazione e nell'adattamento alla difficoltà rimane una sfida aperta. In questo lavoro, sosteniamo che questi colli di bottiglia derivino da una simmetria implicita del vantaggio intrinseca nella Stima del Vantaggio Relativo di Gruppo (GRAE). Questa simmetria induce due limitazioni critiche: (i) a livello di gruppo, la rigida simmetria nei pesi tra traiettorie corrette e scorrette lascia invariati i logit delle azioni non campionate, ostacolando così l'esplorazione di nuove soluzioni corrette. (ii) a livello del campione, l'algoritmo dà priorità implicitamente a campioni di media difficoltà, rimanendo agnostico rispetto alle richieste non stazionarie di focalizzazione sulla difficoltà. Attraverso esperimenti controllati, riveliamo che questa proprietà simmetrica è sub-ottimale, producendo due intuizioni fondamentali: (i) sopprimere asimmetricamente i vantaggi delle traiettorie corrette incoraggia un'esplorazione essenziale. (ii) l'efficienza di apprendimento è massimizzata da una transizione simile a un curriculum che dà priorità inizialmente a campioni più semplici, per spostarsi gradualmente verso quelli complessi. Motivati da questi risultati, proponiamo GRAE Asimmetrico (A-GRAE), che modula dinamicamente gli incentivi all'esplorazione e la focalizzazione sulla difficoltà del campione. Esperimenti su sette benchmark dimostrano che A-GRAE migliora costantemente GRPO e le sue varianti sia per i LLM che per i MLLM.

ThinkRouter: Ragionamento Efficiente tramite Instradamento del Pensiero tra Spazi Latenti e Discreti
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

Feb 12

ByXin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley, Saayan Mitra

I lavori recenti esplorano il ragionamento latente per migliorare l'efficienza del ragionamento sostituendo le traiettorie di ragionamento esplicito con rappresentazioni continue in uno spazio latente, sebbene la sua efficacia vari a seconda dei contesti. L'analisi delle dinamiche di confidenza del modello sotto ragionamento latente rivela che le traiettorie di pensiero che terminano con risposte errate contengono meno passaggi a bassa confidenza rispetto a quelle che terminano con risposte corrette. Nel frattempo, suggeriamo che gli embedding soft aggregati da molteplici alternative di pensiero a bassa confidenza possano introdurre e propagare rumore, portando a un'elevata confidenza in traiettorie di ragionamento inaffidabili. Motivati da queste osservazioni, viene proposto ThinkRouter, un meccanismo di routing consapevole della confidenza al momento dell'inferenza, per evitare un'elevata confidenza e il rumore per un ragionamento efficiente. ThinkRouter instrada il pensiero verso lo spazio discreto dei token quando la confidenza del modello è bassa, e verso lo spazio latente altrimenti. Esperimenti estesi su benchmark di ragionamento STEM e di coding attraverso vari modelli di ragionamento di grandi dimensioni dimostrano che ThinkRouter supera le baseline di CoT esplicito, routing casuale e ragionamento latente in termini di accuratezza, raggiungendo un miglioramento medio di 19,70 punti in Pass@1, riducendo contemporaneamente la lunghezza della generazione fino al 15,55%. Un'ulteriore analisi completa rivela che ThinkRouter può calibrare gli errori derivanti dal CoT esplicito e dal ragionamento latente e accelera la generazione del token di fine pensiero abbassando globalmente la confidenza del modello.

T3D: Modelli Linguistici di Diffusione a Pochi Passi tramite Auto-Distillazione della Traiettoria con Ottimizzazione Diretta Discriminativa
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Feb 12

ByTunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas

I modelli linguistici di diffusione (DLLM) hanno il potenziale di abilitare una generazione di testo rapida decodificando più token in parallelo. Tuttavia, nella pratica, la loro efficienza inferenziale è limitata dalla necessità di molti passi di raffinamento, mentre una riduzione aggressiva del numero di passi comporta un degrado sostanziale della qualità della generazione. Per mitigare questo problema, proponiamo un framework di auto-distillazione della traiettoria che migliora la decodifica con pochi passi distillando le traiettorie generative del modello stesso. Incorporiamo l'Ottimizzazione Discriminativa Diretta (DDO), un obiettivo di divergenza KL inversa che promuove una distillazione modale e incoraggia lo studente a concentrarsi sui modi ad alta probabilità del docente. Su diversi benchmark, il nostro approccio supera costantemente baseline forti con pochi passi e l'addestramento standard con budget di passi ristretti. Sebbene la decodifica a passi completi rimanga superiore, riduciamo sostanzialmente il divario, stabilendo una solida base verso DLLM pratici con pochi passi. Il codice sorgente è disponibile all'indirizzo https://github.com/Tyrion58/T3D.

Le ampiezze ad albero del gluone a singolo meno sono diverse da zero.
Single-minus gluon tree amplitudes are nonzero

Feb 12

ByAlfredo Guevara, Alexandru Lupsasca, David Skinner, Andrew Strominger, Kevin Weil

Le ampiezze di scattering a livello ad albero con singola elicità negativa per n gluoni vengono riesaminate. Sebbene spesso si presumano nulle, qui si dimostra che non si annullano per alcune configurazioni "semicollineari" esistenti nello spazio di Klein o per impulsi complessificati. Deriviamo un'espressione chiusa a tratti costanti per il decadimento di un gluone con elicità negativa in n-1 gluoni con elicità positiva in funzione dei loro impulsi. Questa formula soddisfa in modo non banale molteplici condizioni di consistenza, incluso il teorema di Weinberg per le particelle molli.

MemFly: Ottimizzazione della Memoria On-the-Fly tramite Collo di Bottiglia Informativo
MemFly: On-the-Fly Memory Optimization via Information Bottleneck

Feb 8

ByZhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue, Sirui Han, Yike Guo

La memoria a lungo termine consente agli agenti basati su grandi modelli linguistici di affrontare compiti complessi attraverso interazioni storiche. Tuttavia, i framework esistenti incontrano un dilemma fondamentale tra la compressione efficiente delle informazioni ridondanti e il mantenimento di un recupero preciso per i task downstream. Per colmare questa lacuna, proponiamo MemFly, un framework basato sui principi del collo di bottiglia informativo che facilita l'evoluzione dinamica della memoria per i LLM. Il nostro approccio minimizza l'entropia di compressione mentre massimizza l'entropia di rilevanza tramite un ottimizzatore senza gradienti, costruendo una struttura di memoria stratificata per una memorizzazione efficiente. Per sfruttare appieno MemFly, sviluppiamo un meccanismo di recupero ibrido che integra perfettamente percorsi semantici, simbolici e topologici, incorporando un raffinamento iterativo per gestire query complesse multi-hop. Esperimenti completi dimostrano che MemFly supera sostanzialmente i baseline state-of-the-art in coerenza della memoria, fedeltà delle risposte e accuratezza.

MiniCPM-SALA: Ibridazione dell'Attenzione Sparsa e Lineare per una Modellizzazione Efficiente di Contesti Lunghi
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Feb 12

ByMiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

L'evoluzione dei grandi modelli linguistici (LLM) verso applicazioni con contesti ultra-lunghi affronta le sfide poste dagli elevati costi computazionali e di memoria dell'architettura Transformer. Sebbene i meccanismi di attenzione sparsa e lineare esistenti tentino di mitigare questi problemi, comportano tipicamente un compromesso tra efficienza della memoria e prestazioni del modello. Questo articolo introduce MiniCPM-SALA, un'architettura ibrida da 9 miliardi di parametri che integra la modellazione fedele del contesto lungo dell'attenzione sparsa (InfLLM-V2) con l'efficienza globale dell'attenzione lineare (Lightning Attention). Impiegando un algoritmo di selezione degli strati per integrare questi meccanismi in un rapporto 1:3 e utilizzando una codifica posizionale ibrida (HyPE), il modello mantiene efficienza e prestazioni per compiti con contesti lunghi. Inoltre, introduciamo un framework di addestramento continuo economicamente vantaggioso che trasforma modelli pre-addestrati basati su Transformer in modelli ibridi, riducendo i costi di addestramento di circa il 75% rispetto all'addestramento da zero. Esperimenti estensivi dimostrano che MiniCPM-SALA mantiene capacità generali paragonabili ai modelli con attenzione completa, offrendo al contempo un'efficienza migliorata. Su una singola GPU NVIDIA A6000D, il modello raggiunge una velocità di inferenza fino a 3,5 volte superiore a quella del modello con attenzione completa per sequenze lunghe 256K token e supporta lunghezze di contesto fino a 1 milione di token, una scala in cui i tradizionali modelli da 8B con attenzione completa falliscono a causa dei vincoli di memoria.

Sognare in Codice per l'Apprendimento Curricolare in Mondi Aperti
Dreaming in Code for Curriculum Learning in Open-Ended Worlds

Feb 9

ByKonstantinos Mitsides, Maxence Faldor, Antoine Cully

L'apprendimento aperto concepisce l'intelligenza come emergente dall'interazione continua con uno spazio in continua espansione di ambienti. Sebbene i recenti progressi abbiano utilizzato modelli di base per generare programmaticamente ambienti diversificati, questi approcci spesso si concentrano sulla scoperta di comportamenti isolati piuttosto che sull'orchestrazione di una progressione sostenuta. In mondi aperti complessi, il vasto spazio combinatorio di possibili sfide rende difficile per gli agenti scoprire sequenze di esperienze che rimangano costantemente apprendibili. Per affrontare questo problema, proponiamo Dreaming in Code (DiCode), un framework in cui i modelli di base sintetizzano codice eseguibile dell'ambiente per impalcare l'apprendimento verso una competenza crescente. In DiCode, il "sognare" assume la forma di materializzare variazioni a livello di codice del mondo. Istanziamo DiCode in Craftax, un benchmark aperto e impegnativo caratterizzato da meccaniche ricche e progressione a lungo termine. Empiricamente, DiCode consente agli agenti di acquisire abilità a lungo termine, ottenendo un miglioramento del 16% nella media dei ritorni rispetto al baseline più forte e un successo non nullo nelle attività di combattimento tardive in cui i metodi precedenti falliscono. I nostri risultati suggeriscono che la progettazione di ambienti a livello di codice fornisce un meccanismo pratico per il controllo del curriculum, consentendo la costruzione di ambienti intermedi che colmano i divari di competenza nei mondi aperti. La pagina del progetto e il codice sorgente sono disponibili su https://konstantinosmitsides.github.io/dreaming-in-code e https://github.com/konstantinosmitsides/dreaming-in-code.

Pre-addestramento di un Grande Modello Linguistico mediante GPU Distribuite: un Paradigma Decentralizzato Efficiente in Termini di Memoria
Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Feb 12

ByJinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang

L'addestramento preliminare di grandi modelli linguistici (LLM) richiede tipicamente cluster centralizzati con migliaia di GPU ad alta memoria (ad esempio, H100/A100). I metodi recenti di addestramento decentralizzato riducono il sovraccarico comunicativo impiegando ottimizzazione federata; tuttavia, essi necessitano ancora di addestrare l'intero modello su ciascun nodo, rimanendo vincolati dai limiti di memoria delle GPU. In questo lavoro, proponiamo SPES (SParse Expert Synchronization), un framework decentralizzato efficiente in memoria per l'addestramento preliminare di LLM a miscela di esperti (MoE). SPES addestra solo un sottoinsieme di esperti per nodo, riducendo sostanzialmente l'impronta di memoria. Ciascun nodo aggiorna i propri esperti locali e si sincronizza periodicamente con altri nodi, eliminando la trasmissione dei parametri completi mentre garantisce una condivisione efficiente della conoscenza. Per accelerare la convergenza, introduciamo una strategia di riscaldamento mediante fusione di esperti, in cui gli esperti scambiano conoscenza nelle fasi iniziali dell'addestramento, per stabilire rapidamente capacità fondamentali. Con SPES, abbiamo addestrato un LLM MoE da 2 miliardi di parametri utilizzando 16 GPU standalone da 48GB su connessioni internet, raggiungendo prestazioni competitive con LLM addestrati centralmente con budget computazionali simili. Dimostriamo ulteriormente la scalabilità addestrando un modello da 7B da zero e un modello da 9B ricavato da un checkpoint denso, entrambi in linea con i precedenti benchmark centralizzati. Il nostro codice è disponibile all'indirizzo https://github.com/zjr2000/SPES.

MolmoSpaces: Un ecosistema aperto su larga scala per la navigazione e la manipolazione robotica
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Feb 11

ByYejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna

La distribuzione su larga scala di robot richiede robustezza rispetto alla lunga coda di situazioni quotidiane. Le innumerevoli variazioni nella disposizione della scena, nella geometria degli oggetti e nelle specifiche dei compiti che caratterizzano gli ambienti reali sono vaste e sottorappresentate nei benchmark robotici esistenti. Misurare questo livello di generalizzazione richiede un'infrastruttura con una scala e una diversità che la sola valutazione fisica non può fornire. Introduciamo MolmoSpaces, un ecosistema completamente aperto per supportare il benchmarking su larga scala delle policy robotiche. MolmoSpaces è composto da oltre 230.000 ambienti indoor diversificati, che spaziano da scene domestiche realizzate a mano a case multi-stanza generate proceduralmente, popolati da 130.000 asset di oggetti riccamente annotati, inclusi 48.000 oggetti manipolabili con 42 milioni di prese stabili. Fondamentalmente, questi ambienti sono indipendenti dal simulatore, supportando opzioni popolari come MuJoCo, Isaac e ManiSkill. L'ecosistema supporta l'intero spettro dei compiti embodied: manipolazione statica e mobile, navigazione e compiti a lungo orizzonte multi-stanza che richiedono una coordinazione tra percezione, pianificazione e interazione attraverso interi ambienti indoor. Progettiamo inoltre MolmoSpaces-Bench, una suite di benchmark di 8 compiti in cui i robot interagiscono con le nostre scene diversificate e gli oggetti riccamente annotati. I nostri esperimenti mostrano che MolmoSpaces-Bench presenta una forte correlazione sim-to-real (R = 0,96, ho = 0,98), confermano che policy zero-shot più recenti e potenti superano le versioni precedenti nei nostri benchmark e identificano sensibilità chiave alla formulazione dei prompt, alle posizioni iniziali dei giunti e all'occlusione della telecamera. Attraverso MolmoSpaces e i suoi asset e strumenti open-source, forniamo una base per la generazione scalabile di dati, l'addestramento delle policy e la creazione di benchmark per la ricerca sull'apprendimento robotico.

ExStrucTiny: Un Benchmark per l'Estrazione Strutturata di Informazioni con Schema Variabile da Immagini Documentali
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Feb 12

ByMathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso

I documenti aziendali, come moduli e report, incorporano informazioni critiche per applicazioni a valle come l'archiviazione dei dati, i flussi di lavoro automatizzati e l'analisi. Sebbene i modelli linguistici visivi (VLM) generalisti performino bene su benchmark consolidati per la comprensione dei documenti, la loro capacità di condurre un'estrazione strutturata, olistica e granulare su tipi di documento diversi e schemi flessibili non è stata ancora studiata approfonditamente. I dataset esistenti per l'estrazione di entità chiave (KEE), l'estrazione di relazioni (RE) e il question answering visivo (VQA) sono limitati da ontologie di entità ristrette, query semplici o tipi di documento omogenei, trascurando spesso l'esigenza di un'estrazione strutturata e adattabile. Per colmare queste lacune, introduciamo ExStrucTiny, un nuovo dataset di benchmark per l'estrazione strutturata di informazioni (IE) da immagini di documenti, che unifica aspetti di KEE, RE e VQA. Costruito attraverso una pipeline innovativa che combina campioni sintetici e manuali convalidati da esseri umani, ExStrucTiny copre tipi di documento e scenari di estrazione più vari. Analizziamo su questo benchmark VLM open e closed, evidenziando sfide come l'adattamento dello schema, la sotto-specificazione delle query e la localizzazione delle risposte. Speriamo che il nostro lavoro fornisca una base solida per migliorare i modelli generalisti per l'IE strutturato nei documenti.

Attribuzione multimodale a livello di fatto per il ragionamento verificabile
Multimodal Fact-Level Attribution for Verifiable Reasoning

Feb 12

ByDavid Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

I modelli linguistici di grandi dimensioni multimodali (MLLM) sono sempre più utilizzati per compiti nel mondo reale che coinvolgono ragionamenti a più fasi e generazioni di testi lunghi, dove l'affidabilità richiede che gli output del modello siano ancorati a fonti di input eterogenee e che le singole affermazioni fattuali siano verificabili. Tuttavia, i benchmark e i metodi di valutazione esistenti per l'ancoraggio multimodale si concentrano su scenari semplificati, basati sull'osservazione, o su modalità limitate, e non riescono a valutare l'attribuzione in contesti complessi di ragionamento multimodale. Introduciamo MuRGAt (Multimodal Reasoning with Grounded Attribution), un benchmark per valutare l'attribuzione fattuale multimodale in contesti che richiedono un ragionamento che va oltre l'osservazione diretta. Dati input che spaziano su video, audio e altre modalità, MuRGAt richiede ai modelli di generare risposte con un ragionamento esplicito e citazioni precise, dove ogni citazione specifica sia la modalità che i segmenti temporali. Per consentire una valutazione affidabile, introduciamo un framework di valutazione automatica che mostra una forte correlazione con i giudizi umani. Il benchmarking con punteggi umani e automatizzati rivela che anche MLLM potenti spesso producono citazioni allucinate nonostante un ragionamento corretto. Inoltre, osserviamo un compromesso fondamentale: aumentare la profondità del ragionamento o imporre un ancoraggio strutturato spesso degrada l'accuratezza, evidenziando un divario significativo tra il ragionamento interno e un'attribuzione verificabile.

Sci-CoE: Co-evoluzione di LLM per il Ragionamento Scientifico tramite Consenso Geometrico con Supervisione Sparsa
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Feb 12

ByXiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang

I grandi modelli linguistici (LLM) hanno dimostrato capacità eccezionali di ragionamento, e i paradigmi di co-evoluzione hanno mostrato risultati promettenti in domini come il codice e la matematica. Tuttavia, nei compiti di ragionamento scientifico, questi modelli rimangono fragili a causa di una valutazione inaffidabile delle soluzioni e di una diversità limitata nelle strategie di verifica. In questo lavoro, proponiamo Sci-CoE, un framework scientifico di co-evoluzione a due stadi che consente ai modelli di auto-evolversi sia come risolutori che come verificatori attraverso una transizione dalla supervisione sparsa all'apprendimento non supervisionato. Nella prima fase, il modello utilizza un piccolo insieme di dati annotati per stabilire ancoraggi fondamentali di giudizio di correttezza per il Verificatore. Nella seconda fase, introduciamo un meccanismo di ricompensa geometrica che considera congiuntamente consenso, affidabilità e diversità, guidando l'auto-iterazione su larga scala su dati non etichettati. Esperimenti su diversi benchmark scientifici generali dimostrano che Sci-CoE potenzia le capacità di ragionamento complesso ed esibisce una forte scalabilità, facilitando la costruzione di sistemi di valutazione più robusti e diversificati. I codici sono disponibili all'indirizzo https://github.com/InternScience/Sci-CoE.

P-GenRM: Modello di Ricompensa Generativo Personalizzato con Scalabilità Basata sull'Utente in Fase di Test
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Feb 12

ByPinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li

L'allineamento personalizzato dei grandi modelli linguistici mira ad adattare le risposte alle preferenze individuali degli utenti, tipicamente tramite apprendimento per rinforzo. Una sfida chiave è ottenere segnali di ricompensa accurati e specifici per l'utente in scenari aperti. Gli attuali modelli di ricompensa personalizzati presentano due limiti persistenti: (1) semplificano eccessivamente preferenze diversificate e specifiche dello scenario in un insieme piccolo e fisso di principi di valutazione, e (2) faticano a generalizzare per nuovi utenti con feedback limitato. A tal fine, proponiamo P-GenRM, il primo Modello di Ricompensa Generativo Personalizzato con scalabilità basata sull'utente al momento del test. P-GenRM trasforma i segnali di preferenza in catene di valutazione strutturate che derivano personaggi adattivi e griglie di valutazione attraverso vari scenari. Inoltre, raggruppa gli utenti in Prototipi di Utente e introduce un meccanismo di scalabilità a doppia granularità: a livello individuale, scala e aggrega in modo adattivo lo schema di punteggio di ciascun utente; a livello di prototipo, incorpora le preferenze di utenti simili. Questo design mitiga il rumore nelle preferenze inferite e migliora la generalizzazione per utenti non visti tramite trasferimento basato su prototipi. I risultati empirici mostrano che P-GenRM raggiunge risultati all'avanguardia sui benchmark dei modelli di ricompensa personalizzati più utilizzati, con un miglioramento medio del 2.31%, e dimostra una forte generalizzazione su un dataset fuori distribuzione. Significativamente, la scalabilità basata sull'utente al momento del test fornisce un ulteriore miglioramento del 3%, dimostrando un allineamento personalizzato più forte con scalabilità durante il test.

MetaphorStar: Comprensione e Ragionamento sulle Metafore Visive con Apprendimento per Rinforzo Visivo End-to-End
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Feb 11

ByChenhao Zhang, Yazhe Niu, Hongsheng Li

La comprensione metaforica nelle immagini rimane una sfida critica per i sistemi di intelligenza artificiale odierni. Sebbene i Modelli Linguistici Multimodali (MLLM) eccellano nel Rispondere a Domande Visive (VQA) di base, faticano costantemente a cogliere le implicazioni culturali, emotive e contestuali sottili incorporate nei contenuti visivi. Questa difficoltà deriva dalla richiesta del compito di sofisticati ragionamenti a più passi, contesto culturale e capacità di Teoria della Mente (ToM), di cui i modelli attuali sono carenti. Per colmare questa lacuna, proponiamo MetaphorStar, il primo framework di apprendimento per rinforzo (RL) visivo end-to-end per compiti di implicazione visiva. Il nostro framework include tre componenti fondamentali: il dataset granulare TFQ-Data, il metodo di RL visivo TFQ-GRPO e il benchmark ben strutturato TFQ-Bench. La nostra famiglia MetaphorStar, completamente open-source e addestrata utilizzando TFQ-GRPO su TFQ-Data, migliora significativamente le prestazioni di una media dell'82,6% sui benchmark di implicazione visiva. Rispetto a oltre 20 MLLM mainstream, MetaphorStar-32B raggiunge lo stato dell'arte (SOTA) nelle Domande a Scelta Multipla e nelle Domande in Stile Aperto, superando significativamente il miglior modello closed-source, Gemini-3.0-pro, nelle Domande Vero-Falso. Crucialmente, i nostri esperimenti rivelano che l'apprendimento dei compiti di implicazione visiva migliora l'abilità di comprensione generale, in particolare la capacità di ragionamento visivo complesso. Forniamo inoltre un'analisi sistematica del ridimensionamento dei parametri del modello, del ridimensionamento dei dati di addestramento e dell'impatto di diverse architetture di modelli e strategie di addestramento, dimostrando l'ampia applicabilità del nostro metodo. Abbiamo reso open-source tutti i pesi dei modelli, i dataset e il codice del metodo su https://metaphorstar.github.io.

Agenti di Large Language Model con Vincoli di Budget: Pianificazione Basata sull'Intenzione per l'Uso di Strumenti Costosi
Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use

Feb 12

ByHanbing Liu, Chunhao Tian, Nan An, Ziyuan Wang, Pinyan Lu, Changyuan Yu, Qi Qi

Studiamo agenti potenziati da strumenti con vincoli di budget, in cui un modello linguistico di grandi dimensioni deve risolvere compiti multi-step invocando strumenti esterni sotto un rigido budget monetario. Formalizziamo questo scenario come un processo decisionale sequenziale nello spazio contestuale con esecuzioni di strumenti a costo variabile e stocastiche, rendendo la pianificazione diretta intrattabile a causa degli spazi di stati-azione massivi, dell'elevata varianza degli esiti e del costo proibitivo dell'esplorazione. Per affrontare queste sfide, proponiamo INTENT, un framework di pianificazione in fase di inferenza che sfrutta un modello gerarchico del mondo consapevole delle intenzioni per anticipare l'uso futuro degli strumenti, il rischio calibrato dei costi e guidare le decisioni online. Su StableToolBench arricchito con costi, INTENT applica rigorosamente la fattibilità del budget rigido migliorando sostanzialmente il successo dei compiti rispetto ai baseline e rimanendo robusto sotto cambiamenti dinamici di mercato come variazioni dei prezzi degli strumenti e budget flessibili.

ScalSelect: Selezione Scalabile di Dati Multimodali Senza Addestramento per un Efficiente Adattamento all'Istruzione Visiva
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Feb 12

ByChangti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen

Il Large-scale Visual Instruction Tuning (VIT) è diventato un paradigma chiave per migliorare le prestazioni dei modelli visione-linguaggio (VLM) in varie attività multimodali. Tuttavia, l'addestramento su dataset su larga scala è computazionalmente costoso e inefficiente a causa della ridondanza dei dati, il che motiva la necessità di una selezione dei dati multimodali per migliorare l'efficienza dell'addestramento. I metodi di selezione dati esistenti per il VIT richiedono o un addestramento costoso o il calcolo del gradiente. Le alternative che non richiedono addestramento spesso dipendono da modelli proxy o dataset, da rappresentazioni indipendenti dalle istruzioni e da similarità a coppie con complessità quadratica, limitando la scalabilità e la fedeltà della rappresentazione. In questo lavoro, proponiamo ScalSelect, un metodo di selezione dati multimodale scalabile, che non richiede addestramento e ha una complessità lineare rispetto al numero di campioni, eliminando la necessità di modelli esterni o dataset ausiliari. ScalSelect costruisce prima le rappresentazioni dei campioni estraendo le caratteristiche visive a cui i token di istruzione nel VLM target prestano maggiore attenzione, catturando così le informazioni rilevanti per l'istruzione. Successivamente, identifica i campioni le cui rappresentazioni approssimano al meglio il sottospazio dominante delle rappresentazioni dell'intero dataset, consentendo una valutazione scalabile dell'importanza senza confronti a coppie. Esperimenti estesi su molteplici VLM, dataset e budget di selezione dimostrano che ScalSelect raggiunge oltre il 97,5% delle prestazioni dell'addestramento sull'intero dataset utilizzando solo il 16% dei dati, e in alcuni contesti supera persino l'addestramento con tutti i dati. Il codice è disponibile all'indirizzo https://github.com/ChangtiWu/ScalSelect.

Rilevamento dei Dati di Addestramento RLVR tramite Convergenza Strutturale del Ragionamento
Detecting RLVR Training Data via Structural Convergence of Reasoning

Feb 12

ByHongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang

L'apprendimento per rinforzo con ricompense verificabili (RLVR) è fondamentale per l'addestramento dei moderni modelli di ragionamento, ma la natura non divulgata dei dati di addestramento solleva preoccupazioni riguardo alla contaminazione dei benchmark. A differenza dei metodi di pre-addestramento, che ottimizzano i modelli utilizzando probabilità a livello di token, l'RLVR affina i modelli sulla base del feedback di ricompensa proveniente da traiettorie di ragionamento auto-generate, rendendo meno efficaci i convenzionali metodi di rilevamento basati sulla verosimiglianza. Dimostriamo che l'RLVR induce una firma comportamentale distintiva: i prompt incontrati durante l'addestramento RLVR producono generazioni più rigide e simili, mentre i prompt non visti mantengono una maggiore diversità. Introduciamo Min-kNN Distance, un semplice rilevatore di tipo black-box che quantifica questo collasso campionando più completamenti per un dato prompt e calcolando la media delle k più piccole distanze di edit dei vicini più prossimi. Min-kNN Distance non richiede l'accesso al modello di riferimento né alle probabilità dei token. Esperimenti condotti su molteplici modelli di ragionamento addestrati con RLVR mostrano che Min-kNN Distance distingue in modo affidabile gli esempi visti durante l'RL da quelli non visti e supera le baseline esistenti per l'inferenza di appartenenza e il rilevamento della contaminazione da RL.

ABot-N0: Relazione Tecnica sul Modello Base VLA per la Navigazione Embodied Versatile
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Feb 12

ByZedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu

La navigazione embodied è stata a lungo frammentata da architetture specifiche per singoli compiti. Presentiamo ABot-N0, un modello foundation unificato Visione-Linguaggio-Azione (VLA) che realizza una "Grande Unificazione" su 5 compiti fondamentali: Point-Goal, Object-Goal, Instruction-Following, POI-Goal e Person-Following. ABot-N0 utilizza un'architettura gerarchica "Cervello-Azione", accoppiando un Cervello Cognitivo basato su LLM per il ragionamento semantico con un Esperto d'Azione basato su Flow Matching per la generazione di traiettorie precise e continue. Per supportare l'apprendimento su larga scala, abbiamo sviluppato il Motore dei Dati ABot-N0, curando 16,9 milioni di traiettorie esperte e 5,0 milioni di campioni di ragionamento in 7.802 scene 3D ad alta fedeltà (10,7 km²). ABot-N0 raggiunge nuove prestazioni state-of-the-art su 7 benchmark, superando significativamente i modelli specializzati. Inoltre, il nostro Sistema di Navigazione Agente integra un pianificatore con memoria topologica gerarchica, abilitando missioni robuste e a lungo termine in ambienti real-world dinamici.

Stemphonic: Generazione Musicale Multi-stem Flessibile e Istantanea
Stemphonic: All-at-once Flexible Multi-stem Music Generation

Feb 10

ByShih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan

La generazione di stem musicali, ovvero il compito di produrre clip audio di strumenti isolati e sincronizzati musicalmente, offre il potenziale di un maggiore controllo utente e una migliore aderenza ai flussi di lavoro dei musicisti rispetto ai modelli convenzionali di testo-musica. Gli approcci esistenti per la generazione di stem, tuttavia, si basano su architetture fisse che producono in parallelo un set predefinito di stem, oppure generano un solo stem alla volta, risultando in un'inferenza lenta nonostante la flessibilità nella combinazione degli stem. Proponiamo Stemphonic, un framework basato su diffusione/flusso che supera questo compromesso e genera un set variabile di stem sincronizzati in un unico passaggio di inferenza. Durante l'addestramento, trattiamo ogni stem come un elemento del batch, raggruppiamo gli stem sincronizzati in un batch e applichiamo un latente di rumore condiviso a ciascun gruppo. Al momento dell'inferenza, utilizziamo un latente di rumore iniziale condiviso e input testuali specifici per stem per generare output multi-stem sincronizzati in un solo passaggio. Estendiamo ulteriormente il nostro approccio per abilitare la generazione condizionale multi-stem in un passaggio e controlli di attività per singolo stem, consentendo agli utenti di generare in modo iterativo e orchestrare la stratificazione temporale di un mix. Valutiamo i nostri risultati su molteplici set di valutazione di stem open-source e dimostriamo che Stemphonic produce output di qualità superiore accelerando il processo di generazione del mix completo del 25-50%. Demo disponibili su: https://stemphonic-demo.vercel.app.

Esperti Neurali Additivi: Esperti a Cancello Contestuale per l'Additività Controllabile del Modello
Neural Additive Experts: Context-Gated Experts for Controllable Model Additivity

Feb 11

ByGuangzhi Xiong, Sanchit Sinha, Aidong Zhang

Il compromesso tra interpretabilità e accuratezza rimane una sfida fondamentale nell'apprendimento automatico. I Modelli Additivi Generalizzati (GAM) standard offrono attribuzioni chiare delle feature, ma sono spesso limitati dalla loro natura strettamente additiva, che può ridurre le prestazioni predittive. L'introduzione di interazioni tra feature può aumentare l'accuratezza, ma rischia di offuscare il contributo individuale di ciascuna feature. Per affrontare questi problemi, proponiamo Neural Additive Experts (NAE), un nuovo framework che bilancia armoniosamente interpretabilità e accuratezza. Gli NAE utilizzano un framework di mixture of experts, apprendendo reti specializzate multiple per ogni feature, mentre un meccanismo di gating dinamico integra le informazioni tra le feature, rilassando così i rigidi vincoli additivi. Inoltre, proponiamo tecniche di regolarizzazione mirata per mitigare la varianza tra le previsioni degli esperti, facilitando una transizione graduale da un modello esclusivamente additivo a uno che cattura interazioni complesse tra feature, mantenendo al contempo chiarezza nelle attribuzioni. La nostra analisi teorica e gli esperimenti su dati sintetici illustrano la flessibilità del modello, e valutazioni estensive su dataset reali confermano che gli NAE raggiungono un equilibrio ottimale tra accuratezza predittiva e spiegazioni trasparenti a livello di feature. Il codice è disponibile all'indirizzo https://github.com/Teddy-XiongGZ/NAE.