Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'emergere di sistemi multi-agente costruiti su modelli linguistici di grandi dimensioni (LLM) offre un paradigma promettente per l'intelligenza collettiva scalabile e l'auto-evoluzione. Idealmente, tali sistemi dovrebbero raggiungere un miglioramento continuo in un ciclo completamente chiuso, mantenendo al contempo un robusto allineamento di sicurezza – una combinazione che definiamo il trilemma dell'auto-evoluzione. Tuttavia, dimostriamo sia teoricamente che empiricamente che una società di agenti che soddisfi l'auto-evoluzione continua, l'isolamento completo e l'invarianza di sicurezza è impossibile. Basandoci su un quadro teorico dell'informazione, formalizziamo la sicurezza come il grado di divergenza dalle distribuzioni di valori antropici. Dimostriamo teoricamente che l'auto-evoluzione isolata induce punti ciechi statistici, portando al degrado irreversibile dell'allineamento di sicurezza del sistema. Risultati empirici e qualitativi provenienti da una comunità di agenti ad evoluzione aperta (Moltbook) e da due sistemi chiusi auto-evolutivi rivelano fenomeni in linea con la nostra previsione teorica di un'inevitabile erosione della sicurezza. Proponiamo inoltre diverse direzioni di soluzione per alleviare il problema di sicurezza identificato. Il nostro lavoro stabilisce un limite fondamentale per le società di IA auto-evolutive e sposta il discorso dagli interventi di sicurezza sintomatici verso una comprensione principiata dei rischi dinamici intrinseci, evidenziando la necessità di supervisione esterna o di nuovi meccanismi di preservazione della sicurezza.
I prompt verificabili su larga scala sono alla base del successo del Reinforcement Learning con Ricompense Verificabili (RLVR), ma contengono molti esempi non informativi e sono costosi da espandere ulteriormente. Studi recenti si concentrano sullo sfruttare meglio dati di addestramento limitati dando priorità ai prompt difficili il cui tasso di superamento del rollout è 0. Tuttavia, i prompt facili con un tasso di superamento di 1 diventano anch'essi sempre più prevalenti con il progredire dell'addestramento, riducendo così la dimensione effettiva dei dati. Per mitigare questo problema, proponiamo Composition-RL, un approccio semplice ma utile per utilizzare meglio i prompt verificabili limitati, mirando specificamente ai prompt con tasso di superamento 1. Nello specifico, Composition-RL compone automaticamente più problemi in una nuova domanda verificabile e utilizza questi prompt compositi per l'addestramento RL. Esperimenti estensivi su dimensioni di modello da 4B a 30B mostrano che Composition-RL migliora costantemente la capacità di ragionamento rispetto all'RL addestrato sul dataset originale. Le prestazioni possono essere ulteriormente potenziate con una variante curriculare di Composition-RL che aumenta gradualmente la profondità compositiva durante l'addestramento. Inoltre, Composition-RL consente un RL cross-dominio più efficace componendo prompt provenienti da domini diversi. Codici, dataset e modelli sono disponibili su https://github.com/XinXU-USTC/Composition-RL.
Gli attuali modelli multimodali unificati per la generazione e modifica di immagini si basano tipicamente su scale parametriche massive (es. >10B), comportando costi di addestramento e impronte computazionali proibitivi. In questo lavoro presentiamo DeepGen 1.0, un modello unificato leggero da 5B parametri che raggiunge capacità competitive o superiori a controparti molto più grandi. Per superare i limiti dei modelli compatti nella comprensione semantica e nel controllo granulare, introduciamo Stacked Channel Bridging (SCB), un framework di allineamento profondo che estrae caratteristiche gerarchiche da multipli livelli del VLM e le fonde con "think token" apprendibili per fornire al backbone generativo una guida strutturata e ricca di ragionamento. Progettiamo inoltre una strategia di addestramento data-centrica articolata in tre stadi progressivi: (1) Pre-addestramento di allineamento su coppie immagine-testo e triplette di editing su larga scala per sincronizzare le rappresentazioni del VLM e del DiT, (2) Fine-tuning supervisionato congiunto su un misto di alta qualità di task di generazione, editing e ragionamento per sviluppare capacità omnicomprensive, e (3) Apprendimento per Rinforzo con MR-GRPO, che utilizza un insieme di funzioni di reward e segnali di supervisione, producendo miglioramenti sostanziali nella qualità generativa e nell'allineamento alle preferenze umane, mantenendo al contempo una progressione stabile dell'addestramento ed evitando artefatti visivi. Nonostante l'addestramento su soli ~50M di campioni, DeepGen 1.0 raggiunge prestazioni leader su benchmark diversificati, superando HunyuanImage da 80B del 28% su WISE e Qwen-Image-Edit da 27B del 37% su UniREditBench. Rendi
I modelli visione-linguaggio-azione (VLA) che predicono direttamente blocchi di azioni multi-step dalle osservazioni correnti affrontano limitazioni intrinseche a causa di una comprensione della scena vincolata e di capacità di anticipazione futura deboli. Al contrario, i modelli mondiali video pre-addestrati su corpora video di scala web-esibiscono un ragionamento spazio-temporale robusto e una predizione futura accurata, rendendoli una base naturale per potenziare l'apprendimento VLA. Pertanto, proponiamo GigaBrain-0.5M*, un modello VLA addestrato tramite apprendimento per rinforzo basato su modello mondiale. Basato su GigaBrain-0.5, che è pre-addestrato su oltre 10.000 ore di dati di manipolazione robotica e la cui versione intermedia è attualmente al primo posto nel benchmark internazionale RoboChallenge, GigaBrain-0.5M* integra ulteriormente l'apprendimento per rinforzo basato su modello mondiale tramite RAMP (Reinforcement leArning via world Model-conditioned Policy) per abilitare un robusto adattamento cross-task. I risultati empirici dimostrano che RAMP ottiene sostanziali guadagni di prestazione rispetto al baseline RECAP, producendo miglioramenti di circa il 30% su task impegnativi come Laundry Folding, Box Packing e Espresso Preparation. In modo cruciale, GigaBrain-0.5M* mostra un'esecuzione affidabile su orizzonti lunghi, portando a termine con costanza compiti di manipolazione complessi senza fallimenti, come validato dai video di deployment nel mondo reale sulla nostra [pagina del progetto](https://gigabrain05m.github.io).
La distillazione on-policy (OPD), che allinea lo studente con la distribuzione dei logit del teacher su traiettorie generate dallo studente, ha dimostrato significativi vantaggi empirici nel migliorare le prestazioni dello studente, superando spesso i paradigmi della distillazione off-policy e dell'apprendimento per rinforzo (RL). In questo lavoro, dimostriamo prima teoricamente che l'OPD è un caso speciale di RL con vincolo KL denso, in cui la funzione di ricompensa e la regolarizzazione KL sono sempre ponderate in modo uguale e il modello di riferimento può essere qualsiasi modello. Successivamente, proponiamo il framework di Distillazione On-Policy Generalizzata (G-OPD), che estende l'obiettivo OPD standard introducendo un modello di riferimento flessibile e un fattore di scala della ricompensa che controlla il peso relativo del termine di ricompensa rispetto alla regolarizzazione KL. Attraverso esperimenti completi su compiti di ragionamento matematico e generazione di codice, deriviamo due nuove intuizioni: (1) Impostare il fattore di scala della ricompensa maggiore di 1 (cioè, l'estrapolazione della ricompensa), che chiamiamo ExOPD, migliora costantemente rispetto all'OPD standard in una serie di accoppiamenti di dimensione teacher-studente. In particolare, nello scenario in cui uniamo la conoscenza di diversi esperti di dominio, ottenuta applicando RL specifico per dominio allo stesso modello studente, nuovamente nello studente originale, ExOPD consente allo studente di superare persino il confine prestazionale del teacher e di ottenere risultati migliori dei teacher di dominio. (2) Basandoci su ExOPD, scopriamo inoltre che, nello scenario di distillazione da forte a debole (cioè distillare uno studente più piccolo da un teacher più grande), effettuare una correzione della ricompensa scegliendo come modello di riferimento il modello base del teacher prima del RL fornisce un segnale di ricompensa più accurato e migliora ulteriormente le prestazioni della distillazione. Tuttavia, questa scelta presuppone l'accesso alla variante pre-RL del teacher e comporta un sovraccarico computazionale maggiore. Speriamo che il nostro lavoro offra nuove prospettive per la ricerca futura sull'OPD.
I tokenizzatori audio discreti sono fondamentali per dotare i grandi modelli linguistici di capacità native di elaborazione e generazione audio. Nonostante i recenti progressi, gli approcci esistenti spesso si basano su encoder preaddestrati, distillazione semantica o architetture eterogenee basate su CNN. Questi progetti introducono bias induttivi fissi che limitano la fedeltà di ricostruzione e ostacolano una scalabilità efficace. In questo articolo, sosteniamo che la tokenizzazione audio discreta dovrebbe essere appresa interamente end-to-end utilizzando un'architettura omogenea e scalabile. A tal fine, proponiamo innanzitutto CAT (Causal Audio Tokenizer with Transformer), un'architettura puramente basata su Transformer che ottimizza congiuntamente l'encoder, il quantizzatore e il decoder da zero per una ricostruzione ad alta fedeltà. Sviluppando l'architettura CAT, creiamo MOSS-Audio-Tokenizer, un tokenizzatore audio su larga scala caratterizzato da 1,6 miliardi di parametri, preaddestrato su 3 milioni di ore di dati audio generali e diversificati. Dimostriamo che questo semplice approccio completamente end-to-end, costruito con blocchi Transformer omogenei e causali, scala in modo elegante e supporta una ricostruzione ad alta fedeltà in diversi domini audio. In ambito vocale, sonoro e musicale, MOSS-Audio-Tokenizer supera costantemente i codec precedenti su un'ampia gamma di bitrate, mostrando al contempo miglioramenti prevedibili con l'aumento della scala. Degno di nota è che, sfruttando i token discreti del nostro modello, sviluppiamo il primo modello TTS puramente autoregressivo che supera i precedenti sistemi non autoregressivi e a cascata. Inoltre, MOSS-Audio-Tokenizer consente prestazioni ASR competitive senza encoder ausiliari. I nostri risultati posizionano l'architettura CAT come un'interfaccia unificata e scalabile per la prossima generazione di modelli fondazionali audio nativi.
La sintesi di colonne sonore coerenti per video di lunga durata rimane una sfida formidabile, attualmente bloccata da tre impedimenti critici: scalabilità computazionale, coerenza temporale e, soprattutto, una pervasiva cecità semantica alla logica narrativa in evoluzione. Per colmare queste lacune, proponiamo NarraScore, un framework gerarchico basato sull'intuizione fondamentale che l'emozione funga da compressione ad alta densità della logica narrativa. In modo unico, riproponiamo modelli visione-linguaggio (VLM) congelati come sensori affettivi continui, distillando flussi visivi ad alta dimensionalità in traiettorie dense di Valenza-Attivazione consapevoli della narrazione. Meccanicamente, NarraScore impiega una strategia di Iniezione a Doppio Ramo per conciliare struttura globale e dinamismo locale: un'Ancora Semantica Globale garantisce stabilità stilistica, mentre un Adattatore Affettivo a Livello di Token modula la tensione locale tramite iniezione residua diretta elemento per elemento. Questo design minimalista evita i colli di bottiglia dell'attenzione densa e della clonazione architetturale, mitigando efficacemente i rischi di overfitting associati alla scarsità di dati. Gli esperimenti dimostrano che NarraScore raggiunge uno stato dell'arte in coerenza e allineamento narrativo con un overhead computazionale trascurabile, stabilendo un paradigma completamente autonomo per la generazione di colonne sonore per video lunghi.
Il ragionamento giuridico richiede non solo esiti corretti, ma anche processi argomentativi proceduralmente conformi. Tuttavia, i metodi esistenti mancano di meccanismi per verificare i passaggi intermedi del ragionamento, consentendo a errori come citazioni normative inapplicabili di propagarsi inosservati attraverso la catena argomentativa. Per ovviare a ciò, proponiamo LawThinker, un agente autonomo di ricerca giuridica che adotta una strategia Esplora-Verifica-Memorizza per ambienti giudiziari dinamici. L'idea centrale è imporre la verifica come operazione atomica dopo ogni fase di esplorazione della conoscenza. Un modulo DeepVerifier esamina ogni risultato di recupero lungo tre dimensioni: accuratezza della conoscenza, rilevanza fatto-norma e conformità procedurale, con un modulo di memoria per il riutilizzo transazionale della conoscenza in compiti a lungo termine. Gli esperimenti sul benchmark dinamico J1-EVAL mostrano che LawThinker ottiene un miglioramento del 24% rispetto al ragionamento diretto e un guadagno dell'11% rispetto ai metodi basati su workflow, con progressi particolarmente significativi sulle metriche orientate al processo. Le valutazioni su tre benchmark statici ne confermano ulteriormente la capacità di generalizzazione. Il codice è disponibile all'indirizzo https://github.com/yxy-919/LawThinker-agent.
I modelli linguistici multimodali di grandi dimensioni esistenti hanno ottenuto una percezione visiva ad alta fedeltà e una generazione visiva esplorativa. Tuttavia, persiste un paradosso di precisione nei compiti di ragionamento complesso: i sistemi di percezione ottica trascrivono simboli senza catturare la topologia logica, mentre i modelli generativi basati su pixel producono artefatti visivi privi di esattezza matematica. Per colmare questa lacuna, proponiamo di riconcettualizzare il ragionamento su input visivi come decompressione ottica – il processo di ricostruzione di strutture logiche latenti da token visivi compressi. Guidati dall'assioma che l'Analisi è Ragionamento, introduciamo Pensare con la Bozza (Thinking with Drafting - TwD), che utilizza un linguaggio di dominio specifico (DSL) minimalista come rappresentazione intermedia di ancoraggio. A differenza degli approcci standard che allucinano risposte direttamente, TwD costringe il modello a tradurre il proprio modello mentale in codice eseguibile, producendo prove visive deterministiche per l'auto-verifica. Per validare ciò, presentiamo VisAlg, un benchmark di algebra visiva. Gli esperimenti dimostrano che TwD funge da impalcatura cognitiva superiore. Il nostro lavoro stabilisce un sistema a ciclo chiuso in cui la generazione visiva agisce non come output creativo ma come verificatore logico, offrendo un percorso generalizzabile per il ragionamento visivo.
Il raggiungimento di un ridimensionamento efficace al momento del test richiede che i modelli si impegnino in un'Esplorazione Contestuale – l'abilità intrinseca di generare, verificare e affinare molteplici ipotesi di ragionamento all'interno di un singolo contesto continuo. Basandoci sulla teoria della Copertura degli Stati, la nostra analisi identifica un collo di bottiglia critico per abilitare questa capacità: sebbene una copertura più ampia degli stati richieda traiettorie di ragionamento più lunghe, la probabilità di campionare tali sequenze decade esponenzialmente durante la generazione autoregressiva, un fenomeno che definiamo "Trappola dell'Esplorazione Superficiale". Per colmare questa lacuna, proponiamo l'Esplorazione con Incentivazione della Lunghezza (\method). Questa ricetta semplice ma efficace incoraggia esplicitamente i modelli a esplorare di più attraverso una ricompensa basata sulla lunghezza abbinata a una penalità per ridondanza, massimizzando così la copertura degli stati in un processo a due fasi. Esperimenti completi su diversi modelli (Qwen3, Llama) dimostrano che \method incentiva efficacemente l'esplorazione contestuale. Di conseguenza, il nostro metodo ottiene un miglioramento medio del 4,4% sui task in-dominio e un guadagno del 2,7% sui benchmark out-of-domain.
Nonostante il continuo aumento della capacità dei modelli e dell'acquisizione di dati, i modelli Visione-Linguaggio-Azione (VLA) rimangono fragili nei compiti di manipolazione ricchi di contatto e dinamici, dove piccole deviazioni nell'esecuzione possono accumularsi portando a fallimenti. Sebbene l'apprendimento per rinforzo (RL) offra un percorso metodologico verso la robustezza, il RL on-policy nel mondo fisico è limitato dai rischi per la sicurezza, dai costi hardware e dalla necessità di resettare l'ambiente. Per colmare questa lacuna, presentiamo RISE, un framework scalabile per l'apprendimento per rinforzo robotico tramite immaginazione. Il suo nucleo è un Modello di Mondo Composizionale che (i) predice scenari futuri multi-prospettiva attraverso un modello di dinamica controllabile, e (ii) valuta gli esiti immaginati con un modello di valore del progresso, producendo vantaggi informativi per il miglioramento della policy. Questo design composizionale permette di adattare lo stato e il valore con architetture e obiettivi distinti ma più adatti. Questi componenti sono integrati in una pipeline di auto-miglioramento a ciclo chiuso che genera continuamente rollout immaginari, stima i vantaggi e aggiorna la policy nello spazio immaginario senza costose interazioni fisiche. In tre impegnativi compiti del mondo reale, RISE produce un miglioramento significativo rispetto allo stato dell'arte, con un aumento assoluto delle prestazioni di oltre il +35% nell'ordinamento dinamico di mattoncini, +45% per il riempimento di uno zaino e +35% per la chiusura di scatole, rispettivamente.
Le illusioni visive tradizionalmente si basano su manipolazioni spaziali come la coerenza multi-prospettica. In questo lavoro, introduciamo le Illusioni Semantiche Progressive, un innovativo compito di disegno vettoriale in cui un singolo schizzo subisce una drammatica trasformazione semantica attraverso l'aggiunta sequenziale di tratti. Presentiamo Stroke of Surprise, un framework generativo che ottimizza i tratti vettoriali per soddisfare distinte interpretazioni semantiche in diverse fasi del disegno. La sfida principale risiede nel "vincolo duale": i tratti iniziali del prefisso devono formare un oggetto coerente (ad esempio, un'anatra) mentre servono simultaneamente come fondamento strutturale per un secondo concetto (ad esempio, una pecora) con l'aggiunta di tratti delta. Per affrontare ciò, proponiamo un framework di ottimizzazione congiunta sequence-aware guidato da un meccanismo dual-branch di Score Distillation Sampling (SDS). A differenza degli approcci sequenziali che congelano lo stato iniziale, il nostro metodo modifica dinamicamente i tratti del prefisso per scoprire un "sottospazio strutturale comune" valido per entrambi i target. Inoltre, introduciamo una novella Overlay Loss che impone complementarità spaziale, garantendo integrazione strutturale anziché occlusione. Esperimenti estensivi dimostrano che il nostro metodo supera significativamente i baseline state-of-the-art in riconoscibilità e forza illusoria, espandendo con successo gli anagrammi visivi dalla dimensione spaziale a quella temporale. Pagina del progetto: https://stroke-of-surprise.github.io/
La manipolazione robotica affidabile a lungo termine ha tradizionalmente fatto affidamento su dati e potenza di calcolo su larga scala per comprendere le dinamiche complesse del mondo reale. Tuttavia, identifichiamo che il collo di bottiglia principale per la robustezza nel mondo reale non è solo la scala delle risorse, ma lo spostamento distributivo tra la distribuzione delle dimostrazioni umane, il bias induttivo appreso dalla policy e la distribuzione di esecuzione durante il test – un'incongruenza sistematica che causa errori cumulativi in compiti multi-stadio. Per mitigare queste incongruenze, proponiamo χ₀, un framework efficiente dal punto di vista delle risorse con moduli efficaci progettati per ottenere una robustezza a livello produttivo nella manipolazione robotica. Il nostro approccio si basa su tre pilastri tecnici: (i) Model Arithmetic, una strategia di fusione nello spazio dei pesi che assimila efficientemente distribuzioni diverse delle varie dimostrazioni, che variano dall'aspetto dell'oggetto alle variazioni di stato; (ii) Stage Advantage, un estimatore del vantaggio consapevole dello stadio che fornisce segnali di progresso stabili e densi, superando l'instabilità numerica dei precedenti approcci non stadiali; e (iii) Train-Deploy Alignment, che colma il divario distributivo tramite aumentazione spaziotemporale, correzioni euristiche DAgger e livellamento temporale a blocchi. χ₀ consente a due set di robot a doppio braccio di orchestrare collaborativamente la manipuzione di capi d'abbigliamento a lungo termine, coprendo compiti dalla distensione, piegatura, all'appeso di diversi indumenti. Il nostro metodo mostra un'elevata affidabilità autonoma; siamo in grado di eseguire il sistema partendo da uno stato iniziale arbitrario per 24 ore consecutive senza interruzioni. Gli esperimenti convalidano che χ₀ supera lo stato dell'arte π₀.₅ nel tasso di successo di quasi il 250%, utilizzando solo 20 ore di dati e 8 GPU A100. Codice, dati e modelli saranno rilasciati per favorire la comunità.
Le dimostrazioni umane offrono un'ampia diversità ambientale e si scalano naturalmente, rappresentando un'alternativa attraente alla teleoperazione robotica. Sebbene questo paradigma abbia fatto progredire la manipolazione con bracci robotici, il suo potenziale per il problema più impegnativo e avido di dati della loco-manipolazione umanoide rimane in gran parte inesplorato. Presentiamo EgoHumanoid, il primo framework in grado di addestrare congiuntamente una politica visione-linguaggio-azione utilizzando abbondanti dimostrazioni umane egocentriche insieme a una quantità limitata di dati robotici, consentendo agli umanoidi di eseguire loco-manipolazione in vari ambienti del mondo reale. Per colmare il divario di embodiment tra umani e robot, incluse le discrepanze nella morfologia fisica e nel punto di vista, introduciamo una pipeline di allineamento sistematica che spazia dalla progettazione hardware all'elaborazione dei dati. Viene sviluppato un sistema portatile per la raccolta scalabile di dati umani e stabiliamo protocolli di raccolta pratici per migliorare la trasferibilità. Al centro della nostra pipeline di allineamento da umano a umanoide risiedono due componenti chiave. L'allineamento visivo riduce le discrepanze di dominio visivo causate dall'altezza della telecamera e dalla variazione prospettica. L'allineamento d'azione mappa i movimenti umani in uno spazio d'azione unificato e cinematicamente fattibile per il controllo umanoide. Esperimenti estensivi nel mondo reale dimostrano che l'incorporazione di dati egocentrici senza robot supera significativamente i baseline solo-robot del 51%, particolarmente in ambienti non visti. La nostra analisi rivela inoltre quali comportamenti si trasferiscono efficacemente e il potenziale di scalabilità dei dati umani.
I Modelli Linguistici di Grande Dimensione a Diffusione (dLLM) rappresentano un nuovo paradigma che supera la modellazione autoregressiva, offrendo prestazioni competitive e abilitando naturalmente un processo di decodifica flessibile. Nello specifico, i dLLM possono generare token in posizioni arbitrarie in parallelo, dotandoli di un potenziale significativo per lo scaling parallelo al tempo di test, precedentemente limitato dalla grave inefficienza della modellazione autoregressiva. In questo lavoro, introduciamo dVoting, una tecnica di voto rapida che potenzia la capacità di ragionamento senza addestramento, con solo un sovraccarico computazionale aggiuntivo accettabile. dVoting è motivato dall'osservazione che, attraverso più campioni per lo stesso prompt, le previsioni dei token rimangono largamente consistenti, mentre le prestazioni sono determinate da un piccolo sottoinsieme di token che mostra variabilità cross-campione. Sfruttando la capacità di generazione in posizione arbitraria dei dLLM, dVoting esegue un raffinamento iterativo campionando, identificando i token incerti tramite analisi di consistenza, rigenerandoli attraverso il voto e ripetendo il processo fino alla convergenza. Valutazioni estensive dimostrano che dVoting migliora costantemente le prestazioni su vari benchmark. Ottiene guadagni del 6,22%-7,66% su GSM8K, del 4,40%-7,20% su MATH500, del 3,16%-14,84% su ARC-C e del 4,83%-5,74% su MMLU. Il nostro codice è disponibile all'indirizzo https://github.com/fscdc/dVoting
Presentiamo Voxtral Realtime, un modello di riconoscimento vocale automatico nativamente in streaming che raggiunge la qualità della trascrizione offline con una latenza inferiore al secondo. A differenza degli approcci che adattano modelli offline tramite segmentazione o finestre scorrevoli, Voxtral Realtime è addestrato end-to-end per lo streaming, con un allineamento esplicito tra i flussi audio e testo. La nostra architettura si basa sul framework Delayed Streams Modeling, introducendo un nuovo codificatore audio causale e Ada RMS-Norm per un miglior condizionamento del ritardo. Scaliamo il pre-addestramento su un dataset su larga scala che copre 13 lingue. Con un ritardo di 480ms, Voxtral Realtime raggiunge prestazioni pari a quelle di Whisper, il sistema di trascrizione offline più diffuso. Rilasciamo i pesi del modello con licenza Apache 2.0.
Perché la navigazione visione-linguaggio deve essere vincolata a istruzioni linguistiche dettagliate e verbose? Sebbene tali dettagli facilitino il processo decisionale, contraddicono fondamentalmente l'obiettivo della navigazione nel mondo reale. Idealmente, gli agenti dovrebbero possedere l'autonomia di navigare in ambienti sconosciuti guidati unicamente da intenzioni semplici e di alto livello. Realizzare questa ambizione introduce una sfida formidabile: la Navigazione Oltre la Vista (Beyond-the-View Navigation, BVN), in cui gli agenti devono localizzare target distanti e non visibili senza una guida densa e passo-passo. I metodi esistenti basati su grandi modelli linguistici (LLM), sebbene abili nel seguire istruzioni dense, spesso soffrono di comportamenti miopi a causa della loro dipendenza da una supervisione a breve orizzonte. Tuttavia, estendere semplicemente l'orizzonte di supervisione destabilizza l'addestramento degli LLM. In questo lavoro, identifichiamo come i modelli di generazione video traggano intrinsecamente beneficio da una supervisione a lungo orizzonte per allinearsi alle istruzioni linguistiche, rendendoli particolarmente adatti per i compiti di BVN. Sfruttando questa intuizione, proponiamo di introdurre per la prima volta il modello di generazione video in questo campo. Tuttavia, la latenza proibitiva per generare video della durata di decine di secondi rende impraticabile un dispiegamento nel mondo reale. Per colmare questa lacuna, proponiamo SparseVideoNav, che raggiunge un'inferenza di traiettoria in meno di un secondo guidata da un futuro sparso generato che copre un orizzonte di 20 secondi. Ciò si traduce in un notevole aumento di velocità di 27 volte rispetto alla controparte non ottimizzata. Esperimenti zero-shot estensivi nel mondo reale dimostrano che SparseVideoNav raggiunge un tasso di successo 2,5 volte superiore rispetto ai migliori baseline basati su LLM nei compiti di BVN e segna la prima realizzazione di tale capacità in scenari notturni impegnativi.
Con il rapido progresso dei modelli di grandi dimensioni (LM), la loro sicurezza è diventata una priorità assoluta. Nell’attuale flusso di lavoro per la sicurezza dei Large Language Model (LLM) e dei Multimodal Large Language Model (MLLM), valutazione, diagnosi e allineamento sono spesso gestiti da strumenti separati. Nello specifico, la valutazione della sicurezza può solo individuare rischi comportamentali esterni, ma non è in grado di identificare le cause profonde interne. Allo stesso tempo, la diagnosi di sicurezza spesso si discosta da scenari di rischio concreti e rimane a un livello puramente esplicativo. In questo modo, l’allineamento della sicurezza manca di spiegazioni dettagliate sui cambiamenti nei meccanismi interni, rischiando di compromettere le capacità generali del modello. Per affrontare sistematicamente queste problematiche, proponiamo un progetto open-source, denominato DeepSight, per implementare un nuovo paradigma integrato di valutazione e diagnosi della sicurezza. DeepSight è un progetto di valutazione della sicurezza per modelli di grandi dimensioni a basso costo, riproducibile, efficiente e altamente scalabile, composto da uno strumento di valutazione (DeepSafe) e uno di diagnosi (DeepScan). Unificando protocolli di attività e dati, stabiliamo una connessione tra le due fasi e trasformiamo la valutazione della sicurezza da un’analisi in black-box a una in white-box. Inoltre, DeepSight è il primo toolkit open-source a supportare la valutazione dei rischi dell’IA di frontiera e l’integrazione tra valutazione e diagnosi della sicurezza.
La comprensione dei prodotti nell'e-commerce richiede per sua natura una forte capacità di comprensione multimodale da testo, immagini e attributi strutturati. I modelli visione-linguaggio (VLM) generici consentono una modellizzazione latente multimodale generalizzabile, ma non esiste una strategia documentata e consolidata per adattarli alla natura centrata sugli attributi, multi-immagine e rumorosa dei dati e-commerce, senza sacrificare le prestazioni generali. In questo lavoro, dimostriamo attraverso uno studio sperimentale su larga scala come un adattamento mirato dei VLM generici possa migliorare sostanzialmente le prestazioni nell'e-commerce preservando al contempo ampie capacità multimodali. Inoltre, proponiamo una nuova suite di valutazione estensiva che copre la comprensione approfondita del prodotto, il rigoroso rispetto delle istruzioni e l'estrazione dinamica degli attributi.
Introduciamo Gaia2, un benchmark per valutare gli agenti basati su grandi modelli linguistici in ambienti realistici e asincroni. A differenza delle valutazioni precedenti, statiche o sincrone, Gaia2 introduce scenari in cui gli ambienti evolvono indipendentemente dalle azioni dell'agente, richiedendo a quest'ultimo di operare sotto vincoli temporali, adattarsi a eventi rumorosi e dinamici, risolvere ambiguità e collaborare con altri agenti. Ogni scenario è associato a un verificatore di azioni di scrittura, consentendo una valutazione granulare a livello di azione e rendendo Gaia2 direttamente utilizzabile per l'apprendimento per rinforzo basato su ricompense verificabili. La nostra valutazione dei modelli proprietari e open-source più all'avanguardia mostra che nessun modello domina in tutte le capacità: GPT-5 (high) raggiunge il punteggio complessivo più alto del 42% pass@1 ma fallisce nei task sensibili al tempo, Claude-4 Sonnet sacrifica precisione e velocità per il costo, mentre Kimi-K2 guida la classifica dei modelli open-source con il 21% pass@1. Questi risultati evidenziano compromessi fondamentali tra ragionamento, efficienza, robustezza e mettono in luce le sfide nel colmare il divario "sim2real". Gaia2 è costruito su un ambiente consumer con la piattaforma open-source Agents Research Environments ed è progettato per essere facilmente estendibile. Rilasciando Gaia2 insieme al framework fondamentale ARE, miriamo a fornire alla comunità un'infrastruttura flessibile per sviluppare, valutare e addestrare la prossima generazione di sistemi agentici pratici.
Il panorama della generazione video basata sull'intelligenza artificiale sta attraversando una svolta cruciale: si sta evolvendo oltre la generazione generica - che si affida a un'estesa ingegneria dei prompt e a una "selezione accurata" - verso una generazione granulare e controllabile, unita a un post-processing di alta fedeltà. Nell'ambito della produzione cinematografica professionale assistita dall'IA, è fondamentale poter effettuare modifiche precise e mirate. Un pilastro di questa transizione è l'inserimento di istanze video, che richiede l'inserimento di un oggetto specifico in un filmato esistente preservando l'integrità della scena. A differenza del video editing tradizionale, questo compito richiede diversi requisiti: un posizionamento spazio-temporale preciso, un'interazione con la scena fisicamente coerente e la preservazione fedele delle dinamiche originali, il tutto ottenuto con uno sforzo minimo da parte dell'utente. In questo articolo, proponiamo PISCO, un modello di diffusione video per l'inserimento preciso di istanze con controllo arbitrario tramite keyframe sparsi. PISCO consente agli utenti di specificare un singolo keyframe, keyframe di inizio e fine, o keyframe sparsi in timestamp arbitrari, propagando automaticamente l'aspetto dell'oggetto, il suo movimento e l'interazione. Per affrontare il grave spostamento di distribuzione indotto dal condizionamento sparso nei modelli di diffusione video pre-addestrati, introduciamo la Variable-Information Guidance per un condizionamento robusto e il Distribution-Preserving Temporal Masking per stabilizzare la generazione temporale, insieme a un condizionamento geometricamente consapevole per un adattamento realistico alla scena. Costruiamo inoltre PISCO-Bench, un benchmark con annotazioni di istanze verificate e video di sfondo puliti accoppiati, e valutiamo le prestazioni utilizzando metriche percettive sia basate su riferimento che senza riferimento. Gli esperimenti dimostrano che PISCO supera costantemente i baseline strong di inpaintin e video editing sotto controllo sparso, e mostra miglioramenti prestazionali chiari e monotoni man mano che vengono forniti segnali di controllo aggiuntivi. Pagina del progetto: xiangbogaobarry.github.io/PISCO.
L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR), in particolare GRPO, è diventato lo standard per elicitare il ragionamento nei LLM. Tuttavia, la sua efficienza nell'esplorazione e nell'adattamento alla difficoltà rimane una sfida aperta. In questo lavoro, sosteniamo che questi colli di bottiglia derivino da una simmetria implicita del vantaggio intrinseca nella Stima del Vantaggio Relativo di Gruppo (GRAE). Questa simmetria induce due limitazioni critiche: (i) a livello di gruppo, la rigida simmetria nei pesi tra traiettorie corrette e scorrette lascia invariati i logit delle azioni non campionate, ostacolando così l'esplorazione di nuove soluzioni corrette. (ii) a livello del campione, l'algoritmo dà priorità implicitamente a campioni di media difficoltà, rimanendo agnostico rispetto alle richieste non stazionarie di focalizzazione sulla difficoltà. Attraverso esperimenti controllati, riveliamo che questa proprietà simmetrica è sub-ottimale, producendo due intuizioni fondamentali: (i) sopprimere asimmetricamente i vantaggi delle traiettorie corrette incoraggia un'esplorazione essenziale. (ii) l'efficienza di apprendimento è massimizzata da una transizione simile a un curriculum che dà priorità inizialmente a campioni più semplici, per spostarsi gradualmente verso quelli complessi. Motivati da questi risultati, proponiamo GRAE Asimmetrico (A-GRAE), che modula dinamicamente gli incentivi all'esplorazione e la focalizzazione sulla difficoltà del campione. Esperimenti su sette benchmark dimostrano che A-GRAE migliora costantemente GRPO e le sue varianti sia per i LLM che per i MLLM.
I lavori recenti esplorano il ragionamento latente per migliorare l'efficienza del ragionamento sostituendo le traiettorie di ragionamento esplicito con rappresentazioni continue in uno spazio latente, sebbene la sua efficacia vari a seconda dei contesti. L'analisi delle dinamiche di confidenza del modello sotto ragionamento latente rivela che le traiettorie di pensiero che terminano con risposte errate contengono meno passaggi a bassa confidenza rispetto a quelle che terminano con risposte corrette. Nel frattempo, suggeriamo che gli embedding soft aggregati da molteplici alternative di pensiero a bassa confidenza possano introdurre e propagare rumore, portando a un'elevata confidenza in traiettorie di ragionamento inaffidabili. Motivati da queste osservazioni, viene proposto ThinkRouter, un meccanismo di routing consapevole della confidenza al momento dell'inferenza, per evitare un'elevata confidenza e il rumore per un ragionamento efficiente. ThinkRouter instrada il pensiero verso lo spazio discreto dei token quando la confidenza del modello è bassa, e verso lo spazio latente altrimenti. Esperimenti estesi su benchmark di ragionamento STEM e di coding attraverso vari modelli di ragionamento di grandi dimensioni dimostrano che ThinkRouter supera le baseline di CoT esplicito, routing casuale e ragionamento latente in termini di accuratezza, raggiungendo un miglioramento medio di 19,70 punti in Pass@1, riducendo contemporaneamente la lunghezza della generazione fino al 15,55%. Un'ulteriore analisi completa rivela che ThinkRouter può calibrare gli errori derivanti dal CoT esplicito e dal ragionamento latente e accelera la generazione del token di fine pensiero abbassando globalmente la confidenza del modello.
I modelli linguistici di diffusione (DLLM) hanno il potenziale di abilitare una generazione di testo rapida decodificando più token in parallelo. Tuttavia, nella pratica, la loro efficienza inferenziale è limitata dalla necessità di molti passi di raffinamento, mentre una riduzione aggressiva del numero di passi comporta un degrado sostanziale della qualità della generazione. Per mitigare questo problema, proponiamo un framework di auto-distillazione della traiettoria che migliora la decodifica con pochi passi distillando le traiettorie generative del modello stesso. Incorporiamo l'Ottimizzazione Discriminativa Diretta (DDO), un obiettivo di divergenza KL inversa che promuove una distillazione modale e incoraggia lo studente a concentrarsi sui modi ad alta probabilità del docente. Su diversi benchmark, il nostro approccio supera costantemente baseline forti con pochi passi e l'addestramento standard con budget di passi ristretti. Sebbene la decodifica a passi completi rimanga superiore, riduciamo sostanzialmente il divario, stabilendo una solida base verso DLLM pratici con pochi passi. Il codice sorgente è disponibile all'indirizzo https://github.com/Tyrion58/T3D.
Le ampiezze di scattering a livello ad albero con singola elicità negativa per n gluoni vengono riesaminate. Sebbene spesso si presumano nulle, qui si dimostra che non si annullano per alcune configurazioni "semicollineari" esistenti nello spazio di Klein o per impulsi complessificati. Deriviamo un'espressione chiusa a tratti costanti per il decadimento di un gluone con elicità negativa in n-1 gluoni con elicità positiva in funzione dei loro impulsi. Questa formula soddisfa in modo non banale molteplici condizioni di consistenza, incluso il teorema di Weinberg per le particelle molli.
La memoria a lungo termine consente agli agenti basati su grandi modelli linguistici di affrontare compiti complessi attraverso interazioni storiche. Tuttavia, i framework esistenti incontrano un dilemma fondamentale tra la compressione efficiente delle informazioni ridondanti e il mantenimento di un recupero preciso per i task downstream. Per colmare questa lacuna, proponiamo MemFly, un framework basato sui principi del collo di bottiglia informativo che facilita l'evoluzione dinamica della memoria per i LLM. Il nostro approccio minimizza l'entropia di compressione mentre massimizza l'entropia di rilevanza tramite un ottimizzatore senza gradienti, costruendo una struttura di memoria stratificata per una memorizzazione efficiente. Per sfruttare appieno MemFly, sviluppiamo un meccanismo di recupero ibrido che integra perfettamente percorsi semantici, simbolici e topologici, incorporando un raffinamento iterativo per gestire query complesse multi-hop. Esperimenti completi dimostrano che MemFly supera sostanzialmente i baseline state-of-the-art in coerenza della memoria, fedeltà delle risposte e accuratezza.
L'evoluzione dei grandi modelli linguistici (LLM) verso applicazioni con contesti ultra-lunghi affronta le sfide poste dagli elevati costi computazionali e di memoria dell'architettura Transformer. Sebbene i meccanismi di attenzione sparsa e lineare esistenti tentino di mitigare questi problemi, comportano tipicamente un compromesso tra efficienza della memoria e prestazioni del modello. Questo articolo introduce MiniCPM-SALA, un'architettura ibrida da 9 miliardi di parametri che integra la modellazione fedele del contesto lungo dell'attenzione sparsa (InfLLM-V2) con l'efficienza globale dell'attenzione lineare (Lightning Attention). Impiegando un algoritmo di selezione degli strati per integrare questi meccanismi in un rapporto 1:3 e utilizzando una codifica posizionale ibrida (HyPE), il modello mantiene efficienza e prestazioni per compiti con contesti lunghi. Inoltre, introduciamo un framework di addestramento continuo economicamente vantaggioso che trasforma modelli pre-addestrati basati su Transformer in modelli ibridi, riducendo i costi di addestramento di circa il 75% rispetto all'addestramento da zero. Esperimenti estensivi dimostrano che MiniCPM-SALA mantiene capacità generali paragonabili ai modelli con attenzione completa, offrendo al contempo un'efficienza migliorata. Su una singola GPU NVIDIA A6000D, il modello raggiunge una velocità di inferenza fino a 3,5 volte superiore a quella del modello con attenzione completa per sequenze lunghe 256K token e supporta lunghezze di contesto fino a 1 milione di token, una scala in cui i tradizionali modelli da 8B con attenzione completa falliscono a causa dei vincoli di memoria.
L'apprendimento aperto concepisce l'intelligenza come emergente dall'interazione continua con uno spazio in continua espansione di ambienti. Sebbene i recenti progressi abbiano utilizzato modelli di base per generare programmaticamente ambienti diversificati, questi approcci spesso si concentrano sulla scoperta di comportamenti isolati piuttosto che sull'orchestrazione di una progressione sostenuta. In mondi aperti complessi, il vasto spazio combinatorio di possibili sfide rende difficile per gli agenti scoprire sequenze di esperienze che rimangano costantemente apprendibili. Per affrontare questo problema, proponiamo Dreaming in Code (DiCode), un framework in cui i modelli di base sintetizzano codice eseguibile dell'ambiente per impalcare l'apprendimento verso una competenza crescente. In DiCode, il "sognare" assume la forma di materializzare variazioni a livello di codice del mondo. Istanziamo DiCode in Craftax, un benchmark aperto e impegnativo caratterizzato da meccaniche ricche e progressione a lungo termine. Empiricamente, DiCode consente agli agenti di acquisire abilità a lungo termine, ottenendo un miglioramento del 16% nella media dei ritorni rispetto al baseline più forte e un successo non nullo nelle attività di combattimento tardive in cui i metodi precedenti falliscono. I nostri risultati suggeriscono che la progettazione di ambienti a livello di codice fornisce un meccanismo pratico per il controllo del curriculum, consentendo la costruzione di ambienti intermedi che colmano i divari di competenza nei mondi aperti. La pagina del progetto e il codice sorgente sono disponibili su https://konstantinosmitsides.github.io/dreaming-in-code e https://github.com/konstantinosmitsides/dreaming-in-code.
L'addestramento preliminare di grandi modelli linguistici (LLM) richiede tipicamente cluster centralizzati con migliaia di GPU ad alta memoria (ad esempio, H100/A100). I metodi recenti di addestramento decentralizzato riducono il sovraccarico comunicativo impiegando ottimizzazione federata; tuttavia, essi necessitano ancora di addestrare l'intero modello su ciascun nodo, rimanendo vincolati dai limiti di memoria delle GPU. In questo lavoro, proponiamo SPES (SParse Expert Synchronization), un framework decentralizzato efficiente in memoria per l'addestramento preliminare di LLM a miscela di esperti (MoE). SPES addestra solo un sottoinsieme di esperti per nodo, riducendo sostanzialmente l'impronta di memoria. Ciascun nodo aggiorna i propri esperti locali e si sincronizza periodicamente con altri nodi, eliminando la trasmissione dei parametri completi mentre garantisce una condivisione efficiente della conoscenza. Per accelerare la convergenza, introduciamo una strategia di riscaldamento mediante fusione di esperti, in cui gli esperti scambiano conoscenza nelle fasi iniziali dell'addestramento, per stabilire rapidamente capacità fondamentali. Con SPES, abbiamo addestrato un LLM MoE da 2 miliardi di parametri utilizzando 16 GPU standalone da 48GB su connessioni internet, raggiungendo prestazioni competitive con LLM addestrati centralmente con budget computazionali simili. Dimostriamo ulteriormente la scalabilità addestrando un modello da 7B da zero e un modello da 9B ricavato da un checkpoint denso, entrambi in linea con i precedenti benchmark centralizzati. Il nostro codice è disponibile all'indirizzo https://github.com/zjr2000/SPES.
La distribuzione su larga scala di robot richiede robustezza rispetto alla lunga coda di situazioni quotidiane. Le innumerevoli variazioni nella disposizione della scena, nella geometria degli oggetti e nelle specifiche dei compiti che caratterizzano gli ambienti reali sono vaste e sottorappresentate nei benchmark robotici esistenti. Misurare questo livello di generalizzazione richiede un'infrastruttura con una scala e una diversità che la sola valutazione fisica non può fornire. Introduciamo MolmoSpaces, un ecosistema completamente aperto per supportare il benchmarking su larga scala delle policy robotiche. MolmoSpaces è composto da oltre 230.000 ambienti indoor diversificati, che spaziano da scene domestiche realizzate a mano a case multi-stanza generate proceduralmente, popolati da 130.000 asset di oggetti riccamente annotati, inclusi 48.000 oggetti manipolabili con 42 milioni di prese stabili. Fondamentalmente, questi ambienti sono indipendenti dal simulatore, supportando opzioni popolari come MuJoCo, Isaac e ManiSkill. L'ecosistema supporta l'intero spettro dei compiti embodied: manipolazione statica e mobile, navigazione e compiti a lungo orizzonte multi-stanza che richiedono una coordinazione tra percezione, pianificazione e interazione attraverso interi ambienti indoor. Progettiamo inoltre MolmoSpaces-Bench, una suite di benchmark di 8 compiti in cui i robot interagiscono con le nostre scene diversificate e gli oggetti riccamente annotati. I nostri esperimenti mostrano che MolmoSpaces-Bench presenta una forte correlazione sim-to-real (R = 0,96, ho = 0,98), confermano che policy zero-shot più recenti e potenti superano le versioni precedenti nei nostri benchmark e identificano sensibilità chiave alla formulazione dei prompt, alle posizioni iniziali dei giunti e all'occlusione della telecamera. Attraverso MolmoSpaces e i suoi asset e strumenti open-source, forniamo una base per la generazione scalabile di dati, l'addestramento delle policy e la creazione di benchmark per la ricerca sull'apprendimento robotico.
I documenti aziendali, come moduli e report, incorporano informazioni critiche per applicazioni a valle come l'archiviazione dei dati, i flussi di lavoro automatizzati e l'analisi. Sebbene i modelli linguistici visivi (VLM) generalisti performino bene su benchmark consolidati per la comprensione dei documenti, la loro capacità di condurre un'estrazione strutturata, olistica e granulare su tipi di documento diversi e schemi flessibili non è stata ancora studiata approfonditamente. I dataset esistenti per l'estrazione di entità chiave (KEE), l'estrazione di relazioni (RE) e il question answering visivo (VQA) sono limitati da ontologie di entità ristrette, query semplici o tipi di documento omogenei, trascurando spesso l'esigenza di un'estrazione strutturata e adattabile. Per colmare queste lacune, introduciamo ExStrucTiny, un nuovo dataset di benchmark per l'estrazione strutturata di informazioni (IE) da immagini di documenti, che unifica aspetti di KEE, RE e VQA. Costruito attraverso una pipeline innovativa che combina campioni sintetici e manuali convalidati da esseri umani, ExStrucTiny copre tipi di documento e scenari di estrazione più vari. Analizziamo su questo benchmark VLM open e closed, evidenziando sfide come l'adattamento dello schema, la sotto-specificazione delle query e la localizzazione delle risposte. Speriamo che il nostro lavoro fornisca una base solida per migliorare i modelli generalisti per l'IE strutturato nei documenti.
I modelli linguistici di grandi dimensioni multimodali (MLLM) sono sempre più utilizzati per compiti nel mondo reale che coinvolgono ragionamenti a più fasi e generazioni di testi lunghi, dove l'affidabilità richiede che gli output del modello siano ancorati a fonti di input eterogenee e che le singole affermazioni fattuali siano verificabili. Tuttavia, i benchmark e i metodi di valutazione esistenti per l'ancoraggio multimodale si concentrano su scenari semplificati, basati sull'osservazione, o su modalità limitate, e non riescono a valutare l'attribuzione in contesti complessi di ragionamento multimodale. Introduciamo MuRGAt (Multimodal Reasoning with Grounded Attribution), un benchmark per valutare l'attribuzione fattuale multimodale in contesti che richiedono un ragionamento che va oltre l'osservazione diretta. Dati input che spaziano su video, audio e altre modalità, MuRGAt richiede ai modelli di generare risposte con un ragionamento esplicito e citazioni precise, dove ogni citazione specifica sia la modalità che i segmenti temporali. Per consentire una valutazione affidabile, introduciamo un framework di valutazione automatica che mostra una forte correlazione con i giudizi umani. Il benchmarking con punteggi umani e automatizzati rivela che anche MLLM potenti spesso producono citazioni allucinate nonostante un ragionamento corretto. Inoltre, osserviamo un compromesso fondamentale: aumentare la profondità del ragionamento o imporre un ancoraggio strutturato spesso degrada l'accuratezza, evidenziando un divario significativo tra il ragionamento interno e un'attribuzione verificabile.
I grandi modelli linguistici (LLM) hanno dimostrato capacità eccezionali di ragionamento, e i paradigmi di co-evoluzione hanno mostrato risultati promettenti in domini come il codice e la matematica. Tuttavia, nei compiti di ragionamento scientifico, questi modelli rimangono fragili a causa di una valutazione inaffidabile delle soluzioni e di una diversità limitata nelle strategie di verifica. In questo lavoro, proponiamo Sci-CoE, un framework scientifico di co-evoluzione a due stadi che consente ai modelli di auto-evolversi sia come risolutori che come verificatori attraverso una transizione dalla supervisione sparsa all'apprendimento non supervisionato. Nella prima fase, il modello utilizza un piccolo insieme di dati annotati per stabilire ancoraggi fondamentali di giudizio di correttezza per il Verificatore. Nella seconda fase, introduciamo un meccanismo di ricompensa geometrica che considera congiuntamente consenso, affidabilità e diversità, guidando l'auto-iterazione su larga scala su dati non etichettati. Esperimenti su diversi benchmark scientifici generali dimostrano che Sci-CoE potenzia le capacità di ragionamento complesso ed esibisce una forte scalabilità, facilitando la costruzione di sistemi di valutazione più robusti e diversificati. I codici sono disponibili all'indirizzo https://github.com/InternScience/Sci-CoE.
L'allineamento personalizzato dei grandi modelli linguistici mira ad adattare le risposte alle preferenze individuali degli utenti, tipicamente tramite apprendimento per rinforzo. Una sfida chiave è ottenere segnali di ricompensa accurati e specifici per l'utente in scenari aperti. Gli attuali modelli di ricompensa personalizzati presentano due limiti persistenti: (1) semplificano eccessivamente preferenze diversificate e specifiche dello scenario in un insieme piccolo e fisso di principi di valutazione, e (2) faticano a generalizzare per nuovi utenti con feedback limitato. A tal fine, proponiamo P-GenRM, il primo Modello di Ricompensa Generativo Personalizzato con scalabilità basata sull'utente al momento del test. P-GenRM trasforma i segnali di preferenza in catene di valutazione strutturate che derivano personaggi adattivi e griglie di valutazione attraverso vari scenari. Inoltre, raggruppa gli utenti in Prototipi di Utente e introduce un meccanismo di scalabilità a doppia granularità: a livello individuale, scala e aggrega in modo adattivo lo schema di punteggio di ciascun utente; a livello di prototipo, incorpora le preferenze di utenti simili. Questo design mitiga il rumore nelle preferenze inferite e migliora la generalizzazione per utenti non visti tramite trasferimento basato su prototipi. I risultati empirici mostrano che P-GenRM raggiunge risultati all'avanguardia sui benchmark dei modelli di ricompensa personalizzati più utilizzati, con un miglioramento medio del 2.31%, e dimostra una forte generalizzazione su un dataset fuori distribuzione. Significativamente, la scalabilità basata sull'utente al momento del test fornisce un ulteriore miglioramento del 3%, dimostrando un allineamento personalizzato più forte con scalabilità durante il test.
La comprensione metaforica nelle immagini rimane una sfida critica per i sistemi di intelligenza artificiale odierni. Sebbene i Modelli Linguistici Multimodali (MLLM) eccellano nel Rispondere a Domande Visive (VQA) di base, faticano costantemente a cogliere le implicazioni culturali, emotive e contestuali sottili incorporate nei contenuti visivi. Questa difficoltà deriva dalla richiesta del compito di sofisticati ragionamenti a più passi, contesto culturale e capacità di Teoria della Mente (ToM), di cui i modelli attuali sono carenti. Per colmare questa lacuna, proponiamo MetaphorStar, il primo framework di apprendimento per rinforzo (RL) visivo end-to-end per compiti di implicazione visiva. Il nostro framework include tre componenti fondamentali: il dataset granulare TFQ-Data, il metodo di RL visivo TFQ-GRPO e il benchmark ben strutturato TFQ-Bench. La nostra famiglia MetaphorStar, completamente open-source e addestrata utilizzando TFQ-GRPO su TFQ-Data, migliora significativamente le prestazioni di una media dell'82,6% sui benchmark di implicazione visiva. Rispetto a oltre 20 MLLM mainstream, MetaphorStar-32B raggiunge lo stato dell'arte (SOTA) nelle Domande a Scelta Multipla e nelle Domande in Stile Aperto, superando significativamente il miglior modello closed-source, Gemini-3.0-pro, nelle Domande Vero-Falso. Crucialmente, i nostri esperimenti rivelano che l'apprendimento dei compiti di implicazione visiva migliora l'abilità di comprensione generale, in particolare la capacità di ragionamento visivo complesso. Forniamo inoltre un'analisi sistematica del ridimensionamento dei parametri del modello, del ridimensionamento dei dati di addestramento e dell'impatto di diverse architetture di modelli e strategie di addestramento, dimostrando l'ampia applicabilità del nostro metodo. Abbiamo reso open-source tutti i pesi dei modelli, i dataset e il codice del metodo su https://metaphorstar.github.io.
Studiamo agenti potenziati da strumenti con vincoli di budget, in cui un modello linguistico di grandi dimensioni deve risolvere compiti multi-step invocando strumenti esterni sotto un rigido budget monetario. Formalizziamo questo scenario come un processo decisionale sequenziale nello spazio contestuale con esecuzioni di strumenti a costo variabile e stocastiche, rendendo la pianificazione diretta intrattabile a causa degli spazi di stati-azione massivi, dell'elevata varianza degli esiti e del costo proibitivo dell'esplorazione. Per affrontare queste sfide, proponiamo INTENT, un framework di pianificazione in fase di inferenza che sfrutta un modello gerarchico del mondo consapevole delle intenzioni per anticipare l'uso futuro degli strumenti, il rischio calibrato dei costi e guidare le decisioni online. Su StableToolBench arricchito con costi, INTENT applica rigorosamente la fattibilità del budget rigido migliorando sostanzialmente il successo dei compiti rispetto ai baseline e rimanendo robusto sotto cambiamenti dinamici di mercato come variazioni dei prezzi degli strumenti e budget flessibili.
Il Large-scale Visual Instruction Tuning (VIT) è diventato un paradigma chiave per migliorare le prestazioni dei modelli visione-linguaggio (VLM) in varie attività multimodali. Tuttavia, l'addestramento su dataset su larga scala è computazionalmente costoso e inefficiente a causa della ridondanza dei dati, il che motiva la necessità di una selezione dei dati multimodali per migliorare l'efficienza dell'addestramento. I metodi di selezione dati esistenti per il VIT richiedono o un addestramento costoso o il calcolo del gradiente. Le alternative che non richiedono addestramento spesso dipendono da modelli proxy o dataset, da rappresentazioni indipendenti dalle istruzioni e da similarità a coppie con complessità quadratica, limitando la scalabilità e la fedeltà della rappresentazione. In questo lavoro, proponiamo ScalSelect, un metodo di selezione dati multimodale scalabile, che non richiede addestramento e ha una complessità lineare rispetto al numero di campioni, eliminando la necessità di modelli esterni o dataset ausiliari. ScalSelect costruisce prima le rappresentazioni dei campioni estraendo le caratteristiche visive a cui i token di istruzione nel VLM target prestano maggiore attenzione, catturando così le informazioni rilevanti per l'istruzione. Successivamente, identifica i campioni le cui rappresentazioni approssimano al meglio il sottospazio dominante delle rappresentazioni dell'intero dataset, consentendo una valutazione scalabile dell'importanza senza confronti a coppie. Esperimenti estesi su molteplici VLM, dataset e budget di selezione dimostrano che ScalSelect raggiunge oltre il 97,5% delle prestazioni dell'addestramento sull'intero dataset utilizzando solo il 16% dei dati, e in alcuni contesti supera persino l'addestramento con tutti i dati. Il codice è disponibile all'indirizzo https://github.com/ChangtiWu/ScalSelect.
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è fondamentale per l'addestramento dei moderni modelli di ragionamento, ma la natura non divulgata dei dati di addestramento solleva preoccupazioni riguardo alla contaminazione dei benchmark. A differenza dei metodi di pre-addestramento, che ottimizzano i modelli utilizzando probabilità a livello di token, l'RLVR affina i modelli sulla base del feedback di ricompensa proveniente da traiettorie di ragionamento auto-generate, rendendo meno efficaci i convenzionali metodi di rilevamento basati sulla verosimiglianza. Dimostriamo che l'RLVR induce una firma comportamentale distintiva: i prompt incontrati durante l'addestramento RLVR producono generazioni più rigide e simili, mentre i prompt non visti mantengono una maggiore diversità. Introduciamo Min-kNN Distance, un semplice rilevatore di tipo black-box che quantifica questo collasso campionando più completamenti per un dato prompt e calcolando la media delle k più piccole distanze di edit dei vicini più prossimi. Min-kNN Distance non richiede l'accesso al modello di riferimento né alle probabilità dei token. Esperimenti condotti su molteplici modelli di ragionamento addestrati con RLVR mostrano che Min-kNN Distance distingue in modo affidabile gli esempi visti durante l'RL da quelli non visti e supera le baseline esistenti per l'inferenza di appartenenza e il rilevamento della contaminazione da RL.
La navigazione embodied è stata a lungo frammentata da architetture specifiche per singoli compiti. Presentiamo ABot-N0, un modello foundation unificato Visione-Linguaggio-Azione (VLA) che realizza una "Grande Unificazione" su 5 compiti fondamentali: Point-Goal, Object-Goal, Instruction-Following, POI-Goal e Person-Following. ABot-N0 utilizza un'architettura gerarchica "Cervello-Azione", accoppiando un Cervello Cognitivo basato su LLM per il ragionamento semantico con un Esperto d'Azione basato su Flow Matching per la generazione di traiettorie precise e continue. Per supportare l'apprendimento su larga scala, abbiamo sviluppato il Motore dei Dati ABot-N0, curando 16,9 milioni di traiettorie esperte e 5,0 milioni di campioni di ragionamento in 7.802 scene 3D ad alta fedeltà (10,7 km²). ABot-N0 raggiunge nuove prestazioni state-of-the-art su 7 benchmark, superando significativamente i modelli specializzati. Inoltre, il nostro Sistema di Navigazione Agente integra un pianificatore con memoria topologica gerarchica, abilitando missioni robuste e a lungo termine in ambienti real-world dinamici.
La generazione di stem musicali, ovvero il compito di produrre clip audio di strumenti isolati e sincronizzati musicalmente, offre il potenziale di un maggiore controllo utente e una migliore aderenza ai flussi di lavoro dei musicisti rispetto ai modelli convenzionali di testo-musica. Gli approcci esistenti per la generazione di stem, tuttavia, si basano su architetture fisse che producono in parallelo un set predefinito di stem, oppure generano un solo stem alla volta, risultando in un'inferenza lenta nonostante la flessibilità nella combinazione degli stem. Proponiamo Stemphonic, un framework basato su diffusione/flusso che supera questo compromesso e genera un set variabile di stem sincronizzati in un unico passaggio di inferenza. Durante l'addestramento, trattiamo ogni stem come un elemento del batch, raggruppiamo gli stem sincronizzati in un batch e applichiamo un latente di rumore condiviso a ciascun gruppo. Al momento dell'inferenza, utilizziamo un latente di rumore iniziale condiviso e input testuali specifici per stem per generare output multi-stem sincronizzati in un solo passaggio. Estendiamo ulteriormente il nostro approccio per abilitare la generazione condizionale multi-stem in un passaggio e controlli di attività per singolo stem, consentendo agli utenti di generare in modo iterativo e orchestrare la stratificazione temporale di un mix. Valutiamo i nostri risultati su molteplici set di valutazione di stem open-source e dimostriamo che Stemphonic produce output di qualità superiore accelerando il processo di generazione del mix completo del 25-50%. Demo disponibili su: https://stemphonic-demo.vercel.app.
Il compromesso tra interpretabilità e accuratezza rimane una sfida fondamentale nell'apprendimento automatico. I Modelli Additivi Generalizzati (GAM) standard offrono attribuzioni chiare delle feature, ma sono spesso limitati dalla loro natura strettamente additiva, che può ridurre le prestazioni predittive. L'introduzione di interazioni tra feature può aumentare l'accuratezza, ma rischia di offuscare il contributo individuale di ciascuna feature. Per affrontare questi problemi, proponiamo Neural Additive Experts (NAE), un nuovo framework che bilancia armoniosamente interpretabilità e accuratezza. Gli NAE utilizzano un framework di mixture of experts, apprendendo reti specializzate multiple per ogni feature, mentre un meccanismo di gating dinamico integra le informazioni tra le feature, rilassando così i rigidi vincoli additivi. Inoltre, proponiamo tecniche di regolarizzazione mirata per mitigare la varianza tra le previsioni degli esperti, facilitando una transizione graduale da un modello esclusivamente additivo a uno che cattura interazioni complesse tra feature, mantenendo al contempo chiarezza nelle attribuzioni. La nostra analisi teorica e gli esperimenti su dati sintetici illustrano la flessibilità del modello, e valutazioni estensive su dataset reali confermano che gli NAE raggiungono un equilibrio ottimale tra accuratezza predittiva e spiegazioni trasparenti a livello di feature. Il codice è disponibile all'indirizzo https://github.com/Teddy-XiongGZ/NAE.