Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo MiniMax-Speech, un modello di sintesi vocale (Text-to-Speech, TTS) basato su Transformer autoregressivo che genera un parlato di alta qualità. Un'innovazione chiave è il nostro speaker encoder apprendibile, che estrae le caratteristiche timbriche da un audio di riferimento senza richiederne la trascrizione. Ciò consente a MiniMax-Speech di produrre un parlato altamente espressivo con un timbro coerente con il riferimento in modalità zero-shot, supportando anche il clonaggio vocale one-shot con una somiglianza eccezionalmente elevata rispetto alla voce di riferimento. Inoltre, la qualità complessiva dell'audio sintetizzato è migliorata grazie al Flow-VAE proposto. Il nostro modello supporta 32 lingue e dimostra prestazioni eccellenti su molteplici metriche di valutazione oggettive e soggettive. In particolare, raggiunge risultati all'avanguardia (state-of-the-art, SOTA) sulle metriche oggettive di clonaggio vocale (Word Error Rate e Speaker Similarity) e si è posizionato al primo posto nella classifica pubblica di TTS Arena. Un altro punto di forza di MiniMax-Speech, garantito dalle rappresentazioni robuste e disaccoppiate dello speaker encoder, è la sua estensibilità senza modificare il modello base, abilitando varie applicazioni come: il controllo arbitrario delle emozioni vocali tramite LoRA; la sintesi da testo a voce (Text to Voice, T2V) generando direttamente le caratteristiche timbriche da una descrizione testuale; e il clonaggio vocale professionale (Professional Voice Cloning, PVC) ottimizzando le caratteristiche timbriche con dati aggiuntivi. Invitiamo i lettori a visitare https://minimax-ai.github.io/tts_tech_report per ulteriori esempi.
I sistemi di testo-audio, sebbene sempre più performanti, sono lenti nel tempo di inferenza, rendendo la loro latenza poco pratica per molte applicazioni creative. Presentiamo l'ARC (Adversarial Relativistic-Contrastive) post-training, il primo algoritmo di accelerazione avversaria per modelli di diffusione/flusso non basato sulla distillazione. Mentre i precedenti metodi di post-training avversario hanno faticato a competere con le costose controparti basate sulla distillazione, l'ARC post-training è una procedura semplice che (1) estende una recente formulazione avversaria relativistica al post-training per modelli di diffusione/flusso e (2) la combina con un nuovo obiettivo discriminatorio contrastivo per favorire una migliore aderenza al prompt. Abbiamo abbinato l'ARC post-training a una serie di ottimizzazioni per Stable Audio Open e costruito un modello in grado di generare circa 12 secondi di audio stereo a 44,1 kHz in circa 75 ms su un H100 e circa 7 secondi su un dispositivo mobile edge, il più veloce modello testo-audio a nostra conoscenza.
Presentiamo AM-Thinking-v1, un modello linguistico denso da 32B che avanza le frontiere del ragionamento, incarnando lo spirito collaborativo dell'innovazione open-source. Superando DeepSeek-R1 e rivaleggiando con i principali modelli Mixture-of-Experts (MoE) come Qwen3-235B-A22B e Seed1.5-Thinking, AM-Thinking-v1 raggiunge punteggi impressionanti di 85.3 su AIME 2024, 74.4 su AIME 2025 e 70.3 su LiveCodeBench, dimostrando capacità matematiche e di codifica all'avanguardia tra i modelli open-source di scala simile. Costruito interamente a partire dal modello base open-source Qwen2.5-32B e da query pubblicamente disponibili, AM-Thinking-v1 sfrutta una pipeline di post-addestramento meticolosamente progettata - combinando fine-tuning supervisionato e apprendimento per rinforzo - per offrire capacità di ragionamento eccezionali. Questo lavoro dimostra che la comunità open-source può raggiungere alte prestazioni alla scala 32B, un punto ottimale pratico per il deployment e il fine-tuning. Bilanciando prestazioni di alto livello e usabilità nel mondo reale, speriamo che AM-Thinking-v1 ispiri ulteriori sforzi collaborativi per sfruttare modelli di media scala, spingendo i confini del ragionamento mantenendo l'accessibilità al centro dell'innovazione. Abbiamo reso open-source il nostro modello su https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.
Costruire modelli linguistici multimodali è fondamentalmente impegnativo: richiede l'allineamento delle modalità visive e linguistiche, la cura di dati di istruzione di alta qualità e l'evitare il degrado delle capacità esistenti basate solo sul testo una volta introdotta la visione. Queste difficoltà sono ulteriormente amplificate in un contesto multilingue, dove la necessità di dati multimodali in diverse lingue aggrava la scarsità di dati esistente, la traduzione automatica spesso distorce il significato e l'oblio catastrofico è più pronunciato. Per affrontare le sfide sopra menzionate, introduciamo tecniche innovative che abbracciano sia i dati che la modellazione. In primo luogo, sviluppiamo un framework di annotazione sintetica che cura dati di istruzione multimodali multilingue di alta qualità e diversificati, consentendo ai modelli Aya Vision di produrre risposte naturali e preferite dagli esseri umani a input multimodali in molte lingue. A complemento di ciò, proponiamo una tecnica di fusione cross-modale che mitiga l'oblio catastrofico, preservando efficacemente le capacità basate solo sul testo mentre migliora simultaneamente le prestazioni generative multimodali. Aya-Vision-8B raggiunge prestazioni di livello superiore rispetto a modelli multimodali robusti come Qwen-2.5-VL-7B, Pixtral-12B e persino modelli molto più grandi come Llama-3.2-90B-Vision. Scaliamo ulteriormente questo approccio con Aya-Vision-32B, che supera modelli più del doppio delle sue dimensioni, come Molmo-72B e LLaMA-3.2-90B-Vision. Il nostro lavoro avanza il progresso multilingue sulla frontiera multimodale e fornisce approfondimenti su tecniche che riducono efficacemente la necessità di calcolo pur fornendo prestazioni estremamente elevate.
La capacità di seguire istruzioni valuta i modelli linguistici di grandi dimensioni (LLM) sulla loro abilità di generare output che rispettino i vincoli definiti dall'utente. Tuttavia, i benchmark esistenti si basano spesso su prompt di vincoli predefiniti, che mancano della diversità dell'uso nel mondo reale e limitano una valutazione granulare delle prestazioni. Per colmare questa lacuna, proponiamo un framework multidimensionale di vincoli che comprende tre pattern di vincoli, quattro categorie di vincoli e quattro livelli di difficoltà. Basandoci su questo framework, sviluppiamo una pipeline automatizzata per la generazione di istruzioni che esegue l'espansione dei vincoli, il rilevamento di conflitti e la riscrittura delle istruzioni, producendo 1.200 campioni di test verificabili tramite codice per il seguimento delle istruzioni. Valutiamo 19 LLM appartenenti a sette famiglie di modelli e scopriamo una variazione significativa nelle prestazioni tra le diverse forme di vincoli. Ad esempio, la prestazione media scende dal 77,67% al Livello I al 32,96% al Livello IV. Inoltre, dimostriamo l'utilità del nostro approccio utilizzandolo per generare dati per l'apprendimento per rinforzo, ottenendo miglioramenti sostanziali nel seguimento delle istruzioni senza degradare le prestazioni generali. Un'analisi approfondita indica che questi miglioramenti derivano principalmente da modifiche nei parametri dei moduli di attenzione del modello, che migliorano il riconoscimento e l'aderenza ai vincoli. Il codice e i dati sono disponibili su https://github.com/Junjie-Ye/MulDimIF.
Presentiamo gg-bench, una raccolta di ambienti di gioco progettati per valutare le capacità di ragionamento generale nei modelli linguistici. A differenza della maggior parte dei benchmark statici, gg-bench è un processo di generazione di dati in cui nuove istanze di valutazione possono essere generate a piacimento. In particolare, gg-bench è generato sinteticamente attraverso (1) l'uso di un modello linguistico di grandi dimensioni (LLM) per generare descrizioni in linguaggio naturale di giochi innovativi, (2) l'uso dello stesso LLM per implementare ciascun gioco in codice come ambiente Gym, e (3) l'addestramento di agenti di apprendimento per rinforzo (RL) tramite auto-gioco sui giochi generati. Valutiamo i modelli linguistici in base al loro tasso di vittoria contro questi agenti RL, fornendo ai modelli la descrizione del gioco, lo stato attuale del tabellone e un elenco di mosse valide, dopo di che i modelli restituiscono le mosse che intendono effettuare. gg-bench è impegnativo: i migliori LLM come GPT-4o e Claude 3.7 Sonnet raggiungono tassi di vittoria del 7-9% su gg-bench utilizzando l'apprendimento in-context, mentre modelli di ragionamento come o1, o3-mini e DeepSeek-R1 raggiungono tassi di vittoria medi del 31-36%. Rilasciamo i giochi generati, il processo di generazione dei dati e il codice di valutazione per supportare futuri lavori di modellazione e l'espansione del nostro benchmark.
I modelli visione-linguaggio (VLMs) combinano la percezione visiva con le capacità generali, come il ragionamento, dei modelli linguistici di grandi dimensioni (LLMs). Tuttavia, i meccanismi attraverso i quali queste due abilità possono essere combinate e contribuire rimangono poco compresi. In questo lavoro, esploriamo la composizione di percezione e ragionamento attraverso la fusione di modelli che collega i parametri di modelli diversi. A differenza dei lavori precedenti che spesso si concentrano sulla fusione di modelli dello stesso tipo, proponiamo la fusione di modelli attraverso le modalità, consentendo l'incorporazione delle capacità di ragionamento degli LLMs nei VLMs. Attraverso esperimenti estesi, dimostriamo che la fusione di modelli offre una via di successo per trasferire le capacità di ragionamento dagli LLMs ai VLMs in modo privo di addestramento. Inoltre, utilizziamo i modelli fusi per comprendere il meccanismo interno di percezione e ragionamento e come la fusione lo influenzi. Scopriamo che le capacità di percezione sono prevalentemente codificate nei primi strati del modello, mentre il ragionamento è largamente facilitato dagli strati intermedi e finali. Dopo la fusione, osserviamo che tutti gli strati iniziano a contribuire al ragionamento, mentre la distribuzione delle abilità di percezione attraverso gli strati rimane sostanzialmente invariata. Queste osservazioni gettano luce sul potenziale della fusione di modelli come strumento per l'integrazione e l'interpretazione multimodale.
Questo studio affronta la lacuna critica nell'elaborazione del linguaggio naturale arabo sviluppando un efficace sistema di Dizionario Inverso (RD) per l'arabo che consente agli utenti di trovare parole in base alle loro descrizioni o significati. Presentiamo un approccio innovativo basato su trasformatori con un'architettura di rete neurale semi-encoder caratterizzata da strati geometricamente decrescenti, che raggiunge risultati all'avanguardia per i compiti di RD in arabo. La nostra metodologia incorpora un processo completo di costruzione del dataset e stabilisce standard di qualità formali per le definizioni lessicografiche in arabo. Esperimenti con vari modelli pre-addestrati dimostrano che i modelli specifici per l'arabo superano significativamente gli embedding multilingue generali, con ARBERTv2 che raggiunge il miglior punteggio di ranking (0,0644). Inoltre, forniamo un'astrazione formale del compito del dizionario inverso che migliora la comprensione teorica e sviluppiamo una libreria Python modulare ed estensibile (RDTL) con pipeline di addestramento configurabili. La nostra analisi sulla qualità del dataset rivela importanti intuizioni per migliorare la costruzione delle definizioni in arabo, portando a otto standard specifici per la creazione di risorse di dizionario inverso di alta qualità. Questo lavoro contribuisce significativamente alla linguistica computazionale araba e fornisce strumenti preziosi per l'apprendimento della lingua, la scrittura accademica e la comunicazione professionale in arabo.
L'apprendimento della navigazione in ambienti dinamici e aperti rappresenta un'abilità cruciale ma impegnativa per i robot. La maggior parte dei metodi precedenti si basa su una localizzazione e mappatura precisa o sull'apprendimento da dimostrazioni costose nel mondo reale. In questo articolo, proponiamo la Navigation Diffusion Policy (NavDP), un framework end-to-end addestrato esclusivamente in simulazione e in grado di trasferirsi in modalità zero-shot a diverse incarnazioni in ambienti real-world eterogenei. L'elemento chiave della rete di NavDP è la combinazione della generazione di traiettorie basata su diffusione e di una funzione critica per la selezione delle traiettorie, entrambe condizionate solo su token di osservazione locale codificati da un transformer di policy condiviso. Sfruttando le informazioni privilegiate dell'ambiente globale in simulazione, scaliamo le dimostrazioni di alta qualità per addestrare la policy di diffusione e formuliamo gli obiettivi della funzione valore critico con campioni negativi contrastivi. Il nostro approccio alla generazione di dimostrazioni raggiunge circa 2.500 traiettorie/GPU al giorno, 20 volte più efficiente rispetto alla raccolta di dati nel mondo reale, e produce un dataset di navigazione su larga scala con 363,2 km di traiettorie in 1244 scene. Addestrato con questo dataset simulato, NavDP raggiunge prestazioni all'avanguardia e una capacità di generalizzazione costantemente eccezionale su robot quadrupedi, a ruote e umanoidi in ambienti indoor e outdoor diversificati. Inoltre, presentiamo un tentativo preliminare di utilizzare il Gaussian Splatting per effettuare un fine-tuning real-to-sim in dominio, al fine di ridurre ulteriormente il divario sim-to-real. Gli esperimenti dimostrano che l'aggiunta di tali dati real-to-sim può migliorare il tasso di successo del 30% senza compromettere la capacità di generalizzazione.
La crescente adozione di flussi di lavoro agentici in diversi ambiti evidenzia la necessità critica di valutare in modo scalabile e sistematico le tracce complesse generate da questi sistemi. I metodi di valutazione attuali si basano su analisi manuali e specifiche per dominio di tracce di flusso di lavoro estese - un approccio che non scala con la crescente complessità e volume degli output agentici. L'analisi degli errori in questi contesti è ulteriormente complicata dall'interazione tra gli output di strumenti esterni e il ragionamento dei modelli linguistici, rendendola più impegnativa rispetto al debug tradizionale del software. In questo lavoro, (1) evidenziamo la necessità di metodi di valutazione robusti e dinamici per le tracce di flusso di lavoro agentiche, (2) introduciamo una tassonomia formale dei tipi di errore riscontrati nei sistemi agentici, e (3) presentiamo un set di 148 tracce annotate manualmente (TRAIL) costruite utilizzando questa tassonomia e basate su benchmark agentici consolidati. Per garantire la validità ecologica, abbiamo selezionato tracce provenienti sia da sistemi a singolo agente che multi-agente, concentrandoci su applicazioni reali come l'ingegneria del software e il recupero di informazioni in contesti aperti. Le nostre valutazioni rivelano che i moderni modelli linguistici a contesto lungo (LLM) hanno prestazioni scarse nel debug delle tracce, con il miglior modello Gemini-2.5-pro che raggiunge appena l'11% su TRAIL. Il nostro dataset e il codice sono resi pubblicamente disponibili per supportare e accelerare la ricerca futura nella valutazione scalabile dei flussi di lavoro agentici.
Dimostriamo teoricamente che la generalizzazione migliora non solo attraverso il ridimensionamento dei dati, ma anche comprimendo le rappresentazioni interne. Per operazionalizzare questa intuizione, introduciamo l'obiettivo di Information Bottleneck Language Modeling (IBLM), che riformula la modellazione del linguaggio come un problema di ottimizzazione vincolata: minimizzare l'entropia della rappresentazione mantenendo prestazioni predittive ottimali. Empiricamente, osserviamo un ciclo emergente di memorizzazione-compressione durante il pre-addestramento di LLM, evidenziato dall'oscillazione dell'allineamento positivo/negativo del gradiente tra l'entropia incrociata e l'Entropia Basata su Matrice (MBE), una misura dell'entropia della rappresentazione. Questo modello rispecchia da vicino il compromesso predittivo-compressivo prescritto da IBLM e parallelizza anche l'alternanza biologica tra apprendimento durante la veglia e consolidamento durante il sonno. Motivati da questa osservazione, proponiamo Gated Phase Transition (GAPT), un algoritmo di addestramento che passa in modo adattivo tra fasi di memorizzazione e compressione. Quando applicato al pre-addestramento di GPT-2 sul dataset FineWeb, GAPT riduce l'MBE del 50% e migliora l'entropia incrociata del 4,8%. GAPT migliora la generalizzazione OOD del 35% in un'attività di pre-addestramento sulla moltiplicazione aritmetica. In un contesto progettato per simulare l'oblio catastrofico, GAPT riduce l'interferenza comprimendo e separando le rappresentazioni, ottenendo un miglioramento del 97% nella separazione, parallelizzando il ruolo funzionale del consolidamento durante il sonno.
Valutare i livelli di abilità umana in attività complesse è un problema impegnativo con applicazioni nello sport, nella riabilitazione e nella formazione. In questo lavoro, presentiamo SkillFormer, un'architettura efficiente in termini di parametri per la stima unificata della competenza multi-vista da video egocentrici ed exocentrici. Basandosi sull'architettura TimeSformer, SkillFormer introduce un modulo CrossViewFusion che fonde le caratteristiche specifiche di ciascuna vista utilizzando l'attenzione incrociata multi-testina, un meccanismo di gating apprendibile e una calibrazione automatica adattiva. Sfruttiamo l'Adattamento a Basso Rango per ottimizzare solo un piccolo sottoinsieme di parametri, riducendo significativamente i costi di addestramento. Infatti, quando valutato sul dataset EgoExo4D, SkillFormer raggiunge un'accuratezza all'avanguardia in contesti multi-vista, dimostrando al contempo una notevole efficienza computazionale, utilizzando 4,5 volte meno parametri e richiedendo 3,75 volte meno epoche di addestramento rispetto ai precedenti modelli di riferimento. Eccelle in molteplici attività strutturate, confermando il valore dell'integrazione multi-vista per una valutazione fine delle abilità.
I modelli linguistici di grandi dimensioni raggiungono elevate prestazioni nei compiti, ma spesso producono allucinazioni o si basano su conoscenze obsolete. La generazione aumentata dal recupero (RAG) affronta queste lacune integrando la generazione con una ricerca esterna. Analizziamo come gli iperparametri influenzano velocità e qualità nei sistemi RAG, coprendo gli archivi vettoriali Chroma e Faiss, le politiche di segmentazione, il riordinamento con cross-encoder e la temperatura, e valutiamo sei metriche: fedeltà, correttezza della risposta, rilevanza della risposta, precisione del contesto, richiamo del contesto e somiglianza della risposta. Chroma elabora le query il 13% più velocemente, mentre Faiss offre una maggiore precisione di recupero, rivelando un chiaro compromesso tra velocità e accuratezza. La segmentazione a lunghezza fissa con finestre piccole e sovrapposizione minima supera la segmentazione semantica pur rimanendo l'opzione più veloce. Il riordinamento fornisce modesti miglioramenti nella qualità del recupero ma aumenta il tempo di esecuzione di circa 5 volte, quindi la sua utilità dipende dai vincoli di latenza. Questi risultati aiutano i professionisti a bilanciare costo computazionale e accuratezza quando ottimizzano i sistemi RAG per ottenere risposte trasparenti e aggiornate. Infine, rivalutiamo le configurazioni migliori con un flusso di lavoro RAG correttivo e dimostriamo che i loro vantaggi persistono quando il modello può richiedere iterativamente ulteriori prove. Otteniamo una precisione del contesto quasi perfetta (99%), dimostrando che i sistemi RAG possono raggiungere un'estrema accuratezza di recupero con la giusta combinazione di iperparametri, con implicazioni significative per applicazioni in cui la qualità del recupero influisce direttamente sulle prestazioni dei compiti a valle, come il supporto alle decisioni cliniche in ambito sanitario.
La Predizione dell'Utilità delle Recensioni Multimodali (Multimodal Review Helpfulness Prediction, MRHP) è un compito fondamentale nei sistemi di raccomandazione, in particolare nelle piattaforme di e-commerce. Determinare l'utilità delle recensioni generate dagli utenti migliora l'esperienza dell'utente e facilita il processo decisionale dei consumatori. Tuttavia, i dataset esistenti si concentrano principalmente sull'inglese e sull'indonesiano, risultando in una scarsa diversità linguistica, specialmente per lingue a bassa risorsa come il vietnamita. In questo articolo, introduciamo ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), un dataset di riferimento su larga scala per il compito di MRHP in vietnamita. Questo dataset copre quattro domini, includendo 2K prodotti con 46K recensioni. Nel frattempo, un dataset su larga scala richiede un tempo e un costo considerevoli. Per ottimizzare il processo di annotazione, sfruttiamo l'IA per assistere gli annotatori nella costruzione del dataset ViMRHP. Con l'assistenza dell'IA, il tempo di annotazione viene ridotto (da 90-120 secondi per task a 20-40 secondi per task) mantenendo la qualità dei dati e abbassando i costi complessivi di circa il 65%. Tuttavia, le annotazioni generate dall'IA presentano ancora limitazioni nei compiti di annotazione complessi, che esaminiamo ulteriormente attraverso un'analisi dettagliata delle prestazioni. Nel nostro esperimento su ViMRHP, valutiamo i modelli di base su annotazioni verificate da esseri umani e generate dall'IA per valutarne le differenze di qualità. Il dataset ViMRHP è disponibile pubblicamente all'indirizzo https://github.com/trng28/ViMRHP.
Introduciamo WebApp1K, un nuovo benchmark per valutare i grandi modelli linguistici (LLM) in compiti di sviluppo guidato dai test (TDD), dove i casi di test fungono sia da prompt che da verifica per la generazione di codice. A differenza degli approcci tradizionali che si basano su prompt in linguaggio naturale, il nostro benchmark enfatizza la capacità degli LLM di interpretare e implementare funzionalità direttamente dai casi di test, riflettendo le pratiche di sviluppo software del mondo reale. Composto da 1000 sfide diverse in 20 domini applicativi, il benchmark valuta gli LLM sulla loro capacità di generare codice compatto e funzionale sotto i vincoli di lunghezza del contesto e complessità multi-funzionale. Le nostre scoperte evidenziano il rispetto delle istruzioni e l'apprendimento in contesto come capacità critiche per il successo nel TDD, superando l'importanza della competenza generale nella codifica o della conoscenza pre-addestrata. Attraverso una valutazione completa di 19 modelli all'avanguardia, riveliamo colli di bottiglia nelle prestazioni, come la perdita di istruzioni in prompt lunghi, e forniamo un'analisi dettagliata degli errori che copre molteplici cause principali. Questo lavoro sottolinea il valore pratico dei benchmark specifici per il TDD e getta le basi per avanzare le capacità degli LLM in scenari di codifica rigorosi e guidati dall'applicazione.