Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

MiniMax-Speech: Sintesi Vocale Zero-Shot Intrinseca con un Codificatore di Parlante Apprendibile
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder

May 12, 2025

Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai, Junjie Yan, Kaiyue Yang, Mingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao, Yiying Zhou, Yongmao Zhang, Yuan Lu, Yucen He

1314

Presentiamo MiniMax-Speech, un modello di sintesi vocale (Text-to-Speech, TTS) basato su Transformer autoregressivo che genera un parlato di alta qualità. Un'innovazione chiave è il nostro speaker encoder apprendibile, che estrae le caratteristiche timbriche da un audio di riferimento senza richiederne la trascrizione. Ciò consente a MiniMax-Speech di produrre un parlato altamente espressivo con un timbro coerente con il riferimento in modalità zero-shot, supportando anche il clonaggio vocale one-shot con una somiglianza eccezionalmente elevata rispetto alla voce di riferimento. Inoltre, la qualità complessiva dell'audio sintetizzato è migliorata grazie al Flow-VAE proposto. Il nostro modello supporta 32 lingue e dimostra prestazioni eccellenti su molteplici metriche di valutazione oggettive e soggettive. In particolare, raggiunge risultati all'avanguardia (state-of-the-art, SOTA) sulle metriche oggettive di clonaggio vocale (Word Error Rate e Speaker Similarity) e si è posizionato al primo posto nella classifica pubblica di TTS Arena. Un altro punto di forza di MiniMax-Speech, garantito dalle rappresentazioni robuste e disaccoppiate dello speaker encoder, è la sua estensibilità senza modificare il modello base, abilitando varie applicazioni come: il controllo arbitrario delle emozioni vocali tramite LoRA; la sintesi da testo a voce (Text to Voice, T2V) generando direttamente le caratteristiche timbriche da una descrizione testuale; e il clonaggio vocale professionale (Professional Voice Cloning, PVC) ottimizzando le caratteristiche timbriche con dati aggiuntivi. Invitiamo i lettori a visitare https://minimax-ai.github.io/tts_tech_report per ulteriori esempi.

Generazione Rapida da Testo ad Audio con Post-Addestramento Adversarial
Fast Text-to-Audio Generation with Adversarial Post-Training

May 13, 2025

Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons

232

I sistemi di testo-audio, sebbene sempre più performanti, sono lenti nel tempo di inferenza, rendendo la loro latenza poco pratica per molte applicazioni creative. Presentiamo l'ARC (Adversarial Relativistic-Contrastive) post-training, il primo algoritmo di accelerazione avversaria per modelli di diffusione/flusso non basato sulla distillazione. Mentre i precedenti metodi di post-training avversario hanno faticato a competere con le costose controparti basate sulla distillazione, l'ARC post-training è una procedura semplice che (1) estende una recente formulazione avversaria relativistica al post-training per modelli di diffusione/flusso e (2) la combina con un nuovo obiettivo discriminatorio contrastivo per favorire una migliore aderenza al prompt. Abbiamo abbinato l'ARC post-training a una serie di ottimizzazioni per Stable Audio Open e costruito un modello in grado di generare circa 12 secondi di audio stereo a 44,1 kHz in circa 75 ms su un H100 e circa 7 secondi su un dispositivo mobile edge, il più veloce modello testo-audio a nostra conoscenza.

AM-Thinking-v1: Avanzare la Frontiera del Ragionamento su Scala 32B
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

May 13, 2025

Yunjie Ji, Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Han Zhao, Xiangang Li

182

Presentiamo AM-Thinking-v1, un modello linguistico denso da 32B che avanza le frontiere del ragionamento, incarnando lo spirito collaborativo dell'innovazione open-source. Superando DeepSeek-R1 e rivaleggiando con i principali modelli Mixture-of-Experts (MoE) come Qwen3-235B-A22B e Seed1.5-Thinking, AM-Thinking-v1 raggiunge punteggi impressionanti di 85.3 su AIME 2024, 74.4 su AIME 2025 e 70.3 su LiveCodeBench, dimostrando capacità matematiche e di codifica all'avanguardia tra i modelli open-source di scala simile. Costruito interamente a partire dal modello base open-source Qwen2.5-32B e da query pubblicamente disponibili, AM-Thinking-v1 sfrutta una pipeline di post-addestramento meticolosamente progettata - combinando fine-tuning supervisionato e apprendimento per rinforzo - per offrire capacità di ragionamento eccezionali. Questo lavoro dimostra che la comunità open-source può raggiungere alte prestazioni alla scala 32B, un punto ottimale pratico per il deployment e il fine-tuning. Bilanciando prestazioni di alto livello e usabilità nel mondo reale, speriamo che AM-Thinking-v1 ispiri ulteriori sforzi collaborativi per sfruttare modelli di media scala, spingendo i confini del ragionamento mantenendo l'accessibilità al centro dell'innovazione. Abbiamo reso open-source il nostro modello su https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face}.

Aya Vision: Avanzare le Frontiere della Multimodalità Multilingue
Aya Vision: Advancing the Frontier of Multilingual Multimodality

May 13, 2025

Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker

122

Costruire modelli linguistici multimodali è fondamentalmente impegnativo: richiede l'allineamento delle modalità visive e linguistiche, la cura di dati di istruzione di alta qualità e l'evitare il degrado delle capacità esistenti basate solo sul testo una volta introdotta la visione. Queste difficoltà sono ulteriormente amplificate in un contesto multilingue, dove la necessità di dati multimodali in diverse lingue aggrava la scarsità di dati esistente, la traduzione automatica spesso distorce il significato e l'oblio catastrofico è più pronunciato. Per affrontare le sfide sopra menzionate, introduciamo tecniche innovative che abbracciano sia i dati che la modellazione. In primo luogo, sviluppiamo un framework di annotazione sintetica che cura dati di istruzione multimodali multilingue di alta qualità e diversificati, consentendo ai modelli Aya Vision di produrre risposte naturali e preferite dagli esseri umani a input multimodali in molte lingue. A complemento di ciò, proponiamo una tecnica di fusione cross-modale che mitiga l'oblio catastrofico, preservando efficacemente le capacità basate solo sul testo mentre migliora simultaneamente le prestazioni generative multimodali. Aya-Vision-8B raggiunge prestazioni di livello superiore rispetto a modelli multimodali robusti come Qwen-2.5-VL-7B, Pixtral-12B e persino modelli molto più grandi come Llama-3.2-90B-Vision. Scaliamo ulteriormente questo approccio con Aya-Vision-32B, che supera modelli più del doppio delle sue dimensioni, come Molmo-72B e LLaMA-3.2-90B-Vision. Il nostro lavoro avanza il progresso multilingue sulla frontiera multimodale e fornisce approfondimenti su tecniche che riducono efficacemente la necessità di calcolo pur fornendo prestazioni estremamente elevate.

Un Framework Multidimensionale di Vincoli per Valutare e Migliorare il Rispetto delle Istruzioni nei Modelli Linguistici di Grande Scala
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models

May 12, 2025

Junjie Ye, Caishuang Huang, Zhuohan Chen, Wenjie Fu, Chenyuan Yang, Leyi Yang, Yilong Wu, Peng Wang, Meng Zhou, Xiaolong Yang, Tao Gui, Qi Zhang, Zhongchao Shi, Jianping Fan, Xuanjing Huang

112

La capacità di seguire istruzioni valuta i modelli linguistici di grandi dimensioni (LLM) sulla loro abilità di generare output che rispettino i vincoli definiti dall'utente. Tuttavia, i benchmark esistenti si basano spesso su prompt di vincoli predefiniti, che mancano della diversità dell'uso nel mondo reale e limitano una valutazione granulare delle prestazioni. Per colmare questa lacuna, proponiamo un framework multidimensionale di vincoli che comprende tre pattern di vincoli, quattro categorie di vincoli e quattro livelli di difficoltà. Basandoci su questo framework, sviluppiamo una pipeline automatizzata per la generazione di istruzioni che esegue l'espansione dei vincoli, il rilevamento di conflitti e la riscrittura delle istruzioni, producendo 1.200 campioni di test verificabili tramite codice per il seguimento delle istruzioni. Valutiamo 19 LLM appartenenti a sette famiglie di modelli e scopriamo una variazione significativa nelle prestazioni tra le diverse forme di vincoli. Ad esempio, la prestazione media scende dal 77,67% al Livello I al 32,96% al Livello IV. Inoltre, dimostriamo l'utilità del nostro approccio utilizzandolo per generare dati per l'apprendimento per rinforzo, ottenendo miglioramenti sostanziali nel seguimento delle istruzioni senza degradare le prestazioni generali. Un'analisi approfondita indica che questi miglioramenti derivano principalmente da modifiche nei parametri dei moduli di attenzione del modello, che migliorano il riconoscimento e l'aderenza ai vincoli. Il codice e i dati sono disponibili su https://github.com/Junjie-Ye/MulDimIF.

Misurare l'Intelligenza Generale con Giochi Generati
Measuring General Intelligence with Generated Games

May 12, 2025

Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin

112

Presentiamo gg-bench, una raccolta di ambienti di gioco progettati per valutare le capacità di ragionamento generale nei modelli linguistici. A differenza della maggior parte dei benchmark statici, gg-bench è un processo di generazione di dati in cui nuove istanze di valutazione possono essere generate a piacimento. In particolare, gg-bench è generato sinteticamente attraverso (1) l'uso di un modello linguistico di grandi dimensioni (LLM) per generare descrizioni in linguaggio naturale di giochi innovativi, (2) l'uso dello stesso LLM per implementare ciascun gioco in codice come ambiente Gym, e (3) l'addestramento di agenti di apprendimento per rinforzo (RL) tramite auto-gioco sui giochi generati. Valutiamo i modelli linguistici in base al loro tasso di vittoria contro questi agenti RL, fornendo ai modelli la descrizione del gioco, lo stato attuale del tabellone e un elenco di mosse valide, dopo di che i modelli restituiscono le mosse che intendono effettuare. gg-bench è impegnativo: i migliori LLM come GPT-4o e Claude 3.7 Sonnet raggiungono tassi di vittoria del 7-9% su gg-bench utilizzando l'apprendimento in-context, mentre modelli di ragionamento come o1, o3-mini e DeepSeek-R1 raggiungono tassi di vittoria medi del 31-36%. Rilasciamo i giochi generati, il processo di generazione dei dati e il codice di valutazione per supportare futuri lavori di modellazione e l'espansione del nostro benchmark.

Portare la Ragione alla Visione: Comprendere la Percezione e il Ragionamento attraverso la Fusione di Modelli
Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

May 8, 2025

Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He

112

I modelli visione-linguaggio (VLMs) combinano la percezione visiva con le capacità generali, come il ragionamento, dei modelli linguistici di grandi dimensioni (LLMs). Tuttavia, i meccanismi attraverso i quali queste due abilità possono essere combinate e contribuire rimangono poco compresi. In questo lavoro, esploriamo la composizione di percezione e ragionamento attraverso la fusione di modelli che collega i parametri di modelli diversi. A differenza dei lavori precedenti che spesso si concentrano sulla fusione di modelli dello stesso tipo, proponiamo la fusione di modelli attraverso le modalità, consentendo l'incorporazione delle capacità di ragionamento degli LLMs nei VLMs. Attraverso esperimenti estesi, dimostriamo che la fusione di modelli offre una via di successo per trasferire le capacità di ragionamento dagli LLMs ai VLMs in modo privo di addestramento. Inoltre, utilizziamo i modelli fusi per comprendere il meccanismo interno di percezione e ragionamento e come la fusione lo influenzi. Scopriamo che le capacità di percezione sono prevalentemente codificate nei primi strati del modello, mentre il ragionamento è largamente facilitato dagli strati intermedi e finali. Dopo la fusione, osserviamo che tutti gli strati iniziano a contribuire al ragionamento, mentre la distribuzione delle abilità di percezione attraverso gli strati rimane sostanzialmente invariata. Queste osservazioni gettano luce sul potenziale della fusione di modelli come strumento per l'integrazione e l'interpretazione multimodale.

Avanzamento dei sistemi di dizionario inverso per l'arabo: un approccio basato su Transformer con linee guida per la costruzione di dataset
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

Apr 30, 2025

Serry Sibaee, Samar Ahmed, Abdullah Al Harbi, Omer Nacar, Adel Ammar, Yasser Habashi, Wadii Boulila

Questo studio affronta la lacuna critica nell'elaborazione del linguaggio naturale arabo sviluppando un efficace sistema di Dizionario Inverso (RD) per l'arabo che consente agli utenti di trovare parole in base alle loro descrizioni o significati. Presentiamo un approccio innovativo basato su trasformatori con un'architettura di rete neurale semi-encoder caratterizzata da strati geometricamente decrescenti, che raggiunge risultati all'avanguardia per i compiti di RD in arabo. La nostra metodologia incorpora un processo completo di costruzione del dataset e stabilisce standard di qualità formali per le definizioni lessicografiche in arabo. Esperimenti con vari modelli pre-addestrati dimostrano che i modelli specifici per l'arabo superano significativamente gli embedding multilingue generali, con ARBERTv2 che raggiunge il miglior punteggio di ranking (0,0644). Inoltre, forniamo un'astrazione formale del compito del dizionario inverso che migliora la comprensione teorica e sviluppiamo una libreria Python modulare ed estensibile (RDTL) con pipeline di addestramento configurabili. La nostra analisi sulla qualità del dataset rivela importanti intuizioni per migliorare la costruzione delle definizioni in arabo, portando a otto standard specifici per la creazione di risorse di dizionario inverso di alta qualità. Questo lavoro contribuisce significativamente alla linguistica computazionale araba e fornisce strumenti preziosi per l'apprendimento della lingua, la scrittura accademica e la comunicazione professionale in arabo.

NavDP: Apprendimento di una Politica di Diffusione per la Navigazione Sim-to-Real con Guida di Informazioni Privilegiate
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

May 13, 2025

Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang

L'apprendimento della navigazione in ambienti dinamici e aperti rappresenta un'abilità cruciale ma impegnativa per i robot. La maggior parte dei metodi precedenti si basa su una localizzazione e mappatura precisa o sull'apprendimento da dimostrazioni costose nel mondo reale. In questo articolo, proponiamo la Navigation Diffusion Policy (NavDP), un framework end-to-end addestrato esclusivamente in simulazione e in grado di trasferirsi in modalità zero-shot a diverse incarnazioni in ambienti real-world eterogenei. L'elemento chiave della rete di NavDP è la combinazione della generazione di traiettorie basata su diffusione e di una funzione critica per la selezione delle traiettorie, entrambe condizionate solo su token di osservazione locale codificati da un transformer di policy condiviso. Sfruttando le informazioni privilegiate dell'ambiente globale in simulazione, scaliamo le dimostrazioni di alta qualità per addestrare la policy di diffusione e formuliamo gli obiettivi della funzione valore critico con campioni negativi contrastivi. Il nostro approccio alla generazione di dimostrazioni raggiunge circa 2.500 traiettorie/GPU al giorno, 20 volte più efficiente rispetto alla raccolta di dati nel mondo reale, e produce un dataset di navigazione su larga scala con 363,2 km di traiettorie in 1244 scene. Addestrato con questo dataset simulato, NavDP raggiunge prestazioni all'avanguardia e una capacità di generalizzazione costantemente eccezionale su robot quadrupedi, a ruote e umanoidi in ambienti indoor e outdoor diversificati. Inoltre, presentiamo un tentativo preliminare di utilizzare il Gaussian Splatting per effettuare un fine-tuning real-to-sim in dominio, al fine di ridurre ulteriormente il divario sim-to-real. Gli esperimenti dimostrano che l'aggiunta di tali dati real-to-sim può migliorare il tasso di successo del 30% senza compromettere la capacità di generalizzazione.

TRAIL: Ragionamento Tracciabile e Localizzazione Agente dei Problemi
TRAIL: Trace Reasoning and Agentic Issue Localization

May 13, 2025

Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian

La crescente adozione di flussi di lavoro agentici in diversi ambiti evidenzia la necessità critica di valutare in modo scalabile e sistematico le tracce complesse generate da questi sistemi. I metodi di valutazione attuali si basano su analisi manuali e specifiche per dominio di tracce di flusso di lavoro estese - un approccio che non scala con la crescente complessità e volume degli output agentici. L'analisi degli errori in questi contesti è ulteriormente complicata dall'interazione tra gli output di strumenti esterni e il ragionamento dei modelli linguistici, rendendola più impegnativa rispetto al debug tradizionale del software. In questo lavoro, (1) evidenziamo la necessità di metodi di valutazione robusti e dinamici per le tracce di flusso di lavoro agentiche, (2) introduciamo una tassonomia formale dei tipi di errore riscontrati nei sistemi agentici, e (3) presentiamo un set di 148 tracce annotate manualmente (TRAIL) costruite utilizzando questa tassonomia e basate su benchmark agentici consolidati. Per garantire la validità ecologica, abbiamo selezionato tracce provenienti sia da sistemi a singolo agente che multi-agente, concentrandoci su applicazioni reali come l'ingegneria del software e il recupero di informazioni in contesti aperti. Le nostre valutazioni rivelano che i moderni modelli linguistici a contesto lungo (LLM) hanno prestazioni scarse nel debug delle tracce, con il miglior modello Gemini-2.5-pro che raggiunge appena l'11% su TRAIL. Il nostro dataset e il codice sono resi pubblicamente disponibili per supportare e accelerare la ricerca futura nella valutazione scalabile dei flussi di lavoro agentici.

I cicli di memorizzazione-compressione migliorano la generalizzazione
Memorization-Compression Cycles Improve Generalization

May 13, 2025

Fangyuan Yu

Dimostriamo teoricamente che la generalizzazione migliora non solo attraverso il ridimensionamento dei dati, ma anche comprimendo le rappresentazioni interne. Per operazionalizzare questa intuizione, introduciamo l'obiettivo di Information Bottleneck Language Modeling (IBLM), che riformula la modellazione del linguaggio come un problema di ottimizzazione vincolata: minimizzare l'entropia della rappresentazione mantenendo prestazioni predittive ottimali. Empiricamente, osserviamo un ciclo emergente di memorizzazione-compressione durante il pre-addestramento di LLM, evidenziato dall'oscillazione dell'allineamento positivo/negativo del gradiente tra l'entropia incrociata e l'Entropia Basata su Matrice (MBE), una misura dell'entropia della rappresentazione. Questo modello rispecchia da vicino il compromesso predittivo-compressivo prescritto da IBLM e parallelizza anche l'alternanza biologica tra apprendimento durante la veglia e consolidamento durante il sonno. Motivati da questa osservazione, proponiamo Gated Phase Transition (GAPT), un algoritmo di addestramento che passa in modo adattivo tra fasi di memorizzazione e compressione. Quando applicato al pre-addestramento di GPT-2 sul dataset FineWeb, GAPT riduce l'MBE del 50% e migliora l'entropia incrociata del 4,8%. GAPT migliora la generalizzazione OOD del 35% in un'attività di pre-addestramento sulla moltiplicazione aritmetica. In un contesto progettato per simulare l'oblio catastrofico, GAPT riduce l'interferenza comprimendo e separando le rappresentazioni, ottenendo un miglioramento del 97% nella separazione, parallelizzando il ruolo funzionale del consolidamento durante il sonno.

SkillFormer: Comprensione Unificata di Video Multi-Vista per la Stima delle Competenze
SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

May 13, 2025

Edoardo Bianchi, Antonio Liotta

Valutare i livelli di abilità umana in attività complesse è un problema impegnativo con applicazioni nello sport, nella riabilitazione e nella formazione. In questo lavoro, presentiamo SkillFormer, un'architettura efficiente in termini di parametri per la stima unificata della competenza multi-vista da video egocentrici ed exocentrici. Basandosi sull'architettura TimeSformer, SkillFormer introduce un modulo CrossViewFusion che fonde le caratteristiche specifiche di ciascuna vista utilizzando l'attenzione incrociata multi-testina, un meccanismo di gating apprendibile e una calibrazione automatica adattiva. Sfruttiamo l'Adattamento a Basso Rango per ottimizzare solo un piccolo sottoinsieme di parametri, riducendo significativamente i costi di addestramento. Infatti, quando valutato sul dataset EgoExo4D, SkillFormer raggiunge un'accuratezza all'avanguardia in contesti multi-vista, dimostrando al contempo una notevole efficienza computazionale, utilizzando 4,5 volte meno parametri e richiedendo 3,75 volte meno epoche di addestramento rispetto ai precedenti modelli di riferimento. Eccelle in molteplici attività strutturate, confermando il valore dell'integrazione multi-vista per una valutazione fine delle abilità.

Ottimizzazione della Generazione Aumentata dal Recupero: Analisi dell'Impatto degli Iperparametri su Prestazioni ed Efficienza
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

May 13, 2025

Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila

I modelli linguistici di grandi dimensioni raggiungono elevate prestazioni nei compiti, ma spesso producono allucinazioni o si basano su conoscenze obsolete. La generazione aumentata dal recupero (RAG) affronta queste lacune integrando la generazione con una ricerca esterna. Analizziamo come gli iperparametri influenzano velocità e qualità nei sistemi RAG, coprendo gli archivi vettoriali Chroma e Faiss, le politiche di segmentazione, il riordinamento con cross-encoder e la temperatura, e valutiamo sei metriche: fedeltà, correttezza della risposta, rilevanza della risposta, precisione del contesto, richiamo del contesto e somiglianza della risposta. Chroma elabora le query il 13% più velocemente, mentre Faiss offre una maggiore precisione di recupero, rivelando un chiaro compromesso tra velocità e accuratezza. La segmentazione a lunghezza fissa con finestre piccole e sovrapposizione minima supera la segmentazione semantica pur rimanendo l'opzione più veloce. Il riordinamento fornisce modesti miglioramenti nella qualità del recupero ma aumenta il tempo di esecuzione di circa 5 volte, quindi la sua utilità dipende dai vincoli di latenza. Questi risultati aiutano i professionisti a bilanciare costo computazionale e accuratezza quando ottimizzano i sistemi RAG per ottenere risposte trasparenti e aggiornate. Infine, rivalutiamo le configurazioni migliori con un flusso di lavoro RAG correttivo e dimostriamo che i loro vantaggi persistono quando il modello può richiedere iterativamente ulteriori prove. Otteniamo una precisione del contesto quasi perfetta (99%), dimostrando che i sistemi RAG possono raggiungere un'estrema accuratezza di recupero con la giusta combinazione di iperparametri, con implicazioni significative per applicazioni in cui la qualità del recupero influisce direttamente sulle prestazioni dei compiti a valle, come il supporto alle decisioni cliniche in ambito sanitario.

ViMRHP: Un Dataset di Riferimento Vietnamita per la Previsione dell'Utilità delle Recensioni Multimodali tramite Annotazione Collaborativa Uomo-IA
ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation

May 12, 2025

Truc Mai-Thanh Nguyen, Dat Minh Nguyen, Son T. Luu, Kiet Van Nguyen

La Predizione dell'Utilità delle Recensioni Multimodali (Multimodal Review Helpfulness Prediction, MRHP) è un compito fondamentale nei sistemi di raccomandazione, in particolare nelle piattaforme di e-commerce. Determinare l'utilità delle recensioni generate dagli utenti migliora l'esperienza dell'utente e facilita il processo decisionale dei consumatori. Tuttavia, i dataset esistenti si concentrano principalmente sull'inglese e sull'indonesiano, risultando in una scarsa diversità linguistica, specialmente per lingue a bassa risorsa come il vietnamita. In questo articolo, introduciamo ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), un dataset di riferimento su larga scala per il compito di MRHP in vietnamita. Questo dataset copre quattro domini, includendo 2K prodotti con 46K recensioni. Nel frattempo, un dataset su larga scala richiede un tempo e un costo considerevoli. Per ottimizzare il processo di annotazione, sfruttiamo l'IA per assistere gli annotatori nella costruzione del dataset ViMRHP. Con l'assistenza dell'IA, il tempo di annotazione viene ridotto (da 90-120 secondi per task a 20-40 secondi per task) mantenendo la qualità dei dati e abbassando i costi complessivi di circa il 65%. Tuttavia, le annotazioni generate dall'IA presentano ancora limitazioni nei compiti di annotazione complessi, che esaminiamo ulteriormente attraverso un'analisi dettagliata delle prestazioni. Nel nostro esperimento su ViMRHP, valutiamo i modelli di base su annotazioni verificate da esseri umani e generate dall'IA per valutarne le differenze di qualità. Il dataset ViMRHP è disponibile pubblicamente all'indirizzo https://github.com/trng28/ViMRHP.

Test come Prompt: Un Benchmark di Sviluppo Guidato dai Test per la Generazione di Codice con LLM
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation

May 13, 2025

Yi Cui

Introduciamo WebApp1K, un nuovo benchmark per valutare i grandi modelli linguistici (LLM) in compiti di sviluppo guidato dai test (TDD), dove i casi di test fungono sia da prompt che da verifica per la generazione di codice. A differenza degli approcci tradizionali che si basano su prompt in linguaggio naturale, il nostro benchmark enfatizza la capacità degli LLM di interpretare e implementare funzionalità direttamente dai casi di test, riflettendo le pratiche di sviluppo software del mondo reale. Composto da 1000 sfide diverse in 20 domini applicativi, il benchmark valuta gli LLM sulla loro capacità di generare codice compatto e funzionale sotto i vincoli di lunghezza del contesto e complessità multi-funzionale. Le nostre scoperte evidenziano il rispetto delle istruzioni e l'apprendimento in contesto come capacità critiche per il successo nel TDD, superando l'importanza della competenza generale nella codifica o della conoscenza pre-addestrata. Attraverso una valutazione completa di 19 modelli all'avanguardia, riveliamo colli di bottiglia nelle prestazioni, come la perdita di istruzioni in prompt lunghi, e forniamo un'analisi dettagliata degli errori che copre molteplici cause principali. Questo lavoro sottolinea il valore pratico dei benchmark specifici per il TDD e getta le basi per avanzare le capacità degli LLM in scenari di codifica rigorosi e guidati dall'applicazione.

Aya Vision: Avanzare le Frontiere della Multimodalità Multilingue
Aya Vision: Advancing the Frontier of Multilingual Multimodality

May 13, 2025

122

Paper Giornalieri

MiniMax-Speech: Sintesi Vocale Zero-Shot Intrinseca con un Codificatore di Parlante Apprendibile
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder

Generazione Rapida da Testo ad Audio con Post-Addestramento Adversarial
Fast Text-to-Audio Generation with Adversarial Post-Training

AM-Thinking-v1: Avanzare la Frontiera del Ragionamento su Scala 32B
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

Aya Vision: Avanzare le Frontiere della Multimodalità Multilingue
Aya Vision: Advancing the Frontier of Multilingual Multimodality

Un Framework Multidimensionale di Vincoli per Valutare e Migliorare il Rispetto delle Istruzioni nei Modelli Linguistici di Grande Scala
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models

Misurare l'Intelligenza Generale con Giochi Generati
Measuring General Intelligence with Generated Games

Portare la Ragione alla Visione: Comprendere la Percezione e il Ragionamento attraverso la Fusione di Modelli
Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

Avanzamento dei sistemi di dizionario inverso per l'arabo: un approccio basato su Transformer con linee guida per la costruzione di dataset
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

NavDP: Apprendimento di una Politica di Diffusione per la Navigazione Sim-to-Real con Guida di Informazioni Privilegiate
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

TRAIL: Ragionamento Tracciabile e Localizzazione Agente dei Problemi
TRAIL: Trace Reasoning and Agentic Issue Localization

I cicli di memorizzazione-compressione migliorano la generalizzazione
Memorization-Compression Cycles Improve Generalization

SkillFormer: Comprensione Unificata di Video Multi-Vista per la Stima delle Competenze
SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

Ottimizzazione della Generazione Aumentata dal Recupero: Analisi dell'Impatto degli Iperparametri su Prestazioni ed Efficienza
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

ViMRHP: Un Dataset di Riferimento Vietnamita per la Previsione dell'Utilità delle Recensioni Multimodali tramite Annotazione Collaborativa Uomo-IA
ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation

Test come Prompt: Un Benchmark di Sviluppo Guidato dai Test per la Generazione di Codice con LLM
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation

Support

Support

Paper Giornalieri

MiniMax-Speech: Sintesi Vocale Zero-Shot Intrinseca con un Codificatore di Parlante Apprendibile
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder

Generazione Rapida da Testo ad Audio con Post-Addestramento Adversarial
Fast Text-to-Audio Generation with Adversarial Post-Training

AM-Thinking-v1: Avanzare la Frontiera del Ragionamento su Scala 32B
AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

Aya Vision: Avanzare le Frontiere della Multimodalità Multilingue
Aya Vision: Advancing the Frontier of Multilingual Multimodality

Un Framework Multidimensionale di Vincoli per Valutare e Migliorare il Rispetto delle Istruzioni nei Modelli Linguistici di Grande Scala
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models

Misurare l'Intelligenza Generale con Giochi Generati
Measuring General Intelligence with Generated Games

Portare la Ragione alla Visione: Comprendere la Percezione e il Ragionamento attraverso la Fusione di Modelli
Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

Avanzamento dei sistemi di dizionario inverso per l'arabo: un approccio basato su Transformer con linee guida per la costruzione di dataset
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines

NavDP: Apprendimento di una Politica di Diffusione per la Navigazione Sim-to-Real con Guida di Informazioni Privilegiate
NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance

TRAIL: Ragionamento Tracciabile e Localizzazione Agente dei Problemi
TRAIL: Trace Reasoning and Agentic Issue Localization

I cicli di memorizzazione-compressione migliorano la generalizzazione
Memorization-Compression Cycles Improve Generalization

SkillFormer: Comprensione Unificata di Video Multi-Vista per la Stima delle Competenze
SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

Ottimizzazione della Generazione Aumentata dal Recupero: Analisi dell'Impatto degli Iperparametri su Prestazioni ed Efficienza
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency

ViMRHP: Un Dataset di Riferimento Vietnamita per la Previsione dell'Utilità delle Recensioni Multimodali tramite Annotazione Collaborativa Uomo-IA
ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation

Test come Prompt: Un Benchmark di Sviluppo Guidato dai Test per la Generazione di Codice con LLM
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation