Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i modelli contemporanei di generazione di immagini da testo abbiano raggiunto progressi significativi nella produzione di immagini visivamente accattivanti, la loro capacità di generare elementi tipografici precisi e flessibili, specialmente per alfabeti non latini, rimane limitata. Per affrontare queste limitazioni, partiamo da un'assunzione ingenua: la comprensione del testo è una condizione sufficiente per il rendering del testo, ma non necessaria. Basandoci su questo, presentiamo RepText, che mira a dotare i modelli pre-addestrati di generazione di immagini da testo monolingue della capacità di rendere accuratamente, o più precisamente, replicare, testo visivo multilingue in font specificati dall'utente, senza la necessità di comprenderlo realmente. Nello specifico, adottiamo l'impostazione di ControlNet e integriamo ulteriormente glifi e posizioni del testo renderizzato indipendenti dalla lingua, consentendo la generazione di testo visivo armonizzato e permettendo agli utenti di personalizzare contenuto, font e posizione del testo in base alle loro esigenze. Per migliorare l'accuratezza, viene utilizzata una perdita percettiva del testo insieme alla perdita di diffusione. Inoltre, per stabilizzare il processo di rendering, durante la fase di inferenza, inizializziamo direttamente con un latente rumoroso del glifo invece di un'inizializzazione casuale, e adottiamo maschere di regione per limitare l'iniezione delle caratteristiche solo all'area del testo, evitando distorsioni dello sfondo. Abbiamo condotto esperimenti estesi per verificare l'efficacia del nostro RepText rispetto ai lavori esistenti; il nostro approccio supera i metodi open-source esistenti e raggiunge risultati comparabili ai modelli nativi multilingue closed-source. Per essere più equi, discutiamo esaustivamente anche le sue limitazioni alla fine.
I fornitori globali di assistenza sanitaria stanno esplorando l'uso di modelli linguistici di grandi dimensioni (LLM) per fornire consulenza medica al pubblico. Gli LLM ottengono ora punteggi quasi perfetti negli esami di abilitazione medica, ma ciò non si traduce necessariamente in prestazioni accurate in contesti reali. Abbiamo testato se gli LLM possono assistere i membri del pubblico nell'identificare condizioni sottostanti e nel scegliere un corso di azione (disposizione) in dieci scenari medici in uno studio controllato con 1.298 partecipanti. I partecipanti sono stati assegnati in modo casuale a ricevere assistenza da un LLM (GPT-4o, Llama 3, Command R+) o da una fonte di loro scelta (gruppo di controllo). Testati da soli, gli LLM completano gli scenari in modo accurato, identificando correttamente le condizioni nel 94,9% dei casi e la disposizione nel 56,3% in media. Tuttavia, i partecipanti che utilizzavano gli stessi LLM hanno identificato condizioni rilevanti in meno del 34,5% dei casi e la disposizione in meno del 44,2%, entrambi risultati non migliori rispetto al gruppo di controllo. Identifichiamo le interazioni con l'utente come una sfida per l'implementazione degli LLM per la consulenza medica. I benchmark standard per la conoscenza medica e le interazioni simulate con i pazienti non prevedono i fallimenti che abbiamo riscontrato con i partecipanti umani. Andando avanti, raccomandiamo test sistematici con utenti umani per valutare le capacità interattive prima delle implementazioni pubbliche nel settore sanitario.
Con la rapida ascesa dei grandi modelli linguistici (LLM), l'automazione telefonica ha subito cambiamenti trasformativi. Questo articolo esamina sistematicamente gli agenti per interfacce grafiche (GUI) telefoniche guidati da LLM, evidenziando la loro evoluzione da automazioni basate su script a sistemi intelligenti e adattivi. Inizialmente contestualizziamo le principali sfide: (i) limitata generalità, (ii) elevato sovraccarico di manutenzione e (iii) debole comprensione delle intenzioni, e mostriamo come gli LLM affrontino questi problemi attraverso una comprensione avanzata del linguaggio, percezione multimodale e processi decisionali robusti. Proponiamo quindi una tassonomia che copre i framework fondamentali degli agenti (agente singolo, multi-agente, pianifica-poi-agisci), approcci di modellazione (ingegneria dei prompt, basati su addestramento) e dataset e benchmark essenziali. Inoltre, dettagliamo architetture specifiche per task, fine-tuning supervisionato e strategie di apprendimento per rinforzo che collegano l'intento dell'utente alle operazioni GUI. Infine, discutiamo le sfide aperte come la diversità dei dataset, l'efficienza del deployment su dispositivo, l'adattamento centrato sull'utente e le preoccupazioni di sicurezza, offrendo prospettive future su questo campo in rapida evoluzione. Fornendo una panoramica strutturata e identificando le lacune di ricerca più urgenti, questo articolo rappresenta un riferimento definitivo per ricercatori e professionisti che cercano di sfruttare gli LLM nella progettazione di agenti GUI telefonici scalabili e user-friendly.
I Large Language Model (LLM) hanno dimostrato una notevole abilità nel generare risposte contestualmente coerenti, ma le loro finestre di contesto fisse pongono sfide fondamentali per mantenere la coerenza in dialoghi prolungati e multi-sessione. Introduciamo Mem0, un'architettura scalabile centrata sulla memoria che affronta questo problema estraendo, consolidando e recuperando dinamicamente informazioni salienti dalle conversazioni in corso. Basandoci su questa fondazione, proponiamo ulteriormente una variante migliorata che sfrutta rappresentazioni di memoria basate su grafo per catturare strutture relazionali complesse tra gli elementi conversazionali. Attraverso valutazioni complete sul benchmark LOCOMO, confrontiamo sistematicamente i nostri approcci con sei categorie di baseline: (i) sistemi consolidati potenziati dalla memoria, (ii) generazione aumentata dal recupero (RAG) con diverse dimensioni di chunk e valori di k, (iii) un approccio a contesto completo che elabora l'intera cronologia della conversazione, (iv) una soluzione di memoria open-source, (v) un sistema di modello proprietario e (vi) una piattaforma dedicata alla gestione della memoria. I risultati empirici mostrano che i nostri metodi superano costantemente tutti i sistemi di memoria esistenti in quattro categorie di domande: single-hop, temporali, multi-hop e open-domain. In particolare, Mem0 raggiunge un miglioramento relativo del 26% nella metrica LLM-as-a-Judge rispetto a OpenAI, mentre Mem0 con memoria a grafo ottiene un punteggio complessivo circa del 2% più alto rispetto alla configurazione base. Oltre ai guadagni in accuratezza, riduciamo anche significativamente il sovraccarico computazionale rispetto al metodo a contesto completo. In particolare, Mem0 raggiunge una latenza p95 inferiore del 91% e risparmia più del 90% del costo dei token, offrendo un equilibrio convincente tra capacità di ragionamento avanzate e vincoli pratici di implementazione. Le nostre scoperte evidenziano il ruolo cruciale dei meccanismi di memoria strutturata e persistente per la coerenza conversazionale a lungo termine, aprendo la strada a agenti AI guidati da LLM più affidabili ed efficienti.
Valutare l'affidabilità passo-passo del ragionamento dei grandi modelli linguistici (LLM), come la Catena del Pensiero (Chain-of-Thought), rimane una sfida a causa della difficoltà e del costo associati all'ottenimento di una supervisione di alta qualità a livello di passaggio. In questo articolo, introduciamo il Critico a Gioco Autonomo (Self-Play Critic, SPC), un approccio innovativo in cui un modello critico evolve la sua capacità di valutare i passaggi di ragionamento attraverso giochi avversari autonomi, eliminando la necessità di annotazioni manuali a livello di passaggio. SPC prevede il fine-tuning di due copie di un modello base per interpretare due ruoli: un "generatore subdolo" che produce deliberatamente passaggi errati progettati per essere difficili da rilevare, e un "critico" che analizza la correttezza dei passaggi di ragionamento. Questi due modelli si impegnano in un gioco avversario in cui il generatore mira a ingannare il critico, mentre il modello critico cerca di identificare gli errori del generatore. Utilizzando l'apprendimento per rinforzo basato sugli esiti del gioco, i modelli migliorano iterativamente; il vincitore di ogni confronto riceve una ricompensa positiva e il perdente una ricompensa negativa, guidando una continua auto-evoluzione. Esperimenti su tre benchmark di processi di ragionamento (ProcessBench, PRM800K, DeltaBench) dimostrano che il nostro SPC migliora progressivamente le sue capacità di rilevamento degli errori (ad esempio, l'accuratezza aumenta dal 70,8% al 77,7% su ProcessBench) e supera solide baseline, incluso il modello R1 distillato. Inoltre, applicare SPC per guidare la ricerca al momento del test di diversi LLM migliora significativamente le loro prestazioni nel ragionamento matematico su MATH500 e AIME2024, superando i modelli di ricompensa di processo all'avanguardia.
I grandi modelli linguistici (LLM) hanno dimostrato capacità straordinarie, in particolare i recenti progressi nel ragionamento, come o1 e o3, che spingono i confini dell'IA. Nonostante questi impressionanti risultati in matematica e programmazione, le abilità di ragionamento degli LLM in domini che richiedono competenze crittografiche rimangono poco esplorate. In questo articolo, introduciamo CipherBank, un benchmark completo progettato per valutare le capacità di ragionamento degli LLM in compiti di decrittazione crittografica. CipherBank comprende 2.358 problemi accuratamente elaborati, che coprono 262 testi in chiaro unici in 5 domini e 14 sottodomini, con un focus su scenari sensibili alla privacy e reali che necessitano di crittografia. Da una prospettiva crittografica, CipherBank incorpora 3 principali categorie di metodi di cifratura, comprendenti 9 algoritmi distinti, che vanno dai cifrari classici alle tecniche crittografiche personalizzate. Valutiamo gli LLM all'avanguardia su CipherBank, ad esempio GPT-4o, DeepSeek-V3, e modelli focalizzati sul ragionamento come o1 e DeepSeek-R1. I nostri risultati rivelano significative lacune nelle capacità di ragionamento non solo tra gli LLM generici per il chat e quelli focalizzati sul ragionamento, ma anche nelle prestazioni dei modelli attuali focalizzati sul ragionamento quando applicati a compiti di decrittazione crittografica classica, evidenziando le sfide che questi modelli affrontano nel comprendere e manipolare dati crittografati. Attraverso un'analisi dettagliata e indagini sugli errori, forniamo diverse osservazioni chiave che gettano luce sui limiti e sulle aree di potenziale miglioramento per gli LLM nel ragionamento crittografico. Questi risultati sottolineano la necessità di continui progressi nelle capacità di ragionamento degli LLM.
I recenti progressi nei Modelli Linguistico-Visuali di Grande Scala (LVLM) hanno notevolmente migliorato la loro capacità di integrare informazioni visive e linguistiche, raggiungendo una competenza quasi umana in compiti come il riconoscimento di oggetti, la generazione di didascalie e la risposta a domande visive. Tuttavia, gli attuali benchmark si concentrano tipicamente su valutazioni centrate sulla conoscenza che valutano competenze specifiche di dominio, spesso trascurando la capacità fondamentale di ragionare su elementi matematici di base e concetti visivi. Identifichiamo una lacuna nella valutazione di problemi matematici di livello elementare, che si basano su dipendenze visive esplicite, richiedendo ai modelli di discernere, integrare e ragionare su più immagini incorporando conoscenze di senso comune, tutte abilità cruciali per progredire verso capacità AGI più ampie. Per colmare questa lacuna, introduciamo VCBENCH, un benchmark completo per il ragionamento matematico multimodale con dipendenze visive esplicite. VCBENCH include 1.720 problemi in sei domini cognitivi, con 6.697 immagini (in media 3,9 per domanda) per garantire il ragionamento su più immagini. Valutiamo 26 LVLM all'avanguardia su VCBENCH, rivelando sostanziali disparità di prestazioni, con i modelli migliori che non riescono a superare il 50% di accuratezza. I nostri risultati evidenziano le sfide persistenti nell'integrazione visivo-matematica e suggeriscono direzioni per futuri progressi nei LVLM.
I livelli di downsampling sono componenti fondamentali nelle architetture CNN, che aiutano ad aumentare il campo ricettivo per l'apprendimento di caratteristiche di alto livello e riducono la quantità di memoria/calcolo nel modello. In questo lavoro, studiamo la generalizzazione del livello di downsampling uniforme per architetture equivarianti rispetto a gruppi, ad esempio G-CNN. In particolare, miriamo a ridurre la risoluzione di segnali (mappe di caratteristiche) su gruppi finiti generali con anti-aliasing. Questo comporta quanto segue: (a) Dato un gruppo finito e una frequenza di downsampling, presentiamo un algoritmo per formare una scelta adeguata di sottogruppo. (b) Dato un gruppo e un sottogruppo, studiamo la nozione di limitazione in banda e proponiamo come eseguire l'anti-aliasing. In particolare, il nostro metodo generalizza la nozione di downsampling basata sulla teoria classica del campionamento. Quando il segnale è su un gruppo ciclico, cioè periodico, il nostro metodo riproduce il downsampling standard di un filtro passa-basso ideale seguito da un'operazione di sottocampionamento. Infine, abbiamo condotto esperimenti su compiti di classificazione di immagini dimostrando che l'operazione di downsampling proposta migliora l'accuratezza, preserva meglio l'equivarianza e riduce le dimensioni del modello quando incorporata in reti G-equivarianti.
L'integrazione di capacità a lungo contesto con la comprensione visiva sblocca un potenziale senza precedenti per i Modelli Linguistico-Visivi (VLMs). Tuttavia, la complessità quadratica dell'attenzione durante la fase di pre-riempimento rimane un ostacolo significativo per il dispiegamento nel mondo reale. Per superare questa limitazione, introduciamo MMInference (Multimodality Million tokens Inference), un metodo dinamico di attenzione sparsa che accelera la fase di pre-riempimento per input multimodali a lungo contesto. In primo luogo, la nostra analisi rivela che la località temporale e spaziale dell'input video porta a un pattern sparso unico, il pattern a griglia. Contemporaneamente, i VLMs mostrano distribuzioni sparse marcatamente diverse tra le diverse modalità. Introduciamo un metodo basato su permutazioni per sfruttare il pattern a griglia unico e gestire i problemi ai confini delle modalità. Ricercando offline i pattern sparsi ottimali per ciascuna testa, MMInference costruisce dinamicamente la distribuzione sparsa in base all'input. Forniamo anche kernel GPU ottimizzati per calcoli sparsi efficienti. È importante notare che MMInference si integra perfettamente nelle pipeline esistenti dei VLMs senza alcuna modifica del modello o fine-tuning. Esperimenti su benchmark multimodali, tra cui Video QA, Captioning, VisionNIAH e Mixed-Modality NIAH, con VLMs a lungo contesto all'avanguardia (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) mostrano che MMInference accelera la fase di pre-riempimento fino a 8.3x a 1M token mantenendo l'accuratezza. Il nostro codice è disponibile all'indirizzo https://aka.ms/MMInference.
I modelli Visual-Language-Action (VLA) esistenti hanno mostrato prestazioni promettenti in scenari zero-shot, dimostrando capacità impressionanti nell'esecuzione di compiti e nel ragionamento. Tuttavia, una sfida significativa deriva dalle limitazioni della codifica visiva, che può portare a fallimenti durante compiti come la presa di oggetti. Inoltre, questi modelli tipicamente soffrono di un elevato sovraccarico computazionale a causa delle loro grandi dimensioni, spesso superiori a 7 miliardi di parametri. Sebbene questi modelli eccellano nel ragionamento e nella pianificazione dei compiti, il sostanziale sovraccarico computazionale che comportano li rende poco pratici per ambienti robotici in tempo reale, dove velocità ed efficienza sono fondamentali. Per affrontare le limitazioni dei modelli VLA esistenti, proponiamo NORA, un modello da 3 miliardi di parametri progettato per ridurre il sovraccarico computazionale mantenendo prestazioni solide nei compiti. NORA adotta il modello multimodale Qwen-2.5-VL-3B come base, sfruttando la sua superiore comprensione visivo-semantica per migliorare il ragionamento visivo e la fondazione delle azioni. Inoltre, il nostro modello è addestrato su 970.000 dimostrazioni robotiche del mondo reale ed è dotato del tokenizer FAST+ per una generazione efficiente di sequenze di azioni. I risultati sperimentali dimostrano che NORA supera i modelli VLA su larga scala esistenti, ottenendo migliori prestazioni nei compiti con un sovraccarico computazionale significativamente ridotto, rendendolo una soluzione più pratica per l'autonomia robotica in tempo reale.
La generazione di canzoni si concentra sulla produzione di brani di alta qualità e controllabili basati su vari prompt. Tuttavia, i metodi esistenti faticano a generare voci e accompagnamenti con un controllo basato sui prompt e un allineamento corretto. Inoltre, non sono in grado di supportare adeguatamente varie task. Per affrontare queste sfide, introduciamo VersBand, un framework multi-task per la generazione di canzoni che sintetizza brani di alta qualità, allineati e controllabili tramite prompt. VersBand comprende i seguenti modelli principali: 1) VocalBand, un modello disaccoppiato, sfrutta il metodo di flow-matching per generare stili vocali, altezze e mel-spettrogrammi, consentendo una generazione vocale rapida e di alta qualità con controllo dello stile. 2) AccompBand, un modello transformer basato su flow, incorpora il Band-MOE, selezionando esperti adatti per migliorare qualità, allineamento e controllo. Questo modello permette di generare accompagnamenti controllabili e di alta qualità, allineati con le voci. 3) Due modelli di generazione, LyricBand per i testi e MelodyBand per le melodie, contribuiscono al sistema completo di generazione multi-task di canzoni, consentendo un controllo esteso basato su più prompt. I risultati sperimentali dimostrano che VersBand supera i modelli di riferimento in diverse task di generazione di canzoni, utilizzando metriche sia oggettive che soggettive. Campioni audio sono disponibili al link https://VersBand.github.io.
La risoluzione di problemi geometrici matematici (GPS) richiede spesso un'integrazione efficace di informazioni multimodali e una coerenza logica verificabile. Nonostante il rapido sviluppo dei modelli linguistici di grandi dimensioni nella risoluzione generale di problemi, rimangono irrisolte sia le questioni metodologiche che quelle relative ai benchmark, soprattutto considerando il fatto che gli attuali benchmark sintetici per GPS spesso non sono auto-verificati e contengono rumore e informazioni auto-contraddittorie a causa delle illusioni dei LLM. In questo articolo, proponiamo un motore di dati scalabile chiamato TrustGeoGen per la generazione di problemi, con verifica formale per fornire un benchmark principiato, che riteniamo getti le basi per ulteriori sviluppi di metodi per GPS. Il motore sintetizza dati geometrici attraverso quattro innovazioni chiave: 1) generazione multimodale allineata di diagrammi, descrizioni testuali e soluzioni passo-passo; 2) verifica formale che garantisce percorsi di ragionamento conformi alle regole; 3) un meccanismo di bootstrapping che consente l'escalation della complessità tramite la generazione ricorsiva di stati; e 4) i nostri algoritmi GeoExplore series che producono simultaneamente varianti multi-soluzione e tracce di backtracking auto-riflessive. Attraverso la verifica logica formale, TrustGeoGen produce il dataset GeoTrust-200K con integrità modale garantita, insieme al testset GeoTrust-test. Gli esperimenti rivelano che i modelli all'avanguardia raggiungono solo il 49,17% di accuratezza su GeoTrust-test, dimostrando la sua severità valutativa. Crucialmente, i modelli addestrati su GeoTrust raggiungono una generalizzazione OOD su GeoQA, riducendo significativamente le incoerenze logiche rispetto alle pseudo-etichette annotate da OpenAI-o1. Il nostro codice è disponibile all'indirizzo https://github.com/Alpha-Innovator/TrustGeoGen.
Recenti lavori hanno suggerito che l'In-Context Learning (ICL) opera in modalità duali, ovvero il recupero del compito (ricordare schemi appresi durante il pre-training) e l'apprendimento del compito (``apprendimento'' al momento dell'inferenza a partire da dimostrazioni). Tuttavia, separare queste due modalità rimane un obiettivo impegnativo. Introduciamo ICL CIPHERS, una classe di riformulazioni di compiti basate su cifrari a sostituzione mutuati dalla crittografia classica. In questo approccio, un sottoinsieme di token negli input in-context viene sostituito con altri token (irrilevanti), rendendo le frasi in inglese meno comprensibili all'occhio umano. Tuttavia, per progettazione, esiste uno schema latente e fisso per questa sostituzione, rendendola reversibile. Questo cifrario biiettivo (reversibile) garantisce che il compito rimanga un'attività ben definita in senso astratto, nonostante le trasformazioni. È una questione curiosa se i modelli linguistici di grandi dimensioni (LLM) possano risolvere ICL CIPHERS con una mappatura BIETTIVA, che richiede di decifrare il cifrario latente. Mostriamo che gli LLM sono più bravi a risolvere ICL CIPHERS con mappature BIETTIVE rispetto alla baseline NON-BIETTIVA (irreversibile), fornendo un approccio innovativo per quantificare l'``apprendimento'' nell'ICL. Sebbene questo divario sia piccolo, è coerente su quattro dataset e sei modelli. Infine, esaminiamo le rappresentazioni interne degli LLM e identifichiamo prove della loro capacità di decodificare gli input cifrati.
La crescente domanda di Architetture Specifiche per Dominio (DSA) ha guidato lo sviluppo della Metodologia Agile per lo Sviluppo Hardware (AHDM). I Linguaggi di Costruzione Hardware (HCL) come Chisel offrono funzionalità di astrazione di alto livello, rendendoli ideali per l'AHDM basato su HCL. Sebbene i Modelli Linguistici di Grande Dimensione (LLM) eccellano nei compiti di generazione di codice, incontrano ancora difficoltà con la generazione di Chisel, in particolare riguardo alla correttezza sintattica e alla variabilità del design. Modelli di ragionamento recenti hanno migliorato significativamente le capacità di generazione di codice attraverso tecniche di scalatura al momento del test. Tuttavia, abbiamo riscontrato che i modelli di ragionamento senza adattamento al dominio non possono portare benefici sostanziali ai compiti di generazione di codice Chisel. Questo articolo presenta ChiseLLM, una soluzione che comprende elaborazione e trasformazione dei dati, sintesi di tracce di ragionamento guidate da prompt e addestramento di modelli adattati al dominio. Abbiamo costruito dataset di alta qualità da risorse pubbliche di codice RTL e guidato il modello ad adottare schemi di pensiero strutturati attraverso metodi di miglioramento del prompt. Gli esperimenti dimostrano che i nostri modelli ChiseLLM-7B e ChiseLLM-32B hanno migliorato la correttezza sintattica rispettivamente del 18,85% e del 26,32% rispetto ai modelli base, aumentando la capacità di variabilità del design del 47,58% rispetto ai modelli di ragionamento di riferimento. I nostri dataset e modelli sono pubblicamente disponibili, fornendo modelli ad alte prestazioni e convenienti per l'AHDM basato su HCL, e offrendo una baseline efficace per la ricerca futura. Repository Github: https://github.com/observerw/ChiseLLM