Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il pretraining dei modelli linguistici prevede l'addestramento su corpora estesi, dove la qualità dei dati svolge un ruolo cruciale. In questo lavoro, ci proponiamo di stimare direttamente il contributo dei dati durante il pretraining e di selezionare i dati di pretraining in modo efficiente. In particolare, traiamo ispirazione da recenti scoperte che dimostrano come l'efficienza di compressione (ovvero la perdita normalizzata) di vari modelli su determinati testi sia fortemente correlata alle loro prestazioni downstream, quando il dominio del testo è allineato con il benchmark downstream (Huang et al., 2024). Basandoci su questa osservazione, ipotizziamo che i dati su cui le perdite del modello sono predittive delle capacità downstream contribuiscano efficacemente all'apprendimento. Per sfruttare questa intuizione, introduciamo la selezione dei dati basata sulla forza predittiva dei dati (PreSelect), un metodo leggero ed efficiente per la selezione dei dati che richiede l'addestramento e il dispiegamento di un solo valutatore basato su fastText. Attraverso esperimenti approfonditi con modelli da 1B e 3B parametri, dimostriamo che i modelli addestrati su 30B token selezionati con PreSelect superano le prestazioni di una baseline standard addestrata su 300B token, ottenendo una riduzione di 10x nei requisiti computazionali. Inoltre, PreSelect supera significativamente altre baseline competitive per la selezione dei dati, come DCLM e FineWeb-Edu, su una scala di modelli da 3B addestrati su 100B token. Rendiamo disponibile il nostro valutatore per la selezione dei dati addestrato insieme ai dataset curati all'indirizzo https://github.com/hkust-nlp/PreSelect.
I Large Language Model (LLM) hanno dimostrato prestazioni notevoli nella risoluzione di compiti di ragionamento complesso attraverso meccanismi come il prompting a Catena di Pensiero (Chain-of-Thought, CoT), che enfatizza un ragionamento verboso e passo-passo. Tuttavia, gli esseri umani tipicamente adottano una strategia più efficiente: elaborano pensieri intermedi concisi che catturano solo le informazioni essenziali. In questo lavoro, proponiamo la Catena di Bozze (Chain of Draft, CoD), un nuovo paradigma ispirato ai processi cognitivi umani, in cui gli LLM generano output di ragionamento intermedi minimalisti ma informativi durante la risoluzione dei compiti. Riducendo la verbosità e concentrandosi sulle intuizioni critiche, il CoD eguaglia o supera il CoT in termini di accuratezza utilizzando solo il 7,6% dei token, riducendo significativamente i costi e la latenza in vari compiti di ragionamento.
La progettazione di soluzioni per sfide ingegneristiche complesse è fondamentale nelle attività produttive umane. Tuttavia, le ricerche precedenti nel campo della generazione aumentata da recupero (RAG) non hanno affrontato adeguatamente i compiti legati alla progettazione di soluzioni ingegneristiche complesse. Per colmare questa lacuna, introduciamo un nuovo benchmark, SolutionBench, per valutare la capacità di un sistema di generare soluzioni complete e fattibili per problemi ingegneristici con vincoli multipli e complessi. Per progredire ulteriormente nella progettazione di soluzioni ingegneristiche complesse, proponiamo un sistema innovativo, SolutionRAG, che sfrutta l'esplorazione basata su alberi e il meccanismo di pensiero bi-punto per generare soluzioni affidabili. I risultati sperimentali estesi dimostrano che SolutionRAG raggiunge prestazioni all'avanguardia (SOTA) su SolutionBench, evidenziando il suo potenziale nel migliorare l'automazione e l'affidabilità della progettazione di soluzioni ingegneristiche complesse in applicazioni reali.
Affrontiamo il problema della generazione di codice a partire da feedback di esecuzione multi-turn. I metodi esistenti generano codice senza considerare il feedback o utilizzano complessi approcci di reinforcement learning gerarchico per ottimizzare ricompense multi-turn. Proponiamo un approccio semplice ma scalabile, muCode, che risolve la generazione di codice multi-turn utilizzando solo ricompense a singolo passo. La nostra intuizione chiave è che la generazione di codice è un MDP recuperabile in un solo passo, dove il codice corretto può essere recuperato da qualsiasi stato intermedio del codice in un singolo turno. muCode addestra iterativamente sia un generatore per fornire soluzioni di codice condizionate su feedback di esecuzione multi-turn, sia un verificatore per valutare il codice appena generato. Le valutazioni sperimentali dimostrano che il nostro approccio ottiene miglioramenti significativi rispetto ai metodi baselines più avanzati. Forniamo un'analisi delle scelte progettuali dei modelli di ricompensa e della politica, e mostriamo l'efficacia di muCode nell'utilizzare il feedback di esecuzione. Il nostro codice è disponibile all'indirizzo https://github.com/portal-cornell/muCode.
I recenti modelli di generazione testo-immagine (T2I) hanno ottenuto risultati straordinari addestrandosi su dataset di scala miliardaria, seguendo un paradigma "più grande è meglio" che privilegia la quantità dei dati rispetto alla qualità. Mettiamo in discussione questo paradigma consolidato dimostrando che un aumento strategico dei dati su piccoli dataset ben curati può eguagliare o superare i modelli addestrati su enormi raccolte di dati web. Utilizzando solo ImageNet potenziato con aumentazioni ben progettate di testo e immagini, otteniamo un punteggio complessivo superiore di +2 rispetto a SD-XL su GenEval e di +5 su DPGBench, utilizzando solo 1/10 dei parametri e 1/1000 delle immagini di addestramento. I nostri risultati suggeriscono che un aumento strategico dei dati, piuttosto che dataset massicci, potrebbe offrire un percorso più sostenibile per la generazione T2I.
I modelli linguistici di grandi dimensioni (LLM) hanno raggiunto una competenza paragonabile a quella umana in una vasta gamma di compiti, ma la loro capacità di risolvere problemi matematici rigorosi rimane una sfida aperta. In questo lavoro, indaghiamo un problema fondamentale ma computazionalmente intrattabile: determinare se un dato polinomio multivariato è non negativo. Questo problema, strettamente correlato al Diciassettesimo Problema di Hilbert, svolge un ruolo cruciale nell'ottimizzazione globale dei polinomi e ha applicazioni in vari campi. In primo luogo, introduciamo SoS-1K, un dataset accuratamente curato di circa 1.000 polinomi, insieme a istruzioni di ragionamento progettate da esperti basate su cinque criteri progressivamente più impegnativi. Valutando diversi LLM all'avanguardia, scopriamo che, senza una guida strutturata, tutti i modelli performano solo leggermente al di sopra della linea di base del 50% di ipotesi casuali. Tuttavia, istruzioni di ragionamento di alta qualità migliorano significativamente l'accuratezza, aumentando le prestazioni fino all'81%. Inoltre, il nostro modello da 7B, SoS-7B, addestrato su SoS-1K per sole 4 ore, supera in accuratezza il DeepSeek-V3 da 671B e il GPT-4o-mini, richiedendo rispettivamente solo l'1,8% e il 5% del tempo di calcolo necessario per le lettere. I nostri risultati evidenziano il potenziale degli LLM di spingere i confini del ragionamento matematico e affrontare problemi NP-difficili.
Comprendere le informazioni da documenti visivamente ricchi rimane una sfida significativa per i tradizionali metodi di Generazione Aumentata dal Recupero (RAG). Gli attuali benchmark si concentrano principalmente su domande e risposte (QA) basate su immagini, trascurando le sfide fondamentali del recupero efficiente, della comprensione e del ragionamento all'interno di documenti visivi densi. Per colmare questa lacuna, introduciamo ViDoSeek, un nuovo dataset progettato per valutare le prestazioni RAG su documenti visivamente ricchi che richiedono un ragionamento complesso. Sulla base di esso, identifichiamo le principali limitazioni degli approcci RAG attuali: (i) i metodi di recupero puramente visivi faticano a integrare efficacemente sia le caratteristiche testuali che quelle visive, e (ii) gli approcci precedenti spesso allocano un numero insufficiente di token di ragionamento, limitandone l'efficacia. Per affrontare queste sfide, proponiamo ViDoRAG, un nuovo framework RAG multi-agente progettato per il ragionamento complesso su documenti visivi. ViDoRAG utilizza una strategia ibrida basata su Modelli a Mistura Gaussiana (GMM) per gestire efficacemente il recupero multi-modale. Per ulteriormente stimolare le capacità di ragionamento del modello, introduciamo un flusso di lavoro iterativo degli agenti che incorpora esplorazione, riepilogo e riflessione, fornendo un framework per investigare lo scaling al momento del test nei domini RAG. Esperimenti estensivi su ViDoSeek convalidano l'efficacia e la generalizzazione del nostro approccio. In particolare, ViDoRAG supera i metodi esistenti di oltre il 10% sul benchmark competitivo ViDoSeek.
L'apprendimento per rinforzo ha ottenuto risultati promettenti nel raggiungere capacità a livello umano o addirittura superumano in diversi domini problematici, ma il successo nella manipolazione robotica abile rimane limitato. Questo lavoro indaga le principali sfide nell'applicare l'apprendimento per rinforzo per risolvere una serie di compiti di manipolazione ricchi di contatti su un'embodiment umanoide. Introduciamo nuove tecniche per superare le sfide identificate con validazione empirica. I nostri principali contributi includono un modulo di regolazione automatica da reale a simulato che avvicina l'ambiente simulato al mondo reale, uno schema di progettazione di ricompense generalizzato che semplifica l'ingegneria delle ricompense per compiti di manipolazione ricchi di contatti a lungo orizzonte, un processo di distillazione divide et impera che migliora l'efficienza del campionamento per problemi di esplorazione difficili mantenendo le prestazioni da simulato a reale, e una miscela di rappresentazioni sparse e dense degli oggetti per colmare il divario percettivo da simulato a reale. Mostriamo risultati promettenti su tre compiti di manipolazione abile umanoide, con studi di ablazione su ciascuna tecnica. Il nostro lavoro presenta un approccio di successo per apprendere la manipolazione abile umanoide utilizzando l'apprendimento per rinforzo da simulato a reale, raggiungendo una generalizzazione robusta e alte prestazioni senza la necessità di dimostrazioni umane.
I moderni modelli di riconoscimento vocale automatico (ASR), come Whisper di OpenAI, si basano su architetture profonde di tipo encoder-decoder, dove gli encoder rappresentano un collo di bottiglia critico per un dispiegamento efficiente a causa dell'elevata intensità computazionale. Presentiamo LiteASR, uno schema di compressione a basso rango per gli encoder ASR che riduce significativamente i costi di inferenza mantenendo l'accuratezza della trascrizione. Il nostro approccio sfrutta le forti proprietà di basso rango osservate nelle attivazioni intermedie: applicando l'analisi delle componenti principali (PCA) con un piccolo dataset di calibrazione, approssimiamo le trasformazioni lineari con una catena di moltiplicazioni di matrici a basso rango e ottimizziamo ulteriormente il self-attention per operare nella dimensione ridotta. I risultati di valutazione mostrano che il nostro metodo può comprimere le dimensioni dell'encoder di Whisper large-v3 di oltre il 50%, eguagliando le dimensioni di Whisper medium con una migliore accuratezza di trascrizione, stabilendo così una nuova frontiera Pareto-ottimale di efficienza e prestazioni. Il codice di LiteASR è disponibile all'indirizzo https://github.com/efeslab/LiteASR.
La generazione potenziata dal recupero (Retrieval-Augmented Generation, RAG) estende i grandi modelli linguistici (Large Language Models, LLMs) con fonti di dati esterne per migliorare la correttezza fattuale e la copertura di dominio. Le pipeline RAG moderne si basano su grandi archivi di dati, portando a sfide sistemiche in implementazioni sensibili alla latenza, specialmente quando è disponibile una memoria GPU limitata. Per affrontare queste sfide, proponiamo TeleRAG, un sistema di inferenza efficiente che riduce la latenza di RAG con requisiti minimi di memoria GPU. L'innovazione centrale di TeleRAG è il recupero anticipato (lookahead retrieval), un meccanismo di prefetching che anticipa i dati necessari e li trasferisce dalla CPU alla GPU in parallelo con la generazione del LLM. Sfruttando la modularità delle pipeline RAG, l'algoritmo di ricerca con indice invertito (Inverted File Index, IVF) e le similarità tra le query, TeleRAG ottimizza la sovrapposizione tra il movimento dei dati e il calcolo. I risultati sperimentali mostrano che TeleRAG riduce la latenza end-to-end dell'inferenza RAG fino a 1,72x in media rispetto ai sistemi all'avanguardia, consentendo implementazioni più veloci ed efficienti in termini di memoria per applicazioni RAG avanzate.
I modelli visivi di base (VFMs) stanno diventando sempre più popolari grazie alle loro prestazioni all'avanguardia. Tuttavia, l'interpretabilità rimane cruciale per applicazioni critiche. In questo senso, i modelli auto-esplicativi (SEM) mirano a fornire classificatori interpretabili che scompongono le previsioni in una somma ponderata di concetti interpretabili. Nonostante le loro promesse, studi recenti hanno dimostrato che queste spiegazioni spesso mancano di fedeltà. In questo lavoro, combiniamo i VFM con una nuova architettura prototipica e obiettivi di formazione specializzati. Addestrando solo una testa leggera (circa 1M di parametri) su VFM congelati, il nostro approccio (ProtoFM) offre una soluzione efficiente e interpretabile. Le valutazioni dimostrano che il nostro approccio raggiunge prestazioni competitive nella classificazione, superando i modelli esistenti in una gamma di metriche di interpretabilità derivate dalla letteratura. Il codice è disponibile all'indirizzo https://github.com/hturbe/proto-fm.
I sistemi di Generazione Aumentata da Recupero (RAG) rimangono vulnerabili a risposte allucinate nonostante l'incorporazione di fonti di conoscenza esterne. Presentiamo LettuceDetect, un framework che affronta due limitazioni critiche nei metodi esistenti di rilevamento delle allucinazioni: (1) i vincoli della finestra contestuale dei metodi tradizionali basati su encoder, e (2) l'inefficienza computazionale degli approcci basati su LLM. Basandoci sulle capacità di contesto esteso di ModernBERT (fino a 8k token) e addestrato sul dataset di benchmark RAGTruth, il nostro approccio supera tutti i precedenti modelli basati su encoder e la maggior parte dei modelli basati su prompt, pur essendo circa 30 volte più piccolo rispetto ai migliori modelli. LettuceDetect è un modello di classificazione a livello di token che elabora triple contesto-domanda-risposta, consentendo l'identificazione di affermazioni non supportate a livello di token. Le valutazioni sul corpus RAGTruth dimostrano un punteggio F1 del 79,22% per il rilevamento a livello di esempio, che rappresenta un miglioramento del 14,8% rispetto a Luna, la precedente architettura basata su encoder all'avanguardia. Inoltre, il sistema può elaborare da 30 a 60 esempi al secondo su una singola GPU, rendendolo più pratico per applicazioni RAG nel mondo reale.
La crescente complessità e il numero di parametri delle Reti Neurali Convoluzionali (CNN) e dei Transformer pongono sfide in termini di efficienza computazionale e richieste di risorse. Il pruning è stato identificato come una strategia efficace per affrontare queste sfide rimuovendo elementi ridondanti come neuroni, canali o connessioni, migliorando così l'efficienza computazionale senza compromettere significativamente le prestazioni. Questo articolo si basa sul lavoro fondamentale dell'Optimal Brain Damage (OBD) avanzando la metodologia di stima dell'importanza dei parametri utilizzando la matrice Hessiana. A differenza degli approcci precedenti che si affidano a approssimazioni, introduciamo l'Optimal Brain Apoptosis (OBA), un nuovo metodo di pruning che calcola direttamente il valore del prodotto Hessiano-vettore per ciascun parametro. Scomponendo la matrice Hessiana attraverso i livelli della rete e identificando le condizioni in cui le sottomatrici Hessiane inter-livello sono diverse da zero, proponiamo una tecnica altamente efficiente per calcolare l'espansione di Taylor del secondo ordine dei parametri. Questo approccio consente un processo di pruning più preciso, specialmente nel contesto delle CNN e dei Transformer, come validato nei nostri esperimenti che includono VGG19, ResNet32, ResNet50 e ViT-B/16 sui dataset CIFAR10, CIFAR100 e Imagenet. Il nostro codice è disponibile all'indirizzo https://github.com/NEU-REAL/OBA.
La presa abile rimane un problema fondamentale ma impegnativo nella robotica. Un robot generico deve essere in grado di afferrare oggetti diversi in scenari arbitrari. Tuttavia, la ricerca esistente si basa tipicamente su assunzioni specifiche, come ambienti a singolo oggetto o limitati, portando a una generalizzazione ristretta. La nostra soluzione è DexGraspVLA, un framework gerarchico che utilizza un modello Visione-Linguaggio pre-addestrato come pianificatore di alto livello e apprende una politica basata sulla diffusione come controllore di azioni di basso livello. L'intuizione chiave risiede nella trasformazione iterativa di input linguistici e visivi diversi in rappresentazioni invarianti al dominio, dove l'apprendimento per imitazione può essere applicato in modo efficace grazie all'attenuazione dello spostamento di dominio. Ciò consente una robusta generalizzazione in un'ampia gamma di scenari del mondo reale. In particolare, il nostro metodo raggiunge un tasso di successo superiore al 90% in migliaia di combinazioni non viste di oggetti, illuminazione e sfondo in un ambiente "zero-shot". L'analisi empirica conferma ulteriormente la coerenza del comportamento interno del modello attraverso variazioni ambientali, convalidando così il nostro design e spiegando le sue prestazioni di generalizzazione. Speriamo che il nostro lavoro possa rappresentare un passo avanti verso il raggiungimento di una presa abile generale. La nostra demo e il codice sono disponibili su https://dexgraspvla.github.io/.
L'applicazione di modelli linguistici di grandi dimensioni (LLM) per assistere nella psicoconsulenza rappresenta un approccio emergente e significativo, motivato dal divario sostanziale tra i bisogni dei pazienti e la disponibilità di supporto per la salute mentale. Tuttavia, gli attuali LLM faticano a fornire risposte efficaci in modo coerente ai discorsi dei clienti, principalmente a causa della mancanza di supervisione da parte di dati reali di alta qualità derivanti da sessioni di psicoconsulenza, il cui contenuto è tipicamente inaccessibile per motivi di privacy dei clienti. Inoltre, la qualità delle risposte dei terapeuti nelle sessioni disponibili può variare significativamente in base alla loro formazione professionale e all'esperienza. Valutare la qualità delle risposte dei terapeuti rimane una sfida aperta. In questo lavoro, affrontiamo queste sfide proponendo innanzitutto un insieme di principi professionali e completi per valutare le risposte dei terapeuti ai discorsi dei clienti. Utilizzando questi principi, creiamo un dataset di preferenze, PsychoCounsel-Preference, che contiene 36k coppie di confronto di preferenze di alta qualità. Questo dataset è allineato con le preferenze di psicoterapeuti professionisti, fornendo una solida base per valutare e migliorare gli LLM nella psicoconsulenza. Esperimenti sul reward modeling e sull'apprendimento delle preferenze dimostrano che PsychoCounsel-Preference è un'ottima risorsa per gli LLM per acquisire le competenze essenziali per rispondere ai clienti in una sessione di consulenza. Il nostro modello meglio allineato, PsychoCounsel-Llama3-8B, raggiunge un impressionante tasso di vittoria dell'87% contro GPT-4o. Rilasciamo PsychoCounsel-Preference, PsychoCounsel-Llama3-8B e il modello di reward PsychoCounsel-Llama3-8B-Reward per facilitare la ricerca sulla psicoconsulenza con gli LLM all'indirizzo: https://hf.co/Psychotherapy-LLM.
L'attività umana è regolata da norme. Quando compiono azioni nel mondo reale, gli esseri umani non solo seguono le norme, ma considerano anche il compromesso tra norme diverse. Tuttavia, le macchine vengono spesso addestrate senza una supervisione esplicita sulla comprensione e il ragionamento normativo, specialmente quando le norme sono radicate in un contesto fisico e sociale. Per migliorare e valutare la capacità di ragionamento normativo dei modelli visione-linguaggio (VLMs), presentiamo EgoNormia |epsilon|, composto da 1.853 video egocentrici di interazioni umane, ciascuno dei quali ha due domande correlate che valutano sia la previsione che la giustificazione delle azioni normative. Le azioni normative comprendono sette categorie: sicurezza, privacy, prossemica, cortesia, cooperazione, coordinazione/proattività e comunicazione/leggibilità. Per compilare questo dataset su larga scala, proponiamo una nuova pipeline che sfrutta il campionamento video, la generazione automatica di risposte, il filtraggio e la validazione umana. Il nostro lavoro dimostra che gli attuali modelli visione-linguaggio all'avanguardia mancano di una solida comprensione delle norme, ottenendo un massimo del 45% su EgoNormia (rispetto a un benchmark umano del 92%). La nostra analisi delle prestazioni in ciascuna dimensione evidenzia i significativi rischi per la sicurezza, la privacy e la mancanza di capacità di collaborazione e comunicazione quando applicati ad agenti nel mondo reale. Inoltre, mostriamo che attraverso un metodo di generazione basato sul recupero, è possibile utilizzare EgoNomia per potenziare il ragionamento normativo nei VLMs.
Nonostante i significativi progressi nella generazione di immagini basata su diffusione, la generazione guidata da soggetti e la modifica basata su istruzioni rimangono sfide complesse. I metodi esistenti tendono a trattarle separatamente, affrontando difficoltà legate alla limitata disponibilità di dati di alta qualità e alla scarsa generalizzazione. Tuttavia, entrambe le attività richiedono la cattura di variazioni visive complesse mantenendo la coerenza tra input e output. Pertanto, proponiamo MIGE, un framework unificato che standardizza le rappresentazioni delle attività utilizzando istruzioni multimodali. Tratta la generazione guidata da soggetti come una creazione su una tela vuota e la modifica basata su istruzioni come una modifica di un'immagine esistente, stabilendo una formulazione condivisa di input-output. MIGE introduce un nuovo encoder multimodale che mappa istruzioni multimodali in formato libero in uno spazio unificato visione-linguaggio, integrando caratteristiche visive e semantiche attraverso un meccanismo di fusione delle feature. Questa unificazione consente l'addestramento congiunto di entrambe le attività, offrendo due vantaggi chiave: (1) Miglioramento Cross-Task: Sfruttando rappresentazioni visive e semantiche condivise, l'addestramento congiunto migliora l'aderenza alle istruzioni e la coerenza visiva sia nella generazione guidata da soggetti che nella modifica basata su istruzioni. (2) Generalizzazione: L'apprendimento in un formato unificato facilita il trasferimento di conoscenze cross-task, consentendo a MIGE di generalizzare a nuove attività compositive, inclusa la modifica guidata da soggetti basata su istruzioni. Gli esperimenti dimostrano che MIGE eccelle sia nella generazione guidata da soggetti che nella modifica basata su istruzioni, stabilendo uno stato dell'arte nella nuova attività di modifica guidata da soggetti basata su istruzioni. Codice e modello sono stati resi pubblicamente disponibili su https://github.com/Eureka-Maggie/MIGE.
I recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno compiuto notevoli progressi nella comprensione dei video. Tuttavia, le loro prestazioni sui video che coinvolgono azioni umane sono ancora limitate dalla mancanza di dati di alta qualità. Per affrontare questo problema, introduciamo una pipeline di annotazione dati in due fasi. In primo luogo, progettiamo strategie per accumulare video che presentano azioni umane chiare da Internet. In secondo luogo, i video vengono annotati in un formato di descrizione standardizzato che utilizza attributi umani per distinguere gli individui e descrivere cronologicamente le loro azioni e interazioni. Attraverso questa pipeline, abbiamo curato due dataset, denominati HAICTrain e HAICBench. HAICTrain comprende 126K coppie video-descrizione generate da Gemini-Pro e verificate per scopi di addestramento. Nel frattempo, HAICBench include 500 coppie video-descrizione annotate manualmente e 1.400 coppie domanda-risposta, per una valutazione completa della comprensione delle azioni umane. I risultati sperimentali dimostrano che l'addestramento con HAICTrain non solo migliora significativamente le capacità di comprensione umana su 4 benchmark, ma può anche migliorare i risultati della generazione di video da testo. Sia HAICTrain che HAICBench sono rilasciati su https://huggingface.co/datasets/KuaishouHAIC/HAIC.