Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo phi-3-mini, un modello linguistico da 3,8 miliardi di parametri addestrato su 3,3 trilioni di token, le cui prestazioni complessive, misurate sia attraverso benchmark accademici che test interni, rivaleggiano con quelle di modelli come Mixtral 8x7B e GPT-3.5 (ad esempio, phi-3-mini raggiunge il 69% su MMLU e 8.38 su MT-bench), nonostante sia abbastanza piccolo da poter essere distribuito su un telefono. L'innovazione risiede interamente nel nostro dataset di addestramento, una versione ampliata di quello utilizzato per phi-2, composto da dati web fortemente filtrati e dati sintetici. Il modello è inoltre ulteriormente allineato per robustezza, sicurezza e formato di chat. Forniamo anche alcuni risultati iniziali di ridimensionamento dei parametri con modelli da 7B e 14B addestrati su 4,8T token, chiamati rispettivamente phi-3-small e phi-3-medium, entrambi significativamente più capaci di phi-3-mini (ad esempio, rispettivamente il 75% e il 78% su MMLU, e 8.7 e 8.9 su MT-bench).
La famiglia LLaMA di Meta è diventata una delle serie di modelli linguistici di grandi dimensioni (LLM) open-source più potenti. In particolare, i modelli LLaMA3 sono stati recentemente rilasciati e raggiungono prestazioni impressionanti grazie a un pre-addestramento su larga scala con oltre 15T di token di dati. Considerando l'ampia applicazione della quantizzazione a basso bit per gli LLM in scenari con risorse limitate, esploriamo le capacità di LLaMA3 quando viene quantizzato a bassa larghezza di bit. Questa esplorazione ha il potenziale di rivelare nuove intuizioni e sfide per la quantizzazione a basso bit di LLaMA3 e di altri futuri LLM, specialmente nel risolvere i problemi di degradazione delle prestazioni che si verificano nella compressione degli LLM. Nello specifico, valutiamo i 10 metodi esistenti di quantizzazione post-addestramento e fine-tuning LoRA di LLaMA3 su 1-8 bit e su diversi dataset per rivelare in modo completo le prestazioni di quantizzazione a basso bit di LLaMA3. I risultati dei nostri esperimenti indicano che LLaMA3 subisce ancora una degradazione non trascurabile in questi scenari, specialmente a larghezze di bit ultra-basse. Ciò evidenzia il significativo divario di prestazioni a bassa larghezza di bit che deve essere colmato nei futuri sviluppi. Ci aspettiamo che questo studio empirico si riveli prezioso per avanzare i futuri modelli, spingendo gli LLM verso larghezze di bit più basse con una maggiore accuratezza per essere pratici. Il nostro progetto è rilasciato su https://github.com/Macaronlin/LLaMA3-Quantization e i modelli quantizzati di LLaMA3 sono rilasciati su https://huggingface.co/LLMQ.
I modelli linguistici di grandi dimensioni (LLM) odierni sono suscettibili a iniezioni di prompt, jailbreak e altri attacchi che consentono agli avversari di sovrascrivere le istruzioni originali del modello con prompt dannosi. In questo lavoro, sosteniamo che una delle principali vulnerabilità alla base di questi attacchi è che gli LLM spesso considerano i prompt di sistema (ad esempio, il testo di uno sviluppatore di applicazioni) con la stessa priorità del testo proveniente da utenti non attendibili e terze parti. Per affrontare questo problema, proponiamo una gerarchia di istruzioni che definisce esplicitamente come i modelli dovrebbero comportarsi quando istruzioni di priorità diversa entrano in conflitto. Proponiamo inoltre un metodo di generazione di dati per dimostrare questo comportamento gerarchico nel seguire le istruzioni, che insegna agli LLM a ignorare selettivamente le istruzioni con priorità inferiore. Applichiamo questo metodo a GPT-3.5, dimostrando che aumenta drasticamente la robustezza – anche per tipi di attacchi non visti durante l'addestramento – imponendo al contempo degradazioni minime sulle capacità standard.
Il campo in rapida evoluzione dell'Automazione dei Processi Robotici (RPA) ha compiuto progressi significativi nell'automatizzazione di processi ripetitivi, ma la sua efficacia diminuisce negli scenari che richiedono compiti spontanei o imprevedibili richiesti dagli utenti. Questo articolo introduce un approccio innovativo, FlowMind, che sfrutta le capacità dei Modelli Linguistici di Grande Dimensione (LLM) come il Generative Pretrained Transformer (GPT), per affrontare questa limitazione e creare un sistema di generazione automatica di flussi di lavoro. In FlowMind, proponiamo una ricetta generica di prompt per una lezione che aiuta a fondare il ragionamento degli LLM con interfacce di programmazione applicativa (API) affidabili. Con questo, FlowMind non solo mitiga il comune problema delle allucinazioni negli LLM, ma elimina anche l'interazione diretta tra gli LLM e dati o codici proprietari, garantendo così l'integrità e la riservatezza delle informazioni - un pilastro fondamentale nei servizi finanziari. FlowMind semplifica ulteriormente l'interazione con l'utente presentando descrizioni di alto livello dei flussi di lavoro auto-generati, consentendo agli utenti di ispezionarli e fornire feedback in modo efficace. Introduciamo inoltre NCEN-QA, un nuovo dataset nel settore finanziario per il benchmarking di attività di risposta alle domande dai rapporti N-CEN sui fondi. Abbiamo utilizzato NCEN-QA per valutare le prestazioni dei flussi di lavoro generati da FlowMind rispetto a varianti di base e di ablazione di FlowMind. Dimostriamo il successo di FlowMind, l'importanza di ciascun componente nella ricetta di lezione proposta e l'efficacia dell'interazione e del feedback dell'utente in FlowMind.
Recentemente, è emersa una serie di algoritmi di distillazione consapevoli della diffusione per alleviare il sovraccarico computazionale associato al processo di inferenza multi-step dei Modelli di Diffusione (DMs). Le attuali tecniche di distillazione si dividono spesso in due aspetti distinti: i) Preservazione della Traiettoria ODE; e ii) Riformulazione della Traiettoria ODE. Tuttavia, questi approcci soffrono di un grave degrado delle prestazioni o di cambiamenti di dominio. Per affrontare queste limitazioni, proponiamo Hyper-SD, un nuovo framework che sinergicamente combina i vantaggi della Preservazione e della Riformulazione della Traiettoria ODE, mantenendo prestazioni quasi senza perdite durante la compressione dei passi. In primo luogo, introduciamo la Distillazione di Consistenza Segmentata della Traiettoria per eseguire progressivamente una distillazione coerente all'interno di segmenti di tempo predefiniti, facilitando la preservazione della traiettoria ODE originale da una prospettiva di ordine superiore. In secondo luogo, incorporiamo l'apprendimento basato sul feedback umano per migliorare le prestazioni del modello in un regime a basso numero di passi e mitigare la perdita di prestazioni causata dal processo di distillazione. In terzo luogo, integriamo la distillazione del punteggio per migliorare ulteriormente la capacità di generazione a basso numero di passi del modello e offrire il primo tentativo di sfruttare un LoRA unificato per supportare il processo di inferenza a tutti i passi. Esperimenti estesi e studi sugli utenti dimostrano che Hyper-SD raggiunge prestazioni SOTA da 1 a 8 passi di inferenza sia per SDXL che per SD1.5. Ad esempio, Hyper-SDXL supera SDXL-Lightning di +0,68 nel CLIP Score e +0,51 nell'Aes Score nell'inferenza a 1 passo.
Questo articolo descrive MAIA, un Agente Multimodale Automatico per l'Interpretabilità. MAIA è un sistema che utilizza modelli neurali per automatizzare attività di comprensione dei modelli neurali, come l'interpretazione delle caratteristiche e l'individuazione delle modalità di fallimento. Esso equipaggia un modello visione-linguaggio pre-addestrato con una serie di strumenti che supportano la sperimentazione iterativa sui sottocomponenti di altri modelli per spiegarne il comportamento. Questi includono strumenti comunemente utilizzati dai ricercatori umani nell'interpretabilità: per sintetizzare e modificare gli input, calcolare esempi di massima attivazione da dataset del mondo reale, e riassumere e descrivere i risultati sperimentali. Gli esperimenti di interpretabilità proposti da MAIA combinano questi strumenti per descrivere e spiegare il comportamento del sistema. Valutiamo le applicazioni di MAIA ai modelli di visione artificiale. In primo luogo, caratterizziamo la capacità di MAIA di descrivere caratteristiche (a livello di neurone) nelle rappresentazioni apprese delle immagini. Attraverso diversi modelli addestrati e un nuovo dataset di neuroni visivi sintetici con descrizioni ground-truth accoppiate, MAIA produce descrizioni comparabili a quelle generate da esperti sperimentatori umani. Mostriamo poi che MAIA può essere utile in due ulteriori compiti di interpretabilità: ridurre la sensibilità alle caratteristiche spurie e identificare automaticamente gli input con alta probabilità di essere classificati erroneamente.
Il rapido sviluppo dei modelli fondazionali multimodali ha dimostrato progressi significativi nella comprensione e generazione visivo-linguistica, come evidenziato dal nostro precedente lavoro SEED-LLaMA. Tuttavia, rimane un divario tra le sue capacità e l'applicabilità nel mondo reale, principalmente a causa della limitata capacità del modello di rispondere efficacemente a varie istruzioni dell'utente e di interagire con dati visivi eterogenei. In questo lavoro, ci concentriamo sul colmare questo divario integrando due funzionalità potenziate: (1) la comprensione di immagini di dimensioni e rapporti arbitrari e (2) la generazione di immagini a più livelli di granularità. Presentiamo un modello fondazionale unificato e versatile, denominato SEED-X, in grado di modellare la semantica visiva a più livelli di granularità per compiti di comprensione e generazione. Oltre ai risultati competitivi su benchmark pubblici, SEED-X dimostra la sua efficacia nella gestione di applicazioni real-world in vari domini dopo l'ottimizzazione tramite istruzioni. Speriamo che il nostro lavoro possa ispirare future ricerche su ciò che può essere raggiunto dai modelli fondazionali multimodali versatili nelle applicazioni reali. I modelli, i codici e i dataset saranno rilasciati su https://github.com/AILab-CVC/SEED-X.
I modelli di consistenza hanno dimostrato capacità notevoli nel facilitare la generazione efficiente di immagini/video, permettendo la sintesi con un numero minimo di passaggi di campionamento. Si sono rivelati vantaggiosi nel mitigare i carichi computazionali associati ai modelli di diffusione. Tuttavia, l'applicazione dei modelli di consistenza nella generazione musicale rimane ampiamente inesplorata. Per colmare questa lacuna, presentiamo i Music Consistency Models (MusicCM), che sfruttano il concetto di modelli di consistenza per sintetizzare in modo efficiente mel-spettrogrammi per clip musicali, mantenendo un'elevata qualità riducendo al minimo il numero di passaggi di campionamento. Basandosi su modelli di diffusione esistenti per la generazione di musica da testo, il modello MusicCM incorpora la distillazione di consistenza e l'addestramento di un discriminatore avversario. Inoltre, riteniamo utile generare musica estesa e coerente incorporando processi di diffusione multipli con vincoli condivisi. I risultati sperimentali rivelano l'efficacia del nostro modello in termini di efficienza computazionale, fedeltà e naturalezza. In particolare, MusicCM raggiunge una sintesi musicale senza interruzioni con soli quattro passaggi di campionamento, ad esempio, solo un secondo per minuto di clip musicale, dimostrando il potenziale per applicazioni in tempo reale.
Questo articolo introduce MultiBooth, una tecnica innovativa ed efficiente per la personalizzazione multi-concetto nella generazione di immagini da testo. Nonostante i significativi progressi nei metodi di generazione personalizzata, in particolare con il successo dei modelli di diffusione, i metodi esistenti spesso incontrano difficoltà negli scenari multi-concetto a causa della bassa fedeltà dei concetti e degli elevati costi di inferenza. MultiBooth affronta questi problemi suddividendo il processo di generazione multi-concetto in due fasi: una fase di apprendimento mono-concetto e una fase di integrazione multi-concetto. Durante la fase di apprendimento mono-concetto, utilizziamo un codificatore di immagini multi-modale e una tecnica efficiente di codifica dei concetti per apprendere una rappresentazione concisa e discriminativa per ciascun concetto. Nella fase di integrazione multi-concetto, utilizziamo bounding box per definire l'area di generazione per ciascun concetto all'interno della mappa di cross-attention. Questo metodo consente la creazione di singoli concetti all'interno delle rispettive regioni specificate, facilitando così la formazione di immagini multi-concetto. Questa strategia non solo migliora la fedeltà dei concetti, ma riduce anche i costi aggiuntivi di inferenza. MultiBooth supera vari baseline sia nelle valutazioni qualitative che quantitative, dimostrando la sua superiore performance ed efficienza computazionale. Pagina del progetto: https://multibooth.github.io/
La locomozione stabile in ambienti impervi è una capacità essenziale per i robot quadrupedi, che richiede la capacità di resistere a vari disturbi esterni. Tuttavia, le politiche basate sull'apprendimento recenti utilizzano solo una semplice randomizzazione del dominio per migliorare la robustezza delle politiche apprese, il che non può garantire che il robot abbia adeguate capacità di resistenza ai disturbi. In questo articolo, proponiamo di modellare il processo di apprendimento come un'interazione avversaria tra l'attore e un nuovo disturbatore introdotto, e di garantire la loro ottimizzazione con un vincolo H_{infty}. A differenza dell'attore che massimizza la ricompensa complessiva scontata, il disturbatore è responsabile della generazione di forze esterne efficaci ed è ottimizzato massimizzando l'errore tra la ricompensa del compito e il suo oracolo, cioè il "costo" in ogni iterazione. Per mantenere stabile l'ottimizzazione congiunta tra l'attore e il disturbatore, il nostro vincolo H_{infty} impone il limite del rapporto tra il costo e l'intensità delle forze esterne. Attraverso l'interazione reciproca durante la fase di addestramento, l'attore può acquisire la capacità di navigare in disturbi fisici sempre più complessi. Verifichiamo la robustezza del nostro approccio su compiti di locomozione quadrupedale con il robot Unitree Aliengo, e anche su un compito più impegnativo con il robot Unitree A1, dove si prevede che il quadrupede esegua la locomozione solo sulle zampe posteriori come se fosse un robot bipede. I risultati quantitativi simulati mostrano un miglioramento rispetto ai baselines, dimostrando l'efficacia del metodo e di ogni scelta progettuale. D'altra parte, gli esperimenti con robot reali mostrano qualitativamente quanto sia robusta la politica quando interferisce con vari disturbi su vari terreni, tra cui scale, piattaforme alte, pendii e terreni scivolosi. Tutto il codice, i checkpoint e le linee guida per il dispiegamento nel mondo reale saranno resi pubblici.
Affrontiamo il compito di stimare i parametri della fotocamera da un insieme di immagini che rappresentano una scena. I popolari strumenti di struttura da movimento (SfM) basati su caratteristiche risolvono questo compito mediante ricostruzione incrementale: ripetono la triangolazione di punti 3D sparsi e la registrazione di ulteriori viste della fotocamera alla nuvola di punti sparsi. Reinterpretiamo la struttura da movimento incrementale come un'applicazione iterata e un affinamento di un relocalizzatore visivo, ovvero di un metodo che registra nuove viste allo stato attuale della ricostruzione. Questa prospettiva ci permette di investigare relocalizzatori visivi alternativi che non si basano sull'abbinamento di caratteristiche locali. Dimostriamo che la regressione delle coordinate della scena, un approccio di relocalizzazione basato sull'apprendimento, ci consente di costruire rappresentazioni neurali implicite della scena da immagini non posizionate. A differenza di altri metodi di ricostruzione basati sull'apprendimento, non richiediamo priorità di posa né input sequenziali, e ottimizziamo in modo efficiente su migliaia di immagini. Il nostro metodo, ACE0 (ACE Zero), stima le pose della fotocamera con una precisione comparabile a quella dell'SfM basato su caratteristiche, come dimostrato dalla sintesi di nuove viste. Pagina del progetto: https://nianticlabs.github.io/acezero/