HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

6 papers found

Auto-Allineamento con Backtraduzione di Istruzioni
Self-Alignment with Instruction Backtranslation

Aug 11

ByXian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, Mike Lewis

Presentiamo un metodo scalabile per costruire un modello linguistico di alta qualità in grado di seguire istruzioni, etichettando automaticamente testi scritti da esseri umani con le corrispondenti istruzioni. Il nostro approccio, denominato backtraduzione di istruzioni, parte da un modello linguistico affinato su una piccola quantità di dati iniziali e un dato corpus web. Il modello iniziale viene utilizzato per costruire esempi di addestramento generando prompt di istruzioni per documenti web (auto-aumento), e poi selezionando esempi di alta qualità tra questi candidati (auto-curazione). Questi dati vengono quindi utilizzati per affinare un modello più potente. L'affinamento di LLaMa su due iterazioni del nostro approccio produce un modello che supera tutti gli altri modelli basati su LLaMa nella classifica Alpaca senza fare affidamento su dati di distillazione, dimostrando un allineamento automatico altamente efficace.

PIPPA: Un dataset conversazionale parzialmente sintetico
PIPPA: A Partially Synthetic Conversational Dataset

Aug 11

ByTear Gosling, Alpin Dale, Yinhe Zheng

Con l'emergere di modelli linguistici di grandi dimensioni sempre più potenti, si sta sviluppando un crescente interesse nell'utilizzare questi modelli per applicazioni di conversazione casuale e di role-play. Tuttavia, i dataset esistenti per conversazioni e role-play spesso non riescono a catturare le interazioni diversificate e sfumate tipicamente mostrate dai partecipanti al role-play nel mondo reale. Per affrontare questa limitazione e contribuire al campo in rapida crescita, introduciamo un dataset parzialmente sintetico denominato PIPPA (Personal Interaction Pairs between People and AI). PIPPA è il risultato di uno sforzo di crowdsourcing guidato dalla comunità che coinvolge un gruppo di appassionati di role-play. Il dataset comprende oltre 1 milione di espressioni distribuite in 26.000 sessioni di conversazione e fornisce una risorsa preziosa per i ricercatori e gli sviluppatori di AI per esplorare e perfezionare i sistemi di intelligenza artificiale conversazionale nel contesto di scenari di role-play.

Espansioni componibili che preservano le funzioni per le architetture Transformer
Composable Function-preserving Expansions for Transformer Architectures

Aug 11

ByAndrea Gesmundo, Kaitlin Maile

L'addestramento di reti neurali all'avanguardia richiede un costo elevato in termini di calcolo e tempo. La scala del modello è riconosciuta come un fattore critico per raggiungere e migliorare lo stato dell'arte. Aumentare la scala di una rete neurale normalmente richiede di ricominciare da zero inizializzando casualmente tutti i parametri del modello, poiché ciò implica un cambiamento dei parametri dell'architettura che non consente un trasferimento diretto della conoscenza da modelli di dimensioni più ridotte. In questo lavoro, proponiamo sei trasformazioni componibili per aumentare gradualmente le dimensioni delle reti neurali basate su transformer preservandone la funzionalità, consentendo di espandere la capacità del modello secondo necessità. Forniamo una prova di preservazione esatta della funzione sotto vincoli di inizializzazione minimi per ciascuna trasformazione. I metodi proposti possono abilitare pipeline di addestramento efficienti per modelli più grandi e potenti espandendo progressivamente l'architettura durante l'addestramento.

BOLAA: Benchmarking e Orchestrazione di Agenti Autonomi Potenziati da LLM
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

Aug 11

ByZhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese

I successi significativi dei grandi modelli linguistici (LLM) incoraggiano l'esplorazione emergente degli Agenti Autonomi Potenziati da LLM (LAA). Un LAA è in grado di generare azioni attraverso il suo LLM centrale e interagire con l'ambiente, facilitando la risoluzione di compiti complessi condizionando le interazioni passate, come osservazioni e azioni. Poiché l'indagine sugli LAA è ancora molto recente, sono disponibili esplorazioni limitate. Pertanto, forniamo un confronto completo degli LAA in termini sia di architetture degli agenti che di modelli LLM di base. Inoltre, proponiamo una nuova strategia per orchestrare più LAA in modo che ciascun LAA si concentri su un tipo specifico di azione, ovvero BOLAA, dove un controller gestisce la comunicazione tra più agenti. Eseguiamo simulazioni in ambienti di decision-making e ragionamento multi-step, che giustificano in modo completo le capacità degli LAA. I nostri risultati forniscono suggerimenti quantitativi per la progettazione delle architetture LAA e la scelta ottimale degli LLM, nonché la compatibilità di entrambi. Rilasciamo il nostro codice di implementazione degli LAA al pubblico all'indirizzo https://github.com/salesforce/BOLAA.

Migliorare le rappresentazioni congiunte audio-testo senza allineamento
Improving Joint Speech-Text Representations Without Alignment

Aug 11

ByCal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho

L'anno scorso ha visto progressi sorprendenti nella generazione di immagini basata su prompt testuali, fondata sull'idea di uno spazio di rappresentazione cross-modale in cui i domini del testo e dell'immagine sono rappresentati congiuntamente. Nel campo del riconoscimento automatico del parlato (ASR), questa idea ha trovato applicazione sotto forma di encoder congiunti parlato-testo, che possono scalare fino alle capacità di modelli con un numero molto elevato di parametri grazie all'addestramento su dati di parlato e testo non accoppiati. Sebbene questi metodi mostrino promettenti risultati, hanno richiesto un trattamento speciale della discrepanza nella lunghezza delle sequenze, intrinseca al parlato e al testo, attraverso euristiche di up-sampling o un modello esplicito di allineamento. In questo lavoro, forniamo prove che gli encoder congiunti parlato-testo raggiungono naturalmente rappresentazioni coerenti tra le modalità ignorando la lunghezza delle sequenze, e sosteniamo che le funzioni di perdita basate sulla coerenza potrebbero perdonare le differenze di lunghezza e assumere semplicemente il miglior allineamento possibile. Dimostriamo che una tale perdita migliora il tasso di errore sulle parole (WER) a valle sia in un sistema monolingue con molti parametri che in uno multilingue.

Miglioramento della Gestione di Rete Utilizzando Codice Generato da Modelli Linguistici di Grande Dimensione
Enhancing Network Management Using Code Generated by Large Language Models

Aug 11

BySathiya Kumaran Mani, Yajie Zhou, Kevin Hsieh, Santiago Segarra, Ranveer Chandra, Srikanth Kandula

L'analisi delle topologie di rete e dei grafi di comunicazione svolge un ruolo cruciale nella gestione delle reti contemporanee. Tuttavia, l'assenza di un approccio coerente porta a una curva di apprendimento impegnativa, a un aumento degli errori e a inefficienze. In questo articolo, introduciamo un nuovo approccio per facilitare un'esperienza di gestione della rete basata sul linguaggio naturale, utilizzando modelli linguistici di grandi dimensioni (LLM) per generare codice specifico per le attività a partire da query in linguaggio naturale. Questo metodo affronta le sfide della spiegabilità, della scalabilità e della privacy consentendo agli operatori di rete di ispezionare il codice generato, eliminando la necessità di condividere i dati di rete con gli LLM e concentrandosi su richieste specifiche per l'applicazione combinate con tecniche generali di sintesi programmatica. Progettiamo e valutiamo un sistema prototipo utilizzando applicazioni di benchmark, dimostrando un'elevata accuratezza, economicità e il potenziale per ulteriori miglioramenti attraverso l'uso di tecniche complementari di sintesi programmatica.