Articoli di ricerca IA selezionati quotidianamente con traduzioni
La comunità del machine learning sta rapidamente esplorando tecniche per il prompting di modelli linguistici (LM) e per la loro organizzazione in pipeline per risolvere compiti complessi. Purtroppo, le pipeline esistenti basate su LM sono tipicamente implementate utilizzando "template di prompt" predefiniti, ovvero stringhe lunghe e complesse scoperte tramite tentativi ed errori. Per un approccio più sistematico allo sviluppo e all'ottimizzazione di pipeline basate su LM, introduciamo DSPy, un modello di programmazione che astrae le pipeline LM come grafi di trasformazione del testo, ovvero grafi computazionali imperativi in cui i LM vengono invocati tramite moduli dichiarativi. I moduli DSPy sono parametrici, il che significa che possono apprendere (creando e raccogliendo dimostrazioni) come applicare composizioni di tecniche di prompting, fine-tuning, aumento dei dati e ragionamento. Progettiamo un compilatore che ottimizza qualsiasi pipeline DSPy per massimizzare una metrica specifica. Condividiamo due casi di studio, dimostrando che programmi DSPy concisi possono esprimere e ottimizzare pipeline LM sofisticate che ragionano su problemi di matematica, affrontano il recupero multi-hop, rispondono a domande complesse e controllano cicli di agenti. In pochi minuti di compilazione, poche righe di DSPy consentono a GPT-3.5 e llama2-13b-chat di auto-avviare pipeline che superano il prompting few-shot standard (generalmente di oltre il 25% e il 65%, rispettivamente) e pipeline con dimostrazioni create da esperti (fino al 5-46% e 16-40%, rispettivamente). Inoltre, i programmi DSPy compilati per LM aperti e relativamente piccoli come T5 con 770 milioni di parametri e llama2-13b-chat sono competitivi con approcci che si basano su catene di prompt scritte da esperti per il proprietario GPT-3.5. DSPy è disponibile all'indirizzo https://github.com/stanfordnlp/dspy.
"Pensare è per Agire." Gli esseri umani possono dedurre gli stati mentali altrui dalle osservazioni - un'abilità chiamata Teoria della Mente (ToM) - e successivamente agire in modo pragmatico basandosi su tali deduzioni. I benchmark esistenti per il question answering, come ToMi, pongono ai modelli domande per fare inferenze sulle credenze dei personaggi in una storia, ma non verificano se i modelli siano in grado di utilizzare queste inferenze per guidare le loro azioni. Proponiamo un nuovo paradigma di valutazione per i grandi modelli linguistici (LLM): Pensare per Agire (T4D), che richiede ai modelli di collegare le inferenze sugli stati mentali altrui alle azioni in scenari sociali. Gli esperimenti su T4D dimostrano che LLM come GPT-4 e PaLM 2 sembrano eccellere nel tracciare le credenze dei personaggi nelle storie, ma faticano a tradurre questa capacità in azioni strategiche. La nostra analisi rivela che la sfida principale per gli LLM risiede nell'identificare le inferenze implicite sugli stati mentali, che non vengono esplicitamente richieste come in ToMi, ma che portano a scegliere l'azione corretta in T4D. Per colmare questa lacuna, introduciamo un framework di prompting zero-shot, Prevedere e Riflettere (FaR), che fornisce una struttura di ragionamento che incoraggia gli LLM a anticipare le sfide future e a ragionare sulle potenziali azioni. FaR migliora le prestazioni di GPT-4 dal 50% al 71% su T4D, superando altri metodi di prompting come Catena del Pensiero e Auto-Domanda. Inoltre, FaR si generalizza a diverse strutture narrative e scenari fuori distribuzione che richiedono anche inferenze ToM per scegliere un'azione, superando costantemente altri metodi, inclusi l'apprendimento in-context few-shot.
I grandi modelli linguistici (LLM) come GPT-4 hanno dimostrato prestazioni notevoli in una varietà di compiti, ma questa forte performance spesso comporta un costo elevato legato all'uso di servizi API a pagamento. In questo articolo, siamo motivati a studiare la costruzione di una cascata di LLM per ridurre i costi associati al loro utilizzo, in particolare per l'esecuzione di compiti di ragionamento (ad esempio, matematici, causali). La nostra pipeline a cascata segue l'intuizione che le domande più semplici possano essere affrontate da un LLM più debole ma più economico, mentre solo le domande più complesse richiedono l'uso di un LLM più potente e costoso. Per realizzare questo processo decisionale, consideriamo la "coerenza della risposta" del LLM più debole come un segnale della difficoltà della domanda e proponiamo diversi metodi per il campionamento delle risposte e il controllo della coerenza, inclusa una tecnica che sfrutta una miscela di due rappresentazioni di pensiero (ovvero, Catena di Pensiero e Programma di Pensiero). Attraverso esperimenti su sei dataset di benchmark di ragionamento, utilizzando GPT-3.5-turbo e GPT-4 rispettivamente come LLM più debole e più forte, dimostriamo che le nostre cascate di LLM proposte possono ottenere prestazioni paragonabili all'uso esclusivo del LLM più forte, ma richiedono solo il 40% del suo costo.
Oggi, gli utenti utilizzano i grandi modelli linguistici (LLM) come assistenti per rispondere a query che richiedono conoscenze esterne; chiedono informazioni sul meteo in una città specifica, sui prezzi delle azioni e persino sulla posizione di luoghi specifici nel loro quartiere. Queste query richiedono che l'LLM produca codice che invochi API esterne per rispondere alla domanda dell'utente, ma raramente gli LLM producono codice corretto al primo tentativo, necessitando di una raffinazione iterativa del codice in base ai risultati dell'esecuzione. Inoltre, utilizzare assistenti basati su LLM per gestire volumi elevati di query può essere costoso. In questo lavoro, presentiamo un framework, EcoAssistant, che consente agli LLM di rispondere a query guidate dal codice in modo più economico e accurato. EcoAssistant è composto da tre componenti. Innanzitutto, permette agli assistenti LLM di interagire con un esecutore di codice automatico per raffinare iterativamente il codice o produrre risposte basate sui risultati dell'esecuzione. In secondo luogo, utilizziamo una gerarchia di assistenti LLM, che tenta di rispondere alla query con LLM più deboli e meno costosi prima di ricorrere a LLM più potenti e costosi. Terzo, recuperiamo soluzioni da query passate riuscite come dimostrazioni in contesto per aiutare le query successive. Empiricamente, dimostriamo che EcoAssistant offre vantaggi distintivi in termini di economicità e accuratezza, superando GPT-4 di 10 punti percentuali nel tasso di successo con meno del 50% del costo di GPT-4.