LLAMAPIE: Assistente Conversazionale Proattivo per Auricolari
LLAMAPIE: Proactive In-Ear Conversation Assistants
May 7, 2025
Autori: Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota
cs.AI
Abstract
Presentiamo LlamaPIE, il primo assistente proattivo in tempo reale progettato per migliorare le conversazioni umane attraverso una guida discreta e concisa, erogata tramite dispositivi indossabili. A differenza dei tradizionali modelli linguistici che richiedono un'invocazione esplicita da parte dell'utente, questo assistente opera in background, anticipando le esigenze dell'utente senza interrompere le conversazioni. Affrontiamo diverse sfide, tra cui determinare quando rispondere, formulare risposte concise che arricchiscano le conversazioni, sfruttare la conoscenza dell'utente per un'assistenza contestuale e il processamento in tempo reale direttamente sul dispositivo. Per raggiungere questo obiettivo, costruiamo un dataset di dialogo semi-sintetico e proponiamo una pipeline a due modelli: un modello più piccolo che decide quando rispondere e un modello più grande che genera la risposta. Valutiamo il nostro approccio su dataset del mondo reale, dimostrando la sua efficacia nel fornire un'assistenza utile e non invadente. Studi con utenti condotti con il nostro assistente, implementato su hardware Apple Silicon M2, mostrano una forte preferenza per l'assistente proattivo rispetto sia a una baseline senza assistenza che a un modello reattivo, evidenziando il potenziale di LlamaPIE nel migliorare le conversazioni in tempo reale.
English
We introduce LlamaPIE, the first real-time proactive assistant designed to
enhance human conversations through discreet, concise guidance delivered via
hearable devices. Unlike traditional language models that require explicit user
invocation, this assistant operates in the background, anticipating user needs
without interrupting conversations. We address several challenges, including
determining when to respond, crafting concise responses that enhance
conversations, leveraging knowledge of the user for context-aware assistance,
and real-time, on-device processing. To achieve this, we construct a
semi-synthetic dialogue dataset and propose a two-model pipeline: a small model
that decides when to respond and a larger model that generates the response. We
evaluate our approach on real-world datasets, demonstrating its effectiveness
in providing helpful, unobtrusive assistance. User studies with our assistant,
implemented on Apple Silicon M2 hardware, show a strong preference for the
proactive assistant over both a baseline with no assistance and a reactive
model, highlighting the potential of LlamaPie to enhance live conversations.