LLAMAPIE: Proaktive In-Ear-Konversationsassistenten
LLAMAPIE: Proactive In-Ear Conversation Assistants
May 7, 2025
Autoren: Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota
cs.AI
Zusammenfassung
Wir stellen LlamaPIE vor, den ersten Echtzeit-Proaktivassistenten, der entwickelt wurde, um menschliche Gespräche durch diskrete, prägnante Anleitungen zu verbessern, die über hörbare Geräte bereitgestellt werden. Im Gegensatz zu traditionellen Sprachmodellen, die eine explizite Benutzeraufforderung erfordern, arbeitet dieser Assistent im Hintergrund, antizipiert Benutzerbedürfnisse, ohne Gespräche zu unterbrechen. Wir adressieren mehrere Herausforderungen, darunter die Bestimmung des richtigen Zeitpunkts für eine Antwort, die Erstellung prägnanter Antworten, die Gespräche bereichern, die Nutzung von Benutzerwissen für kontextbewusste Unterstützung und die Echtzeitverarbeitung auf dem Gerät. Um dies zu erreichen, erstellen wir einen halbsynthetischen Dialogdatensatz und schlagen eine Zwei-Modell-Pipeline vor: ein kleines Modell, das entscheidet, wann geantwortet werden soll, und ein größeres Modell, das die Antwort generiert. Wir bewerten unseren Ansatz anhand realer Datensätze und demonstrieren seine Wirksamkeit bei der Bereitstellung hilfreicher, unaufdringlicher Unterstützung. Benutzerstudien mit unserem Assistenten, der auf Apple Silicon M2-Hardware implementiert ist, zeigen eine starke Präferenz für den proaktiven Assistenten im Vergleich zu einer Basislinie ohne Unterstützung und einem reaktiven Modell, was das Potenzial von LlamaPIE zur Verbesserung von Live-Gesprächen unterstreicht.
English
We introduce LlamaPIE, the first real-time proactive assistant designed to
enhance human conversations through discreet, concise guidance delivered via
hearable devices. Unlike traditional language models that require explicit user
invocation, this assistant operates in the background, anticipating user needs
without interrupting conversations. We address several challenges, including
determining when to respond, crafting concise responses that enhance
conversations, leveraging knowledge of the user for context-aware assistance,
and real-time, on-device processing. To achieve this, we construct a
semi-synthetic dialogue dataset and propose a two-model pipeline: a small model
that decides when to respond and a larger model that generates the response. We
evaluate our approach on real-world datasets, demonstrating its effectiveness
in providing helpful, unobtrusive assistance. User studies with our assistant,
implemented on Apple Silicon M2 hardware, show a strong preference for the
proactive assistant over both a baseline with no assistance and a reactive
model, highlighting the potential of LlamaPie to enhance live conversations.