Управление естественным языком через синтез программ
Natural Language Commanding via Program Synthesis
June 6, 2023
Авторы: Apurva Gandhi, Thong Q. Nguyen, Huitian Jiao, Robert Steen, Ameya Bhatawdekar
cs.AI
Аннотация
Мы представляем Semantic Interpreter — удобную для естественного языка ИИ-систему для программ повышения продуктивности, таких как Microsoft Office, которая использует большие языковые модели (LLM) для выполнения намерений пользователя через функции приложений. Хотя LLM отлично справляются с пониманием намерений пользователя, выраженных на естественном языке, они недостаточны для реализации специфичных для приложений намерений, которые требуют большего, чем преобразования текста в текст. Поэтому мы вводим Office Domain Specific Language (ODSL) — краткий, высокоуровневый язык, специализированный для выполнения действий и взаимодействия с объектами в приложениях Office. Semantic Interpreter использует метод построения промптов Analysis-Retrieval с LLM для синтеза программ, переводя высказывания пользователя на естественном языке в программы ODSL, которые могут быть транслированы в API приложений и затем выполнены. Основное внимание в нашем обсуждении уделено исследовательскому изучению для Microsoft PowerPoint.
English
We present Semantic Interpreter, a natural language-friendly AI system for
productivity software such as Microsoft Office that leverages large language
models (LLMs) to execute user intent across application features. While LLMs
are excellent at understanding user intent expressed as natural language, they
are not sufficient for fulfilling application-specific user intent that
requires more than text-to-text transformations. We therefore introduce the
Office Domain Specific Language (ODSL), a concise, high-level language
specialized for performing actions in and interacting with entities in Office
applications. Semantic Interpreter leverages an Analysis-Retrieval prompt
construction method with LLMs for program synthesis, translating natural
language user utterances to ODSL programs that can be transpiled to application
APIs and then executed. We focus our discussion primarily on a research
exploration for Microsoft PowerPoint.