Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе представлен анализ эффективности использования стандартных неглубоких прямопропагающих сетей для имитации поведения механизма внимания в оригинальной модели Transformer, которая является передовой архитектурой для задач последовательностного преобразования. Мы заменяем ключевые элементы механизма внимания в Transformer простыми прямопропагающими сетями, обученными с использованием оригинальных компонентов посредством дистилляции знаний. Наши эксперименты, проведенные на наборе данных IWSLT2017, демонстрируют способность таких "Transformer без внимания" конкурировать по производительности с оригинальной архитектурой. Благодаря тщательным исследованиям методом абляции и экспериментам с различными типами и размерами заменяющих сетей, мы предлагаем выводы, подтверждающие жизнеспособность нашего подхода. Это не только проливает свет на адаптивность неглубоких прямопропагающих сетей в эмуляции механизмов внимания, но также подчеркивает их потенциал для упрощения сложных архитектур в задачах последовательностного преобразования.
Генеративные модели для синтеза 3D-объектов достигли значительного прогресса благодаря включению априорных знаний, извлеченных из 2D диффузионных моделей. Тем не менее, сохраняются такие проблемы, как многовидовые геометрические несоответствия и низкая скорость генерации в существующих рамках синтеза 3D-объектов. Это можно объяснить двумя факторами: во-первых, недостатком обширных геометрических априорных знаний в процессе оптимизации, а во-вторых, проблемой переплетения геометрии и текстуры в традиционных методах генерации 3D-объектов. В ответ на это мы представляем MetaDreamer, двухэтапный подход к оптимизации, который использует богатые априорные знания как в 2D, так и в 3D. На первом этапе мы сосредотачиваемся на оптимизации геометрического представления для обеспечения многовидовой согласованности и точности 3D-объектов. На втором этапе мы концентрируемся на тонкой настройке геометрии и оптимизации текстуры, достигая более детализированного 3D-объекта. Благодаря использованию 2D и 3D априорных знаний на соответствующих этапах, мы эффективно снижаем взаимозависимость между геометрией и текстурой. MetaDreamer устанавливает четкие цели оптимизации для каждого этапа, что значительно экономит время в процессе генерации 3D-объектов. В итоге MetaDreamer способен генерировать высококачественные 3D-объекты на основе текстовых запросов в течение 20 минут, и, насколько нам известно, это наиболее эффективный метод генерации 3D-объектов из текста. Кроме того, мы внедряем управление изображением в процесс, повышая управляемость генерации 3D-объектов. Многочисленные эмпирические данные подтверждают, что наш метод не только обладает высокой эффективностью, но и достигает уровня качества, соответствующего передовым современным технологиям генерации 3D-объектов.
В данной работе мы демонстрируем, что генеративные модели "текст-изображение" могут быть "инвертированы" для автоматической оценки их собственных способностей к пониманию связи между текстом и изображением. Наш метод, названный SelfEval, использует генеративную модель для вычисления правдоподобия реальных изображений при заданных текстовых запросах, что делает генеративную модель применимой напрямую к дискриминативным задачам. С помощью SelfEval мы перепрофилируем стандартные наборы данных, созданные для оценки мультимодальных дискриминативных моделей "текст-изображение", чтобы детально оценить генеративные модели: их производительность в задачах связывания атрибутов, распознавания цветов, подсчёта объектов, распознавания форм и понимания пространственных отношений. Насколько нам известно, SelfEval является первым автоматизированным метриком, который демонстрирует высокую степень согласованности с эталонными человеческими оценками в измерении соответствия текста и изображения для множества моделей и бенчмарков. Кроме того, SelfEval позволяет оценивать генеративные модели на сложных задачах, таких как Winoground image-score, где они показывают конкурентоспособные результаты по сравнению с дискриминативными моделями. Мы также выявляем серьёзные недостатки стандартных автоматизированных метрик, таких как CLIP-score, в измерении соответствия текста на бенчмарках вроде DrawBench, и показываем, как SelfEval обходит эти проблемы. Мы надеемся, что SelfEval обеспечит простую и надёжную автоматизированную оценку для диффузионных моделей.
Несмотря на масштабируемую производительность трансформеров для обработки изображений (ViTs), высокие вычислительные затраты (как на этапе обучения, так и на этапе вывода) ограничивают их применение в промышленных задачах. Квантование после обучения (PTQ), которое настраивает ViTs с использованием небольшого набора данных и работает в формате с низкой разрядностью, эффективно решает проблему затрат, но, к сожалению, приводит к значительному снижению производительности в случаях с низкой разрядностью. В данной статье мы представляем I&S-ViT — новый метод, который регулирует PTQ ViTs в инклюзивной и стабильной манере. I&S-ViT сначала выявляет две проблемы в PTQ ViTs: (1) Неэффективность квантования при использовании распространенного log2-квантователя для активаций после Softmax; (2) Неровный и усиленный ландшафт потерь при крупнозернистой гранулярности квантования для активаций после LayerNorm. Затем I&S-ViT решает эти проблемы, вводя: (1) Новый shift-uniform-log2 квантователь (SULQ), который включает механизм сдвига с последующим равномерным квантованием для достижения как инклюзивного представления домена, так и точной аппроксимации распределения; (2) Трехэтапную стратегию плавной оптимизации (SOS), которая объединяет преимущества канального и послойного квантования для обеспечения стабильного обучения. Комплексные оценки на различных задачах обработки изображений подтверждают превосходство I&S-ViT над существующими методами PTQ для ViTs, особенно в сценариях с низкой разрядностью. Например, I&S-ViT повышает производительность 3-битного ViT-B на впечатляющие 50,68%.
Крупные языковые модели (LLM) продемонстрировали значительные улучшения в навыках рассуждения и принятия решений, а также способны вести естественные диалоги с пользователями. Многие недавние работы направлены на расширение возможностей ассистентов на основе LLM за счет подключения внешних инструментов, что позволяет им получать доступ к приватной или актуальной информации и выполнять действия от имени пользователей. Для более точной оценки производительности таких ассистентов в данной статье представлен ToolTalk — эталонный набор, состоящий из сложных пользовательских запросов, требующих многошагового использования инструментов, задаваемых через диалог. ToolTalk включает 28 инструментов, объединенных в 7 плагинов, а также полную симуляцию реализации каждого инструмента, что позволяет проводить полностью автоматизированную оценку ассистентов, полагающихся на обратную связь от выполнения. ToolTalk также делает акцент на инструментах, которые оказывают внешнее воздействие на мир, а не только на инструментах для поиска или ссылок на информацию. Мы оценили GPT-3.5 и GPT-4 на ToolTalk, получив показатели успешности 26% и 50% соответственно. Наш анализ ошибок выявил три основные категории и предложил возможные направления для улучшения. Мы публикуем ToolTalk по адресу https://github.com/microsoft/ToolTalk.
Современные политики управления роботами демонстрируют низкую производительность при необходимости обобщения в новых средах. Корректирующая обратная связь от человека является важным инструментом для достижения такого обобщения. Однако адаптация и обучение на основе онлайн-коррекций от человека — это нетривиальная задача: роботам необходимо не только запоминать обратную связь с течением времени, чтобы извлекать нужную информацию в новых условиях и снижать частоту вмешательств, но и уметь реагировать на обратную связь, которая может варьироваться от высокоуровневых предпочтений человека до низкоуровневых корректировок параметров навыков. В данной работе мы представляем систему Distillation and Retrieval of Online Corrections (DROC), основанную на больших языковых моделях (LLM), которая способна реагировать на произвольные формы языковой обратной связи, извлекать обобщаемые знания из корректировок и извлекать релевантный прошлый опыт на основе текстового и визуального сходства для улучшения производительности в новых условиях. DROC способна реагировать на последовательность онлайн-коррекций, которые касаются как высокоуровневых планов задач, так и низкоуровневых примитивов навыков. Мы демонстрируем, что DROC эффективно извлекает релевантную информацию из последовательности онлайн-коррекций в базу знаний и использует эти знания в условиях с новыми экземплярами задач или объектов. DROC превосходит другие методы, которые напрямую генерируют код для роботов с помощью LLM, требуя лишь половины общего количества коррекций в первом раунде и практически не нуждаясь в коррекциях после двух итераций. Дополнительные результаты, видео, промпты и код доступны на https://sites.google.com/stanford.edu/droc.