Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы представляем Writing in the Margins (WiM), новый шаблон вывода для крупных языковых моделей, разработанный для оптимизации обработки длинных входных последовательностей в задачах, ориентированных на извлечение информации. Этот подход использует сегментированное предзаполнение кэша ключ-значение для выполнения вывода по сегментам, что обеспечивает эффективную обработку обширных контекстов вместе с генерацией и классификацией промежуточной информации ("маржей"), направляющей модель на выполнение конкретных задач. Этот метод незначительно увеличивает вычислительную нагрузку, значительно повышая производительность стандартных моделей без необходимости тонкой настройки. В частности, мы наблюдаем, что WiM обеспечивает в среднем улучшение точности на 7.5% для навыков рассуждения (HotpotQA, MultiHop-RAG) и более чем на 30.0% увеличение F1-оценки для задач агрегации (CWE). Кроме того, мы показываем, как предложенный шаблон вписывается в интерактивный дизайн извлечения, предоставляя конечным пользователям текущие обновления о ходе обработки контекста и выделяя интеграцию соответствующей информации в окончательный ответ. Мы предоставляем нашу реализацию WiM с использованием библиотеки Hugging Face Transformers по адресу https://github.com/writer/writing-in-the-margins.
Мы представляем GameNGen, первый игровой движок, полностью работающий на нейронной модели, что позволяет взаимодействовать в реальном времени с комплексной средой на протяжении длительных траекторий высокого качества. GameNGen способен интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном процессоре TPU. Предсказание следующего кадра достигает значения PSNR 29.4, сравнимого с потерями при сжатии в формате JPEG. Люди-оценщики лишь незначительно превосходят случайный выбор в различении коротких клипов игры от клипов симуляции. GameNGen обучается в две фазы: (1) агент с подкреплением изучает игру, а сессии обучения записываются, и (2) обучается модель диффузии для создания следующего кадра на основе последовательности предыдущих кадров и действий. Условные аугментации обеспечивают стабильную авторегрессию при генерации на протяжении длительных траекторий.
Линейные архитектуры RNN, такие как Mamba, могут быть конкурентоспособны с моделями Transformer в языковом моделировании, обладая преимуществами в развертывании. Учитывая акцент на обучении масштабных моделей Transformer, мы рассматриваем задачу преобразования этих предварительно обученных моделей для развертывания. Мы демонстрируем, что возможно дистиллировать большие Transformers в линейные RNN путем повторного использования весов линейной проекции из слоев внимания с помощью академических ресурсов GPU. Полученная гибридная модель, которая включает четверть слоев внимания, достигает производительности, сравнимой с оригинальным Transformer в чат-бенчмарках и превосходит гибридные модели Mamba с открытым исходным кодом, обученные с нуля с триллионами токенов как в чат-бенчмарках, так и в общих бенчмарках. Более того, мы представляем алгоритм спекулятивного декодирования, учитывающий аппаратные средства, который ускоряет скорость вывода Mamba и гибридных моделей. В целом мы показываем, как с ограниченными вычислительными ресурсами мы можем удалить многие из оригинальных слоев внимания и более эффективно генерировать из полученной модели. Наша наиболее эффективная модель, дистиллированная из Llama3-8B-Instruct, достигает победного показателя 29.61 в контролируемой длине на AlpacaEval 2 против GPT-4 и 7.35 на MT-Bench, превосходя лучшую инструкционно настроенную линейную RNN модель.
Мы представляем метод генерации видеопоследовательностей с согласованным движением между парой входных ключевых кадров. Мы адаптируем предварительно обученную модель диффузии изображения в видео большого масштаба (изначально обученную для генерации видео, двигающегося вперед во времени от одного входного изображения) для интерполяции ключевых кадров, т.е. для создания видео между двумя входными кадрами. Мы осуществляем эту адаптацию с помощью техники легкой донастройки, которая создает версию модели, предсказывающую видео, двигающееся назад во времени от одного входного изображения. Эта модель (наряду с оригинальной моделью движения вперед) впоследствии используется в процессе двунаправленной диффузионной выборки, который объединяет перекрывающиеся оценки модели, начиная с каждого из двух ключевых кадров. Наши эксперименты показывают, что наш метод превосходит как существующие методы на основе диффузии, так и традиционные техники интерполяции кадров.
Системы искусственного интеллекта, обрабатывающие естественно-языковые запросы к базам данных, обещают создать огромную ценность. Такие системы позволят пользователям использовать мощные возможности рассуждения и знаний языковых моделей (LM) наряду с масштабируемой вычислительной мощностью систем управления данными. Эти объединенные возможности дадут пользователям возможность задавать произвольные естественно-языковые вопросы к пользовательским источникам данных. Однако существующие методы и бенчмарки недостаточно исследуют эту область. Методы Text2SQL сосредотачиваются исключительно на естественно-языковых вопросах, которые могут быть выражены в реляционной алгебре, что представляет лишь небольшую часть вопросов, которые реальные пользователи хотели бы задать. Аналогично, Retrieval-Augmented Generation (RAG) рассматривает ограниченный набор запросов, на которые можно ответить с помощью поиска точечных данных в одной или нескольких записях в базе данных. Мы предлагаем Table-Augmented Generation (TAG), унифицированную и универсальную парадигму для ответов на естественно-языковые вопросы к базам данных. Модель TAG представляет широкий спектр взаимодействий между LM и базой данных, которые ранее не исследовались, и создает увлекательные исследовательские возможности для использования мировых знаний и возможностей рассуждения LM над данными. Мы систематически разрабатываем бенчмарки для изучения проблемы TAG и обнаруживаем, что стандартные методы правильно отвечают не более чем на 20% запросов, что подтверждает необходимость дальнейших исследований в этой области. Мы выкладываем код для бенчмарка по ссылке https://github.com/TAG-Research/TAG-Bench.
Мы предлагаем подход на основе диффузии для генерации текста в изображение (Text-to-Image, T2I) с интерактивным управлением 3D-макетом. Управление макетом широко изучалось для устранения недостатков диффузионных моделей T2I в понимании размещения объектов и их взаимосвязей из текстовых описаний. Тем не менее существующие подходы к управлению макетом ограничиваются 2D макетами, требуют от пользователя предоставления статического макета заранее и не сохраняют сгенерированные изображения при изменении макета. Это делает эти подходы непригодными для приложений, требующих управления объектами в 3D и итеративных усовершенствований, например, дизайна интерьера и создания сложных сцен. Для этого мы используем недавние достижения в моделях T2I, зависящих от глубины, и предлагаем новый подход для интерактивного управления 3D-макетом. Мы заменяем традиционные 2D прямоугольники, используемые в управлении макетом, на 3D прямоугольники. Более того, мы пересматриваем задачу T2I как многоэтапный процесс генерации, где на каждом этапе пользователь может вставлять, изменять и перемещать объект в 3D, сохраняя объекты с предыдущих этапов. Мы достигаем этого через наш модуль Динамического Самовнимания (DSA) и стратегию последовательного перевода объектов в 3D. Эксперименты показывают, что наш подход способен генерировать сложные сцены на основе 3D макетов, увеличивая успешность генерации объектов на 2x по сравнению со стандартными методами T2I, зависящими от глубины. Более того, он превосходит другие методы в сохранении объектов при изменении макета. Страница проекта: https://abdo-eldesokey.github.io/build-a-scene/
Фотореалистичные и управляемые трехмерные аватары играют ключевую роль в различных приложениях, таких как виртуальная и смешанная реальность (VR/MR), телеприсутствие, игровые приложения и кинопроизводство. Традиционные методы создания аватаров часто включают в себя трудоемкие процессы сканирования и реконструкции для каждого аватара, что ограничивает их масштабируемость. Более того, эти методы не предоставляют гибкости для создания новых личностей или изменения существующих. С другой стороны, благодаря обучению сильной априорной модели на основе данных, генеративные модели представляют собой многообещающую альтернативу традиционным методам реконструкции, облегчая ограничения по времени как для захвата данных, так и их обработки. Кроме того, генеративные методы позволяют использовать приложения после реконструкции, такие как редактирование и стилизация. Тем не менее, исследования по генерации трехмерных аватаров находятся на начальном этапе, и поэтому текущие методы все еще имеют ограничения, такие как создание статичных аватаров, отсутствие фотореализма, неполные детали лица или ограниченная управляемость. Для решения этой проблемы мы предлагаем генеративную модель, условием для которой является текст, способную генерировать фотореалистичные лицевые аватары различных личностей с более полными деталями, такими как волосы, глаза и внутренняя часть рта, которые можно управлять через мощное непараметрическое латентное пространство выражений. Конкретно, мы интегрируем генеративные и редактирующие возможности моделей латентного диффузии с сильной априорной моделью для управления выражением аватара. Наша модель способна генерировать и управлять аватарами высокой степени реалистичности, даже теми, которые не входят в распределение. Мы также выделяем ее потенциал для последующих применений, включая редактирование аватаров и реконструкцию аватаров с одного снимка.
Чтение текста с изображений (как естественных сцен, так и документов) является долговременной темой исследований на протяжении десятилетий из-за высокой технической сложности и широкого спектра применения. Ранее разрабатывались отдельные специализированные модели для решения подзадач чтения текста (например, распознавание текста на сцене, распознавание рукописного текста и распознавание математических выражений). Однако такие специализированные модели обычно не могут эффективно обобщаться на различные подзадачи. Недавно обобщенные модели (такие как GPT-4V), обученные на огромных данных единым способом, показали огромный потенциал в чтении текста в различных сценариях, но с недостатками ограниченной точности и низкой эффективности. В данной работе мы предлагаем Platypus, обобщенную специализированную модель для чтения текста. Конкретно, Platypus объединяет лучшее из обоих миров: способность распознавать текст различных форм с помощью единой архитектуры, обеспечивая при этом отличную точность и высокую эффективность. Для более полного использования преимуществ Platypus мы также создаем набор данных для чтения текста (названный Worms), изображения для которого отобраны из предыдущих наборов данных и частично переопределены. Эксперименты на стандартных бенчмарках демонстрируют эффективность и превосходство предложенной модели Platypus. Модель и данные будут общедоступны по адресу https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
Мы представляем SHADOW, тонко настроенную языковую модель, обученную на промежуточной задаче с использованием ассоциативного дедуктивного рассуждения, и измеряем ее производительность на задаче построения базы знаний с использованием завершения троек Wikidata. Мы оцениваем SHADOW на вызове LM-KBC 2024 и показываем, что она превосходит базовое решение на 20% с F1-оценкой 68.72%.
Мы представляем семантические башни, метод представления внешних знаний, и сравниваем его с внутренними знаниями в больших языковых моделях для обучения онтологиям. Наши эксперименты показывают компромисс между производительностью и семантической обоснованностью для внешних знаний по сравнению с тонко настроенной моделью внутренних знаний. Мы представляем наши результаты на челлендже Large Language Models for Ontology Learning (LLMs4OL) 2024.
Данный доклад посвящен трехмерной реконструкции морских птиц, которая недавно привлекла внимание экологов как ценных биоиндикаторов изменений окружающей среды. Такая трехмерная информация полезна для анализа поведения птиц и их физиологической формы, например, путем отслеживания движения, формы и изменений внешнего вида. С точки зрения компьютерного зрения птицы представляют особую сложность из-за своих быстрых и часто неригидных движений. Мы предлагаем подход к реконструкции трехмерной позы и формы из монокулярных видео определенного вида морской птицы - обыкновенного гагара. Наш подход включает в себя полный пайплайн обнаружения, отслеживания, сегментации и временно согласованной трехмерной реконструкции. Кроме того, мы предлагаем временную потерю, которая расширяет текущие оценщики трехмерной позы птиц на основе одного изображения на временную область. Более того, мы предоставляем набор данных из реального мира из 10000 кадров видеонаблюдения, в среднем захватывающих девять птиц одновременно, включающий в себя широкий спектр движений и взаимодействий, а также небольшой тестовый набор с метками ключевых точек, специфичных для птиц. Используя нашу временную оптимизацию, мы достигаем передового качества работы для сложных последовательностей в нашем наборе данных.
Промышленность 4.0 революционизировала производство, сместив акцент на цифровизацию и переход к аддитивным технологиям производства (AM). Одной из ключевых технологий AM является моделирование методом наплавления (FDM), позволяющее создавать высоко настраиваемые, экономически эффективные продукты с минимальными потерями материала благодаря экструзии слой за слоем, представляя значительное вызов традиционным методам выемки. Однако уязвимость техник экструзии материала к ошибкам часто требует вмешательства экспертов для обнаружения и устранения дефектов, которые могут серьезно подорвать качество продукции. Несмотря на существование автоматизированных систем обнаружения ошибок и моделей машинного обучения, их обобщаемость на различные настройки 3D-принтеров, прошивки и сенсоры ограничена, а методы глубокого обучения требуют обширных размеченных наборов данных, затрудняя масштабируемость и адаптивность. Для решения этих проблем мы представляем фреймворк мониторинга и управления процессом, который использует предварительно обученные большие языковые модели (LLM) вместе с 3D-принтерами для обнаружения и устранения дефектов печати. LLM оценивает качество печати, анализируя изображения, полученные после каждого слоя или сегмента печати, идентифицируя режимы отказа и запрашивая у принтера соответствующие параметры. Затем он разрабатывает и выполняет план корректирующих действий. Мы подтвердили эффективность предложенного фреймворка в обнаружении дефектов, сравнив его с контрольной группой инженеров с разнообразным опытом в области AM. Наша оценка показала, что агенты на основе LLM не только точно определяют распространенные ошибки 3D-печати, такие как неоднородная экструзия, образование нитей, деформация и сцепление слоев, но и эффективно определяют параметры, вызывающие эти сбои, и автономно исправляют их без необходимости человеческого вмешательства.