Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя генерация аудио имеет общие черты для различных типов звуков, таких как речь, музыка и звуковые эффекты, разработка моделей для каждого типа требует тщательного учета специфических целей и предубеждений, которые могут существенно отличаться от таковых для других типов. Чтобы приблизиться к унифицированному взгляду на генерацию аудио, в данной статье предлагается фреймворк, который использует один и тот же метод обучения для генерации речи, музыки и звуковых эффектов. Наш фреймворк вводит общее представление аудио, называемое языком аудио (LOA). Любое аудио может быть переведено в LOA на основе AudioMAE — модели самообучаемого предварительно обученного представления. В процессе генерации мы переводим любые модальности в LOA с использованием модели GPT-2 и выполняем самообучаемую генерацию аудио с помощью латентной диффузионной модели, обусловленной LOA. Предложенный фреймворк естественным образом привносит такие преимущества, как способность к обучению в контексте и возможность повторного использования предварительно обученных моделей AudioMAE и латентной диффузии. Эксперименты на основных бенчмарках для задач текст-в-аудио, текст-в-музыку и текст-в-речь демонстрируют новые результаты, превосходящие или конкурирующие с предыдущими подходами. Наша демонстрация и код доступны по адресу https://audioldm.github.io/audioldm2.
Обеспечение согласованности, под которой понимается настройка моделей на поведение в соответствии с человеческими намерениями [1,2], стало критически важной задачей перед внедрением крупных языковых моделей (LLM) в реальные приложения. Например, OpenAI посвятила шесть месяцев итеративной настройке GPT-4 перед его выпуском [3]. Однако основной проблемой, с которой сталкиваются практики, является отсутствие четких рекомендаций по оценке того, соответствуют ли выходные данные LLM социальным нормам, ценностям и нормативным требованиям. Это препятствует систематической итерации и внедрению LLM. Для решения этой проблемы в данной статье представлен всесторонний обзор ключевых аспектов, которые необходимо учитывать при оценке надежности LLM. Обзор охватывает семь основных категорий надежности LLM: надежность, безопасность, справедливость, устойчивость к злоупотреблениям, объяснимость и логичность, соблюдение социальных норм и устойчивость. Каждая основная категория дополнительно разделена на несколько подкатегорий, в результате чего получается 29 подкатегорий. Кроме того, для дальнейшего исследования выбрано подмножество из 8 подкатегорий, для которых разработаны и проведены соответствующие измерительные исследования на нескольких широко используемых LLM. Результаты измерений показывают, что в целом более согласованные модели демонстрируют лучшие показатели по общей надежности. Однако эффективность согласования варьируется в зависимости от рассматриваемых категорий надежности. Это подчеркивает важность проведения более детального анализа, тестирования и постоянного улучшения согласованности LLM. Освещая эти ключевые аспекты надежности LLM, данная статья стремится предоставить ценные инсайты и рекомендации практикам в этой области. Понимание и решение этих вопросов будет иметь решающее значение для достижения надежного и этически обоснованного внедрения LLM в различных приложениях.
Отслеживание и следование за объектами интереса имеет критически важное значение для множества задач в робототехнике, начиная от промышленной автоматизации и заканчивая логистикой и складированием, а также здравоохранением и безопасностью. В данной статье мы представляем роботизированную систему для обнаружения, отслеживания и следования за любым объектом в режиме реального времени. Наш подход, названный «follow anything» (FAn), представляет собой модель с открытым словарем и мультимодальностью — она не ограничивается концепциями, изученными во время обучения, и может применяться к новым классам на этапе вывода с использованием текста, изображений или кликов. Используя богатые визуальные дескрипторы из крупномасштабных предобученных моделей (фундаментальных моделей), FAn может обнаруживать и сегментировать объекты, сопоставляя мультимодальные запросы (текст, изображения, клики) с последовательностью входных изображений. Обнаруженные и сегментированные объекты отслеживаются между кадрами изображения, учитывая при этом окклюзию и повторное появление объектов. Мы демонстрируем работу FAn на реальной роботизированной системе (микролетательном аппарате) и сообщаем о её способности плавно следовать за объектами интереса в режиме реального времени в управляющем цикле. FAn может быть развернут на ноутбуке с легковесной видеокартой (6-8 ГБ), достигая пропускной способности 6-20 кадров в секунду. Для обеспечения быстрого внедрения, развертывания и расширяемости мы открываем исходный код на нашей странице проекта по адресу https://github.com/alaamaalouf/FollowAnything. Также мы рекомендуем читателям посмотреть наше 5-минутное объясняющее видео по ссылке https://www.youtube.com/watch?v=6Mgt3EPytrw.
В данной работе рассматривается градиентная оптимизация сеток, при которой мы итеративно оптимизируем трехмерную поверхностную сетку, представляя её как изоповерхность скалярного поля — подход, который становится всё более распространённым в таких областях, как фотограмметрия, генеративное моделирование и обратная физика. Существующие реализации адаптируют классические алгоритмы извлечения изоповерхностей, такие как Marching Cubes или Dual Contouring; однако эти методы были разработаны для извлечения сеток из фиксированных, известных полей, и в контексте оптимизации они либо не обладают достаточной степенью свободы для представления высококачественных сеток с сохранением деталей, либо страдают от численной неустойчивости. Мы представляем FlexiCubes — представление изоповерхности, специально разработанное для оптимизации неизвестной сетки с учётом геометрических, визуальных или даже физических критериев. Основная идея заключается во введении дополнительных тщательно подобранных параметров в представление, которые позволяют локально гибко корректировать геометрию и топологию извлекаемой сетки. Эти параметры обновляются вместе с базовым скалярным полем с помощью автоматического дифференцирования при оптимизации для решения последующих задач. Наша схема извлечения основана на Dual Marching Cubes для улучшения топологических свойств, а также представлены расширения для генерации тетраэдральных и иерархически-адаптивных сеток. Многочисленные эксперименты подтверждают эффективность FlexiCubes как на синтетических тестах, так и в реальных приложениях, демонстрируя значительное улучшение качества сеток и геометрической точности.
Множественные выравнивания последовательностей (MSA) белков содержат богатую биологическую информацию и на протяжении десятилетий являются основным инструментом в биоинформатических методах для таких задач, как проектирование белков и предсказание их структуры. Недавние прорывы, такие как AlphaFold2, которые используют трансформеры для непосредственного анализа больших объемов сырых MSA, вновь подтвердили их важность. Однако генерация MSA требует значительных вычислительных ресурсов, и наборы данных, сопоставимые с теми, что использовались для обучения AlphaFold2, до сих пор не были доступны научному сообществу, что сдерживает прогресс в машинном обучении для белков. Чтобы устранить эту проблему, мы представляем OpenProteinSet — открытый корпус, содержащий более 16 миллионов MSA, связанных структурных гомологов из Protein Data Bank и предсказаний структуры белков, полученных с помощью AlphaFold2. Ранее мы уже продемонстрировали полезность OpenProteinSet, успешно переобучив на нем AlphaFold2. Мы ожидаем, что OpenProteinSet будет широко полезен в качестве обучающих и валидационных данных для 1) разнообразных задач, связанных с изучением структуры, функции и проектирования белков, и 2) крупномасштабных исследований в области мультимодального машинного обучения.
Программа Alexa Prize предоставила многочисленным студентам университетов возможность исследовать, экспериментировать и демонстрировать свои таланты в создании диалоговых агентов через такие задачи, как SocialBot Grand Challenge и TaskBot Challenge. Поскольку диалоговые агенты всё чаще появляются в мультимодальных и воплощённых контекстах, важно изучить возможности диалогового взаимодействия, усиленного компьютерным зрением и физическим воплощением. В данной статье описывается SimBot Challenge — новое соревнование, в котором университетские команды состязаются в создании роботов-ассистентов, выполняющих задачи в симулированной физической среде. В статье представлен обзор SimBot Challenge, включающего как онлайн-, так и оффлайн-этапы. Мы описываем инфраструктуру и поддержку, предоставленные командам, включая Alexa Arena — симулированную среду, а также набор инструментов машинного обучения, предоставленный командам для ускорения разработки моделей зрения и языка. Мы обобщаем подходы, которые использовали команды для преодоления исследовательских задач, и выделяем ключевые уроки. Наконец, мы проводим анализ производительности конкурирующих SimBots в ходе соревнования.
Временные дифференциальные уравнения в частных производных (УЧП) широко распространены в науке и технике. В последнее время, в основном из-за высокой вычислительной стоимости традиционных методов решения, возрастает интерес к суррогатным моделям на основе глубоких нейронных сетей. Практическая полезность таких нейронных решателей УЧП зависит от их способности обеспечивать точные и стабильные прогнозы на длительных временных горизонтах, что является известной сложной проблемой. В данной работе мы представляем масштабный анализ распространенных стратегий временного развертывания, выявляя пренебрежение информацией о недоминирующих пространственных частотах, часто связанных с высокими частотами в решениях УЧП, как основную проблему, ограничивающую стабильное и точное развертывание. Основываясь на этих выводах, мы черпаем вдохновение из последних достижений в моделях диффузии и представляем PDE-Refiner — новый класс моделей, который позволяет более точно моделировать все частотные компоненты с помощью многошагового процесса уточнения. Мы проверяем PDE-Refiner на сложных тестах из области динамики сложных жидкостей, демонстрируя стабильное и точное развертывание, которое последовательно превосходит современные модели, включая нейронные, численные и гибридные нейронно-численные архитектуры. Мы также показываем, что PDE-Refiner значительно повышает эффективность использования данных, поскольку задача удаления шума неявно индуцирует новую форму спектрального увеличения данных. Наконец, связь PDE-Refiner с моделями диффузии позволяет точно и эффективно оценивать прогностическую неопределенность модели, что дает возможность определить, когда суррогатная модель становится неточной.