Ежедневно отобранные исследовательские статьи по ИИ с переводами
Диффузионные модели стали мощной парадигмой для генерации, демонстрируя высокую производительность в различных областях с непрерывными входными данными. Несмотря на перспективы полностью неавторегрессивной генерации текста, применение диффузионных моделей к естественному языку остается сложной задачей из-за его дискретной природы. В данной работе мы предлагаем Text-to-text Self-conditioned Simplex Diffusion (TESS) — модель диффузии текста, которая является полностью неавторегрессивной, использует новую форму самокондиционирования и применяет процесс диффузии в пространстве симплекса логитов, а не в типичном пространстве обученных эмбеддингов. Благодаря обширным экспериментам в задачах понимания и генерации естественного языка, включая суммаризацию, упрощение текста, генерацию парафраз и вопросов, мы показываем, что TESS превосходит современные неавторегрессивные модели и конкурирует с предобученными авторегрессивными моделями последовательностей.
Универсальное разделение источников звука (Universal Source Separation, USS) является фундаментальной задачей в области вычислительного анализа звуковых сцен, которая направлена на разделение монофонических записей на отдельные звуковые дорожки. Существует три основных вызова, связанных с решением задачи разделения аудиоисточников. Во-первых, предыдущие системы разделения аудиоисточников в основном сосредоточены на разделении одного или ограниченного числа конкретных источников. Недостаточно исследований, посвященных созданию унифицированной системы, способной разделять произвольные источники с использованием одной модели. Во-вторых, большинство существующих систем требуют наличия чистых данных источников для обучения разделителя, в то время как такие данные являются редкими. В-третьих, отсутствует система USS, способная автоматически обнаруживать и разделять активные звуковые классы на иерархическом уровне. Для использования крупномасштабных слабо размеченных или неразмеченных аудиоданных в задаче разделения источников мы предлагаем универсальную структуру разделения аудиоисточников, включающую: 1) модель аудиотегирования, обученную на слабо размеченных данных, в качестве запросной сети; и 2) условную модель разделения источников, которая использует выходные данные запросной сети в качестве условий для разделения произвольных звуковых источников. Мы исследуем различные запросные сети, модели разделения источников и стратегии обучения, а также предлагаем иерархическую стратегию USS для автоматического обнаружения и разделения звуковых классов из онтологии AudioSet. Используя исключительно слабо размеченный AudioSet, наша система USS успешно разделяет широкий спектр звуковых классов, включая разделение звуковых событий, разделение музыкальных источников и улучшение речи. Система USS достигает среднего улучшения отношения сигнал-искажение (SDRi) на 5,57 дБ для 527 звуковых классов AudioSet; 10,57 дБ на наборе данных DCASE 2018 Task 2; 8,12 дБ на наборе данных MUSDB18; SDRi 7,28 дБ на наборе данных Slakh2100; и SSNR 9,00 дБ на наборе данных voicebank-demand. Исходный код доступен по адресу: https://github.com/bytedance/uss.
Модели диффузии для генерации изображений и видео на основе текста достигли беспрецедентного успеха в создании реалистичного и разнообразного контента. В последнее время значительное внимание привлекли задачи редактирования и вариации существующих изображений и видео в рамках диффузионных генеративных моделей. Однако предыдущие работы ограничивались редактированием контента с использованием текста или предоставлением грубой персонализации на основе единственного визуального ключа, что делает их непригодными для работы с неописуемым контентом, требующим детализированного и точного контроля. В связи с этим мы предлагаем универсальную структуру для редактирования видео под названием Make-A-Protagonist, которая использует текстовые и визуальные ключи для редактирования видео с целью предоставления пользователям возможности стать главными героями. В частности, мы задействуем несколько экспертов для анализа исходного видео, целевых визуальных и текстовых ключей и предлагаем модель генерации видео на основе визуально-текстовых данных, которая использует маскированное шумоподавляющее сэмплирование для создания желаемого результата. Многочисленные эксперименты демонстрируют универсальные и впечатляющие возможности редактирования Make-A-Protagonist.
Модели суммаризации часто генерируют текст, который плохо согласуется с метриками качества, поскольку они обучаются на максимизацию правдоподобия единственного эталонного текста (MLE). Чтобы решить эту проблему, в последних работах был добавлен этап калибровки, который позволяет модели взаимодействовать с её ранжированными выходами для улучшения релевантности или, в другом направлении, сопоставляет положительные и отрицательные наборы для повышения достоверности. Хотя эти подходы эффективны, большая часть исследований сосредоточена на том, как генерировать и оптимизировать такие наборы. Меньше известно о том, почему одна конфигурация оказывается более эффективной, чем другая. В данной работе мы исследуем ключевые характеристики эффективных наборов. Для каждого обучающего примера мы формируем большой и разнообразный пул кандидатов и систематически варьируем подмножества, используемые для тонкой настройки калибровки. Каждая стратегия выбора ориентируется на различные аспекты наборов, такие как лексическое разнообразие или размер разрыва между положительными и отрицательными примерами. На трёх разнообразных наборах данных для научного суммаризации длинных текстов (охватывающих биомедицинскую, клиническую и химическую области) мы обнаруживаем, среди прочего, что калибровка достоверности оптимальна, когда отрицательные наборы являются экстрактивными и с большей вероятностью генерируются, тогда как для калибровки релевантности следует максимизировать разницу в метриках между кандидатами и минимизировать "сюрприз" — расхождение между ранжированием кандидатов моделью и метрикой. Код для создания, выбора и оптимизации наборов калибровки доступен по адресу https://github.com/griff4692/calibrating-summaries.
Хотя предварительное обучение на крупномасштабных данных изображений и текстов из Интернета способствовало быстрому прогрессу во многих задачах, связанных с обработкой зрения и языка (V&L), недавние исследования показали, что предобученные модели испытывают недостаток в "тонком" понимании, таком как способность распознавать отношения, глаголы и числа на изображениях. Это привело к возросшему интересу в сообществе к разработке новых эталонных тестов или моделей для таких возможностей. Чтобы лучше понять и количественно оценить прогресс в этом направлении, мы исследуем четыре конкурентоспособные модели V&L на четырех эталонных тестах, ориентированных на тонкое понимание. Наш анализ показывает, что модель X-VLM (Zeng et al., 2022) стабильно превосходит другие базовые подходы, а инновации в архитектуре модели могут оказывать большее влияние на производительность, чем масштабирование веб-данных, которое иногда даже ухудшает результаты. Более глубокое исследование X-VLM подчеркивает важность как новых функций потерь, так и богатых источников данных для обучения тонким навыкам. Наконец, мы изучаем динамику обучения и обнаруживаем, что для некоторых задач производительность достигает пика на ранних этапах обучения или значительно колеблется, никогда не сходясь к устойчивому результату.
Создание достоверных визуализаций человеческих лиц требует учета как крупных, так и мелких деталей геометрии и внешнего вида лица. Существующие методы либо основаны на данных, требуя обширного корпуса информации, недоступного для исследовательского сообщества, либо не способны захватывать мелкие детали, поскольку полагаются на геометрические модели лица, которые не могут представить тонкие текстуры из-за дискретизации сетки и линейной деформации, предназначенных только для моделирования грубой геометрии лица. Мы представляем метод, который устраняет этот разрыв, вдохновляясь традиционными методами компьютерной графики. Невидимые выражения моделируются путем смешивания внешнего вида из ограниченного набора экстремальных поз. Это смешивание выполняется путем измерения локальных объемных изменений в этих выражениях и локального воспроизведения их внешнего вида, когда подобное выражение выполняется во время тестирования. Мы показываем, что наш метод обобщается на невидимые выражения, добавляя тонкие эффекты поверх плавных объемных деформаций лица, и демонстрируем, как он обобщается за пределы лиц.
Обеспечение справедливости, устойчивости и полезности крупных языковых моделей (LM) требует понимания того, как различные модификации их входных данных влияют на поведение модели. Однако в контексте задач генерации открытого текста такая оценка не является тривиальной. Например, при представлении модели с входным текстом и его изменённой, "контрастной" версией значимые различия в предсказаниях следующего токена могут не быть выявлены с использованием стандартных стратегий декодирования. С этой целью мы предлагаем Contrastive Input Decoding (CID): алгоритм декодирования для генерации текста на основе двух входных данных, где сгенерированный текст вероятен для одного входа, но маловероятен для другого. Таким образом, контрастные генерации могут выделить потенциально тонкие различия в том, как выход модели LM различается для двух входных данных, в простой и интерпретируемой форме. Мы используем CID для выявления контекстно-зависимых предубеждений, которые сложно обнаружить с помощью стандартных стратегий декодирования, и для количественной оценки эффекта различных модификаций входных данных.
В данной статье мы исследуем новую задачу в области распознавания действий от первого лица, которую мы называем "Мультимодальное обобщение" (Multimodal Generalization, MMG). MMG направлено на изучение того, как системы могут обобщать, когда данные из определенных модальностей ограничены или даже полностью отсутствуют. Мы подробно исследуем MMG в контексте стандартного обучения с учителем для распознавания действий, а также в более сложной задаче обучения с малым количеством примеров для новых категорий действий. MMG включает два новых сценария, разработанных с учетом требований безопасности и эффективности в реальных приложениях: (1) обобщение при отсутствии модальностей, когда некоторые модальности, присутствовавшие во время обучения, отсутствуют во время вывода, и (2) кросс-модальное обобщение с нулевым количеством примеров, когда модальности, присутствующие во время вывода и обучения, не пересекаются. Для проведения этого исследования мы создали новый набор данных MMG-Ego4D, содержащий данные с модальностями видео, аудио и инерциальных датчиков движения (IMU). Наш набор данных основан на наборе Ego4D, но обработан и тщательно переаннотирован экспертами для облегчения исследований в области MMG. Мы оцениваем разнообразные модели на MMG-Ego4D и предлагаем новые методы с улучшенной способностью к обобщению. В частности, мы вводим новый модуль слияния с обучением с выпадением модальностей, контрастное обучение для выравнивания и новую кросс-модальную прототипическую функцию потерь для улучшения производительности в задачах с малым количеством примеров. Мы надеемся, что это исследование послужит эталоном и будет направлять будущие исследования в области мультимодального обобщения. Эталонные данные и код будут доступны по адресу https://github.com/facebookresearch/MMG_Ego4D.
Планирование и распределение ресурсов являются критически важными компонентами многих высокоэффективных систем, начиная от управления перегрузками и заканчивая облачными вычислениями. Поиск более оптимальных решений для этих задач часто приводит к значительной экономии ресурсов и времени, снижению износа оборудования и даже потенциальному улучшению показателей выбросов углерода. В данной статье мы сосредоточимся на конкретном примере задачи планирования, а именно на проблеме распределения памяти, возникающей при компиляции программ машинного обучения: то есть на задаче отображения тензоров на различные уровни памяти для оптимизации времени выполнения. Мы представляем подход к решению проблемы распределения памяти с использованием обучения с подкреплением (Reinforcement Learning, RL). RL — это парадигма решения, хорошо подходящая для задач последовательного принятия решений, которые допускают планирование, а также для комбинаторных пространств поиска с высокоразмерными входными данными. Мы формулируем задачу как однопользовательскую игру, которую называем mallocGame, таким образом, что траектории с высоким вознаграждением в игре соответствуют эффективным отображениям памяти на целевом оборудовании. Мы также представляем агента обучения с подкреплением, mallocMuZero, и показываем, что он способен играть в эту игру для обнаружения новых и улучшенных решений по распределению памяти, которые приводят к более быстрому выполнению реальных задач машинного обучения на ML-акселераторах. Мы сравниваем производительность mallocMuZero с решателем по умолчанию, используемым компилятором Accelerated Linear Algebra (XLA), на наборе реалистичных задач машинного обучения. Кроме того, мы демонстрируем, что mallocMuZero способен улучшить время выполнения недавно опубликованной модели умножения матриц AlphaTensor.
Ряд ведущих компаний в области ИИ, включая OpenAI, Google DeepMind и Anthropic, заявляют своей целью создание искусственного общего интеллекта (ИОИ) — систем ИИ, которые достигают или превосходят человеческие способности в широком спектре когнитивных задач. В pursuit этой цели они могут разрабатывать и внедрять системы ИИ, которые представляют особенно значительные риски. Хотя они уже приняли некоторые меры для смягчения этих рисков, лучшие практики еще не сформированы. Для поддержки выявления таких практик мы отправили опрос 92 ведущим экспертам из лабораторий ИОИ, академических кругов и гражданского общества и получили 51 ответ. Участников спрашивали, насколько они согласны с 50 утверждениями о том, что должны делать лаборатории ИОИ. Наш основной вывод заключается в том, что участники в среднем согласились со всеми утверждениями. Многие из них получили крайне высокий уровень согласия. Например, 98% респондентов частично или полностью согласились с тем, что лаборатории ИОИ должны проводить оценку рисков перед внедрением, тестирование опасных возможностей, аудит моделей третьими сторонами, ограничения на использование моделей в целях безопасности и тестирование методом "красной команды". В конечном итоге наш список утверждений может послужить полезной основой для разработки лучших практик, стандартов и нормативных актов для лабораторий ИОИ.