Ежедневно отобранные исследовательские статьи по ИИ с переводами
В эпоху больших языковых моделей архитектура Mixture-of-Experts (MoE) представляет собой перспективный подход для управления вычислительными затратами при масштабировании параметров модели. Однако традиционные архитектуры MoE, такие как GShard, которые активируют топ-K экспертов из N, сталкиваются с трудностями в обеспечении специализации экспертов, то есть в том, чтобы каждый эксперт приобретал непересекающиеся и сфокусированные знания. В ответ на это мы предлагаем архитектуру DeepSeekMoE, направленную на достижение максимальной специализации экспертов. Она включает две основные стратегии: (1) тонкое разделение экспертов на mN и активацию mK из них, что позволяет более гибко комбинировать активированных экспертов; (2) выделение K_s экспертов в качестве общих, с целью захвата общих знаний и снижения избыточности среди маршрутизируемых экспертов. Начиная с небольшого масштаба в 2 миллиарда параметров, мы демонстрируем, что DeepSeekMoE 2B достигает сопоставимой производительности с GShard 2.9B, который имеет в 1.5 раза больше параметров экспертов и вычислений. Кроме того, DeepSeekMoE 2B почти приближается к производительности своей плотной версии с тем же общим количеством параметров, что устанавливает верхний предел для моделей MoE. Впоследствии мы масштабируем DeepSeekMoE до 16 миллиардов параметров и показываем, что она достигает сопоставимой производительности с LLaMA2 7B, используя лишь около 40% вычислений. Более того, наши предварительные усилия по масштабированию DeepSeekMoE до 145 миллиардов параметров последовательно подтверждают её существенные преимущества перед архитектурой GShard и демонстрируют её производительность, сопоставимую с DeepSeek 67B, используя только 28.5% (а возможно, даже 18.2%) вычислений.
Создатели контента часто стремятся создавать персонализированные изображения с использованием личных объектов, которые выходят за рамки возможностей традиционных моделей преобразования текста в изображение. Кроме того, они могут желать, чтобы итоговое изображение включало в себя определенное место, стиль, атмосферу и многое другое. Существующие методы персонализации могут идти на компромисс между способностью к персонализации и соответствием сложным текстовым запросам. Этот компромисс может препятствовать выполнению пользовательских запросов и сохранению точности объектов. Мы предлагаем новый подход, сосредоточенный на методах персонализации для одного запроса, чтобы решить эту проблему. Мы называем наш подход персонализацией, согласованной с запросом. Хотя это может показаться ограничивающим, наш метод превосходно улучшает соответствие тексту, позволяя создавать изображения с использованием сложных и детализированных запросов, которые могут представлять трудность для современных техник. В частности, наш метод поддерживает персонализированную модель в соответствии с целевым запросом, используя дополнительный термин дистилляции оценки. Мы демонстрируем универсальность нашего метода в условиях многократного и однократного использования, а также показываем, что он может комбинировать несколько объектов или использовать вдохновение из референсных изображений, таких как произведения искусства. Мы сравниваем наш подход количественно и качественно с существующими базовыми методами и передовыми техниками.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало ключевой технологией для согласования языковых моделей с человеческими ценностями и намерениями, позволяя моделям генерировать более полезные и безопасные ответы. Модели вознаграждения обучаются в качестве прокси для человеческих предпочтений, чтобы направлять оптимизацию обучения с подкреплением. Хотя модели вознаграждения часто считаются центральными для достижения высокой производительности, они сталкиваются со следующими проблемами в практических приложениях: (1) Неправильные и неоднозначные пары предпочтений в наборе данных могут препятствовать точному улавливанию человеческих намерений моделью вознаграждения. (2) Модели вознаграждения, обученные на данных из определенного распределения, часто плохо обобщаются на примеры за пределами этого распределения и не подходят для итеративного обучения RLHF. В данном отчете мы пытаемся решить эти две проблемы. (1) С точки зрения данных мы предлагаем метод измерения силы предпочтений в данных, основанный на механизме голосования нескольких моделей вознаграждения. Экспериментальные результаты подтверждают, что данные с различной силой предпочтений по-разному влияют на производительность модели вознаграждения. Мы представляем ряд новых методов для снижения влияния неправильных и неоднозначных предпочтений в наборе данных и полного использования высококачественных данных о предпочтениях. (2) С алгоритмической точки зрения мы внедряем контрастное обучение для улучшения способности моделей вознаграждения различать выбранные и отвергнутые ответы, тем самым повышая обобщаемость модели. Кроме того, мы используем метаобучение, чтобы модель вознаграждения сохраняла способность различать тонкие различия в примерах за пределами распределения, и этот подход может быть использован для итеративной оптимизации RLHF.
Рендеринг на основе точечных полей излучения продемонстрировал впечатляющие результаты в синтезе новых видов, предлагая убедительное сочетание качества визуализации и вычислительной эффективности. Однако даже самые современные подходы в этой области не лишены недостатков. Метод 3D Gaussian Splatting [Kerbl и Kopanas et al. 2023] сталкивается с трудностями при рендеринге сцен с высокой детализацией, что проявляется в размытии и облачных артефактах. С другой стороны, ADOP [Rückert et al. 2022] способен создавать более четкие изображения, но нейронная сеть реконструкции снижает производительность, страдает от временной нестабильности и не может эффективно устранять большие пробелы в облаке точек. В данной статье мы представляем TRIPS (Trilinear Point Splatting) — подход, который объединяет идеи как Gaussian Splatting, так и ADOP. Основная концепция нашей новой техники заключается в растеризации точек в пирамиду изображений в экранном пространстве, где выбор уровня пирамиды определяется проекционным размером точки. Этот подход позволяет рендерить точки произвольно большого размера с использованием единственной трилинейной записи. Затем легковесная нейронная сеть используется для реконструкции изображения без пробелов, включая детали, выходящие за пределы разрешения сплатов. Важно отметить, что наш конвейер рендеринга полностью дифференцируем, что позволяет автоматически оптимизировать как размеры, так и позиции точек. Наши оценки показывают, что TRIPS превосходит существующие передовые методы по качеству рендеринга, сохраняя при этом частоту кадров в реальном времени — 60 кадров в секунду на доступном оборудовании. Эта производительность распространяется на сложные сценарии, такие как сцены со сложной геометрией, обширными ландшафтами и автоматически экспонированными видеозаписями.
Недавние исследования показывают, что использование обучения с подкреплением (RL) с качественными наградами может улучшить качество генерируемых изображений в задаче генерации изображений по тексту (T2I). Однако простое агрегирование нескольких наград может привести к избыточной оптимизации по одним метрикам и ухудшению по другим, а ручной поиск оптимальных весов является сложной задачей. Эффективная стратегия для совместной оптимизации нескольких наград в RL для генерации T2I крайне востребована. В данной статье представлен Parrot, новый многозадачный RL-фреймворк для генерации T2I. С использованием пакетного выбора по Парето-оптимальности Parrot автоматически определяет оптимальный компромисс между различными наградами в процессе RL-оптимизации генерации T2I. Кроме того, Parrot применяет совместный подход к оптимизации модели T2I и сети расширения промптов, что способствует генерации текстовых промптов, учитывающих качество, и тем самым дополнительно улучшает итоговое качество изображений. Чтобы предотвратить возможное катастрофическое забывание исходного пользовательского промпта из-за расширения промптов, мы вводим ориентацию на исходный промпт на этапе вывода, что гарантирует соответствие сгенерированного изображения введённому пользователем тексту. Многочисленные эксперименты и пользовательское исследование демонстрируют, что Parrot превосходит несколько базовых методов по различным критериям качества, включая эстетику, предпочтения людей, эмоциональную окраску изображений и соответствие текста и изображения.
Исследование информации, закодированной в скрытых представлениях крупных языковых моделей (LLM), может объяснить поведение моделей и проверить их соответствие человеческим ценностям. Учитывая способности LLM генерировать текст, понятный человеку, мы предлагаем использовать саму модель для объяснения её внутренних представлений на естественном языке. Мы представляем фреймворк под названием Patchscopes и показываем, как его можно использовать для ответа на широкий круг исследовательских вопросов о вычислениях LLM. Мы демонстрируем, что предыдущие методы интерпретируемости, основанные на проекции представлений в пространство словаря и вмешательстве в вычисления LLM, могут рассматриваться как частные случаи этого фреймворка. Более того, некоторые их недостатки, такие как невозможность исследования ранних слоёв или ограниченная выразительность, могут быть устранены с помощью Patchscope. Помимо объединения существующих методов исследования, Patchscopes также открывает новые возможности, такие как использование более мощной модели для объяснения представлений менее мощной модели, и позволяет реализовать новые приложения, например, самокоррекцию в многошаговых рассуждениях.
Крупные языковые модели, обученные на огромных корпусах данных из интернета, могут запоминать и воспроизводить конфиденциальную или личную информацию, что вызывает как юридические, так и этические опасения. Метод "забывания" (unlearning), или настройки моделей на удаление информации, присутствующей в их обучающих данных, предоставляет способ защиты личных данных после обучения. Хотя существует несколько методов такого "забывания", остается неясным, в какой степени они приводят к моделям, эквивалентным тем, где данные, которые нужно забыть, изначально не были изучены. Чтобы решить эту задачу, мы представляем TOFU (Task of Fictitious Unlearning) — эталонный тест, направленный на углубление понимания процесса "забывания". Мы предлагаем набор данных из 200 разнообразных синтетических профилей авторов, каждый из которых состоит из 20 пар вопросов и ответов, а также подмножество этих профилей, называемое "набором для забывания", которое служит целью для удаления. Мы разработали набор метрик, которые вместе дают целостную картину эффективности "забывания". Наконец, мы предоставляем базовые результаты, полученные с использованием существующих алгоритмов "забывания". Важно отметить, что ни один из рассмотренных базовых подходов не демонстрирует эффективного "забывания", что мотивирует дальнейшие усилия по разработке методов, которые действительно настраивают модели так, чтобы они вели себя так, как если бы данные для забывания никогда не использовались в обучении.
В основе медицины лежит диалог между врачом и пациентом, где искусный сбор анамнеза прокладывает путь к точной диагностике, эффективному лечению и долгосрочному доверию. Системы искусственного интеллекта (ИИ), способные вести диагностический диалог, могут повысить доступность, последовательность и качество медицинской помощи. Однако приближение к экспертизе клиницистов остается выдающейся грандиозной задачей. Здесь мы представляем AMIE (Articulate Medical Intelligence Explorer), систему ИИ на основе крупной языковой модели (LLM), оптимизированную для диагностического диалога. AMIE использует инновационную среду, основанную на самообучении, с автоматизированными механизмами обратной связи для масштабирования обучения в различных условиях заболеваний, специализациях и контекстах. Мы разработали структуру для оценки клинически значимых аспектов производительности, включая сбор анамнеза, точность диагностики, логику лечения, навыки общения и эмпатию. Мы сравнили производительность AMIE с работой врачей первичного звена (PCPs) в рандомизированном двойном слепом перекрестном исследовании текстовых консультаций с актерами, играющими пациентов, в стиле объективного структурированного клинического экзамена (OSCE). Исследование включало 149 клинических сценариев от медицинских специалистов из Канады, Великобритании и Индии, 20 PCPs для сравнения с AMIE, а также оценки специалистов-врачей и актеров-пациентов. AMIE продемонстрировала более высокую точность диагностики и превосходные результаты по 28 из 32 аспектов по оценке специалистов и по 24 из 26 аспектов по оценке актеров-пациентов. Наше исследование имеет несколько ограничений, и его следует интерпретировать с должной осторожностью. Клиницисты были ограничены незнакомым синхронным текстовым чатом, который позволяет масштабировать взаимодействия LLM с пациентами, но не отражает обычную клиническую практику. Хотя для перевода AMIE в реальные условия требуется дальнейшее исследование, результаты представляют собой важный шаг на пути к созданию диалогового диагностического ИИ.
Мультимодальные большие языковые модели продемонстрировали впечатляющие результаты в решении различных задач, охватывающих разные модальности. Однако существующие мультимодальные модели в основном сосредоточены на захвате глобальной информации внутри каждой модальности, пренебрегая важностью восприятия локальной информации между модальностями. В результате такие модели не способны эффективно понимать детализированные аспекты входных данных, что ограничивает их производительность в задачах, требующих более тонкого понимания. Для устранения этого ограничения возникает необходимость в разработке моделей, которые обеспечивают детализированное понимание в рамках нескольких модальностей, тем самым расширяя их применимость к широкому спектру задач. В данной статье мы предлагаем LEGO — языковую модель для мультимодального заземления. В отличие от других мультимодальных моделей, которые фокусируются на глобальной информации, наша модель превосходно справляется с задачами, требующими детального понимания локальной информации в входных данных. Она демонстрирует точное определение и локализацию конкретных областей на изображениях или моментов в видео. Для достижения этой цели мы разработали разнообразный конвейер создания набора данных, что привело к созданию мультимодального набора данных с различной степенью детализации для обучения модели. Код, набор данных и демонстрация нашей модели доступны по адресу: https://github.com/lzw-lzw/LEGO.
Методы редактирования видео на основе диффузии достигли впечатляющего качества и способны изменять как глобальный стиль, так и локальную структуру, а также атрибуты заданных видеовходов в соответствии с текстовыми запросами на редактирование. Однако такие решения обычно требуют значительных затрат памяти и вычислительных ресурсов для генерации временно-согласованных кадров, будь то в форме инверсии диффузии или кросс-кадрового внимания. В данной работе мы проводим анализ таких неэффективностей и предлагаем простые, но эффективные модификации, которые позволяют значительно ускорить процесс при сохранении качества. Более того, мы представляем Object-Centric Diffusion (OCD), подход, который дополнительно снижает задержку за счет распределения вычислений в большей степени на редактируемые области переднего плана, которые, как можно утверждать, более важны для воспринимаемого качества. Мы достигаем этого с помощью двух новых предложений: i) Object-Centric Sampling, который разделяет шаги диффузии, затрачиваемые на значимые области или фон, выделяя большую часть вычислительной мощности на первые, и ii) Object-Centric 3D Token Merging, который снижает затраты на кросс-кадровое внимание за счет объединения избыточных токенов в неважных областях фона. Оба метода легко применимы к существующим моделям редактирования видео без необходимости их переобучения и могут значительно снизить затраты памяти и вычислительных ресурсов. Мы оцениваем наши предложения на основе инверсионных и управляемых сигналами конвейеров редактирования и демонстрируем снижение задержки до 10 раз при сопоставимом качестве синтеза.
Синтез динамических новых видов направлен на захват временной эволюции визуального содержания в видеороликах. Существующие методы испытывают трудности с разделением движения и структуры, особенно в сценариях, где позы камеры либо неизвестны, либо ограничены по сравнению с движением объектов. Кроме того, имея информацию только из опорных изображений, крайне сложно воссоздать невидимые области, которые скрыты или частично наблюдаются в предоставленных видео. Для решения этих проблем мы сначала дообучаем предварительно обученную RGB-D диффузионную модель на кадрах видео с использованием техники кастомизации. Затем мы дистиллируем знания из дообученной модели в 4D-представления, включающие как динамические, так и статические компоненты Neural Radiance Fields (NeRF). Предложенный подход обеспечивает геометрическую согласованность, сохраняя при этом идентичность сцены. Мы проводим тщательные эксперименты для качественной и количественной оценки эффективности предложенного метода. Наши результаты демонстрируют устойчивость и полезность нашего подхода в сложных случаях, что способствует дальнейшему развитию синтеза динамических новых видов.
Мы показываем, что контент в интернете часто переводится на множество языков, и низкое качество этих многоязычных переводов указывает на то, что они, вероятно, были созданы с использованием машинного перевода (MT). Многоязычный параллельный контент, сгенерированный машиной, не только доминирует в переводах на языки с меньшими ресурсами, но и составляет значительную долю всего веб-контента на этих языках. Мы также обнаруживаем признаки избирательного подхода к типу контента, который переводится на множество языков, что согласуется с массовым переводом низкокачественного английского контента на языки с меньшими ресурсами с помощью MT. Наша работа вызывает серьезные опасения относительно обучения моделей, таких как многоязычные большие языковые модели, на моноязычных и двуязычных данных, собранных из интернета.
В данной статье представлены инструкции контрастного выравнивания (AlignInstruct) для решения двух проблем в машинном переводе (MT) на основе крупных языковых моделей (LLM). Первая проблема заключается в расширении поддерживаемых языков на ранее неизученные. Вторая связана с недостатком данных для языков с ограниченными ресурсами. Тонкая настройка модели с помощью инструкций машинного перевода (MTInstruct) является прямым подходом к решению первой проблемы. Однако MTInstruct ограничена слабыми кросс-лингвистическими сигналами, присущими второй проблеме. AlignInstruct акцентирует внимание на кросс-лингвистическом контроле с использованием кросс-лингвистического дискриминатора, построенного на основе статистического выравнивания слов. Наши результаты, основанные на тонкой настройке моделей BLOOMZ (1b1, 3b и 7b1) для 24 ранее неизученных языков, показали следующее: (1) LLM могут эффективно переводить неизученные языки с использованием MTInstruct; (2) AlignInstruct привела к устойчивому улучшению качества перевода в 48 направлениях перевода с участием английского языка; (3) Инструкции на основе дискриминатора превзошли свои генеративные аналоги в качестве кросс-лингвистических инструкций; (4) AlignInstruct улучшила производительность в 30 направлениях с нулевым обучением.