Ежедневно отобранные исследовательские статьи по ИИ с переводами
Создание контента для конкретной идентичности (ID) вызывает значительный интерес в области генеративных моделей. В области генерации изображений из текста (T2I) достигнут значительный прогресс в создании контента, управляемого объектом, с возможностью контроля ID на изображениях. Однако расширение этого подхода на генерацию видео изучено недостаточно. В данной работе мы предлагаем простую, но эффективную структуру для генерации видео с управляемой идентичностью объекта, названную Video Custom Diffusion (VCD). С заданной идентичностью объекта, определенной несколькими изображениями, VCD усиливает извлечение информации об идентичности и внедряет корреляцию между кадрами на этапе инициализации для стабильного вывода видео с сохранением идентичности в значительной степени. Для достижения этого мы предлагаем три новых компонента, которые необходимы для высококачественного сохранения ID: 1) модуль ID, обученный на обрезанной идентичности с помощью преобразования запроса в сегментацию, чтобы разделить информацию об ID и фоновый шум для более точного обучения токенов ID; 2) модуль текста в видео (T2V) VCD с 3D гауссовским шумовым приоритетом для улучшения согласованности между кадрами; и 3) модули видео в видео (V2V) Face VCD и Tiled VCD для устранения размытия лица и повышения разрешения видео. Несмотря на свою простоту, мы провели обширные эксперименты, чтобы подтвердить, что VCD способен генерировать стабильные и высококачественные видео с лучшим сохранением ID по сравнению с выбранными сильными базовыми методами. Кроме того, благодаря переносимости модуля ID, VCD также хорошо работает с доступными публично дообученными моделями генерации изображений из текста, что еще больше повышает его применимость. Код доступен по адресу https://github.com/Zhen-Dong/Magic-Me.
Крупные языковые модели (LLM) демонстрируют впечатляющие результаты в задачах логического рассуждения в различных областях. Однако в сфере задач на рассуждение мы обнаруживаем уязвимость: LLM оказываются удивительно чувствительными к порядку предпосылок, несмотря на то, что такой порядок не меняет сути задачи. В частности, мы наблюдаем, что LLM показывают наилучшие результаты, когда порядок предпосылок соответствует контексту, необходимому для промежуточных шагов рассуждения. Например, в задачах дедуктивного рассуждения представление предпосылок в том же порядке, что и в эталонном доказательстве в промпте (в отличие от случайного порядка), значительно повышает точность модели. Мы сначала исследуем влияние порядка предпосылок на дедуктивное рассуждение в различных LLM, и наша оценка показывает, что перестановка порядка предпосылок может привести к снижению производительности более чем на 30%. Кроме того, мы представляем бенчмарк R-GSM, основанный на GSM8K, для изучения влияния порядка на решение математических задач, и снова наблюдаем значительное снижение точности по сравнению с оригинальным бенчмарком GSM8K.
Модели генерации изображений на основе диффузии, такие как DALL-E 3 и Stable Diffusion-XL, демонстрируют впечатляющие способности в создании изображений с реалистичными и уникальными композициями. Однако эти модели недостаточно устойчивы в точном анализе физических и пространственных конфигураций объектов, особенно когда им даются нестандартные, а значит, выходящие за пределы распределения описания, такие как «стул с пятью ножками». В данной статье мы предлагаем языкового агента с цепочкой 3D-мыслей (L3GO) — подход на этапе вывода, который способен анализировать генерацию 3D-мешей для нестандартных объектов, с которыми современные модели на основе данных испытывают трудности. Конкретнее, мы используем крупные языковые модели в качестве агентов для создания желаемого объекта методом проб и ошибок в среде 3D-симуляции. Для облегчения нашего исследования мы разработали новый бенчмарк, Unconventionally Feasible Objects (UFO), а также SimpleBlenv — обёрточную среду, построенную на основе Blender, где языковые агенты могут создавать и комбинировать атомарные строительные блоки через API-вызовы. Оценки как людьми, так и автоматической системой GPT-4V показывают, что наш подход превосходит стандартный GPT-4 и других языковых агентов (например, ReAct и Reflexion) в генерации 3D-мешей на наборе данных ShapeNet. Более того, при тестировании на нашем бенчмарке UFO наш подход превосходит другие современные модели преобразования текста в 2D-изображения и текста в 3D-модели по оценкам людей.
Обобщение по длине, определяемое как способность экстраполировать с более коротких обучающих последовательностей на более длинные тестовые, представляет собой значительную проблему для языковых моделей. Эта проблема сохраняется даже для крупномасштабных трансформеров, выполняющих относительно простые задачи. В данной статье мы проверяем способность трансформеров к обобщению по длине на задаче сложения двух целых чисел. Мы показываем, что успех обобщения по длине тесно связан с форматом данных и типом позиционного кодирования. Используя правильную комбинацию формата данных и позиционных кодирований, мы впервые демонстрируем, что стандартные трансформеры могут экстраполировать на последовательности, длина которых в 2,5 раза превышает длину входных данных. Тем не менее, в отличие от обобщения в пределах распределения, обобщение по длине остается хрупким и значительно зависит от таких факторов, как случайная инициализация весов и порядок обучающих данных, что приводит к большим вариациям при использовании различных случайных начальных значений.
Необходимость масштабирования вычислений на множество узлов подчеркивает важность эффективных параллельных вычислений, особенно в области интеграции интерфейса передачи сообщений (Message Passing Interface, MPI). Сложная задача параллельного программирования, связанная с генерацией MPI-ориентированных параллельных программ, до сих пор оставалась малоизученной. В данном исследовании впервые изучается производительность современных языковых моделей в генерации MPI-ориентированных параллельных программ. Результаты показывают, что широко используемые модели, такие как GPT-3.5 и PolyCoder (специализированные многоязыковые модели для кода), демонстрируют значительное снижение производительности при генерации MPI-программ по сравнению с программами общего назначения. В то же время специализированные модели, такие как MonoCoder, предварительно обученные на языках программирования C и C++, связанных с MPI, превосходят более крупные модели. Далее мы представляем специализированную задачу генерации MPI-программ путем тонкой настройки MonoCoder на корпусе HPCorpusMPI. Полученную модель мы называем MPIrigen. Мы предлагаем инновационный метод предварительной обработки, при котором завершение кода происходит только после анализа всего кода, что позволяет улучшить завершение с учетом более широкого контекста. Сравнительный анализ с нулевой производительностью GPT-3.5, проведенный с использованием нового метода оценки, ориентированного на высокопроизводительные вычисления (HPC), демонстрирует, что MPIrigen превосходит в генерации точных MPI-функций с точностью до 0,8 в предсказании местоположения и функций и более 0,9 в предсказании аргументов. Успех этого специализированного решения подчеркивает важность тонкой настройки для конкретной области в оптимизации языковых моделей для генерации кода параллельных вычислений, открывая путь к новому поколению инструментов автоматической параллелизации. Исходные материалы этой работы доступны в нашем репозитории MPIrigen на GitHub: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.
Вычислительные мощности, или "компьютинг", играют ключевую роль в разработке и внедрении возможностей искусственного интеллекта (ИИ). В связи с этим правительства и компании начали использовать компьютинг как инструмент управления ИИ. Например, государства инвестируют в развитие внутренних вычислительных мощностей, контролируют их поток в конкурирующие страны и субсидируют доступ к компьютингу для определённых секторов. Однако эти усилия лишь поверхностно затрагивают потенциал использования компьютинга для управления разработкой и внедрением ИИ. По сравнению с другими ключевыми ресурсами для ИИ (данными и алгоритмами), компьютинг, связанный с ИИ, представляет собой особенно эффективную точку вмешательства: он поддаётся обнаружению, исключению и количественной оценке, а его производство сосредоточено в крайне концентрированной цепочке поставок. Эти характеристики, наряду с исключительной важностью компьютинга для передовых моделей ИИ, позволяют предположить, что управление компьютингом может способствовать достижению общих политических целей, таких как обеспечение безопасности и полезного использования ИИ. Более конкретно, политики могут использовать компьютинг для повышения прозрачности регулирования ИИ, распределения ресурсов для стимулирования полезных результатов и введения ограничений на безответственную или злонамеренную разработку и использование ИИ. Однако, хотя политики и технологии, основанные на компьютинге, имеют потенциал для помощи в этих областях, их готовность к реализации значительно варьируется. Некоторые идеи уже тестируются, в то время как другие сдерживаются необходимостью фундаментальных исследований. Более того, наивные или плохо продуманные подходы к управлению компьютингом несут значительные риски в таких областях, как конфиденциальность, экономические последствия и централизация власти. В заключение мы предлагаем меры предосторожности для минимизации этих рисков при управлении компьютингом.
Тонкая настройка с использованием вознаграждений стала перспективным подходом для согласования базовых моделей с целевыми задачами. В области обработки языка значительные успехи были достигнуты за счет применения обучения с подкреплением (RL) для максимизации вознаграждений, отражающих человеческие предпочтения. Однако в области компьютерного зрения существующие методы тонкой настройки на основе RL ограничены своей нестабильностью при обучении в крупных масштабах, что делает их неспособными обобщать сложные, ранее не встречавшиеся запросы. В данной статье мы предлагаем метод Proximal Reward Difference Prediction (PRDP), который впервые позволяет стабильно выполнять тонкую настройку с использованием вознаграждений для диффузионных моделей на крупных наборах данных с более чем 100 тыс. запросов. Наше ключевое нововведение — это целевая функция Reward Difference Prediction (RDP), которая имеет то же оптимальное решение, что и целевая функция RL, но при этом обеспечивает лучшую стабильность обучения. В частности, целевая функция RDP представляет собой задачу регрессии с учителем, в которой диффузионная модель должна предсказывать разницу в вознаграждениях для пар сгенерированных изображений на основе их траекторий денойзинга. Мы теоретически доказываем, что диффузионная модель, идеально предсказывающая разницу в вознаграждениях, является точным максимизатором целевой функции RL. Мы также разрабатываем онлайн-алгоритм с проксимальными обновлениями для стабильной оптимизации целевой функции RDP. В экспериментах мы показываем, что PRDP может соответствовать способности максимизации вознаграждения хорошо зарекомендовавших себя методов на основе RL при обучении в малых масштабах. Более того, при обучении на крупных наборах текстовых запросов из Human Preference Dataset v2 и Pick-a-Pic v1, PRDP демонстрирует превосходное качество генерации на разнообразных сложных, ранее не встречавшихся запросах, тогда как методы на основе RL полностью терпят неудачу.
Крупные языковые модели (LLM) становятся всё более распространёнными и находят повсеместное применение в оказании различных форм помощи в написании текстов. Однако системы, основанные на LLM, могут вызывать разочарование у пользователей из-за ограниченной персонализации и контроля, что усугубляется, если пользователи не имеют опыта в инженерии промптов. Мы рассматриваем дизайн как один из способов решения этих проблем и представляем GhostWriter, исследовательский инструмент для написания текстов с использованием ИИ, где пользователи могут проявлять повышенную активность и персонализацию. GhostWriter использует LLM для неявного изучения стиля письма пользователя по мере того, как он пишет, одновременно предоставляя возможность явного обучения через ручное редактирование стиля и аннотации. Мы изучили 18 участников, использующих GhostWriter для выполнения двух различных задач по написанию текстов, и обнаружили, что он помогает пользователям создавать персонализированные тексты и предоставляет им множество способов управления стилем письма системы. На основе этого исследования мы представляем инсайты, касающиеся взаимодействия людей с ИИ-ассистированным написанием текстов, и предлагаем рекомендации по дизайну для будущих работ.
С увеличением сложности генеративных моделей ИИ, посттренировочная квантизация (PTQ) стала перспективным решением для развертывания гипермасштабных моделей на устройствах с ограниченными ресурсами, таких как мобильные устройства и телевизоры. Однако существующие схемы PTQ требуют значительных временных и ресурсных затрат, что может стать узким местом в реальных ситуациях, где необходимы частые обновления моделей и настройка множества гиперпараметров. В качестве экономичной альтернативы были предложены одношаговые схемы PTQ. Тем не менее, их производительность несколько ограничена, поскольку они не учитывают межслойные зависимости внутри модуля внимания, что является важной особенностью архитектуры Transformer. В данной статье мы предлагаем новый алгоритм PTQ, который балансирует точность и эффективность. Основная идея предложенного алгоритма, названного aespa, заключается в выполнении квантизации послойно для повышения эффективности, при этом учитывая межслойные зависимости для сохранения точности вычисления внимания. Благодаря обширным экспериментам на различных языковых моделях и анализу сложности, мы демонстрируем, что aespa обеспечивает точную и эффективную квантизацию моделей Transformer.