Ежедневно отобранные исследовательские статьи по ИИ с переводами
Системы генеративного искусственного интеллекта (GenAI) все чаще применяются в различных отраслях промышленности и исследовательских средах. Разработчики и конечные пользователи взаимодействуют с этими системами с помощью формулировки запросов или инженерии запросов. Хотя формулировка запросов является широко распространенным и хорошо изученным концептом, существует противоречивая терминология и недостаточное онтологическое понимание того, что представляет собой запрос из-за молодости этой области. В данной статье устанавливается структурированное понимание запросов путем создания таксономии техник формулировки запросов и анализа их использования. Мы представляем обширный словарь из 33 терминов, таксономию из 58 техник формулировки текстовых запросов и 40 техник для других модалей. Кроме того, мы представляем мета-анализ всей литературы по префиксной формулировке запросов на естественном языке.
Недавние достижения в области генеративных моделей подчеркнули ключевую роль токенизации изображений в эффективном синтезе изображений высокого разрешения. Токенизация, которая преобразует изображения в латентные представления, снижает вычислительные затраты по сравнению с прямой обработкой пикселей и улучшает эффективность и эффективность процесса генерации. Предыдущие методы, такие как VQGAN, обычно используют 2D латентные сетки с фиксированными коэффициентами понижения дискретизации. Однако эти 2D токенизации сталкиваются с проблемами в управлении встроенными избыточностями, присутствующими в изображениях, где смежные области часто проявляют сходства. Для преодоления этой проблемы мы представляем трансформерную 1-мерную токенизатор (TiTok), инновационный подход, который токенизирует изображения в 1D латентные последовательности. TiTok обеспечивает более компактное латентное представление, обеспечивая значительно более эффективные и эффективные представления, чем традиционные техники. Например, изображение размером 256 x 256 x 3 может быть сокращено всего до 32 дискретных токенов, что значительно меньше, чем 256 или 1024 токена, полученных предыдущими методами. Несмотря на свою компактность, TiTok достигает конкурентоспособной производительности по сравнению с передовыми подходами. Конкретно, используя ту же структуру генератора, TiTok достигает 1,97 gFID, превосходя базовую модель MaskGIT значительно на 4,21 в тесте ImageNet 256 x 256. Преимущества TiTok становятся еще более значительными, когда речь идет о более высоком разрешении. В тесте ImageNet 512 x 512 TiTok не только превосходит передовую модель диффузии DiT-XL/2 (gFID 2,74 против 3,04), но также сокращает токены изображения в 64 раза, что приводит к ускорению процесса генерации в 410 раз. Наша наиболее эффективная вариация значительно превосходит DiT-XL/2 (gFID 2,13 против 3,04), сохраняя при этом возможность генерировать высококачественные образцы в 74 раза быстрее.
Большие языковые модели (LLM) для кода продемонстрировали выдающиеся успехи в задачах понимания, завершения и генерации кода. Программные бенчмарки, состоящие из набора задач по коду и соответствующих тестовых случаев, служат стандартом для оценки возможностей различных LLM в таких задачах. Однако большинство существующих бенчмарков в основном сосредоточены на Python и до сих пор ограничены небольшим количеством языков, где другие языки переводятся из образцов на Python (например, MultiPL-E), что снижает разнообразие данных. Для дальнейшего содействия исследованиям кодовых LLM мы предлагаем массово-многоязычный кодовый бенчмарк, охватывающий 40 языков программирования (McEval) с 16 тыс. тестовыми образцами, что значительно расширяет возможности кодовых LLM в многоязычных сценариях. Бенчмарк включает в себя сложные задачи о завершении, понимании и генерации кода с тщательно подобранными массово-многоязычными корпусами инструкций McEval-Instruct. Кроме того, мы представляем эффективного многоязычного кодера mCoder, обученного на McEval-Instruct, для поддержки генерации многоязычных языков программирования. Обширные экспериментальные результаты на McEval показывают, что между открытыми моделями и закрытыми LLM (например, модели серии GPT) на различных языках все еще существует сложный путь. Корпусы инструкций, оценочный бенчмарк и таблица лидеров доступны по ссылке https://mceval.github.io/.
Редактирование изображений является практической, но сложной задачей, учитывая разнообразные требования пользователей, где одной из самых сложных частей является точное описание того, как должно выглядеть отредактированное изображение. В данной работе мы представляем новую форму редактирования, названную имитационным редактированием, чтобы помочь пользователям более удобно проявлять свою креативность. Конкретно, для редактирования области интереса на изображении пользователи могут свободно черпать вдохновение из некоторых случайных ссылок (например, некоторые относящиеся к теме изображения, найденные онлайн), не беспокоясь о соответствии между эталоном и исходным изображением. Такой подход требует, чтобы система автоматически определяла, что ожидать от эталона для выполнения редактирования. Для этой цели мы предлагаем генеративную обучающую структуру, названную MimicBrush, которая случайным образом выбирает два кадра из видеоклипа, маскирует некоторые области одного кадра и учится восстанавливать закрытые области, используя информацию из другого кадра. Таким образом, наша модель, разработанная на основе диффузионного априорного распределения, способна захватывать семантическую соответственность между отдельными изображениями самостоятельным образом. Мы экспериментально демонстрируем эффективность нашего метода в различных тестовых случаях, а также его превосходство над существующими альтернативами. Мы также создаем бенчмарк для упрощения дальнейших исследований.
Искусственный интеллект переживает парадигмальный сдвиг, достигнутый благодаря системам, оркестрирующим несколько крупных языковых моделей (LLM) и другие сложные компоненты. В результате разработка принципиальных и автоматизированных методов оптимизации для сложных систем искусственного интеллекта является одним из самых важных новых вызовов. Нейронные сети столкнулись с аналогичным вызовом в свои ранние дни, пока обратное распространение и автоматическое дифференцирование не преобразили область, сделав оптимизацию простой. Вдохновленные этим, мы представляем TextGrad, мощный фреймворк, выполняющий автоматическое "дифференцирование" через текст. TextGrad обратно распространяет текстовую обратную связь, предоставленную LLM, для улучшения отдельных компонентов сложной системы искусственного интеллекта. В нашем фреймворке LLM предоставляют богатые, общие, естественноязыковые предложения для оптимизации переменных в вычислительных графах, начиная от фрагментов кода до молекулярных структур. TextGrad следует синтаксису и абстракции PyTorch, он гибок и прост в использовании. Он работает "из коробки" для различных задач, где пользователи предоставляют только целевую функцию без настройки компонентов или подсказок фреймворка. Мы демонстрируем эффективность и общность TextGrad в разнообразных приложениях, начиная от ответов на вопросы и оптимизации молекул до планирования лучевой терапии. Без модификации фреймворка TextGrad улучшает точность нулевого примера GPT-4o в ответах на вопросы Google-Proof с 51% до 55%, обеспечивает 20% относительный прирост производительности в оптимизации решений проблем кодирования LeetCode-Hard, улучшает подсказки для рассуждений, разрабатывает новые молекулы, подобные лекарствам, с желательным виртуальным связыванием, и разрабатывает планы лучевой онкологической терапии с высокой специфичностью. TextGrad заложил основу для ускорения развития следующего поколения систем искусственного интеллекта.
Сложные многошаговые задачи рассуждения, такие как решение математических задач или генерация кода, остаются значительным препятствием даже для самых передовых крупных моделей языка (LLM). Проверка выводов LLM с помощью модели вознаграждения за результат (ORM) является стандартным методом на этапе вывода, направленным на улучшение производительности рассуждения LLM. Однако это все еще оказывается недостаточным для задач рассуждения с длинной или многошаговой цепочкой рассуждения, где промежуточные результаты ни должным образом не вознаграждаются, ни не наказываются. Процессный контроль решает эту проблему, назначая промежуточные вознаграждения во время процесса рассуждения. До настоящего времени методы сбора данных о процессном контроле полагались либо на человеческую аннотацию, либо на оценку методом Монте-Карло на каждом шаге, что является чрезмерно дорогостоящим для масштабирования, тем самым затрудняя широкое применение этой техники. В ответ на этот вызов мы предлагаем новый алгоритм поиска в дереве Монте-Карло (MCTS) в стиле "разделяй и властвуй", названный OmegaPRM для эффективного сбора высококачественных данных о процессном контроле. Этот алгоритм быстро определяет первую ошибку в Цепочке Мысли (CoT) с помощью двоичного поиска и балансирует положительные и отрицательные примеры, тем самым обеспечивая как эффективность, так и качество. В результате мы смогли собрать более 1,5 миллиона аннотаций процессного контроля для обучения модели вознаграждения за процесс (PRM). Используя этот полностью автоматизированный процессный контроль наряду с алгоритмом взвешенной самосогласованности, мы улучшили производительность математического рассуждения модели Gemini Pro, настроенной на инструкции, достигнув успешности на уровне 69,4\% по бенчмарку MATH, что является улучшением на 36\% по сравнению с базовой производительностью модели на уровне 51\%. Кроме того, весь процесс работает без какого-либо вмешательства человека, что делает наш метод финансово и вычислительно экономичным по сравнению с существующими методами.
Данная статья представляет алгоритм MCT Self-Refine (MCTSr), инновационное объединение Large Language Models (LLM) с методом Monte Carlo Tree Search (MCTS), разработанное для улучшения производительности в сложных математических задачах рассуждения. Решая проблемы точности и надежности в LLM, особенно в стратегическом и математическом рассуждении, MCTSr использует систематическое исследование и механизмы эвристического самосовершенствования для улучшения фреймворков принятия решений в LLM. Алгоритм строит дерево поиска методом Монте-Карло через итеративные процессы выбора, самосовершенствования, самооценки и обратного распространения, используя улучшенную формулу Верхней Доверительной Границы (UCB) для оптимизации баланса исследования и эксплуатации. Обширные эксперименты демонстрируют эффективность MCTSr в решении математических задач уровня Олимпиады, значительно повышая успешность на различных наборах данных, включая GSM8K, GSM Hard, MATH, и бенчмарки уровня Олимпиады, такие как Math Odyssey, AIME и OlympiadBench. Исследование продвигает применение LLM в сложных задачах рассуждения и заложение основы для будущей интеграции искусственного интеллекта, улучшая точность и надежность принятия решений в приложениях, основанных на LLM.
В данном техническом отчете мы представляем методики обучения, реализованные в разработке Skywork-MoE - высокопроизводительной модели большого языкового объема (LLM) смеси экспертов (MoE) с 146 миллиардами параметров и 16 экспертами. Она инициализируется из предварительных плотных контрольных точек нашей модели Skywork-13B. Мы исследуем сравнительную эффективность повторного использования инициализаций по сравнению с обучением с нуля. Наши результаты показывают, что выбор между этими двумя подходами должен учитывать как производительность существующих плотных контрольных точек, так и бюджет обучения MoE. Мы выделяем две инновационные техники: нормализацию логитов ворот и адаптивные коэффициенты вспомогательных потерь, позволяющие регулировать коэффициенты вспомогательных потерь для каждого слоя. Наши экспериментальные результаты подтверждают эффективность этих методов. Используя эти техники и идеи, мы обучили нашу модель Skywork-MoE на сокращенном подмножестве нашего корпуса SkyPile. Результаты оценки демонстрируют, что наша модель обладает высокой производительностью на широком спектре бенчмарков.
Генерация комбинированных визуальных и звуковых сенсорных впечатлений критически важна для потребления иммерсивного контента. Недавние достижения в области нейронных генеративных моделей позволили создавать контент высокого разрешения в различных модальностях, таких как изображения, текст, речь и видео. Несмотря на эти успехи, остается значительный разрыв в генерации высококачественного пространственного звука, который дополняет созданный визуальный контент. Более того, текущие модели генерации звука отличаются либо в создании естественного звука, либо речи, либо музыки, но не удается интегрировать пространственные аудио-подсказки, необходимые для иммерсивного восприятия. В данной работе мы представляем SEE-2-SOUND, подход с нулевым обучением, который разбивает задачу на (1) идентификацию визуальных областей интереса; (2) определение их местоположения в трехмерном пространстве; (3) генерацию моно-звука для каждой из них; и (4) интеграцию их в пространственный звук. С использованием нашей структуры мы демонстрируем убедительные результаты в генерации пространственного звука для видео высокого качества, изображений и динамических изображений из интернета, а также медиаконтента, созданного с использованием изученных подходов.
Существующие методы генерации динамических сцен в основном опираются на извлечение знаний из предварительно обученных 3D генеративных моделей, которые обычно донастраиваются на синтетических наборах данных объектов. В результате сгенерированные сцены часто сосредоточены на объектах и лишены фотореализма. Для преодоления этих ограничений мы представляем новый конвейер, разработанный для фотореалистичной генерации сцен 4D из текста, отказываясь от зависимости от многозрительных генеративных моделей и вместо этого полностью используя видео генеративные модели, обученные на разнообразных реальных наборах данных. Наш метод начинается с генерации ссылочного видео с использованием модели генерации видео. Затем мы изучаем каноническое 3D представление видео с помощью замороженного во времени видео, тонко сгенерированного из ссылочного видео. Для обработки несоответствий в замороженном видео мы совместно изучаем деформацию на каждом кадре для моделирования этих несовершенств. Затем мы изучаем временную деформацию на основе канонического представления для захвата динамических взаимодействий в ссылочном видео. Конвейер облегчает генерацию динамических сцен с улучшенным фотореализмом и структурной целостностью, просматриваемых с различных перспектив, тем самым устанавливая новый стандарт в генерации сцен 4D.
Модели диффузии привлекли значительный интерес со стороны сообщества благодаря их высокой способности к генерации в различных приложениях. Однако их типичная многоэтапная последовательная денойзинговая природа приводит к высокой накопительной задержке, что исключает возможности параллельных вычислений. Для решения этой проблемы мы представляем AsyncDiff, универсальную и готовую к использованию схему ускорения, которая позволяет параллельное выполнение модели на нескольких устройствах. Наш подход разделяет громоздкую модель предсказания шума на несколько компонентов, назначая каждый из них на различное устройство. Для разрыва цепи зависимостей между этими компонентами мы преобразуем традиционную последовательную денойзинговую процедуру в асинхронный процесс, используя высокую схожесть между скрытыми состояниями на последовательных этапах диффузии. В результате каждый компонент может вычисляться параллельно на отдельных устройствах. Предложенная стратегия значительно сокращает задержку вывода, минимально влияя на качество генерации. В частности, для Stable Diffusion v2.1, AsyncDiff достигает ускорения в 2,7 раза с незначительным ухудшением и в 4,0 раза с едва заметным снижением 0,38 в CLIP Score на четырех GPU NVIDIA A5000. Наши эксперименты также показывают, что AsyncDiff может легко применяться к видео-моделям диффузии с обнадеживающими результатами. Код доступен по ссылке https://github.com/czg1225/AsyncDiff.
Хотя модели диффузии отличаются в создании изображений высокого качества, предыдущие исследования сообщают о значительной разнице в производительности между моделями диффузии и авторегрессионными (AR) методами в языковом моделировании. В данной работе мы показываем, что простая маскированная дискретная диффузия более производительна, чем ранее считалось. Мы применяем эффективный рецепт обучения, который улучшает производительность моделей маскированной диффузии и выводим упрощенную, оптимизированную по Рао-Блэкуэллу цель, что приводит к дополнительным улучшениям. Наша цель имеет простую форму - это смесь классических потерь маскированного языкового моделирования - и может быть использована для обучения только кодировщиков языковых моделей, которые допускают эффективные сэмплеры, включая те, которые могут генерировать произвольные длины текста полуавторегрессивно, как традиционная языковая модель. На языковых бенчмарках ряд моделей маскированной диффузии, обученных современными инженерными практиками, достигает нового state-of-the-art среди моделей диффузии и приближается к перплексии AR. Мы выкладываем наш код по ссылке: https://github.com/kuleshov-group/mdlm
Большие языковые модели (LLM) достигли впечатляющих результатов на медицинских тестах вопросов и ответов. Однако высокая точность тестов не означает, что результаты обобщаются на реальные клинические условия. Медицинские тесты вопросов и ответов основаны на предположениях, соответствующих количественной оценке производительности LLM, но которые могут не соблюдаться в открытом мире клиники. Тем не менее LLM изучают широкие знания, которые могут помочь LLM обобщить на практические условия независимо от нереалистичных предположений в известных тестах. Мы стремимся количественно оценить, насколько хорошо производительность медицинских тестов вопросов и ответов LLM обобщается, когда предположения теста нарушаются. Конкретно, мы представляем атакующий метод, который мы называем MedFuzz (для медицинского фаззинга). MedFuzz пытается изменить вопросы теста таким образом, чтобы запутать LLM. Мы демонстрируем подход, направленный на сильные предположения о характеристиках пациентов, представленных в тесте MedQA. Успешные "атаки" изменяют элемент теста таким образом, что это маловероятно смогло бы обмануть медицинского эксперта, но тем не менее "обманывают" LLM, заставляя его изменить правильный ответ на неправильный. Кроме того, мы представляем метод перестановки, который может гарантировать, что успешная атака является статистически значимой. Мы показываем, как использовать производительность на "MedFuzzed" тесте, а также отдельные успешные атаки. Эти методы обещают дать понимание способности LLM работать надежно в более реалистичных условиях.
Мы представляем DenseAV, новую архитектуру с двойным кодировщиком, которая изучает высокоразрешенные, семантически значимые и аудиовизуально выровненные функции исключительно путем просмотра видеороликов. Мы показываем, что DenseAV способен обнаруживать "значение" слов и "местоположение" звуков без явного обучения локализации. Более того, он автоматически обнаруживает и различает эти два типа ассоциаций без обучения. Мы показываем, что способности DenseAV к локализации возникают благодаря новому оператору агрегации функций с множеством головок, который непосредственно сравнивает плотные изображения и аудиопредставления для контрастного обучения. В отличие от многих других систем, которые изучают "глобальные" аудио- и видеопредставления, DenseAV не может локализовать слова и звуки. Наконец, мы представляем два новых набора данных для улучшения оценки AV-представлений через семантическую сегментацию, стимулируемую речью и звуком. На этих и других наборах данных мы показываем, что DenseAV значительно превосходит существующие достижения в сегментации, стимулируемой речью и звуком. DenseAV превосходит предыдущий лучший метод, ImageBind, в кросс-модальном поиске с использованием менее половины параметров. Страница проекта: https://aka.ms/denseav {https://aka.ms/denseav}
Одновременное переосвещение изображения - это сложная задача, которая включает в себя рассуждения о сложном взаимодействии между геометрией, материалами и освещением. Многие предыдущие методы либо поддерживают только определенные категории изображений, такие как портреты, либо требуют специальных условий съемки, например, использование фонарика. В качестве альтернативы некоторые методы явно декомпозируют сцену на внутренние компоненты, такие как нормали и BRDF, что может быть неточным или недостаточно выразительным. В данной работе мы предлагаем новую модель диффузии переосвещения на основе нейронной сети, названную Neural Gaffer, которая принимает одно изображение любого объекта и может синтезировать точное, качественное изображение с измененным освещением в любых новых условиях окружающего освещения, просто путем настройки генератора изображений на целевую карту окружения, без явного разложения сцены. Наш метод основан на предварительно обученной модели диффузии и доводится до совершенства на синтетическом наборе данных по переосвещению, раскрывая и используя врожденное понимание освещения, присутствующее в модели диффузии. Мы оцениваем нашу модель как на синтетических, так и на изображениях из Интернета "на лету" и демонстрируем ее преимущества в плане обобщения и точности. Более того, путем комбинирования с другими методами генерации наша модель позволяет выполнять множество последующих 2D задач, таких как переосвещение на основе текста и вставка объектов. Наша модель также может действовать как мощный предиктор переосвещения для 3D задач, таких как переосвещение поля радиации.
Устойчивость крупных языковых моделей (LLM) к атакам с целью нарушения безопасности, таким как атаки "выход из тюрьмы", остается значительным вызовом. В данной работе мы предлагаем подход, который улучшает способность самокритики LLM и затем доводит его до совершенства на очищенных синтетических данных. Это достигается добавлением внешней модели-критика, которую можно объединить с оригинальной, тем самым укрепляя способности самокритики и улучшая устойчивость ответа LLM на атакующие запросы. Наши результаты показывают, что комбинация объединения и самокритики может значительно снизить успешность атак со стороны злоумышленников, предлагая тем самым многообещающий механизм защиты от атак "выход из тюрьмы". Код, данные и модели доступны по ссылке https://github.com/vicgalle/merging-self-critique-jailbreaks.