Ежедневно отобранные исследовательские статьи по ИИ с переводами
Авторегрессионные модели стали мощным подходом для визуальной генерации, но страдают от медленной скорости вывода из-за последовательного предсказания токенов. В данной статье мы предлагаем простой, но эффективный подход для параллельной авторегрессионной визуальной генерации, который повышает эффективность генерации, сохраняя преимущества авторегрессионного моделирования. Наш ключевой инсайт заключается в том, что параллельная генерация зависит от визуальной зависимости токенов - токены с слабыми зависимостями могут быть сгенерированы параллельно, в то время как сильно зависимые соседние токены сложно генерировать вместе, поскольку их независимая выборка может привести к несоответствиям. Исходя из этого наблюдения, мы разработали стратегию параллельной генерации, которая генерирует удаленные токены с слабыми зависимостями параллельно, сохраняя последовательную генерацию для сильно зависимых локальных токенов. Наш подход может быть легко интегрирован в стандартные авторегрессионные модели без изменения архитектуры или токенизатора. Эксперименты на ImageNet и UCF-101 показывают, что наш метод достигает ускорения в 3,6 раза с сопоставимым качеством и до 9,5 раз ускорения с минимальным ухудшением качества как для задач генерации изображений, так и видео. Мы надеемся, что данная работа вдохновит будущие исследования в области эффективной визуальной генерации и объединенного авторегрессионного моделирования. Страница проекта: https://epiphqny.github.io/PAR-project.
Улучшение способности к многошаговому рассуждению крупных языковых моделей (LLM) с использованием обучения с подкреплением (RL) в автономном режиме является важным для быстрой адаптации их к сложным задачам. В то время как метод прямой оптимизации предпочтений (DPO) показал потенциал в выравнивании LLM с человеческими предпочтениями, он менее подходит для задач многошагового рассуждения из-за того, что (1) DPO зависит от данных сопоставления предпочтений, которые не всегда доступны для задач многошагового рассуждения, и (2) он одинаково обрабатывает все токены, что делает его неэффективным для присвоения заслуг в задачах многошагового рассуждения, часто связанных с разреженной наградой. В данной работе мы предлагаем OREO (Offline Reasoning Optimization), метод обучения с подкреплением в автономном режиме для улучшения многошагового рассуждения LLM. Основываясь на идеях предыдущих работ по обучению с максимальной энтропией, он совместно обучает модель политики и функцию ценности, оптимизируя мягкое уравнение Беллмана. Мы показываем в принципе, что это уменьшает необходимость в сборе парных данных и обеспечивает лучшее присвоение заслуг. Эмпирически OREO превосходит существующие методы обучения в автономном режиме на бенчмарках многошагового рассуждения, включая задачи математического рассуждения (GSM8K, MATH) и управление воплощенным агентом (ALFWorld). Подход может быть расширен до многократной структуры при наличии дополнительных ресурсов. Кроме того, изученная функция ценности может быть использована для направления поиска по дереву бесплатно, что дополнительно повышает производительность во время тестирования.
Трансформеры диффузии (DiT) стали ведущей архитектурой в области генерации изображений. Однако квадратичная сложность механизмов внимания, отвечающих за моделирование отношений между токенами, приводит к значительной задержке при создании изображений высокого разрешения. Для решения этой проблемы в данной статье мы стремимся к механизму линейного внимания, который снижает сложность предварительно обученных DiT до линейной. Мы начинаем наше исследование с подробного обзора существующих эффективных механизмов внимания и выделяем четыре ключевых фактора, необходимых для успешной линеаризации предварительно обученных DiT: локальность, согласованность формулировок, высокоранговые карты внимания и целостность признаков. Основываясь на этих идеях, мы представляем стратегию локального внимания, аналогичную свертке, названную CLEAR, которая ограничивает взаимодействия признаков локальным окном вокруг каждого токена запроса и, таким образом, достигает линейной сложности. Наши эксперименты показывают, что, донастраивая слой внимания всего лишь на 10 тыс. самопорожденных образцов в течение 10 тыс. итераций, мы можем эффективно передавать знания от предварительно обученного DiT к модели ученика с линейной сложностью, давая результаты, сравнимые с моделью учителя. Одновременно это снижает вычисления внимания на 99,5% и ускоряет генерацию в 6,3 раза для создания изображений разрешением 8K. Кроме того, мы исследуем благоприятные свойства в дистиллированных слоях внимания, такие как обобщение без обучения на различных моделях и плагинах, а также улучшенная поддержка параллельного вывода на нескольких GPU. Модели и коды доступны здесь: https://github.com/Huage001/CLEAR.
Кэш ключ-значение (KV) стал узким местом для LLM при генерации длинного контекста. Несмотря на многочисленные усилия в этой области, оптимизация для фазы декодирования обычно игнорируется. Однако мы считаем, что такая оптимизация крайне важна, особенно для задач генерации длинного вывода на основе следующих двух наблюдений: (i) Чрезмерное сжатие во время фазы предварительной загрузки, которое требует конкретного полного контекста, ухудшает понимание задачи рассуждения; (ii) Отклонение от основных элементов происходит в задачах рассуждения с длинными выводами. Поэтому была представлена SCOPE, простая, но эффективная структура, которая отдельно выполняет оптимизацию кэша ключ-значение во время фаз предварительной загрузки и декодирования. Конкретно, кэш ключ-значение во время фазы предварительной загрузки сохраняется для поддержания основной информации, в то время как предложена новая стратегия на основе скольжения для выбора основных элементов для фазы декодирования. Используются адаптивные и дискретные стратегии для дальнейшей оптимизации использования памяти и передачи памяти. Обширные эксперименты на LongGenBench показывают эффективность и обобщаемость SCOPE, а также его совместимость в качестве плагина для других методов сжатия KV только для предварительной загрузки.
Мы предлагаем синтезировать высококачественное и синхронизированное аудио на основе видео и дополнительных текстовых условий с использованием новой мультимодальной совместной обучающей структуры MMAudio. В отличие от обучения с использованием одной модальности, условия для которой ограничены только видеоданными, MMAudio обучается совместно с более масштабными, легко доступными текстово-аудио данными для генерации семантически выровненных образцов аудио высокого качества. Кроме того, мы улучшаем аудиовизуальную синхронизацию с помощью условного модуля синхронизации, который выравнивает видеоусловия с аудио-латентами на уровне кадра. Обученный с использованием целевой функции сопоставления потоков, MMAudio достигает нового состояния искусства относительно качества аудио при переводе видео в аудио среди общедоступных моделей по таким параметрам, как качество аудио, семантическое выравнивание и аудиовизуальная синхронизация, при этом имея низкое время вывода (1,23 секунды для генерации клипа длительностью 8 секунд) и всего 157 миллионов параметров. MMAudio также достигает удивительно конкурентоспособных результатов в генерации текста в аудио, показывая, что совместное обучение не препятствует производительности с использованием одной модальности. Код и демонстрация доступны по ссылке: https://hkchengrex.github.io/MMAudio
Мультимодальные модели большого размера (MLLM) отличаются в создании высокодетализированных подписей, но часто приводят к галлюцинациям. Наш анализ показывает, что существующие методы обнаружения галлюцинаций испытывают трудности с подробными подписями. Мы связываем это с увеличением зависимости MLLM от сгенерированного текста, а не от входного изображения, по мере увеличения длины последовательности. Для решения этой проблемы мы предлагаем мультиагентный подход, который использует сотрудничество LLM-MLLM для коррекции предоставленных подписей. Кроме того, мы представляем оценочную рамку и набор данных для облегчения систематического анализа подробных подписей. Наши эксперименты показывают, что наш предложенный метод оценки лучше соответствует человеческим суждениям о фактичности, чем существующие метрики, и что существующие подходы к улучшению фактичности MLLM могут оказаться недостаточными в задачах гипердетализированного описания изображений. В отличие от этого, наш предложенный метод значительно улучшает фактическую точность подписей, даже улучшая те, которые созданы GPT-4V. Наконец, мы выделяем ограничение бенчмаркинга, основанного на вопросах и ответах о визуальных данных, показывая, что производительность MLLM на таких бенчмарках может не коррелировать с его способностью генерировать подробные подписи изображений.
Квантование стало одной из наиболее эффективных методик сжатия LLMs до более компактного размера. Однако существующие решения квантования все еще показывают ограничения в виде либо значительного снижения точности, либо неэффективности системы. В данной статье мы проводим всесторонний анализ общих принципов квантования на их влияние на треугольник точности, потребления памяти и эффективности системы. Мы предлагаем MixLLM, который исследует новое пространство оптимизации смешанного квантования точности между выходными признаками на основе идеи о том, что различные выходные признаки имеют различное значение в модели. MixLLM выделяет выходные признаки с высокой значимостью в глобальном контексте, а не в каждом отдельном слое, эффективно назначая большую разрядность выходным признакам, которым это наиболее необходимо, для достижения хорошей точности при низком потреблении памяти. Мы представляем оптимальную конфигурацию квантования алгоритма и системы, которая обеспечивает высокую точность и эффективность системы. Для решения проблемы системы мы разрабатываем двухэтапное деквантование для удобного использования int8 Tensor Core и быстрой конвертации типов данных для существенного снижения накладных расходов деквантования, а также представляем программный конвейер для наилучшего перекрытия доступа к памяти, деквантования и MatMul. Обширные эксперименты показывают, что всего с 10% большим количеством битов увеличение PPL может быть снижено с примерно 0.5 в SOTA до значения в пределах 0.2 для Llama 3.1 70B, в то время как в среднем MMLU-Pro улучшает SOTA трех популярных моделей на 0.93. Помимо превосходной точности, MixLLM также достигает передовой системной эффективности.
Мы предлагаем новый блок для моделирования видео. Он основан на факторизации времени-пространства-канала с выделенными блоками для каждого измерения: воротные линейные рекуррентные блоки (LRU) выполняют смешивание информации по времени, слои самовнимания выполняют смешивание по пространству, а многослойные перцептроны - по каналам. Результирующая архитектура TRecViT хорошо справляется с разреженными и плотными задачами, обученными в надзорных или автономных режимах. Заметно, что наша модель является причинной и превосходит или находится на уровне чистой модели внимания ViViT-L на крупномасштабных видеоданных (SSv2, Kinetics400), при этом имея в 3 раза меньше параметров, в 12 раз меньший объем памяти и в 5 раз меньшее количество операций с плавающей запятой. Код и контрольные точки будут доступны онлайн по адресу https://github.com/google-deepmind/trecvit.
3D супер-разрешение направлено на восстановление трехмерных моделей высокой точности из низкоразрешенных (LR) многовидовых изображений. Ранние исследования в основном сосредотачивались на моделях одиночного супер-разрешения (SISR), чтобы увеличить разрешение LR изображений до изображений высокого разрешения. Однако эти методы часто лишены согласованности видов, поскольку они работают независимо на каждом изображении. Хотя различные методы постобработки были широко исследованы для уменьшения этих несоответствий, они до сих пор не полностью решают проблемы. В данной статье мы проводим всестороннее исследование 3D супер-разрешения, используя модели видео супер-разрешения (VSR). Путем использования моделей VSR мы обеспечиваем более высокую степень пространственной согласованности и можем ссылаться на окружающую пространственную информацию, что приводит к более точным и детальным реконструкциям. Наши результаты показывают, что модели VSR могут демонстрировать выдающиеся результаты даже на последовательностях, которые лишены точного пространственного выравнивания. Исходя из этого наблюдения, мы предлагаем простой, но практичный подход к выравниванию LR изображений без привлечения донастройки или генерации 'плавной' траектории из обученных 3D моделей на LR изображениях. Экспериментальные результаты показывают, что удивительно простые алгоритмы могут достичь передовых результатов в задачах 3D супер-разрешения на стандартных наборах данных, таких как синтетический NeRF и MipNeRF-360. Страница проекта: https://ko-lani.github.io/Sequence-Matters
В данной работе мы предлагаем многоуровневую схему суммаризации Multi-LLM и исследуем две различные стратегии многоуровневого LLM: централизованную и децентрализованную. Наша многоуровневая схема суммаризации Multi-LLM имеет два фундаментально важных этапа на каждом раунде разговора: генерация и оценка. Эти этапы различаются в зависимости от того, используется ли наша многоуровневая децентрализованная схема суммаризации Multi-LLM или централизованная. В обеих наших стратегиях многоуровневого LLM - децентрализованной и централизованной - у нас есть k различных LLM, которые генерируют разнообразные резюме текста. Однако при оценке наш подход централизованной многоуровневой суммаризации Multi-LLM использует один LLM для оценки резюме и выбора лучшего, в то время как для децентрализованной многоуровневой суммаризации Multi-LLM используется k LLM. В целом мы обнаружили, что наши подходы многоуровневой суммаризации Multi-LLM значительно превосходят базовые варианты, использующие только один LLM, до 3 раз. Эти результаты свидетельствуют об эффективности многоуровневых подходов для суммаризации.
Создание высококачественного, анимируемого 3D-аватара полного тела из одного изображения представляет собой сложную задачу из-за разнообразного внешнего вида и поз человека, а также ограниченной доступности высококачественных обучающих данных. Для достижения быстрой и качественной реконструкции человека в данной работе переосмысливается задача с точки зрения набора данных, модели и представления. Во-первых, мы представляем крупномасштабный набор данных, ориентированный на человека, HuGe100K, состоящий из 100 тыс. разнообразных фотореалистичных наборов изображений людей. Каждый набор содержит 24-видовые кадры в конкретных позах человека, сгенерированные с использованием модели изображения в многовидовое изображение с управлением позой. Затем, используя разнообразие взглядов, поз и внешности внутри HuGe100K, мы разрабатываем масштабируемую модель преобразователя прямого распространения для прогнозирования трехмерного гауссова представления человека в равномерном пространстве из заданного изображения человека. Эта модель обучается разделять позу человека, форму тела, геометрию одежды и текстуру. Оцененные гауссианы могут быть анимированы без последующей обработки. Мы проводим комплексные эксперименты для проверки эффективности предложенного набора данных и метода. Наша модель демонстрирует способность эффективно реконструировать фотореалистичных людей с разрешением 1K из одного входного изображения, используя одну графическую карту мгновенно. Кроме того, она плавно поддерживает различные приложения, а также задачи редактирования формы и текстуры.
Эта статья представляет Fietje, семейство небольших языковых моделей (SLM), специально разработанных для голландского языка. Модель основана на Phi 2, модели с англоязычной ориентацией с 2,7 миллиардами параметров. Fietje продемонстрировал конкурентоспособные результаты среди более крупных языковых моделей после своего выпуска. Одним из основных акцентов этой работы является прозрачность и воспроизводимость: Fietje полностью открыт исходный код, включая веса модели, наборы данных, обучение и код оценки, все это общедоступно. В статье обсуждается производительность Fietje и многих других моделей на обширном наборе тестов на бенчмарках по рассуждениям, анализу настроений, мировому знанию, лингвистической приемлемости и разрешению смысла слов. Результаты оценки иллюстрируют быстрый прогресс в области LLM, где недавние небольшие модели превосходят старые, более крупные модели, которые были донастроены для голландского языка. Этот тренд сигнализирует о захватывающем будущем для обработки голландского языка, указывая на то, что даже компактные LLM становятся все более способными. Более того, текущие и будущие усилия по адаптации LLM под голландский язык готовы дополнительно улучшить эти модели, расширяя их применимость и доступность. Fietje является лишь промежуточным шагом в улучшении доступности языковой технологии для пользователей голландского языка.
Построение безопасных крупных языковых моделей (LLM) на нескольких языках является важным для обеспечения безопасного доступа и лингвистического разнообразия. В этом контексте мы представляем M-ALERT, многоязычный бенчмарк, который оценивает безопасность LLM на пяти языках: английском, французском, немецком, итальянском и испанском. M-ALERT включает 15 тыс. высококачественных подсказок на каждом языке, всего 75 тыс., следуя подробной таксономии ALERT. Наши обширные эксперименты на 10 передовых LLM подчеркивают важность анализа безопасности, специфичного для каждого языка, показывая, что модели часто проявляют значительные несоответствия в безопасности на разных языках и в категориях. Например, Llama3.2 показывает высокую небезопасность в категории crime_tax для итальянского языка, но остается безопасным на других языках. Подобные различия наблюдаются во всех моделях. В отличие от этого, определенные категории, такие как substance_cannabis и crime_propaganda, последовательно вызывают небезопасные ответы во всех моделях и языках. Эти результаты подчеркивают необходимость надежных многоязычных практик безопасности в LLM для обеспечения безопасного и ответственного использования разнообразными пользовательскими сообществами.