Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последние годы крупные языковые модели (LLM) продемонстрировали выдающиеся возможности в различных задачах (например, понимание длинного контекста), и было предложено много бенчмарков. Однако мы замечаем, что возможности генерации длинных текстов плохо изучены. Поэтому мы представляем Бенчмарк Генерации Длинных Текстов с Иерархической Структурой (HelloBench), всесторонний, в естественной среде и открытый бенчмарк для оценки производительности LLM в генерации длинных текстов. Основываясь на Таксономии Блума, HelloBench категоризирует задачи генерации длинных текстов на пять подзадач: открытый вопросно-ответный формат, суммаризация, чат, завершение текста и эвристическая генерация текста. Кроме того, мы предлагаем Иерархическую Оценку Длинных Текстов (HelloEval), метод оценки, согласованный с человеческим восприятием, который значительно сокращает время и усилия, необходимые для человеческой оценки, сохраняя при этом высокую корреляцию с человеческой оценкой. Мы провели обширные эксперименты с около 30 основными LLM и обнаружили, что текущие LLM не обладают возможностями генерации длинных текстов. В частности, во-первых, независимо от того, включают ли инструкции явные или неявные ограничения по длине, мы замечаем, что большинство LLM не могут генерировать текст длиной более 4000 слов. Во-вторых, мы замечаем, что хотя некоторые LLM могут генерировать более длинные тексты, существует множество проблем (например, серьезное повторение и ухудшение качества). В-третьих, чтобы продемонстрировать эффективность HelloEval, мы сравниваем HelloEval с традиционными метриками (например, ROUGE, BLEU и т. д.) и методами LLM-как-судья, которые показывают, что HelloEval имеет наивысшую корреляцию с человеческой оценкой. Мы выкладываем наш код на https://github.com/Quehry/HelloBench.
Синтез видео с персонажами направлен на создание реалистичных видеороликов анимируемых персонажей в живописных сценах. Как фундаментальная проблема в сообществе компьютерного зрения и графики, работы в 3D обычно требуют многократных захватов для обучения на каждом случае, что серьезно ограничивает их применимость для моделирования произвольных персонажей в короткие сроки. Недавние 2D методы преодолевают это ограничение с помощью предварительно обученных моделей диффузии, но они испытывают затруднения с общностью поз и взаимодействиями сцен. В этой связи мы предлагаем MIMO, новую структуру, которая может не только синтезировать видеоролики с персонажами с управляемыми атрибутами (т.е. персонаж, движение и сцена), предоставленными простыми пользовательскими вводами, но также одновременно достигать продвинутой масштабируемости для произвольных персонажей, общности для новых 3D движений и применимости к интерактивным сценам реального мира в единой структуре. Основная идея заключается в кодировании 2D видео в компактные пространственные коды, учитывая врожденную 3D природу встречи видео. Конкретно, мы преобразуем пиксели кадра 2D в 3D с использованием монокулярных оценщиков глубины и декомпозируем видеоролик на три пространственных компонента (т.е. основной человек, подлежащая сцена и плавающая заслонка) в иерархических слоях на основе 3D глубины. Эти компоненты дополнительно кодируются в канонический идентификационный код, структурированный код движения и полный код сцены, которые используются в качестве сигналов управления процессом синтеза. Дизайн пространственного декомпозированного моделирования обеспечивает гибкий пользовательский контроль, сложное выражение движения, а также синтез, осознающий 3D для взаимодействия со сценами. Экспериментальные результаты демонстрируют эффективность и надежность предложенного метода.
Большие языковые модели (LLM) с архитектурой только декодера демонстрируют замечательные возможности обучения в контексте (ICL). Эта особенность позволяет им эффективно обрабатывать как знакомые, так и новые задачи, используя примеры, предоставленные в рамках их входного контекста. Признав потенциал этой возможности, мы предлагаем использовать функцию ICL в LLM для улучшения процесса генерации встраивания текста. Для этого мы представляем новую модель bge-en-icl, которая использует примеры с небольшим числом обучающих шагов для создания качественных встраиваний текста. Наш подход интегрирует примеры, связанные с задачей, непосредственно на стороне запроса, что приводит к значительным улучшениям по различным задачам. Кроме того, мы исследовали способы эффективного использования LLM в качестве моделей встраивания, включая различные механизмы внимания, методы пулинга и т. д. Наши результаты показывают, что сохранение исходной структуры часто дает лучшие результаты, подчеркивая, что простота - залог успеха. Экспериментальные результаты на бенчмарках MTEB и AIR-Bench демонстрируют, что наш подход устанавливает новые лучшие показатели (SOTA). Наша модель, код и набор данных доступны бесплатно на https://github.com/FlagOpen/FlagEmbedding .
Недавние достижения в области мультимодальных крупных языковых моделей (MLLMs) направлены на интеграцию и интерпретацию данных из различных модальностей. Однако способность этих моделей одновременно обрабатывать и рассуждать о нескольких модальностях остается недостаточно исследованной, частично из-за отсутствия комплексных бенчмарков по модальностям. Мы представляем OmniBench, новый бенчмарк, разработанный для строгой оценки способности моделей распознавать, интерпретировать и рассуждать одновременно по визуальным, акустическим и текстовым входам. Мы определяем модели, способные к такой три-модальной обработке, как омни-языковые модели (OLMs). OmniBench отличается высококачественными человеческими аннотациями, обеспечивая, что точные ответы требуют интегрированного понимания и рассуждения по всем трем модальностям. Наши основные результаты показывают, что: i) открытые OLMs проявляют критические ограничения в следовании инструкциям и способностях рассуждения в три-модальных контекстах; и ii) базовые модели показывают плохие результаты (ниже 50% точности), даже когда им предоставляются альтернативные текстовые представления изображений и аудио. Эти результаты свидетельствуют о том, что способность строить последовательный контекст из текста, изображения и аудио часто упускается в существующих парадигмах обучения MLLM. Мы призываем к тому, чтобы будущие исследования сосредоточились на разработке более надежных техник интеграции три-модальности и стратегий обучения для улучшения производительности OLM по различным модальностям. Коды и актуальная таблица лидеров доступны по ссылке https://m-a-p.ai/OmniBench.
Качество открытых LLM моделей значительно улучшилось, однако они по-прежнему в основном сосредоточены на английском языке. В данной статье мы представляем проект EuroLLM, направленный на разработку набора открытых многоязычных LLM моделей, способных понимать и генерировать текст на всех официальных языках Европейского союза, а также на нескольких других значимых языках. Мы изложим прогресс, достигнутый на данный момент, детализируя процесс сбора и фильтрации данных, разработку законов масштабирования, создание нашего многоязычного токенизатора, а также конфигурации смешивания данных и моделирования. Кроме того, мы выпускаем наши первоначальные модели: EuroLLM-1.7B и EuroLLM-1.7B-Instruct и сообщаем о их производительности на многоязычных общих бенчмарках и машинном переводе.
Постоянное появление новых и более эффективных моделей генерации изображений увеличивает спрос на синтетические детекторы изображений. В такой динамичной области детекторы должны обладать широкой обобщающей способностью и устойчивостью к неконтролируемым изменениям. Настоящая работа мотивирована исследованием роли времени, преобразований изображений и источников данных для обобщения детектора. В ходе этих экспериментов ни один из оцененных детекторов не оказался универсальным, однако результаты указывают на то, что ансамбль может быть таковым. Эксперименты на данных, собранных в естественных условиях, показывают, что данная задача более сложна, чем та, которая определена крупномасштабными наборами данных, указывая на разрыв между экспериментами и реальной практикой. Наконец, мы наблюдаем эффект равновесия в гонке, где более эффективные генераторы приводят к улучшению детекторов, и наоборот. Мы предполагаем, что это толкает область к постоянной близкой гонке между генераторами и детекторами.
Большинство существующих методов мультимодальности используют отдельные основы для генерации дискретного текста на основе авторегрессии и непрерывной генерации визуальных данных на основе диффузии, или ту же основу путем дискретизации визуальных данных для использования авторегрессии как для текста, так и для визуальной генерации. В данной статье мы предлагаем изучить простую идею: использовать один трансформер как для авторегрессии, так и для диффузии. Возможность этого обусловлена двумя основными аспектами: (i) трансформер успешно применяется для диффузии визуальной генерации, и (ii) обучение трансформера для авторегрессии и диффузии очень похоже, и разница заключается лишь в том, что диффузия использует двунаправленную маску внимания, а авторегрессия - причинную маску внимания. Экспериментальные результаты показывают, что наш подход достигает сравнимой производительности генерации изображений с современными методами, а также сохраняет возможность генерации текста. Проект доступен по адресу https://monoformer.github.io/.
Маскированные модели трансформера для генерации изображений с условием класса стали привлекательной альтернативой моделям диффузии. Обычно они состоят из двух этапов: начальная модель VQGAN для перехода между латентным пространством и пространством изображений, а затем модель трансформера для генерации изображений внутри латентного пространства. Эти фреймворки предлагают многообещающие пути для синтеза изображений. В данном исследовании мы представляем два основных вклада: Во-первых, эмпирическое и систематическое изучение VQGAN, приводящее к современному VQGAN. Во-вторых, новая сеть генерации без вложений, работающая непосредственно с битовыми токенами - бинарным квантованным представлением токенов с богатой семантикой. Первый вклад предоставляет прозрачную, воспроизводимую и высокопроизводительную модель VQGAN, улучшая доступность и соответствуя производительности текущих передовых методов, раскрывая при этом ранее неизвестные детали. Второй вклад демонстрирует, что генерация изображений без вложений с использованием битовых токенов достигает нового рекорда FID в 1,52 на базе данных ImageNet 256x256, с компактной моделью генератора всего 305 миллионов параметров.
Человеческая зрительная система хорошо настроена на обнаружение лиц всех форм и размеров. Хотя это приносит очевидные выгоды для выживания, такие как лучший шанс обнаружить неизвестных хищников в кустах, это также приводит к ложным обнаружениям лиц. "Паредолия лица" описывает восприятие лицеподобной структуры среди в прочем случайных стимулов: увидеть лица в пятнах от кофе или облаках на небе. В данной статье мы изучаем паредолию лиц с точки зрения компьютерного зрения. Мы представляем набор данных изображений "Лица в предметах", состоящий из пяти тысяч веб-изображений с человеческими аннотациями паредолических лиц. Используя этот набор данных, мы исследуем, насколько современный детектор лиц демонстрирует паредолию и обнаруживаем значительный поведенческий разрыв между людьми и машинами. Мы находим, что эволюционная потребность человека в обнаружении лиц животных, а также человеческих лиц, может объяснить некоторые из этих различий. Наконец, мы предлагаем простую статистическую модель паредолии на изображениях. Проводя исследования на людях и наших детекторах паредолических лиц, мы подтверждаем ключевое предсказание нашей модели относительно того, какие условия изображения наиболее вероятно вызовут паредолию. Набор данных и веб-сайт: https://aka.ms/faces-in-things
Глубокое обучение для прогнозирования временных рядов продемонстрировало значительные достижения за последние десятилетия. Однако, несмотря на успех масштабного предварительного обучения в областях языка и зрения, предварительно обученные модели временных рядов остаются ограниченными по масштабу и работают с высокими затратами, затрудняя разработку более крупных и способных моделей прогнозирования в реальных приложениях. В ответ на это мы представляем Time-MoE, масштабируемую и объединенную архитектуру, разработанную для предварительного обучения более крупных и способных базовых моделей прогнозирования, снижая затраты на вывод. Используя разреженное конструктивное представление смеси экспертов (MoE), Time-MoE повышает вычислительную эффективность, активируя только подмножество сетей для каждого прогноза, снижая вычислительную нагрузку, сохраняя при этом высокую емкость модели. Это позволяет Time-MoE эффективно масштабироваться без соответствующего увеличения затрат на вывод. Time-MoE включает в себя семейство моделей трансформера только с декодером, работающих в авторегрессионном режиме и поддерживающих гибкие горизонты прогнозирования с различными длинами входного контекста. Мы предварительно обучили эти модели на наших вновь введенных данных большого масштаба Time-300B, охватывающих 9 областей и более 300 миллиардов временных точек. Впервые мы увеличили масштаб базовой модели временного ряда до 2,4 миллиарда параметров, достигнув значительного улучшения точности прогнозирования. Наши результаты подтверждают применимость законов масштабирования для обучения токенов и размера модели в контексте прогнозирования временных рядов. По сравнению с плотными моделями с тем же количеством активированных параметров или эквивалентными бюджетами вычислений, наши модели последовательно превосходят их с большим отрывом. Эти достижения позиционируют Time-MoE как передовое решение для решения вызовов прогнозирования временных рядов в реальном мире с превосходной способностью, эффективностью и гибкостью.
В данном техническом отчете мы документируем изменения, внесенные нами в SDXL в процессе обучения NovelAI Diffusion V3, нашей передовой модели генерации изображений аниме.
Как можно обобщить политики манипулирования роботов на новые задачи, включающие невидимые типы объектов и новые движения? В этой статье мы предлагаем решение в терминах предсказания информации о движении из веб-данных через генерацию видео с участием людей и условия политики робота на сгенерированном видео. Вместо попыток масштабировать сбор данных робота, что является дорогостоящим, мы показываем, как мы можем использовать модели генерации видео, обученные на легко доступных веб-данных, для обеспечения обобщения. Наш подход Gen2Act представляет манипулирование, условием которого является язык, как генерацию видео с участием людей без обучения на них, за которым следует выполнение с помощью единой политики, условием которой является сгенерированное видео. Для обучения политики мы используем порядок меньше данных взаимодействия с роботом по сравнению с тем, на чем была обучена модель предсказания видео. Gen2Act не требует настройки видео-модели вообще, и мы напрямую используем предварительно обученную модель для генерации видео с участием людей. Наши результаты на разнообразных сценариях реального мира показывают, как Gen2Act позволяет манипулировать невидимыми типами объектов и выполнять новые движения для задач, отсутствующих в данных робота. Видео доступны по ссылке https://homangab.github.io/gen2act/
В сравнении с большими языковыми моделями (LLM), большие модели видео-языка (LVLM) также могут принимать изображения в качестве входных данных, что позволяет проявить более интересные возможности и продемонстрировать впечатляющую производительность на различных задачах видео-языкового взаимодействия. Под влиянием текстового подсказывания в LLM, было исследовано визуальное подсказывание для улучшения способностей LVLM в восприятии визуальной информации. Однако предыдущие техники визуального подсказывания обрабатывали только визуальные входы, не учитывая текстовые запросы, что ограничивало способность моделей следовать текстовым инструкциям для выполнения задач. Для заполнения этого пробела в данной работе мы предлагаем новую технику подсказывания, названную "Внимание на изображении", которая просто наложит тепловую карту внимания, направляемую текстовым запросом, на исходное входное изображение и эффективно улучшит LVLM на различных задачах. Конкретно, мы генерируем тепловую карту внимания для входного изображения, зависящую от текстового запроса, с использованием вспомогательной модели, например, CLIP. Затем тепловая карта просто умножает значения пикселей исходного изображения для получения фактического входного изображения для LVLM. Обширные эксперименты на различных бенчмарках видео-языкового взаимодействия подтверждают эффективность нашей техники. Например, "Внимание на изображении" улучшает LLaVA-1.5 на 3.8% и 2.9% на бенчмарках MM-Vet и LLaVA-Wild соответственно.
По мере того как большие языковые модели (LLM) продолжают двигаться к более продвинутым формам искусственного интеллекта, обучение с подкреплением на основе обратной связи от человека (RLHF) все чаще рассматривается как ключевой путь к достижению искусственного общего интеллекта (AGI). Однако зависимость от методов выравнивания на основе модели вознаграждения (RM-based) вносит значительные вызовы из-за врожденной нестабильности и недостатков моделей вознаграждения (RMs), что может привести к критическим проблемам, таким как взлом вознаграждения и несоответствие человеческим намерениям. В данной статье мы представляем рамочное обучение с подкреплением, устойчивое к вознаграждениям, направленное на решение этих фундаментальных вызовов, что открывает путь к более надежному и устойчивому обучению в LLM. Наш подход вводит новую целевую оптимизацию, которая тщательно балансирует производительность и устойчивость, интегрируя байесовские ансамбли моделей вознаграждения (BRME) для моделирования набора неопределенности функций вознаграждения. Это позволяет рамочной системе интегрировать как номинальную производительность, так и сигналы минимального вознаграждения, обеспечивая более стабильное обучение даже с неполными моделями вознаграждения. Эмпирические результаты показывают, что наша рамочная система последовательно превосходит традиционное обучение с подкреплением на основе обратной связи от человека на различных бенчмарках, демонстрируя улучшенную точность и долгосрочную стабильность. Мы также предоставляем теоретический анализ, демонстрируя, что устойчивое к вознаграждениям обучение с подкреплением приближается к стабильности настройки постоянного вознаграждения, что оказывается эффективным в анализе стохастических случаев. Вместе эти вклады подчеркивают потенциал рамочной системы для улучшения как производительности, так и стабильности выравнивания LLM с обучением с подкреплением на основе обратной связи от человека.
Традиционные подходы к распознаванию именованных сущностей (NER) формулируют задачу как проблему разметки последовательности BIO. Хотя эти системы часто проявляют себя отлично в конечной задаче, они требуют обширных размеченных данных и испытывают затруднения с обобщением на входные области вне распределения и невидимые типы сущностей. В отличие от этого, большие языковые модели (LLM) продемонстрировали сильные возможности нулевого обучения. Хотя несколько работ затрагивают нулевое обучение NER на английском языке, мало что было сделано на других языках. В данной статье мы определяем критерии оценки для нулевого обучения NER, применяя их к итальянскому языку. Кроме того, мы представляем SLIMER-IT, итальянскую версию SLIMER, подход к настройке инструкций для нулевого обучения NER, используя запросы, обогащенные определениями и руководствами. Сравнения с другими современными моделями демонстрируют превосходство SLIMER-IT на никогда ранее не встречавшихся тегах сущностей.
Модели вознаграждения (RMs) играют ключевую роль в выравнивании больших языковых моделей (LLMs) с предпочтениями людей. Однако традиционное обучение RM, основанное на ответных парах, связанных с конкретными подсказками, испытывает затруднения в разделении предпочтений, зависящих от подсказок, от независимых от подсказок артефактов, таких как длина и формат ответа. В данной работе мы выявляем фундаментальное ограничение текущих методов обучения RM, где RM неэффективно различает контекстные сигналы и нежелательные артефакты при определении предпочтений. Для решения этой проблемы мы представляем причинную структуру, которая изучает предпочтения независимо от этих артефактов, и предлагаем новую технику аугментации данных, разработанную для их устранения. Обширные эксперименты показывают, что наш подход успешно фильтрует нежелательные артефакты, обеспечивая более надежную модель вознаграждения (RRM). Наша RRM улучшает производительность парной модели вознаграждения, обученной на Gemma-2-9b-it, на платформе RewardBench, увеличивая точность с 80.61% до 84.15%. Кроме того, мы обучаем две политики DPO, используя как RM, так и RRM, демонстрируя, что RRM значительно улучшает выровненные по DPO политики, увеличивая оценки MT-Bench с 7.27 до 8.31 и долю побед при контроле длины в AlpacaEval-2 с 33.46% до 52.49%.
Обучение имитации доказало свою мощь как инструмент для обучения сложных визуомоторных политик. Однако текущие методы часто требуют сотен или тысяч экспертных демонстраций для работы с высокоразмерными визуальными наблюдениями. Одной из основных причин этой низкой эффективности данных является то, что визуальные представления в основном либо предварительно обучены на данных вне домена, либо обучены непосредственно через цель клонирования поведения. В данной работе мы представляем DynaMo, новый метод внутридоменного, самонадзорного обучения визуальным представлениям. Учитывая набор экспертных демонстраций, мы совместно обучаем модель обратной динамики и модель прямой динамики над последовательностью вложений изображений, предсказывая следующий кадр в скрытом пространстве, без аугментаций, контрастной выборки или доступа к действиям истинного значения. Важно отметить, что DynaMo не требует данных вне домена, таких как интернет-наборы данных или наборы данных с кросс-телами. На наборе из шести симулированных и реальных сред мы показываем, что представления, изученные с помощью DynaMo, значительно улучшают производительность последующего обучения имитации по сравнению с предыдущими самонадзорными целями обучения и предварительно обученными представлениями. Выгоды от использования DynaMo сохраняются для классов политик, таких как Behavior Transformer, Diffusion Policy, MLP и ближайшие соседи. Наконец, мы проводим абляцию по ключевым компонентам DynaMo и измеряем его влияние на производительность последующей политики. Видеоролики с роботами лучше смотреть на https://dynamo-ssl.github.io
Генерация синтетических табличных данных имеет важное значение в машинном обучении, особенно когда реальных данных ограничено или они являются конфиденциальными. Традиционные генеративные модели часто сталкиваются с проблемами из-за уникальных характеристик табличных данных, таких как смешанные типы данных и разнообразные распределения, и требуют сложной предварительной обработки или больших предварительно обученных моделей. В данной статье мы представляем новый метод бинарного преобразования без потерь, который преобразует любые табличные данные в бинарные представления фиксированного размера, а также соответствующую новую генеративную модель под названием Binary Diffusion, специально разработанную для бинарных данных. Binary Diffusion использует простоту операций XOR для добавления и удаления шума, а также применяет бинарную кросс-энтропийную функцию потерь для обучения. Наш подход устраняет необходимость в обширной предварительной обработке, сложной настройке параметров шума и предварительном обучении на больших наборах данных. Мы оцениваем нашу модель на нескольких популярных наборах данных для тестирования табличных данных, демонстрируя, что Binary Diffusion превосходит существующие передовые модели на наборах данных Travel, Adult Income и Diabetes, при этом имея значительно меньший размер.