Ежедневно отобранные исследовательские статьи по ИИ с переводами
Представляем InternLM-XComposer-2.5 (IXC-2.5), универсальную модель языка большого объема, которая поддерживает ввод и вывод с длинным контекстом. IXC-2.5 отлично справляется с различными приложениями по пониманию и созданию текста и изображений, достигая уровня возможностей GPT-4V с всего лишь 7 млрд. параметров LLM. Обученная на 24 тыс. чередующихся контекстах изображений и текста, она может без проблем расшириться до 96 тыс. длинных контекстов с помощью экстраполяции RoPE. Эта возможность работы с длинным контекстом позволяет IXC-2.5 выделяться в задачах, требующих обширного ввода и вывода контекста. По сравнению с предыдущей версией 2.0, InternLM-XComposer-2.5 имеет три основных улучшения в понимании языка и зрения: (1) Понимание с ультравысоким разрешением, (2) Тонкое понимание видео и (3) Диалог с многократными поворотами и множеством изображений. Помимо понимания, IXC-2.5 расширяется до двух увлекательных приложений с использованием дополнительных параметров LoRA для создания текста и изображений: (1) Создание веб-страниц и (2) Создание статей высокого качества с текстом и изображениями. IXC-2.5 была оценена на 28 показателях, превосходя существующие модели с открытым исходным кодом на 16 показателях. Она также превосходит или тесно конкурирует с GPT-4V и Gemini Pro на 16 ключевых задачах. InternLM-XComposer-2.5 доступна публично по адресу https://github.com/InternLM/InternLM-XComposer.
Бенчмарки, которые тесно отражают сценарии применения на практике, являются необходимыми для более эффективного внедрения новых исследований в области машинного обучения на табличных данных (ML). В данной работе мы изучаем существующие табличные бенчмарки и обнаруживаем две общие характеристики табличных данных высокого уровня, которые недостаточно представлены в наборах данных, доступных академическому сообществу. Во-первых, табличные данные часто изменяются со временем в реальных сценариях применения. Это влияет на производительность модели и требует временного разделения данных на обучающую и тестовую выборки для корректной оценки модели. Тем не менее, существующим академическим табличным наборам данных часто не хватает метаданных временных меток для такой оценки. Во-вторых, значительная часть наборов данных в производственных средах происходит из обширных процессов сбора данных и создания признаков. Для каждого конкретного набора данных это может оказать разное влияние на абсолютное и относительное количество предиктивных, неинформативных и коррелированных признаков, что в свою очередь может повлиять на выбор модели. Для заполнения упомянутых пробелов в академических бенчмарках мы представляем TabReD - коллекцию восьми табличных наборов данных высокого уровня, охватывающих широкий спектр областей от финансов до услуг доставки еды. Мы оцениваем большое количество моделей машинного обучения на табличных данных в условиях данных с богатым набором признаков и изменяющимися со временем, предоставленных TabReD. Мы демонстрируем, что оценка на временных разделениях данных приводит к различным методам ранжирования по сравнению с оценкой на случайных разделениях, более распространенных в академических бенчмарках. Более того, на наборах данных TabReD архитектуры типа MLP и GBDT показывают лучшие результаты, в то время как более сложные модели глубокого обучения еще не доказали свою эффективность.
Метод руководства без классификатора (CFG) стал стандартным способом улучшения качества условных моделей диффузии. Однако применение CFG требует либо обучения безусловной модели наряду с основной моделью диффузии, либо модификации процедуры обучения путем периодического вставления нулевого условия. Кроме того, не существует четкого расширения CFG на безусловные модели. В данной статье мы пересматриваем основные принципы CFG и представляем новый метод, независимое руководство условием (ICG), который обеспечивает преимущества CFG без необходимости особых процедур обучения. Наш подход оптимизирует процесс обучения условных моделей диффузии и может также применяться во время вывода на любой предварительно обученной условной модели. Кроме того, используя информацию о временных шагах, закодированную во всех сетях диффузии, мы предлагаем расширение CFG, называемое руководство временным шагом (TSG), которое может быть применено к любой модели диффузии, включая безусловные. Наши методики руководства легко реализовать и имеют ту же стоимость выборки, что и CFG. Через обширные эксперименты мы демонстрируем, что ICG соответствует производительности стандартного CFG на различных условных моделях диффузии. Более того, мы показываем, что TSG улучшает качество генерации аналогично CFG, не полагаясь на какую-либо условную информацию.
Визуальный проектор служит важным мостом между визуальным кодером и Большой Языковой Моделью (LLM) в Мультимодальной LLM (MLLM). Обычно MLLM использует простую MLP для сохранения всех визуальных контекстов через однозначное преобразование. Однако визуальные токены избыточны и могут значительно увеличиваться при работе с изображениями высокого разрешения, существенно снижая эффективность MLLM. Некоторые недавние работы ввели ресэмплер или абстрактор для уменьшения количества полученных визуальных токенов. К сожалению, они не улавливают более мелкие детали и подрывают возможности визуального рассуждения MLLM. В данной работе мы предлагаем новый визуальный проектор, который использует схему от грубого к тонкому для внедрения обогащенных характеристик для создания сжатых визуальных токенов. Конкретно, мы сначала интерполируем визуальные особенности как запрос точки низкого разрешения, обеспечивая общее визуальное представление как основу. Затем мы вводим модуль внедрения региона в точку, который использует высокоразрешенные, многоуровневые регионные подсказки в качестве ключей и значений для fein-гранулированной ссылки, позволяя им полностью впитываться в соответствующем локальном контексте региона. Этот шаг эффективно обновляет грубый запрос точки, превращая его в обогащенный для последующего рассуждения LLM. Обширные эксперименты показывают, что наш подход сжимает визуальные токены на 75%~89%, при этом достигая сравнимой или даже лучшей производительности на различных бенчмарках с значительно более высокой эффективностью. Исходный код можно найти по адресу https://github.com/CircleRadon/TokenPacker.
В последнее время задачи генерации звука привлекли значительный интерес исследователей. Точное управление временем является важным аспектом интеграции генерации звука с реальными приложениями. В данной работе мы предлагаем фреймворк генерации звука с контролем времени, PicoAudio. PicoAudio интегрирует временную информацию для направления генерации звука через специально разработанные модели. Он использует сбор данных, их сегментацию, фильтрацию и моделирование детализированных временно-выровненных аудио-текстовых данных. Как субъективные, так и объективные оценки показывают, что PicoAudio значительно превосходит текущие передовые модели генерации по контролю временных меток и частоте появления. Сгенерированные образцы доступны на демонстрационном веб-сайте https://PicoAudio.github.io.
Модели диффузии (DM) революционизировали генеративное обучение. Они используют диффузионный процесс для кодирования данных в простое гауссовское распределение. Однако кодирование сложного, потенциально мультимодального распределения данных в одно непрерывное гауссовское распределение, пожалуй, представляет собой излишне сложную задачу обучения. Мы предлагаем модели диффузии с дискретно-непрерывными скрытыми переменными (DisCo-Diff), чтобы упростить эту задачу путем введения дополнительных дискретных скрытых переменных. Мы дополняем DM обучаемыми дискретными скрытыми переменными, которые выводятся с помощью кодировщика, и обучаем DM и кодировщик совместно. DisCo-Diff не зависит от предварительно обученных сетей, что делает эту структуру универсально применимой. Дискретные скрытые переменные значительно упрощают обучение сложного отображения шума в данные DM путем уменьшения кривизны генеративного ОДУ DM. Дополнительный авторегрессионный трансформер моделирует распределение дискретных скрытых переменных, что является простым шагом, поскольку DisCo-Diff требует лишь нескольких дискретных переменных с небольшими кодовыми книгами. Мы проверяем DisCo-Diff на игрушечных данных, нескольких задачах синтеза изображений, а также молекулярном докинге и обнаруживаем, что введение дискретных скрытых переменных последовательно улучшает производительность модели. Например, DisCo-Diff достигает передовых показателей FID на класс-условных наборах данных ImageNet-64/128 с выборкой ОДУ.
Большие языковые модели (LLM), известные своими исключительными способностями к рассуждениям, обобщению и беглости в различных областях, представляют собой многообещающее направление для улучшения задач, связанных со звуком. В данной статье мы сосредотачиваемся на интеграции моделей LLM только с декодером в задачу перевода речи в текст (S2TT). Мы предлагаем архитектуру только с декодером, которая позволяет LLM напрямую использовать закодированное представление речи и генерировать текстовый перевод. Кроме того, мы исследуем эффекты различных техник эффективной настройки параметров и формулировки задачи. Наша модель достигает передового уровня производительности на CoVoST 2 и FLEURS среди моделей, обученных без собственных данных. Мы также проводим анализ для подтверждения выбора дизайна нашей предложенной модели и приносим идеи по интеграции LLM в S2TT.
Большие языковые модели (LLM) уязвимы для методов взлома, направленных на вызов вредных или в общем недопустимых результатов. Безопасностные меры разрабатываются и оцениваются по их эффективности в защите от атак взлома, что указывает на убеждение в том, что безопасность эквивалентна устойчивости. Мы утверждаем, что текущие механизмы защиты, такие как фильтры вывода и точная настройка выравнивания, фундаментально недостаточны для обеспечения безопасности модели. Эти защиты не уделяют внимание рискам, возникающим из двойных намерений запросов и возможности комбинировать безобидные результаты для достижения вредных целей. Для устранения этого критического пробела мы представляем информационно-теоретическую модель угроз, называемую выводящими адверсарами, которые используют недопустимые утечки информации из результатов модели для достижения злонамеренных целей. Мы различаем их от обычно изучаемых адверсаров безопасности, которые стремятся лишь заставить жертвенные модели генерировать определенные недопустимые результаты. Мы демонстрируем возможность автоматизации выводящих адверсаров через декомпозицию вопросов и агрегацию ответов. Для обеспечения гарантий безопасности мы определяем критерий цензуры информации для механизмов цензуры, ограничивая утечку недопустимой информации. Мы предлагаем механизм защиты, который обеспечивает это ограничение, и раскрываем внутренний компромисс между безопасностью и полезностью. Наша работа предоставляет первое теоретически обоснованное понимание требований к выпуску безопасных LLM и связанные с этим затраты на полезность.
Позиционный биас доказал себя как распространенная проблема современных языковых моделей (LM), где модели приоритизируют контент на основе его позиции в заданном контексте. Этот биас часто приводит к неожиданным сбоям модели и ухудшает производительность, устойчивость и надежность в различных приложениях. Наш механистический анализ относит позиционный биас к двум компонентам, используемым практически во всех современных LM: причинное внимание и относительные позиционные кодирования. В частности, мы обнаружили, что причинное внимание обычно заставляет модели предпочитать отдаленный контент, в то время как относительные позиционные кодирования, такие как RoPE, предпочитают близкие на основе анализа вопросно-ответных систем с увеличенным поиском (QA). Кроме того, наше эмпирическое исследование по обнаружению объектов показывает, что позиционный биас также присутствует в моделях видео-языка (VLM). Исходя из вышеизложенного анализа, мы предлагаем ИСКЛЮЧИТЬ позиционный биас, вызванный различными порядками вводимых сегментов (например, вариантов в LM-как-судья, извлеченных документов в QA), в РЕЖИМЕ ОБУЧЕНИЯ БЕЗ ОБРАЗЦОВ. Наш метод изменяет причинное внимание на двунаправленное внимание между сегментами и использует значения внимания модели для определения относительных порядков сегментов вместо использования порядка, предоставленного во входных подсказках, что позволяет достичь Инференции, Инвариантной к Позиции (PINE) на уровне сегмента. Избавляясь от позиционного биаса, модели достигают лучшей производительности и надежности в последующих задачах, где широко распространен позиционный биас, таких как LM-как-судья и вопросно-ответные системы с увеличенным поиском. Следует отметить, что PINE особенно полезен при адаптации LM для оценки пар рассуждений: он последовательно обеспечивает прирост производительности на 8-10 процентных пунктов в большинстве случаев и делает Llama-3-70B-Instruct даже лучше, чем GPT-4-0125-preview на подмножестве рассуждений RewardBench.