Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Transfusion, рецепт для обучения мультимодельной модели на дискретных и непрерывных данных. Transfusion объединяет функцию потерь моделирования языка (предсказание следующего токена) с диффузией для обучения одного трансформера на смешанных последовательностях модальностей. Мы предварительно обучаем несколько моделей Transfusion до 7 миллиардов параметров с нуля на смеси текстовых и изображений, устанавливая законы масштабирования относительно различных уни- и кросс-модальных бенчмарков. Наши эксперименты показывают, что Transfusion значительно лучше масштабируется, чем квантование изображений и обучение языковой модели на дискретных изображенных токенах. Введя модальностно-специфические слои кодирования и декодирования, мы можем дополнительно улучшить производительность моделей Transfusion и даже сжать каждое изображение всего до 16 патчей. Мы также демонстрируем, что масштабирование нашего рецепта Transfusion до 7 миллиардов параметров и 2 триллионов мультимодальных токенов производит модель, способную генерировать изображения и текст на уровне с аналогичными моделями диффузии и языка масштаба, получая преимущества обоих миров.
Недавние достижения в области больших языковых моделей (LLM) значительно улучшили интерпретацию и обработку табличных данных, вводя ранее невообразимые возможности. Несмотря на эти достижения, LLM по-прежнему сталкиваются с значительными проблемами при применении в промышленных сценариях, особенно из-за увеличенной сложности рассуждений, необходимых для работы с реальными табличными данными, подчеркивая значительное расхождение между академическими бенчмарками и практическими применениями. Для решения этого расхождения мы проводим детальное исследование применения табличных данных в промышленных сценариях и предлагаем комплексный и сложный бенчмарк TableBench, включающий 18 полей в четырех основных категориях возможностей ответов на вопросы о таблицах (TableQA). Кроме того, мы представляем TableLLM, обученную на нашем тщательно составленном обучающем наборе TableInstruct, достигающую сравнимой производительности с GPT-3.5. Масштабные эксперименты, проведенные на TableBench, показывают, что как открытые, так и закрытые LLM по-прежнему имеют значительный потенциал для улучшения, чтобы удовлетворить требования реального мира, где самая передовая модель, GPT-4, достигает лишь скромного показателя по сравнению с людьми.
Включение кода в смесь данных для предварительного обучения, даже для моделей, не специально предназначенных для работы с кодом, стало общей практикой в предварительном обучении языковых моделей с ограниченной памятью. Хотя среди практиков существует мнение о том, что данные с кодом играют важную роль в общей производительности языковых моделей с ограниченной памятью, существует лишь ограниченное количество работ, анализирующих точное влияние кода на задачи, не связанные с кодом. В данной работе мы систематически исследуем влияние данных с кодом на общую производительность. Мы задаем вопрос: "каково влияние данных с кодом, используемых в предварительном обучении, на широкий спектр последующих задач, не связанных с генерацией кода". Мы проводим обширные абляции и оцениваем на широком спектре задач по рассуждению на естественном языке, задачам на основе мировых знаний, бенчмаркам по коду и показателям побед для языковых моделей с размерами параметров от 470 миллионов до 2,8 миллиарда. В различных настройках мы приходим к однозначному выводу, что код является критическим строительным блоком для обобщения далеко за пределы задач, связанных с кодированием, и улучшения качества кода имеют значительное влияние на все задачи. В частности, по сравнению с предварительным обучением только на тексте, добавление кода приводит к относительному увеличению до 8,2% в рассуждениях на естественном языке, 4,2% в мировых знаниях, улучшению показателей генерации на 6,6% и в 12 раз большему ускорению производительности кода соответственно. Наша работа предполагает, что инвестиции в качество кода и сохранение кода во время предварительного обучения оказывают положительное воздействие.
Мы предлагаем сортировку представлений патчей между видами как новый сигнал обучения без учителя для улучшения предварительно обученных представлений. Для этого мы представляем NeCo: Согласованность соседних патчей, новую функцию потерь обучения, которая обеспечивает согласованность ближайших соседей на уровне патчей между моделью ученика и учителя, относительно эталонных пакетов. Наш метод использует дифференцируемый метод сортировки, применяемый поверх предварительно обученных представлений, таких как DINOv2-регистры, для инициации сигнала обучения и их дальнейшего улучшения. Это плотное послеобучение приводит к превосходным результатам на различных моделях и наборах данных, несмотря на то, что требуется всего 19 часов на одном графическом процессоре. Мы демонстрируем, что этот метод генерирует высококачественные плотные кодировщики признаков и устанавливаем несколько новых результатов, превосходящих все существующие: +5.5% и +6% для непараметрической семантической сегментации в контексте на ADE20k и Pascal VOC, и +7.2% и +5.7% для линейной сегментации на COCO-Things и -Stuff.
Большие языковые модели (LLM) стали более распространенными в приложениях с длинным контекстом, таких как интерактивные чат-боты, анализ документов и рабочие процессы агентов, однако обслуживание запросов с длинным контекстом с низкой задержкой и высокой пропускной способностью представляет определенные трудности. Спекулятивное декодирование (SD) является широко используемой техникой для снижения задержки без ущерба производительности, но общепринятое мнение подразумевает, что его эффективность ограничена малыми размерами пакетов. В MagicDec мы показываем, что удивительным образом SD может обеспечить ускорение даже для режима вывода с высокой пропускной способностью для умеренных и длинных последовательностей. Более интересно то, что интеллектуальная стратегия чернового создания может обеспечить более высокую скорость при увеличении размера пакета на основе нашего строгого анализа. MagicDec сначала определяет сдвиги узких мест при увеличении размера пакета и длины последовательности, и использует эти знания для более эффективного применения спекулятивного декодирования для вывода с высокой пропускной способностью. Затем он использует черновые модели с разреженным кэшем KV для решения проблемы узкого места KV, которое масштабируется как с длиной последовательности, так и с размером пакета.
Модели диффузии выделяются среди лидеров в генерации текста в изображение благодаря их впечатляющим возможностям. Тем не менее, фиксированное разрешение изображения во время обучения часто приводит к вызовам в генерации изображений высокого разрешения, таким как семантические неточности и дублирование объектов. В данной статье представлен MegaFusion, новый подход, который расширяет существующие модели генерации текста в изображение на основе диффузии для эффективной генерации изображений более высокого разрешения без дополнительной настройки или дополнительной адаптации. Конкретно, мы используем инновационную стратегию обрезки и ретрансляции для объединения процессов денойзинга на разных разрешениях, что позволяет генерировать изображения высокого разрешения методом от грубого к точному. Более того, интегрируя дилатированные свертки и перепланировку шума, мы дополнительно адаптируем априорные знания модели для более высокого разрешения. Универсальность и эффективность MegaFusion позволяют его универсальное применение как к моделям диффузии в латентном пространстве, так и в пространстве пикселей, а также к другим производным моделям. Обширные эксперименты подтверждают, что MegaFusion значительно увеличивает возможности существующих моделей в производстве изображений мегапиксельного разрешения и различных соотношений сторон, требуя только около 40% от первоначальной вычислительной стоимости.
В современной эпохе, когда большие языковые модели (LLM) интегрируются во множество прикладных приложений, обеспечение их безопасности и устойчивости является ключевым для ответственного использования искусственного интеллекта. Автоматизированные методы красной команды играют важную роль в этом процессе, генерируя атаки-адверсарии для выявления и устранения потенциальных уязвимостей в этих моделях. Однако существующие методы часто сталкиваются с низкой производительностью, ограниченным категориальным разнообразием и высокими требованиями к ресурсам. В то время как "Радужная Команда", недавний подход, решает проблему разнообразия, представляя генерацию атакующего запроса как поиск качества-разнообразия, он остается медленным и требует большого тонкой настройки мутатора для оптимальной производительности. Для преодоления этих ограничений мы предлагаем "Хорька", новый подход, который основан на "Радужной Команде", генерируя несколько мутаций атакующего запроса за итерацию и используя функцию оценки для ранжирования и выбора наиболее эффективного атакующего запроса. Мы исследуем различные функции оценки, включая модели вознаграждения, "Лама-Страж" и LLM-как-судью, для ранжирования атакующих мутаций на основе их потенциального вреда для улучшения эффективности поиска вредных мутаций. Наши результаты показывают, что "Хорек", используя модель вознаграждения в качестве функции оценки, повышает общий уровень успешности атак (ASR) до 95%, что на 46% выше, чем у "Радужной Команды". Кроме того, "Хорек" сокращает время, необходимое для достижения 90% ASR на 15,2% по сравнению с базовым уровнем и генерирует атакующие запросы, которые могут быть переданы, то есть эффективны на других LLM большего размера. Наш код доступен по адресу https://github.com/declare-lab/ferret.
"Монтаж совпадения" - это распространенная техника видеомонтажа, при которой пара кадров с похожей композицией плавно переходит друг в друга. Хотя монтажи совпадения чаще визуальные, определенные монтажи включают плавный переход звука, когда звуки из разных источников сливаются в один неразличимый переход между двумя кадрами. В данной статье мы исследуем возможность автоматического обнаружения и создания "аудио монтажей совпадения" в видео и фильмах. Мы создаем самонаблюдаемое аудио представление для аудио монтажа совпадения и разрабатываем грубо-детальный аудио монтажный конвейер, который рекомендует соответствующие кадры и создает смешанное аудио. Мы также аннотируем набор данных для предложенной задачи аудио монтажа совпадения и сравниваем способность нескольких аудио представлений находить кандидатов для аудио монтажа совпадения. Наконец, мы оцениваем несколько методов смешивания двух соответствующих аудио кандидатов с целью создания плавного перехода. Страница проекта и примеры доступны по адресу: https://denfed.github.io/audiomatchcut/
Модели на основе трансформеров (LLM) обнаруживают ограничения, такие как генерация небезопасных ответов, ненадежное рассуждение и т. д. Существующие подходы к вмешательству в вывод пытаются смягчить эти проблемы, донастраивая дополнительные модели для создания калибровочных сигналов (например, вознаграждений), которые направляют процесс декодирования LLM. Однако данное решение вносит существенные временные и пространственные накладные из-за необходимости отдельных моделей. В данной работе предлагается метод вставки недеструктивных параметров (Otter), вставляющий дополнительные параметры в архитектуру трансформера для предсказания калибровочных сигналов наряду с исходным выводом LLM. Otter обеспечивает передовые показатели на нескольких сложных задачах, при этом экономя до 86.5\% дополнительного пространства и 98.5\% дополнительного времени. Более того, Otter легко интегрируется с существующими механизмами вывода, требуя лишь изменения одной строки кода, и исходный ответ модели остаётся доступным после вставки параметров. Наш код общедоступен по адресу https://github.com/chenhan97/Otter
Быстрое развитие систем генерации текста в изображения, проиллюстрированное моделями, такими как Stable Diffusion, Midjourney, Imagen и DALL-E, вызвало опасения относительно их потенциального злоупотребления. В ответ на это компании, такие как Meta и Google, усилили усилия по внедрению техник водяных знаков на изображения, созданные искусственным интеллектом, чтобы пресечь распространение потенциально вводящих в заблуждение визуальных материалов. Однако в данной статье мы утверждаем, что текущие методы водяных знаков на изображениях хрупки и подвержены обходу через атаки визуального перефразирования. Предложенный визуальный перефразер работает в два этапа. Сначала он генерирует подпись для данного изображения с использованием KOSMOS-2, одной из последних передовых систем подписывания изображений. Затем он передает как оригинальное изображение, так и сгенерированную подпись в систему диффузии изображения в изображение. Во время этапа удаления шума в трубопроводе диффузии система генерирует визуально похожее изображение, которое направляется текстовой подписью. Полученное изображение является визуальным перефразом и не содержит никаких водяных знаков. Наши эмпирические результаты демонстрируют, что атаки визуального перефразирования могут эффективно удалять водяные знаки с изображений. В данной статье предоставляется критическая оценка, эмпирически раскрывающая уязвимость существующих техник водяных знаков к атакам визуального перефразирования. Хотя мы не предлагаем решений этой проблемы, данная статья служит призывом к действию для научного сообщества с приоритетом на разработку более надежных техник водяных знаков. Наш набор данных визуального перефраза первого вида и сопутствующий код доступны публично.
Специализированный язык и сложные концепции в физике представляют существенные вызовы для извлечения информации с помощью обработки естественного языка (Natural Language Processing, NLP). Ключевым элементом эффективных приложений NLP является модель вложения текста, которая преобразует текст в плотные векторные представления для эффективного извлечения информации и семантического анализа. В данной работе мы представляем PhysBERT, первую физику-специфичную модель вложения текста. Обученная на отобранном корпусе из 1,2 миллиона физических статей arXiv и донастроенная на размеченных данных, PhysBERT превосходит ведущие универсальные модели на физику-специфичных задачах, включая эффективность донастройки для конкретных поддоменов физики.
Визуальное отслеживание на основе камеры событий привлекло все больше внимания в последние годы благодаря уникальному принципу изображения и преимуществам низкого энергопотребления, высокому динамическому диапазону и плотному временному разрешению. Нынешние алгоритмы визуального отслеживания на основе событий постепенно достигают своих производительностных узких мест из-за использования видеотрансформера и статического шаблона для локализации целевого объекта. В данной статье мы предлагаем новую концепцию визуального отслеживания на основе Mamba, которая принимает модель пространства состояний с линейной сложностью в качестве основной сети. Области поиска и целевой шаблон подаются на вход визионной сети Mamba для одновременного извлечения признаков и взаимодействия. Выходные токены областей поиска подаются на голову отслеживания для локализации цели. Более того, мы рассматриваем введение стратегии динамического обновления шаблона в отслеживающую структуру с использованием сети Memory Mamba. Учитывая разнообразие образцов в библиотеке целевых шаблонов и внося соответствующие корректировки в модуль памяти шаблона, можно интегрировать более эффективный динамический шаблон. Эффективное сочетание динамических и статических шаблонов позволяет нашему алгоритму отслеживания на основе Mamba достигнуть хорошего баланса между точностью и вычислительной стоимостью на нескольких крупномасштабных наборах данных, включая EventVOT, VisEvent и FE240hz. Исходный код будет опубликован на https://github.com/Event-AHU/MambaEVT.
Долгое время целью исследований было наделить роботов руками с декстритетом на уровне человека. Игра на пианино бимануальным роботом представляет собой задачу, которая объединяет вызовы динамических задач, таких как генерация быстрых и точных движений, с медленными, но богатыми контактами проблемами манипуляции. Хотя подходы на основе обучения с подкреплением показали многообещающие результаты в выполнении однотипных задач, эти методы испытывают трудности в многопесенном сценарии. Наша работа направлена на заполнение этого разрыва и, таким образом, обеспечение подходов к обучению имитации для игры на пианино роботом в масштабе. Для этого мы представляем набор данных Robot Piano 1 Million (RP1M), содержащий данные о движениях бимануального робота, играющего на пианино, более чем один миллион траекторий. Мы формулируем размещение пальцев как задачу оптимальной транспортировки, тем самым обеспечивая автоматическую аннотацию огромного количества не помеченных песен. Проведение сравнительного анализа существующих подходов к обучению имитации показывает, что такие подходы достигают современного уровня производительности робота при игре на пианино, используя RP1M.
3D Гауссово сглаживание (3DGS) стал фактическим методом представления 3D во многих задачах компьютерного зрения. Это требует прямого понимания 3D в этом пространстве представления. Для облегчения исследований в этом направлении мы сначала создаем крупномасштабный набор данных 3DGS, используя широко используемые наборы данных ShapeNet и ModelNet. Наш набор данных ShapeSplat состоит из 65 тыс. объектов из 87 уникальных категорий, метки которых соответствуют соответствующим наборам данных. Создание этого набора данных потребовало вычислительного эквивалента 2 года на GPU TITAN XP. Мы используем наш набор данных для ненадзорного предварительного обучения и надзорного дообучения для задач классификации и сегментации. Для этого мы представляем \textit{Gaussian-MAE}, который выделяет уникальные преимущества обучения представлений на основе параметров Гаусса. Через исчерпывающие эксперименты мы предоставляем несколько ценных идей. В частности, мы показываем, что (1) распределение оптимизированных центроидов GS значительно отличается от равномерно выбранной облака точек (используемой для инициализации); (2) это изменение распределения приводит к ухудшению классификации, но улучшению задач сегментации при использовании только центроидов; (3) для использования дополнительных параметров Гаусса мы предлагаем группировку признаков Гаусса в нормализованном пространстве признаков, вместе с слоем пула сглаживания, предлагая индивидуальное решение для эффективной группировки и встраивания похожих Гауссов, что приводит к значительному улучшению в задачах дообучения.
Городская мобильность и транспортные системы были глубоко преобразованы благодаря развитию технологий автономных транспортных средств. Baidu Apollo Go, первооткрывательский роботакси-сервис китайского технологического гиганта Baidu, недавно был широко внедрен в крупных городах, таких как Пекин и Ухань, вызвав увеличенный интерес и предоставив представление о будущем городской мобильности. Это исследование изучает общественное отношение к Apollo Go по всей Китае с использованием анализа тональности с гибридной моделью BERT на 36 096 постах в Weibo с января по июль 2024 года. Анализ показывает, что 89,56% постов, связанных с Apollo Go, сосредоточены в июле. С января по июль общественное мнение в основном было положительным, но после того, как это стало горячей темой 21 июля, начало возрастать количество негативных комментариев. Пространственный анализ показывает сильную корреляцию между провинциями с высокой интенсивностью обсуждения и теми, где действует Apollo Go. Изначально Хубэй и Гуандун доминировали в объеме онлайн-постинга, но к июлю Гуандун, Пекин и международные регионы опередили Хубэй. Отношение значительно различалось среди провинций, где Синьцзян и Цинхай выражали оптимизм, а Тибет и Ганьсу высказывали опасения относительно влияния на традиционные такси. Анализ тональности показал, что положительные комментарии сосредотачивались на технологических применениях и личных опытах, в то время как негативные комментарии касались угрозы потери рабочих мест и вопросов безопасности. В заключение, данное исследование подчеркивает расхождение в общественном восприятии автономных сервисов по вызову транспорта, предоставляя ценные идеи для планировщиков, законодателей и поставщиков услуг. Модель опубликована на Hugging Face по адресу https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao, а репозиторий на GitHub по адресу https://github.com/GIStudio/trb2024.