Ежедневно отобранные исследовательские статьи по ИИ с переводами
Существующие модели видео-языка (VLMs) в основном полагаются на визуальные кодировщики для извлечения визуальных признаков, за которыми следуют большие языковые модели (LLMs) для задач видео-языка. Однако визуальные кодировщики устанавливают сильное индуктивное смещение в абстрагировании визуального представления, например, разрешение, соотношение сторон и семантические априори, что может затруднить гибкость и эффективность VLMs. Обучение чистых VLMs, которые принимают непрерывные входы видео и языка, т.е. без визуальных кодировщиков, остается сложным и редко исследуемым. Эмпирические наблюдения показывают, что прямое обучение без кодировщиков приводит к медленной сходимости и большим разрывам в производительности. В данной работе мы сокращаем разрыв между моделями на основе кодировщиков и моделями без кодировщиков, и представляем простой, но эффективный метод обучения для чистых VLMs. В частности, мы раскрываем ключевые аспекты эффективного обучения VLMs без кодировщиков через тщательные эксперименты: (1) Связывание представления видео-языка внутри одного объединенного декодера; (2) Улучшение возможностей визуального распознавания с помощью дополнительного наблюдения. С помощью этих стратегий мы запускаем EVE, модель видео-языка без кодировщика, которую можно обучать и применять эффективно. Следует отметить, что, используя только 35M публично доступных данных, EVE впечатляюще конкурирует с моделями на основе кодировщиков аналогичной мощности по нескольким бенчмаркам видео-языка. Она значительно превосходит аналог Fuyu-8B с таинственными процедурами обучения и неопубликованными данными обучения. Мы считаем, что EVE предоставляет прозрачный и эффективный путь для разработки чистой архитектуры только с декодером через модальности. Наш код и модели доступны по адресу: https://github.com/baaivision/EVE.
Данный отчет представляет FunAudioLLM, семейство моделей, разработанных для улучшения естественного голосового взаимодействия между людьми и большими языковыми моделями (LLM). В его основе находятся две инновационные модели: SenseVoice, которая обрабатывает многоязычное распознавание речи, распознавание эмоций и обнаружение аудио-событий; и CosyVoice, которая облегчает естественную генерацию речи с управлением на нескольких языках, тембре, стиле речи и идентификации диктора. SenseVoice-Small обеспечивает исключительно низкую задержку ASR для 5 языков, а SenseVoice-Large поддерживает высокоточное ASR для более чем 50 языков, в то время как CosyVoice отличается многоязычной генерацией голоса, обучением в контексте без обучающих данных, кросс-языковым клонированием голоса и способностью следовать инструкциям. Модели, связанные с SenseVoice и CosyVoice, были опубликованы в открытом доступе на Modelscope и Huggingface, вместе с соответствующими кодами для обучения, вывода и донастройки, опубликованными на GitHub. Интегрируя эти модели с LLM, FunAudioLLM позволяет создавать приложения, такие как речевой перевод, эмоциональный голосовой чат, интерактивные подкасты и выразительное аудио озвучивание книг, тем самым расширяя границы технологии голосового взаимодействия. Демонстрации доступны на https://fun-audio-llm.github.io, и код можно получить на https://github.com/FunAudioLLM.
Механизм самовнимания хорошо справляется с длинным контекстом, но имеет квадратичную сложность. Существующие слои РНС имеют линейную сложность, однако их производительность в длинном контексте ограничена выразительной способностью скрытого состояния. Мы предлагаем новый класс слоев моделирования последовательностей с линейной сложностью и выразительным скрытым состоянием. Основная идея заключается в том, чтобы сделать скрытое состояние самостоятельной моделью машинного обучения, а правило обновления - шагом самообучения. Поскольку скрытое состояние обновляется обучением даже на тестовых последовательностях, наши слои называются слоями обучения во время тестирования (TTT). Мы рассматриваем два варианта: TTT-Linear и TTT-MLP, скрытое состояние которых представляет собой линейную модель и многослойный персептрон соответственно. Мы оцениваем наши варианты на масштабе от 125 миллионов до 1,3 миллиарда параметров, сравнивая с мощным трансформером и Мамбой, современной РНС. Как TTT-Linear, так и TTT-MLP соответствуют или превосходят базовые показатели. Подобно трансформеру, они могут продолжать снижать перплексию, условиями на большее количество токенов, в то время как Мамба не может после 16 тыс. контекста. После предварительной оптимизации систем TTT-Linear уже быстрее трансформера на 8 тыс. контексте и соответствует Мамбе по времени работы. TTT-MLP все еще сталкивается с проблемами ввода-вывода памяти, но показывает больший потенциал в длинном контексте, указывая на перспективное направление для будущих исследований.
Прогресс в области генеративного искусственного интеллекта расширил потенциальные применения больших языковых моделей (LLM) в разработке автономных агентов. Достижение истинной автономности требует накопления и обновления знаний, полученных взаимодействием с окружающей средой, а также их эффективного использования. Существующие подходы на основе LLM используют прошлый опыт с помощью полной истории наблюдений, суммирования или расширения поиска. Однако эти неструктурированные представления памяти не способствуют рассуждениям и планированию, необходимым для сложного принятия решений. В нашем исследовании мы представляем AriGraph, новый метод, в котором агент создает граф памяти, интегрирующий семантическую и эпизодическую память в процессе исследования окружающей среды. Эта структура графа облегчает эффективное ассоциативное извлечение взаимосвязанных концепций, актуальных для текущего состояния и целей агента, и таким образом служит эффективной моделью окружающей среды, улучшающей исследовательские и планировочные возможности агента. Мы демонстрируем, что наш агент Ariadne LLM, оснащенный предложенной архитектурой памяти, дополненной планированием и принятием решений, эффективно справляется с сложными задачами на основе нулевого обучения в среде TextWorld. Наш подход значительно превосходит установленные методы, такие как полная история, суммирование и Генерация с расширением поиска, в различных задачах, включая кулинарное испытание из соревнования First TextWorld Problems, а также новые задачи, такие как уборка дома и поиск сокровищ в головоломке.
Недавнее появление медицинских крупных языковых моделей с видением (Med-LVLMs) значительно улучшило медицинскую диагностику. Однако текущие Med-LVLMs часто сталкиваются с фактическими проблемами, часто генерируя ответы, которые не соответствуют установленным медицинским фактам. Модель Retrieval-Augmented Generation (RAG), использующая внешние знания, может повысить фактическую точность этих моделей, но вводит две основные проблемы. Во-первых, ограниченные извлеченные контексты могут не охватывать всю необходимую информацию, в то время как избыточное извлечение может внести ненужные и неточные ссылки, вмешиваясь в генерацию модели. Во-вторых, в случаях, когда модель изначально отвечает правильно, применение RAG может привести к чрезмерной зависимости от извлеченных контекстов, что приводит к неправильным ответам. Для решения этих проблем мы предлагаем RULE, который состоит из двух компонентов. Во-первых, мы предлагаем доказанно эффективную стратегию контроля риска фактичности путем калиброванного выбора количества извлеченных контекстов. Во-вторых, на основе образцов, где чрезмерная зависимость от извлеченных контекстов привела к ошибкам, мы составляем набор данных предпочтений для настройки модели, балансируя ее зависимость от врожденных знаний и извлеченных контекстов для генерации. Мы демонстрируем эффективность RULE на трех медицинских наборах данных VQA, достигая среднего улучшения фактической точности на 20.8%. Мы публично выпускаем наш бенчмарк и код по адресу https://github.com/richard-peng-xia/RULE.
Учитывая всеобщее распространение диаграмм в качестве инструмента анализа данных, визуализации и принятия решений в различных отраслях и науках, возрос интерес к разработке заранее обученных базовых моделей, а также универсальных моделей, настроенных на инструкции, для понимания и рассуждения на основе диаграмм. Однако существующие методы имеют существенные недостатки по двум критическим аспектам, влияющим на производительность моделей представления диаграмм: они обучены на данных, сгенерированных из базовых таблиц данных диаграмм, игнорируя визуальные тенденции и узоры на изображениях диаграмм, и используют слабо согласованные модели основы зрения-языка для обучения в определенной области, что ограничивает их обобщаемость при работе с диаграммами в реальных условиях. Мы решаем эти важные недостатки и представляем ChartGemma, новую модель понимания и рассуждения на основе диаграмм, разработанную над PaliGemma. В отличие от использования базовых таблиц данных, ChartGemma обучается на данных настройки по инструкциям, сгенерированных непосредственно из изображений диаграмм, захватывая как общие тенденции, так и детальную визуальную информацию из разнообразного набора диаграмм. Наш простой подход достигает лучших результатов на 5 бенчмарках, охватывающих суммирование диаграмм, ответы на вопросы и проверку фактов, и наши тщательные качественные исследования на диаграммах из реального мира показывают, что ChartGemma генерирует более реалистичные и фактически правильные сводки по сравнению с конкурентами. Мы предоставляем код, контрольные точки модели, набор данных и демонстрации на https://github.com/vis-nlp/ChartGemma.
Люди делятся разнообразными изображениями, связанными с их личными опытами, в рамках бесед с помощью инструментов мгновенного обмена сообщениями. Однако существующие работы сосредоточены на (1) поведении обмена изображениями в отдельных сессиях, что приводит к ограниченному долгосрочному социальному взаимодействию, и (2) отсутствии персонализированного поведения по обмену изображениями. В данной работе мы представляем Stark, крупномасштабный долгосрочный мультимодальный набор данных для бесед, охватывающий широкий спектр социальных персон в формате мультимодальности, временных интервалов и изображений. Для автоматического создания Stark мы предлагаем новую мультимодальную контекстуализационную структуру, Mcu, которая генерирует долгосрочный мультимодальный диалог, извлеченный из ChatGPT и нашего предложенного выравнивателя изображений Plan-and-Execute. Используя наш Stark, мы обучаем мультимодельную модель беседы, Ultron 7B, которая демонстрирует впечатляющую визуальную способность к воображению. Кроме того, мы демонстрируем эффективность нашего набора данных в человеческой оценке. Мы предоставляем наш исходный код и набор данных общественности.
Большие языковые модели (LLM) продемонстрировали впечатляющий прогресс в решении простых математических задач, однако они по-прежнему испытывают затруднения с более сложными и сложными математическими задачами. В данной статье мы представляем серию LLM, которые используют Декомпозицию мысли с помощью кодовой помощи и самокоррекции для математического рассуждения, названных DotaMath. Модели DotaMath решают сложные математические задачи, декомпозируя их на более простые логические подзадачи, используя код для решения этих подзадач, получая детальную обратную связь от интерпретатора кода и занимаясь саморефлексией и коррекцией. Аннотируя разнообразные траектории интерактивного использования инструментов и используя эволюцию запросов на наборах данных GSM8K и MATH, мы создаем набор данных для настройки инструкций под названием DotaMathQA с 574 тыс. пар запрос-ответ. Мы обучаем серию базовых LLM с использованием обучения по имитации на DotaMathQA, что приводит к созданию моделей DotaMath, которые достигают выдающихся результатов по сравнению с открытыми LLM на различных внутридоменных и внедоменных бенчмарках. Особенно стоит отметить, что DotaMath-deepseek-7B продемонстрировала выдающийся результат 64,8% на конкурентном наборе данных MATH и 86,7% на GSM8K. Кроме того, DotaMath-deepseek-7B сохраняет сильную конкурентоспособность на серии внутридоменных и внедоменных бенчмарков (Средн. 80,1%). В будущем мы ожидаем, что парадигма DotaMath откроет новые пути для решения сложных математических проблем. Наш код доступен публично по адресу https://github.com/ChengpengLi1003/DotaMath.
Этот документ представляет LLM-jp, межорганизационный проект по исследованию и разработке японских крупных языковых моделей (LLM). LLM-jp нацелен на разработку открытых и мощных японских LLM, и на данный момент более 1 500 участников из академической среды и индустрии работают вместе для достижения этой цели. В данном документе представлены предпосылки создания LLM-jp, краткие обзоры его деятельности и технические отчеты о LLM, разработанных LLM-jp. Для получения актуальной информации о деятельности посетите https://llm-jp.nii.ac.jp/en/.
Благодаря прогрессу в области крупных языковых моделей и кросс-модальной согласованности, существующие методы мультимодального понимания видео достигли выдающихся результатов в офлайн-сценариях. Однако онлайн-потоки видео, являющиеся одной из наиболее распространенных форм медиаконтента в реальном мире, редко привлекали внимание. По сравнению с офлайн-видео, "динамичная" природа онлайн-потоков видео создает вызовы для прямого применения существующих моделей и вводит новые проблемы, такие как хранение крайне долгосрочной информации, взаимодействие между непрерывным визуальным контентом и "асинхронными" вопросами пользователей. Поэтому в данной статье мы представляем Flash-VStream, модель видео-языка, которая имитирует механизм памяти человека. Наша модель способна обрабатывать крайне длинные потоки видео в реальном времени и одновременно отвечать на запросы пользователей. По сравнению с существующими моделями, Flash-VStream достигает значительного снижения задержки вывода и потребления VRAM, что тесно связано с пониманием онлайн-потоков видео. Кроме того, учитывая, что существующие бенчмарки по пониманию видео в основном сосредоточены на офлайн-сценариях, мы предлагаем VStream-QA, новый бенчмарк вопросов и ответов, специально разработанный для понимания онлайн-потоков видео. Сравнения с популярными существующими методами на предложенном бенчмарке демонстрируют превосходство нашего метода в таком сложном контексте. Для проверки обобщаемости нашего подхода мы также оцениваем его на существующих бенчмарках по пониманию видео и достигаем передовых результатов в офлайн-сценариях. Весь код, модели и наборы данных доступны на https://invinciblewyq.github.io/vstream-page/
Масштабируемые протоколы надзора направлены на обеспечение возможности людям точно контролировать сверхчеловеческий искусственный интеллект. В данной статье мы изучаем дебаты, где два искусственных интеллекта соревнуются за убеждение судьи; консультации, где один искусственный интеллект пытается убедить судью, задающего вопросы; и сравниваем с базовым вариантом прямого вопросно-ответного взаимодействия, где судья сразу отвечает без участия искусственного интеллекта. Мы используем большие языковые модели (LLM) как искусственных агентов, так и заменителей человеческих судей, принимая модели судей за менее сильные по сравнению с моделями агентов. Мы проводим бенчмаркинг на разнообразном наборе асимметрий между судьями и агентами, расширяя предыдущие исследования на основе одной задачи по извлечению ответа с асимметрией информации, чтобы также включить асимметрии в математике, программировании, логике и мультимодальном рассуждении. Мы обнаружили, что дебаты превосходят консультации во всех задачах, когда консультанту случайным образом назначается доводить за правильный/неправильный ответ. При сравнении дебатов с прямым вопросно-ответным взаимодействием результаты зависят от типа задачи: в задачах извлечения ответа с асимметрией информации дебаты превосходят прямые ответы на вопросы, но в других задачах без асимметрии информации результаты разнообразны. В предыдущих работах дебатерам/консультантам назначали ответ, за который им нужно аргументировать. Когда мы позволяем им выбирать, за какой ответ аргументировать, мы обнаруживаем, что судьи менее часто убеждаются в неверном ответе в дебатах, чем в консультациях. Кроме того, мы обнаружили, что более сильные модели дебатеров повышают точность судей, хотя менее значительно, чем в предыдущих исследованиях.
LLM известны своей уязвимостью к атакам на освобождение из тюрьмы, даже после выравнивания безопасности. Важным наблюдением является то, что, хотя различные типы атак на освобождение из тюрьмы могут порождать значительно разные запросы, они в основном приводят к схожим ответам, которые коренятся в тех же вредоносных знаниях (например, подробные шаги по изготовлению бомбы). Поэтому мы предполагаем, что прямое разучивание вредоносных знаний в LLM может быть более эффективным способом защиты от атак на освобождение из тюрьмы, чем основанные на массовом обучении с учителем (SFT) подходы. Наши обширные эксперименты подтвердили наше понимание и предположили удивительную обобщаемость нашего подхода на основе разучивания: используя всего 20 исходных вредоносных вопросов без каких-либо подсказок для атаки на освобождение из тюрьмы во время обучения, наше решение снизило уровень успешных атак (ASR) в Vicuna-7B на вредоносные вопросы вне диапазона (OOD), обернутые различными сложными подсказками для атаки на освобождение из тюрьмы с 82,6\% до 7,7\%. Это значительно превосходит Llama2-7B-Chat, который настроен на около 0,1 млн образцов выравнивания безопасности, но все равно имеет ASR 21,9\%, даже при помощи дополнительной системы безопасности. Дальнейший анализ показывает, что способность к обобщению нашего решения происходит из внутренней взаимосвязи между вредоносными ответами на вредоносные вопросы (например, шаблоны ответов, общие шаги и действия, и сходство между их выученными представлениями в LLM). Наш код доступен по адресу https://github.com/thu-coai/SafeUnlearning.
Модельные основы мультимодальности, способные всесторонне обрабатывать текст наряду с изображениями, видео, аудио и другими сенсорными модальностями, все чаще используются в различных прикладных областях. Однако характеризовать и изучать прогресс в модельных основах мультимодальности представляется сложной задачей из-за разнообразия возможных моделирующих решений, задач и областей. В данной статье мы представляем методику Голистической Оценки Мультимодальных Моделей (HEMM) для систематической оценки возможностей модельных основ мультимодальности по набору из 3 измерений: базовые навыки, поток информации и использование в реальных сценариях. Базовые мультимодальные навыки – это внутренние способности, необходимые для решения проблем, такие как изучение взаимодействий между модальностями, точная синхронизация, многоэтапное рассуждение и способность работать с внешними знаниями. Поток информации изучает, как изменяется мультимодальное содержание во время задачи через запросы, перевод, редактирование и слияние. Сценарии использования охватывают специфические для области вызовы, встречаемые в мультимедийных, аффективных вычислениях, естественных науках, здравоохранении и приложениях взаимодействия человека с компьютером. Через комплексные эксперименты по 30 задачам в HEMM мы (1) выявляем ключевые измерения данных (например, базовые навыки, поток информации и сценарии использования), представляющие вызовы для современных моделей, и (2) обобщаем тенденции производительности относительно влияния различных моделирующих измерений (например, масштаб, данные предварительного обучения, мультимодальная синхронизация, предварительное обучение и настройка целей инструктирования) на производительность. Наши выводы относительно сложных мультимодальных взаимодействий, сценариев использования и задач, требующих рассуждений и внешних знаний, преимуществ масштаба данных и модели, а также влияния настройки инструкций предоставляют ценные практические идеи для будущих работ в модельных основах мультимодальности.
Нейронные поля радиантности (NeRF) получили значительное внимание благодаря их способности к высококачественной генерации нового изображения, что побудило исследования по решению различных реальных задач. Одной из критических проблем является размытие изображения из-за движения камеры во время экспозиции, что мешает точной реконструкции трехмерной сцены. В данном исследовании мы предлагаем метод непрерывного учета жесткого движения с использованием гауссовского сплайн-аппроксимации (CRiM-GS) для восстановления точной трехмерной сцены из размытых изображений с возможностью реального времени рендеринга. Учитывая сложные шаблоны движения камеры, мы предсказываем непрерывное движение камеры на основе нейронных обыкновенных дифференциальных уравнений (ODE). Конкретно, мы используем жесткие телодвижения для моделирования движения камеры с соответствующей регуляризацией, сохраняя форму и размер объекта. Кроме того, мы вводим непрерывное деформируемое трехмерное преобразование в поле SE(3) для адаптации жесткого телодвижения к реальным проблемам, обеспечивая большую степень свободы. Путем пересмотра основных теорий камеры и использования передовых методов обучения нейронных сетей мы добиваемся точного моделирования непрерывных траекторий камеры. Мы проводим обширные эксперименты, демонстрируя современные результаты как количественно, так и качественно на стандартных наборах данных.
Модели языка для зрительных данных (VLM) быстро развиваются в своей способности отвечать на запросы информации. Поскольку эти модели широко применяются в потребительских приложениях, они могут привести к новым рискам конфиденциальности из-за возможности идентификации людей на фотографиях, геолокации изображений и т. д. Как показывается, довольно неожиданно, текущие открытые и проприетарные модели VLM обладают высокой способностью к геолокации изображений, что делает широкую геолокацию с использованием VLM немедленным риском конфиденциальности, а не просто теоретической заботой о будущем. В качестве первого шага к решению этой проблемы мы разрабатываем новый бенчмарк, GPTGeoChat, для проверки способности VLM модерировать диалоги о геолокации с пользователями. Мы собираем набор из 1 000 диалогов о геолокации изображений между внутренними аннотаторами и GPT-4v, которые аннотированы с точностью к информации о местоположении, раскрываемой на каждом ходу. Используя этот новый набор данных, мы оцениваем способность различных VLM модерировать диалоги о геолокации с GPT-4v, определяя, когда раскрывается слишком много информации о местоположении. Мы обнаруживаем, что индивидуальные модели с тонкой настройкой показывают результаты на уровне моделей, основанных на API, при идентификации утекшей информации о местоположении на уровне страны или города; однако для точной модерации более детальных уровней, таких как название ресторана или здания, кажется необходимой настройка на надзорные данные.