Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные мультимодальные модели (Vision-Language Models, VLMs) демонстрируют выдающуюся производительность, но требуют значительных вычислительных ресурсов, что ограничивает их развертывание на мобильных и периферийных устройствах. Меньшие по размеру VLMs обычно повторяют архитектурные решения более крупных моделей, такие как обширная токенизация изображений, что приводит к неэффективному использованию памяти GPU и ограничивает их практическую применимость для устройств. Мы представляем SmolVLM — серию компактных мультимодальных моделей, специально разработанных для ресурсоэффективного вывода. Мы систематически исследуем архитектурные конфигурации, стратегии токенизации и методы подготовки данных, оптимизированные для минимизации вычислительных затрат. В результате мы выделяем ключевые архитектурные решения, которые обеспечивают значительный прирост производительности в задачах обработки изображений и видео при минимальном использовании памяти. Наша самая маленькая модель, SmolVLM-256M, использует менее 1 ГБ памяти GPU во время вывода и превосходит модель Idefics-80B, которая в 300 раз больше, несмотря на 18-месячный разрыв в разработке. Наша крупнейшая модель с 2,2 млрд параметров конкурирует с современными VLMs, потребляя вдвое меньше памяти GPU. Модели SmolVLM выходят за рамки статических изображений, демонстрируя надежные возможности понимания видео. Наши результаты подчеркивают, что стратегические архитектурные оптимизации, агрессивная, но эффективная токенизация и тщательно подготовленные данные для обучения значительно улучшают мультимодальную производительность, способствуя практичному и энергоэффективному развертыванию на значительно меньших масштабах.
Сегодня трансформеры по-прежнему испытывают трудности с генерацией минутных видео, поскольку слои самовнимания неэффективны для длинных контекстов. Альтернативы, такие как слои Mamba, плохо справляются со сложными многоплановыми историями из-за менее выразительных скрытых состояний. Мы экспериментируем со слоями обучения на этапе тестирования (Test-Time Training, TTT), чьи скрытые состояния сами могут быть нейронными сетями, что делает их более выразительными. Добавление слоев TTT в предварительно обученный трансформер позволяет ему генерировать минутные видео на основе текстовых раскадровок. В качестве доказательства концепции мы создали набор данных на основе мультфильмов "Том и Джерри". По сравнению с базовыми методами, такими как Mamba~2, Gated DeltaNet и слоями скользящего внимания, слои TTT генерируют гораздо более связные видео, рассказывающие сложные истории, опережая их на 34 балла Elo в человеческой оценке 100 видео для каждого метода. Хотя результаты обнадеживают, они все еще содержат артефакты, вероятно, из-за ограниченных возможностей предварительно обученной модели на 5 миллиардов параметров. Эффективность нашей реализации также может быть улучшена. Мы экспериментировали только с минутными видео из-за ограниченных ресурсов, но подход можно расширить на более длинные видео и более сложные истории. Примеры видео, код и аннотации доступны по адресу: https://test-time-training.github.io/video-dit.
Способность языковой модели анализировать собственные рассуждения предоставляет ключевое преимущество для решения сложных задач. Хотя большинство недавних исследований сосредоточено на том, как эта способность развивается в процессе обучения с подкреплением, мы показываем, что она начинает проявляться гораздо раньше — на этапе предварительного обучения модели. Для изучения этого мы вносим преднамеренные ошибки в цепочки рассуждений и проверяем, может ли модель прийти к правильному ответу, распознавая и исправляя эти ошибки. Отслеживая производительность на разных этапах предварительного обучения, мы наблюдаем, что эта способность к самокоррекции появляется рано и постепенно улучшается со временем. Например, модель OLMo2-7B, предварительно обученная на 4 триллионах токенов, демонстрирует самокоррекцию в наших шести задачах на саморефлексию.
Недавние исследования показали, что масштабирование вычислительных ресурсов во время тестирования эффективно улучшает производительность небольших языковых моделей (sLMs). Однако предыдущие работы в основном изучали масштабирование вычислительных ресурсов с использованием дополнительной более крупной модели в качестве верификатора, оставляя вопрос самопроверки sLMs недостаточно исследованным. В данной работе мы исследуем, могут ли sLMs надежно проверять свои выходные данные при масштабировании во время тестирования. Мы обнаруживаем, что даже с использованием дистилляции знаний от более крупных верификаторов, sLMs испытывают трудности с задачами проверки, требующими запоминания, такими как численные расчеты и проверка фактов. Чтобы устранить это ограничение, мы предлагаем метод самопроверки с интеграцией инструментов (T1), который делегирует этапы проверки, требующие значительного запоминания, внешним инструментам, таким как интерпретатор кода. Наш теоретический анализ показывает, что интеграция инструментов снижает требования к запоминанию и улучшает производительность при масштабировании во время тестирования. Эксперименты на бенчмарке MATH демонстрируют, что с использованием T1 модель Llama-3.2 1B при масштабировании во время тестирования превосходит значительно более крупную модель Llama-3.1 8B. Более того, T1 эффективно обобщается как на математические задачи (MATH500), так и на задачи, требующие знаний из различных областей (MMLU-Pro). Наши результаты подчеркивают потенциал интеграции инструментов для существенного улучшения способностей sLMs к самопроверке.
Задача описания на уровне регионов заключается в генерации естественных языковых описаний для конкретных областей изображения с акцентом на их отличительные особенности. Однако существующие методы испытывают трудности с созданием уникальных описаний на разных уровнях детализации, что ограничивает их практическую применимость. Для решения проблемы детального понимания на уровне регионов мы представляем набор данных URECA, крупномасштабный набор данных, адаптированный для описания регионов на нескольких уровнях детализации. В отличие от предыдущих наборов данных, которые в основном сосредоточены на выделяющихся объектах, URECA обеспечивает уникальное и согласованное соответствие между регионами и описаниями, включая разнообразные объекты, их части и элементы фона. Ключевым элементом является поэтапный процесс подготовки данных, где каждый этап постепенно улучшает выбор регионов и генерацию описаний. Используя мультимодальные большие языковые модели (MLLM) на каждом этапе, наш процесс создает уникальные и контекстуально обоснованные описания с повышенной точностью и семантическим разнообразием. На основе этого набора данных мы представляем URECA, новую модель описания, разработанную для эффективного кодирования регионов на нескольких уровнях детализации. URECA сохраняет важные пространственные свойства, такие как положение и форма, с помощью простых, но эффективных модификаций существующих MLLM, что позволяет создавать детализированные и семантически насыщенные описания регионов. Наш подход включает динамическое моделирование масок и кодировщик масок высокого разрешения для повышения уникальности описаний. Эксперименты показывают, что URECA достигает наилучших результатов на наборе данных URECA и хорошо обобщается на существующие эталонные тесты для описания регионов.
Последние достижения в области языковых моделей, способных к рассуждениям, продемонстрировали выдающиеся результаты в выполнении сложных задач, однако их расширенные цепочки рассуждений увеличивают вычислительные затраты на вывод. Хотя квантование широко применяется для снижения затрат на вывод в крупных языковых моделях, его влияние на модели рассуждений остается недостаточно изученным. В данном исследовании мы проводим первое систематическое изучение квантованных моделей рассуждений, оценивая открытые модели семейств DeepSeek-R1-Distilled Qwen и LLaMA с количеством параметров от 1,5 млрд до 70 млрд, а также модель QwQ-32B. Наше исследование охватывает квантование весов, кэша ключей и значений (KV cache) и активаций с использованием современных алгоритмов на различных уровнях битовой точности, с обширной оценкой на наборах данных для математических (AIME, MATH-500), научных (GPQA) и программистских (LiveCodeBench) рассуждений. Наши результаты показывают, что хотя без потерь квантование может быть достигнуто при использовании W8A8 или W4A16, более низкие уровни битовой точности влекут значительные риски снижения точности. Мы также выявили, что размер модели, её происхождение и сложность задачи являются критическими факторами производительности. Вопреки ожиданиям, квантованные модели не демонстрируют увеличения длины выходных данных. Кроме того, стратегическое масштабирование размеров моделей или шагов рассуждений может эффективно повысить производительность. Все квантованные модели и коды будут опубликованы на https://github.com/ruikangliu/Quantized-Reasoning-Models.
Мы представляем VAPO (Value-based Augmented Proximal Policy Optimization) — новый фреймворк, разработанный для моделей рассуждений в рамках ценностно-ориентированной парадигмы. Протестированный на наборе данных AIME 2024, VAPO, основанный на предобученной модели Qwen 32B, достигает рекордного показателя в 60.4 балла. При прямом сравнении в идентичных экспериментальных условиях VAPO превосходит ранее заявленные результаты моделей DeepSeek-R1-Zero-Qwen-32B и DAPO более чем на 10 баллов. Процесс обучения VAPO выделяется своей стабильностью и эффективностью: он достигает передовых показателей всего за 5 000 шагов. Более того, в ходе множества независимых запусков не было зафиксировано сбоев в обучении, что подчеркивает его надежность. Данное исследование углубляется в задачи длинных цепочек рассуждений (long-CoT) с использованием ценностно-ориентированного подхода в обучении с подкреплением. Мы выделяем три ключевые проблемы, характерные для ценностно-ориентированных методов: смещение ценностной модели, наличие последовательностей разной длины и разреженность сигналов вознаграждения. Благодаря систематическому подходу, VAPO предлагает интегрированное решение, которое эффективно смягчает эти проблемы, обеспечивая улучшенную производительность в задачах длинных цепочек рассуждений.
Диффузионные модели широко используются для задач редактирования изображений. Существующие методы редактирования часто разрабатывают процедуру манипуляции представлениями, определяя направление редактирования в пространстве текстовых эмбеддингов или оценок. Однако такая процедура сталкивается с ключевой проблемой: переоценка силы редактирования нарушает визуальную согласованность, а недооценка приводит к неудаче в выполнении задачи редактирования. Примечательно, что каждое исходное изображение может требовать разной силы редактирования, и поиск подходящей силы методом проб и ошибок является затратным. Чтобы решить эту проблему, мы предлагаем Concept Lancet (CoLan) — zero-shot плагин-энд-плей фреймворк для принципиальной манипуляции представлениями в диффузионном редактировании изображений. На этапе вывода мы декомпозируем исходный вход в латентном пространстве (текстовых эмбеддингов или диффузионных оценок) как разреженную линейную комбинацию представлений собранных визуальных концепций. Это позволяет нам точно оценить присутствие концепций в каждом изображении, что информирует процесс редактирования. В зависимости от задачи редактирования (замена/добавление/удаление) мы выполняем кастомизированный процесс трансплантации концепций, чтобы наложить соответствующее направление редактирования. Для достаточного моделирования пространства концепций мы создали набор данных концептуальных представлений CoLan-150K, который содержит разнообразные описания и сценарии визуальных терминов и фраз для латентного словаря. Эксперименты на нескольких базовых методах диффузионного редактирования изображений показывают, что методы, оснащенные CoLan, достигают наилучших результатов в эффективности редактирования и сохранении согласованности.
Мы представляем LiveVQA — автоматически собранный набор данных, содержащий актуальные визуальные знания из Интернета с синтезированными задачами визуального вопроса-ответа (VQA). LiveVQA включает 3 602 одношаговых и многошаговых визуальных вопроса с 6 новостных сайтов, охватывающих 14 категорий новостей, и отличается высокой согласованностью изображений и текста, а также достоверностью информации. Наша оценка на 15 мультимодальных языковых моделях (MLLM), таких как GPT-4o, Gemma-3 и семейство Qwen-2.5-VL, показывает, что более мощные модели в целом справляются лучше, при этом продвинутые способности к визуальному рассуждению оказываются критически важными для сложных многошаговых вопросов. Несмотря на отличные результаты в текстовых задачах, модели с инструментами, такими как поисковые системы, всё ещё демонстрируют значительные пробелы при решении визуальных вопросов, требующих актуальных визуальных знаний, что указывает на важные направления для будущих исследований.
Распространение крупных языковых моделей (LLM), доступных через черные ящики API, создает серьезную проблему доверия: пользователи платят за услуги, основываясь на заявленных возможностях модели (например, размер, производительность), но провайдеры могут скрытно заменять указанную модель более дешевой и менее качественной альтернативой для снижения операционных затрат. Такая непрозрачность подрывает справедливость, снижает доверие и усложняет надежное бенчмаркинг. Обнаружение подобных замен затруднено из-за черного ящика, который обычно ограничивает взаимодействие запросами ввода-вывода. В данной работе формализуется проблема обнаружения замены моделей в API LLM. Мы систематически оцениваем существующие методы проверки, включая статистические тесты на основе выходных данных, бенчмарк-оценки и анализ логарифмических вероятностей, в различных реалистичных сценариях атак, таких как квантование моделей, случайная замена и уклонение от бенчмарков. Наши результаты выявляют ограничения методов, полагающихся исключительно на текстовые выходы, особенно против тонких или адаптивных атак. Хотя анализ логарифмических вероятностей предлагает более надежные гарантии, когда доступен, его доступность часто ограничена. В заключение обсуждается потенциал аппаратных решений, таких как доверенные среды выполнения (TEE), как путь к доказуемой целостности моделей, с акцентом на компромиссы между безопасностью, производительностью и внедрением провайдерами. Код доступен по адресу https://github.com/sunblaze-ucb/llm-api-audit.
Рассуждения занимают центральное место в человеческом интеллекте, обеспечивая структурированное решение задач в различных областях. Недавние достижения в области больших языковых моделей (LLM) значительно улучшили их способности к рассуждению в арифметических, общепринятых и символических задачах. Однако эффективное расширение этих возможностей на мультимодальные контексты, где модели должны интегрировать как визуальные, так и текстовые данные, остается серьезной проблемой. Мультимодальные рассуждения вводят сложности, такие как обработка противоречивой информации между модальностями, что требует от моделей применения продвинутых интерпретационных стратегий. Решение этих задач включает не только сложные алгоритмы, но и надежные методологии для оценки точности и согласованности рассуждений. В данной статье представлен краткий, но содержательный обзор методов рассуждений в текстовых и мультимодальных LLM. Благодаря тщательному и актуальному сравнению мы четко формулируем основные вызовы и возможности в области рассуждений, выделяя практические методы для посттренировочной оптимизации и инференса в режиме тестирования. Наша работа предоставляет ценные инсайты и рекомендации, связывая теоретические рамки с практическими реализациями, и задает четкие направления для будущих исследований.
Диффузионные модели аппроксимируют распределение удаления шума как гауссово и предсказывают его среднее значение, тогда как модели согласования потоков перепараметризуют гауссово среднее как скорость потока. Однако они демонстрируют более низкую производительность при выборке за небольшое количество шагов из-за ошибок дискретизации и склонны создавать избыточно насыщенные цвета при использовании классификатор-независимого управления (CFG). Чтобы устранить эти ограничения, мы предлагаем новую модель согласования потоков на основе гауссовой смеси (GMFlow): вместо предсказания среднего значения GMFlow предсказывает динамические параметры гауссовой смеси (GM) для захвата многомодального распределения скорости потока, которое может быть обучено с использованием функции потерь на основе дивергенции Кульбака-Лейблера. Мы показываем, что GMFlow обобщает предыдущие диффузионные модели и модели согласования потоков, где обучается одна гауссова функция с использованием L_2-потери для удаления шума. Для вывода мы разрабатываем решатели GM-SDE/ODE, которые используют аналитические распределения удаления шума и поля скорости для точной выборки за небольшое количество шагов. Кроме того, мы представляем новую схему вероятностного управления, которая смягчает проблемы избыточной насыщенности CFG и улучшает качество генерации изображений. Многочисленные эксперименты демонстрируют, что GMFlow последовательно превосходит базовые модели согласования потоков по качеству генерации, достигая точности 0,942 всего за 6 шагов выборки на наборе данных ImageNet 256×256.
Инструментально-усиленные большие языковые модели (TA-LLMs) демонстрируют перспективы в реальных приложениях, но сталкиваются с трудностями при обработке неполных запросов и запросов, выходящих за пределы их компетенции. В то время как существующие подходы в основном полагаются на контролируемую тонкую настройку с использованием экспертных траекторий, мы предлагаем DiaTool-DPO — новый метод, который улучшает диалоговые возможности TA-LLM с помощью оптимизации прямых предпочтений. Мы моделируем взаимодействия TA-LLM как марковский процесс принятия решений с 5 различными состояниями диалога и классифицируем пользовательские запросы на 3 типа на основе их траекторий переходов между состояниями. Мы автоматически создаем парные наборы данных с правильными и неправильными траекториями диалога и вводим специализированную функцию потерь для управления диалогом. Наше всестороннее тестирование показывает, что DiaTool-DPO приближается к производительности GPT-4 (94,8% в сборе информации, 91% в отклонении вызовов инструментов) с существенным улучшением по сравнению с базовыми моделями (44% и 9,6% соответственно), сохраняя при этом основную функциональность. Наш подход открывает новые возможности для разработки TA-LLM, способных справляться с разнообразными реальными сценариями без необходимости дополнительных экспертных демонстраций или ручной разметки.
Мы представляем Clinical ModernBERT — трансформерный энкодер, предварительно обученный на обширной биомедицинской литературе, клинических записях и медицинских онтологиях, включая аннотации PubMed, клинические данные MIMIC IV и медицинские коды с их текстовыми описаниями. Основываясь на ModernBERT — современном энкодере текста, который включает архитектурные улучшения, такие как ротационные позиционные эмбеддинги (RoPE), Flash Attention и увеличенную длину контекста до 8 192 токенов, — наша модель адаптирует эти инновации специально для биомедицинских и клинических областей. Clinical ModernBERT превосходно справляется с созданием семантически насыщенных представлений, оптимизированных для задач с длинным контекстом. Мы подтверждаем это как анализом его предварительно обученных весов, так и эмпирической оценкой на комплексном наборе клинических NLP-бенчмарков.
Понимание трехмерных сцен по одиночным изображениям является ключевой задачей в компьютерном зрении с множеством приложений в графике, дополненной реальности и робототехнике. Хотя подходы на основе диффузионных моделей показали перспективность, они часто испытывают трудности с поддержанием согласованности объектов и сцен, особенно в сложных реальных сценариях. Для преодоления этих ограничений мы предлагаем авторегрессивный генеративный подход под названием моделирование локальной последовательности с произвольным доступом (Local Random Access Sequence, LRAS), который использует квантование локальных патчей и генерацию последовательностей в случайном порядке. Используя оптический поток в качестве промежуточного представления для редактирования 3D-сцен, наши эксперименты демонстрируют, что LRAS достигает передовых результатов в синтезе новых видов и манипуляции 3D-объектами. Кроме того, мы показываем, что наш фреймворк естественным образом расширяется до задачи самообучаемой оценки глубины с помощью простой модификации дизайна последовательности. Демонстрируя высокую производительность в нескольких задачах понимания 3D-сцен, LRAS предоставляет унифицированный и эффективный фреймворк для создания следующего поколения моделей 3D-зрения.
Модели Vision Foundation Models (VFMs) и Vision-Language Models (VLMs) получили широкое признание в задаче Domain Generalized Semantic Segmentation (DGSS) благодаря своим мощным способностям к обобщению. Однако существующие методы DGSS часто полагаются исключительно либо на VFMs, либо на VLMs, упуская из виду их взаимодополняющие преимущества. VFMs (например, DINOv2) превосходно справляются с захватом детализированных признаков, в то время как VLMs (например, CLIP) обеспечивают надежное текстовое согласование, но испытывают трудности с грубой детализацией. Несмотря на их взаимодополняющие сильные стороны, эффективная интеграция VFMs и VLMs с использованием механизмов внимания является сложной задачей, поскольку увеличение количества токенов усложняет моделирование длинных последовательностей. Для решения этой проблемы мы предлагаем MFuser — инновационную фреймворк-основанную на Mamba архитектуру, которая эффективно объединяет сильные стороны VFMs и VLMs, сохраняя линейную масштабируемость по длине последовательности. MFuser состоит из двух ключевых компонентов: MVFuser, который выступает в роли совместного адаптера для тонкой настройки двух моделей, захватывая как последовательные, так и пространственные динамики; и MTEnhancer — гибридного модуля attention-Mamba, который улучшает текстовые эмбеддинги, интегрируя априорные данные изображений. Наш подход обеспечивает точную локальность признаков и сильное текстовое согласование без значительных вычислительных затрат. Многочисленные эксперименты демонстрируют, что MFuser значительно превосходит современные методы DGSS, достигая 68.20 mIoU на синтетико-реальных и 71.87 mIoU на реально-реальных бенчмарках. Код доступен по адресу https://github.com/devinxzhang/MFuser.
Мы представляем методологию оценки, наборы данных и результаты конкурса BOP Challenge 2024, шестого в серии публичных соревнований, организованных для определения современного уровня в области оценки 6D-позиции объектов и связанных задач. В 2024 году нашей целью был переход BOP от лабораторных условий к реальным сценариям. Во-первых, мы ввели новые задачи, не требующие моделей объектов, где 3D-модели недоступны, и методы должны обучаться на объектах только на основе предоставленных эталонных видео. Во-вторых, мы определили новую, более практичную задачу 6D-детектирования объектов, где идентификаторы объектов, видимых на тестовом изображении, не предоставляются на вход. В-третьих, мы представили новые наборы данных BOP-H3, записанные с использованием высококачественных сенсоров и AR/VR-гарнитур, максимально приближенные к реальным условиям. BOP-H3 включают 3D-модели и обучающие видео для поддержки как задач с использованием моделей, так и без них. Участники соревновались на семи треках, каждый из которых определялся задачей, способом обучения на объектах и группой наборов данных. Примечательно, что лучший метод 2024 года для 6D-локализации невидимых объектов с использованием моделей (FreeZeV2.1) достигает на 22% большей точности на BOP-Classic-Core, чем лучший метод 2023 года (GenFlow), и отстает всего на 4% от лучшего метода 2023 года для видимых объектов (GPose2023), хотя и работает значительно медленнее (24,9 против 2,7 секунд на изображение). Более практичный метод 2024 года для этой задачи — Co-op, который занимает всего 0,8 секунды на изображение, работает в 25 раз быстрее и на 13% точнее, чем GenFlow. Методы имеют схожий рейтинг в 6D-детектировании, как и в 6D-локализации, но с более высоким временем выполнения. В 2D-детектировании невидимых объектов с использованием моделей лучший метод 2024 года (MUSE) демонстрирует относительное улучшение на 21% по сравнению с лучшим методом 2023 года (CNOS). Однако точность 2D-детектирования для невидимых объектов все еще заметно (-53%) отстает от точности для видимых объектов (GDet2023). Онлайн-система оценки остается открытой и доступна по адресу http://bop.felk.cvut.cz/.
Мы представляем новый подход для обучения компактных языковых моделей для задач ранжирования документов, требующих сложных рассуждений, который сочетает дистилляцию знаний с оптимизацией методом обучения с подкреплением. В то время как существующие методы часто полагаются на дорогостоящие аннотации от людей или крупные "черные ящики" языковых моделей, наша методология использует веб-данные и языковую модель-учитель для автоматической генерации высококачественных обучающих примеров с объяснениями релевантности. Формулируя задачу ранжирования документов как проблему обучения с подкреплением и стимулируя развитие явных способностей к рассуждению, мы обучаем компактную языковую модель с 3 миллиардами параметров, которая достигает наилучших результатов на бенчмарке BRIGHT. Наша модель занимает третье место в рейтинге, используя значительно меньше параметров по сравнению с другими подходами, и превосходит модели, которые более чем в 20 раз крупнее. В ходе обширных экспериментов мы демонстрируем, что генерация объяснений во время вывода, а не прямое предсказание оценок релевантности, позволяет более эффективно использовать рассуждения в компактных языковых моделях. Самоконтролируемый характер нашего метода предлагает масштабируемое и интерпретируемое решение для современных систем информационного поиска.
Мультимодальные крупные языковые модели (MLLMs) демонстрируют выдающиеся результаты в задачах, связанных с обработкой визуальной и текстовой информации, но также представляют значительные риски генерации вредоносного контента, особенно в результате атак типа "jailbreak". Атаки "jailbreak" представляют собой преднамеренные манипуляции, которые обходят механизмы безопасности моделей, приводя к созданию нежелательного или опасного контента. Обнаружение таких атак критически важно для обеспечения ответственного использования MLLMs. Существующие методы обнаружения "jailbreak" сталкиваются с тремя основными проблемами: (1) многие из них полагаются на скрытые состояния или градиенты модели, что ограничивает их применимость к "белым" моделям, где внутренние механизмы модели доступны; (2) они связаны с высокими вычислительными затратами из-за анализа, основанного на неопределенности, что ограничивает возможность обнаружения в реальном времени; (3) они требуют полностью размеченных наборов данных с вредоносным контентом, которые часто недоступны в реальных условиях. Для решения этих проблем мы представляем адаптивную на этапе тестирования структуру под названием JAILDAM. Наш метод использует подход, основанный на памяти и управляемый политикой представления небезопасных знаний, что устраняет необходимость явного воздействия на вредоносные данные. Благодаря динамическому обновлению небезопасных знаний на этапе тестирования, наша структура улучшает обобщение на неизвестные стратегии "jailbreak", сохраняя при этом эффективность. Эксперименты на нескольких бенчмарках для атак "jailbreak" на визуально-языковые модели (VLM) демонстрируют, что JAILDAM обеспечивает передовые показатели в обнаружении вредоносного контента, улучшая как точность, так и скорость.
Увеличение вычислительных ресурсов на этапе тестирования стало перспективным направлением для повышения производительности языковых моделей, особенно в сценариях, где тонкая настройка модели невозможна или нецелесообразна из-за вычислительных ограничений или приватности весов модели. Однако существующие методы поиска на этапе тестирования с использованием модели вознаграждения (RM) часто теряют в качестве по мере масштабирования вычислений из-за чрезмерной оптимизации несовершенных прокси-метрик вознаграждения. Мы представляем QAlign — новый подход к согласованию на этапе тестирования. По мере увеличения вычислительных ресурсов QAlign сходится к выборке из оптимального согласованного распределения для каждого отдельного запроса. Используя последние достижения в методах Монте-Карло с марковскими цепями для генерации текста, наш метод позволяет получать более согласованные выходные данные без изменения базовой модели или даже доступа к логитам. Мы демонстрируем эффективность QAlign на задачах математического рассуждения (GSM8K и GSM-Symbolic) с использованием RM, специфичной для задачи, показывая устойчивые улучшения по сравнению с существующими методами, такими как best-of-n и мажоритарное голосование. Более того, при применении с более реалистичными RM, обученными на наборе данных предпочтений Tulu 3, QAlign превосходит прямое оптимизацию предпочтений (DPO), best-of-n, мажоритарное голосование и взвешенное мажоритарное голосование на разнообразных наборах данных (GSM8K, MATH500, IFEval, MMLU-Redux и TruthfulQA). Наш подход предлагает практическое решение для согласования языковых моделей на этапе тестирования с использованием дополнительных вычислений без ухудшения качества, расширяя пределы возможностей, которые можно получить из готовых языковых моделей без дополнительного обучения.
Крупные языковые модели (LLM) развиваются беспрецедентными темпами по всему миру, при этом регионы всё чаще внедряют эти модели для приложений на своих основных языках. Оценка этих моделей в разнообразных языковых средах, особенно в условиях низкоресурсных языков, стала серьёзным вызовом для академического сообщества и индустрии. Существующие фреймворки оценки непропорционально сосредоточены на английском языке и нескольких высокоресурсных языках, тем самым игнорируя реальную производительность LLM в многоязычных и низкоресурсных сценариях. Для устранения этого пробела мы представляем GlotEval — лёгкий фреймворк, разработанный для массовой многоязычной оценки. Поддерживая семь ключевых задач (машинный перевод, классификация текста, суммаризация, генерация открытого текста, понимание прочитанного, последовательностная разметка и внутренняя оценка), охватывающих десятки и сотни языков, GlotEval акцентирует внимание на последовательном многоязычном бенчмаркинге, языково-специфичных шаблонах запросов и неанглоцентричном машинном переводе. Это позволяет точно диагностировать сильные и слабые стороны моделей в различных языковых контекстах. Пример исследования многоязычного перевода демонстрирует применимость GlotEval для многоязычных и языково-специфичных оценок.
Крупные языковые модели (LLM) демонстрируют значительные различия в производительности между языками, в основном выигрывая высокоресурсные языки, в то время как недостаточно представленные языки остаются в невыгодном положении. Непрерывное предобучение (Continual Pretraining, CPT) стало перспективным подходом для устранения этого дисбаланса, хотя относительная эффективность стратегий с использованием монолингвальных, билингвальных и данных, дополненных кодом, остается неясной. В данном исследовании систематически оцениваются 36 конфигураций CPT, включающих три многоязычные базовые модели, на более чем 30 языках, классифицированных как альтруистические, эгоистичные и стагнирующие, охватывающих различные уровни ресурсов. Наши результаты выявляют три ключевых вывода: (1) Билингвальное CPT улучшает многоязычную классификацию, но часто вызывает проблемы смешения языков при генерации. (2) Включение данных с программным кодом во время CPT последовательно повышает точность многоязычной классификации, особенно для низкоресурсных языков, но вводит компромисс, слегка ухудшая качество генерации. (3) Вопреки предыдущим работам, мы наблюдаем существенные отклонения от классификации языков по их влиянию на кросс-языковой перенос: языки, классифицированные как альтруистические, часто негативно влияют на родственные языки, эгоистичные языки демонстрируют условное и зависящее от конфигурации поведение, а стагнирующие языки показывают удивительную адаптивность при определенных условиях CPT. Эти сложные взаимодействия подчеркивают сложность обучения многоязычным представлениям, акцентируя важность систематических исследований обобщаемой классификации языков для разработки будущих стратегий многоязычного CPT.