HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

22 papers found

SmolVLM: Переосмысление компактных и эффективных мультимодальных моделей
SmolVLM: Redefining small and efficient multimodal models

Apr 7

ByAndrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf

205

Крупные мультимодальные модели (Vision-Language Models, VLMs) демонстрируют выдающуюся производительность, но требуют значительных вычислительных ресурсов, что ограничивает их развертывание на мобильных и периферийных устройствах. Меньшие по размеру VLMs обычно повторяют архитектурные решения более крупных моделей, такие как обширная токенизация изображений, что приводит к неэффективному использованию памяти GPU и ограничивает их практическую применимость для устройств. Мы представляем SmolVLM — серию компактных мультимодальных моделей, специально разработанных для ресурсоэффективного вывода. Мы систематически исследуем архитектурные конфигурации, стратегии токенизации и методы подготовки данных, оптимизированные для минимизации вычислительных затрат. В результате мы выделяем ключевые архитектурные решения, которые обеспечивают значительный прирост производительности в задачах обработки изображений и видео при минимальном использовании памяти. Наша самая маленькая модель, SmolVLM-256M, использует менее 1 ГБ памяти GPU во время вывода и превосходит модель Idefics-80B, которая в 300 раз больше, несмотря на 18-месячный разрыв в разработке. Наша крупнейшая модель с 2,2 млрд параметров конкурирует с современными VLMs, потребляя вдвое меньше памяти GPU. Модели SmolVLM выходят за рамки статических изображений, демонстрируя надежные возможности понимания видео. Наши результаты подчеркивают, что стратегические архитектурные оптимизации, агрессивная, но эффективная токенизация и тщательно подготовленные данные для обучения значительно улучшают мультимодальную производительность, способствуя практичному и энергоэффективному развертыванию на значительно меньших масштабах.

Генерация одноминутного видео с обучением во время тестирования
One-Minute Video Generation with Test-Time Training

Apr 7

ByKaran Dalal, Daniel Koceja, Gashon Hussein, Jiarui Xu, Yue Zhao, Youjin Song, Shihao Han, Ka Chun Cheung, Jan Kautz, Carlos Guestrin, Tatsunori Hashimoto, Sanmi Koyejo, Yejin Choi, Yu Sun, Xiaolong Wang

110

Сегодня трансформеры по-прежнему испытывают трудности с генерацией минутных видео, поскольку слои самовнимания неэффективны для длинных контекстов. Альтернативы, такие как слои Mamba, плохо справляются со сложными многоплановыми историями из-за менее выразительных скрытых состояний. Мы экспериментируем со слоями обучения на этапе тестирования (Test-Time Training, TTT), чьи скрытые состояния сами могут быть нейронными сетями, что делает их более выразительными. Добавление слоев TTT в предварительно обученный трансформер позволяет ему генерировать минутные видео на основе текстовых раскадровок. В качестве доказательства концепции мы создали набор данных на основе мультфильмов "Том и Джерри". По сравнению с базовыми методами, такими как Mamba~2, Gated DeltaNet и слоями скользящего внимания, слои TTT генерируют гораздо более связные видео, рассказывающие сложные истории, опережая их на 34 балла Elo в человеческой оценке 100 видео для каждого метода. Хотя результаты обнадеживают, они все еще содержат артефакты, вероятно, из-за ограниченных возможностей предварительно обученной модели на 5 миллиардов параметров. Эффективность нашей реализации также может быть улучшена. Мы экспериментировали только с минутными видео из-за ограниченных ресурсов, но подход можно расширить на более длинные видео и более сложные истории. Примеры видео, код и аннотации доступны по адресу: https://test-time-training.github.io/video-dit.

Переосмысление рефлексии в предварительном обучении
Rethinking Reflection in Pre-Training

Apr 5

ByEssential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski

Способность языковой модели анализировать собственные рассуждения предоставляет ключевое преимущество для решения сложных задач. Хотя большинство недавних исследований сосредоточено на том, как эта способность развивается в процессе обучения с подкреплением, мы показываем, что она начинает проявляться гораздо раньше — на этапе предварительного обучения модели. Для изучения этого мы вносим преднамеренные ошибки в цепочки рассуждений и проверяем, может ли модель прийти к правильному ответу, распознавая и исправляя эти ошибки. Отслеживая производительность на разных этапах предварительного обучения, мы наблюдаем, что эта способность к самокоррекции появляется рано и постепенно улучшается со временем. Например, модель OLMo2-7B, предварительно обученная на 4 триллионах токенов, демонстрирует самокоррекцию в наших шести задачах на саморефлексию.

T1: Интегрированная самопроверка инструментов для масштабирования вычислений во время тестирования в малых языковых моделях
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

Apr 7

ByMinki Kang, Jongwon Jeong, Jaewoong Cho

Недавние исследования показали, что масштабирование вычислительных ресурсов во время тестирования эффективно улучшает производительность небольших языковых моделей (sLMs). Однако предыдущие работы в основном изучали масштабирование вычислительных ресурсов с использованием дополнительной более крупной модели в качестве верификатора, оставляя вопрос самопроверки sLMs недостаточно исследованным. В данной работе мы исследуем, могут ли sLMs надежно проверять свои выходные данные при масштабировании во время тестирования. Мы обнаруживаем, что даже с использованием дистилляции знаний от более крупных верификаторов, sLMs испытывают трудности с задачами проверки, требующими запоминания, такими как численные расчеты и проверка фактов. Чтобы устранить это ограничение, мы предлагаем метод самопроверки с интеграцией инструментов (T1), который делегирует этапы проверки, требующие значительного запоминания, внешним инструментам, таким как интерпретатор кода. Наш теоретический анализ показывает, что интеграция инструментов снижает требования к запоминанию и улучшает производительность при масштабировании во время тестирования. Эксперименты на бенчмарке MATH демонстрируют, что с использованием T1 модель Llama-3.2 1B при масштабировании во время тестирования превосходит значительно более крупную модель Llama-3.1 8B. Более того, T1 эффективно обобщается как на математические задачи (MATH500), так и на задачи, требующие знаний из различных областей (MMLU-Pro). Наши результаты подчеркивают потенциал интеграции инструментов для существенного улучшения способностей sLMs к самопроверке.

URECA: Уникальное описание любых областей
URECA: Unique Region Caption Anything

Apr 7

BySangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim

Задача описания на уровне регионов заключается в генерации естественных языковых описаний для конкретных областей изображения с акцентом на их отличительные особенности. Однако существующие методы испытывают трудности с созданием уникальных описаний на разных уровнях детализации, что ограничивает их практическую применимость. Для решения проблемы детального понимания на уровне регионов мы представляем набор данных URECA, крупномасштабный набор данных, адаптированный для описания регионов на нескольких уровнях детализации. В отличие от предыдущих наборов данных, которые в основном сосредоточены на выделяющихся объектах, URECA обеспечивает уникальное и согласованное соответствие между регионами и описаниями, включая разнообразные объекты, их части и элементы фона. Ключевым элементом является поэтапный процесс подготовки данных, где каждый этап постепенно улучшает выбор регионов и генерацию описаний. Используя мультимодальные большие языковые модели (MLLM) на каждом этапе, наш процесс создает уникальные и контекстуально обоснованные описания с повышенной точностью и семантическим разнообразием. На основе этого набора данных мы представляем URECA, новую модель описания, разработанную для эффективного кодирования регионов на нескольких уровнях детализации. URECA сохраняет важные пространственные свойства, такие как положение и форма, с помощью простых, но эффективных модификаций существующих MLLM, что позволяет создавать детализированные и семантически насыщенные описания регионов. Наш подход включает динамическое моделирование масок и кодировщик масок высокого разрешения для повышения уникальности описаний. Эксперименты показывают, что URECA достигает наилучших результатов на наборе данных URECA и хорошо обобщается на существующие эталонные тесты для описания регионов.

Квантование ухудшает способность к рассуждениям? Эмпирическое исследование моделей рассуждений с квантованием
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

Apr 7

ByRuikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou

Последние достижения в области языковых моделей, способных к рассуждениям, продемонстрировали выдающиеся результаты в выполнении сложных задач, однако их расширенные цепочки рассуждений увеличивают вычислительные затраты на вывод. Хотя квантование широко применяется для снижения затрат на вывод в крупных языковых моделях, его влияние на модели рассуждений остается недостаточно изученным. В данном исследовании мы проводим первое систематическое изучение квантованных моделей рассуждений, оценивая открытые модели семейств DeepSeek-R1-Distilled Qwen и LLaMA с количеством параметров от 1,5 млрд до 70 млрд, а также модель QwQ-32B. Наше исследование охватывает квантование весов, кэша ключей и значений (KV cache) и активаций с использованием современных алгоритмов на различных уровнях битовой точности, с обширной оценкой на наборах данных для математических (AIME, MATH-500), научных (GPQA) и программистских (LiveCodeBench) рассуждений. Наши результаты показывают, что хотя без потерь квантование может быть достигнуто при использовании W8A8 или W4A16, более низкие уровни битовой точности влекут значительные риски снижения точности. Мы также выявили, что размер модели, её происхождение и сложность задачи являются критическими факторами производительности. Вопреки ожиданиям, квантованные модели не демонстрируют увеличения длины выходных данных. Кроме того, стратегическое масштабирование размеров моделей или шагов рассуждений может эффективно повысить производительность. Все квантованные модели и коды будут опубликованы на https://github.com/ruikangliu/Quantized-Reasoning-Models.

VAPO: Эффективное и надежное обучение с подкреплением для сложных задач логического рассуждения
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Apr 7

ByYuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan

Мы представляем VAPO (Value-based Augmented Proximal Policy Optimization) — новый фреймворк, разработанный для моделей рассуждений в рамках ценностно-ориентированной парадигмы. Протестированный на наборе данных AIME 2024, VAPO, основанный на предобученной модели Qwen 32B, достигает рекордного показателя в 60.4 балла. При прямом сравнении в идентичных экспериментальных условиях VAPO превосходит ранее заявленные результаты моделей DeepSeek-R1-Zero-Qwen-32B и DAPO более чем на 10 баллов. Процесс обучения VAPO выделяется своей стабильностью и эффективностью: он достигает передовых показателей всего за 5 000 шагов. Более того, в ходе множества независимых запусков не было зафиксировано сбоев в обучении, что подчеркивает его надежность. Данное исследование углубляется в задачи длинных цепочек рассуждений (long-CoT) с использованием ценностно-ориентированного подхода в обучении с подкреплением. Мы выделяем три ключевые проблемы, характерные для ценностно-ориентированных методов: смещение ценностной модели, наличие последовательностей разной длины и разреженность сигналов вознаграждения. Благодаря систематическому подходу, VAPO предлагает интегрированное решение, которое эффективно смягчает эти проблемы, обеспечивая улучшенную производительность в задачах длинных цепочек рассуждений.

Concept Lancet: Редактирование изображений с использованием композиционного представления Трансплантация
Concept Lancet: Image Editing with Compositional Representation Transplant

Apr 3

ByJinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal

Диффузионные модели широко используются для задач редактирования изображений. Существующие методы редактирования часто разрабатывают процедуру манипуляции представлениями, определяя направление редактирования в пространстве текстовых эмбеддингов или оценок. Однако такая процедура сталкивается с ключевой проблемой: переоценка силы редактирования нарушает визуальную согласованность, а недооценка приводит к неудаче в выполнении задачи редактирования. Примечательно, что каждое исходное изображение может требовать разной силы редактирования, и поиск подходящей силы методом проб и ошибок является затратным. Чтобы решить эту проблему, мы предлагаем Concept Lancet (CoLan) — zero-shot плагин-энд-плей фреймворк для принципиальной манипуляции представлениями в диффузионном редактировании изображений. На этапе вывода мы декомпозируем исходный вход в латентном пространстве (текстовых эмбеддингов или диффузионных оценок) как разреженную линейную комбинацию представлений собранных визуальных концепций. Это позволяет нам точно оценить присутствие концепций в каждом изображении, что информирует процесс редактирования. В зависимости от задачи редактирования (замена/добавление/удаление) мы выполняем кастомизированный процесс трансплантации концепций, чтобы наложить соответствующее направление редактирования. Для достаточного моделирования пространства концепций мы создали набор данных концептуальных представлений CoLan-150K, который содержит разнообразные описания и сценарии визуальных терминов и фраз для латентного словаря. Эксперименты на нескольких базовых методах диффузионного редактирования изображений показывают, что методы, оснащенные CoLan, достигают наилучших результатов в эффективности редактирования и сохранении согласованности.

LiveVQA: Интерактивный поиск визуальных знаний
LiveVQA: Live Visual Knowledge Seeking

Apr 7

ByMingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen

Мы представляем LiveVQA — автоматически собранный набор данных, содержащий актуальные визуальные знания из Интернета с синтезированными задачами визуального вопроса-ответа (VQA). LiveVQA включает 3 602 одношаговых и многошаговых визуальных вопроса с 6 новостных сайтов, охватывающих 14 категорий новостей, и отличается высокой согласованностью изображений и текста, а также достоверностью информации. Наша оценка на 15 мультимодальных языковых моделях (MLLM), таких как GPT-4o, Gemma-3 и семейство Qwen-2.5-VL, показывает, что более мощные модели в целом справляются лучше, при этом продвинутые способности к визуальному рассуждению оказываются критически важными для сложных многошаговых вопросов. Несмотря на отличные результаты в текстовых задачах, модели с инструментами, такими как поисковые системы, всё ещё демонстрируют значительные пробелы при решении визуальных вопросов, требующих актуальных визуальных знаний, что указывает на важные направления для будущих исследований.

Почему важно рассуждение? Обзор достижений в области мультимодального рассуждения (v1)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

Apr 4

ByJing Bi, Susan Liang, Xiaofei Zhou, Pinxin Liu, Junjia Guo, Yunlong Tang, Luchuan Song, Chao Huang, Guangyu Sun, Jinxi He, Jiarui Wu, Shu Yang, Daoan Zhang, Chen Chen, Lianggong Bruce Wen, Zhang Liu, Jiebo Luo, Chenliang Xu

Рассуждения занимают центральное место в человеческом интеллекте, обеспечивая структурированное решение задач в различных областях. Недавние достижения в области больших языковых моделей (LLM) значительно улучшили их способности к рассуждению в арифметических, общепринятых и символических задачах. Однако эффективное расширение этих возможностей на мультимодальные контексты, где модели должны интегрировать как визуальные, так и текстовые данные, остается серьезной проблемой. Мультимодальные рассуждения вводят сложности, такие как обработка противоречивой информации между модальностями, что требует от моделей применения продвинутых интерпретационных стратегий. Решение этих задач включает не только сложные алгоритмы, но и надежные методологии для оценки точности и согласованности рассуждений. В данной статье представлен краткий, но содержательный обзор методов рассуждений в текстовых и мультимодальных LLM. Благодаря тщательному и актуальному сравнению мы четко формулируем основные вызовы и возможности в области рассуждений, выделяя практические методы для посттренировочной оптимизации и инференса в режиме тестирования. Наша работа предоставляет ценные инсайты и рекомендации, связывая теоретические рамки с практическими реализациями, и задает четкие направления для будущих исследований.

Получаете ли вы то, за что платите? Проверка подмены моделей в API крупных языковых моделей
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Apr 7

ByWill Cai, Tianneng Shi, Xuandong Zhao, Dawn Song

Распространение крупных языковых моделей (LLM), доступных через черные ящики API, создает серьезную проблему доверия: пользователи платят за услуги, основываясь на заявленных возможностях модели (например, размер, производительность), но провайдеры могут скрытно заменять указанную модель более дешевой и менее качественной альтернативой для снижения операционных затрат. Такая непрозрачность подрывает справедливость, снижает доверие и усложняет надежное бенчмаркинг. Обнаружение подобных замен затруднено из-за черного ящика, который обычно ограничивает взаимодействие запросами ввода-вывода. В данной работе формализуется проблема обнаружения замены моделей в API LLM. Мы систематически оцениваем существующие методы проверки, включая статистические тесты на основе выходных данных, бенчмарк-оценки и анализ логарифмических вероятностей, в различных реалистичных сценариях атак, таких как квантование моделей, случайная замена и уклонение от бенчмарков. Наши результаты выявляют ограничения методов, полагающихся исключительно на текстовые выходы, особенно против тонких или адаптивных атак. Хотя анализ логарифмических вероятностей предлагает более надежные гарантии, когда доступен, его доступность часто ограничена. В заключение обсуждается потенциал аппаратных решений, таких как доверенные среды выполнения (TEE), как путь к доказуемой целостности моделей, с акцентом на компромиссы между безопасностью, производительностью и внедрением провайдерами. Код доступен по адресу https://github.com/sunblaze-ucb/llm-api-audit.

Модели согласования потоков на основе гауссовских смесей
Gaussian Mixture Flow Matching Models

Apr 7

ByHansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi

Диффузионные модели аппроксимируют распределение удаления шума как гауссово и предсказывают его среднее значение, тогда как модели согласования потоков перепараметризуют гауссово среднее как скорость потока. Однако они демонстрируют более низкую производительность при выборке за небольшое количество шагов из-за ошибок дискретизации и склонны создавать избыточно насыщенные цвета при использовании классификатор-независимого управления (CFG). Чтобы устранить эти ограничения, мы предлагаем новую модель согласования потоков на основе гауссовой смеси (GMFlow): вместо предсказания среднего значения GMFlow предсказывает динамические параметры гауссовой смеси (GM) для захвата многомодального распределения скорости потока, которое может быть обучено с использованием функции потерь на основе дивергенции Кульбака-Лейблера. Мы показываем, что GMFlow обобщает предыдущие диффузионные модели и модели согласования потоков, где обучается одна гауссова функция с использованием L_2-потери для удаления шума. Для вывода мы разрабатываем решатели GM-SDE/ODE, которые используют аналитические распределения удаления шума и поля скорости для точной выборки за небольшое количество шагов. Кроме того, мы представляем новую схему вероятностного управления, которая смягчает проблемы избыточной насыщенности CFG и улучшает качество генерации изображений. Многочисленные эксперименты демонстрируют, что GMFlow последовательно превосходит базовые модели согласования потоков по качеству генерации, достигая точности 0,942 всего за 6 шагов выборки на наборе данных ImageNet 256×256.

DiaTool-DPO: Оптимизация прямых предпочтений для многошаговых взаимодействий в инструментально расширенных больших языковых моделях
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models

Apr 2

BySunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin

Инструментально-усиленные большие языковые модели (TA-LLMs) демонстрируют перспективы в реальных приложениях, но сталкиваются с трудностями при обработке неполных запросов и запросов, выходящих за пределы их компетенции. В то время как существующие подходы в основном полагаются на контролируемую тонкую настройку с использованием экспертных траекторий, мы предлагаем DiaTool-DPO — новый метод, который улучшает диалоговые возможности TA-LLM с помощью оптимизации прямых предпочтений. Мы моделируем взаимодействия TA-LLM как марковский процесс принятия решений с 5 различными состояниями диалога и классифицируем пользовательские запросы на 3 типа на основе их траекторий переходов между состояниями. Мы автоматически создаем парные наборы данных с правильными и неправильными траекториями диалога и вводим специализированную функцию потерь для управления диалогом. Наше всестороннее тестирование показывает, что DiaTool-DPO приближается к производительности GPT-4 (94,8% в сборе информации, 91% в отклонении вызовов инструментов) с существенным улучшением по сравнению с базовыми моделями (44% и 9,6% соответственно), сохраняя при этом основную функциональность. Наш подход открывает новые возможности для разработки TA-LLM, способных справляться с разнообразными реальными сценариями без необходимости дополнительных экспертных демонстраций или ручной разметки.

BOP Challenge 2024 по оценке 6D позы объектов на основе моделей и без использования моделей
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation

Apr 3

ByVan Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan

Мы представляем методологию оценки, наборы данных и результаты конкурса BOP Challenge 2024, шестого в серии публичных соревнований, организованных для определения современного уровня в области оценки 6D-позиции объектов и связанных задач. В 2024 году нашей целью был переход BOP от лабораторных условий к реальным сценариям. Во-первых, мы ввели новые задачи, не требующие моделей объектов, где 3D-модели недоступны, и методы должны обучаться на объектах только на основе предоставленных эталонных видео. Во-вторых, мы определили новую, более практичную задачу 6D-детектирования объектов, где идентификаторы объектов, видимых на тестовом изображении, не предоставляются на вход. В-третьих, мы представили новые наборы данных BOP-H3, записанные с использованием высококачественных сенсоров и AR/VR-гарнитур, максимально приближенные к реальным условиям. BOP-H3 включают 3D-модели и обучающие видео для поддержки как задач с использованием моделей, так и без них. Участники соревновались на семи треках, каждый из которых определялся задачей, способом обучения на объектах и группой наборов данных. Примечательно, что лучший метод 2024 года для 6D-локализации невидимых объектов с использованием моделей (FreeZeV2.1) достигает на 22% большей точности на BOP-Classic-Core, чем лучший метод 2023 года (GenFlow), и отстает всего на 4% от лучшего метода 2023 года для видимых объектов (GPose2023), хотя и работает значительно медленнее (24,9 против 2,7 секунд на изображение). Более практичный метод 2024 года для этой задачи — Co-op, который занимает всего 0,8 секунды на изображение, работает в 25 раз быстрее и на 13% точнее, чем GenFlow. Методы имеют схожий рейтинг в 6D-детектировании, как и в 6D-локализации, но с более высоким временем выполнения. В 2D-детектировании невидимых объектов с использованием моделей лучший метод 2024 года (MUSE) демонстрирует относительное улучшение на 21% по сравнению с лучшим методом 2023 года (CNOS). Однако точность 2D-детектирования для невидимых объектов все еще заметно (-53%) отстает от точности для видимых объектов (GDet2023). Онлайн-система оценки остается открытой и доступна по адресу http://bop.felk.cvut.cz/.

Clinical ModernBERT: эффективный и длинноконтекстный энкодер для биомедицинских текстов
Clinical ModernBERT: An efficient and long context encoder for biomedical text

Apr 4

BySimon A. Lee, Anthony Wu, Jeffrey N. Chiang

Мы представляем Clinical ModernBERT — трансформерный энкодер, предварительно обученный на обширной биомедицинской литературе, клинических записях и медицинских онтологиях, включая аннотации PubMed, клинические данные MIMIC IV и медицинские коды с их текстовыми описаниями. Основываясь на ModernBERT — современном энкодере текста, который включает архитектурные улучшения, такие как ротационные позиционные эмбеддинги (RoPE), Flash Attention и увеличенную длину контекста до 8 192 токенов, — наша модель адаптирует эти инновации специально для биомедицинских и клинических областей. Clinical ModernBERT превосходно справляется с созданием семантически насыщенных представлений, оптимизированных для задач с длинным контекстом. Мы подтверждаем это как анализом его предварительно обученных весов, так и эмпирической оценкой на комплексном наборе клинических NLP-бенчмарков.

3D-понимание сцены через моделирование последовательностей с локальным произвольным доступом
3D Scene Understanding Through Local Random Access Sequence Modeling

Apr 4

ByWanhee Lee, Klemen Kotar, Rahul Mysore Venkatesh, Jared Watrous, Honglin Chen, Khai Loong Aw, Daniel L. K. Yamins

Понимание трехмерных сцен по одиночным изображениям является ключевой задачей в компьютерном зрении с множеством приложений в графике, дополненной реальности и робототехнике. Хотя подходы на основе диффузионных моделей показали перспективность, они часто испытывают трудности с поддержанием согласованности объектов и сцен, особенно в сложных реальных сценариях. Для преодоления этих ограничений мы предлагаем авторегрессивный генеративный подход под названием моделирование локальной последовательности с произвольным доступом (Local Random Access Sequence, LRAS), который использует квантование локальных патчей и генерацию последовательностей в случайном порядке. Используя оптический поток в качестве промежуточного представления для редактирования 3D-сцен, наши эксперименты демонстрируют, что LRAS достигает передовых результатов в синтезе новых видов и манипуляции 3D-объектами. Кроме того, мы показываем, что наш фреймворк естественным образом расширяется до задачи самообучаемой оценки глубины с помощью простой модификации дизайна последовательности. Демонстрируя высокую производительность в нескольких задачах понимания 3D-сцен, LRAS предоставляет унифицированный и эффективный фреймворк для создания следующего поколения моделей 3D-зрения.

Mamba как мост: где модели фундаментального зрения встречаются с моделями "зрение-язык" для обобщённой семантической сегментации доменов
Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

Apr 4

ByXin Zhang, Robby T. Tan

Модели Vision Foundation Models (VFMs) и Vision-Language Models (VLMs) получили широкое признание в задаче Domain Generalized Semantic Segmentation (DGSS) благодаря своим мощным способностям к обобщению. Однако существующие методы DGSS часто полагаются исключительно либо на VFMs, либо на VLMs, упуская из виду их взаимодополняющие преимущества. VFMs (например, DINOv2) превосходно справляются с захватом детализированных признаков, в то время как VLMs (например, CLIP) обеспечивают надежное текстовое согласование, но испытывают трудности с грубой детализацией. Несмотря на их взаимодополняющие сильные стороны, эффективная интеграция VFMs и VLMs с использованием механизмов внимания является сложной задачей, поскольку увеличение количества токенов усложняет моделирование длинных последовательностей. Для решения этой проблемы мы предлагаем MFuser — инновационную фреймворк-основанную на Mamba архитектуру, которая эффективно объединяет сильные стороны VFMs и VLMs, сохраняя линейную масштабируемость по длине последовательности. MFuser состоит из двух ключевых компонентов: MVFuser, который выступает в роли совместного адаптера для тонкой настройки двух моделей, захватывая как последовательные, так и пространственные динамики; и MTEnhancer — гибридного модуля attention-Mamba, который улучшает текстовые эмбеддинги, интегрируя априорные данные изображений. Наш подход обеспечивает точную локальность признаков и сильное текстовое согласование без значительных вычислительных затрат. Многочисленные эксперименты демонстрируют, что MFuser значительно превосходит современные методы DGSS, достигая 68.20 mIoU на синтетико-реальных и 71.87 mIoU на реально-реальных бенчмарках. Код доступен по адресу https://github.com/devinxzhang/MFuser.

Дистилляция и уточнение рассуждений в малых языковых моделях для повторного ранжирования документов
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking

Apr 4

ByChris Samarinas, Hamed Zamani

Мы представляем новый подход для обучения компактных языковых моделей для задач ранжирования документов, требующих сложных рассуждений, который сочетает дистилляцию знаний с оптимизацией методом обучения с подкреплением. В то время как существующие методы часто полагаются на дорогостоящие аннотации от людей или крупные "черные ящики" языковых моделей, наша методология использует веб-данные и языковую модель-учитель для автоматической генерации высококачественных обучающих примеров с объяснениями релевантности. Формулируя задачу ранжирования документов как проблему обучения с подкреплением и стимулируя развитие явных способностей к рассуждению, мы обучаем компактную языковую модель с 3 миллиардами параметров, которая достигает наилучших результатов на бенчмарке BRIGHT. Наша модель занимает третье место в рейтинге, используя значительно меньше параметров по сравнению с другими подходами, и превосходит модели, которые более чем в 20 раз крупнее. В ходе обширных экспериментов мы демонстрируем, что генерация объяснений во время вывода, а не прямое предсказание оценок релевантности, позволяет более эффективно использовать рассуждения в компактных языковых моделях. Самоконтролируемый характер нашего метода предлагает масштабируемое и интерпретируемое решение для современных систем информационного поиска.

Образец, не ищи: Переосмысление адаптации языковых моделей на этапе тестирования
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models

Apr 4

ByGonçalo Faria, Noah A. Smith

Увеличение вычислительных ресурсов на этапе тестирования стало перспективным направлением для повышения производительности языковых моделей, особенно в сценариях, где тонкая настройка модели невозможна или нецелесообразна из-за вычислительных ограничений или приватности весов модели. Однако существующие методы поиска на этапе тестирования с использованием модели вознаграждения (RM) часто теряют в качестве по мере масштабирования вычислений из-за чрезмерной оптимизации несовершенных прокси-метрик вознаграждения. Мы представляем QAlign — новый подход к согласованию на этапе тестирования. По мере увеличения вычислительных ресурсов QAlign сходится к выборке из оптимального согласованного распределения для каждого отдельного запроса. Используя последние достижения в методах Монте-Карло с марковскими цепями для генерации текста, наш метод позволяет получать более согласованные выходные данные без изменения базовой модели или даже доступа к логитам. Мы демонстрируем эффективность QAlign на задачах математического рассуждения (GSM8K и GSM-Symbolic) с использованием RM, специфичной для задачи, показывая устойчивые улучшения по сравнению с существующими методами, такими как best-of-n и мажоритарное голосование. Более того, при применении с более реалистичными RM, обученными на наборе данных предпочтений Tulu 3, QAlign превосходит прямое оптимизацию предпочтений (DPO), best-of-n, мажоритарное голосование и взвешенное мажоритарное голосование на разнообразных наборах данных (GSM8K, MATH500, IFEval, MMLU-Redux и TruthfulQA). Наш подход предлагает практическое решение для согласования языковых моделей на этапе тестирования с использованием дополнительных вычислений без ухудшения качества, расширяя пределы возможностей, которые можно получить из готовых языковых моделей без дополнительного обучения.

JailDAM: Обнаружение взлома с адаптивной памятью для визуально-языковых моделей
JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model

Apr 3

ByYi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

Мультимодальные крупные языковые модели (MLLMs) демонстрируют выдающиеся результаты в задачах, связанных с обработкой визуальной и текстовой информации, но также представляют значительные риски генерации вредоносного контента, особенно в результате атак типа "jailbreak". Атаки "jailbreak" представляют собой преднамеренные манипуляции, которые обходят механизмы безопасности моделей, приводя к созданию нежелательного или опасного контента. Обнаружение таких атак критически важно для обеспечения ответственного использования MLLMs. Существующие методы обнаружения "jailbreak" сталкиваются с тремя основными проблемами: (1) многие из них полагаются на скрытые состояния или градиенты модели, что ограничивает их применимость к "белым" моделям, где внутренние механизмы модели доступны; (2) они связаны с высокими вычислительными затратами из-за анализа, основанного на неопределенности, что ограничивает возможность обнаружения в реальном времени; (3) они требуют полностью размеченных наборов данных с вредоносным контентом, которые часто недоступны в реальных условиях. Для решения этих проблем мы представляем адаптивную на этапе тестирования структуру под названием JAILDAM. Наш метод использует подход, основанный на памяти и управляемый политикой представления небезопасных знаний, что устраняет необходимость явного воздействия на вредоносные данные. Благодаря динамическому обновлению небезопасных знаний на этапе тестирования, наша структура улучшает обобщение на неизвестные стратегии "jailbreak", сохраняя при этом эффективность. Эксперименты на нескольких бенчмарках для атак "jailbreak" на визуально-языковые модели (VLM) демонстрируют, что JAILDAM обеспечивает передовые показатели в обнаружении вредоносного контента, улучшая как точность, так и скорость.

Переосмысление многоязычного непрерывного предобучения: смешивание данных для адаптации крупных языковых моделей к различным языкам и ресурсам
Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources

Apr 5

ByZihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann

Крупные языковые модели (LLM) демонстрируют значительные различия в производительности между языками, в основном выигрывая высокоресурсные языки, в то время как недостаточно представленные языки остаются в невыгодном положении. Непрерывное предобучение (Continual Pretraining, CPT) стало перспективным подходом для устранения этого дисбаланса, хотя относительная эффективность стратегий с использованием монолингвальных, билингвальных и данных, дополненных кодом, остается неясной. В данном исследовании систематически оцениваются 36 конфигураций CPT, включающих три многоязычные базовые модели, на более чем 30 языках, классифицированных как альтруистические, эгоистичные и стагнирующие, охватывающих различные уровни ресурсов. Наши результаты выявляют три ключевых вывода: (1) Билингвальное CPT улучшает многоязычную классификацию, но часто вызывает проблемы смешения языков при генерации. (2) Включение данных с программным кодом во время CPT последовательно повышает точность многоязычной классификации, особенно для низкоресурсных языков, но вводит компромисс, слегка ухудшая качество генерации. (3) Вопреки предыдущим работам, мы наблюдаем существенные отклонения от классификации языков по их влиянию на кросс-языковой перенос: языки, классифицированные как альтруистические, часто негативно влияют на родственные языки, эгоистичные языки демонстрируют условное и зависящее от конфигурации поведение, а стагнирующие языки показывают удивительную адаптивность при определенных условиях CPT. Эти сложные взаимодействия подчеркивают сложность обучения многоязычным представлениям, акцентируя важность систематических исследований обобщаемой классификации языков для разработки будущих стратегий многоязычного CPT.

GlotEval: Тестовый набор для масштабной мультиязычной оценки больших языковых моделей
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models

Apr 5

ByHengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann

Крупные языковые модели (LLM) развиваются беспрецедентными темпами по всему миру, при этом регионы всё чаще внедряют эти модели для приложений на своих основных языках. Оценка этих моделей в разнообразных языковых средах, особенно в условиях низкоресурсных языков, стала серьёзным вызовом для академического сообщества и индустрии. Существующие фреймворки оценки непропорционально сосредоточены на английском языке и нескольких высокоресурсных языках, тем самым игнорируя реальную производительность LLM в многоязычных и низкоресурсных сценариях. Для устранения этого пробела мы представляем GlotEval — лёгкий фреймворк, разработанный для массовой многоязычной оценки. Поддерживая семь ключевых задач (машинный перевод, классификация текста, суммаризация, генерация открытого текста, понимание прочитанного, последовательностная разметка и внутренняя оценка), охватывающих десятки и сотни языков, GlotEval акцентирует внимание на последовательном многоязычном бенчмаркинге, языково-специфичных шаблонах запросов и неанглоцентричном машинном переводе. Это позволяет точно диагностировать сильные и слабые стороны моделей в различных языковых контекстах. Пример исследования многоязычного перевода демонстрирует применимость GlotEval для многоязычных и языково-специфичных оценок.