HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

27 papers found

Трение обратной связи: крупные языковые модели испытывают трудности с полным усвоением внешних отзывов
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

Jun 13

ByDongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi

Недавние исследования показали, что крупные языковые модели (LLM) обладают некоторой способностью улучшать свои ответы при получении внешней обратной связи. Однако до сих пор неясно, насколько эффективно и полно эти модели могут интегрировать внешнюю обратную связь. В идеальном сценарии, если LLM получают почти идеальную и полную обратную связь, можно ожидать, что они полностью интегрируют её и изменят свои некорректные ответы на правильные. В данной работе мы систематически исследуем способность LLM учитывать обратную связь, создавая контролируемую экспериментальную среду. Для каждой задачи модель-решатель пытается найти решение, затем генератор обратной связи, имеющий доступ к почти полным эталонным ответам, создаёт целенаправленную обратную связь, после чего решатель пробует снова. Мы оцениваем эту схему на широком спектре задач, включая математические рассуждения, рассуждения на основе знаний, научные рассуждения и общие мультидоменные оценки с использованием современных языковых моделей, таких как Claude 3.7 (с расширенным мышлением и без него). Удивительно, что даже в этих почти идеальных условиях модели-решатели демонстрируют устойчивое сопротивление обратной связи — ограничение, которое мы называем ТРЕНИЕМ ОБРАТНОЙ СВЯЗИ. Для смягчения этого ограничения мы экспериментируем с стратегиями, основанными на сэмплировании, такими как постепенное увеличение температуры и явное отклонение ранее предложенных некорректных ответов, что приводит к улучшениям, но всё же не позволяет моделям достичь целевых показателей. Мы также проводим тщательное исследование потенциальных причин ТРЕНИЯ ОБРАТНОЙ СВЯЗИ, исключая такие факторы, как излишняя уверенность модели и знакомство с данными. Мы надеемся, что акцентирование внимания на этой проблеме в LLM и исключение нескольких очевидных причин помогут будущим исследованиям в области самосовершенствования.

Эффективное тестирование на проникновение агентов, следующих политике
Effective Red-Teaming of Policy-Adherent Agents

Jun 11

ByItay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor

Агенты на основе языковых моделей (LLM), ориентированные на выполнение задач, все чаще используются в областях с жесткими политиками, такими как правила возврата средств или отмены заказов. Основная сложность заключается в обеспечении того, чтобы агент последовательно соблюдал эти правила и политики, корректно отклоняя любые запросы, которые могли бы их нарушить, при этом сохраняя полезное и естественное взаимодействие. Это требует разработки специализированных методологий проектирования и оценки, чтобы обеспечить устойчивость агентов к злонамеренному поведению пользователей. Мы предлагаем новую модель угроз, которая фокусируется на злоумышленниках, стремящихся использовать агентов, придерживающихся политик, для личной выгоды. Для решения этой проблемы мы представляем CRAFT — систему многопользовательского тестирования на проникновение, которая использует стратегии убеждения, учитывающие политики, чтобы подорвать работу агента, придерживающегося политик, в сценарии обслуживания клиентов, превосходя традиционные методы взлома, такие как DAN-подсказки, эмоциональное манипулирование и принуждение. На основе существующего бенчмарка tau-bench мы представляем tau-break — дополнительный бенчмарк, предназначенный для строгой оценки устойчивости агента к манипулятивному поведению пользователей. Наконец, мы оцениваем несколько простых, но эффективных стратегий защиты. Хотя эти меры обеспечивают некоторую защиту, они оказываются недостаточными, что подчеркивает необходимость более сильных, научно обоснованных механизмов защиты для защиты агентов, придерживающихся политик, от атак злоумышленников.

Двойственность диффузии
The Diffusion Duality

Jun 12

BySubham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov

Дискретные модели диффузии с равномерным состоянием обещают быструю генерацию текста благодаря их врожденной способности к самокоррекции. Однако они обычно уступают авторегрессивным моделям и моделям маскированной диффузии. В данной работе мы сокращаем этот разрыв в производительности, используя ключевое наблюдение: процессы диффузии с равномерным состоянием естественным образом возникают из базовой гауссовой диффузии. Наш метод, Duo, переносит мощные техники из гауссовой диффузии для улучшения как обучения, так и выборки. Во-первых, мы вводим стратегию обучения по учебному плану, управляемую гауссовым процессом, что удваивает скорость обучения за счет снижения дисперсии. Модели, обученные с использованием учебного плана, превосходят авторегрессивные модели по перплексии в условиях zero-shot на 3 из 7 тестовых наборов. Во-вторых, мы представляем метод дискретного согласованного дистилляции, который адаптирует дистилляцию согласованности из непрерывного в дискретный контекст. Этот алгоритм позволяет реализовать генерацию за несколько шагов в моделях диффузии для языка, ускоряя выборку на два порядка величины. Мы предоставляем код и контрольные точки модели на странице проекта: http://s-sahoo.github.io/duo.

Синтез согласованных изображений новых ракурсов и геометрии посредством внедрения кросс-модального внимания
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

Jun 13

ByMin-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim

Мы представляем основанную на диффузии методологию, которая выполняет согласованную генерацию изображений и геометрии для новых ракурсов с использованием подхода, основанного на деформации и восстановлении. В отличие от предыдущих методов, требующих плотно размеченных изображений или генеративных моделей, встроенных в ограниченные ракурсы, наш метод использует готовые предсказатели геометрии для прогнозирования частичной геометрии, наблюдаемой с опорных изображений, и формулирует синтез новых ракурсов как задачу восстановления как для изображений, так и для геометрии. Для обеспечения точного согласования между сгенерированными изображениями и геометрией мы предлагаем кросс-модальное дистиллирование внимания, при котором карты внимания из ветви диффузии изображений внедряются в параллельную ветвь диффузии геометрии как во время обучения, так и во время вывода. Этот многозадачный подход достигает синергетического эффекта, способствуя геометрически устойчивому синтезу изображений, а также четкому прогнозированию геометрии. Мы также вводим условное формирование сетки на основе близости для интеграции глубинных и нормальных подсказок, интерполируя между облаком точек и фильтруя ошибочно предсказанную геометрию, чтобы она не влияла на процесс генерации. Эмпирически наш метод достигает высококачественного экстраполятивного синтеза ракурсов как для изображений, так и для геометрии в широком диапазоне неизвестных сцен, демонстрирует конкурентоспособное качество реконструкции в условиях интерполяции и создает геометрически согласованные цветные облака точек для комплексного завершения 3D-моделей. Страница проекта доступна по адресу https://cvlab-kaist.github.io/MoAI.

LiveCodeBench Pro: Как олимпийские медалисты оценивают языковые модели в соревновательном программировании?
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?

Jun 13

ByZihan Zheng, Zerui Cheng, Zeyu Shen, Shang Zhou, Kaiyuan Liu, Hansen He, Dongruixuan Li, Stanley Wei, Hangyi Hao, Jianzhu Yao, Peiyao Sheng, Zixuan Wang, Wenhao Chai, Aleksandra Korolova, Peter Henderson, Sanjeev Arora, Pramod Viswanath, Jingbo Shang, Saining Xie

Недавние сообщения утверждают, что крупные языковые модели (LLM) теперь превосходят элитных людей в соревновательном программировании. Опираясь на знания группы медалистов международных алгоритмических соревнований, мы пересматриваем это утверждение, исследуя, чем LLM отличаются от экспертов-людей и где сохраняются ограничения. Мы представляем LiveCodeBench Pro — эталонный тест, состоящий из задач с Codeforces, ICPC и IOI, которые постоянно обновляются для снижения вероятности загрязнения данных. Команда медалистов олимпиад аннотирует каждую задачу по алгоритмическим категориям и проводит построчный анализ неудачных решений, сгенерированных моделями. Используя эти новые данные и эталонный тест, мы обнаруживаем, что передовые модели всё ещё имеют значительные ограничения: без внешних инструментов лучшая модель достигает лишь 53% pass@1 на задачах средней сложности и 0% на сложных задачах, в которых эксперты-люди всё ещё преуспевают. Мы также обнаруживаем, что LLM успешно справляются с задачами, требующими интенсивной реализации, но испытывают трудности с тонким алгоритмическим рассуждением и сложным анализом случаев, часто генерируя уверенно неверные обоснования. Высокая производительность, по-видимому, в значительной степени обусловлена точностью реализации и использованием инструментов, а не превосходным рассуждением. Таким образом, LiveCodeBench Pro подчеркивает значительный разрыв с уровнем гроссмейстеров-людей, предлагая детализированную диагностику для направления будущих улучшений в рассуждениях LLM, ориентированных на код.

Плотные ретриверы могут не справляться с простыми запросами: раскрытие проблемы гранулярности эмбеддингов
Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings

Jun 10

ByLiyan Xu, Zhenlin Su, Mo Yu, Jiangnan Li, Fandong Meng, Jie Zhou

Данная работа посвящена наблюдаемому ограничению текстовых энкодеров: встраивания (эмбеддинги) могут не распознавать тонкие сущности или события в рамках семантики, что приводит к неудачному плотному поиску даже в простых случаях. Для изучения такого поведения мы сначала представляем новый оценочный набор данных на китайском языке под названием CapRetrieval, где тексты представляют собой подписи к изображениям, а запросы — фразы, запрашивающие сущности или события в различных формах. Оценка в режиме zero-shot показывает, что энкодеры могут не справляться с такими тонкими сопоставлениями, независимо от источников обучения или размеров модели. Стремясь к улучшению, мы проводим тонкую настройку энкодеров с использованием предложенных нами стратегий генерации данных, что позволяет достичь наилучшей производительности на CapRetrieval. В рамках этого процесса мы также выявляем проблему дилеммы гранулярности — сложность для эмбеддингов выражать тонкую значимость, сохраняя при этом соответствие общей семантике. Наш набор данных, код и модели в этой работе публично доступны по адресу https://github.com/lxucs/CapRetrieval.

ViCrit: Проверяемая прокси-задача обучения с подкреплением для визуального восприятия в моделях визуального языка
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

Jun 11

ByXiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang

Обучение с подкреплением (RL) продемонстрировало высокую эффективность для тонкой настройки больших языковых моделей (LLMs) с использованием задач, которые являются сложными, но легко проверяемыми, таких как математические рассуждения или генерация кода. Однако распространение этого успеха на визуальное восприятие в моделях, объединяющих зрение и язык (VLMs), было затруднено из-за недостатка задач, ориентированных на зрение, которые одновременно являются сложными и однозначно проверяемыми. В связи с этим мы представляем ViCrit (Visual Caption Hallucination Critic), задачу RL, которая обучает VLMs локализовать тонкую, синтетическую визуальную галлюцинацию, внедренную в абзацы написанных человеком описаний изображений. Начиная с описания из 200 слов, мы вносим одну, едва заметную ошибку в визуальное описание, изменяя несколько слов, связанных с объектами, атрибутами, количеством или пространственными отношениями, и ставим перед моделью задачу точно определить искаженный фрагмент, учитывая изображение и измененное описание. Такая формулировка сохраняет полную сложность восприятия, обеспечивая при этом бинарную, точную награду, которую легко вычислить и которая является однозначной. Модели, обученные с использованием задачи ViCrit, демонстрируют значительные улучшения в различных тестах для VL. Важно отметить, что улучшения переносятся за пределы данных для обучения на естественных изображениях на абстрактное изображение и визуальную математику, показывая потенциал обучения восприятию, а не просто запоминанию увиденных объектов. Для облегчения оценки мы также представляем ViCrit-Bench, сбалансированный по категориям диагностический тест, который систематически исследует ошибки восприятия в различных областях изображений и типах ошибок. Вместе наши результаты демонстрируют, что тонкая критика галлюцинаций является эффективной и обобщаемой целью для улучшения визуального восприятия в VLMs.

За пределами однородного внимания: энергоэффективные большие языковые модели через кэш ключей и значений, аппроксимированный с помощью преобразования Фурье
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache

Jun 13

ByXiaoran Liu, Siyang He, Qiqi Wang, Ruixiao Li, Yuerong Song, Zhigeng Liu, Linlin Li, Qun Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu

Крупные языковые модели сталкиваются с проблемами, связанными с растущими требованиями к памяти из-за увеличения размера кэша ключей-значений (KV) при увеличении длины контекста. Существующие методы сжатия унифицируют размерности голов или полагаются на обрезку токенов, управляемую вниманием, что часто приводит к потере точности или увеличению вычислительных затрат. Мы предлагаем FourierAttention, фреймворк, не требующий обучения, который использует разнородные роли размерностей голов трансформера: нижние размерности фокусируются на локальном контексте, а верхние — на долгосрочных зависимостях. Проецируя размерности, нечувствительные к длинному контексту, на ортогональные базисы Фурье, FourierAttention аппроксимирует их временную эволюцию с помощью спектральных коэффициентов фиксированной длины. Оценки на моделях LLaMA показывают, что FourierAttention достигает наилучшей точности на длинных контекстах в тестах LongBench и Needle-In-A-Haystack (NIAH). Кроме того, разработано специальное ядро Triton, FlashFourierAttention, которое оптимизирует использование памяти за счет упрощённых операций чтения-записи, обеспечивая эффективное развёртывание без ущерба для производительности.

Med-PRM: Модели медицинского рассуждения с пошаговыми вознаграждениями, проверенными на соответствие рекомендациям
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

Jun 13

ByJaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang

Крупные языковые модели демонстрируют перспективность в клиническом принятии решений, однако современные подходы испытывают трудности с локализацией и исправлением ошибок на конкретных этапах процесса рассуждений. Это ограничение является критическим в медицине, где выявление и устранение ошибок в рассуждениях крайне важно для точной диагностики и эффективного лечения пациентов. Мы представляем Med-PRM — фреймворк моделирования процесса с использованием вознаграждений, который применяет генерацию, усиленную поиском, для проверки каждого шага рассуждений на соответствие установленным медицинским базам знаний. Проверяя промежуточные этапы рассуждений с использованием данных, извлеченных из клинических рекомендаций и литературы, наша модель позволяет точно оценивать качество рассуждений с высокой детализацией. Оценки на пяти медицинских бенчмарках для вопросов и ответов и двух задачах открытой диагностики показывают, что Med-PRM достигает наилучших результатов, улучшая производительность базовых моделей до 13,50% при использовании Med-PRM. Кроме того, мы демонстрируем универсальность Med-PRM, интегрируя его в режиме "plug-and-play" с мощными моделями политик, такими как Meerkat, впервые достигая точности свыше 80% на MedQA с использованием моделей малого масштаба на 8 миллиардов параметров. Наш код и данные доступны по адресу: https://med-prm.github.io/

SwS: Синтез проблем на основе самоосознания слабостей в обучении с подкреплением для рассуждений с использованием больших языковых моделей
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

Jun 10

ByXiao Liang, Zhong-Zhi Li, Yeyun Gong, Yang Wang, Hengyuan Zhang, Yelong Shen, Ying Nian Wu, Weizhu Chen

Обучение с подкреплением с верифицируемыми наградами (RLVR) доказало свою эффективность для обучения больших языковых моделей (LLM) на сложных задачах рассуждения, таких как решение математических задач. Необходимым условием масштабируемости RLVR является наличие высококачественного набора задач с точными и проверяемыми ответами. Однако недостаток тщательно разработанных задач, размеченных человеком, и ограниченная проверяемость ответов в существующих синтетических наборах данных, ориентированных на дистилляцию, снижают их эффективность в обучении с подкреплением. Кроме того, большинство стратегий синтеза задач без разбора расширяют набор задач, не учитывая возможности модели, что приводит к низкой эффективности генерации полезных вопросов. Чтобы устранить эту проблему, мы представляем фреймворк Self-aware Weakness-driven problem Synthesis (SwS), который систематически выявляет недостатки модели и использует их для расширения набора задач. В частности, мы определяем слабости как вопросы, которые модель последовательно не может освоить в процессе итеративной выборки во время обучения с подкреплением. Затем мы извлекаем ключевые концепции из этих случаев неудач и синтезируем новые задачи для усиления слабых областей модели в последующем расширенном обучении, позволяя ей сосредоточиться на своих слабостях и постепенно их преодолевать. Без использования внешней дистилляции знаний наш фреймворк обеспечивает устойчивое обобщение, позволяя модели самостоятельно выявлять и устранять свои слабости в обучении с подкреплением, что приводит к среднему увеличению производительности на 10,0% и 7,7% для моделей с 7B и 32B параметров на восьми основных тестах на рассуждение.

DeepVideo-R1: Тонкая настройка видео с подкреплением через регрессивный GRPO с учетом сложности
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

Jun 9

ByJinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim

Последние исследования продемонстрировали эффективность посттренировки на основе обучения с подкреплением (Reinforcement Learning, RL) для улучшения способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs). В частности, метод Group Relative Policy Optimization (GRPO) показал впечатляющие успехи благодаря использованию алгоритма обучения с подкреплением в стиле PPO с групповыми нормализованными наградами. Однако применение GRPO к видеоязыковым моделям (Video LLMs) изучено в меньшей степени. В данной работе мы исследуем GRPO для видеоязыковых моделей и выявляем две основные проблемы, препятствующие эффективному обучению: (1) зависимость от защитных механизмов и (2) проблема исчезающего преимущества. Для решения этих задач мы предлагаем DeepVideo-R1 — видеоязыковую модель, обученную с использованием нашего предложенного метода Reg-GRPO (Regressive GRPO) и стратегии усиления данных с учетом сложности. Reg-GRPO переформулирует цель GRPO как задачу регрессии, напрямую предсказывая преимущество в GRPO. Такой подход устраняет необходимость в защитных механизмах, таких как функции отсечения и минимума, что способствует более прямому управлению политикой за счет согласования модели с значениями преимущества. Мы также разработали стратегию усиления данных с учетом сложности, которая динамически дополняет обучающие выборки на уровнях сложности, доступных для решения, способствуя формированию разнообразных и информативных сигналов награды. Наши комплексные эксперименты показывают, что DeepVideo-R1 значительно улучшает производительность в задачах видеорассуждения на множестве бенчмарков.

pLSTM: параллелизуемые сети с линейными переходами источников
pLSTM: parallelizable Linear Source Transition Mark networks

Jun 13

ByKorbinian Pöppel, Richard Freinschlag, Thomas Schmied, Wei Lin, Sepp Hochreiter

Современные рекуррентные архитектуры, такие как xLSTM и Mamba, недавно бросили вызов Transformer в области языкового моделирования. Однако их структура ограничивает их применимость только к последовательностям или требует обработки многомерных структур данных, таких как изображения или молекулярные графы, в заранее определенном последовательном порядке. В отличие от них, многомерные рекуррентные нейронные сети (MDRNN) хорошо подходят для данных с более сложной структурой, например, двумерных сеток, деревьев и направленных ациклических графов (DAG). В данной работе мы расширяем понятие многомерности на линейные рекуррентные сети. Мы представляем параллелизуемые сети с линейными переходами и маркировкой (pLSTM), использующие ворота Источника, Перехода и Маркировки, которые действуют на линейный граф общего DAG. Это позволяет реализовать параллелизацию по аналогии с параллельными ассоциативными сканированиями и чанково-рекуррентной формой последовательных линейных RNN, но для DAG. Для регулярных сеток (1D и 2D), таких как изображения, эта схема может быть эффективно реализована с использованием операций einsum, конкатенаций и заполнения за логарифмическое время. pLSTM решают проблему исчезновения/взрыва активаций/градиентов на больших расстояниях в DAG с помощью двух различных режимов: режима направленного распространения (P-режим) и режима диффузного распределения (D-режим). Чтобы продемонстрировать способности pLSTM к работе с длинными дистанциями, мы вводим задачу экстраполяции направления стрелки как синтетическую задачу компьютерного зрения, содержащую информацию о направлении на больших расстояниях. Мы показываем, что pLSTM хорошо обобщаются на изображения большего размера, в то время как Transformer испытывают трудности с экстраполяцией. На устоявшихся бенчмарках для молекулярных графов и задач компьютерного зрения pLSTM также демонстрируют высокую производительность. Код и наборы данных доступны по адресу: https://github.com/ml-jku/plstm_experiments.

JAFAR: Улучшение любой характеристики на любом уровне разрешения
JAFAR: Jack up Any Feature at Any Resolution

Jun 10

ByPaul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome

Базовые кодировщики зрения стали неотъемлемыми для широкого спектра задач плотного зрения. Однако их низкоразрешающие пространственные выходные признаки требуют повышения разрешения для получения высокоразрешающих модальностей, необходимых для последующих задач. В данной работе мы представляем JAFAR — легковесный и гибкий модуль повышения разрешения признаков, который увеличивает пространственное разрешение визуальных признаков любого базового кодировщика зрения до произвольного целевого разрешения. JAFAR использует модуль на основе внимания, предназначенный для улучшения семантического соответствия между высокоразрешающими запросами, полученными из низкоуровневых признаков изображения, и семантически обогащенными низкоразрешающими ключами, с применением модуляции Spatial Feature Transform (SFT). Примечательно, что, несмотря на отсутствие высокоразрешающего обучения, мы демонстрируем, что обучение на низких коэффициентах повышения разрешения и разрешениях обобщается на значительно более высокие масштабы выходных данных. Многочисленные эксперименты показывают, что JAFAR эффективно восстанавливает детализированные пространственные элементы и стабильно превосходит существующие методы повышения разрешения признаков в разнообразных последующих задачах. Страница проекта доступна по адресу https://jafar-upsampler.github.io.

LoRA-Edit: Управляемое редактирование видео с использованием направляющего первого кадра через маскированную тонкую настройку LoRA
LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Jun 11

ByChenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue

Редактирование видео с использованием диффузионных моделей достигло значительных успехов в создании высококачественных изменений для видеоматериалов. Однако современные методы часто полагаются на масштабное предварительное обучение, что ограничивает гибкость для специфических правок. Редактирование с управлением по первому кадру обеспечивает контроль над начальным кадром, но не предоставляет гибкости для последующих кадров. Для решения этой проблемы мы предлагаем метод настройки LoRA (Low-Rank Adaptation) на основе масок, который адаптирует предварительно обученные модели Image-to-Video (I2V) для гибкого редактирования видео. Наш подход сохраняет фоновые области, одновременно обеспечивая контролируемое распространение изменений. Это решение предлагает эффективное и адаптируемое редактирование видео без изменения архитектуры модели. Для более точного управления процессом мы включаем дополнительные референсы, такие как альтернативные точки зрения или репрезентативные состояния сцены, которые служат визуальными якорями для того, как должен разворачиваться контент. Мы решаем задачу управления с помощью стратегии настройки LoRA, управляемой масками, которая адаптирует предварительно обученную модель image-to-video к контексту редактирования. Модель должна обучаться на двух различных источниках: входное видео предоставляет пространственную структуру и подсказки движения, а референсные изображения предлагают руководство по внешнему виду. Пространственная маска позволяет осуществлять обучение для конкретных областей, динамически модулируя то, на что обращает внимание модель, обеспечивая, чтобы каждая область черпала информацию из соответствующего источника. Экспериментальные результаты показывают, что наш метод превосходит современные методы по качеству редактирования видео.

Высококачественный набор данных и надежная оценка для чередующейся генерации изображений и текста
A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

Jun 11

ByYukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang

Последние достижения в области крупных мультимодальных моделей (LMM) значительно улучшили понимание и генерацию мультимодальных данных. Однако эти модели по-прежнему испытывают трудности с созданием тесно переплетенных изображений и текстов, что в основном связано с ограниченным масштабом, качеством и инструктивной насыщенностью современных обучающих наборов данных. Для решения этой проблемы мы представляем InterSyn — крупномасштабный мультимодальный набор данных, созданный с использованием нашего метода самооценки с итеративным уточнением (SEIR). InterSyn включает многошаговые диалоги, управляемые инструкциями, с тесно переплетенными изображениями и текстовыми ответами, обеспечивая богатое разнообразие объектов и строгую автоматизированную проверку качества, что делает его идеальным для обучения LMM следующего поколения, способных следовать инструкциям. Кроме того, для устранения недостатка надежных инструментов оценки, способных анализировать переплетенные мультимодальные выходные данные, мы представляем SynJudge — автоматическую модель оценки, предназначенную для количественного анализа мультимодальных выходных данных по четырем параметрам: содержание текста, содержание изображения, качество изображения и синергия изображения и текста. Экспериментальные исследования показывают, что метод SEIR приводит к существенно более высокому качеству набора данных по сравнению с аналогичным процессом без уточнения. Более того, LMM, обученные на InterSyn, демонстрируют равномерное улучшение производительности по всем метрикам оценки, что подтверждает полезность InterSyn для развития мультимодальных систем.

Не обращайте внимания
Don't Pay Attention

Jun 12

ByMohammad Hammoud, Devang Acharya

Трансформер стал де-факто стандартом для крупных языковых моделей и широкого спектра задач в различных областях. Несмотря на свои многочисленные преимущества, такие как присущий параллелизм при обучении, Трансформер всё ещё сталкивается с ключевыми проблемами из-за неспособности эффективно обрабатывать последовательности, выходящие за пределы фиксированного контекстного окна, и квадратичной сложности механизма внимания. Эти проблемы возродили интерес к архитектурам, подобным рекуррентным нейронным сетям (RNN), которые предлагают линейное масштабирование с длиной последовательности и улучшенное управление долгосрочными зависимостями, хотя и с ограниченным параллелизмом из-за их присущей рекуррентной природы. В данной статье мы предлагаем Avey, новую нейронную фундаментальную архитектуру, которая отходит как от внимания, так и от рекуррентности. Avey состоит из ранкера и авторегрессивного нейронного процессора, которые совместно идентифицируют и контекстуализируют только наиболее релевантные токены для любого заданного токена, независимо от их позиций в последовательности. В частности, Avey разделяет длину последовательности и ширину контекста, что позволяет эффективно обрабатывать произвольно длинные последовательности. Экспериментальные результаты показывают, что Avey превосходит Трансформер на различных стандартных краткосрочных NLP-бенчмарках, при этом особенно выделяясь в захвате долгосрочных зависимостей.

SkillBlender: К универсальной локомоционно-манипуляционной деятельности гуманоидных роботов через объединение навыков
SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending

Jun 11

ByYuxuan Kuang, Haoran Geng, Amine Elhafsi, Tan-Dzung Do, Pieter Abbeel, Jitendra Malik, Marco Pavone, Yue Wang

Гуманоидные роботы обладают значительным потенциалом для выполнения повседневных задач в различных средах благодаря своей гибкости и антропоморфной морфологии. Последние исследования достигли существенного прогресса в управлении всем телом гуманоидных роботов и в задачах локомоции и манипуляции, используя методы оптимального управления или обучения с подкреплением. Однако эти методы требуют трудоемкой настройки для каждой конкретной задачи, чтобы достичь удовлетворительного поведения, что ограничивает их универсальность и масштабируемость для разнообразных задач в повседневных сценариях. В связи с этим мы представляем SkillBlender — новый иерархический фреймворк обучения с подкреплением для универсальной локомоции и манипуляции гуманоидных роботов. SkillBlender сначала предварительно обучает примитивные навыки, не зависящие от конкретной задачи, но ориентированные на достижение цели, а затем динамически комбинирует эти навыки для выполнения сложных задач локомоции и манипуляции с минимальной необходимостью в специфической настройке вознаграждений. Мы также представляем SkillBench — параллельный, кросс-эмбодиментный и разнообразный симуляционный бенчмарк, включающий три эмбодимента, четыре примитивных навыка и восемь сложных задач локомоции и манипуляции, сопровождаемый набором научных метрик оценки, балансирующих точность и выполнимость. Многочисленные симуляционные эксперименты показывают, что наш метод значительно превосходит все базовые подходы, одновременно естественным образом регулируя поведение, чтобы избежать "взлома вознаграждения", что приводит к более точным и выполнимым движениям для разнообразных задач локомоции и манипуляции в повседневных сценариях. Наш код и бенчмарк будут открыты для сообщества, чтобы способствовать дальнейшим исследованиям. Страница проекта: https://usc-gvl.github.io/SkillBlender-web/.

AbstentionBench: Ошибки языковых моделей при обработке неразрешимых вопросов
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

Jun 10

ByPolina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell

Для надежного развертывания крупных языковых моделей (LLM) как в повседневных, так и в критически важных областях, умение определить, когда не отвечать, столь же важно, как и способность давать правильные ответы. Реальные запросы пользователей, которые могут быть неполными, некорректно сформулированными или принципиально неразрешимыми, требуют от LLM способности рассуждать о неопределенности и избирательно воздерживаться от ответа — то есть отказываться давать окончательный ответ. Однако проблема воздержания остается недостаточно изученной, и для современных LLM отсутствует систематическая структура оценки. В данной работе мы представляем AbstentionBench — масштабный бенчмарк для комплексной оценки воздержания на основе 20 разнообразных наборов данных, включающих вопросы с неизвестными ответами, неполными условиями, ложными предпосылками, субъективными интерпретациями и устаревшей информацией. Оценка 20 передовых LLM показывает, что проблема воздержания остается нерешенной, и масштабирование моделей мало помогает в ее решении. Хотя недавние модели, ориентированные на рассуждения, продемонстрировали впечатляющие результаты в решении сложных задач, удивительно, что мы обнаружили, что тонкая настройка на рассуждения ухудшает способность к воздержанию (в среднем на 24%), даже в областях математики и естественных наук, на которых такие модели явно обучались. Мы также выяснили, что хотя тщательно разработанный системный запрос может улучшить воздержание на практике, он не устраняет фундаментальную неспособность моделей рассуждать о неопределенности. Мы публикуем AbstentionBench для стимулирования исследований, направленных на повышение надежности LLM.

Обучение токена непрерывного мышления для улучшенного масштабирования во время тестирования
Learning a Continue-Thinking Token for Enhanced Test-Time Scaling

Jun 12

ByLiran Ringel, Elad Tolochinsky, Yaniv Romano

Масштабирование на этапе тестирования стало эффективным подходом для повышения производительности языковых моделей за счет использования дополнительных вычислительных ресурсов на этапе вывода. Недавние исследования показали, что переопределение токенов завершения мышления (например, замена "</think>" на "Wait") может увеличить количество шагов рассуждения и повысить точность. В данной работе мы исследуем, можно ли обучить специальный токен продолжения мышления для запуска расширенного рассуждения. Мы дополняем дистиллированную версию модели DeepSeek-R1 единственным обученным токеном "<|continue-thinking|>", обучая только его встраивание с помощью обучения с подкреплением, при этом оставляя веса модели замороженными. Наши эксперименты показывают, что этот обученный токен достигает улучшенной точности на стандартных математических тестах по сравнению как с базовой моделью, так и с подходом масштабирования на этапе тестирования, использующим фиксированный токен (например, "Wait") для принудительного ограничения бюджета. В частности, мы наблюдаем, что в случаях, когда подход с фиксированным токеном повышает точность базовой модели, наш метод достигает значительно большего улучшения. Например, на тесте GSM8K подход с фиксированным токеном дает абсолютное улучшение точности на 1,3%, тогда как наш метод с обученным токеном достигает улучшения на 4,2% по сравнению с базовой моделью, не использующей принудительное ограничение бюджета.

Самооптимизирующаяся структура для улучшения ASR с использованием данных, синтезированных TTS
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

Jun 10

ByCheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee

Мы предлагаем самоуточняющуюся структуру, которая повышает производительность систем автоматического распознавания речи (ASR) с использованием только немаркированных наборов данных. Процесс начинается с генерации псевдометок существующей моделью ASR на немаркированной речи, которые затем используются для обучения высококачественной системы синтеза речи (TTS). Далее синтезированные пары "речь-текст" интегрируются в исходную систему ASR, завершая замкнутый цикл самоулучшения. Мы продемонстрировали эффективность данной структуры на примере тайваньского варианта мандаринского языка. Используя 6000 часов немаркированной речи, умеренное количество текстовых данных и синтетический контент, созданный моделями ИИ, мы адаптировали модель Whisper-large-v2 в специализированную модель Twister. Twister снижает уровень ошибок до 20% на мандаринском языке и до 50% на бенчмарках с переключением кода между мандаринским и английским языками по сравнению с Whisper. Результаты подчеркивают, что данная структура представляет собой убедительную альтернативу подходам самоуточнения через псевдометки и предлагает практический путь для улучшения производительности ASR в условиях ограниченных ресурсов или специфических доменов.

Обнаружение вредоносных мемов с использованием разделенного понимания и управляемого рассуждения CoT
Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning

Jun 10

ByFengjun Pan, Anh Tuan Luu, Xiaobao Wu

Обнаружение вредоносных мемов является важной задачей для поддержания целостности онлайн-среды. Однако современные подходы часто сталкиваются с проблемами эффективности использования ресурсов, гибкости или интерпретируемости, что ограничивает их практическое применение в системах модерации контента. Для решения этих проблем мы представляем U-CoT+, новый фреймворк для обнаружения вредоносных мемов. Вместо того чтобы полагаться исключительно на запросы или тонкую настройку мультимодальных моделей, мы сначала разрабатываем высокоточный конвейер преобразования визуальных мемов в текстовые описания, сохраняющие детали. Такой подход разделяет интерпретацию мемов и их классификацию, что позволяет избежать непосредственного анализа сложного визуального контента и обеспечивает ресурсоэффективное обнаружение вредоносных мемов с использованием общих крупных языковых моделей (LLM). На основе этих текстовых описаний мы дополнительно включаем целенаправленные, интерпретируемые руководства, созданные человеком, чтобы направлять рассуждения моделей в рамках подхода zero-shot CoT. Таким образом, данный фреймворк позволяет легко адаптироваться к различным критериям определения вредоносности на разных платформах, в разных регионах и с течением времени, обеспечивая высокую гибкость и интерпретируемость. Эксперименты на семи эталонных наборах данных подтверждают эффективность нашего фреймворка, подчеркивая его потенциал для интерпретируемого и ресурсоэффективного обнаружения вредоносных мемов с использованием маломасштабных LLM. Коды и данные доступны по адресу: https://anonymous.4open.science/r/HMC-AF2B/README.md.

Mirage-1: Расширение и обновление GUI-агента с использованием иерархических мультимодальных навыков
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

Jun 12

ByYuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie

Недавние попытки использования мультимодальных больших языковых моделей (MLLM) в качестве агентов графического интерфейса пользователя (GUI) показали многообещающие результаты. Однако эти агенты по-прежнему испытывают трудности с выполнением долгосрочных задач в онлайн-средах, что в основном связано с недостатком знаний и присущим разрывом между оффлайн- и онлайн-доменами. В данной статье, вдохновляясь тем, как люди обобщают знания в открытых средах, мы предлагаем модуль иерархических мультимодальных навыков (HMS) для решения проблемы недостатка знаний. Этот модуль постепенно абстрагирует траектории в исполнительные навыки, ключевые навыки и, в конечном итоге, мета-навыки, предоставляя иерархическую структуру знаний для планирования долгосрочных задач. Для преодоления разрыва между доменами мы предлагаем алгоритм Skill-Augmented Monte Carlo Tree Search (SA-MCTS), который эффективно использует навыки, приобретенные в оффлайн-средах, для сокращения пространства поиска действий во время онлайн-исследования дерева. На основе HMS мы представляем Mirage-1 — мультимодального, кроссплатформенного, подключаемого агента GUI. Для проверки производительности Mirage-1 в реальных долгосрочных сценариях мы создали новый бенчмарк AndroidLH. Результаты экспериментов показывают, что Mirage-1 превосходит предыдущих агентов на 32%, 19%, 15% и 79% на AndroidWorld, MobileMiniWob++, Mind2Web-Live и AndroidLH соответственно. Страница проекта: https://cybertronagent.github.io/Mirage-1.github.io/

Infinity Instruct: Масштабирование выбора и синтеза инструкций для улучшения языковых моделей
Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

Jun 9

ByJijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin

Крупные языковые модели (LLM) демонстрируют высокую производительность в реальных приложениях, однако существующие открытые наборы данных с инструкциями часто сосредоточены на узких областях, таких как математика или программирование, что ограничивает их обобщающую способность и увеличивает разрыв с проприетарными моделями. Чтобы сократить этот разрыв, мы представляем Infinity-Instruct — высококачественный набор данных с инструкциями, разработанный для улучшения как базовых, так и диалоговых возможностей LLM с помощью двухэтапного процесса. На первом этапе мы отобрали 7,4 миллиона высококачественных базовых инструкций (InfInstruct-F-7.4M) из более чем 100 миллионов образцов, используя гибридные методы отбора данных. На втором этапе мы синтезировали 1,5 миллиона высококачественных диалоговых инструкций (InfInstruct-G-1.5M) с помощью двухэтапного процесса, включающего отбор, эволюцию и диагностическую фильтрацию инструкций. Мы эмпирически оценили Infinity-Instruct, дообучив несколько открытых моделей, включая Mistral, LLaMA, Qwen и Yi, и наблюдали значительное улучшение производительности как на базовых, так и на задачах следования инструкциям, стабильно превосходя официальные версии моделей, дообученных на инструкциях. В частности, InfInstruct-LLaMA3.1-70B превосходит GPT-4-0314 на 8,6% в задачах следования инструкциям, достигая при этом сопоставимых базовых показателей. Эти результаты подчеркивают синергию между базовым и диалоговым обучением и предлагают новые идеи для комплексного развития LLM. Наш набор данных https://huggingface.co/datasets/BAAI/Infinity-Instruct и код https://gitee.com/li-touch/infinity-instruct были опубликованы в открытом доступе.

Встроенные достоверные карты внимания для Vision Transformers
Inherently Faithful Attention Maps for Vision Transformers

Jun 10

ByAnanthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos

Мы представляем метод, основанный на механизме внимания, который использует обученные бинарные маски внимания для обеспечения того, чтобы на предсказание влияли только выделенные области изображения. Контекст может сильно влиять на восприятие объектов, иногда приводя к смещенным представлениям, особенно когда объекты появляются на фонах, выходящих за пределы распределения данных. В то же время многие задачи, ориентированные на объекты на уровне изображения, требуют идентификации релевантных областей, что часто зависит от контекста. Для решения этой проблемы мы предлагаем двухэтапную структуру: на первом этапе обрабатывается всё изображение для обнаружения частей объектов и идентификации областей, значимых для задачи, а на втором этапе используется маскирование входного внимания, чтобы ограничить рецептивное поле этими областями, что позволяет проводить сфокусированный анализ, отфильтровывая потенциально ложную информацию. Оба этапа обучаются совместно, что позволяет второму этапу уточнять результаты первого. Эксперименты на различных наборах данных демонстрируют, что наш подход значительно повышает устойчивость к ложным корреляциям и фонам, выходящим за пределы распределения.

Модели вознаграждения обеспечивают масштабируемую проверку кода, жертвуя точностью ради производительности.
Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

Jun 11

ByGabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala

Стандартная парадигма решения задач программирования с использованием больших языковых моделей (LLMs) заключается в генерации и последующем ранжировании программ, где на этапе ранжирования используется верификатор. Распространённое мнение гласит, что всеобъемлющий верификатор (например, полный набор тестов) следует предпочесть модели оценки результата (ORM) везде, где это возможно, при этом почти не учитывая компромиссы между ними. Мы стремимся оспорить это предположение, систематически исследуя баланс между скоростью и точностью. Мы обнаруживаем, что ORM играют ключевую роль в масштабировании верификации, жертвуя точностью ради скорости, даже когда доступен всеобъемлющий верификатор. Их ценность становится особенно очевидной при использовании подхода "генерация-отсев-ранжирование", где более быстрый, но менее точный верификатор удаляет некорректные решения перед ранжированием — это приводит к системе, которая работает в 11,65 раз быстрее, будучи при этом лишь на 8,33% менее точной, чем полный набор тестов. Мы анализируем подход "генерация-отсев-ранжирование" и показываем, что он работает за счёт фильтрации некорректных, но высоко оценённых решений. Эти результаты позволяют проектировать масштабируемые и точные системы ранжирования программ.

Кандидаты для промптов, затем дистилляция: учитель-ученик фреймворк для аннотирования данных с использованием языковых моделей
Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

Jun 4

ByMingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu

В последнее время крупные языковые модели (LLM) продемонстрировали значительный потенциал для аннотирования данных, существенно снижая трудозатраты, связанные с последующими приложениями. Однако существующие методы в основном используют агрессивную стратегию, предлагая LLM определить единственный "золотой" метку для каждого неразмеченного образца. Из-за присущей LLM неопределенности они часто выдают некорректные метки для сложных образцов, что серьезно ухудшает качество данных для последующих задач. Вдохновленные склонностью людей избегать неоднозначности, мы предлагаем новую парадигму кандидатного аннотирования, в которой крупные языковые модели поощряются к выдаче всех возможных меток при возникновении неопределенности. Чтобы обеспечить уникальные метки для последующих задач, мы разработали учительско-ученическую архитектуру CanDist, которая дистиллирует кандидатные аннотации с помощью малой языковой модели (SLM). Мы также предоставляем строгое обоснование, демонстрирующее, что дистилляция кандидатных аннотаций от учителя LLM предлагает более надежные теоретические гарантии по сравнению с использованием единичных аннотаций. Эксперименты на шести задачах классификации текста подтверждают эффективность предложенного метода. Исходный код доступен по адресу https://github.com/MingxuanXia/CanDist.

Настройка предпочтений с использованием синтетических данных на основе рубрик
Configurable Preference Tuning with Rubric-Guided Synthetic Data

Jun 13

ByVíctor Gallego

Модели обратной связи человека для согласования ИИ, такие как те, что лежат в основе Оптимизации Прямых Предпочтений (Direct Preference Optimization, DPO), часто включают единый, статичный набор предпочтений, что ограничивает адаптивность. В данной работе оспаривается предположение о монолитности предпочтений путем введения Настраиваемой Тюнинга Предпочтений (Configurable Preference Tuning, CPT) — нового фреймворка, позволяющего языковым моделям динамически корректировать свое поведение на основе явных, интерпретируемых человеком директив. CPT использует синтетически сгенерированные данные о предпочтениях, обусловленные системными подсказками, полученными из структурированных, детализированных критериев, определяющих желаемые атрибуты, такие как стиль письма. Благодаря тонкой настройке с учетом этих критериев, языковая модель обучается модулировать свои выходные данные во время вывода в ответ на системную подсказку без необходимости повторного обучения. Этот подход не только обеспечивает детализированный контроль, но и предоставляет механизм для моделирования более тонкой и контекстно-зависимой обратной связи человека. Несколько экспериментальных артефактов, таких как код для обучения, сгенерированные наборы данных и настроенные модели, опубликованы на https://github.com/vicgalle/configurable-preference-tuning.