Ежедневно отобранные исследовательские статьи по ИИ с переводами
Способности крупных языковых моделей (LLMs) к логическому рассуждению уже давно являются предметом активных исследований. В последних работах эти способности были дополнительно улучшены с использованием обучения с подкреплением (RL), причем многие новые методы заявляют о значительном прогрессе при минимальном или полном отсутствии внешнего контроля. Удивительно, но некоторые исследования даже предполагают, что случайные или некорректные сигналы вознаграждения могут улучшить результаты рассуждений. Однако эти прорывы в основном сообщаются для семейства моделей Qwen2.5 и оцениваются на известных бенчмарках, таких как MATH-500, AMC и AIME, тогда как на других моделях, таких как Llama, аналогичные улучшения не достигаются, что требует дальнейшего изучения. Наш анализ показывает, что, хотя Qwen2.5 демонстрирует высокую производительность в математических рассуждениях, её предварительное обучение на крупномасштабных веб-корпусах делает её уязвимой к загрязнению данных в популярных бенчмарках. В результате выводы, полученные на основе этих бенчмарков, могут быть ненадежными. Для решения этой проблемы мы представляем генератор, который создает полностью синтетические арифметические задачи произвольной длины и сложности, формируя чистый набор данных, названный RandomCalculation. Используя эти наборы данных, свободные от утечек, мы показываем, что только точные сигналы вознаграждения стабильно улучшают производительность, тогда как шумовые или некорректные сигналы этого не делают. Мы выступаем за оценку методов RL на незагрязненных бенчмарках и на различных семействах моделей для обеспечения достоверных выводов.
Масштабирование языковых моделей открывает впечатляющие возможности, но сопутствующие вычислительные и ресурсные затраты делают как обучение, так и развертывание дорогостоящими. Существующие подходы к повышению эффективности обычно сосредоточены либо на совместном использовании параметров, либо на адаптивных вычислениях, оставляя открытым вопрос о том, как достичь обеих целей одновременно. Мы представляем Mixture-of-Recursions (MoR) — унифицированную структуру, которая объединяет оба направления повышения эффективности в рамках единого Рекурсивного Трансформера. MoR повторно использует общий набор слоев на каждом шаге рекурсии для достижения параметрической эффективности, в то время как легковесные маршрутизаторы обеспечивают адаптивное мышление на уровне токенов, динамически назначая различную глубину рекурсии отдельным токенам. Это позволяет MoR сосредоточить квадратичные вычисления внимания только на токенах, активных на текущей глубине рекурсии, дополнительно повышая эффективность доступа к памяти за счет избирательного кэширования только их пар ключ-значение. Помимо этих основных механизмов, мы также предлагаем вариант с совместным использованием пар ключ-значение (KV), который повторно использует KV-пары из первой рекурсии, специально разработанный для уменьшения задержки предварительного заполнения и объема занимаемой памяти. На масштабах моделей от 135 млн до 1,7 млрд параметров MoR формирует новый Парето-фронт: при равных затратах на обучение в FLOPs и меньших размерах моделей он значительно снижает перплексию на валидации и повышает точность в условиях малого количества примеров, обеспечивая при этом более высокую пропускную способность по сравнению с базовыми и существующими рекурсивными моделями. Эти достижения демонстрируют, что MoR является эффективным путем к качеству крупных моделей без затрат, связанных с их использованием.
Быстрое развитие крупномасштабных моделей стимулировало значительные прорывы в области цифровых людей. Эти передовые методологии предлагают решения высокой точности для управления аватарами и их визуализации, что побуждает научное сообщество сосредоточиться на следующей важной задаче: создании аудиовизуальных диалоговых интерактивных виртуальных людей. Для содействия исследованиям в этой новой области мы представляем набор данных SpeakerVid-5M — первый крупномасштабный высококачественный набор данных, предназначенный для генерации аудиовизуальных диалоговых интерактивных виртуальных людей. Общий объем данных превышает 8 743 часа, включая более 5,2 миллиона видеоклипов с портретами людей. Он охватывает различные масштабы и типы взаимодействий, включая монологические высказывания, слушание и диалоги. Ключевым образом набор данных структурирован по двум основным измерениям: тип взаимодействия и качество данных. Во-первых, он классифицируется на четыре типа (ветвь диалога, одиночная ветвь, ветвь слушания и ветвь многоходового взаимодействия) в зависимости от сценария взаимодействия. Во-вторых, он разделен на крупномасштабный поднабор для предварительного обучения и тщательно отобранный высококачественный поднабор для контролируемой тонкой настройки (SFT). Эта двойная структура позволяет охватить широкий спектр задач, связанных с 2D-виртуальными людьми. Кроме того, мы предоставляем базовую модель для видеочата на основе авторегрессии (AR), обученную на этих данных, а также набор метрик и тестовых данных, которые служат эталоном VidChatBench для будущих исследований. Как набор данных, так и соответствующий код для обработки данных будут опубликованы в открытом доступе. Страница проекта: https://dorniwang.github.io/SpeakerVid-5M/
Современные модели обработки зрения и языка (VLMs) демонстрируют высокую производительность в задачах пассивного, оффлайн анализа изображений и видео. Однако их эффективность в условиях воплощённого взаимодействия, требующего онлайн-взаимодействия и активного понимания сцены, остаётся ограниченной. В таких сценариях агент воспринимает окружение с точки зрения первого лица, где каждое действие динамически формирует последующие наблюдения. Даже передовые модели, такие как GPT-4o, Claude 3.5 Sonnet и Gemini 2.5 Pro, испытывают трудности в открытых взаимодействиях с окружением, демонстрируя явные ограничения в пространственном мышлении и долгосрочном планировании. Для устранения этого пробела мы представляем EmRACE-3K — набор данных, содержащий более 3000 задач с языковым управлением, размещённых в разнообразных фотореалистичных средах, созданных с использованием Unreal Engine и фреймворка UnrealCV-Zoo. Задачи охватывают широкий спектр воплощённых вызовов, включая навигацию, манипуляцию объектами и выполнение многоэтапных целей. Каждая задача разворачивается как многошаговая траектория, сочетающая визуальные наблюдения от первого лица с высокоуровневыми инструкциями, обоснованными действиями и естественными языковыми объяснениями, выражающими намерения агента на каждом шаге. Используя EmRACE-3K, мы устанавливаем эталон для оценки способностей VLMs к воплощённому мышлению по трём ключевым направлениям: Исследование, Динамическое пространственно-семантическое мышление и Выполнение многоэтапных целей. В условиях zero-shot все модели демонстрируют успешность ниже 20%, что подчёркивает сложность нашего эталона и текущие ограничения VLMs в интерактивных средах. Чтобы продемонстрировать полезность EmRACE-3K, мы дополнительно дообучаем модель Qwen2.5-VL-7B с использованием обучения с учителем, за которым следует обучение с подкреплением. Этот подход приводит к значительным улучшениям во всех трёх категориях задач, подчёркивая эффективность набора данных в развитии способностей к воплощённому мышлению.
Недавние крупные модели рассуждений (LRMs) достигли значительного прогресса в специализированных тестах, однако методы их оценки остаются ограниченными изолированными парадигмами решения задач. Существующие тесты преимущественно оценивают рассуждения на основе отдельных вопросов через последовательное тестирование, что приводит к критическим ограничениям: (1) уязвимость к загрязнению данных и недостаточная сложность (например, DeepSeek-R1 достигает 97,0% на MATH500), что вынуждает создавать новые вопросы с большими затратами человеческих усилий, (2) неспособность оценивать модели в условиях многоконтекстного давления, что является ключевым требованием для реального применения. Чтобы устранить этот пробел, мы представляем REST (Reasoning Evaluation through Simultaneous Testing) — фреймворк для стресс-тестирования, который одновременно подвергает LRMs множеству задач. Помимо базовых рассуждений, REST специально оценивает несколько недостаточно проверяемых способностей: распределение приоритетов в контексте, устойчивость к межзадачным помехам и управление динамической когнитивной нагрузкой. Наша оценка выявила несколько поразительных результатов: даже передовые модели, такие как DeepSeek-R1, демонстрируют значительное снижение производительности при стресс-тестировании. Важно, что REST показывает более сильную дискриминационную способность по сравнению с существующими тестами, выявляя заметные различия в производительности моделей, которые демонстрируют схожие, близкие к максимальным результаты при оценке на отдельных вопросах. Наш анализ выявил ключевые механистические инсайты: (1) "ловушка чрезмерного анализа" является критическим фактором, способствующим снижению производительности; (2) модели, обученные с использованием техники "long2short", сохраняют большую точность своих результатов на отдельных задачах в условиях REST, превосходя модели, обученные стандартным способом. Эти результаты устанавливают REST как экономически эффективную, перспективную парадигму оценки, которая лучше отражает требования реального мира к рассуждениям, одновременно снижая зависимость от непрерывной аннотации человеком.
Крупные языковые модели (LLMs) демонстрируют высокие результаты в понимании и генерации естественного языка, однако остаются уязвимыми к фактическим ошибкам, что ограничивает их надежность в задачах, требующих глубоких знаний. Хотя стратегии, применяемые на этапе декодирования, предлагают перспективное и эффективное решение без необходимости обучения, существующие методы обычно рассматривают сигналы на уровне токенов и слоев изолированно, игнорируя их совместную динамику. В данной работе мы представляем метод контрастного декодирования, учитывающий токены и локализующий слои, который связывает определенные типы токенов с наиболее влиятельными слоями трансформера для улучшения генерации фактов. С помощью эмпирического анализа внимания мы выявляем два ключевых паттерна: знаки препинания получают доминирующее внимание на ранних слоях, в то время как концептуальные токены управляют семантическим рассуждением на промежуточных слоях. Избирательно подавляя внимание к этим типам токенов на соответствующих глубинах, мы добиваемся индукции контролируемого ухудшения фактов и получаем контрастные сигналы для управления финальным декодированием. Наш метод не требует дополнительного обучения или модификации модели, а эксперименты показывают, что он последовательно улучшает точность фактов в различных LLMs и на различных тестовых наборах.
Мы представляем MoVieS — новую модель прямого распространения, которая синтезирует 4D динамические новые виды из монохромных видео за одну секунду. MoVieS представляет динамические 3D сцены с использованием пиксельно-выровненных сеток гауссовых примитивов, явно контролируя их изменяющееся во времени движение. Это впервые позволяет объединить моделирование внешнего вида, геометрии и движения, а также обеспечивает синтез видов, реконструкцию и отслеживание 3D точек в рамках единой обучаемой системы. Соединяя синтез новых видов с реконструкцией динамической геометрии, MoVieS позволяет проводить масштабное обучение на разнообразных наборах данных с минимальной зависимостью от специфического для задачи контроля. В результате модель также естественным образом поддерживает широкий спектр задач с нулевым обучением, таких как оценка потока сцены и сегментация движущихся объектов. Многочисленные эксперименты подтверждают эффективность и производительность MoVieS в решении различных задач, демонстрируя конкурентоспособные результаты при значительном ускорении обработки.
В последнее время роль LLM-как-судей в оценке больших языковых моделей приобрела значительную популярность. Однако современные модели-судьи страдают от узкой специализации и ограниченной устойчивости, что снижает их способность к всесторонним оценкам. В данной работе мы представляем CompassJudger-2 — новую модель-судью общего назначения, которая преодолевает эти ограничения с помощью стратегии курирования данных, ориентированной на задачи и охватывающей несколько доменов. Ключевым элементом нашего подхода является контроль задач оценки с использованием проверяемых вознаграждений, направляющих внутреннее критическое мышление через метод отбора с отклонением, что способствует развитию устойчивых и обобщаемых способностей к оценке. Мы вводим усовершенствованную целевую функцию с функцией потерь на основе градиента политики с запасом для повышения производительности. Эмпирически CompassJudger-2 демонстрирует превосходные результаты на множестве тестов для судей и вознаграждений, а наша 7B модель показывает конкурентоспособную точность оценок по сравнению с значительно более крупными моделями, такими как DeepSeek-V3 и Qwen3-235B-A22B. Кроме того, мы предлагаем JudgerBenchV2 — комплексный эталонный тест, оценивающий точность оценок и согласованность ранжирования в различных доменах, чтобы стандартизировать оценку моделей-судей. Эти вклады способствуют развитию устойчивых и масштабируемых методов оценки LLM и устанавливают новые стандарты производительности и оценки.
Разработка крупных языковых моделей (LLMs) требует надежных бенчмарков, которые охватывают не только академические области, но и промышленные сферы для эффективной оценки их применимости в реальных сценариях. В данной статье мы представляем два экспертных бенчмарка на корейском языке. KMMLU-Redux, реконструированный из существующего KMMLU, состоит из вопросов из экзаменов на получение национальных технических квалификаций в Корее, с устранением критических ошибок для повышения надежности. KMMLU-Pro основан на экзаменах на получение национальных профессиональных лицензий в Корее, чтобы отразить профессиональные знания в стране. Наши эксперименты демонстрируют, что эти бенчмарки всесторонне представляют промышленные знания в Корее. Мы публикуем наш набор данных в открытом доступе.
Генерация с сохранением субъекта (Subject-consistent generation, SCG), направленная на поддержание идентичности субъекта в различных сценах, остается сложной задачей для моделей преобразования текста в изображение (text-to-image, T2I). Существующие методы SCG, не требующие обучения, часто достигают согласованности за счет ограничения разнообразия композиции и поз, что затрудняет выразительное визуальное повествование. Чтобы преодолеть это ограничение, мы предлагаем фреймворк для генерации изображений с сохранением субъекта и разнообразием поз, названный CoDi (Subject-Consistent and Pose-Diverse T2I framework). Вдохновленные прогрессивной природой диффузии, где грубые структуры формируются на ранних этапах, а детали уточняются позже, CoDi использует двухэтапную стратегию: Транспортировка идентичности (Identity Transport, IT) и Уточнение идентичности (Identity Refinement, IR). IT работает на ранних этапах шумоподавления, применяя оптимальную транспортировку для передачи характеристик идентичности в каждое целевое изображение с учетом позы. Это способствует согласованности субъекта при сохранении разнообразия поз. IR применяется на поздних этапах шумоподавления, выбирая наиболее значимые характеристики идентичности для дальнейшего уточнения деталей субъекта. Обширные качественные и количественные результаты по согласованности субъекта, разнообразию поз и соответствию текстовому описанию демонстрируют, что CoDi обеспечивает как лучшее визуальное восприятие, так и более высокую производительность по всем метрикам. Код доступен по адресу: https://github.com/NJU-PCALab/CoDi.
Мы представляем DreamPoster, фреймворк для генерации изображений из текста, который интеллектуально синтезирует высококачественные постеры на основе предоставленных пользователем изображений и текстовых запросов, сохраняя при этом точность содержания и поддерживая гибкое разрешение и компоновку выходных данных. В частности, DreamPoster построен на основе нашей модели T2I, Seedream3.0, которая унифицированно обрабатывает различные типы генерации постеров. Для создания набора данных мы предлагаем систематический конвейер аннотирования данных, который точно маркирует текстовое содержание и иерархию типографики в изображениях постеров, одновременно применяя комплексные методики для создания парных наборов данных, включающих исходные материалы (например, сырые графику/текст) и соответствующие им финальные выходные постеры. Кроме того, мы реализуем прогрессивную стратегию обучения, которая позволяет модели иерархически осваивать многозадачные возможности генерации, сохраняя при этом высокое качество результатов. Оценки на наших тестовых бенчмарках демонстрируют превосходство DreamPoster над существующими методами, достигая высокой степени удобства использования в 88,55\%, по сравнению с GPT-4o (47,56\%) и SeedEdit3.0 (25,96\%). DreamPoster будет доступен в Jimeng и других приложениях Bytedance.
Улучшение математических рассуждений больших языковых моделей (LLM) является ключевой задачей в развитии возможностей искусственного интеллекта. Хотя обучение с учителем (Supervised Fine-Tuning, SFT) и обучение с подкреплением (Reinforcement Learning, RL) являются доминирующими парадигмами обучения, систематическая методология их комбинирования для максимизации как точности, так и эффективности остается в значительной степени неисследованной. В данной статье представлен практичный и эффективный рецепт обучения, который стратегически интегрирует расширенное SFT с RL на основе онлайн-вывода (GRPO). Мы утверждаем, что эти методы играют взаимодополняющие, а не конкурирующие роли: продолжительная фаза SFT сначала выводит точность модели на предельный уровень, после чего фаза GRPO значительно улучшает эффективность использования токенов, сохраняя при этом пиковую производительность. Наши эксперименты показывают, что расширение SFT до 10 эпох является критически важным для достижения прорывов в производительности, а основная роль GRPO в этой структуре заключается в оптимизации длины решений. Эффективность нашего подхода строго подтверждается выдающимися результатами на сложных тестовых наборах, включая высокий рейтинг среди более чем 2200 команд на строго защищенной от утечек Олимпиаде по искусственному интеллекту в математике (AIMO). Эта работа предоставляет сообществу проверенный на практике план для разработки передовых математических решателей, которые одновременно исключительно точны и практически эффективны. Для обеспечения полной воспроизводимости и поддержки будущих исследований мы опубликуем весь наш фреймворк, включая весь код, контрольные точки моделей и конфигурации обучения, по адресу https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.
В данной статье представлен новый метод исполняемой стеганографии, использующий альфа-канал прозрачности файлов ICO для внедрения и доставки самодекомпрессирующихся JavaScript-полезных нагрузок в веб-браузерах. Метод, нацеленный на младший значащий бит (LSB) значений альфа-канала непрозрачных изображений, успешно скрывает сжатый JavaScript-код внутри изображения favicon, не влияя на визуальное качество. Глобальный веб-трафик ежедневно загружает 294 миллиарда favicon, потребляя 0,9 петабайта сетевой пропускной способности. Реализация концепта демонстрирует, что изображение ICO размером 64x64 может содержать до 512 байт несжатых данных или 0,8 килобайта при использовании легкого двухэтапного сжатия. При загрузке страницы браузер автоматически запрашивает favicon, что позволяет встроенному загрузочному скрипту извлечь и выполнить полезную нагрузку полностью в памяти с использованием нативных JavaScript API и доступа к пикселям через canvas. Это создает двухэтапный скрытый канал, не требующий дополнительных сетевых запросов или действий пользователя. Тестирование в различных браузерах на настольных и мобильных платформах подтверждает успешное и незаметное выполнение встроенного скрипта. Мы оцениваем модель угрозы, связываем её с полиморфными фишинговыми атаками, обходящими обнаружение на основе favicon, и анализируем обход политик безопасности контента и антивирусных сканеров. Мы сопоставляем девять примеров целей из MITRE ATT&CK Framework с однострочными JavaScript-командами, которые могут быть произвольно выполнены в файлах ICO. Обсуждаются существующие методы стеганализа и санитизации, подчеркивая ограничения в обнаружении или нейтрализации эксплойтов, использующих альфа-канал. Результаты демонстрируют скрытую и многоразовую поверхность атаки, размывающую традиционные границы между статическими изображениями и исполняемым контентом. Поскольку современные браузеры сообщают о тихих ошибках, когда разработчики специально не загружают файлы ICO, эта поверхность атаки представляет собой интересный пример обязательных веб-поведений, которые, в свою очередь, ставят под угрозу безопасность.
Как ценные цифровые активы, глубокие нейронные сети требуют надежной защиты прав собственности, что делает водяные знаки для нейронных сетей (Neural Network Watermarking, NNW) перспективным решением. Среди различных подходов к NNW методы, основанные на весах, предпочтительны благодаря своей простоте и практичности; однако они остаются уязвимыми к атакам подделки и перезаписи. Для решения этих проблем мы предлагаем NeuralMark — надежный метод, основанный на хэшированном фильтре водяного знака. В частности, мы используем хэш-функцию для генерации необратимого бинарного водяного знака из секретного ключа, который затем применяется в качестве фильтра для выбора параметров модели для внедрения. Этот дизайн искусно связывает параметры внедрения с хэшированным водяным знаком, обеспечивая надежную защиту от атак подделки и перезаписи. Также используется усредняющий пулинг для сопротивления атакам тонкой настройки и обрезки. Кроме того, метод может быть легко интегрирован в различные архитектуры нейронных сетей, обеспечивая широкую применимость. Теоретически мы анализируем его границы безопасности. Эмпирически мы подтверждаем его эффективность и устойчивость на 13 различных архитектурах, включая сверточные сети и трансформеры, охватывая пять задач классификации изображений и одну задачу генерации текста. Исходные коды доступны по адресу https://github.com/AIResearch-Group/NeuralMark.
Большие языковые модели (LLMs) продемонстрировали впечатляющие способности в понимании и генерации естественного языка, однако они сталкиваются с проблемами логической согласованности в генерируемых результатах. Как можно использовать обширные параметрические знания LLMs в формальных рассуждениях, несмотря на их несогласованность? Мы представляем метод прямого интегрирования LLM в интерпретационную функцию формальной семантики для паранепротиворечивой логики. Мы предоставляем экспериментальные доказательства осуществимости метода, оценивая функцию с использованием наборов данных, созданных на основе нескольких кратких бенчмарков фактологической проверки. В отличие от предыдущих работ, наш метод предлагает теоретическую основу для нейро-символических рассуждений, которая использует знания LLM, сохраняя при этом свойства корректности и полноты базовой логики.