Ежедневно отобранные исследовательские статьи по ИИ с переводами
Визуальное мышление является ключевым компонентом человеческого интеллекта и важной способностью для современных мультимодальных моделей. Однако текущие оценки мышления мультимодальных больших языковых моделей (MLLMs) часто основываются на текстовых описаниях и допускают языковые упрощения, что не позволяет измерить подлинное визуально-ориентированное мышление. Для решения этой проблемы мы представляем VisuLogic: набор из 1000 проверенных человеком задач, охватывающих шесть категорий (например, количественные изменения, пространственные отношения, сравнение атрибутов). Эти разнообразные типы вопросов позволяют оценить способности MLLMs к визуальному мышлению с разных сторон. Мы тестируем ведущие MLLMs на этом наборе и анализируем их результаты, чтобы выявить типичные ошибки. Большинство моделей показывают точность ниже 30% — лишь немного выше случайного базового уровня в 25% и значительно ниже 51,4%, достигнутых людьми, что указывает на существенные пробелы в визуальном мышлении. Кроме того, мы предоставляем дополнительный обучающий набор данных и базовый уровень на основе обучения с подкреплением для поддержки дальнейшего прогресса.
Насколько экономически эффективно можно достичь мощных способностей к рассуждению в языковых моделях? Руководствуясь этим фундаментальным вопросом, мы представляем Tina — семейство компактных моделей для рассуждений, созданных с высокой экономической эффективностью. Примечательно, что Tina демонстрирует, что значительная производительность в рассуждениях может быть достигнута с использованием минимальных ресурсов за счет применения параметрически эффективных обновлений в процессе обучения с подкреплением (RL) с использованием низкоранговой адаптации (LoRA) к уже компактной базовой модели с 1,5 миллиардами параметров. Этот минималистичный подход создает модели, которые достигают производительности в рассуждениях, сопоставимой, а иногда и превосходящей современные RL-модели для рассуждений, построенные на той же базовой модели. Важно, что это достигается при ничтожной доле вычислительных затрат на пост-обучение, используемых существующими современными моделями. Фактически, лучшая модель Tina демонстрирует увеличение производительности в рассуждениях более чем на 20% и точность Pass@1 в 43,33% на AIME24 при затратах на пост-обучение и оценку всего в \$9 USD (т.е. предполагаемое сокращение затрат в 260 раз). Наша работа раскрывает удивительную эффективность эффективного RL-обучения рассуждениям с использованием LoRA. Мы подтверждаем это на множестве открытых наборов данных для рассуждений и в различных условиях абляции, начиная с единого фиксированного набора гиперпараметров. Более того, мы предполагаем, что эта эффективность и экономичность обусловлены тем, что LoRA быстро адаптирует модель к структурному формату рассуждений, поощряемому RL, в значительной степени сохраняя базовые знания модели. В целях доступности и открытых исследований мы полностью открываем исходный код, логи обучения, а также веса и контрольные точки моделей.
В данной статье мы представляем DreamID — модель замены лиц на основе диффузии, которая достигает высокого уровня сходства идентификаторов, сохранения атрибутов, качества изображения и быстрой скорости вывода. В отличие от типичного процесса обучения замене лиц, который часто полагается на неявное управление и сталкивается с трудностями в достижении удовлетворительных результатов, DreamID устанавливает явное управление для замены лиц путем построения данных Triplet ID Group, что значительно улучшает сходство идентификаторов и сохранение атрибутов. Итерационная природа моделей диффузии создает сложности для использования эффективных функций потерь в пространстве изображений, так как выполнение трудоемкого многошагового сэмплирования для получения сгенерированного изображения во время обучения непрактично. Чтобы решить эту проблему, мы используем ускоренную модель диффузии SD Turbo, сокращая шаги вывода до одной итерации, что позволяет эффективно обучать модель на уровне пикселей с явным управлением Triplet ID Group. Кроме того, мы предлагаем улучшенную архитектуру модели на основе диффузии, включающую SwapNet, FaceNet и ID Adapter. Эта надежная архитектура полностью раскрывает потенциал явного управления Triplet ID Group. Наконец, для дальнейшего расширения нашего метода мы явно модифицируем данные Triplet ID Group во время обучения для тонкой настройки и сохранения конкретных атрибутов, таких как очки и форма лица. Многочисленные эксперименты демонстрируют, что DreamID превосходит современные методы по сходству идентификаторов, сохранению позы и выражения, а также качеству изображения. В целом, DreamID достигает высококачественных результатов замены лиц с разрешением 512*512 всего за 0,6 секунды и отлично справляется в сложных сценариях, таких как сложное освещение, большие углы и окклюзии.
Мы представляем PHYBench — новый высококачественный бенчмарк, разработанный для оценки способностей больших языковых моделей (LLM) к рассуждению в физических контекстах. PHYBench состоит из 500 тщательно отобранных физических задач, основанных на реальных физических сценариях, которые предназначены для оценки способности моделей понимать и рассуждать о реалистичных физических процессах. Охватывая механику, электромагнетизм, термодинамику, оптику, современную физику и продвинутые разделы физики, бенчмарк включает задачи различного уровня сложности — от школьных упражнений до университетских задач и вызовов Физической олимпиады. Кроме того, мы предлагаем новую метрику оценки — Expression Edit Distance (EED) Score, основанную на расстоянии редактирования между математическими выражениями, которая эффективно фиксирует различия в процессах и результатах рассуждений моделей, выходя за рамки традиционных бинарных методов оценки. Мы тестируем различные LLM на PHYBench и сравниваем их результаты с показателями экспертов-людей. Наши результаты показывают, что даже самые передовые модели рассуждений значительно отстают от экспертов, что подчеркивает их ограничения и необходимость улучшения в сложных сценариях физического рассуждения. Наши результаты бенчмарка и набор данных доступны публично по адресу https://phybench-official.github.io/phybench-demo/.
Мы представляем Trillion-7B — наиболее эффективную по использованию токенов корейско-ориентированную многоязычную языковую модель (LLM). Наш новый механизм Cross-lingual Document Attention (XLDA) обеспечивает высокоэффективный и результативный перенос знаний с английского на целевые языки, такие как корейский и японский. В сочетании с оптимизированными смесями данных, языковой фильтрацией и адаптированным построением токенизатора, Trillion-7B демонстрирует конкурентоспособную производительность, выделяя всего 10\% из 2 триллионов токенов обучения на многоязычные данные и требуя лишь 59,4 тыс. часов работы GPU H100 (\$148 тыс.) для полного обучения. Комплексные оценки на 27 бенчмарках для четырёх языков подтверждают устойчивую многоязычную производительность и исключительную кросс-языковую согласованность модели Trillion-7B.
По мере развития области обучения представлений наблюдается рост разнообразия функций потерь, предназначенных для решения различных классов задач. Мы представляем единое уравнение, основанное на теории информации, которое обобщает большое количество современных функций потерь в машинном обучении. В частности, мы предлагаем концептуальную основу, которая показывает, что несколько широких классов методов машинного обучения минимизируют интегрированную дивергенцию Кульбака-Лейблера между двумя условными распределениями: целевыми и обучаемыми представлениями. Этот подход раскрывает скрытую информационную геометрию, лежащую в основе кластеризации, спектральных методов, снижения размерности, контрастивного обучения и обучения с учителем. Данная концепция позволяет разрабатывать новые функции потерь, комбинируя успешные методы из различных источников. Мы не только представляем широкий спектр доказательств, связывающих более 23 различных подходов, но и используем эти теоретические результаты для создания современных классификаторов изображений без учителя, которые демонстрируют улучшение на +8% по сравнению с предыдущими лучшими результатами в задаче классификации без учителя на ImageNet-1K. Мы также показываем, что I-Con может быть использован для разработки принципиальных методов устранения смещений, которые улучшают контрастивные модели обучения представлений.
В последнее время обширные исследования в области настройки изображений (например, идентичности, объекта, стиля, фона и т.д.) демонстрируют мощные возможности кастомизации в крупномасштабных генеративных моделях. Однако большинство подходов разработаны для конкретных задач, что ограничивает их универсальность в комбинировании различных типов условий. Разработка унифицированной системы для настройки изображений остается открытой проблемой. В данной статье мы представляем DreamO — систему настройки изображений, предназначенную для поддержки широкого спектра задач и обеспечивающую бесшовную интеграцию множества условий. В частности, DreamO использует фреймворк диффузионного трансформера (DiT) для единообразной обработки входных данных различных типов. В процессе обучения мы создаем крупномасштабный набор данных, включающий различные задачи настройки, и вводим ограничение на маршрутизацию признаков для точного извлечения релевантной информации из эталонных изображений. Кроме того, мы разрабатываем стратегию использования заполнителей, которая связывает конкретные заполнители с условиями в определенных позициях, что позволяет контролировать размещение условий в генерируемых результатах. Также мы применяем прогрессивную стратегию обучения, состоящую из трех этапов: начальный этап, сосредоточенный на простых задачах с ограниченным объемом данных для установления базовой согласованности, этап полномасштабного обучения для всестороннего улучшения возможностей настройки и заключительный этап выравнивания качества для устранения искажений, вызванных низкокачественными данными. Многочисленные эксперименты показывают, что предложенная система DreamO способна эффективно выполнять различные задачи настройки изображений с высоким качеством и гибко интегрировать различные типы управляющих условий.
В данной статье представлена наша победная заявка на конкурс AI Mathematical Olympiad - Progress Prize 2 (AIMO-2). Наш подход к созданию передовых моделей математического рассуждения основывается на трех ключевых элементах. Во-первых, мы создаем масштабный набор данных, включающий 540 тысяч уникальных высококачественных математических задач, в том числе олимпиадного уровня, и их 3,2 миллиона подробных решений. Во-вторых, мы разрабатываем новый метод интеграции выполнения кода с моделями длинных рассуждений через итеративное обучение, генерацию и фильтрацию качества, что позволяет получить 1,7 миллиона высококачественных решений с использованием инструментов (Tool-Integrated Reasoning). В-третьих, мы создаем конвейер для обучения моделей выбирать наиболее перспективное решение из множества кандидатов. Мы показываем, что такой генеративный выбор решений (GenSelect) может значительно улучшить базовый подход, основанный на голосовании большинства. Объединяя эти идеи, мы обучаем серию моделей, которые достигают передовых результатов на тестах математического рассуждения. Для содействия дальнейшим исследованиям мы публикуем наш код, модели и полный набор данных OpenMathReasoning под коммерчески разрешительной лицензией.
Оптимизация прямых предпочтений (Direct Preference Optimization, DPO) упрощает обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF) для больших языковых моделей (Large Language Models, LLMs), напрямую оптимизируя человеческие предпочтения без явной модели вознаграждения. Мы обнаружили, что в процессе обучения DPO эталонная модель выполняет роль регулятора весов данных. Однако распространённая практика инициализации политики и эталонной модели одинаковыми параметрами в DPO может привести к неэффективному использованию данных и установить потолок производительности. В то же время отсутствие эталонной модели в Simple Preference Optimization (SimPO) снижает устойчивость обучения и требует более строгих условий для предотвращения катастрофического забывания. В данной работе мы предлагаем Pre-DPO, простую, но эффективную парадигму обучения на основе DPO, которая улучшает оптимизацию предпочтений за счёт использования направляющей эталонной модели. Эта модель предоставляет предварительное представление о оптимальном состоянии политики, достижимом с помощью данных предпочтений обучения, выступая в качестве механизма направляющего адаптивного назначения более высоких весов образцам, более подходящим для модели, и более низких весов — менее подходящим. Многочисленные эксперименты на бенчмарках AlpacaEval 2.0 и Arena-Hard v0.1 демонстрируют, что Pre-DPO последовательно улучшает производительность как DPO, так и SimPO, не полагаясь на внешние модели или дополнительные данные.
Контрастное предварительное обучение на основе языка и изображений (CLIP) достигло успеха в решении множества задач благодаря выравниванию модальностей изображений и текста. Однако природа глобального контрастного обучения ограничивает способность CLIP понимать композиционные концепции, такие как отношения и атрибуты. Хотя недавние исследования используют глобальные жесткие отрицательные примеры для улучшения понимания композиций, эти методы значительно ухудшают общие способности модели, принудительно отдаляя текстовые отрицательные примеры от изображений в пространстве вложений. Чтобы преодолеть это ограничение, мы представляем фреймворк Decoupled Global-Local Alignment (DeGLA), который улучшает понимание композиций, существенно снижая потери в общих способностях. Для оптимизации сохранения внутренних возможностей модели мы включаем механизм самообучения в процесс глобального выравнивания, согласовывая обучаемый кодировщик изображений и текста с замороженной учительской моделью, полученной из экспоненциального скользящего среднего. В рамках ограничений самообучения это эффективно смягчает катастрофическое забывание предварительно обученных знаний во время тонкой настройки. Для улучшения понимания композиций мы сначала используем способность крупных языковых моделей (LLM) к обучению в контексте для создания около 2 миллионов высококачественных отрицательных подписей по пяти типам. Затем мы предлагаем функцию потерь Image-Grounded Contrast (IGC) и Text-Grounded Contrast (TGC) для улучшения композиционности в области зрения и языка. Обширные экспериментальные результаты демонстрируют эффективность фреймворка DeGLA. По сравнению с предыдущими передовыми методами, DeGLA достигает среднего улучшения на 3,5% на бенчмарках VALSE, SugarCrepe и ARO. Одновременно он показывает средний прирост производительности на 13,0% в задачах классификации с нулевым обучением на одиннадцати наборах данных. Наш код будет доступен по адресу https://github.com/xiaoxing2001/DeGLA.
Выдающийся успех крупных языковых моделей (LLM) открыл многообещающий путь к достижению искусственного общего интеллекта как для академического, так и для промышленного сообществ, благодаря их беспрецедентной производительности в различных приложениях. По мере того как LLM продолжают набирать популярность в исследовательских и коммерческих областях, вопросы их безопасности и защиты становятся все более актуальными не только для исследователей и корпораций, но и для каждой страны. В настоящее время существующие обзоры по безопасности LLM в основном сосредоточены на конкретных этапах жизненного цикла LLM, например, на этапе развертывания или тонкой настройки, не охватывая полного понимания всей "жизненной цепочки" LLM. Чтобы устранить этот пробел, в данной статье впервые вводится концепция "полного стека" безопасности, которая систематически рассматривает вопросы безопасности на протяжении всего процесса обучения, развертывания и коммерциализации LLM. По сравнению с готовыми обзорами по безопасности LLM, наша работа демонстрирует несколько отличительных преимуществ: (I) Комплексный подход. Мы определяем полный жизненный цикл LLM как включающий подготовку данных, предварительное обучение, пост-обучение, развертывание и финальную коммерциализацию. Насколько нам известно, это первый обзор по безопасности, охватывающий весь жизненный цикл LLM. (II) Обширная литературная база. Наше исследование основано на тщательном анализе более 800 статей, что обеспечивает всестороннее покрытие и систематическую организацию вопросов безопасности в рамках более целостного понимания. (III) Уникальные инсайты. Благодаря систематическому анализу литературы мы разработали надежные дорожные карты и перспективы для каждой главы. Наша работа выявляет перспективные направления исследований, включая безопасность в генерации данных, методы согласования, редактирование моделей и системы на основе LLM. Эти инсайты предоставляют ценное руководство для исследователей, занимающихся будущими работами в этой области.
Недавно модель DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) продемонстрировала выдающиеся способности к рассуждению в сложных задачах и открыто поделилась своей методологией. Это предоставляет потенциально высококачественные данные цепочки рассуждений (CoT) для стимулирования способностей к рассуждению у небольших крупных языковых моделей (LLM). Для генерации высококачественных данных CoT для различных LLM мы ищем эффективный метод создания таких данных с адаптивным уровнем сложности вопросов, соответствующим возможностям LLM. Во-первых, мы оцениваем сложность вопросов в зависимости от способности к рассуждению самих LLM и создаем базу данных вопросов с адаптивной сложностью. Во-вторых, мы выбираем задачи из базы данных на основе распределения уровней сложности и затем используем DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) для генерации соответствующих высококачественных данных CoT с правильными ответами. Благодаря созданию данных CoT с адаптивным уровнем сложности, мы значительно снизили затраты на генерацию данных и повысили эффективность контролируемого тонкого обучения (SFT) модели. Наконец, мы подтвердили эффективность и универсальность предложенного метода в областях сложных математических соревнований и задач генерации кода. Примечательно, что всего с 2 тыс. высококачественных математических данных CoT наша модель ZMath-32B превзошла DeepSeek-Distill-32B в задачах математического рассуждения. Аналогично, всего с 2 тыс. высококачественных данных CoT для кода наша модель ZCode-32B превзошла DeepSeek-Distill-32B в задачах генерации кода.
Поскольку аннотирование данных является затратным процессом, эталонные наборы данных часто включают метки из уже существующих наборов изображений. В данной работе мы оцениваем влияние ошибок в метках набора данных MSCOCO на часто используемый бенчмарк для оценки галлюцинаций объектов POPE. Мы повторно аннотируем изображения из бенчмарка и выявляем дисбаланс в ошибках аннотации между различными подмножествами. Оценивая несколько моделей на основе исправленных меток, которые мы обозначаем как RePOPE, мы наблюдаем значительные изменения в рейтингах моделей, что подчеркивает влияние качества меток. Код и данные доступны по адресу https://github.com/YanNeu/RePOPE.
Каузальный анализ играет фундаментальную роль в научных открытиях и надежном принятии решений, однако он остается в значительной степени недоступным для экспертов в предметных областях из-за своей концептуальной и алгоритмической сложности. Этот разрыв между каузальной методологией и практической применимостью создает двойную проблему: эксперты не могут использовать последние достижения в области каузального обучения, а исследователи в области каузального анализа лишены широкого применения своих методов в реальных условиях для их тестирования и совершенствования. Для решения этой проблемы мы представляем Causal-Copilot — автономного агента, который реализует экспертный уровень каузального анализа в рамках модели крупного языкового моделирования. Causal-Copilot автоматизирует весь процесс каузального анализа как для табличных, так и для временных рядов данных, включая каузальное обнаружение, каузальный вывод, выбор алгоритмов, оптимизацию гиперпараметров, интерпретацию результатов и генерацию практических рекомендаций. Система поддерживает интерактивное уточнение через естественный язык, снижая барьер для неспециалистов, сохраняя при этом методологическую строгость. Интегрируя более 20 современных методов каузального анализа, наша система способствует созданию положительного цикла — расширяя доступ к передовым каузальным методам для экспертов в предметных областях и генерируя богатые приложения в реальных условиях, которые информируют и продвигают каузальную теорию. Эмпирические оценки демонстрируют, что Causal-Copilot достигает превосходной производительности по сравнению с существующими базовыми решениями, предлагая надежное, масштабируемое и расширяемое решение, которое устраняет разрыв между теоретической сложностью и практической применимостью в каузальном анализе. Интерактивная демонстрация Causal-Copilot доступна по адресу https://causalcopilot.com/.
Транспиляция из C в Rust имеет ключевое значение для модернизации устаревшего кода на C, одновременно повышая безопасность и обеспечивая совместимость с современными экосистемами Rust. Однако на данный момент отсутствует набор данных для оценки способности системы транспилировать C в безопасный Rust, который проходит набор тестов. Мы представляем CRUST-Bench — набор данных, состоящий из 100 репозиториев на C, каждый из которых сопровождается вручную написанными интерфейсами на безопасном Rust, а также тестовыми случаями, которые можно использовать для проверки корректности транспиляции. Рассматривая целые репозитории, а не изолированные функции, CRUST-Bench охватывает сложности перевода сложных проектов с зависимостями между несколькими файлами. Предоставленные интерфейсы на Rust задают явные спецификации, гарантирующие соответствие идиоматичным и безопасным с точки зрения памяти шаблонам Rust, а сопровождающие тестовые случаи обеспечивают функциональную корректность. Мы оцениваем современные крупные языковые модели (LLM) на этой задаче и обнаруживаем, что генерация безопасного и идиоматичного Rust остается сложной проблемой для различных передовых методов и подходов. Мы также анализируем типичные ошибки, которые допускают LLM при транспиляции кода из C в безопасный Rust. Лучшая модель, OpenAI o1, способна решить только 15 задач в режиме однократного выполнения. Улучшения на основе CRUST-Bench приведут к созданию более совершенных систем транспиляции, способных анализировать сложные сценарии и помогать в миграции устаревших кодовых баз из C в такие языки, как Rust, которые обеспечивают безопасность памяти. Набор данных и код доступны по адресу: https://github.com/anirudhkhatry/CRUST-bench.
Флажки играют ключевую роль в обработке реальных документов, где наличие или отсутствие отметок напрямую влияет на процессы извлечения данных и принятия решений. Однако, несмотря на высокую производительность крупных моделей зрения и языка в широком спектре задач, они испытывают трудности с интерпретацией содержимого, связанного с флажками. Эта проблема становится особенно актуальной в отраслях, где пропуск даже одного флажка может привести к дорогостоящим упущениям в регулировании или контрактных обязательствах. Для устранения этого пробела мы представляем набор данных CheckboxQA — специализированный ресурс, предназначенный для оценки и улучшения производительности моделей на задачах, связанных с флажками. Он выявляет ограничения современных моделей и служит ценным инструментом для совершенствования систем понимания документов, что имеет значительные последствия для применения в таких сферах, как юридические технологии и финансы. Набор данных доступен публично по адресу: https://github.com/Snowflake-Labs/CheckboxQA
Мультизадачное визуальное заземление (MTVG) включает две подзадачи: понимание референциальных выражений (REC) и сегментацию референциальных выражений (RES). Существующие репрезентативные подходы, как правило, следуют исследовательскому конвейеру, который в основном состоит из трех ключевых процедур: независимое извлечение признаков для визуальной и лингвистической модальностей, модуль кросс-модального взаимодействия и независимые головы предсказания для различных подзадач. Несмотря на достижение впечатляющих результатов, этот подход имеет два ограничения: 1) Лингвистическое содержание не полностью интегрировано в визуальный бэкбон для улучшения извлечения визуальных признаков, что требует дополнительного модуля кросс-модального взаимодействия; 2) Взаимосвязь между задачами REC и RES не эффективно используется для совместного предсказания с целью получения более точных результатов. Для решения этих проблем в данной статье мы предлагаем прогрессивную языково-ориентированную визуальную обучающую структуру для мультизадачного визуального заземления, называемую PLVL, которая не только тщательно исследует внутренние особенности визуальной модальности, но и постепенно интегрирует языковую информацию для обучения лингвистически связанных визуальных признаков. Таким образом, наш PLVL не требует дополнительного модуля кросс-модального слияния, при этом полностью используя языковое руководство. Кроме того, мы анализируем, что локализация центра для REC может в некоторой степени помочь определить область объекта для сегментации в RES. Вдохновленные этим исследованием, мы разрабатываем мультизадачную голову для совместного предсказания этих двух подзадач. Многочисленные эксперименты, проведенные на нескольких эталонных наборах данных, всесторонне подтверждают, что наш PLVL значительно превосходит репрезентативные методы как в задачах REC, так и в RES. https://github.com/jcwang0602/PLVL