Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности в решении различных задач, но по-прежнему испытывают трудности со сложными математическими рассуждениями. Существующие исследования в основном сосредоточены на создании наборов данных и оптимизации методов, часто упуская из виду два критических аспекта: всесторонний дизайн, основанный на знаниях, и моделирование пространства данных с ориентацией на модель. В данной статье мы представляем We-Math 2.0 — унифицированную систему, которая интегрирует структурированную систему математических знаний, моделирование пространства данных с ориентацией на модель и парадигму обучения с подкреплением (RL) для всестороннего улучшения способностей MLLM к математическим рассуждениям. Ключевые вклады We-Math 2.0 заключаются в следующем: (1) Система знаний MathBook: мы создаем пятиуровневую иерархическую систему, охватывающую 491 точку знаний и 1819 фундаментальных принципов. (2) MathBook-Standard & Pro: мы разрабатываем MathBook-Standard — набор данных, который обеспечивает широкое концептуальное покрытие и гибкость за счет двойного расширения. Кроме того, мы определяем трехмерное пространство сложности и генерируем 7 прогрессивных вариантов для каждой задачи, чтобы создать MathBook-Pro — сложный набор данных для устойчивого обучения. (3) MathBook-RL: мы предлагаем двухэтапную RL-структуру, включающую: (i) тонкую настройку на этапе "холодного старта", которая согласует модель с цепочкой рассуждений, ориентированной на знания; и (ii) прогрессивное согласование RL, использующее обучение на основе среднего вознаграждения и динамическое планирование данных для достижения прогрессивного согласования на разных уровнях сложности. (4) MathBookEval: мы представляем всеобъемлющий бенчмарк, охватывающий все 491 точку знаний с разнообразными распределениями шагов рассуждений. Экспериментальные результаты показывают, что MathBook-RL конкурирует с существующими базовыми моделями на четырех широко используемых бенчмарках и демонстрирует сильные результаты на MathBookEval, что указывает на перспективную обобщаемость в математических рассуждениях.
Преобладающие авторегрессивные (AR) модели для генерации изображений по тексту либо полагаются на ресурсоемкие, вычислительно сложные диффузионные модели для обработки непрерывных токенов изображений, либо используют векторное квантование (VQ) для получения дискретных токенов с потерями при квантовании. В данной статье мы продвигаем авторегрессивную парадигму вперед с помощью модели NextStep-1, представляющей собой 14-миллиардную авторегрессивную модель, объединенную с 157-миллионным блоком согласования потоков, которая обучается на дискретных текстовых токенах и непрерывных токенах изображений с использованием задачи предсказания следующего токена. NextStep-1 демонстрирует наилучшие результаты среди авторегрессивных моделей в задачах генерации изображений по тексту, показывая высокие возможности в создании изображений с высокой точностью. Кроме того, наш метод демонстрирует отличные результаты в редактировании изображений, подчеркивая мощность и универсальность нашего единого подхода. Для содействия открытым исследованиям мы опубликуем наш код и модели для сообщества.
Мы представляем PRELUDE — эталонный тест для оценки понимания длинных контекстов через задачу определения, согласуется ли приквел истории персонажа с каноническим повествованием оригинальной книги. Наша задача предъявляет более высокие требования к глобальному пониманию и глубокому анализу, чем существующие тесты, — поскольку приквелы не являются частью оригинальной истории, оценка их правдоподобия обычно требует поиска и интеграции информации, которая лишь косвенно связана с сюжетом. Эмпирически 88% случаев требуют доказательств из нескольких частей повествования. Результаты экспериментов подчеркивают сложность нашей задачи: обучение в контексте, RAG и обучение в предметной области с использованием современных языковых моделей (LLMs), а также коммерческие сервисы DeepResearch отстают от человека более чем на 15%. Дополнительное исследование с участием людей показывает, что модели часто дают правильные ответы с ошибочной аргументацией, что приводит к разрыву в точности рассуждений более чем на 30% по сравнению с человеком. Эти результаты подчеркивают значительный потенциал для улучшения в области понимания длинных контекстов и логического анализа.
Традиционное производство мультфильмов и аниме включает этапы создания ключевых кадров, промежуточных кадров (интерполяции) и раскрашивания, которые требуют значительных ручных усилий. Несмотря на недавние достижения в области ИИ, существующие методы часто обрабатывают эти этапы отдельно, что приводит к накоплению ошибок и артефактам. Например, методы интерполяции испытывают трудности с большими движениями, а методы раскрашивания требуют плотных набросков для каждого кадра. Чтобы решить эту проблему, мы представляем ToonComposer — генеративную модель, которая объединяет интерполяцию и раскрашивание в единый этап после создания ключевых кадров. ToonComposer использует механизм вставки разреженных набросков для обеспечения точного контроля с помощью набросков ключевых кадров. Кроме того, модель применяет метод адаптации к мультипликационному стилю с использованием пространственного низкорангового адаптера, что позволяет адаптировать современную базовую модель для видео к мультипликационной области, сохраняя при этом её временные приоритеты. ToonComposer, требующий всего одного наброска и одного раскрашенного эталонного кадра, демонстрирует высокую эффективность при работе с разреженными входными данными, а также поддерживает использование нескольких набросков в любом временном месте для более точного управления движением. Эта двойная функциональность снижает ручную нагрузку и повышает гибкость, расширяя возможности художников в реальных сценариях. Для оценки нашей модели мы также создали PKBench — эталонный набор данных, включающий нарисованные вручную наброски, которые имитируют реальные сценарии использования. Наша оценка показывает, что ToonComposer превосходит существующие методы по визуальному качеству, согласованности движений и эффективности производства, предлагая более совершенное и гибкое решение для производства мультфильмов с помощью ИИ.
Мы представляем UI-Venus, нативного UI-агента, который принимает на вход только скриншоты, основанного на мультимодальной большой языковой модели. UI-Venus достигает наилучших результатов (SOTA) как в задачах заземления UI, так и в задачах навигации, используя всего несколько сотен тысяч высококачественных обучающих образцов, благодаря тонкой настройке с подкреплением (RFT) на основе Qwen2.5-VL. В частности, варианты UI-Venus с 7B и 72B параметрами показывают результаты 94,1% / 50,8% и 95,3% / 61,9% на стандартных бенчмарках заземления, таких как Screenspot-V2 / Pro, превосходя предыдущие SOTA-модели, включая открытый GTA1 и закрытый UI-TARS-1.5. Чтобы продемонстрировать способность UI-Venus к обобщению и планированию, мы также оцениваем его на AndroidWorld, онлайн-арене для навигации по UI, где наши варианты с 7B и 72B параметрами достигают успеха в 49,1% и 65,9% случаев, также опережая существующие модели. Для достижения этих результатов мы вводим тщательно разработанные функции вознаграждения для задач заземления и навигации UI, а также соответствующие эффективные стратегии очистки данных. Для дальнейшего повышения производительности навигации мы предлагаем метод Self-Evolving Trajectory History Alignment & Sparse Action Enhancement, который уточняет исторические траектории рассуждений и балансирует распределение редких, но критически важных действий, что приводит к более согласованному планированию и лучшей обобщаемости в сложных UI-задачах. Наш вклад включает публикацию SOTA-моделей UI-агентов с открытым исходным кодом, комплексные протоколы очистки данных и новую саморазвивающуюся структуру для улучшения производительности навигации, что стимулирует дальнейшие исследования и разработки в сообществе. Код доступен по адресу https://github.com/antgroup/UI-Venus.
Диффузионные языковые модели (DLMs) стремительно заявляют о себе как мощная и перспективная альтернатива доминирующей авторегрессивной (AR) парадигме. Генерируя токены параллельно через итеративный процесс удаления шума, DLMs обладают врожденными преимуществами в снижении задержек при выводе и захвате двунаправленного контекста, что позволяет осуществлять детализированный контроль над процессом генерации. Достигая многократного ускорения, последние достижения позволили DLMs демонстрировать производительность, сопоставимую с их авторегрессивными аналогами, что делает их привлекательным выбором для различных задач обработки естественного языка. В данном обзоре мы предоставляем целостный взгляд на текущее состояние DLMs. Мы прослеживаем их эволюцию и связь с другими парадигмами, такими как авторегрессивные и маскированные языковые модели, и охватываем как фундаментальные принципы, так и передовые модели. Наша работа предлагает актуальную, всеобъемлющую таксономию и глубокий анализ современных методов, от стратегий предварительного обучения до продвинутых методов пост-обучения. Еще одним вкладом этого обзора является тщательный анализ стратегий и оптимизаций вывода DLMs, включая улучшения в параллелизме декодирования, механизмах кэширования и качестве генерации. Мы также выделяем последние подходы к мультимодальным расширениям DLMs и описываем их применение в различных практических сценариях. Кроме того, наше обсуждение затрагивает ограничения и вызовы DLMs, включая эффективность, обработку длинных последовательностей и требования к инфраструктуре, одновременно намечая будущие направления исследований для поддержания прогресса в этой быстро развивающейся области. Проект GitHub доступен по адресу https://github.com/VILA-Lab/Awesome-DLMs.
Современные интерактивные приложения всё чаще требуют динамического 3D-контента, однако преобразование статических 3D-моделей в анимированные ресурсы остаётся значительным узким местом в процессах создания контента. Хотя последние достижения в области генеративного ИИ революционизировали создание статических 3D-моделей, риггинг и анимация по-прежнему сильно зависят от вмешательства экспертов. Мы представляем Puppeteer — комплексную систему, которая решает задачи автоматического риггинга и анимации для разнообразных 3D-объектов. Наша система сначала предсказывает правдоподобные скелетные структуры с помощью авторегрессивного трансформера, использующего стратегию токенизации на основе суставов для компактного представления и иерархическую методологию упорядочивания со стохастическими возмущениями, что улучшает двунаправленные возможности обучения. Затем она вычисляет веса скиннинга с помощью архитектуры на основе внимания, включающей топологически осведомлённое внимание к суставам, которое явно кодирует взаимосвязи между суставами на основе расстояний в скелетном графе. Наконец, мы дополняем эти достижения в области риггинга дифференцируемым оптимизационным конвейером анимации, который генерирует стабильные, высококачественные анимации, будучи при этом более вычислительно эффективным, чем существующие подходы. Обширные оценки на множестве бенчмарков демонстрируют, что наш метод значительно превосходит современные технологии как в точности предсказания скелета, так и в качестве скиннинга. Система надёжно обрабатывает разнообразный 3D-контент, начиная от профессионально разработанных игровых ресурсов и заканчивая сгенерированными ИИ формами, создавая временно согласованные анимации, которые устраняют проблемы с дрожанием, характерные для существующих методов.
Мы представляем STream3R — новый подход к 3D-реконструкции, который переформулирует задачу предсказания карты точек как проблему, решаемую исключительно декодером на основе Transformer. Существующие передовые методы для многовидовой реконструкции либо зависят от дорогостоящей глобальной оптимизации, либо полагаются на упрощенные механизмы памяти, которые плохо масштабируются с увеличением длины последовательности. В отличие от них, STream3R предлагает потоковую архитектуру, которая эффективно обрабатывает последовательности изображений с использованием причинного внимания, вдохновленного достижениями в современных моделях языкового моделирования. Обучаясь на геометрических априорных данных из крупномасштабных 3D-наборов, STream3R хорошо обобщается на разнообразные и сложные сценарии, включая динамические сцены, где традиционные методы часто терпят неудачу. Многочисленные эксперименты показывают, что наш метод стабильно превосходит предыдущие работы как на статических, так и на динамических бенчмарках. Более того, STream3R изначально совместим с инфраструктурой обучения в стиле LLM, что позволяет эффективно проводить крупномасштабное предварительное обучение и тонкую настройку для различных задач 3D. Наши результаты подчеркивают потенциал причинных моделей Transformer для онлайн-3D-восприятия, прокладывая путь к реальному времени понимания 3D в потоковых средах. Дополнительные детали можно найти на странице проекта: https://nirvanalan.github.io/projects/stream3r.
Обучение с подкреплением с верифицируемыми наградами (RLVR), которое обычно использует Pass@1 в качестве награды, сталкивается с проблемами баланса между исследованием и эксплуатацией, что приводит к предпочтению консервативных действий и сходимости к локальному оптимуму. Поэтому определение подходящей метрики награды является крайне важным. В предыдущих работах, хотя Pass@k использовался для оценки, его связь с исследовательской способностью языковых моделей (LLM) в RLVR оставалась в значительной степени упущенной. Чтобы изучить этот вопрос, мы сначала используем Pass@k в качестве награды для обучения модели политики (т.е. обучение с использованием Pass@k) и наблюдаем улучшение её исследовательской способности. Затем мы выводим аналитическое решение для преимущества обучения с использованием Pass@k, что приводит к эффективному и результативному процессу. На основе этого наш анализ показывает, что исследование и эксплуатация не являются изначально конфликтующими целями, а могут взаимно усиливать друг друга. Более того, обучение с использованием Pass@k с аналитическим выводом по сути включает прямое проектирование функции преимущества. Вдохновлённые этим, мы предварительно исследуем проектирование преимущества для RLVR, демонстрируя многообещающие результаты и указывая на потенциальное направление для будущих исследований.
Хотя мультимодальные большие языковые модели (MLLMs) демонстрируют огромный потенциал для достижения по-настоящему человекообразного взаимодействия, прогресс сдерживается отсутствием детализированных оценочных фреймворков для сценариев, ориентированных на человека, которые охватывают как понимание сложных человеческих намерений, так и предоставление эмпатичных, контекстно-осознанных ответов. В данной работе мы представляем HumanSense — всеобъемлющий бенчмарк, разработанный для оценки способностей MLLMs к восприятию и взаимодействию, ориентированным на человека, с особым акцентом на глубокое понимание расширенных мультимодальных контекстов и формулирование рациональной обратной связи. Наша оценка показывает, что ведущие MLLMs все еще имеют значительный потенциал для улучшения, особенно в задачах, ориентированных на продвинутое взаимодействие. Дополнение визуального ввода аудио- и текстовой информацией приводит к существенным улучшениям, а омни-модальные модели демонстрируют преимущества в этих задачах. Более того, мы утверждаем, что уместная обратная связь возникает из контекстного анализа потребностей и эмоций собеседника, где способность к рассуждению служит ключом к ее реализации. Соответственно, мы применяем многоэтапное, модально-прогрессивное обучение с подкреплением для улучшения способностей к рассуждению омни-модели, достигая значительного прогресса в результатах оценки. Кроме того, мы наблюдаем, что успешные процессы рассуждения демонстрируют высоко согласованные паттерны мышления. Разработав соответствующие промпты, мы также улучшаем производительность моделей без обучения, не требующего дополнительной тренировки. Страница проекта: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
Предыдущие исследования анализировали устойчивость визуальных кодировщиков к преобразованиям и искажениям изображений, особенно в случаях, когда такие изменения не встречались во время обучения. Когда это происходит, они вызывают форму сдвига распределения на этапе тестирования, что часто приводит к снижению производительности. Основное внимание уделялось серьезным искажениям, которые при агрессивном применении искажают полезные сигналы, необходимые для точных семантических предсказаний. Мы рассматриваем проблему с другой стороны, анализируя параметры процесса получения изображений и преобразования, которые могут быть незаметными или даже неразличимыми для человеческого глаза. Мы обнаруживаем, что такие параметры систематически кодируются в изученных визуальных представлениях и могут быть легко восстановлены. Более того, их присутствие может оказывать значительное влияние, как положительное, так и отрицательное, на семантические предсказания. Этот эффект зависит от того, существует ли сильная корреляция или антикорреляция между семантическими метками и метками, связанными с процессом получения или обработки изображений. Наш код и данные доступны по адресу: https://github.com/ryan-caesar-ramos/visual-encoder-traces.
Последние достижения в области машинного обучения стимулировали растущий интерес к автоматизированной оценке качества перевода. Тем не менее, существующие исследования страдают от недостаточного анализа качества использования языка, неудовлетворительной эффективности моделей из-за дефицита и дисбаланса данных, а также отсутствия усилий по объяснению предсказаний моделей. Для устранения этих пробелов мы предлагаем многомерную модель, которая интегрирует разработку признаков, увеличение данных и объяснимое машинное обучение. Этот подход делает акцент на объяснимости, а не на «черном ящике» предсказаний, используя только прозрачные признаки, связанные с конструктом, и проводя анализ значений Шепли (SHAP). Наши результаты демонстрируют высокую прогностическую производительность на новом наборе данных последовательного перевода с английского на китайский, выявляя, что оценки BLEURT и CometKiwi являются наиболее сильными предикторами точности, признаки, связанные с паузами, — беглости, а метрики фразеологического разнообразия, специфичные для китайского языка, — качества использования языка. В целом, уделяя особое внимание объяснимости, мы представляем масштабируемую, надежную и прозрачную альтернативу традиционной человеческой оценке, способствуя предоставлению детальной диагностической обратной связи для обучающихся и поддерживая преимущества саморегулируемого обучения, недоступные при использовании автоматизированных оценок в отдельности.
В исследованиях, посвященных надежной обработке естественного языка (Natural Language Processing, NLP), выделился ряд важных направлений, включая объяснимость и конфиденциальность. Хотя интерес к объяснимым и сохраняющим конфиденциальность методам NLP значительно возрос в последние годы, на стыке этих двух областей остается недостаточно исследований. Это создает существенный пробел в понимании того, возможно ли одновременно достичь как объяснимости, так и конфиденциальности, или же эти цели противоречат друг другу. В данной работе мы проводим эмпирическое исследование компромисса между конфиденциальностью и объяснимостью в контексте NLP, опираясь на популярные общие методы дифференциальной конфиденциальности (Differential Privacy, DP) и постфактумной объяснимости. Наши результаты проливают свет на сложную взаимосвязь между конфиденциальностью и объяснимостью, которая формируется под влиянием ряда факторов, включая характер решаемой задачи и выбор методов приватизации текста и объяснимости. Мы подчеркиваем возможность сосуществования конфиденциальности и объяснимости и обобщаем наши выводы в виде практических рекомендаций для будущих исследований на этом важном стыке.