Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем наши модели рассуждения первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. Модель DeepSeek-R1-Zero, обученная с использованием масштабного обучения с подкреплением (RL) без дополнительного обучения с учителем (SFT) в качестве предварительного этапа, проявляет замечательные способности к рассуждениям. Через RL DeepSeek-R1-Zero естественным образом приобретает множество мощных и увлекательных поведенческих моделей рассуждения. Однако он сталкивается с проблемами, такими как плохая читаемость и смешение языков. Для решения этих проблем и дальнейшего улучшения производительности рассуждения мы представляем DeepSeek-R1, которая включает многопроходное обучение и начальные данные перед RL. DeepSeek-R1 достигает производительности, сравнимой с OpenAI-o1-1217 на задачах рассуждения. Для поддержки научного сообщества мы предоставляем в открытый доступ DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей (1.5B, 7B, 8B, 14B, 32B, 70B), дистиллированных из DeepSeek-R1 на основе Qwen и Llama.
Предварительное обучение языковой модели с предсказанием следующего токена доказало свою эффективность для масштабирования вычислений, но ограничено объемом доступных обучающих данных. Увеличение масштаба обучения с подкреплением (RL) открывает новую ось для постоянного улучшения искусственного интеллекта, с обещанием того, что большие языковые модели (LLM) могут увеличить объем своих обучающих данных, изучая исследование с помощью вознаграждений. Однако ранее опубликованные работы не привели к конкурентоспособным результатам. В свете этого мы сообщаем о практике обучения Kimi k1.5, нашей последней мультимодальной LLM, обученной с помощью RL, включая ее техники обучения RL, рецепты мультимодальных данных и оптимизацию инфраструктуры. Увеличение длины контекста и улучшенные методы оптимизации политики являются ключевыми элементами нашего подхода, который устанавливает простую, эффективную структуру RL без использования более сложных техник, таких как поиск по дереву методом Монте-Карло, функции ценности и модели вознаграждения процесса. Заметно, что наша система достигает передовой производительности в рассуждениях по нескольким показателям и модальностям - например, 77,5 на AIME, 96,2 на MATH 500, 94-й процентиль на Codeforces, 74,9 на MathVista - соответствуя OpenAI's o1. Более того, мы представляем эффективные методы long2short, которые используют техники long-CoT для улучшения моделей short-CoT, давая передовые результаты в рассуждениях short-CoT - например, 60,8 на AIME, 94,6 на MATH500, 47,3 на LiveCodeBench - превосходящие существующие модели short-CoT, такие как GPT-4o и Claude Sonnet 3.5 на значительный процент (до +550%).
В данной статье мы предлагаем VideoLLaMA3, более продвинутую мультимодальную базовую модель для понимания изображений и видео. Основная философия дизайна VideoLLaMA3 ориентирована на зрение. Понятие "ориентированность на зрение" имеет двойное значение: парадигма обучения, ориентированная на зрение, и дизайн фреймворка, ориентированный на зрение. Основное открытие нашей парадигмы обучения, ориентированной на зрение, заключается в том, что высококачественные данные изображений и текста критичны как для понимания изображений, так и видео. Вместо подготовки обширных наборов данных видео-текста, мы сосредотачиваемся на создании крупномасштабных и высококачественных наборов данных изображений и текста. VideoLLaMA3 имеет четыре этапа обучения: 1) этап выравнивания, ориентированный на зрение, который подготавливает к работе кодировщик и проектор зрения; 2) этап предварительного обучения зрение-язык, который совместно настраивает кодировщик зрения, проектор и LLM с крупномасштабными данными изображений и текста, охватывающими несколько типов (включая изображения сцен, документы, диаграммы), а также данные только текста; 3) этап многозадачной донастройки, который включает данные SFT изображений-текста для последующих задач и данные видео-текста для установления основы для понимания видео; 4) донастройка, ориентированная на видео, которая дополнительно улучшает способности модели в понимании видео. Что касается дизайна фреймворка, для более точного захвата мелких деталей на изображениях, предварительно обученный кодировщик зрения адаптирован для кодирования изображений различных размеров в зрительные токены с соответствующими номерами, а не фиксированным количеством токенов. Для видеовходов мы уменьшаем количество зрительных токенов в соответствии с их сходством, чтобы представление видео было более точным и компактным. Благодаря ориентированным на зрение конструкциям, VideoLLaMA3 достигает впечатляющих результатов как в бенчмарках понимания изображений, так и видео.
Виртуальное кино производство требует сложных процессов принятия решений, включая написание сценария, виртуальную кинематографию, а также точное позиционирование и действия актеров. Вдохновленные недавними достижениями в автоматизированном принятии решений с использованием агентов на основе языка, в данной статье представляется FilmAgent, новая многоагентная коллаборативная платформа на основе LLM для автоматизации производства фильмов в наших созданных 3D виртуальных пространствах. FilmAgent моделирует различные роли съемочной группы, включая режиссеров, сценаристов, актеров и кинематографистов, и охватывает ключевые этапы рабочего процесса производства фильма: (1) разработка идеи преобразует замыслы в структурированные обзоры сюжета; (2) написание сценария разрабатывает диалоги и действия персонажей для каждой сцены; (3) кинематография определяет настройки камеры для каждого кадра. Команда агентов сотрудничает через итеративную обратную связь и корректировки, тем самым проверяя промежуточные сценарии и уменьшая галлюцинации. Мы оцениваем созданные видео на 15 идеях и 4 ключевых аспектах. Человеческая оценка показывает, что FilmAgent превосходит все базовые показатели по всем аспектам и набирает в среднем 3,98 из 5, демонстрируя возможность многозначительного сотрудничества в кинопроизводстве. Дальнейший анализ показывает, что FilmAgent, несмотря на использование менее продвинутой модели GPT-4o, превосходит одноагентную o1, демонстрируя преимущество хорошо согласованной многоагентной системы. Наконец, мы обсуждаем дополняющие силы и слабости текстово-видео модели Sora от OpenAI и нашего FilmAgent в кинопроизводстве.
Большие языковые модели (LLM) демонстрируют впечатляющую производительность, но лишены гибкости быстро адаптироваться к человеческим предпочтениям без повторного обучения. В данной работе мы представляем Оптимизацию предпочтений во время тестирования (Test-time Preference Optimization, TPO), фреймворк, который выравнивает выводы LLM с человеческими предпочтениями во время вывода, устраняя необходимость обновления параметров модели. Вместо использования исключительно числовых вознаграждений, TPO преобразует сигналы вознаграждения в текстовые критики и использует их в качестве текстовых вознаграждений для итеративного улучшения своего ответа. Оценки на бенчмарках, охватывающих следование инструкциям, выравнивание предпочтений, безопасность и математику, показывают, что TPO постепенно улучшает выравнивание с человеческими предпочтениями. Особенно стоит отметить, что уже после нескольких шагов TPO модель Llama-3.1-70B-SFT, изначально не выровненная, может превзойти выровненный аналог, Llama-3.1-70B-Instruct. Более того, TPO эффективно масштабируется как по ширине, так и по глубине поиска во время вывода. Через кейс-стади, мы иллюстрируем, как TPO использует врожденную способность LLM интерпретировать и действовать на сигналы вознаграждения. Наши результаты утверждают TPO как практичную, легкую альтернативу для оптимизации предпочтений во время тестирования, достигая выравнивания на лету. Наш код общедоступен по адресу https://github.com/yafuly/TPO.
Модели Mixture-of-Experts (MoE) в основном используют маршрутизатор для назначения токенов конкретным модулям экспертов, активируя только частичные параметры и часто превосходя плотные модели. Мы утверждаем, что разделение между принятием решений маршрутизатором и выполнением экспертами является критической, но недооцененной проблемой, приводящей к неоптимальному выбору экспертов и неэффективному обучению. Для решения этой проблемы мы предлагаем модель Autonomy-of-Experts (AoE), новую парадигму MoE, в которой эксперты автономно выбирают себя для обработки входных данных. AoE основан на понимании того, что эксперт осознает свою способность эффективно обрабатывать токен, осознание которой отражается в масштабе его внутренних активаций. В AoE маршрутизаторы убраны; вместо этого эксперты предварительно вычисляют внутренние активации для входных данных и ранжируются на основе их норм активации. Только эксперты с высшим рангом продолжают прямой проход, в то время как другие прекращают работу. Накладные расходы на предварительное вычисление активаций снижаются за счет факторизации весов низкого ранга. Этот подход самооценки-затем-сравнения-с-партнером обеспечивает улучшенный выбор экспертов и эффективное обучение. Мы предварительно обучаем языковые модели с 700M до 4B параметров, демонстрируя, что AoE превосходит традиционные модели MoE с сопоставимой эффективностью.
Недавно долгие рассуждения LLM, такие как O1 от OpenAI, принимают расширенные процессы рассуждений, аналогичные тому, как люди обдумывают сложные проблемы. Этот парадигма рассуждений значительно улучшает способности модели в решении проблем и показывает многообещающие результаты. Однако долгий процесс рассуждений приводит к существенному увеличению времени вывода. Одной из насущных задач является снижение накладных расходов на вывод у LLM с долгими рассуждениями, обеспечивая при этом точность. В данной статье мы экспериментально демонстрируем, что модели с долгими рассуждениями испытывают затруднения в эффективном распределении токенов в зависимости от сложности проблемы и избыточности рассуждений. Для решения этой проблемы мы предлагаем метод тонкой настройки длины (O1-Pruner), нацеленный на минимизацию накладных расходов на рассуждения при сохранении точности. Этот эффективный метод тонкой настройки сначала оценивает базовую производительность LLM через предварительную выборку, а затем использует тонкую настройку в стиле RL для стимулирования модели к созданию более коротких процессов рассуждения при ограничениях точности. Это позволяет модели достигать эффективных рассуждений с меньшей избыточностью при сохранении точности. Эксперименты на различных бенчмарках математических рассуждений показывают, что O1-Pruner не только значительно снижает накладные расходы на вывод, но также достигает более высокой точности, предлагая новое и многообещающее решение этой проблемы. Наш код скоро будет доступен по адресу https://github.com/StarDewXXX/O1-Pruner
Сэмплирование лучших N (Best-of-N, BoN), распространенная стратегия для масштабирования крупных языковых моделей (Large Language Models, LLM), основывается на моделях вознаграждения для выбора лучшего кандидата из нескольких поколений. Однако традиционные модели вознаграждения часто присваивают произвольные и несогласованные оценки, что ограничивает их эффективность. Для решения этой проблемы мы предлагаем модель парного вознаграждения (Pairwise Reward Model, Pairwise RM), объединенную с турниром с выбыванием для сэмплирования BoN. Вместо присвоения абсолютных оценок, Pairwise RM оценивает одновременно правильность двух кандидатских решений для одной математической задачи. Этот подход устраняет необходимость в произвольной оценке и позволяет кросс-валидацию решений через параллельное сравнение. В турнире с выбыванием Pairwise RM проводит попарные сравнения между кандидатскими решениями и итеративно устраняет неправильные. Мы создаем наш набор данных (\ourdataset), крупномасштабный набор данных из 443 тыс. попарных сравнений, полученных из NumiaMath и аннотированных с использованием gemini-1.5-flash, и обучаем модель Pairwise RM с помощью надзорного дообучения. Эксперименты на MATH-500 и Олимпийской площадке показывают значительные улучшения по сравнению с традиционными дискриминативными моделями вознаграждения. И достигается относительное улучшение на уровне от 40% до 60% на 50% самых сложных задач.
Многозначная реконструкция в 3D остается одним из основных вызовов в компьютерном зрении, особенно в приложениях, требующих точных и масштабируемых представлений с различных точек зрения. Текущие ведущие методы, такие как DUSt3R, используют в основном попарный подход, обрабатывая изображения парами и требуя дорогостоящих процедур глобального выравнивания для реконструкции из нескольких видов. В данной работе мы предлагаем Fast 3D Reconstruction (Fast3R), новую многозначную обобщенную версию DUSt3R, которая обеспечивает эффективную и масштабируемую 3D реконструкцию путем параллельной обработки множества видов. Архитектура Fast3R на основе трансформера передает N изображений за один проход, обходя необходимость итеративного выравнивания. Через обширные эксперименты по оценке позы камеры и 3D реконструкции Fast3R демонстрирует передовые характеристики, с значительными улучшениями скорости вывода и снижением накопления ошибок. Эти результаты утверждают Fast3R как надежную альтернативу для многозначных приложений, предлагая улучшенную масштабируемость без ущерба точности реконструкции.
Большие языковые модели (LLM) трансформируют искусственный интеллект, превращаясь в системы, ориентированные на задачи, способные к автономному планированию и выполнению. Одним из основных применений LLM являются системы разговорного искусственного интеллекта, которые должны управлять многоходовыми диалогами, интегрировать специфические для области API и соблюдать строгие политические ограничения. Однако оценка этих агентов остается значительным вызовом, поскольку традиционные методы не способны уловить сложность и изменчивость взаимодействий в реальном мире. Мы представляем IntellAgent, масштабную, открытую мультиагентную платформу, разработанную для всесторонней оценки систем разговорного искусственного интеллекта. IntellAgent автоматизирует создание разнообразных синтетических бенчмарков путем объединения графового моделирования, генерации реалистичных событий и интерактивных симуляций пользовательских агентов, управляемых политикой. Этот инновационный подход обеспечивает детальную диагностику, решая ограничения статических и ручных бенчмарков с грубыми метриками. IntellAgent представляет собой парадигмальное изменение в оценке разговорного искусственного интеллекта. Путем моделирования реалистичных многополитических сценариев на различных уровнях сложности IntellAgent улавливает тонкое взаимодействие возможностей агента и политических ограничений. В отличие от традиционных методов, он использует графовую модель политики для представления отношений, вероятностей и сложностей взаимодействия политик, обеспечивая высокодетальную диагностику. IntellAgent также выявляет критические пробелы в производительности, предлагая действенные идеи для целевой оптимизации. Его модульный, открытый дизайн поддерживает безшовную интеграцию новых областей, политик и API, способствуя воспроизводимости и сотрудничеству сообщества. Наши результаты показывают, что IntellAgent служит эффективной платформой для продвижения разговорного искусственного интеллекта, решая проблемы в мостике между исследованиями и внедрением. Платформа доступна по адресу https://github.com/plurai-ai/intellagent