Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы рассматриваем последние достижения в области обучения с подкреплением (Reinforcement Learning, RL) для работы с большими языковыми моделями (Large Language Models, LLMs) в задачах логического рассуждения. RL продемонстрировал впечатляющие успехи в расширении возможностей LLMs, особенно в решении сложных логических задач, таких как математика и программирование. В результате RL стал основополагающей методологией для преобразования LLMs в LRMs (Language Reasoning Models). Однако с быстрым развитием этой области дальнейшее масштабирование RL для LRMs сталкивается с фундаментальными вызовами, включая не только вычислительные ресурсы, но и проектирование алгоритмов, обучающие данные и инфраструктуру. В связи с этим актуально пересмотреть развитие этой области, переоценить её траекторию и изучить стратегии для повышения масштабируемости RL в направлении создания искусственного сверхинтеллекта (Artificial SuperIntelligence, ASI). В частности, мы анализируем исследования, применяющие RL к LLMs и LRMs для развития способностей к рассуждению, особенно после выпуска модели DeepSeek-R1, включая фундаментальные компоненты, ключевые проблемы, обучающие ресурсы и приложения, чтобы определить будущие возможности и направления для этой быстро развивающейся области. Мы надеемся, что этот обзор будет способствовать дальнейшим исследованиям в области RL для более широких моделей рассуждения. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в улучшении генеративных моделей с помощью обучения с подкреплением (Reinforcement Learning, RL), однако парадигма масштабирования RMs в области визуальной генерации остается малоизученной. Это связано с фундаментальными ограничениями существующих подходов: RMs на основе CLIP страдают от архитектурных ограничений и ограничений входных модальностей, в то время как широко используемые функции потерь Брэдли-Терри принципиально не согласованы с механизмом предсказания следующего токена в моделях "визуальный язык" (Vision-Language Models, VLMs), что препятствует эффективному масштабированию. Более того, процесс оптимизации RLHF страдает от проблемы "взлома вознаграждения" (Reward Hacking), когда модели эксплуатируют недостатки сигнала вознаграждения, не улучшая реальное качество. Для решения этих проблем мы представляем RewardDance — масштабируемую структуру моделирования вознаграждения, которая преодолевает эти барьеры с помощью новой генеративной парадигмы вознаграждения. Переформулируя оценку вознаграждения как вероятность модели предсказать токен "да", указывающий, что сгенерированное изображение превосходит эталонное изображение согласно определенным критериям, RewardDance внутренне согласует цели вознаграждения с архитектурами VLMs. Это согласование открывает возможности масштабирования в двух направлениях: (1) Масштабирование модели: систематическое увеличение RMs до 26 миллиардов параметров; (2) Масштабирование контекста: интеграция инструкций, специфичных для задачи, эталонных примеров и цепочек рассуждений (chain-of-thought, CoT). Эксперименты показывают, что RewardDance значительно превосходит современные методы в задачах генерации "текст-в-изображение", "текст-в-видео" и "изображение-в-видео". Важно, что мы решаем давнюю проблему "взлома вознаграждения": наши крупномасштабные RMs демонстрируют и поддерживают высокую дисперсию вознаграждения в процессе тонкой настройки RL, что доказывает их устойчивость к взлому и способность создавать разнообразные и качественные результаты. Это значительно смягчает проблему коллапса мод, которая характерна для меньших моделей.
Моделирование мира стало краеугольным камнем в исследованиях искусственного интеллекта, позволяя агентам понимать, представлять и прогнозировать динамические среды, в которых они существуют. Хотя предыдущие работы в основном сосредоточены на генеративных методах для двумерных изображений и видео, они упускают из виду быстро растущий объем исследований, использующих нативные 3D и 4D представления, такие как RGB-D изображения, карты занятости и облака точек LiDAR для моделирования крупномасштабных сцен. В то же время отсутствие стандартизированного определения и таксономии для «моделей мира» привело к фрагментированным и иногда противоречивым утверждениям в литературе. Данный обзор устраняет эти пробелы, представляя первое всестороннее исследование, посвященное исключительно 3D и 4D моделированию и генерации мира. Мы устанавливаем точные определения, вводим структурированную таксономию, охватывающую подходы на основе видео (VideoGen), карт занятости (OccGen) и данных LiDAR (LiDARGen), а также систематически обобщаем наборы данных и метрики оценки, адаптированные для 3D/4D сценариев. Кроме того, мы обсуждаем практические приложения, выявляем открытые проблемы и выделяем перспективные направления исследований, стремясь предоставить последовательную и фундаментальную основу для продвижения в этой области. Систематическое обобщение существующей литературы доступно по адресу https://github.com/worldbench/survey.
Разработка автономных агентов на основе больших языковых моделей (LLM), способных принимать серию интеллектуальных решений для решения сложных задач в реальном мире, представляет собой быстро развивающуюся область. Подобно когнитивному развитию человека, ожидается, что такие агенты будут приобретать знания и навыки через исследование и взаимодействие с окружающей средой. Несмотря на прогресс, сообществу до сих пор не хватает унифицированной интерактивной среды для обучения с подкреплением (RL), которая могла бы эффективно обучать таких агентов с нуля — без использования контролируемой тонкой настройки (SFT) — в разнообразных и реалистичных условиях. Чтобы устранить этот пробел, мы представляем AgentGym-RL, новый фреймворк для обучения LLM-агентов многозадачному интерактивному принятию решений с помощью RL. Фреймворк обладает модульной и декомпозированной архитектурой, обеспечивая высокую гибкость и расширяемость. Он охватывает широкий спектр реальных сценариев и поддерживает основные алгоритмы RL. Кроме того, мы предлагаем ScalingInter-RL, подход к обучению, разработанный для баланса между исследованием и эксплуатацией, а также стабильной оптимизации RL. На ранних этапах он делает акцент на эксплуатации, ограничивая количество взаимодействий, а затем постепенно смещается в сторону исследования с увеличением горизонта планирования, чтобы стимулировать разнообразие стратегий решения задач. Таким образом, агент развивает более разнообразное поведение и становится менее склонным к сбоям при длительных горизонтах. Мы проводим обширные эксперименты, чтобы подтвердить стабильность и эффективность как фреймворка AgentGym-RL, так и подхода ScalingInter-RL. Наши агенты соответствуют или превосходят коммерческие модели на 27 задачах в различных средах. Мы делимся ключевыми инсайтами и планируем открыть исходный код полного фреймворка AgentGym-RL, включая код и наборы данных, чтобы дать исследовательскому сообществу возможность разрабатывать следующее поколение интеллектуальных агентов.
Сегментация 3D-объектов на их составные части имеет ключевое значение для улучшения понимания 3D-данных, упрощения повторного использования моделей и поддержки различных приложений, таких как генерация частей. Однако современные методы сталкиваются с ограничениями, включая низкую устойчивость при работе со сложными объектами и невозможность полной автоматизации процесса. В данной статье мы предлагаем нативную модель сегментации частей на основе 3D-точек, названную P3-SAM, которая предназначена для полной автоматизации сегментации любых 3D-объектов на компоненты. Вдохновлённая SAM, P3-SAM состоит из экстрактора признаков, нескольких голов сегментации и предсказателя IoU, что позволяет пользователям выполнять интерактивную сегментацию. Мы также предлагаем алгоритм для автоматического выбора и объединения масок, предсказанных нашей моделью, для сегментации экземпляров частей. Наша модель обучается на новом наборе данных, содержащем почти 3,7 миллиона моделей с качественными метками сегментации. Сравнения показывают, что наш метод достигает точных результатов сегментации и высокой устойчивости на любых сложных объектах, демонстрируя передовые показатели. Наш код будет опубликован в ближайшее время.
В данном отчете мы представляем Hunyuan-MT-7B — нашу первую открытую многоязычную модель перевода, которая поддерживает двусторонний перевод между 33 основными языками, с особым акцентом на перевод между китайским языком (мандарин) и несколькими языками этнических меньшинств, а также диалектами. Кроме того, для обслуживания различных сценариев перевода и повышения производительности модели во время тестирования мы представляем Hunyuan-MT-Chimera-7B — модель перевода, вдохновленную режимом медленного мышления. Эта модель интегрирует множество выходных данных, сгенерированных моделью Hunyuan-MT-7B при различных настройках параметров, достигая таким образом производительности, превосходящей традиционные модели медленного мышления, основанные на цепочке рассуждений (Chain-of-Thought, CoT). Разработка наших моделей следует целостному процессу обучения, специально разработанному для многоязычного перевода, который начинается с общего предварительного обучения и предварительного обучения, ориентированного на машинный перевод, для формирования базовых возможностей, продолжается контролируемой тонкой настройкой (Supervised Fine-Tuning, SFT) для адаптации к конкретным задачам и завершается продвинутым выравниванием с использованием обучения с подкреплением (Reinforcement Learning, RL) и обучения от слабого к сильному (weak-to-strong RL). В ходе всесторонних экспериментов мы демонстрируем, что как Hunyuan-MT-7B, так и Hunyuan-MT-Chimera-7B значительно превосходят все модели перевода сопоставимого размера и большинство современных крупных моделей (SOTA), особенно в задачах перевода между китайским языком и языками меньшинств, а также диалектами. В рамках общей задачи WMT2025 (General Machine Translation) наши модели демонстрируют передовые результаты, занимая первое место в 30 из 31 языковой пары. Этот результат подчеркивает устойчивость наших моделей в широком языковом спектре, включая языки с большим объемом ресурсов, такие как китайский, английский и японский, а также языки с малым объемом ресурсов, такие как чешский, маратхи, эстонский и исландский.
Современные крупные языковые модели (LLM) отлично справляются с генерацией синтетических данных. Однако их производительность в чувствительных областях, таких как детоксификация текста, не получила должного внимания со стороны научного сообщества. В данной статье исследуется возможность использования синтетических токсичных данных, сгенерированных LLM, в качестве альтернативы данным, созданным человеком, для обучения моделей детоксификации. С использованием моделей Llama 3 и Qwen с активационными патчами мы сгенерировали синтетические токсичные аналоги для нейтральных текстов из наборов данных ParaDetox и SST-2. Наши эксперименты показывают, что модели, дообученные на синтетических данных, стабильно показывают худшие результаты по сравнению с моделями, обученными на данных, созданных человеком, с падением производительности до 30% по совокупным метрикам. Основная причина заключается в критическом разрыве в лексическом разнообразии: LLM генерируют токсичный контент, используя небольшой, повторяющийся набор оскорблений, который не способен передать нюансы и разнообразие человеческой токсичности. Эти результаты подчеркивают ограничения современных LLM в данной области и акцентируют важность использования разнообразных, аннотированных человеком данных для создания надежных систем детоксификации.
Генеративный искусственный интеллект становится важной технологией, обещая быть трансформационной во многих областях. В то же время, методы генеративного ИИ основаны на выборке из вероятностных моделей и по умолчанию не предоставляют гарантий корректности, безопасности, справедливости или других свойств. Статистические методы предлагают перспективный подход для повышения надежности методов генеративного ИИ. Кроме того, статистические методы также перспективны для улучшения качества и эффективности оценки ИИ, а также для разработки вмешательств и экспериментов в области ИИ. В данной статье мы рассматриваем некоторые существующие работы по этим темам, объясняя как общие статистические методы, так и их применение к генеративному ИИ. Мы также обсуждаем ограничения и потенциальные направления для будущих исследований.
Масштабирование вычислительных ресурсов на этапе тестирования за счет генерации множества независимых решений и их последующего выбора или агрегирования стало ключевой парадигмой для улучшения больших языковых моделей (LLM) в сложных задачах, требующих рассуждений. Хотя большинство предыдущих работ полагается на простое мажоритарное голосование или ранжирование с использованием моделей вознаграждения для агрегирования решений, такие подходы могут давать лишь ограниченные преимущества. В данной работе мы предлагаем обучать агрегирование как явный навык рассуждения: имея набор кандидатных решений, мы обучаем модель-агрегатор анализировать, согласовывать и синтезировать окончательный правильный ответ с использованием обучения с подкреплением на основе проверяемых вознаграждений. Ключевым элементом является тщательное балансирование простых и сложных обучающих примеров, что позволяет модели научиться как восстанавливать правильные, но редкие ответы, так и легко находить мажоритарно правильные. Эмпирически мы обнаруживаем, что наш метод, AggLM, превосходит как сильные правила, так и базовые модели вознаграждения на множестве бенчмарков. Более того, он эффективно обобщается на решения от различных моделей, включая более сильные, чем те, что содержатся в обучающих данных, при этом требуя значительно меньше токенов по сравнению с мажоритарным голосованием с большим количеством решений.
Широкое распространение открытых репозиториев привело к созданию обширной коллекции повторно используемых программных компонентов, однако их использование остается ручным, подверженным ошибкам и разрозненным. Разработчикам приходится изучать документацию, понимать API и писать код для интеграции, что создает значительные препятствия для эффективного повторного использования программного обеспечения. Для решения этой проблемы мы представляем EnvX — фреймворк, который использует агентный искусственный интеллект для преобразования репозиториев GitHub в интеллектуальных автономных агентов, способных взаимодействовать на естественном языке и сотрудничать между собой. В отличие от существующих подходов, которые рассматривают репозитории как статические ресурсы кода, EnvX переосмысливает их как активных агентов через трехэтапный процесс: (1) инициализация среды на основе TODO, которая настраивает необходимые зависимости, данные и тестовые наборы; (2) автоматизация, ориентированная на человека, позволяющая агентам, специфичным для репозитория, автономно выполнять реальные задачи; и (3) протокол Agent-to-Agent (A2A), обеспечивающий совместную работу нескольких агентов. Объединяя возможности больших языковых моделей с интеграцией структурированных инструментов, EnvX автоматизирует не только генерацию кода, но и весь процесс понимания, инициализации и операционализации функциональности репозитория. Мы оцениваем EnvX на бенчмарке GitTaskBench, используя 18 репозиториев в таких областях, как обработка изображений, распознавание речи, анализ документов и обработка видео. Наши результаты показывают, что EnvX достигает 74,07% успешного выполнения задач и 51,85% успешного прохождения тестов, превосходя существующие фреймворки. Кейс-стади также демонстрируют способность EnvX обеспечивать совместную работу нескольких репозиториев через протокол A2A. Эта работа знаменует переход от восприятия репозиториев как пассивных ресурсов кода к интеллектуальным интерактивным агентам, способствуя большей доступности и сотрудничеству в экосистеме открытого исходного кода.
По мере того как люди делегируют всё больше задач и решений искусственному интеллекту (ИИ), мы рискуем утратить контроль над нашим индивидуальным и коллективным будущим. Относительно простые алгоритмические системы уже направляют человеческие решения, например, алгоритмы лент социальных сетей, которые заставляют людей непреднамеренно и бездумно листать контент, оптимизированный для вовлечения. В этой статье мы развиваем концепцию человеческой агентности, интегрируя философские и научные теории агентности с методами оценки, основанными на ИИ: используя большие языковые модели (LLM) для симуляции и валидации пользовательских запросов, а также для оценки ответов ИИ. Мы разрабатываем HumanAgencyBench (HAB), масштабируемый и адаптивный бенчмарк с шестью измерениями человеческой агентности, основанный на типичных сценариях использования ИИ. HAB измеряет склонность ИИ-ассистента или агента задавать уточняющие вопросы, избегать манипуляции ценностями, исправлять дезинформацию, откладывать важные решения, поощрять обучение и поддерживать социальные границы. Мы обнаруживаем низкий или умеренный уровень поддержки агентности в современных ИИ-ассистентах на основе LLM и значительные различия между разработчиками систем и измерениями. Например, хотя LLM от Anthropic в целом наиболее поддерживают человеческую агентность, они наименее эффективны в аспекте избегания манипуляции ценностями. Поддержка агентности не кажется последовательным результатом увеличения возможностей LLM или поведения, ориентированного на выполнение инструкций (например, RLHF), и мы призываем к смещению акцента в сторону более устойчивых целей безопасности и согласования.