Ежедневно отобранные исследовательские статьи по ИИ с переводами
Чтобы преодолеть ограничения контекста крупных языковых моделей (LLM), которые снижают точность и эффективность рассуждений, мы предлагаем Thread Inference Model (TIM) — семейство LLM, обученных для рекурсивного и декомпозиционного решения задач, а также TIMRUN — среду выполнения для вывода, обеспечивающую структурированные рассуждения на длинных горизонтах за пределами ограничений контекста. Вместе TIM, работающий на TIMRUN, поддерживает практически неограниченную рабочую память и многошаговые вызовы инструментов в рамках одного вывода языковой модели, преодолевая ограничения на выходные данные, ограничения позиционных эмбеддингов и узкие места в памяти GPU. Производительность достигается за счет моделирования естественного языка в виде деревьев рассуждений, измеряемых как по длине, так и по глубине, вместо линейных последовательностей. Деревья рассуждений состоят из задач с мыслями, рекурсивных подзадач и выводов, основанных на концепции, предложенной нами в Schroeder et al., 2025. В процессе генерации мы поддерживаем рабочую память, которая сохраняет только ключевые состояния наиболее релевантных токенов контекста, выбранных с помощью механизма обрезки подзадач на основе правил, что позволяет повторно использовать позиционные эмбеддинги и страницы памяти GPU на протяжении всего процесса рассуждений. Экспериментальные результаты показывают, что наша система поддерживает высокую пропускную способность вывода даже при манипулировании до 90% кэша ключей и значений (KV) в памяти GPU. Она также обеспечивает точные рассуждения в математических задачах и справляется с задачами поиска информации, требующими длительных рассуждений и многошагового использования инструментов.
В данной статье представлена модель Step-Audio~2 — многофункциональная мультимодальная языковая модель, разработанная для промышленного применения в задачах понимания аудио и речевого взаимодействия. Благодаря интеграции латентного аудиокодера и обучения с подкреплением, ориентированного на логическое рассуждение (RL), Step-Audio 2 демонстрирует впечатляющие результаты в автоматическом распознавании речи (ASR) и понимании аудио. Для обеспечения подлинного сквозного речевого взаимодействия модель включает генерацию дискретных аудиотокенов в процесс языкового моделирования, что значительно улучшает её способность реагировать на паралингвистическую информацию, такую как стиль речи и эмоции. Для эффективного использования богатых текстовых и акустических знаний из реальных данных Step-Audio 2 интегрирует генерацию, усиленную поиском (RAG), и способна обращаться к внешним инструментам, таким как веб-поиск для снижения галлюцинаций и аудиопоиск для смены тембров. Обучаясь на миллионах часов речевых и аудиоданных, Step-Audio 2 обеспечивает интеллектуальность и выразительность в разнообразных сценариях общения. Результаты оценки показывают, что Step-Audio 2 достигает передовых показателей на различных тестах по пониманию аудио и диалоговым задачам по сравнению с другими открытыми и коммерческими решениями. Дополнительную информацию можно найти по адресу: https://github.com/stepfun-ai/Step-Audio2.
Научное мышление имеет решающее значение для развития ИИ-учёных и поддержки человеческих исследователей в продвижении границ открытий в естественных науках. Однако сообщество open-source в основном сосредоточилось на математике и программировании, пренебрегая научной областью, во многом из-за отсутствия открытых, крупномасштабных, высококачественных и проверяемых наборов данных для научного рассуждения. Чтобы устранить этот пробел, мы представляем TextbookReasoning — открытый набор данных, содержащий достоверные эталонные ответы, извлечённые из 12 тысяч университетских научных учебников, включающий 650 тысяч вопросов для рассуждения, охватывающих 7 научных дисциплин. Мы также представляем MegaScience — крупномасштабный набор высококачественных открытых данных, содержащий 1,25 миллиона примеров, разработанный с помощью систематических исследований, которые оценивают различные методологии отбора данных для определения оптимального подмножества для каждого общедоступного научного набора данных. Одновременно мы создаём комплексную систему оценки, охватывающую разнообразные предметы и типы вопросов на 15 тестовых наборах, включая стратегии извлечения ответов для обеспечения точных метрик оценки. Наши эксперименты показывают, что наши наборы данных демонстрируют превосходную производительность и эффективность обучения с более лаконичными длинами ответов по сравнению с существующими открытыми научными наборами данных. Кроме того, мы обучаем базовые модели Llama3.1, Qwen2.5 и Qwen3 на MegaScience, которые значительно превосходят соответствующие официальные инструктивные модели по средним показателям. Более того, MegaScience демонстрирует большую эффективность для более крупных и мощных моделей, что указывает на преимущество масштабирования для научной настройки. Мы публикуем наш процесс подготовки данных, систему оценки, наборы данных и семь обученных моделей для сообщества, чтобы способствовать исследованиям в области научного рассуждения.
Задачи рассуждений на основе зрения, языка и действий (Vision-Language-Action, VLA) требуют от агентов интерпретации мультимодальных инструкций, выполнения долгосрочного планирования и адаптивного поведения в динамических средах. Существующие подходы обычно обучают VLA-модели сквозным образом, напрямую отображая входные данные в действия без явного рассуждения, что ограничивает их способность планировать на несколько шагов вперед или адаптироваться к сложным вариациям задач. В данной статье мы предлагаем ThinkAct — двухуровневую архитектуру, которая связывает высокоуровневые рассуждения с низкоуровневым выполнением действий через усиленное визуальное латентное планирование. ThinkAct обучает мультимодальную языковую модель (LLM) генерировать планы воплощенных рассуждений, направляемые визуальными наградами, согласованными с действиями и основанными на завершении цели и согласованности траектории. Эти планы рассуждений сжимаются в визуальный латентный план, который управляет последующей моделью действий для надежного выполнения задач в целевых средах. Многочисленные эксперименты на тестах воплощенных рассуждений и манипуляций роботов демонстрируют, что ThinkAct обеспечивает адаптацию с малым количеством примеров, долгосрочное планирование и способность к самокоррекции в сложных задачах воплощенного ИИ.
Диффузионные трансформеры появились как альтернатива диффузионным моделям на основе U-net для генерации изображений и видео высокой точности, предлагая превосходную масштабируемость. Однако их высокая вычислительная сложность остается основным препятствием для практического применения. Существующие методы ускорения в основном используют временное измерение, например, повторное использование кэшированных признаков на различных шагах диффузии. В данной работе мы предлагаем Region-Adaptive Latent Upsampling (RALU), фреймворк, не требующий обучения, который ускоряет вывод данных по пространственному измерению. RALU выполняет выборку с различным разрешением в три этапа: 1) низкоразрешающая денойзинговая латентная диффузия для эффективного захвата глобальной семантической структуры, 2) регионально-адаптивное повышение разрешения на участках, склонных к артефактам при полном разрешении, и 3) полное повышение разрешения латентного пространства для уточнения деталей. Для стабилизации генерации при переходе между разрешениями мы используем перепланировку шумовых временных шагов для адаптации уровня шума к различным разрешениям. Наш метод значительно сокращает вычислительные затраты, сохраняя качество изображения, достигая ускорения до 7.0 раз на FLUX и 3.0 раз на Stable Diffusion 3 с минимальной деградацией. Кроме того, RALU дополняет существующие временные методы ускорения, такие как методы кэширования, и может быть легко интегрирован для дальнейшего снижения задержки вывода без ущерба для качества генерации.
Люди часто используют визуальные средства, такие как диаграммы или наброски, при решении сложных задач. Обучение мультимодальных моделей делать то же самое, известное как Визуальная Цепь Рассуждений (Visual CoT), является сложной задачей из-за: (1) низкой производительности готовых решений для Visual CoT, что затрудняет обучение с подкреплением, и (2) отсутствия высококачественных данных для обучения Visual CoT. Мы представляем Zebra-CoT, разнообразный крупномасштабный набор данных, содержащий 182,384 образца с логически согласованными чередующимися текстово-визуальными цепочками рассуждений. Мы сосредоточились на четырех категориях задач, где использование набросков или визуального рассуждения особенно естественно, включая научные вопросы, такие как геометрия, физика и алгоритмы; задачи 2D визуального рассуждения, такие как визуальный поиск и головоломки; задачи 3D рассуждения, включая 3D многошаговый вывод, планирование в робототехнике и виртуальных средах; визуальные логические задачи и стратегические игры, такие как шахматы. Тонкая настройка модели Anole-7B на обучающем корпусе Zebra-CoT приводит к улучшению точности на +12% на нашем тестовом наборе и дает прирост производительности до +13% на стандартных бенчмарках VLM. Тонкая настройка модели Bagel-7B позволяет получить модель, которая генерирует высококачественные чередующиеся визуальные цепочки рассуждений, подчеркивая эффективность Zebra-CoT для развития мультимодальных способностей к рассуждению. Мы открываем исходный код нашего набора данных и моделей для поддержки разработки и оценки Visual CoT.
Улучшение крупных моделей, работающих с визуальными и языковыми данными (LVLMs), за счет визуального "медленного мышления" имеет решающее значение для решения сложных мультимодальных задач. Однако, поскольку LVLMs в основном обучаются на выравнивании визуальных и языковых данных, применение обучения с подкреплением (RL) на основе текущей политики для развития способности к медленному мышлению затруднено, так как пространство возможных действий ограничено начальными способностями модели. Обучение с подкреплением вне текущей политики (off-policy RL) предлагает способ выйти за пределы текущей политики, но прямое извлечение траекторий из внешних моделей может привести к визуальным галлюцинациям из-за несоответствия способностей визуального восприятия между моделями. Для решения этих проблем в данной статье предлагается SOPHIA — простая и масштабируемая полу-внеполитическая (Semi-Off-Policy) RL-методика для визуально-языкового "медленного мышления". SOPHIA строит полу-внеполитическую модель поведения, объединяя визуальное понимание на основе текущей политики от обучаемой LVLM с "медленным мышлением" вне текущей политики от языковой модели, назначает награды на основе результатов рассуждений и распространяет визуальные награды в обратном направлении. Затем LVLM обучается способности к "медленному мышлению" на основе полученных траекторий рассуждений с использованием распространенных наград через алгоритмы off-policy RL. Эксперименты с моделями InternVL2.5 и InternVL3.0 размером 8B и 38B демонстрируют эффективность SOPHIA. В частности, SOPHIA улучшает производительность InternVL3.0-38B в среднем на 8.50%, достигая передовых результатов среди открытых LVLM на нескольких мультимодальных тестах на рассуждение и даже превосходя некоторые закрытые модели (например, GPT-4.1) на сложных тестах MathVision и OlympiadBench, достигая точности pass@1 49.08% и 49.95% соответственно. Анализ показывает, что SOPHIA превосходит методы тонкой настройки с учителем и прямые методы RL на основе текущей политики, предлагая лучшую инициализацию политики для дальнейшего обучения на основе текущей политики.
Модели, объединяющие зрение и язык (VLMs), широко применяются в робототехнике для обеспечения автономного планирования. Однако адаптация VLMs, изначально обученных на интернет-данных, к разнообразным реальным роботам остается сложной задачей. В данной статье представлен ExpTeach — фреймворк, который адаптирует VLMs к физическим роботам путем создания самоформируемой памяти о реальном опыте. В ExpTeach VLM автономно планирует действия, проверяет результаты, анализирует ошибки и адаптирует поведение робота в замкнутом цикле. Самоформируемый опыт в этом процессе затем обобщается в долговременную память, что позволяет извлекать усвоенные знания для руководства будущими задачами с помощью генерации, усиленной извлечением (RAG). Кроме того, ExpTeach улучшает пространственное понимание VLMs с помощью модуля аннотирования изображений по запросу. В экспериментах мы показываем, что анализ ошибок повышает успешность выполнения с 36% до 84% в четырех сложных робототехнических задачах и наблюдаем появление интеллектуальных взаимодействий с объектами, включая креативное использование инструментов. В ходе обширных тестов на 12 реальных сценариях (включая восемь ранее не встречавшихся) мы обнаружили, что адаптация с использованием долговременной памяти повышает успешность выполнения с первой попытки с 22% до 80%, что демонстрирует эффективность и универсальность ExpTeach.
С быстрым развитием крупных языковых моделей (LLM) разработка эффективных критических модулей для точного руководства стала крайне важной, но при этом сложной задачей. В данной статье мы сначала показываем, что контролируемая тонкая настройка для создания критических модулей (широко используемая в современных решениях) не способна по-настоящему улучшить способности моделей к критике, выдавая поверхностные оценки с недостаточным анализом и проверкой. Чтобы раскрыть беспрецедентные возможности критики, мы предлагаем RefCritic — критический модуль с длинной цепочкой рассуждений, основанный на обучении с подкреплением с двойными правилами награды: (1) корректность суждений на уровне отдельных примеров и (2) точность улучшений модели политики на основе критики, что позволяет генерировать высококачественные оценки с практическими рекомендациями, эффективно направляющими улучшение модели. Мы оцениваем RefCritic на моделях Qwen2.5-14B-Instruct и DeepSeek-R1-Distill-Qwen-14B на пяти бенчмарках. В условиях критики и улучшений RefCritic демонстрирует стабильные преимущества на всех бенчмарках, например, улучшение на 6,8\% и 7,2\% на AIME25 для соответствующих базовых моделей. Примечательно, что при мажоритарном голосовании модели политики, отфильтрованные с помощью RefCritic, показывают превосходное масштабирование с увеличением числа голосов. Более того, несмотря на обучение на уровне решений, RefCritic превосходит подходы с пошаговым контролем на бенчмарке ProcessBench, предназначенном для выявления ошибочных шагов в математических рассуждениях.
Хотя существующие методы композиции с использованием изображений могут помочь вставить объект переднего плана в указанную пользователем область фонового изображения, обеспечивая естественное смешение внутри этой области при неизменности остальной части изображения, мы наблюдаем, что эти методы часто испытывают трудности в синтезе бесшовных композиций, учитывающих взаимодействия, когда задача включает взаимодействия человека и объекта. В данной статье мы впервые предлагаем HOComp — новый подход для композиции объекта переднего плана на фоновое изображение с человеком, обеспечивая гармоничные взаимодействия между объектом переднего плана и человеком на фоне, а также их согласованные внешние характеристики. Наш подход включает два ключевых элемента: (1) Пошаговое руководство по позе на основе регионов с использованием MLLMs (MRPG), которое использует MLLMs для определения области взаимодействия, а также типа взаимодействия (например, удержание или поднятие), чтобы обеспечить грубые и точные ограничения для генерируемой позы взаимодействия, одновременно учитывая ключевые точки позы человека для отслеживания вариаций действий и наложения детализированных ограничений на позу; и (2) Сохранение внешнего вида с учетом деталей (DCAP), которое объединяет механизм модуляции внимания с учетом формы, потерю внешнего вида с нескольких ракурсов и потерю согласованности фона для обеспечения согласованных форм/текстур объекта переднего плана и точного воспроизведения человека на фоне. Затем мы предлагаем первый набор данных, названный Interaction-aware Human-Object Composition (IHOC), для данной задачи. Экспериментальные результаты на нашем наборе данных показывают, что HOComp эффективно генерирует гармоничные взаимодействия человека и объекта с согласованными внешними характеристиками и превосходит соответствующие методы как качественно, так и количественно.
Последние достижения в области крупных языковых моделей (LLM) открыли новые возможности для поиска академической литературы. Однако существующие системы часто полагаются на жесткие алгоритмы и демонстрируют ограниченные способности к рассуждению. Мы представляем SPAR, мультиагентный фреймворк, который включает декомпозицию запросов на основе RefChain и эволюцию запросов для обеспечения более гибкого и эффективного поиска. Для систематической оценки мы также создали SPARBench, сложный бенчмарк с экспертными аннотациями релевантности. Результаты экспериментов показывают, что SPAR значительно превосходит сильные базовые модели, достигая увеличения F1 на +56% на AutoScholar и +23% на SPARBench по сравнению с лучшей базовой моделью. Вместе SPAR и SPARBench предоставляют масштабируемую, интерпретируемую и высокопроизводительную основу для продвижения исследований в области научного поиска. Код и данные будут доступны по адресу: https://github.com/xiaofengShi/SPAR.
Квантование является ключевой техникой для уменьшения размера сети и вычислительной сложности за счет представления параметров сети с меньшей точностью. Традиционные методы квантования требуют доступа к исходным обучающим данным, что часто ограничено из-за проблем конфиденциальности или безопасности. Квантование без данных (Zero-shot Quantization, ZSQ) решает эту проблему, используя синтетические данные, сгенерированные из предварительно обученных моделей, что устраняет необходимость в реальных обучающих данных. В последнее время ZSQ было расширено для задач детекции объектов. Однако существующие методы используют немаркированные синтетические изображения, не учитывающие специфику задачи детекции, что приводит к неоптимальной производительности. В данной статье мы предлагаем новый подход к ZSQ, ориентированный на задачи детекции объектов, который состоит из двух основных этапов. Во-первых, мы вводим стратегию выборки ограничивающих рамок и категорий для синтеза специфичного для задачи калибровочного набора из предварительно обученной сети, восстанавливая расположение, размеры и распределение категорий объектов без какого-либо предварительного знания. Во-вторых, мы интегрируем специфичное для задачи обучение в процесс дистилляции знаний для восстановления производительности квантованных сетей детекции. Эксперименты, проведенные на наборах данных MS-COCO и Pascal VOC, демонстрируют эффективность и передовые результаты нашего метода. Наш код доступен по адресу: https://github.com/DFQ-Dojo/dfq-toolkit.
Персонализация систем искусственного интеллекта требует понимания не только того, что предпочитают пользователи, но и причин, лежащих в основе этих предпочтений. Однако современные модели предпочтений обычно рассматривают человеческое суждение как "черный ящик". Мы представляем PrefPalette — фреймворк, который декомпозирует предпочтения на атрибутивные измерения и адаптирует прогнозирование предпочтений к ценностям различных социальных сообществ в интерпретируемом для человека виде. PrefPalette реализует принцип когнитивной науки, известный как многокритериальное принятие решений, двумя способами: (1) масштабируемый этап синтеза контрфактуальных атрибутов, который включает генерацию синтетических обучающих данных для изоляции эффектов отдельных атрибутов (например, формальность, юмор, культурные ценности), и (2) моделирование предпочтений на основе механизма внимания, которое изучает, как различные социальные сообщества динамически взвешивают эти атрибуты. Этот подход выходит за рамки агрегированного моделирования предпочтений, чтобы уловить разнообразные оценочные рамки, лежащие в основе человеческого суждения. При оценке на 45 социальных сообществах с онлайн-платформы Reddit PrefPalette превосходит GPT-4o на 46,6% по средней точности прогнозирования. Помимо улучшения прогнозов, PrefPalette также выявляет интуитивные, специфичные для сообществ профили: научные сообщества ценят многословность и стимуляцию, конфликтно-ориентированные сообщества предпочитают сарказм и прямолинейность, а поддерживающие сообщества делают акцент на эмпатии. Моделируя атрибутивно-опосредованную структуру человеческого суждения, PrefPalette обеспечивает как превосходное моделирование предпочтений, так и прозрачные, интерпретируемые инсайты, делая первый шаг к созданию более надежных и учитывающих ценности персонализированных приложений.
3D Gaussian Splatting известен своими высокоточными реконструкциями и синтезом новых видов в реальном времени, однако отсутствие семантического понимания ограничивает восприятие на уровне объектов. В данной работе мы предлагаем ObjectGS — объектно-ориентированную структуру, которая объединяет 3D-реконструкцию сцены с семантическим пониманием. Вместо того чтобы рассматривать сцену как единое целое, ObjectGS моделирует отдельные объекты как локальные якоря, которые генерируют нейронные гауссовы распределения и используют идентификаторы объектов, что позволяет достичь точной реконструкции на уровне объектов. В процессе обучения мы динамически добавляем или удаляем эти якоря и оптимизируем их характеристики, а однократное кодирование идентификаторов с функцией потерь классификации обеспечивает четкие семантические ограничения. Мы демонстрируем в ходе обширных экспериментов, что ObjectGS не только превосходит современные методы в задачах открытой лексики и панорамной сегментации, но и легко интегрируется с такими приложениями, как извлечение сеток и редактирование сцен. Страница проекта: https://ruijiezhu94.github.io/ObjectGS_page
Недавно Zaremba и коллеги продемонстрировали, что увеличение вычислительных ресурсов на этапе вывода повышает устойчивость крупных проприетарных языковых моделей (LLM) для рассуждений. В данной работе мы сначала показываем, что модели меньшего масштаба с открытым исходным кодом (например, DeepSeek R1, Qwen3, Phi-reasoning) также могут извлечь выгоду из масштабирования на этапе вывода с использованием простой стратегии принудительного ограничения бюджета. Что более важно, мы выявляем и критически исследуем неявное предположение в предыдущих работах: промежуточные шаги рассуждений скрыты от противников. Ослабляя это предположение, мы обнаруживаем важный риск безопасности, интуитивно обоснованный и эмпирически подтвержденный как закон обратного масштабирования: если промежуточные шаги рассуждений становятся явно доступными, увеличение вычислительных ресурсов на этапе вывода последовательно снижает устойчивость модели. Наконец, мы обсуждаем практические сценарии, в которых модели со скрытыми цепочками рассуждений остаются уязвимыми для атак, такие как модели с интегрированными инструментами рассуждений и атаки на извлечение продвинутых рассуждений. Наши результаты в совокупности демонстрируют, что преимущества масштабирования на этапе вывода в плане устойчивости сильно зависят от условий противодействия и контекста развертывания. Мы призываем практиков тщательно взвешивать эти тонкие компромиссы перед применением масштабирования на этапе вывода в чувствительных к безопасности реальных приложениях.
Тонкая настройка больших языковых моделей (LLM) может приводить к непреднамеренной генерализации за пределами распределения данных. Стандартные подходы к решению этой проблемы предполагают модификацию обучающих данных, например, путем добавления данных, которые лучше определяют целевую генерализацию. Однако это не всегда практично. Мы представляем метод тонкой настройки с абляцией концепций (Concept Ablation Fine-Tuning, CAFT), который использует инструменты интерпретируемости для управления тем, как LLM обобщают данные в процессе тонкой настройки, без необходимости изменения обучающих данных или использования данных из целевого распределения. При наличии набора направлений в латентном пространстве LLM, соответствующих нежелательным концепциям, CAFT работает путем абляции этих концепций с помощью линейных проекций в процессе тонкой настройки, направляя модель в сторону от непреднамеренных обобщений. Мы успешно применили CAFT к трем задачам тонкой настройки, включая феномен эмерджентного рассогласования, при котором LLM, настроенные на узкую задачу, обобщают данные и выдают крайне несогласованные ответы на общие вопросы. Без каких-либо изменений в данных для тонкой настройки CAFT сокращает количество несогласованных ответов в 10 раз, не ухудшая производительность на обучающем распределении. В целом, CAFT представляет собой новый подход для управления генерализацией LLM без изменения обучающих данных.