Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели используют интернет-масштабные текстовые данные, однако воплощённый ИИ остаётся ограниченным из-за непомерно высоких затрат на сбор физических траекторий. Настольные среды — особенно игровые — предлагают убедительную альтернативу: они обеспечивают богатые сенсомоторные взаимодействия в масштабе, сохраняя при этом структурированную связь между наблюдением и действием, необходимую для воплощённого обучения. Мы представляем D2E (Desktop to Embodied AI) — фреймворк, который демонстрирует, что взаимодействия в настольных средах могут служить эффективной основой для предварительного обучения задач воплощённого ИИ в робототехнике. В отличие от предыдущих работ, которые оставались узкоспециализированными (например, VPT для Minecraft) или сохраняли данные закрытыми (например, SIMA), D2E устанавливает полный конвейер от масштабируемого сбора данных в настольных средах до проверенного переноса в воплощённые домены. Наш фреймворк состоит из трёх компонентов: (1) OWA Toolkit, который унифицирует разнообразные настольные взаимодействия в стандартизированный формат с 152-кратным сжатием, (2) Generalist-IDM, который достигает сильной обобщающей способности на новых играх через предсказание событий на основе временных меток, что позволяет масштабировать псевдоразметку до интернет-уровня, и (3) VAPT, который переносит представления, предварительно обученные на настольных данных, на задачи физического манипулирования и навигации. Используя более 1,3 тыс. часов данных (259 часов человеческих демонстраций и более 1 тыс. часов псевдоразмеченного игрового процесса), мы достигаем общего уровня успешности 96,6% на бенчмарке манипулирования LIBERO и 83,3% на бенчмарке навигации CANVAS. Это подтверждает, что сенсомоторные примитивы в цифровых взаимодействиях обладают достаточной инвариантностью для значимого переноса на физические воплощённые задачи, устанавливая предварительное обучение в настольных средах как практическую парадигму для робототехники. Мы сделаем всю нашу работу общедоступной, включая OWA Toolkit, наборы данных, собранные человеком и псевдоразмеченные, а также модели, обученные с помощью VAPT, доступными по адресу https://worv-ai.github.io/d2e/.
Понимание и генерация, ориентированные на камеру, являются двумя краеугольными камнями пространственного интеллекта, однако они обычно изучаются изолированно. Мы представляем Puffin — унифицированную мультимодальную модель, ориентированную на камеру, которая расширяет пространственное восприятие вдоль измерения камеры. Puffin интегрирует регрессию на основе языка и генерацию на основе диффузии для интерпретации и создания сцен с произвольных точек зрения. Чтобы преодолеть разрыв между модальностями камеры и визуально-языковыми данными, мы вводим новую парадигму, которая рассматривает камеру как язык, позволяя модели "мыслить с помощью камеры". Это направляет модель на согласование пространственно закрепленных визуальных подсказок с фотографической терминологией, одновременно рассуждая в геометрическом контексте. Puffin обучается на Puffin-4M — крупномасштабном наборе данных, содержащем 4 миллиона триплетов "визуальные данные-язык-камера". Мы включаем как глобальные параметры камеры, так и поэлементные карты камеры, что обеспечивает гибкую и надежную пространственную генерацию. Эксперименты демонстрируют превосходство Puffin над специализированными моделями в задачах генерации и понимания, ориентированных на камеру. Благодаря настройке на инструкциях, Puffin обобщается для выполнения разнообразных задач, связанных с кросс-видовым анализом, таких как пространственное воображение, исследование мира и руководство по фотографии. Мы опубликуем код, модели, конвейер обработки данных и бенчмарк для продвижения исследований в области мультимодального пространственного интеллекта.
В данной работе представлено первое масштабное исследование по созданию полностью открытой двуязычной модели большого языка (LLM) для неанглийского языка, а именно корейского, обученной преимущественно на синтетических данных. Мы представляем KORMo-10B — модель с 10,8 миллиардами параметров, обученную с нуля на корпусе корейско-английских текстов, в котором 68,74% корейской части являются синтетическими. Благодаря систематическим экспериментам мы демонстрируем, что синтетические данные, тщательно отобранные с учетом сбалансированного лингвистического охвата и разнообразия стилей инструкций, не вызывают нестабильности или ухудшения качества в ходе масштабного предварительного обучения. Более того, модель демонстрирует производительность, сопоставимую с современными открытыми многоязычными базовыми моделями, на широком спектре тестов, оценивающих способности к рассуждению, знанию и следованию инструкциям. Наши эксперименты выявили два ключевых результата: (1) синтетические данные могут надежно поддерживать долгосрочное предварительное обучение без коллапса модели, и (2) двуязычная настройка на инструкции позволяет достичь близкого к родному уровня рассуждений и связности дискурса на корейском языке. Полностью опубликовав все компоненты, включая данные, код, рецепты обучения и логи, данная работа устанавливает прозрачную основу для разработки полностью открытых моделей (FOMs), основанных на синтетических данных, в условиях ограниченных ресурсов и задает воспроизводимый прецедент для будущих исследований многоязычных LLM.
С ростом объема рецензируемых исследований ученые все чаще полагаются на социальные платформы для поиска новых работ, в то время как авторы прикладывают значительные усилия для продвижения своих исследований, чтобы обеспечить их видимость и цитируемость. Чтобы упростить этот процесс и снизить зависимость от человеческих усилий, мы представляем задачу автоматического продвижения (AutoPR), которая преобразует научные статьи в точный, увлекательный и своевременный публичный контент. Для обеспечения строгой оценки мы выпускаем PRBench — мультимодальный бенчмарк, связывающий 512 рецензируемых статей с высококачественными промо-постами, оценивая системы по трем направлениям: точность (достоверность и тон), вовлеченность (целевая аудитория и привлекательность) и соответствие (оптимизация времени и канала). Мы также представляем PRAgent — многоагентную систему, которая автоматизирует AutoPR в три этапа: извлечение контента с мультимодальной подготовкой, совместный синтез для создания качественных результатов и адаптация под конкретные платформы для оптимизации норм, тона и тегов с целью максимального охвата. По сравнению с прямыми подходами на основе LLM на PRBench, PRAgent демонстрирует значительные улучшения, включая увеличение общего времени просмотра на 604%, рост количества лайков на 438% и как минимум 2,9-кратное увеличение общего вовлечения. Абляционные исследования показывают, что моделирование платформ и целевое продвижение вносят наибольший вклад в эти результаты. Наши результаты позиционируют AutoPR как решаемую и измеримую исследовательскую задачу и предоставляют дорожную карту для масштабируемой и эффективной автоматизированной научной коммуникации.
Модели, объединяющие зрение и язык (VLMs), могут стать основой для ассистентов реального времени и автономных агентов, но они сталкиваются с критической проблемой: понимание практически бесконечных видеопотоков без увеличения задержек и использования памяти. Обработка всего видео с полным вниманием приводит к квадратичным вычислительным затратам и низкой производительности на длинных видео. В то же время простые методы скользящего окна также имеют недостатки, так как они либо нарушают связность, либо страдают от высокой задержки из-за избыточных пересчетов. В этой статье мы представляем StreamingVLM — модель, разработанную для стабильного понимания бесконечного визуального потока в реальном времени. Наш подход представляет собой унифицированную структуру, которая согласует обучение с потоковым выводом. Во время вывода мы поддерживаем компактный кэш ключей и значений (KV cache), повторно используя состояния "внимания к стокам", короткое окно недавних визуальных токенов и длинное окно недавних текстовых токенов. Эта способность к потоковой обработке внедряется с помощью простой стратегии контролируемого тонкого обучения (SFT), которая применяет полное внимание на коротких, перекрывающихся фрагментах видео, эффективно имитируя паттерн внимания во время вывода без необходимости обучения на чрезмерно длинных контекстах. Для оценки мы создали Inf-Streams-Eval — новый бенчмарк с видео средней продолжительностью более двух часов, требующий плотного, посекундного согласования между кадрами и текстом. На Inf-Streams-Eval StreamingVLM достигает 66,18% выигрышного соотношения против GPT-4O mini и поддерживает стабильную производительность в реальном времени до 8 кадров в секунду на одной видеокарте NVIDIA H100. Примечательно, что наша стратегия SFT также улучшает общие способности к визуальному вопросно-ответу (VQA) без какого-либо специфического тонкого обучения для VQA, повышая производительность на LongVideoBench на +4,30 и на OVOBench Realtime на +5,96. Код доступен по адресу https://github.com/mit-han-lab/streaming-vlm.
Современные диффузионные модели демонстрируют наилучшие результаты в генерации изображений, но часто страдают от семантических несоответствий или галлюцинаций. Хотя различные методы управления на этапе вывода могут улучшить генерацию, они обычно работают косвенно, полагаясь на внешние сигналы или модификации архитектуры, что влечет за собой дополнительные вычислительные затраты. В данной статье мы предлагаем метод Тангенциального Усиливающего Управления (TAG), более эффективный и прямой подход, который работает исключительно с сигналами траектории, не изменяя базовую диффузионную модель. TAG использует промежуточный образец в качестве проекционной основы и усиливает тангенциальные компоненты оцененных градиентов относительно этой основы, чтобы скорректировать траекторию выборки. Мы формализуем этот процесс управления с помощью разложения Тейлора первого порядка, показывая, что усиление тангенциальной компоненты направляет состояние в области с более высокой вероятностью, тем самым уменьшая несоответствия и повышая качество образцов. TAG представляет собой модуль "plug-and-play", не зависящий от архитектуры, который улучшает точность диффузионной выборки с минимальными вычислительными затратами, предлагая новый взгляд на управление диффузией.
Крупные языковые модели (LLM) продемонстрировали впечатляющие успехи, а их мультимодальные расширения (MLLM) открывают дополнительные возможности для работы с изображениями, видео и другими модальностями, выходящими за рамки текста. Однако, несмотря на этот сдвиг, подходы к оптимизации промптов, разработанные для снижения нагрузки на ручное создание промптов и максимизации производительности, остаются ограниченными текстовой областью, что в конечном итоге сдерживает полный потенциал MLLM. Вдохновленные этим пробелом, мы вводим новую задачу мультимодальной оптимизации промптов, которая расширяет предыдущее определение оптимизации промптов на мультимодальное пространство, определяемое парами текстовых и нетекстовых промптов. Для решения этой задачи мы предлагаем Мультимодальный Оптимизатор Промптов (MPO) — унифицированную структуру, которая не только выполняет совместную оптимизацию мультимодальных промптов с помощью обновлений, сохраняющих выравнивание, но также направляет процесс выбора кандидатов, используя предыдущие оценки в качестве априорных данных в стратегии выбора на основе байесовского подхода. В ходе обширных экспериментов с различными модальностями, выходящими за рамки текста, такими как изображения, видео и даже молекулы, мы демонстрируем, что MPO превосходит ведущие методы оптимизации, ограниченные текстом, устанавливая мультимодальную оптимизацию промптов как важный шаг для раскрытия потенциала MLLM.
Воплощенные способности представляют собой набор фундаментальных умений, позволяющих агенту воспринимать, понимать и взаимодействовать с физическим миром. Хотя мультимодальные большие языковые модели (MLLM) демонстрируют потенциал в качестве воплощенных агентов, всесторонняя и систематическая оценка их воплощенных способностей остается недостаточно изученной, поскольку существующие бенчмарки в основном сосредоточены на узких областях, таких как планирование или пространственное понимание. Чтобы устранить этот пробел, мы представляем BEAR — всеобъемлющий и детализированный бенчмарк, который оценивает MLLM на основе атомарных воплощенных способностей. BEAR включает 4 469 чередующихся записей изображений, видео и текста в 14 областях, объединенных в 6 категорий, охватывающих задачи от низкоуровневого указания и понимания траекторий до пространственного мышления и высокоуровневого планирования. Результаты масштабной оценки 20 репрезентативных MLLM выявили их устойчивые ограничения во всех областях воплощенных способностей. Для устранения этих недостатков мы предлагаем BEAR-Agent — мультимодального агента, способного к диалогу, который интегрирует предобученные модели зрения для усиления восприятия, понимания 3D-пространства и планирования в MLLM. Это существенно улучшает производительность MLLM в различных воплощенных способностях на BEAR, обеспечивая абсолютный прирост на 9,12% и относительное улучшение на 17,5% для GPT-5. Кроме того, наши эксперименты показывают, что улучшение воплощенных способностей MLLM может способствовать выполнению задач в симулированных средах. Сайт проекта: https://bear-official66.github.io/
Крупные языковые модели (LLM) достигли впечатляющих успехов благодаря обучению на имитации обширных текстовых корпусов, однако такой подход создает разрыв между обучением и генерацией и ограничивает устойчивое рассуждение. Обучение с подкреплением (RL) предлагает более эффективное с точки зрения данных решение, способное устранить этот разрыв, но его применение ограничено критической проблемой нехватки данных: существующие наборы данных для RL на порядки меньше и менее разнообразны, чем веб-масштабные корпуса для предварительного обучения. Чтобы решить эту проблему, мы представляем конвейер Webscale-RL — масштабируемый механизм обработки данных, который систематически преобразует крупномасштабные документы для предварительного обучения в миллионы разнообразных и проверяемых пар вопрос-ответ для RL. Используя этот конвейер, мы создаем набор данных Webscale-RL, содержащий 1,2 миллиона примеров из более чем 9 областей. Наши эксперименты показывают, что модель, обученная на этом наборе данных, значительно превосходит непрерывное предварительное обучение и сильные базовые методы уточнения данных на ряде тестов. Примечательно, что обучение с подкреплением с использованием нашего набора данных оказывается существенно более эффективным, достигая производительности непрерывного предварительного обучения при использовании до 100 раз меньшего количества токенов. Наша работа предлагает жизнеспособный путь к масштабированию RL до уровней предварительного обучения, что позволяет создавать более мощные и эффективные языковые модели.
Платформы для краудсорсинговой оценки моделей, такие как Chatbot Arena, позволяют проводить оценку качества ответов моделей в реальном времени с точки зрения человека. В области программирования ручная проверка качества контента, созданного крупными языковыми моделями (LLM), представляет собой крайне сложную задачу, так как требует понимания длинных фрагментов исходного кода и преднамеренного симулирования его выполнения. В связи с этим мы представляем BigCodeArena — открытую платформу для человеческой оценки генерации кода, поддерживаемую комплексной и мгновенно доступной средой выполнения. Построенная на основе Chatbot Arena, BigCodeArena позволяет выполнять код, сгенерированный LLM, и дает возможность людям взаимодействовать с процессом выполнения и его результатами. Мы собрали более 14 000 сессий разговоров, ориентированных на код, с использованием 10 широко применяемых LLM, охватывающих 10 языков программирования и 8 типов сред выполнения. Среди этих разговоров мы выделили более 4700 многоходовых примеров с парными предпочтениями людей. Дополнительный анализ выявил недостаточно изученные предпочтения LLM в узких областях, характеризующихся задачами, языками и фреймворками. Для систематического изучения способностей передовых LLM к пониманию и генерации кода мы создали два бенчмарка на основе собранных данных: BigCodeReward и AutoCodeArena. Для BigCodeReward мы обработали 4700 разговоров и оценили согласованность между моделями вознаграждения и человеческими предпочтениями. Оценка показала, что большинство LLM демонстрируют превосходную производительность в суждении о предпочтениях в кодировании, когда доступны результаты выполнения. Вдохновленные этими выводами, мы предлагаем AutoCodeArena — автоматический бенчмарк с рейтингом Elo, предназначенный для оценки качества кода, генерируемого LLM, без участия человека. Мы обнаружили, что проприетарные LLM, такие как GPT-5, Claude-Sonnet-4 и Claude-Opus-4, по-прежнему лидируют в производительности генерации кода среди недавно появившихся моделей.
Последние тенденции в масштабировании моделей рассуждений на этапе тестирования (например, OpenAI o1, DeepSeek-R1) привели к значительным улучшениям благодаря использованию длинных цепочек рассуждений (Chain-of-Thought, CoT). Однако существующие бенчмарки в основном сосредоточены на задачах с немедленным, одношаговым горизонтом, что не позволяет адекватно оценить способность моделей понимать и реагировать на сложные, многошаговые сценарии. Чтобы устранить этот пробел в оценке крупных моделей рассуждений (Large Reasoning Models, LRMs), мы предлагаем метод R-HORIZON, предназначенный для стимулирования длинных цепочек рассуждений в LRMs через композицию запросов. На основе R-HORIZON мы создаем бенчмарк для оценки многошаговых рассуждений, включающий сложные задачи с взаимосвязанными проблемами, охватывающими длинные горизонты рассуждений. В ходе всесторонней оценки LRMs с использованием бенчмарка R-HORIZON мы обнаруживаем, что даже самые передовые модели демонстрируют значительное снижение производительности. Наш анализ показывает, что LRMs имеют ограниченную эффективную длину рассуждений и испытывают трудности с распределением ресурсов мышления между несколькими задачами. Осознавая эти ограничения, мы используем R-HORIZON для создания данных для обучения с подкреплением с проверенными наградами (Reinforcement Learning with Verified Rewards, RLVR). По сравнению с обучением на одношаговых данных, RLVR с использованием R-HORIZON не только значительно улучшает производительность на задачах с многошаговыми рассуждениями, но также повышает точность на стандартных задачах рассуждений, демонстрируя увеличение на 7.5 баллов на AIME2024. Эти результаты позиционируют R-HORIZON как масштабируемую, управляемую и экономически эффективную парадигму для улучшения и оценки способностей LRMs к длинным цепочкам рассуждений.
Крупные языковые модели, демонстрирующие сложные рассуждения, реализуют их через расширенную генерацию цепочки мыслей, что создает беспрецедентную нагрузку на кэш ключей-значений (KV) на этапе декодирования. Существующие методы сжатия KV-кэша показывают низкую эффективность для моделей рассуждений: методы отбрасывания токенов нарушают целостность рассуждений, удаляя критически важную информацию, а методы перераспределения голов ошибочно сжимают головы, важные для рассуждений, поскольку они разработаны для задач поиска, что приводит к значительному ухудшению производительности с увеличением степени сжатия. Мы предполагаем, что головы KV в моделях рассуждений демонстрируют функциональную гетерогенность: некоторые головы критически важны для согласованности цепочки мыслей, в то время как другие поддаются сжатию. Чтобы проверить и использовать это наблюдение, мы предлагаем RLKV — новый фреймворк для идентификации голов, критически важных для рассуждений, который использует обучение с подкреплением для прямой оптимизации связи между использованием кэша каждой головы и качеством рассуждений. Поскольку RLKV генерирует награды на основе реальных сгенерированных образцов во время обучения, он естественным образом идентифицирует головы, связанные с поведением рассуждений. Затем мы выделяем полный KV-кэш для этих голов, применяя сжатый постоянный KV-кэш к остальным для эффективного вывода. Наши эксперименты показывают, что лишь небольшая доля голов внимания критически важна для рассуждений, что позволяет нашему подходу к сжатию KV превосходить базовые методы, достигая сокращения кэша на 20–50% с практически без потерь в производительности по сравнению с несжатыми результатами.
С текущим всплеском исследований в области пространственного мышления ученые добились значительного прогресса в понимании внутренних сцен, но по-прежнему сталкиваются с трудностями в разнообразных приложениях, таких как робототехника и автономное вождение. Данная работа направлена на продвижение всестороннего пространственного мышления в различных сценариях, решая две ключевые проблемы: 1) сильную зависимость от 3D-сканирования помещений и трудоемких ручных аннотаций для создания наборов данных; 2) отсутствие эффективного моделирования сцен на всех масштабах, что часто приводит к переобучению на отдельных сценах. В этой статье мы представляем целостное решение, которое объединяет структурированную систему знаний для пространственного мышления, масштабно-ориентированное моделирование и прогрессивную парадигму обучения, что является первой попыткой расширить всесторонний пространственный интеллект MLLM (многоуровневых языковых моделей), насколько нам известно. Используя специализированный автоматизированный конвейер, мы создали более 38 тысяч видеосцен на 5 пространственных масштабах, чтобы сформировать SpaceVista-1M — набор данных, содержащий около 1 миллиона пар вопросов и ответов по пространственному анализу, охватывающих 19 различных типов задач. Хотя специализированные модели могут предоставлять полезные знания в своей области, они не подходят для оценки. Затем мы создаем всесторонний бенчмарк с точными аннотациями, вручную записывая, извлекая и собирая видеоданные. Однако простое обучение на SpaceVista-1M часто дает неоптимальные результаты из-за возможных конфликтов знаний. Соответственно, мы представляем SpaceVista-7B — модель пространственного мышления, которая принимает плотные входные данные, выходящие за рамки семантики, и использует масштаб как якорь для масштабно-ориентированных экспертов и прогрессивных наград. Наконец, обширные оценки на 5 бенчмарках, включая наш SpaceVista-Bench, демонстрируют конкурентоспособную производительность, показывая сильную обобщаемость на всех масштабах и сценариях. Наш набор данных, модель и бенчмарк будут опубликованы на https://peiwensun2000.github.io/mm2km.
Оценка современных моделей машинного обучения стала чрезмерно дорогостоящей. Бенчмарки, такие как LMMs-Eval и HELM, требуют тысяч часов работы GPU для каждой модели. Высокая стоимость оценки снижает инклюзивность, замедляет цикл инноваций и усугубляет воздействие на окружающую среду. Типичный подход состоит из двух шагов. Сначала выбирается опорное подмножество данных. Затем строится отображение точности на этом подмножестве на итоговый результат тестирования. Недостаток заключается в том, что выбор опорного подмножества зависит от кластеризации, которая может быть сложной и чувствительной к выбору параметров. Мы утверждаем, что повышение разнообразия среди выборок не является необходимым; важно выбирать выборки, которые максимизируют разнообразие в ответах моделей. Наш метод, Diversifying Sample Condensation (DISCO), выбирает топ-k выборок с наибольшими расхождениями в ответах моделей. Это использует жадную, пошаговую статистику вместо глобальной кластеризации. Подход концептуально проще. С теоретической точки зрения, расхождение между моделями предоставляет информационно-теоретически оптимальное правило для такой жадной выборки. DISCO демонстрирует эмпирические преимущества перед предыдущими методами, достигая передовых результатов в прогнозировании производительности на наборах данных MMLU, Hellaswag, Winogrande и ARC. Код доступен здесь: https://github.com/arubique/disco-public.
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало стандартным подходом для улучшения больших языковых моделей (LLM) в задачах логического рассуждения, при этом метод Group Relative Policy Optimization (GRPO) широко используется на практике. Однако GRPO тратит значительные вычислительные ресурсы на негативные группы: группы, в которых ни один из сэмплированных ответов не является правильным, дают нулевое преимущество и, следовательно, не формируют градиент. Мы исследуем, можно ли использовать негативные группы без дополнительного контроля. Исходя из задачи максимизации правдоподобия (MLE) в моделировании наград, мы показываем, что градиент MLE эквивалентен градиенту политики для модифицированной функции ценности. Эта функция ценности добавляет штраф, взвешенный по уверенности, на неправильные ответы, накладывая большие штрафы на более уверенные ошибки. Мы называем это Likelihood Estimation with Negative Samples (LENS). LENS модифицирует GRPO, присваивая ненулевые, зависящие от уверенности награды неправильным генерациям, делая негативные группы информативными и превращая ранее бесполезные сэмплы в полезные обновления градиента. На бенчмарке MATH с моделями Llama-3.1-8B и Qwen-2.5-3B предложенный вариант стабильно превосходит базовый GRPO, демонстрируя значительные улучшения на более сложных задачах. Эти результаты показывают принципиальный и практический способ "спасения" негативных групп, повышая эффективность и производительность в RLVR.
Последние достижения в области мультимодальных моделей с расширенными возможностями рассуждений (MLRMs) значительно улучшили их способность решать сложные текстовые и визуальные задачи. Однако такие модели склонны чрезмерно усложнять простые задачи, создавая излишне длинные цепочки рассуждений, и недостаточно глубоко исследовать сложные задачи, что приводит к пропуску решений. Для устранения этого дисбаланса мы предлагаем ARES — унифицированную открытую платформу для адаптивного рассуждения, которая динамически распределяет усилия на исследование в зависимости от сложности задачи. Наш подход основан на двух ключевых эмпирических наблюдениях: (i) хотя энтропия отдельных токенов является зашумленной, токены с высокой скользящей энтропией (HWE) (энтропии на уровне токенов, усредненные в скользящем окне) могут надежно фиксировать критические моменты рассуждений; и (ii) уменьшение использования HWE полезно для простых задач, тогда как его увеличение необходимо для решения сложных. Опираясь на эти идеи, ARES представляет двухэтапный процесс обучения. На этапе адаптивного "холодного старта" мы подготавливаем мультимодальные и текстовые данные, сопряженные с цепочками рассуждений, длина которых пропорциональна сложности задачи, что позволяет модели изначально учитывать сложность. На втором этапе мы разрабатываем адаптивную оптимизацию политики энтропии (AEPO), которая использует HWE-токены как триггеры для принятия решения о том, когда исследовать, и иерархическую награду за энтропию с динамическим контролем KL для определения степени исследования. Многочисленные эксперименты демонстрируют, что ARES достигает превосходной производительности и эффективности рассуждений на различных математических, логических и мультимодальных тестах, сокращая разрыв с ведущими коммерческими системами при значительно меньших затратах на вывод.
Способность использовать, понимать и создавать инструменты является отличительной чертой человеческого интеллекта, позволяющей осуществлять сложное взаимодействие с физическим миром. Для того чтобы любой универсальный интеллектуальный агент достиг истинной универсальности, он также должен овладеть этими фундаментальными навыками. Хотя современные мультимодальные большие языковые модели (MLLMs) используют свои обширные знания для высокоуровневого планирования в воплощённом ИИ и в моделях Vision-Language-Action (VLA), степень их истинного понимания физических инструментов остаётся неопределённой. Чтобы устранить этот пробел, мы представляем PhysToolBench — первый бенчмарк, посвящённый оценке понимания физических инструментов MLLMs. Наш бенчмарк структурирован как набор данных Visual Question Answering (VQA), включающий более 1000 пар изображение-текст. Он оценивает способности на трёх различных уровнях сложности: (1) Распознавание инструмента: требует определения основной функции инструмента. (2) Понимание инструмента: проверяет способность уловить принципы работы инструмента. (3) Создание инструмента: ставит перед моделью задачу сконструировать новый инструмент из окружающих объектов, когда традиционные варианты недоступны. Наше всестороннее тестирование 32 MLLMs, включая проприетарные, открытые, специализированные воплощённые модели и базовые модели в VLA, выявило значительный дефицит в понимании инструментов. Кроме того, мы предоставляем детальный анализ и предлагаем предварительные решения. Код и набор данных доступны публично.
Недавние достижения расширили границы ИИ, перейдя от задач распознавания образов к проблемам, требующим пошагового, системного (System2) стиля рассуждений, особенно в контексте больших языковых моделей. Однако, в отличие от обучения, где концепции обобщения и оценки вне распределения (OoD) хорошо формализованы, для способности к рассуждениям нет четкого и последовательного определения или метрики. Мы предлагаем обобщение сложности вне распределения (Complexity OoD) как концептуальную основу и постановку задачи для определения и измерения способности к рассуждениям. Модель демонстрирует обобщение Complexity OoD, если она сохраняет производительность на тестовых примерах, минимальная требуемая сложность решения которых — будь то репрезентационная (более богатая структура решения) или вычислительная (больше шагов рассуждений/длина программы) — превышает сложность всех обучающих примеров. Мы формализуем сложность через колмогоровскую сложность описания решения и операционные прокси (например, количество объектов/отношений; количество шагов рассуждений), уточняя, чем Complexity OoD отличается от OoD по длине и композиционности. Этот подход объединяет обучение и рассуждения: многие задачи, решаемые с помощью System1-подобной обработки на низком уровне сложности, переходят в System2-подобные под давлением сложности, а System2 можно рассматривать как обобщение над структурами решений. Мы переводим эту перспективу в практику, предлагая рекомендации по реализации Complexity OoD на всех уровнях: включение сложности в дизайн бенчмарков и метрик оценки, переосмысление супервизии для нацеливания на трассировку решений, поиск и проектирование индуктивных смещений для обобщения Complexity OoD, устранение побочных эффектов обучения рассуждениям, таких как ложные упрощения, семантическая устойчивость, катастрофическое забывание и пошаговая калибровка. Поскольку Complexity OoD нельзя решить только за счет масштабирования данных, прогресс в направлении устойчивых рассуждений потребует архитектур и режимов обучения, которые явно моделируют и распределяют вычисления с учетом сложности.
Задача прогнозирования 3D-занятости в последние годы демонстрирует значительный прогресс, играя ключевую роль в системах автономного вождения на основе компьютерного зрения. В то время как традиционные методы ограничены фиксированными семантическими категориями, современные подходы перешли к предсказанию текстово-выровненных признаков, что позволяет выполнять запросы с открытым словарным запасом в реальных сценах. Однако существует компромисс в моделировании сцен с текстовым выравниванием: разреженное представление Гаусса с трудом захватывает мелкие объекты в сцене, тогда как плотное представление требует значительных вычислительных затрат. Для устранения этих ограничений мы представляем PG-Occ, инновационную прогрессивную трансформерную структуру на основе Гаусса, которая позволяет выполнять прогнозирование 3D-занятости с открытым словарным запасом. Наша структура использует прогрессивное онлайн-уплотнение, стратегию прямого распространения, которая постепенно улучшает 3D-представление Гаусса для захвата деталей сцены. Итеративно улучшая представление, структура достигает всё более точного и детального понимания сцены. Ещё одним ключевым вкладом является введение стратегии выборки с учётом анизотропии и пространственно-временного слияния, которая адаптивно назначает рецептивные поля Гауссам на разных масштабах и этапах, обеспечивая более эффективную агрегацию признаков и захват более богатой информации о сцене. В ходе обширных оценок мы демонстрируем, что PG-Occ достигает наилучших результатов с относительным улучшением mIoU на 14,3% по сравнению с предыдущим лучшим методом. Код и предварительно обученные модели будут опубликованы на нашей странице проекта: https://yanchi-3dv.github.io/PG-Occ.
Крупные языковые модели (LLM) демонстрируют значительный прогресс в области рассуждений, часто благодаря обучению с учителем (SFT). Однако SFT требует значительных ресурсов, полагаясь на большие тщательно отобранные наборы данных, демонстрации, полученные методом отбора с отклонением, и равномерную оптимизацию всех токенов, хотя лишь небольшая их часть несет в себе значимую обучающую ценность. В данной работе мы исследуем контринтуитивную идею: могут ли меньшие языковые модели (SLM) обучать крупные языковые модели (LLM), выявляя ключевые моменты рассуждений, которые отражают уникальные сильные стороны последних? Мы предлагаем LightReasoner — новый фреймворк, который использует поведенческое расхождение между более сильной экспертной моделью (LLM) и более слабой любительской моделью (SLM). LightReasoner работает в два этапа: (1) этап выборки, на котором определяются критические моменты рассуждений и создаются обучающие примеры, фиксирующие преимущество эксперта через контраст между экспертом и любителем, и (2) этап тонкой настройки, на котором экспертная модель адаптируется к этим дистиллированным примерам, усиливая свои сильные стороны в рассуждениях. На семи математических бенчмарках LightReasoner повышает точность до 28,1%, одновременно сокращая время выполнения на 90%, количество решаемых задач на 80% и использование токенов для настройки на 99%, при этом не полагаясь на эталонные метки. Превращая слабые SLM в эффективные обучающие сигналы, LightReasoner предлагает масштабируемый и ресурсоэффективный подход для улучшения рассуждений LLM. Код доступен по адресу: https://github.com/HKUDS/LightReasoner.
Современные управляемые диффузионные модели обычно используют фиксированные архитектуры, которые модифицируют промежуточные активации для внедрения управляющих сигналов, обусловленных новым модальностью. Этот подход применяет статическую стратегию кондиционирования для динамического, многоэтапного процесса удаления шума, что ограничивает способность модели адаптировать свои реакции по мере того, как генерация переходит от грубой структуры к мелким деталям. Мы представляем TC-LoRA (Temporally Modulated Conditional LoRA), новую парадигму, которая обеспечивает динамическое, контекстно-зависимое управление, напрямую кондиционируя веса модели. Наша платформа использует гиперсеть для генерации адаптеров LoRA на лету, настраивая модификации весов для замороженной базовой модели на каждом шаге диффузии в зависимости от времени и условий пользователя. Этот механизм позволяет модели изучать и применять явную, адаптивную стратегию для внедрения управляющих сигналов на протяжении всего процесса генерации. В экспериментах на различных доменах данных мы демонстрируем, что этот динамический, параметрический контроль значительно улучшает точность генерации и соответствие пространственным условиям по сравнению со статическими методами, основанными на активациях. TC-LoRA устанавливает альтернативный подход, в котором стратегия кондиционирования модели изменяется за счет более глубокой функциональной адаптации её весов, позволяя управлению соответствовать динамическим требованиям задачи и этапа генерации.
Мы представляем MRMR — первый экспертно-ориентированный многодисциплинарный мультимодальный бенчмарк для поиска, требующий интенсивного анализа. MRMR содержит 1 502 запроса, охватывающих 23 области, с положительными документами, тщательно проверенными экспертами. По сравнению с предыдущими бенчмарками, MRMR вносит три ключевых улучшения. Во-первых, он проверяет системы поиска в различных областях знаний, позволяя проводить детальное сравнение моделей между доменами. Во-вторых, запросы требуют глубокого анализа, например, интерпретации изображений, таких как диагностика микроскопических срезов. Мы также представляем задачу "Поиск противоречий", которая требует от моделей выявления конфликтующих концепций. Наконец, запросы и документы сконструированы как чередующиеся последовательности изображений и текста. В отличие от предыдущих бенчмарков, ограниченных одиночными изображениями или унимодальными документами, MRMR предлагает реалистичный сценарий с запросами, включающими несколько изображений, и документами смешанной модальности. Мы провели масштабную оценку 4 категорий мультимодальных систем поиска и 14 передовых моделей на MRMR. Модель текстового векторного представления Qwen3-Embedding с подписями к изображениями, сгенерированными LLM, демонстрирует наивысшую производительность, что подчеркивает значительный потенциал для улучшения мультимодальных моделей поиска. Хотя современные мультимодальные модели, такие как Ops-MM-Embedding, показывают конкурентоспособные результаты на экспертных запросах, они отстают в задачах, требующих интенсивного анализа. Мы считаем, что MRMR открывает путь для развития мультимодального поиска в более реалистичных и сложных сценариях.
Модели рассуждений в последнее время продемонстрировали значительный прогресс в таких областях, как математика и программирование. Однако их экспертные способности в этих областях резко контрастируют с их производительностью в долгосрочных интерактивных задачах, таких как навигация в интернете и использование компьютера/телефона. Вдохновленные исследованиями в области человеческого познания, мы утверждаем, что современным ИИ-агентам необходима способность к «викарным пробам и ошибкам» — умению мысленно моделировать альтернативные варианты будущего перед действием — для улучшения их понимания и производительности в сложных интерактивных средах. Мы представляем Dyna-Mind, двухэтапную обучающую структуру, которая явно обучает агентов (V)LM интегрировать такое моделирование в свои рассуждения. На первом этапе мы вводим Reasoning with Simulations (ReSim), который обучает агента генерировать структурированные траектории рассуждений на основе расширенных деревьев поиска, построенных из реального опыта, собранного в ходе взаимодействия со средой. ReSim таким образом закрепляет рассуждения агента в достоверной динамике мира и наделяет его способностью предвидеть будущие состояния в своих рассуждениях. На втором этапе мы предлагаем Dyna-GRPO, метод онлайн-обучения с подкреплением, который дополнительно укрепляет способность агента к моделированию и принятию решений, используя как награды за результат, так и промежуточные состояния в качестве обратной связи из реальных прогонов. Эксперименты на двух синтетических тестовых наборах (Sokoban и ALFWorld) и одном реалистичном наборе (AndroidWorld) демонстрируют, что (1) ReSim эффективно внедряет способность к моделированию в ИИ-агентов, и (2) Dyna-GRPO использует сигналы на уровне результатов и взаимодействий для обучения более эффективным стратегиям в долгосрочных задачах, требующих планирования. Вместе эти результаты подчеркивают ключевую роль моделирования в том, чтобы ИИ-агенты могли рассуждать, планировать и действовать более эффективно в условиях все более сложных сред.
Синтез динамических видов достиг значительных успехов, однако реконструкция сцен из некалиброванных, случайных видеозаписей остается сложной задачей из-за медленной оптимизации и сложной оценки параметров. В данной работе мы представляем Instant4D, систему монохромной реконструкции, которая использует нативное 4D-представление для эффективной обработки случайных видеопоследовательностей за считанные минуты, без необходимости в калиброванных камерах или датчиках глубины. Наш метод начинается с восстановления геометрии с помощью глубокого визуального SLAM, за которым следует оптимизация представления сцены через обрезку сетки. Наш подход значительно сокращает избыточность, сохраняя при этом геометрическую целостность, уменьшая размер модели до менее чем 10% от исходного. Для эффективной обработки временной динамики мы вводим упрощенное 4D-представление на основе гауссовских функций, достигая 30-кратного ускорения и сокращая время обучения до двух минут, при этом сохраняя конкурентоспособные результаты на нескольких бенчмарках. Наш метод реконструирует одно видео в течение 10 минут на наборе данных Dycheck или для типичного видео из 200 кадров. Мы также применяем нашу модель к видеозаписям в реальных условиях, демонстрируя ее универсальность. Наш проект доступен на сайте https://instant4d.github.io/.
Крупные языковые модели (LLMs) продемонстрировали значительные успехи в математическом и логическом мышлении, однако статистика, как отдельная и интегративная дисциплина, остается недостаточно изученной в рамках бенчмаркинговых усилий. Чтобы устранить этот пробел, мы представляем StatEval — первый всеобъемлющий бенчмарк, посвященный статистике, охватывающий как широту, так и глубину задач на различных уровнях сложности. StatEval включает 13 817 базовых задач, охватывающих программы бакалавриата и магистратуры, а также 2374 задачи уровня исследований, извлеченные из ведущих журналов. Для создания бенчмарка мы разработали масштабируемый многозадачный конвейер с участием человека в цикле проверки, который автоматизирует крупномасштабное извлечение, переработку и контроль качества задач, обеспечивая при этом академическую строгость. Мы также предлагаем надежную систему оценки, адаптированную как для вычислительных, так и для доказательных задач, что позволяет проводить детальный анализ способности к рассуждению. Экспериментальные результаты показывают, что закрытые модели, такие как GPT5-mini, справляются с задачами уровня исследований менее чем на 57%, а открытые модели демонстрируют значительно более низкие результаты. Эти данные подчеркивают уникальные сложности статистического мышления и ограничения современных LLM. Мы ожидаем, что StatEval станет строгим бенчмарком для развития статистического интеллекта в крупных языковых моделях. Все данные и код доступны на нашей веб-платформе: https://stateval.github.io/.
Устойчивость систем автоматического распознавания речи (ASR) к сдвигу домена крайне важна, поскольку реальные системы сталкиваются с неизвестными акцентами и доменами при ограниченном количестве размеченных данных. Хотя псевдоразметка предлагает практическое решение, она часто вносит систематические ошибки, специфичные для акцентов, которые не устраняются фильтрацией. Мы задаемся вопросом: как можно исправить эти повторяющиеся смещения без наличия эталонных данных целевого домена? Мы предлагаем простую коррекцию в пространстве параметров: в исходном домене, содержащем как реальные, так и псевдоразмеченные данные, две модели ASR дообучаются из одной и той же начальной точки, одна на эталонных метках, а другая на псевдо-метках, и разница их весов формирует вектор коррекции, который фиксирует смещения псевдоразметки. Применение этого вектора к модели с псевдоразметкой в целевом домене улучшает распознавание, достигая относительного снижения частоты ошибок по словам (WER) до 35% на наборе данных AfriSpeech-200 для десяти африканских акцентов с использованием модели Whisper tiny.
Традиционные мультимодальные модели находят унифицированные представления для задач, таких как визуальное ответы на вопросы, но в значительной степени полагаются на парные наборы данных. Однако важный, но часто упускаемый из виду вопрос заключается в следующем: можно ли использовать вспомогательные непарные мультимодальные данные для непосредственного улучшения обучения представлений в целевой модальности? Мы представляем UML: Unpaired Multimodal Learner (Мультимодальный обучающийся на непарных данных) — модально-агностическую парадигму обучения, в которой одна модель поочередно обрабатывает входные данные из разных модальностей, разделяя параметры между ними. Этот подход основывается на предположении, что разные модальности являются проекциями общей базовой реальности, что позволяет модели извлекать пользу из кросс-модальной структуры без необходимости явных пар. Теоретически, в предположении линейного генерирования данных, мы показываем, что непарные вспомогательные данные могут давать представления, строго более информативные о процессе генерации данных, чем обучение на одной модальности. Эмпирически мы демонстрируем, что использование непарных данных из вспомогательных модальностей — таких как текст, аудио или изображения — последовательно улучшает производительность на разнообразных целевых задачах, таких как обработка изображений и аудио. Наша страница проекта: https://unpaired-multimodal.github.io/
Агенты DeepResearch представляют собой трансформационную парадигму ИИ, выполняющую экспертные исследования с помощью сложного рассуждения и интеграции множества инструментов. Однако оценка таких систем остается крайне сложной задачей из-за открытых исследовательских сценариев и существующих тестов, которые сосредоточены на изолированных возможностях, а не на целостной производительности. В отличие от традиционных задач для крупных языковых моделей (LLM), системы DeepResearch должны синтезировать разнообразные источники, генерировать инсайты и представлять связные выводы, что затрудняет простую проверку. Для устранения этого пробела мы представляем DeepResearch-ReportEval — всеобъемлющую структуру, предназначенную для оценки систем DeepResearch через их наиболее репрезентативные результаты: исследовательские отчеты. Наш подход систематически измеряет три аспекта: качество, избыточность и достоверность, используя инновационную методологию LLM-as-a-Judge, которая демонстрирует высокую согласованность с экспертами. Мы предоставляем стандартизированный тест из 100 тщательно отобранных запросов, охватывающих 12 реальных категорий, что позволяет систематически сравнивать возможности. Наша оценка четырех ведущих коммерческих систем выявляет различные философии проектирования и компромиссы в производительности, устанавливая фундаментальные инсайты по мере того, как DeepResearch эволюционирует от информационных помощников к интеллектуальным исследовательским партнерам. Исходный код и данные доступны по адресу: https://github.com/HKUDS/DeepResearch-Eval.
Протоколы контроля ИИ служат защитным механизмом для предотвращения вреда, который могут причинить ненадежные агенты на основе больших языковых моделей (LLM) в автономных условиях. Предыдущие работы рассматривали это как проблему безопасности, проводя стресс-тестирование с использованием эксплойтов, которые используют контекст развертывания для незаметного выполнения вредоносных побочных задач, таких как внедрение бэкдоров. На практике большинство протоколов контроля ИИ основываются на мониторах LLM, которые могут стать центральной точкой отказа. Мы исследуем адаптивные атаки со стороны ненадежной модели, которая знает протокол и модель монитора, что вполне возможно, если ненадежная модель была обучена с более поздним порогом знаний или может автономно искать эту информацию. Мы реализуем простой вектор адаптивной атаки, при котором злоумышленник внедряет общеизвестные или zero-shot инъекции промптов в выходные данные модели. Используя эту тактику, передовые модели стабильно обходят разнообразные мониторы и выполняют вредоносные задачи на двух основных тестовых наборах для контроля ИИ. Атака универсально эффективна против текущих протоколов, полагающихся на монитор. Более того, недавний протокол Defer-to-Resample даже усугубляет ситуацию, так как его повторная выборка усиливает инъекцию промпта и фактически превращает её в атаку best-of-n. В целом, адаптивные атаки на модели мониторов представляют собой значительный пробел в текущих протоколах контроля и должны стать стандартным компонентом оценки будущих механизмов контроля ИИ.
Параллельное масштабирование на этапе тестирования (TTS) является ключевым подходом для улучшения больших языковых моделей (LLM), обычно за счет параллельного сэмплирования нескольких цепочек рассуждений на основе токенов и агрегирования результатов через голосование или поиск. Недавние достижения в области латентного рассуждения, где промежуточные рассуждения разворачиваются в непрерывных векторных пространствах, предлагают более эффективную альтернативу явной цепочке рассуждений (Chain-of-Thought). Однако остается открытым вопрос, могут ли такие латентные модели аналогично выиграть от параллельного TTS, главным образом из-за отсутствия механизмов сэмплирования в непрерывном пространстве и недостатка вероятностных сигналов для продвинутой агрегации траекторий. \ В данной работе мы реализуем параллельное TTS для моделей латентного рассуждения, решая указанные проблемы. Для сэмплирования мы предлагаем две стохастические стратегии, вдохновленные неопределенностью: метод Монте-Карло с отключением (Monte Carlo Dropout) и добавление гауссовского шума. Для агрегации мы разрабатываем латентную модель вознаграждения (LatentRM), обученную с пошаговым контрастным целевым функционалом для оценки и направления латентного рассуждения. Многочисленные эксперименты и визуализационные анализы показывают, что обе стратегии сэмплирования эффективно масштабируются с увеличением вычислительных ресурсов и демонстрируют различные динамики исследования, в то время как LatentRM позволяет эффективно выбирать траектории. Вместе наши исследования открывают новое направление для масштабируемого вывода в непрерывных пространствах. Код доступен по адресу https://github.com/YRYangang/LatentTTS.
Модели с нулевым обучением (zero-shot captioners) — это недавно предложенные подходы, которые используют общие пространства визуально-языковых представлений для создания подписей к изображениям без использования парных данных "изображение-текст". Для создания подписи они декодируют текстово-выровненные признаки изображения, но ограничиваются глобальными представлениями и подписями ко всему изображению. Мы представляем унифицированную структуру для создания подписей с нулевым обучением, которая переходит от изображения к патч-ориентированной парадигме, позволяя описывать произвольные области без необходимости обучения на уровне регионов. Вместо использования глобальных представлений изображений мы рассматриваем отдельные патчи как атомарные единицы для создания подписей и объединяем их для описания произвольных областей — от отдельных патчей до несмежных областей и целых изображений. Мы анализируем ключевые компоненты, которые позволяют существующим латентным моделям работать в рамках нашей новой структуры. Эксперименты показывают, что базовые модели, генерирующие осмысленные и плотные визуальные признаки, такие как DINO, являются ключом к достижению наилучших результатов в задачах создания подписей на основе регионов. По сравнению с другими базовыми моделями и современными конкурентами, наши модели демонстрируют более высокую производительность в задачах создания плотных подписей, подписей для наборов регионов и в новой задаче создания подписей по трассировке, подчеркивая эффективность семантических представлений на уровне патчей для масштабируемого создания подписей. Страница проекта: https://paciosoft.com/Patch-ioner/.
Рецензирование является краеугольным камнем научной публикации, однако оно страдает от неоднородности, субъективности рецензентов и проблем с масштабируемостью. Мы представляем ReviewerToo — модульную платформу для изучения и внедрения ИИ-ассистированного рецензирования, дополняющего человеческое суждение систематическими и последовательными оценками. ReviewerToo поддерживает систематические эксперименты с использованием специализированных персонажей рецензентов и структурированных критериев оценки, а также может быть частично или полностью интегрирован в реальные процессы конференций. Мы проверяем ReviewerToo на тщательно отобранном наборе данных из 1963 статей, представленных на ICLR 2025, где наши эксперименты с моделью gpt-oss-120b демонстрируют точность 81,8% в задаче классификации статей как "принять/отклонить" по сравнению с 83,9% у среднего человеческого рецензента. Кроме того, рецензии, сгенерированные ReviewerToo, оцениваются как более качественные, чем средние человеческие, по мнению судьи на основе языковой модели, хотя они всё ещё уступают лучшим экспертам. Наш анализ выделяет области, в которых ИИ-рецензенты преуспевают (например, проверка фактов, охват литературы), и те, где они испытывают трудности (например, оценка методологической новизны и теоретического вклада), подчеркивая необходимость сохранения человеческой экспертизы. На основе этих результатов мы предлагаем рекомендации по интеграции ИИ в процессы рецензирования, показывая, как ИИ может повысить последовательность, охват и справедливость, оставляя сложные оценочные суждения экспертам в предметной области. Наша работа закладывает основу для систематических гибридных систем рецензирования, способных масштабироваться вместе с ростом научной публикации.
Крупные модели рассуждений (LRMs), усиленные обучением с подкреплением на основе вознаграждения от верификатора (RLVR), продемонстрировали значительную эффективность в решении задач, однако они часто вызывают "переосмысление": избыточные, блуждающие рассуждения, которые увеличивают вычислительные затраты. Предыдущие подходы к штрафованию в RLVR позволяли сократить потребление токенов, но часто ухудшали производительность модели, что связано с чрезмерной упрощённостью контроля на уровне токенов. В данной статье мы утверждаем, что гранулярность контроля играет ключевую роль в балансе между эффективностью и точностью, и предлагаем метод группового относительного сегментного штрафования (GRSP) — подход на уровне шагов для регуляризации рассуждений. Поскольку предварительные анализы показывают, что сегменты рассуждений тесно связаны с потреблением токенов и производительностью модели, мы разрабатываем механизм взвешивания, учитывающий длину, для кластеров сегментов. Многочисленные эксперименты демонстрируют, что GRSP обеспечивает превосходную эффективность использования токенов без значительного ущерба для точности, особенно в случае более сложных задач. Кроме того, GRSP стабилизирует обучение с подкреплением и эффективно масштабируется для моделей различных размеров.
Модели разговорного языка в реальном времени (Spoken Language Models, SLMs) испытывают трудности с использованием цепочек рассуждений (Chain-of-Thought, CoT) из-за неприемлемой задержки, возникающей при последовательной генерации всего мыслительного процесса. Возможность SLM "думать во время говорения", подобно людям, привлекает всё больше внимания. Впервые мы представляем Mind-Paced Speaking (MPS) — вдохновлённый работой мозга фреймворк, который обеспечивает высококачественное рассуждение в реальном времени. Подобно тому, как люди используют различные области мозга для мышления и ответа, мы предлагаем новый подход с использованием "двух мозгов": "Мозг формулирования" для высокоуровневого рассуждения, который управляет и направляет отдельный "Мозг артикуляции" для генерации плавной речи. Такое разделение задач устраняет необходимость переключения между режимами, сохраняя целостность процесса рассуждения. Эксперименты показывают, что MPS значительно превосходит существующие методы "мышления во время говорения" и достигает качества рассуждений, сопоставимого с моделями, которые предварительно вычисляют полную CoT перед говорением, при этом радикально снижая задержку. В конфигурации с нулевой задержкой предложенный метод достигает точности 92,8% на задаче математического рассуждения Spoken-MQA и получает оценку 82,5 на задаче речевого диалога URO-Bench. Наша работа эффективно устраняет разрыв между высококачественным рассуждением и взаимодействием в реальном времени.
Агенты, основанные на крупных языковых моделях (LLM), сталкиваются с трудностями при выполнении задач, требующих долгосрочного планирования, из-за склонности к бессистемным пробам и ошибкам, а также генерации действий, основанных на галлюцинациях. В данной статье мы представляем фреймворк "планируй и выполняй" и предлагаем EAGLET — эффективный метод обучения планировщика, который улучшает способности исполнительного агента к планированию без участия человека. В частности, мы обучаем универсальный глобальный планировщик в два этапа: сначала синтезируем высококачественные планы с использованием продвинутой LLM и нашей стратегии гомологичного консенсусного фильтрования, а затем применяем тонкую настройку в качестве "холодного старта". Кроме того, мы дополнительно улучшаем планировщик с помощью этапа обучения с подкреплением на основе правил, используя новую награду за прирост способностей исполнителя, что позволяет ему справляться с задачами различной сложности. Эксперименты на трех задачах для агентов с долгосрочным горизонтом показывают, что исполнительные агенты, оснащенные нашим планировщиком, превосходят существующие методы, достигая нового уровня передовых результатов. При этом EAGLET сокращает затраты на обучение в 8 раз по сравнению с базовыми методами на основе обучения с подкреплением и не требует ручных усилий или дополнительных обучающих данных, предлагая эффективное и практичное решение.
Как новая парадигма генерации визуального контента, авторегрессионные модели преобразования текста в изображения страдают от медленного вывода из-за их последовательного процесса декодирования токен за токеном, что часто требует тысяч прямых проходов модели для генерации одного изображения. Чтобы устранить эту неэффективность, мы предлагаем Speculative Jacobi-Denoising Decoding (SJD2) — фреймворк, который интегрирует процесс удаления шума в итерации Якоби для обеспечения параллельной генерации токенов в авторегрессионных моделях. Наш метод вводит парадигму предсказания следующего чистого токена, которая позволяет предварительно обученным авторегрессионным моделям принимать зашумленные эмбеддинги токенов и предсказывать следующие чистые токены с помощью низкозатратной тонкой настройки. Эта парадигма удаления шума направляет модель к более стабильным траекториям Якоби. Во время вывода наш метод инициализирует последовательности токенов гауссовским шумом и выполняет итеративное предсказание следующего чистого токена в пространстве эмбеддингов. Мы используем вероятностный критерий для проверки и принятия нескольких токенов параллельно, а также уточняем непринятые токены для следующей итерации с помощью траектории удаления шума. Эксперименты показывают, что наш метод может ускорить генерацию, сокращая количество прямых проходов модели, при этом сохраняя визуальное качество генерируемых изображений.
Сегментация объектов на видео по текстовому запросу (RVOS) ставит целью выделение объекта, указанного в запросе, на последовательности кадров видео. Большинство существующих методов требуют сквозного обучения с использованием плотных аннотаций масок, что может быть вычислительно затратным и менее масштабируемым. В данной работе мы переосмысливаем задачу RVOS и стремимся исследовать ключевые аспекты её решения. Опираясь на существующие базовые модели сегментации, мы разбиваем задачу RVOS на факторы, связанные с текстовым запросом, видео и сегментацией, и предлагаем фреймворк Temporal Prompt Generation and Selection (Tenet) для решения задач, связанных с запросом и видео, оставляя проблему сегментации базовым моделям. Для эффективной адаптации моделей сегментации, обученных на изображениях, к задаче RVOS мы используем готовые детекторы и трекеры объектов для создания временных подсказок, связанных с текстовым запросом. Хотя высококачественные временные подсказки могут быть созданы, их сложно идентифицировать по показателям уверенности. Для решения этой проблемы мы предлагаем метод Prompt Preference Learning для оценки качества созданных временных подсказок. Используя такие подсказки для управления базовыми моделями сегментации, обученными на изображениях, мы можем получать высококачественные маски для указанного объекта, что позволяет эффективно адаптировать модель к задаче RVOS. Эксперименты на эталонных наборах данных RVOS демонстрируют эффективность фреймворка Tenet.
Крупные языковые модели (LLM) и развивающиеся агентные фреймворки начинают преобразовывать одноклеточную биологию, обеспечивая естественно-языковое рассуждение, генеративную аннотацию и интеграцию мультимодальных данных. Однако прогресс остается фрагментированным в различных модальностях данных, архитектурах и стандартах оценки. LLM4Cell представляет первое унифицированное исследование 58 базовых и агентных моделей, разработанных для одноклеточных исследований, охватывающих модальности RNA, ATAC, мультиомику и пространственные данные. Мы классифицируем эти методы на пять семейств — базовые, текстовые мосты, пространственные, мультимодальные, эпигеномные и агентные — и связываем их с восемью ключевыми аналитическими задачами, включая аннотацию, моделирование траекторий и возмущений, а также предсказание реакции на лекарства. Используя более 40 публичных наборов данных, мы анализируем пригодность бенчмарков, разнообразие данных, а также этические и масштабируемые ограничения, и оцениваем модели по 10 доменным измерениям, охватывающим биологическую обоснованность, согласованность мультиомики, справедливость, конфиденциальность и объяснимость. Связывая наборы данных, модели и области оценки, LLM4Cell предоставляет первый интегрированный взгляд на языковую одноклеточную интеллектуальность и обозначает открытые вызовы в интерпретируемости, стандартизации и разработке доверенных моделей.
Крупные языковые модели (LLM) представляют значительные сложности при развертывании из-за их огромных вычислительных и ресурсных требований. Хотя полуструктурированное прореживание, в частности разреженность 2:4, предлагает путь к практическому аппаратному ускорению, существующие методы часто приводят к существенному снижению производительности. Чтобы устранить этот разрыв, мы представляем ARMOR (Adaptive Representation with Matrix-factORization) — новый одноэтапный алгоритм прореживания после обучения. Вместо прямого прореживания весов ARMOR факторизует каждую весовую матрицу в разреженное ядро 2:4, обернутое двумя блочно-диагональными матрицами с низкими накладными расходами. Эти обертки действуют как эффективные пред- и пост-трансформационные корректоры ошибок, обеспечивая большую гибкость для сохранения качества модели по сравнению с традиционными методами прореживания 2:4. Разреженное ядро и блочно-диагональные обертки выбираются с помощью алгоритма блочного координатного спуска, который минимизирует послойный прокси-потеря. Мы теоретически доказываем, что эта оптимизация гарантированно сходится к решению с прокси-потерями, меньшими или равными современным алгоритмам прореживания. Эксперименты на семействах моделей Llama (Touvron et al., 2023; Dubey et al., 2024) и Qwen (Yang et al., 2025) демонстрируют, что ARMOR стабильно и значительно превосходит современные методы прореживания 2:4 в широком спектре задач и оценок перплексии. ARMOR достигает этого превосходства, сохраняя ускорение вывода и значительное сокращение использования памяти, характерные для прореживания 2:4, устанавливая более эффективный баланс между сжатием модели и точностью выполнения задач.
Роботизированные агенты в реальном мире должны действовать в условиях частичной наблюдаемости и длительных временных горизонтов, где ключевые сигналы могут появляться задолго до того, как они повлияют на принятие решений. Однако большинство современных подходов полагаются исключительно на мгновенную информацию, не учитывая данные из прошлого. Стандартные рекуррентные или трансформерные модели сталкиваются с трудностями в сохранении и использовании долгосрочных зависимостей: контекстные окна обрезают историю, а простые расширения памяти не справляются с масштабом и разреженностью данных. Мы предлагаем ELMUR (External Layer Memory with Update/Rewrite) — архитектуру трансформера со структурированной внешней памятью. Каждый слой поддерживает эмбеддинги памяти, взаимодействует с ними через двунаправленное кросс-внимание и обновляет их с помощью модуля памяти LRU (Least Recently Used), используя замену или выпуклое смешение. ELMUR расширяет эффективные горизонты до 100 000 раз за пределы окна внимания и достигает 100% успеха на синтетической задаче T-Maze с коридорами длиной до одного миллиона шагов. В POPGym он превосходит базовые подходы более чем на половине задач. На задачах манипуляции с разреженными вознаграждениями и визуальными наблюдениями в MIKASA-Robo он почти удваивает производительность сильных базовых моделей. Эти результаты демонстрируют, что структурированная, локальная для слоев внешняя память предлагает простой и масштабируемый подход к принятию решений в условиях частичной наблюдаемости.
Как можно обучать крупные мультимодальные модели (LMM) новым навыкам, не стирая при этом ранее приобретённые способности? Мы исследуем последовательное тонкое настраивание на пяти целевых навыках, одновременно отслеживая общие способности на восьми независимых тестовых наборах данных для трёх семейств моделей. Мы наблюдаем, что кажущееся "забывание" на независимых задачах после узкого тонкого настраивания может частично восстанавливаться на более поздних этапах. Мы связываем это поведение с измеримым сдвигом в распределении выходных токенов, который проявляется через простой зонд, основанный на подсчёте смещений и коррелирующий с забыванием. Руководствуясь этой картиной, мы определяем два простых и устойчивых рецепта настройки, которые обеспечивают сильное обучение при ограниченном дрейфе: (i) обновление только слоёв проекции self-attention и (ii) обновление только слоёв MLP Gate&Up при замороженной проекции Down. Для различных моделей и задач эти подходы обеспечивают значительные улучшения на целевых задачах, при этом в значительной степени сохраняя производительность на независимых тестах. Код доступен по адресу https://github.com/jessemelpolio/LMM_CL.
Крупные языковые модели (LLMs) достигли значительных успехов в области рассуждений, однако иногда выдают ответы, которые не являются оптимальными для пользователей в таких задачах, как написание текстов, поиск информации или предоставление практических рекомендаций. Традиционные подходы к согласованию обычно предполагают, что максимизация вознаграждения модели также максимизирует благополучие пользователя, но на практике это предположение часто не оправдывается: модели могут излишне детализировать или генерировать чрезмерно многословные рассуждения, в то время как пользователи предпочитают краткие ответы. Такое поведение напоминает дилемму заключённого, когда индивидуально рациональные выборы приводят к социально неоптимальным результатам. Основная проблема заключается в отсутствии принципиального механизма принятия решений, который был бы взаимовыгоден как для LLM, так и для пользователя. Мы предлагаем Game-Theoretic Alignment (GTAlign) — фреймворк для согласования, который интегрирует теорию игр в процессы рассуждения и обучения. В ходе рассуждения модель явно рассматривает взаимодействие пользователя и LLM как стратегическую игру: она строит матрицы выигрышей в цепочке рассуждений для оценки благополучия как себя, так и пользователя, а затем выбирает действия, которые являются взаимовыгодными. В процессе обучения мы вводим вознаграждение за взаимное благополучие, которое усиливает кооперативные ответы, согласуя поведение модели с социально эффективными результатами. Кроме того, мы представляем метод вывода, который использует теорию игр для динамической адаптации ответа LLM при изменении ценовой политики сервиса. Эксперименты показывают, что GTAlign значительно улучшает эффективность рассуждений, качество ответов и взаимное благополучие по сравнению с базовыми подходами в различных задачах. Код доступен по адресу https://github.com/ulab-uiuc/GTAlign.
Личные нарративы — это истории, которые авторы создают, чтобы осмыслить свои переживания. Стиль, уникальный способ использования языка для самовыражения, играет ключевую роль в том, как эти нарративы передают субъективный опыт. Однако до сих пор отсутствует формальная структура для систематического анализа таких стилистических решений. Мы предлагаем новый подход, который формализует стиль в личных нарративах как закономерности в языковых выборах, которые авторы делают при передаче субъективного опыта. Наша структура объединяет три области: функциональная лингвистика рассматривает язык как систему значимых выборов, компьютерные науки предоставляют методы для автоматического извлечения и анализа последовательных паттернов, а эти паттерны связываются с психологическими наблюдениями. Используя языковые модели, мы автоматически извлекаем лингвистические признаки, такие как процессы, участники и обстоятельства. Мы применяем нашу структуру к сотням нарративов о сновидениях, включая кейс-стади ветерана войны с посттравматическим стрессовым расстройством. Анализ его нарративов выявляет характерные паттерны, в частности преобладание вербальных процессов над ментальными, что иллюстрирует связь между языковыми выборами и психологическими состояниями.
Современные подходы к самоконтролируемой оценке монохромной глубины (MDE) сталкиваются с ограничениями производительности из-за недостаточного извлечения семантико-пространственных знаний. Для решения этой проблемы мы предлагаем Hybrid-depth, новую структуру, которая систематически интегрирует базовые модели (например, CLIP и DINO) для извлечения визуальных приоритетов и получения достаточной контекстной информации для MDE. Наш подход вводит прогрессивную структуру обучения от грубого к точному: 1) Во-первых, мы агрегируем многоуровневые признаки из CLIP (глобальная семантика) и DINO (локальные пространственные детали) под контрастным языковым руководством. Задача-посредник, сравнивающая близкие и удаленные участки изображений, разработана для обеспечения выравнивания признаков, учитывающих глубину, с использованием текстовых подсказок; 2) Затем, основываясь на грубых признаках, мы интегрируем информацию о положении камеры и поточечное языковое выравнивание для уточнения прогнозов глубины. Этот модуль легко интегрируется с существующими самоконтролируемыми конвейерами MDE (например, Monodepth2, ManyDepth) в качестве подключаемого кодировщика глубины, улучшая непрерывную оценку глубины. Агрегируя семантический контекст CLIP и пространственные детали DINO через языковое руководство, наш метод эффективно устраняет несоответствия гранулярности признаков. Многочисленные эксперименты на бенчмарке KITTI демонстрируют, что наш метод значительно превосходит современные методы по всем метрикам, что также действительно приносит пользу последующим задачам, таким как восприятие в BEV. Код доступен по адресу https://github.com/Zhangwenyao1/Hybrid-depth.
Крупные языковые модели (LLM) требуют эффективного редактирования знаний (KE) для обновления фактической информации, однако существующие методы демонстрируют значительное ухудшение производительности при многошаговом воспроизведении фактов. Эта проблема особенно остро проявляется, когда редактирование затрагивает промежуточные неявные субъекты в цепочках рассуждений. С помощью причинного анализа мы выяснили, что это ограничение связано с упущением того, как связанные знания динамически представлены и используются на уровне нейронов. Мы обнаружили, что в процессе многошагового рассуждения неявные субъекты функционируют как запросные нейроны, которые последовательно активируют соответствующие нейроны значений (value neurons) в слоях трансформера, накапливая информацию для получения окончательного ответа. Этот динамический аспект ранее игнорировался в работах по KE. Руководствуясь этим пониманием, мы предлагаем ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall — фреймворк, который использует атрибуцию на уровне нейронов для выявления и редактирования этих критически важных путей запрос-значение (Q-V). ACE предлагает механистически обоснованное решение для многошагового KE, превосходя современные методы на 9,44% для GPT-J и на 37,46% для Qwen3-8B. Наш анализ также выявляет более детализированные паттерны активации в Qwen3 и демонстрирует, что семантическая интерпретируемость нейронов значений управляется накоплением, инициируемым запросами. Эти результаты открывают новый путь для развития возможностей KE, основанный на принципиальном понимании внутренних механизмов рассуждения.
Персонализация диффузионных моделей позволяет пользователям генерировать новые изображения, включающие заданный объект, обеспечивая больший контроль, чем текстовый запрос. Эти модели часто сталкиваются с трудностями, когда просто воссоздают изображение объекта, игнорируя текстовый запрос. Мы наблюдаем, что один из популярных методов персонализации, IP-Adapter, автоматически генерирует маски, которые позволяют четко отделить объект от фона во время вывода. Мы предлагаем использовать эту автоматически сгенерированную маску на втором этапе для маскирования токенов изображения, ограничивая их только объектом, а не фоном, что позволяет текстовому запросу учитывать остальную часть изображения. Для текстовых запросов, описывающих местоположения и места, это создает изображения, которые точно изображают объект, одновременно строго соответствуя запросу. Мы сравниваем наш метод с несколькими другими методами персонализации во время тестирования и обнаруживаем, что наш метод демонстрирует высокое соответствие как запросу, так и исходному изображению.