Ежедневно отобранные исследовательские статьи по ИИ с переводами
Графический интерфейс пользователя (GUI) связывает инструкции на естественном языке с точными локациями интерфейса для автономного взаимодействия. Современные подходы на основе обучения с подкреплением используют бинарные вознаграждения, которые рассматривают элементы как цели типа "попал или промахнулся", создавая разреженные сигналы, игнорирующие непрерывный характер пространственных взаимодействий. Вдохновленные поведением человека при кликах, которое естественным образом формирует гауссовы распределения, центрированные на целевых элементах, мы представляем GUI Gaussian Grounding Rewards (GUI-G^2) — принципиальную систему вознаграждений, моделирующую элементы интерфейса как непрерывные гауссовы распределения на плоскости интерфейса. GUI-G^2 включает два синергетических механизма: гауссовы точечные вознаграждения моделируют точную локализацию через экспоненциально затухающие распределения, центрированные на центроидах элементов, а вознаграждения за покрытие оценивают пространственное выравнивание, измеряя перекрытие между предсказанными гауссовыми распределениями и целевыми областями. Для работы с элементами разного масштаба мы разработали адаптивный механизм дисперсии, который калибрует распределения вознаграждений на основе размеров элементов. Эта система преобразует задачу связывания GUI из разреженной бинарной классификации в плотную непрерывную оптимизацию, где гауссовы распределения генерируют богатые градиентные сигналы, направляющие модели к оптимальным позициям взаимодействия. Экстенсивные эксперименты на бенчмарках ScreenSpot, ScreenSpot-v2 и ScreenSpot-Pro демонстрируют, что GUI-G^2 значительно превосходит современный метод UI-TARS-72B, с наиболее значительным улучшением на 24,7% на ScreenSpot-Pro. Наш анализ показывает, что непрерывное моделирование обеспечивает превосходную устойчивость к вариациям интерфейса и улучшенную обобщаемость на неизвестные макеты, устанавливая новую парадигму для пространственного мышления в задачах взаимодействия с GUI.
Крупные языковые модели недавно эволюционировали от генерации беглого текста к продвинутому рассуждению в различных областях, что привело к появлению моделей рассуждений (reasoning language models, RLMs). Среди этих областей математическое рассуждение служит репрезентативным бенчмарком, поскольку требует точной многошаговой логики и абстрактного мышления, что может быть обобщено для других задач. Хотя закрытые RLMs, такие как GPT-o3, демонстрируют впечатляющие способности к рассуждению, их проприетарная природа ограничивает прозрачность и воспроизводимость. Хотя многие проекты с открытым исходным кодом стремятся сократить этот разрыв, большинство из них недостаточно открыты, исключая критические ресурсы, такие как наборы данных и детальные конфигурации обучения, что затрудняет воспроизводимость. Чтобы внести вклад в повышение прозрачности разработки RLMs, мы представляем серию MiroMind-M1 — набор полностью открытых RLMs, построенных на основе Qwen-2.5, которые соответствуют или превосходят производительность существующих открытых RLMs. В частности, наши модели обучаются в два этапа: SFT на тщательно отобранном корпусе из 719K задач математического рассуждения с проверенными траекториями CoT, за которым следует RLVR на 62K сложных и проверяемых задач. Для повышения устойчивости и эффективности процесса RLVR мы представляем алгоритм Context-Aware Multi-Stage Policy Optimization, который интегрирует прогрессивное обучение по длине с адаптивным штрафом за повторение, чтобы стимулировать контекстно-зависимое обучение с подкреплением. Наша модель достигает передовой или конкурентоспособной производительности и превосходной эффективности использования токенов среди открытых моделей на основе Qwen-2.5 с 7B и 32B параметрами на бенчмарках AIME24, AIME25 и MATH. Для обеспечения воспроизводимости мы публикуем полный стек: модели (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); наборы данных (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); и все конфигурации обучения и оценки. Мы надеемся, что эти ресурсы поддержат дальнейшие исследования и будут способствовать развитию сообщества.
Недавние достижения в области крупных моделей рассуждений подчеркивают обучение с подкреплением с верифицируемыми наградами (RLVR) как перспективный метод для расширения возможностей ИИ, особенно в решении сложных логических задач. Однако остается неясным, действительно ли RLVR расширяет границы рассуждений модели или просто усиливает высокооцененные выходы, которые базовая модель уже знает, для повышения точности. В данном исследовании представлен теоретический и эмпирический анализ, который дает новые представления о потенциальных ограничениях RLVR. Во-первых, мы предлагаем новую теоретическую перспективу, согласно которой RLVR ограничен поддержкой базовой модели — неспособностью выбирать решения с нулевой начальной вероятностью — и действует как консервативный механизм перевзвешивания, который может ограничивать открытие совершенно оригинальных решений. Мы также выявляем компромисс между энтропией и наградой: хотя RLVR надежно повышает точность, он может постепенно сужать исследование и потенциально упускать правильные, но недостаточно представленные решения. Обширные эмпирические эксперименты подтверждают, что, хотя RLVR последовательно улучшает показатель pass@1, сокращение эмпирической поддержки, как правило, перевешивает ее расширение при больших бюджетах выборки, что приводит к невозможности восстановить правильные ответы, которые ранее были доступны базовой модели. Интересно, что мы также наблюдаем, что, хотя RLVR иногда увеличивает энтропию на уровне токенов, что приводит к большей неопределенности на каждом шаге генерации, энтропия на уровне ответов снижается, что указывает на то, что эти, казалось бы, более неопределенные пути в конечном итоге сходятся к меньшему набору различных ответов. В совокупности эти результаты выявляют потенциальные ограничения RLVR в расширении горизонтов рассуждений. Преодоление этой невидимой привязи может потребовать будущих алгоритмических инноваций, таких как явные механизмы исследования или гибридные стратегии, которые распределяют вероятностную массу в недостаточно представленные области решений.
Последние достижения в области генеративного моделирования позволяют создавать помощников для редактирования изображений, которые следуют инструкциям на естественном языке без дополнительного ввода пользователя. Для их обучения с учителем требуются миллионы троек: исходное изображение, инструкция и отредактированное изображение. Однако добыча примеров с точностью до пикселей является сложной задачей. Каждое редактирование должно затрагивать только указанные в запросе области, сохранять стилистическую согласованность, учитывать физическую правдоподобность и сохранять визуальную привлекательность. Отсутствие надежных автоматизированных метрик качества редактирования затрудняет масштабируемую автоматизацию. Мы представляем автоматизированный модульный конвейер, который извлекает высококачественные тройки в различных доменах, разрешениях, сложностях инструкций и стилях. Основанная на публичных генеративных моделях и работающая без вмешательства человека, наша система использует настроенный на задачи валидатор Gemini для прямой оценки соответствия инструкциям и эстетики, устраняя необходимость в моделях сегментации или привязки. Инверсия и композиционная начальная загрузка увеличивают извлеченный набор примерно в 2,2 раза, что позволяет получить крупномасштабные данные для обучения с высокой точностью. Автоматизируя наиболее повторяющиеся этапы аннотации, этот подход позволяет достичь нового масштаба обучения без усилий по ручной разметке. Чтобы демократизировать исследования в этой ресурсоемкой области, мы выпускаем NHR-Edit: открытый набор данных из 358 тысяч высококачественных троек. В крупнейшем кросс-датасетном оценивании он превосходит все публичные альтернативы. Мы также выпускаем Bagel-NHR-Edit, открытую тонко настроенную модель Bagel, которая достигает передовых метрик в наших экспериментах.
Появление агентов на основе больших языковых моделей (LLM) произвело революцию в области искусственного интеллекта, позволив решать сложные, открытые задачи с помощью возможностей поиска информации (IS) в интернете. Недостаток высококачественных обучающих данных ограничивал развитие IS-агентов. Существующие подходы обычно используют информационно-ориентированную парадигму, при которой сначала собираются веб-данные, а затем на основе извлеченной информации генерируются вопросы. Однако это может привести к несоответствию между структурой информации и структурой рассуждений, вопросом и ответом. Чтобы устранить эту проблему, мы предлагаем фреймворк синтеза данных IS, основанный на формализации, — WebShaper, для создания набора данных. WebShaper систематически формализует задачи IS с помощью теории множеств. Центральным элементом формализации является концепция проекций знаний (KP), которая позволяет точно контролировать структуру рассуждений с помощью композиций операций KP. В процессе синтеза мы начинаем с создания начальных задач, а затем используем многоэтапный процесс расширения. На каждом этапе агент Expander усложняет текущий формальный вопрос с помощью инструментов извлечения и проверки, основанных на нашей формализации. Мы обучаем нашу модель на синтезированном наборе данных. Результаты экспериментов показывают, что WebShaper достигает наилучших результатов среди открытых IS-агентов на бенчмарках GAIA и WebWalkerQA.
Мы сообщаем о наших последних достижениях в создании универсальных роботизированных политик, а именно о разработке модели GR-3. GR-3 представляет собой крупномасштабную модель, объединяющую зрение, язык и действия (VLA). Она демонстрирует выдающиеся способности к обобщению при работе с новыми объектами, окружениями и инструкциями, включающими абстрактные концепции. Кроме того, модель может быть эффективно дообучена с использованием минимального количества данных о траекториях, собранных человеком, что позволяет быстро и экономично адаптироваться к новым условиям. GR-3 также превосходно справляется с задачами, требующими долгосрочного планирования и высокой точности, включая задачи, связанные с двуручным манипулированием и мобильным перемещением, демонстрируя устойчивую и надежную производительность. Эти возможности достигаются благодаря многоаспектной методике обучения, которая включает совместное обучение с использованием веб-данных для зрения и языка, эффективное дообучение на основе данных о траекториях, собранных с помощью VR-устройств, и результативное имитационное обучение с использованием данных о траекториях робота. Кроме того, мы представляем ByteMini — универсального мобильного робота с двуручным манипулированием, обладающего исключительной гибкостью и надежностью, способного выполнять широкий спектр задач при интеграции с GR-3. В ходе многочисленных экспериментов в реальных условиях мы показываем, что GR-3 превосходит современный базовый метод pi_0 в решении разнообразных сложных задач. Мы надеемся, что GR-3 станет шагом на пути к созданию универсальных роботов, способных помогать людям в повседневной жизни.
Сегментация объектов на видео (Video Object Segmentation, VOS) является ключевой задачей в области компьютерного зрения, требующей от моделей отслеживания и сегментации целевых объектов на протяжении кадров видео. Несмотря на значительные успехи, достигнутые в последних исследованиях, современные методы всё ещё уступают человеческим способностям в обработке резких визуальных изменений, перекрытий и сложных сценарных преобразований. Это ограничение связано с их зависимостью от сопоставления внешних признаков, игнорируя концептуальное понимание объектов, свойственное человеку, которое обеспечивает устойчивую идентификацию в условиях временной динамики. Вдохновлённые этим разрывом, мы предлагаем Segment Concept (SeC) — концептуально-ориентированную структуру для сегментации, которая переходит от традиционного сопоставления признаков к постепенному построению и использованию высокоуровневых, объектно-центрированных представлений. SeC использует крупные визуально-языковые модели (Large Vision-Language Models, LVLMs) для интеграции визуальных сигналов из различных кадров, формируя устойчивые концептуальные априорные данные. В процессе вывода SeC создаёт всеобъемлющее семантическое представление цели на основе обработанных кадров, обеспечивая устойчивую сегментацию последующих кадров. Кроме того, SeC адаптивно балансирует семантическое рассуждение на основе LVLM с улучшенным сопоставлением признаков, динамически регулируя вычислительные усилия в зависимости от сложности сцены. Для строгой оценки методов VOS в сценариях, требующих высокоуровневого концептуального рассуждения и устойчивого семантического понимания, мы представляем эталонный набор данных Semantic Complex Scenarios Video Object Segmentation (SeCVOS). SeCVOS включает 160 вручную аннотированных видеороликов с множеством сценариев, разработанных для проверки моделей на устойчивость к значительным изменениям внешнего вида и динамическим преобразованиям сцены. В частности, SeC демонстрирует улучшение на 11,8 пунктов по сравнению с SAM 2.1 на SeCVOS, устанавливая новый эталон в концептуально-ориентированной сегментации объектов на видео.
Последние достижения в области 3D-нейронных представлений и моделей редактирования на уровне экземпляров позволили эффективно создавать высококачественный 3D-контент. Однако достижение точного локального 3D-редактирования остается сложной задачей, особенно для метода Gaussian Splatting, из-за несоответствий в многовидовых 2D-сегментациях частей и присущей неоднозначности функции потерь Score Distillation Sampling (SDS). Для преодоления этих ограничений мы предлагаем RoMaP — новый фреймворк для локального редактирования 3D-гауссовых объектов, который обеспечивает точные и радикальные изменения на уровне частей. Во-первых, мы представляем надежный модуль генерации 3D-масок с использованием нашего метода 3D-Geometry Aware Label Prediction (3D-GALP), который использует коэффициенты сферических гармоник (SH) для моделирования зависящих от вида вариаций меток и свойства мягких меток, что позволяет получать точные и согласованные сегментации частей для разных ракурсов. Во-вторых, мы предлагаем регуляризованную функцию потерь SDS, которая сочетает стандартную SDS с дополнительными регуляризаторами. В частности, вводится L1-потеря с использованием нашего метода Scheduled Latent Mixing and Part (SLaMP), который генерирует высококачественные 2D-изображения с отредактированными частями и ограничивает изменения только целевой областью, сохраняя контекстную согласованность. Дополнительные регуляризаторы, такие как удаление гауссова априори, повышают гибкость, позволяя вносить изменения за пределы существующего контекста, а надежные 3D-маски предотвращают нежелательные правки. Экспериментальные результаты показывают, что наш RoMaP достигает передовых результатов в локальном 3D-редактировании как для реконструированных, так и для сгенерированных гауссовых сцен и объектов как качественно, так и количественно, что делает возможным более надежное и гибкое редактирование на уровне частей 3D-гауссовых объектов. Код доступен по адресу https://janeyeon.github.io/romap.
Мы представляем Being-H0 — ловкую модель "Видение-Язык-Действие" (VLA), обученную на крупномасштабных видео с участием людей. Существующие VLA-модели испытывают трудности с выполнением сложных задач манипуляции, требующих высокой ловкости, и плохо обобщаются на новые сценарии и задачи, что в первую очередь связано с их зависимостью от синтетических данных с существенным разрывом между симуляцией и реальностью или от телеметрических демонстраций, ограниченных по масштабу и разнообразию. Чтобы преодолеть этот дефицит данных, мы предлагаем использовать человеческие руки в качестве базового манипулятора, опираясь на богатую ловкость и масштабируемость, представленные в веб-данных. Наш подход сосредоточен на физической настройке инструкций — новом парадигме обучения, которая сочетает крупномасштабное предварительное обучение VLA на основе человеческих видео, выравнивание физического пространства для 3D-рассуждений и пост-тренировочную адаптацию для роботизированных задач. Кроме того, мы представляем метод токенизации движений на уровне частей, который обеспечивает точность реконструкции на уровне миллиметров для моделирования точных траекторий рук при обучении действиям. Для поддержки нашей парадигмы мы также разработали комплексный конвейер обработки данных, который интегрирует разнородные источники — включая захват движения, VR и RGB-видео — в крупномасштабный набор данных с миллионами инструкций на основе движений. Мы эмпирически демонстрируем превосходство Being-H0 в генерации движений рук и выполнении инструкций, а также его хорошую масштабируемость с увеличением размера модели и данных. Важно отметить, что мы наблюдаем ожидаемые улучшения Being-H0 в реальных задачах роботизированной манипуляции при применении физической настройки инструкций. Подробности доступны по ссылке: https://beingbeyond.github.io/Being-H0.
Модели разговорного языка (Spoken Language Models, SLMs) предназначены для обработки речевых входных данных и генерации устных ответов. Однако современные SLM не способны выполнять внутренний, неозвученный мыслительный процесс перед ответом. В отличие от них, люди обычно вовлекаются в сложное внутреннее рассуждение, что позволяет им ясно и лаконично выражать свои идеи. Таким образом, интеграция неозвученного мыслительного процесса в SLM крайне желательна. Хотя наивная генерация полной цепочки рассуждений (chain-of-thought, CoT) перед началом речи может обеспечить мышление для SLM, это приводит к дополнительной задержке речевого ответа, так как CoT-рассуждения могут быть произвольно длинными. Для решения этой проблемы мы предлагаем Stitch — новый метод генерации, который чередует создание фрагментов неозвученных рассуждений и фрагментов устных ответов. Поскольку продолжительность аудио фрагмента устного ответа значительно превышает время генерации токенов в этом фрагменте, мы используем оставшееся свободное время для генерации токенов неозвученных рассуждений. Когда фрагмент аудио воспроизводится пользователю, модель продолжает генерировать следующий фрагмент неозвученных рассуждений, достигая одновременного мышления и говорения. Примечательно, что Stitch соответствует задержке базовых моделей, которые по своей конструкции не могут генерировать неозвученные CoT, при этом превосходя их на 15% на наборах данных для математических рассуждений; Stitch также показывает одинаково хорошие результаты на наборах данных, не требующих рассуждений, по сравнению с базовыми моделями. Некоторые анимации и демонстрации доступны на странице проекта: https://d223302.github.io/STITCH.
Мы разрабатываем оценочные задачи, в которых увеличение длины рассуждений у крупных моделей рассуждений (Large Reasoning Models, LRMs) ухудшает их производительность, демонстрируя обратную зависимость между вычислительными ресурсами на этапе тестирования и точностью. Наши оценочные задачи охватывают четыре категории: простые задачи подсчета с отвлекающими элементами, задачи регрессии с ложными признаками, задачи дедукции с отслеживанием ограничений и задачи, связанные с рисками продвинутого искусственного интеллекта. Мы выделяем пять различных режимов сбоя, когда модели рассуждают дольше: 1) модели Claude становятся все более отвлеченными на нерелевантную информацию; 2) модели OpenAI o-series устойчивы к отвлекающим элементам, но переобучаются на формулировках задач; 3) модели переходят от разумных априорных предположений к ложным корреляциям; 4) все модели испытывают трудности с поддержанием фокуса на сложных дедуктивных задачах; и 5) расширенные рассуждения могут усиливать проблемные поведенческие паттерны, например, модель Claude Sonnet 4 демонстрирует повышенные проявления самосохранения. Эти результаты свидетельствуют о том, что, хотя масштабирование вычислительных ресурсов на этапе тестирования остается перспективным для улучшения возможностей моделей, оно может непреднамеренно усиливать проблемные паттерны рассуждений. Наши результаты подчеркивают важность оценки моделей на различных длинах рассуждений для выявления и устранения этих режимов сбоя в LRMs.
3D-гауссовское сглаживание (3DGS) продемонстрировало свою детализированную выразительность и высокую скорость рендеринга в задаче синтеза новых видов (NVS). Однако его применение в обратном рендеринге сталкивается с рядом трудностей, поскольку дискретная природа гауссовских примитивов затрудняет применение геометрических ограничений. В последних работах вводится поле знаковых расстояний (SDF) в качестве дополнительного непрерывного представления для регуляризации геометрии, определяемой гауссовскими примитивами. Это улучшает качество декомпозиции, но увеличивает использование памяти и усложняет обучение. В отличие от этих подходов, мы предлагаем дискретизированное SDF, представляющее непрерывное SDF в дискретной форме, кодируя его внутри каждого гауссовского примитива с помощью выборки. Этот метод позволяет связать SDF с непрозрачностью гауссовских примитивов через преобразование SDF-в-непрозрачность, что дает возможность рендеринга SDF с помощью сглаживания и избегает вычислительных затрат на трассировку лучей. Основная задача заключается в регуляризации дискретных выборок для их согласованности с базовым SDF, поскольку дискретное представление с трудом поддается градиентным ограничениям (например, потеря Эйконала). Для этого мы проецируем гауссовские примитивы на нулевой уровень SDF и обеспечиваем их выравнивание с поверхностью, полученной сглаживанием, с помощью проекционной функции потерь на согласованность. Благодаря дискретизированному SDF наш метод достигает более высокого качества переосвещения, не требуя дополнительной памяти помимо GS и избегая сложной ручной оптимизации. Эксперименты показывают, что наш метод превосходит существующие подходы к обратному рендерингу на основе гауссовских примитивов. Наш код доступен по адресу https://github.com/NK-CS-ZZL/DiscretizedSDF.
Человеческий интеллект требует корректности и устойчивости, причём первое является основой для второго. В понимании видео корректность обеспечивает точную интерпретацию визуального контента, а устойчивость поддерживает стабильную производительность в сложных условиях. Несмотря на прогресс в области больших языковых моделей для видео (video LLMs), существующие тесты недостаточно отражают разрыв между этими моделями и человеческим интеллектом в поддержании корректности и устойчивости при интерпретации видео. Мы представляем Тест на мышление в видео (Video-TT), чтобы оценить, могут ли video LLMs интерпретировать реальные видео так же эффективно, как люди. Video-TT выявляет реальные пробелы в понимании сложных визуальных нарративов и оценивает устойчивость к естественным адверсарным вопросам. Video-TT включает 1000 видеороликов YouTube Shorts, каждый из которых сопровождается одним открытым вопросом и четырьмя адверсарными вопросами, исследующими визуальную и нарративную сложность. Наша оценка показывает значительный разрыв между производительностью video LLMs и человека.
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало эффективным методом посттренировки для улучшения способностей к рассуждению у больших языковых моделей (LLM), главным образом за счет формирования поведений более высокого порядка, таких как рефлексия и планирование. Однако предыдущие алгоритмы RLVR часто применяли единые сигналы обучения ко всем токенам, не учитывая различные роли низкоэнтропийных токенов, связанных со знаниями, и высокоэнтропийных токенов, связанных с рассуждениями. Некоторые недавние методы пытаются разделить эти типы токенов с помощью маскирования градиентов или асинхронных обновлений, но такие подходы могут нарушать семантические зависимости в выходных данных модели и препятствовать эффективному обучению. В данной работе мы предлагаем Archer — подход RLVR, учитывающий энтропию, с двойными ограничениями на токены и синхронными обновлениями. В частности, наш метод применяет более слабую регуляризацию KL и более высокие пороги отсечения для токенов рассуждений, чтобы стимулировать исследование, в то время как для токенов знаний используются более строгие ограничения для сохранения фактических знаний. Экспериментальные результаты на нескольких бенчмарках математических рассуждений и генерации кода показывают, что наш подход значительно превосходит предыдущие методы RLVR, достигая или превышая современные показатели среди моделей сопоставимого размера. Код доступен по адресу https://github.com/wizard-III/ArcherCodeR.
Быстрый рост интеллектуальных агентов на основе больших языковых моделей (LLM) подчеркивает необходимость создания надежных и масштабируемых фреймворков для их оценки. Существующие методы опираются на статические бенчмарки и трудоемкий сбор данных, что ограничивает практическую оценку. Мы представляем \oursystemname, открытый фреймворк на основе Model Context Protocol (MCP), который автоматизирует генерацию задач от начала до конца и глубокую оценку LLM-агентов в различных областях. MCPEval стандартизирует метрики, легко интегрируется с нативными инструментами агентов и устраняет необходимость ручного создания конвейеров оценки. Эмпирические результаты в пяти реальных областях демонстрируют его эффективность в выявлении тонких, специфичных для домена характеристик производительности. Мы публично выпускаем MCPEval https://github.com/SalesforceAIResearch/MCPEval для продвижения воспроизводимой и стандартизированной оценки LLM-агентов.
Модели генерации видео достигли значительного прогресса в создании высококачественного фотореалистичного контента. Однако их способность точно моделировать физические явления остается важной и нерешенной задачей. В данной статье представлен PhyWorldBench — комплексный бенчмарк, разработанный для оценки моделей генерации видео на основе их соответствия законам физики. Бенчмарк охватывает несколько уровней физических явлений, начиная с фундаментальных принципов, таких как движение объектов и сохранение энергии, и заканчивая более сложными сценариями, включающими взаимодействие твердых тел, а также движение людей и животных. Кроме того, мы вводим новую категорию «Антифизика», где промпты намеренно нарушают законы реальной физики, что позволяет оценить, способны ли модели следовать таким инструкциям, сохраняя логическую согласованность. Помимо масштабной оценки с участием людей, мы также разрабатываем простой, но эффективный метод, который может использовать современные мультимодальные языковые модели (MLLM) для оценки физической реалистичности в режиме zero-shot. Мы оцениваем 12 современных моделей генерации видео из текста, включая пять открытых и пять проприетарных моделей, с подробным сравнением и анализом. Мы выявляем ключевые проблемы, с которыми сталкиваются модели при соблюдении законов реальной физики. Путем систематического тестирования их выходных данных на 1050 тщательно отобранных промптах, охватывающих фундаментальные, составные и антифизические сценарии, мы определяем основные трудности, с которыми сталкиваются эти модели. Затем мы тщательно анализируем их производительность на различных физических явлениях с разными типами промптов, формулируя целевые рекомендации по созданию промптов, которые повышают соответствие физическим принципам.
Восприятие и реконструкция 4D пространственно-временной геометрии из видео является фундаментальной, но сложной задачей компьютерного зрения. Для обеспечения интерактивных и работающих в реальном времени приложений мы предлагаем потоковый 4D визуальный геометрический трансформер, который разделяет схожую философию с авторегрессивными большими языковыми моделями. Мы исследуем простой и эффективный дизайн и используем причинную архитектуру трансформера для обработки входной последовательности в режиме реального времени. Мы применяем временное причинное внимание и кэшируем исторические ключи и значения как неявную память, чтобы обеспечить эффективную потоковую долгосрочную 4D реконструкцию. Этот подход позволяет обрабатывать 4D реконструкцию в реальном времени, постепенно интегрируя историческую информацию, сохраняя при этом высокое качество пространственной согласованности. Для эффективного обучения мы предлагаем дистиллировать знания из плотного двунаправленного визуального геометрического трансформера (VGGT) в нашу причинную модель. Для вывода наша модель поддерживает перенос оптимизированного оператора эффективного внимания (например, FlashAttention) из области больших языковых моделей. Многочисленные эксперименты на различных бенчмарках восприятия 4D геометрии демонстрируют, что наша модель увеличивает скорость вывода в онлайн-сценариях, сохраняя при этом конкурентоспособную производительность, прокладывая путь для масштабируемых и интерактивных 4D систем зрения. Код доступен по адресу: https://github.com/wzzheng/StreamVGGT.
Многошаговое решение задач является критически важным, но сложным для крупных моделей рассуждений (Large Reasoning Models, LRMs), чтобы они могли анализировать свои рассуждения и корректировать их на основе обратной связи. Существующие методы обучения с подкреплением (Reinforcement Learning, RL) обучают крупные модели рассуждений в рамках одношаговой парадигмы с проверяемыми вознаграждениями. Однако мы наблюдаем, что модели, обученные с использованием существующих парадигм RL, часто теряют способность решать задачи в многошаговом контексте и испытывают трудности с корректировкой ответов на основе контекстной обратной связи, что приводит к повторяющимся ответам. Мы задаемся вопросом: могут ли LRMs научиться анализировать свои ответы в многошаговом контексте? В данной работе мы обнаруживаем, что обучение моделей с использованием многошагового RL с минимальной обратной связью (например, "Давайте попробуем снова") после неправильных ответов может улучшить как одношаговую производительность, так и многошаговое рассуждение. Мы представляем метод "Минимальная обратная связь как наблюдение" (Unary Feedback as Observation, UFO) для обучения с подкреплением, который использует минимальную, но распространенную обратную связь пользователя в процессе итеративного решения задач. Этот метод может быть легко интегрирован в существующие одношаговые RL-тренировочные настройки. Экспериментальные результаты показывают, что обучение с подкреплением с использованием UFO сохраняет одношаговую производительность и повышает точность многошагового рассуждения до 14%, что позволяет языковым моделям лучше реагировать на обратную связь при многошаговом решении задач. Для дальнейшего минимизации количества шагов, необходимых для получения правильного ответа, и поощрения разнообразного рассуждения при возникновении ошибок, мы разрабатываем структуры вознаграждений, которые направляют модели на создание тщательных и обдуманных ответов на каждом шаге. Код: https://github.com/lichengliu03/unary-feedback
Несмотря на их фундаментальную роль, остается неясным, какие свойства могут сделать визуальные токенизаторы более эффективными для задач генеративного моделирования. Мы отмечаем, что современные генеративные модели используют концептуально схожую цель обучения — восстановление чистых сигналов из искаженных входных данных, таких как гауссовский шум или маскирование, — процесс, который мы называем шумоподавлением. Руководствуясь этим наблюдением, мы предлагаем согласовать эмбеддинги токенизатора непосредственно с задачей шумоподавления, что способствует более легкому восстановлению латентных эмбеддингов даже при сильном искажении. Для достижения этой цели мы представляем Latent Denoising Tokenizer (l-DeTok) — простой, но эффективный токенизатор, обученный восстанавливать чистые изображения из латентных эмбеддингов, искаженных интерполяционным шумом и случайным маскированием. Многочисленные эксперименты на данных ImageNet 256x256 демонстрируют, что наш токенизатор стабильно превосходит стандартные токенизаторы в шести репрезентативных генеративных моделях. Наши результаты подчеркивают шумоподавление как фундаментальный принцип разработки токенизаторов, и мы надеемся, что это может вдохновить новые подходы к проектированию токенизаторов в будущем.
Хотя машинное обучение продвинулось вперед благодаря массовой параллелизации, мы выявляем критический пробел: некоторые задачи по своей природе являются последовательными. Эти "внутренне последовательные" задачи — от математических рассуждений до физического моделирования и последовательного принятия решений — требуют зависимых вычислительных шагов, которые невозможно распараллелить. Опираясь на теорию сложности, мы формализуем это различие и показываем, что современные архитектуры, ориентированные на параллелизм, сталкиваются с фундаментальными ограничениями при решении таких задач. Мы утверждаем, что осознание последовательной природы вычислений имеет глубокие последствия для машинного обучения, проектирования моделей и разработки аппаратного обеспечения. По мере того как ИИ берется за все более сложные задачи рассуждения, целенаправленное масштабирование последовательных вычислений — а не только параллельных — становится необходимым для дальнейшего прогресса.
Мы представляем LLM Economist — новую концепцию, использующую агентное моделирование для разработки и оценки экономической политики в стратегических средах с иерархическим принятием решений. На нижнем уровне ограниченно рациональные агенты-работники — реализованные как персонализированные промпты, сгенерированные на основе данных о доходах и демографии, калиброванных по данным переписи населения США — выбирают предложение труда для максимизации текстовых функций полезности, изученных в контексте. На верхнем уровне агент-планировщик использует обучение с подкреплением в контексте для предложения кусочно-линейных графиков предельных налогов, привязанных к текущим федеральным налоговым ставкам США. Такая конструкция наделяет экономические симуляции тремя ключевыми возможностями, необходимыми для достоверного фискального экспериментирования: (i) оптимизацию разнородных функций полезности, (ii) принципиальное создание больших, демографически реалистичных популяций агентов и (iii) проектирование механизмов — конечной задачи мягкого воздействия — выраженного исключительно на естественном языке. Эксперименты с популяциями до ста взаимодействующих агентов показывают, что планировщик сходится к равновесиям Штакельберга, которые улучшают совокупное социальное благосостояние по сравнению с решениями Сэза, а периодическая процедура голосования на уровне персонажей дополнительно усиливает эти достижения при децентрализованном управлении. Эти результаты демонстрируют, что агенты на основе больших языковых моделей могут совместно моделировать, симулировать и управлять сложными экономическими системами, предоставляя удобный полигон для оценки политики на уровне общества, чтобы помочь в создании лучших цивилизаций.
Генерация последовательных длинных видео представляет собой сложную задачу: хотя диффузионные генеративные модели создают визуально впечатляющие короткие клипы, их расширение на более длительные временные промежутки часто приводит к проблемам с памятью и нарушению долгосрочной согласованности. В данной работе мы предлагаем TokensGen, новую двухэтапную структуру, которая использует сжатые токены для решения этих проблем. Наш метод разбивает генерацию длинных видео на три основные задачи: (1) семантическое управление внутри клипа, (2) контроль долгосрочной согласованности и (3) плавный переход между клипами. Сначала мы обучаем To2V (Token-to-Video), модель диффузии для коротких видео, управляемую текстовыми и видео токенами, с использованием Video Tokenizer, который сжимает короткие клипы в семантически насыщенные токены. Затем мы представляем T2To (Text-to-Token), трансформер диффузии видео токенов, который генерирует все токены одновременно, обеспечивая глобальную согласованность между клипами. Наконец, на этапе вывода адаптивная стратегия FIFO-Diffusion плавно соединяет соседние клипы, уменьшая артефакты на границах и улучшая плавность переходов. Экспериментальные результаты показывают, что наш подход значительно улучшает долгосрочную временную и содержательную согласованность без чрезмерных вычислительных затрат. Используя сжатые токены и предварительно обученные модели для коротких видео, наш метод предоставляет масштабируемое и модульное решение для генерации длинных видео, открывая новые возможности для повествования, кинопроизводства и иммерсивных симуляций. Дополнительную информацию можно найти на нашей странице проекта: https://vicky0522.github.io/tokensgen-webpage/.
Непрерывное предварительное обучение на небольших наборах данных, специфичных для конкретной задачи, является эффективным методом улучшения крупных языковых моделей в новых целевых областях, однако оно сопряжено с риском катастрофического забывания их исходных возможностей. Распространённое решение заключается в перевзвешивании смесей обучающих данных из исходной и целевой областей в пространстве доменов для достижения сбалансированной производительности. Предыдущие стратегии перевзвешивания доменов основывались на ручном назначении с использованием определённых эвристик, основанных на человеческой интуиции или эмпирических результатах. В данной работе мы доказываем, что более общие эвристики могут быть параметризованы, предлагая Data Mixing Agent — первую модельную, сквозную структуру, которая обучается перевзвешиванию доменов. Агент изучает обобщаемые эвристики с помощью обучения с подкреплением на большом количестве траекторий смешивания данных с соответствующими откликами из оценочной среды. Эксперименты по непрерывному предварительному обучению в области математических рассуждений показывают, что Data Mixing Agent превосходит сильные базовые подходы в достижении сбалансированной производительности на тестах как исходной, так и целевой областей. Более того, он хорошо обобщается на неизвестные исходные области, целевые модели и пространства доменов без необходимости переобучения. Прямое применение в области генерации кода также свидетельствует о его адаптивности к различным целевым доменам. Дополнительный анализ демонстрирует, что эвристики агента хорошо согласуются с человеческой интуицией, а также их эффективность в достижении превосходной производительности модели с использованием меньшего количества данных из исходной области.
Оценка способностей агентов на основе больших языковых моделей (LLM) к научным открытиям, в частности, их способности справляться с различной сложностью окружающей среды и использовать предварительные знания, требует специализированных тестовых наборов, которые в настоящее время отсутствуют. Для устранения этого пробела мы представляем PhysGym — новый набор тестов и платформу моделирования, предназначенные для строгой оценки научного мышления LLM в интерактивных физических средах. Основной вклад PhysGym заключается в сложном контроле уровня предварительных знаний, предоставляемых агенту. Это позволяет исследователям анализировать производительность агента по таким параметрам, как сложность задачи и уровень предварительных знаний. Набор тестов включает серию интерактивных симуляций, в которых агенты должны активно исследовать среды, последовательно собирать данные в условиях ограничений и формулировать гипотезы о лежащих в основе физических законах. PhysGym предоставляет стандартизированные протоколы оценки и метрики для проверки точности гипотез и достоверности моделей. Мы демонстрируем полезность набора тестов, представляя результаты базовых LLM, показывая его способность дифференцировать возможности в зависимости от различных предварительных знаний и сложности задач.
Кросс-визуальная локализация — задача оценки 3-степеней свободы (3-DoF) положения камеры путем сопоставления наземных изображений со спутниковыми снимками — играет ключевую роль в крупномасштабных приложениях на открытом воздухе, таких как автономная навигация и дополненная реальность. Существующие методы часто полагаются на полностью контролируемое обучение, которое требует дорогостоящих аннотаций точного положения. В данной работе мы предлагаем GeoDistill — геометрически направленную слабо контролируемую структуру самообучения, использующую обучение по модели "учитель-ученик" с маскированием на основе поля зрения (FoV) для улучшения изучения локальных признаков в целях устойчивой кросс-визуальной локализации. В GeoDistill модель учителя локализует панорамное изображение, а модель ученика предсказывает местоположение на основе ограниченного FoV-изображения, созданного с помощью маскирования. Сопоставляя предсказания ученика с предсказаниями учителя, ученик фокусируется на ключевых признаках, таких как линии разметки, и игнорирует текстурированные области, например, дороги. Это приводит к более точным предсказаниям и снижению неопределенности, независимо от того, являются ли запрашиваемые изображения панорамными или с ограниченным FoV. Наши эксперименты показывают, что GeoDistill значительно улучшает производительность локализации в различных структурах. Кроме того, мы представляем новую сеть оценки ориентации, которая предсказывает относительную ориентацию без необходимости точного знания истинного положения на плоскости. GeoDistill предлагает масштабируемое и эффективное решение для задач кросс-визуальной локализации в реальных условиях. Код и модель доступны по адресу https://github.com/tongshw/GeoDistill.
Точная классификация изображений, полученных с помощью компьютерной томографии (КТ), имеет решающее значение для диагностики и планирования лечения, однако существующие методы часто сталкиваются с трудностями из-за тонкой и пространственно разнообразной природы патологических признаков. Современные подходы обычно обрабатывают изображения равномерно, что ограничивает их способность выявлять локальные аномалии, требующие детального анализа. Мы представляем UGPL — фреймворк прогрессивного обучения с управлением на основе неопределенности, который выполняет анализ от глобального к локальному, сначала идентифицируя области диагностической неопределенности, а затем проводя детальное исследование этих критических зон. Наш подход использует доказательное глубокое обучение для количественной оценки прогностической неопределенности, направляя извлечение информативных фрагментов с помощью механизма подавления немаксимальных значений, который сохраняет пространственное разнообразие. Эта стратегия прогрессивного уточнения, в сочетании с адаптивным механизмом слияния, позволяет UGPL интегрировать как контекстную информацию, так и детализированные данные. Эксперименты на трех наборах данных КТ демонстрируют, что UGPL стабильно превосходит современные методы, достигая улучшений точности на 3,29%, 2,46% и 8,08% для выявления аномалий почек, рака легких и COVID-19 соответственно. Наш анализ показывает, что компонент, управляемый неопределенностью, обеспечивает значительные преимущества, при этом производительность резко возрастает при полной реализации прогрессивного обучающего конвейера. Наш код доступен по адресу: https://github.com/shravan-18/UGPL.
Крупные языковые модели (LLM) демонстрируют высокую производительность в решении задач программирования, но могут ли они генерировать код, похожий на студенческий — несовершенный, итеративный и стилистически разнообразный? Мы представляем ParaStudent — систематическое исследование генерации "студенческого" кода на основе LLM в контексте вводного курса программирования. Используя набор данных с временными метками студенческих решений за несколько семестров, мы разрабатываем эксперименты низкого и высокого разрешения для моделирования прогресса студентов и оценки выходного кода по семантическим, функциональным и стилистическим параметрам. Наши результаты показывают, что тонкая настройка значительно улучшает соответствие реальным траекториям студентов и более точно отражает паттерны ошибок, постепенные улучшения и стилистические вариации. Это исследование демонстрирует, что моделирование реалистичного студенческого кода требует учета динамики обучения через контекстно-зависимую генерацию, временное моделирование и многомерную оценку. Код для экспериментов и оценки доступен по адресу https://github.com/mmiroyan/ParaStudent.