Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLMs) всё чаще ожидается, что они выйдут за рамки простых фактологических запросов и перейдут к задачам глубокого исследования, которые требуют декомпозиции вопросов на подпроблемы, координации многошаговых рассуждений и синтеза доказательств из разнообразных источников. Мы формализуем задачи глубокого исследования с проверяемыми ответами как иерархические задачи удовлетворения ограничений (Hierarchical Constraint Satisfaction Problems, HCSPs), которые принципиально отличаются от задач с одним ограничением, многошаговых или плоских задач CSP. Однако существующие бенчмарки (например, Natural Questions, HotpotQA) не охватывают эту сложность, в то время как недавние синтетические наборы данных часто вводят упрощённые рассуждения, утечку знаний или недостаточную структурную глубину. Чтобы устранить этот пробел, мы представляем InfoSeek — масштабируемую структуру для синтеза сложных задач глубокого исследования. InfoSeek использует систему с двумя агентами для рекурсивного построения дерева исследования из крупномасштабных веб-страниц, преобразуя промежуточные узлы в валидные подпроблемы и переводя эти деревья в естественноязыковые вопросы, требующие прохождения всей иерархии. Он также позволяет быстро масштабироваться, создавая более 50 тыс. обучающих примеров, курированный тестовый набор и траектории рассуждений, сгенерированные с помощью отбраковочной выборки. Эксперименты показывают, что модели, обученные на InfoSeek, стабильно превосходят сильные базовые модели. На сложном бенчмарке BrowseComp-Plus 3B LLMs, оптимизированные с помощью InfoSeek, превосходят гораздо более крупные 32B модели и облегчённые коммерческие API (например, Gemini2.5-Flash), достигая производительности, сопоставимой с более мощными API (например, Gemini2.5-Pro). Сохраняя метаинформацию, такую как промежуточные шаги и метки извлечения, InfoSeek дополнительно поддерживает продвинутые стратегии оптимизации, включая составное проектирование вознаграждений и исследование на уровне траекторий. Мы предоставляем наши коды и наборы данных в {этом репозитории} https://github.com/VectorSpaceLab/InfoSeek.
Мы представляем Robix — унифицированную модель, которая интегрирует роботизированное рассуждение, планирование задач и взаимодействие на естественном языке в рамках единой архитектуры, объединяющей зрение и язык. Выступая в качестве высокоуровневого когнитивного слоя в иерархической системе робота, Robix динамически генерирует атомарные команды для низкоуровневого контроллера и вербальные ответы для взаимодействия с человеком, что позволяет роботам следовать сложным инструкциям, планировать долгосрочные задачи и естественно взаимодействовать с человеком в рамках сквозной архитектуры. Robix также вводит новые возможности, такие как проактивный диалог, обработка прерываний в реальном времени и контекстно-зависимое здравомыслящее рассуждение во время выполнения задач. В основе Robix лежит цепочка рассуждений (chain-of-thought reasoning) и применяется трехэтапная стратегия обучения: (1) продолженное предварительное обучение для улучшения базовых способностей к воплощенному рассуждению, включая понимание трехмерного пространства, визуальное заземление и рассуждение, ориентированное на задачи; (2) контролируемая тонкая настройка для моделирования взаимодействия человека и робота и планирования задач как единой последовательности рассуждений и действий; и (3) обучение с подкреплением для повышения согласованности рассуждений и действий и согласованности долгосрочных задач. Многочисленные эксперименты демонстрируют, что Robix превосходит как открытые, так и коммерческие базовые модели (например, GPT-4o и Gemini 2.5 Pro) в интерактивном выполнении задач, показывая сильную обобщаемость для различных типов инструкций (например, открытых, многоэтапных, ограниченных, недействительных и прерванных) и различных задач с участием пользователя, таких как уборка столов, покупка продуктов и фильтрация по диетическим предпочтениям.
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало преобладающей парадигмой для задач математического рассуждения, обеспечивая стабильное улучшение способности к рассуждению. Однако модели наград на основе результата (ORM) в RLVR слишком грубо детализированы, чтобы различать ошибочные рассуждения в правильных ответах или корректные рассуждения в неправильных ответах. Этот недостаток детализации вносит значительный шум и вводит в заблуждение градиенты, что существенно затрудняет дальнейшее улучшение качества процесса рассуждения. Хотя модели наград на основе процесса (PRM) предлагают детализированное руководство для промежуточных шагов, они часто страдают от неточностей и подвержены манипуляциям с наградами. Для решения этой проблемы мы представляем фильтр согласованности процесса (PROF) — эффективный метод обработки данных, который гармонизирует шумные, детализированные награды за процесс с точными, грубо детализированными наградами за результат. Вместо простого смешивания PRM и ORM в целевой функции (arXiv:archive/2506.18896), PROF использует их взаимодополняющие преимущества через выборку данных, основанную на согласованности. Наш подход сохраняет правильные ответы с более высокими средними значениями процесса и неправильные ответы с более низкими средними значениями процесса, при этом поддерживая баланс положительных и отрицательных обучающих выборок. Многочисленные эксперименты показывают, что наш метод не только стабильно улучшает итоговую точность более чем на 4% по сравнению с подходами смешивания, но и повышает качество промежуточных шагов рассуждения. Код и рецепты обучения доступны по адресу https://github.com/Chenluye99/PROF.
Языковые модели (ЯМ) всё чаще используются в реальных приложениях, требующих знаний о мире. Однако внутренние процессы, посредством которых модели преобразуют данные в представления знаний и убеждений о мире, остаются малоизученными. Понимание этих процессов может открыть путь к разработке ЯМ с более согласованными, устойчивыми и полными представлениями знаний. Для облегчения изучения этих вопросов мы представляем LMEnt — набор инструментов для анализа приобретения знаний в ЯМ в процессе предварительного обучения. LMEnt включает: (1) корпус для предварительного обучения, богатый знаниями и полностью аннотированный упоминаниями сущностей, основанный на Wikipedia, (2) метод извлечения данных на основе сущностей, который превосходит предыдущие подходы на 80,4%, и (3) 12 предварительно обученных моделей с параметрами до 1 млрд и 4 тыс. промежуточных контрольных точек, демонстрирующих сопоставимую производительность с популярными открытыми моделями на тестах знаний. Вместе эти ресурсы предоставляют контролируемую среду для анализа связей между упоминаниями сущностей в предварительном обучении и последующей производительностью, а также эффектов причинных вмешательств в данные предварительного обучения. Мы демонстрируем полезность LMEnt, изучая приобретение знаний на различных контрольных точках, и обнаруживаем, что частота фактов играет ключевую роль, но не полностью объясняет тенденции обучения. Мы публикуем LMEnt для поддержки исследований знаний в ЯМ, включая представления знаний, пластичность, редактирование, атрибуцию и динамику обучения.
Эффективное планирование требует надежных моделей мира, однако высокоуровневые модели мира, способные понимать и рассуждать о действиях с использованием семантической и временной абстракции, остаются в значительной степени недоразвитыми. Мы представляем Vision Language World Model (VLWM) — базовую модель, обученную для моделирования мира на основе языка на естественных видеозаписях. Получив визуальные наблюдения, VLWM сначала выводит общие достижения цели, а затем прогнозирует траекторию, состоящую из чередующихся действий и изменений состояния мира. Эти цели извлекаются с помощью итеративного метода LLM Self-Refine, основанного на сжатых будущих наблюдениях, представленных в виде Дерева подписей. VLWM изучает как политику действий, так и модель динамики, что соответственно способствует декодированию реактивных планов системы-1 и рефлексивному планированию системы-2 через минимизацию затрат. Затраты оценивают семантическое расстояние между гипотетическими будущими состояниями, полученными в результате прогонов VLWM, и ожидаемым целевым состоянием, и измеряются с помощью модели-критика, обученной нами в самообучаемом режиме. VLWM демонстрирует наилучшие результаты в области визуального планирования для помощи (VPA) как на эталонных оценках, так и на наших предложенных человеческих оценках PlannerArena, где система-2 улучшает показатель Elo на +27% по сравнению с системой-1. Модели VLWM также превосходят сильные базовые линии VLM на тестах RoboVQA и WorldPrediction.
Управляемая генерация лиц представляет собой сложную задачу в области генеративного моделирования из-за необходимости тонкого баланса между семантической управляемостью и фотореалистичностью. В то время как существующие подходы испытывают трудности с разделением семантических управляющих параметров в процессах генерации, мы пересматриваем архитектурный потенциал диффузионных трансформеров (DiTs) через призму специализации экспертов. В данной статье представлен Face-MoGLE — новая структура, включающая: (1) Семантически разделенное латентное моделирование через факторизацию пространства с условием на маски, что позволяет точно манипулировать атрибутами; (2) Смесь глобальных и локальных экспертов, которые захватывают целостную структуру и семантику на уровне регионов для детализированной управляемости; (3) Динамическую сеть гейтов, генерирующую зависящие от времени коэффициенты, которые эволюционируют с шагами диффузии и пространственными координатами. Face-MoGLE предлагает мощное и гибкое решение для высококачественной управляемой генерации лиц с большим потенциалом в генеративном моделировании и приложениях безопасности. Многочисленные эксперименты демонстрируют его эффективность в мультимодальных и мономодальных настройках генерации лиц, а также его устойчивую способность к обобщению в условиях zero-shot. Страница проекта доступна по адресу https://github.com/XavierJiezou/Face-MoGLE.
Мультисубъектная персонализированная генерация представляет собой уникальные вызовы в поддержании идентичности и семантической согласованности при синтезе изображений, обусловленных несколькими референсными субъектами. Существующие методы часто страдают от смешения идентичностей и утечки атрибутов из-за недостаточного моделирования взаимодействия различных субъектов в общих пространствах представлений. Мы представляем MOSAIC, фреймворк, ориентированный на представления, который переосмысливает мультисубъектную генерацию через явное семантическое соответствие и ортогональное разделение признаков. Наше ключевое понимание заключается в том, что мультисубъектная генерация требует точного семантического выравнивания на уровне представлений — знания того, какие именно области в сгенерированном изображении должны соответствовать каким частям каждого референса. Для этого мы представляем SemAlign-MS, тщательно аннотированный набор данных, предоставляющий детализированные семантические соответствия между несколькими референсными субъектами и целевыми изображениями, ранее недоступные в этой области. На основе этого мы предлагаем функцию потерь внимания семантического соответствия для обеспечения точного точечного семантического выравнивания, гарантируя высокую согласованность от каждого референса к его назначенным областям. Кроме того, мы разрабатываем функцию потерь разделения по множеству референсов, чтобы направлять разные субъекты в ортогональные подпространства внимания, предотвращая интерференцию признаков при сохранении индивидуальных характеристик идентичности. Многочисленные эксперименты демонстрируют, что MOSAIC достигает наилучших результатов на нескольких бенчмарках. Примечательно, что в то время как существующие методы обычно ухудшаются при работе с более чем 3 субъектами, MOSAIC сохраняет высокую точность при использовании 4+ референсных субъектов, открывая новые возможности для сложных приложений мультисубъектного синтеза.
Современная роботизированная манипуляция в основном опирается на визуальные наблюдения в 2D-цветовом пространстве для обучения навыкам, но страдает от слабой обобщаемости. В отличие от этого, люди, живущие в 3D-мире, больше полагаются на физические свойства — такие как расстояние, размер и форма — чем на текстуру при взаимодействии с объектами. Поскольку такую 3D-геометрическую информацию можно получить с помощью широко доступных камер глубины, кажется возможным наделить роботов аналогичными перцептивными способностями. Наше пилотное исследование показало, что использование камер глубины для манипуляции является сложной задачей, в основном из-за их ограниченной точности и подверженности различным типам шумов. В данной работе мы предлагаем модели глубины камер (Camera Depth Models, CDMs) в качестве простого плагина для повседневных камер глубины, которые принимают RGB-изображения и необработанные сигналы глубины на вход и выводят очищенную, точную метрическую глубину. Для достижения этого мы разработали нейронный движок данных, который генерирует высококачественные парные данные из симуляции, моделируя шумовой паттерн камеры глубины. Наши результаты показывают, что CDMs достигают почти симуляционного уровня точности в предсказании глубины, эффективно устраняя разрыв между симуляцией и реальностью для задач манипуляции. Примечательно, что наши эксперименты впервые демонстрируют, что политика, обученная на необработанной симулированной глубине, без необходимости добавления шума или тонкой настройки на реальных данных, обобщается на реальных роботов в двух сложных долгосрочных задачах, включающих шарнирные, отражающие и тонкие объекты, с минимальной или нулевой деградацией производительности. Мы надеемся, что наши результаты вдохновят будущие исследования на использование симуляционных данных и 3D-информации в общих политиках роботов.
Последние достижения в области больших языковых моделей (LLM) продемонстрировали впечатляющие способности к общему рассуждению. Однако систематическая оценка и улучшение этих способностей остаются сложными задачами из-за отсутствия контролируемых и масштабируемых инструментов для детального анализа. Существующие эталонные тесты и наборы данных часто не обеспечивают необходимого контроля переменных для многомерного систематического анализа и обучения или ограничены узкими типами и форматами задач. Для устранения этих ограничений мы представляем SATQuest — систематический верификатор, предназначенный для оценки и улучшения логического рассуждения в LLM путем генерации разнообразных задач на основе логического рассуждения, связанных с проблемами выполнимости (SAT), непосредственно из экземпляров конъюнктивной нормальной формы (КНФ). SATQuest структурирует эти задачи по трем ортогональным измерениям: масштаб экземпляра, тип задачи и формат вопроса, используя рандомизированную генерацию задач на основе SAT и объективную проверку ответов с помощью PySAT. Такой подход устраняет проблемы запоминания, позволяет получить детальные insights о производительности рассуждений и обеспечивает эффективную тонкую настройку с подкреплением. Наше обширное тестирование различных LLM с использованием SATQuest выявило значительные ограничения в их логическом рассуждении, особенно в обобщении за пределами знакомых математических форматов. Кроме того, мы показываем, что тонкая настройка с подкреплением с использованием наград от SATQuest существенно улучшает производительность на целевых задачах и обобщается на более сложные экземпляры, одновременно выявляя оставшиеся проблемы в адаптации к различным форматам. Эти демонстрации подчеркивают потенциал SATQuest как основополагающего инструмента и ценной отправной точки для продвижения логического рассуждения в LLM.