Ежедневно отобранные исследовательские статьи по ИИ с переводами
Разработка моделей Vision Language Model (VLM) в значительной степени опиралась на масштабирование размера модели, что затрудняет развертывание на мобильных и периферийных устройствах с ограниченными вычислительными ресурсами, таких как смартфоны и роботы. В данной работе мы исследуем пределы производительности компактных (например, 2B и 8B) VLM. Мы ставим под сомнение преобладающую практику, согласно которой передовые VLM должны полагаться на визуальные энкодеры, инициализированные с помощью масштабного контрастивного предобучения (например, CLIP/SigLIP). Мы выявляем несоответствие целей: контрастивное обучение, оптимизированное для различения, обеспечивает грубые инвариантности на уровне категорий, которые подавляют мелкозернистые визуальные сигналы, необходимые для плотного описания изображений и сложных рассуждений в VLM. Чтобы решить эту проблему, мы представляем Penguin-VL, чей визуальный энкодер инициализируется из языковой модели (LLM), обученной только на тексте. Наши эксперименты показывают, что Penguin-Encoder служит превосходной альтернативой традиционному контрастивному предобучению, открывая путь к более высокой степени визуальной точности и эффективности использования данных для мультимодального понимания. На различных бенчмарках для изображений и видео Penguin-VL демонстрирует производительность, сопоставимую с ведущими VLM (например, Qwen3-VL) в математических рассуждениях, и превосходит их в таких задачах, как понимание документов, визуальные знания и многоперспективное понимание видео. Примечательно, что эти достижения реализованы в легковесной архитектуре, что демонстрирует: именно улучшенное визуальное представление, а не масштабирование модели, является основным драйвером производительности. Наши ablation-исследования показывают, что Penguin-Encoder стабильно превосходит энкодеры, прошедшие контрастивное предобучение, сохраняя мелкозернистые пространственные и временные сигналы, которые критически важны для плотного восприятия и сложных рассуждений. Это делает его мощной готовой альтернативой для создания энергоэффективных VLM и позволяет достигать высокой производительности в условиях ограниченных ресурсов. Код: https://github.com/tencent-ailab/Penguin-VL
Проксимальные ограничения являются фундаментальными для стабильности обучения с подкреплением больших языковых моделей. Хотя канонический механизм отсечения в PPO служит эффективным суррогатом доверительных областей, мы выявляем критическое узкое место: фиксированные границы строго ограничивают верхний запас обновления для маловероятных действий, непропорционально подавляя хвостовые стратегии с высоким преимуществом и вызывая быстрое коллапсирование энтропии. Для решения этой проблемы мы представляем Band-constrained Policy Optimization (BandPO). BandPO заменяет каноническое отсечение на Band — унифицированный теоретический оператор, проецирующий доверительные области, определенные f-дивергенциями, в динамические, зависящие от вероятности интервалы отсечения. Теоретический анализ подтверждает, что Band эффективно устраняет это узкое место исследования. Мы формулируем данное отображение как задачу выпуклой оптимизации, гарантируя глобально оптимальное численное решение и выводя замкнутые решения для конкретных дивергенций. Многочисленные эксперименты на различных моделях и наборах данных демонстрируют, что BandPO последовательно превосходит каноническое отсечение и Clip-Higher, одновременно надежно смягчая коллапс энтропии.
Модели мира предоставляют мощный инструментарий для моделирования динамики окружения в зависимости от действий или инструкций, что позволяет решать такие задачи, как планирование действий или обучение стратегий. Современные подходы используют модели мира в качестве обученных симуляторов, однако их применение для планирования в момент принятия решений остается вычислительно непосильным для систем реального времени. Ключевым узким местом являются латентные представления: традиционные токенизаторы кодируют каждое наблюдение в сотни токенов, что делает планирование медленным и ресурсоемким. Для решения этой проблемы мы предлагаем CompACT — дискретный токенизатор, который сжимает каждое наблюдение всего в 8 токенов, радикально снижая вычислительные затраты при сохранении essentialной информации для планирования. Модель мира с условием на действия, использующая токенизатор CompACT, демонстрирует конкурентоспособную производительность планирования при увеличении скорости на порядки, что представляет собой практический шаг к реальному внедрению моделей мира.
Создание готовых к использованию человеческих видео требует от цифровых актеров поддержания строго согласованной идентичности всего тела в динамичных сценах, при различных ракурсах и движениях, что остается сложной задачей для существующих методов. Предыдущие подходы часто страдают от чрезмерной фокусировки на лице, пренебрегая согласованностью на уровне тела, или порождают артефакты типа "копирования-вставки", когда персонажи выглядят скованными из-за фиксации позы. Мы представляем Actor-18M, крупномасштабный набор данных о человеческих видео, разработанный для захвата идентичности в условиях неограниченных ракурсов и окружения. Actor-18M включает 1.6 млн видео с 18 млн соответствующих изображений людей, охватывая как произвольные виды, так и канонические трехпроекционные представления. Используя Actor-18M, мы предлагаем WildActor — фреймворк для генерации человеческого видео с условием по любому ракурсу. Мы вводим механизм Асимметричного Внимания с Сохранением Идентичности в сочетании со стратегией Адаптивного к Ракурсу Монте-Карло сэмплирования, которая итеративно перевзвешивает опорные условия по предельной полезности для сбалансированного покрытия многообразия. Оценка на предложенном Actor-Bench показывает, что WildActor стабильно сохраняет идентичность тела при разнообразных композициях кадра, значительных переходах между ракурсами и существенных движениях, превосходя существующие методы в этих сложных условиях.
Мониторинг цепочек рассуждений (CoT) представляет собой перспективный инструмент для выявления некорректного поведения и понимания мотивации современных моделей, способных к рассуждениям. Однако если модели могут контролировать, что именно они вербализуют в своих CoT, это может подорвать саму возможность их мониторинга. Для оценки этой нежелательной способности — управляемости CoT — мы представляем оценочный набор данных CoT-Control, который включает задачи, требующие от моделей решения проблем с соблюдением инструкций к CoT, например, рассуждения на тему генетики без использования слова «хромосома». Мы показываем, что способность моделей к рассуждениям контролировать свои CoT значительно ниже, чем способность контролировать итоговый вывод; так, модель Claude Sonnet 4.5 может контролировать свою CoT лишь в 2,7% случаев, но в 61,9% случаев при контроле финального вывода. Мы также обнаружили, что управляемость CoT выше у более крупных моделей и снижается с увеличением количества RL-обучения, вычислительных ресурсов в момент инференса и сложности задачи. Сбои в управляемости CoT наблюдаются даже в ситуациях, когда модели предоставляются стимулы (в отличие от прямых запросов) для уклонения от мониторинга CoT, хотя модели демонстрируют несколько более высокую управляемость, когда им сообщают, что за ними ведется наблюдение. Аналогично, попытки повысить управляемость путем адверсарной оптимизации промтов не приводят к ее значительному росту. Наши результаты позволяют с осторожным оптимизмом предположить, что на текущий момент низкая управляемость CoT вряд ли является критическим недостатком, ведущим к невозможности её мониторинга. Однако механизм, стоящий за низкой управляемостью, недостаточно изучен. Учитывая её важность для поддержания мониторинга CoT, мы рекомендуем ведущим лабораториям отслеживать показатель управляемости CoT в будущих моделях.
Архитектуры транссформеров служат основой для большинства современных больших языковых моделей, поэтому стабильность их предварительного обучения и скорость сходимости имеют первостепенное значение. Мотивированные логической зависимостью последовательно stacked слоев, мы предлагаем метод прогрессивного прогрева остаточных связей (Progressive Residual Warmup, ProRes) для предварительного обучения языковых моделей. ProRes реализует философию «ранние слои обучаются первыми», умножая остаточную связь каждого слоя на скаляр, который постепенно увеличивается от 0 до 1, причем более глубоким слоям требуется больше шагов прогрева. Таким образом, глубокие слои ожидают, пока ранние слои стабилизируются, прежде чем начать вносить вклад в обучение. Мы демонстрируем эффективность ProRes в экспериментах по предварительному обучению моделей различных масштабов, а также при различных схемах нормализации и инициализации. Всесторонний анализ показывает, что ProRes не только стабилизирует предварительное обучение, но и создает уникальную траекторию оптимизации, приводя к более быстрой сходимости, лучшей обобщающей способности и повышению производительности на downstream-задачах. Наш код доступен по адресу https://github.com/dandingsky/ProRes.
Память играет ключевую роль в роботизированном манипулировании, требующем долгосрочного планирования и учета истории действий. Такие задачи часто включают подсчет повторяющихся действий или манипулирование объектами, которые временно оказываются перекрыты. Современные модели, объединяющие зрение, язык и действия (vision-language-action, VLA), начали включать механизмы памяти; однако их оценка до сих пор ограничивалась узкими, нестандартизированными условиями. Это ограничивает возможность их систематического понимания, сравнения и измерения прогресса. Для решения этих проблем мы представляем RoboMME: крупномасштабный стандартизированный бенчмарк для оценки и развития VLA-моделей в сценариях, требующих долгосрочного планирования и учета истории. Наш бенчмарк включает 16 задач манипулирования, созданных в рамках тщательно разработанной таксономии, которая оценивает временную, пространственную, объектную и процедурную память. Мы также разработали набор из 14 вариантов VLA с расширенной памятью, построенных на базе архитектуры π0.5, чтобы систематически исследовать различные представления памяти при множественных стратегиях интеграции. Результаты экспериментов показывают, что эффективность представлений памяти сильно зависит от конкретной задачи, причем каждая конструкция имеет явные преимущества и ограничения в разных сценариях. Видео и код доступны на нашем сайте https://robomme.github.io.
Диффузионные трансформаторы обрабатывают изображения как последовательности токенов фиксированной длины, создаваемые статической операцией разбиения на патчи. Несмотря на эффективность, такая конструкция равномерно распределяет вычислительные ресурсы как на области с низкой, так и с высокой информативностью, игнорируя тот факт, что изображения содержат регионы с разной степенью детализации, а процесс денойзинга прогрессирует от грубой структуры на ранних шагах к мелким деталям на поздних. Мы представляем Dynamic Chunking Diffusion Transformer (DC-DiT), который расширяет основу DiT с помощью обучаемого каркаса «кодировщик-маршрутизатор-декодировщик», адаптивно сжимающего двумерный вход в более короткую последовательность токенов зависимым от данных образом с использованием механизма чанкинга, обучаемого сквозным образом вместе с диффузионной тренировкой. Механизм обучается сжимать однородные фоновые области в меньшее количество токенов, а богатые деталями регионы — в большее, при этом осмысленные визуальные сегментации возникают без явного контроля. Кроме того, он также учится адаптировать степень сжатия в зависимости от шага диффузии, используя меньше токенов на зашумленных стадиях и больше — по мере проявления мелких деталей. На данных ImageNet 256×256 с условиями по классам DC-DiT стабильно улучшает FID и Inception Score по сравнению с базовыми моделями DiT, согласованными как по параметрам, так и по FLOPs, при степенях сжатия 4× и 16×, что демонстрирует перспективность методики с потенциальным применением в генерации в пиксельном пространстве, для видео и 3D. Помимо точности, DC-DiT практичен: модель можно дообучить из предварительно обученных чекпоинтов DiT с минимальными вычислительными затратами (до 8× меньше шагов обучения), а также комбинировать с другими методами динамических вычислений для дальнейшего сокращения FLOPs при генерации.
Недавние достижения в области диффузионной генерации видео позволили достичь впечатляющего визуального реализма, однако системы по-прежнему слабо подчиняются фундаментальным физическим законам, таким как гравитация, инерция и столкновения. Сгенерированные объекты часто движутся непоследовательно между кадрами, демонстрируют неправдоподобную динамику или нарушают физические ограничения, что снижает реалистичность и надежность видео, создаваемых искусственным интеллектом. Мы устраняем этот пробел, представляя Physical Simulator In-the-loop Video Generation (PSIVG) — новую архитектуру, интегрирующую физический симулятор в процесс диффузионного生成视频. Начиная с видео-шаблона, созданного предварительно обученной диффузионной моделью, PSIVG восстанавливает 4D-сцену и меши объектов переднего плана, инициализирует их в физическом симуляторе и генерирует физически согласованные траектории. Эти смоделированные траектории затем используются для направления видео-генератора к пространственно-временной физической согласованности движения. Для дополнительного улучшения консистентности текстур при перемещении объектов мы предлагаем технику Test-Time Texture Consistency Optimization (TTCO), которая адаптирует текстовые и feature-эмбеддинги на основе пиксельных соответствий из симулятора. Комплексные эксперименты демонстрируют, что PSIVG создает видео, в большей степени соответствующие законам реального мира, при сохранении визуального качества и разнообразия. Страница проекта: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
Последние достижения в области больших языковых моделей (LLM) открыли новые возможности для мультимодальных рассуждений. Однако большинство существующих методов по-прежнему полагаются на предобученные визуально-языковые модели (VLM) для раздельного кодирования пар «изображение-текст», игнорируя реляционную структуру, которую данные в реальном мире естественным образом формируют. Это мотивирует проведение рассуждений на мультимодальных графах (MMG), где каждый узел обладает текстовыми и визуальными атрибутами, а рёбра предоставляют структурные подсказки. Обеспечение рассуждений на основе LLM для таких гетерогенных мультимодальных сигналов с сохранением топологии графа сталкивается с двумя ключевыми проблемами: разрешением слабой кросс-модальной согласованности и обработкой гетерогенных предпочтений модальностей. Для решения этих задач мы предлагаем Mario — унифицированную архитектуру, которая одновременно решает две указанные проблемы и обеспечивает эффективные рассуждения на основе LLM над MMG. Архитектура Mario состоит из двух инновационных этапов. Во-первых, это проектирование граф-обусловленной VLM, которая совместно уточняет текстовые и визуальные признаки посредством тонкого кросс-модального контрастного обучения, направляемого топологией графа. Во-вторых, это механизм модально-адаптивной граф-инструктивной настройки, который организует выровненные мультимодальные признаки в граф-ориентированные инструктивные представления и использует обучаемый маршрутизатор для выбора, для каждого узла и его окрестности, наиболее информативной конфигурации модальностей для LLM. Многочисленные эксперименты на различных наборах данных MMG демонстрируют, что Mario стабильно превосходит современные графовые модели как в контролируемых сценариях, так и в сценариях с нулевым разгоном для задач классификации узлов и предсказания связей. Код будет доступен по адресу https://github.com/sunyuanfu/Mario.
Последовательно работающие агенты на основе больших языковых моделей (LLM) не справляются с долгосрочным планированием при наличии жестких ограничений, таких как бюджеты и требования к разнообразию. По мере развития плана и роста контекста эти агенты отклоняются от глобальных ограничений. Мы предлагаем HiMAP-Travel — иерархическую мульти-агентную структуру, которая разделяет планирование на стратегическую координацию и параллельное исполнение на уровне дней. Координатор распределяет ресурсы по дням, а исполнители дней планируют независимо и параллельно. Это обеспечивается тремя ключевыми механизмами: транзакционный монитор, обеспечивающий соблюдение бюджетных ограничений и требований уникальности среди параллельных агентов; протокол согласования, позволяющий агентам отклонять невыполнимые подцели и инициировать перепланирование; и единая политика, обученная с помощью GRPO, которая управляет всеми агентами через условное определение ролей. На задаче TravelPlanner, HiMAP-Travel с моделью Qwen3-8B достигает 52.78% Final Pass Rate (FPR) на валидации и 52.65% на тесте. В контролируемом сравнении с идентичной моделью, обучением и инструментами, он превосходит последовательный базовый уровень DeepTravel на +8.67 п.п. Он также превосходит ATLAS на +17.65 п.п. и MTP на +10.0 п.п. На многотуровых сценариях FlexTravelBench он достигает 44.34% FPR (2 тура) и 37.42% FPR (3 тура), одновременно снижая задержку в 2.5 раза за счет параллелизации.
Визуальные эффекты (VFX) играют ключевую роль в повышении выразительности и креативности видеоконтента, однако создание высококачественных эффектов обычно требует специальных знаний и дорогостоящих производственных процессов. Существующие системы AIGC сталкиваются со значительными трудностями в генерации VFX из-за нехватки данных, специфичных для эффектов, и присущей сложности моделирования сверхъестественных или стилизованных эффектов. Более того, эти подходы часто требуют тонкой настройки для каждого эффекта, что серьезно ограничивает их масштабируемость и обобщаемость на новые VFX. В данной работе мы представляем EffectMaker — унифицированную reasoning-generation framework, которая позволяет настраивать VFX на основе референсов. EffectMaker использует мультимодальную большую языковую модель для интерпретации высокоуровневой семантики эффектов и анализа их адаптации к целевому объекту, в то время как диффузионный трансформер использует обучение в контексте для захвата тонких визуальных подсказок из reference-видео. Эти два компонента формируют семантико-визуальный механизм двойного руководства, обеспечивающий точный, контролируемый и согласованный с эффектом синтез без тонкой настройки для каждого эффекта. Кроме того, мы создали EffectData — крупнейший высококачественный синтетический датасет, содержащий 130 тыс. видео across 3k категорий VFX, для улучшения обобщаемости и масштабируемости. Эксперименты показывают, что EffectMaker демонстрирует превосходное визуальное качество и согласованность эффектов по сравнению с современными базовыми методами, предлагая масштабируемую и гибкую парадигму для кастомизированной генерации VFX. Страница проекта: https://effectmaker.github.io
Модели управления на основе потоков с интеграцией зрения, языка и действий (VLA) демонстрируют высокую эффективность в воплощённом управлении, однако сталкиваются с проблемой невычислимых правдоподобий при многошаговой выборке, что затрудняет онлайн-обучение с подкреплением. Мы предлагаем \textit{boldsymbolπ-StepNFT} (пошаговая тонкая настройка с учётом негативных сценариев) — бескритиковый и свободный от правдоподобий фреймворк, требующий всего одного прямого прохода на шаг оптимизации и исключающий вспомогательные ценностные сети. Мы выявляем, что более широкие пространства исследований требуют более детального пошагового руководства для выравнивания. Экспериментально π-StepNFT раскрывает скрытый потенциал на LIBERO, демонстрируя конкурентоспособную робастность в условиях обучения с малым количеством примеров. Более того, метод достигает превосходной обобщающей способности на ManiSkill, превосходя ценностно-ориентированные базовые линии в сценариях OOD за счёт предотвращения переобучения на мультимодальных признаках. Это свойство предлагает масштабируемое решение, перспективное для сложных реальных приложений.
Моделирование длинных контекстов является ключевой способностью больших языковых моделей, однако квадратичная сложность механизма внимания остается серьезным узким местом, особенно на ресурсоемкой стадии предварительного заполнения. Хотя были исследованы различные механизмы разреженного внимания, они обычно страдают либо от значительной задержки поиска, либо от недостаточной разреженности. В данной статье мы предлагаем FlashPrefill — фреймворк, обеспечивающий сверхбыстрое предварительное заполнение за счет мгновенного обнаружения паттернов и пороговой фильтрации. FlashPrefill использует технику быстрого поиска блоков для одновременного определения динамических паттернов внимания: вертикального, диагонального и блочно-разреженного. Ключевым нововведением является механизм динамической пороговой фильтрации, который избегает запретительных затрат на сортировку или накопление оценок внимания, эффективно устраняя «длинный хвост» распределения для повышения разреженности. Многочисленные эксперименты демонстрируют, что FlashPrefill обеспечивает значительный прорыв в эффективности, достигая беспрецедентного ускорения в 27.78 раз на последовательностях длиной 256K. Примечательно, что в отличие от существующих методов, теряющих эффективность на коротких контекстах, FlashPrefill сохраняет ускорение в 1.71 раз даже при длине контекста 4K, что подтверждает его надежность и практическую полезность для различных масштабов последовательностей.
Быстрое развитие больших языковых моделей (LLM) с разнообразными возможностями, стоимостью и областями применения создало острую потребность в интеллектуальном выборе моделей во время инференса. В то время как для рутинных запросов достаточно небольших моделей, сложные задачи требуют более мощных моделей. Однако статическое развертывание моделей не учитывает сложность и предметную область входящих запросов, что приводит к неоптимальной производительности и росту затрат. Динамические системы маршрутизации, которые адаптивно выбирают модели на основе характеристик запроса, появились как решение этой проблемы. Мы представляем систематический анализ современных подходов к маршрутизации и каскадированию множества LLM. В отличие от архитектур типа «смесь экспертов», где маршрутизация происходит внутри одной модели, мы изучаем маршрутизацию между множеством независимо обученных LLM. Мы рассматриваем различные парадигмы маршрутизации, включая оценку сложности запроса, человеческие предпочтения, кластеризацию, количественную оценку неопределенности, обучение с подкреплением, мультимодальность и каскадирование. Для каждой парадигмы мы анализируем репрезентативные методы и исследуем ключевые компромиссы. Помимо таксономии, мы вводим концептуальную основу, которая характеризует системы маршрутизации по трем измерениям: *когда* принимаются решения, *какая информация* используется и *как* они вычисляются. Этот подход подчеркивает, что практические системы часто являются композиционными, объединяя несколько парадигм в рамках операционных ограничений. Наш анализ демонстрирует, что эффективная маршрутизация между несколькими LLM требует балансировки конкурирующих целей. Выбор оптимальной стратегии маршрутизации зависит от ограничений развертывания и вычислительных ресурсов. Грамотно спроектированные системы маршрутизации могут превзойти даже самые мощные одиночные модели за счет стратегического использования специализированных возможностей разных моделей при одновременной максимизации выигрыша в эффективности. В то же время остаются открытые проблемы в разработке механизмов маршрутизации, которые обобщаются на разнообразные архитектуры, модальности и приложения.
Создание презентаций требует глубокого исследования содержания, последовательного визуального дизайна и итеративного уточнения на основе наблюдений. Однако существующие системы автоматизации презентаций часто полагаются на предопределенные рабочие процессы и фиксированные шаблоны. Для решения этой проблемы мы представляем DeepPresenter — агентный фреймворк, который адаптируется к разнообразным пользовательским интенциям, обеспечивает эффективное уточнение на основе обратной связи и обобщает подход за пределы скриптового пайплайна. В частности, DeepPresenter автономно планирует, визуализирует и корректирует промежуточные артефакты слайдов для поддержки долгосрочного уточнения с учетом наблюдений за средой. Более того, вместо саморефлексии над внутренними сигналами (например, трассировкой рассуждений), наша рефлексия, основанная на среде, обусловливает процесс генерации состояниями перцептивных артефактов (например, визуализированных слайдов), что позволяет системе выявлять и исправлять специфические для презентаций проблемы во время выполнения. Результаты на оценочном наборе данных, охватывающем различные сценарии генерации презентаций, показывают, что DeepPresenter демонстрирует наилучшую производительность, а дообученная 9-миллиардная модель остается высококонкурентной при существенно более низкой стоимости. Наш проект доступен по адресу: https://github.com/icip-cas/PPTAgent
Диффузионные модели мира продемонстрировали значительный потенциал для унифицированного моделирования мира, однако итеративное шумоподаление остается слишком затратным для интерактивного использования и долгосрочных прогонов. Хотя кэширование признаков может ускорить вывод без обучения, мы обнаруживаем, что политики, разработанные для однокомпонентной диффузии, плохо переносятся на модели мира из-за двух специфичных для них препятствий: гетерогенности токенов, вызванной многокомпонентной связью и пространственной вариативностью, и неравномерной временной динамики, при которой небольшой набор сложных токенов обуславливает рост ошибки, что делает равномерное пропускание либо нестабильным, либо излишне консервативным. Мы предлагаем WorldCache — фреймворк кэширования, адаптированный для диффузионных моделей мира. Мы представляем прогнозирование гетерогенных токенов на основе кривизны, которое использует основанную на физике оценку кривизны для предсказания предсказуемости токенов и применяет демпфированный прогнозирующий метод с использованием полиномов Эрмита для хаотичных токенов с резкими изменениями направления. Мы также разрабатываем адаптивное пропускание с приоритизацией хаотичных токенов, которое аккумулирует безразмерный сигнал дрейфа, нормированный по кривизне, и пересчитывает токены только тогда, когда ключевые токены начинают дрейфовать. Эксперименты на диффузионных моделях мира показывают, что WorldCache обеспечивает до 3.7-кратного ускорения сквозного процесса при сохранении 98% качества прогонов, демонстрируя значительные преимущества и практическую применимость WorldCache в сценариях с ограниченными ресурсами. Наш код доступен по адресу https://github.com/FofGofx/WorldCache.
Системы автоматизированного проектирования (САПР) опираются на структурированные и редактируемые геометрические представления, однако существующие генеративные методы ограничены небольшими размеченными наборами данных с явными историями проектирования или метками граничного представления (BRep). В то же время миллионы неразмеченных 3D-сеток остаются неиспользованными, что ограничивает прогресс в масштабируемой генерации САПР. Для решения этой проблемы мы предлагаем DreamCAD — мультимодальную генеративную систему, которая непосредственно создает редактируемые BRep-модели на основе контроля на уровне точек, без САПР-специфичных аннотаций. DreamCAD представляет каждый BRep в виде набора параметрических поверхностей (например, поверхностей Безье) и использует метод дифференцируемой тесселяции для генерации сеток. Это позволяет проводить обучение в крупном масштабе на наборах 3D-данных, одновременно восстанавливая связные и редактируемые поверхности. Кроме того, мы представляем CADCap-1M — крупнейший на сегодняшний день набор данных с описаниями для САПР, содержащий более 1 млн описаний, сгенерированных с помощью GPT-5 для развития исследований в области генерации САПР по тексту. DreamCAD демонстрирует наилучшие результаты на бенчмарках ABC и Objaverse для текстовой, графической и точечной модальностей, улучшая геометрическую точность и превосходя 75% пользовательских предпочтений. Код и набор данных будут общедоступны.
Диалоговые агенты все чаще применяются в условиях, требующих работы со знаниями, где корректное поведение зависит от извлечения и применения предметных знаний из больших, проприетарных и неструктурированных корпусов данных в ходе интерактивного взаимодействия с пользователями. Однако большинство существующих бенчмарков оценивают извлечение информации и использование инструментов независимо друг от друга, что создает разрыв в реалистичной, полностью агентской оценке работы с неструктурированными данными в долгосрочных взаимодействиях. Мы представляем τ-Knowledge — расширение платформы τ-Bench для оценки агентов в средах, где успех зависит от координации внешних знаний на естественном языке с результатами работы инструментов для достижения проверяемых изменений состояния, соответствующих политикам. Наша новая предметная область, τ-Banking, моделирует реалистичные рабочие процессы поддержки клиентов в финтехе, где агенты должны ориентироваться примерно в 700 взаимосвязанных документах базы знаний, одновременно выполняя инструментально опосредованные обновления учетных записей. При использовании как поиска на основе эмбеддингов, так и терминального поиска, даже передовые модели с высоким бюджетом на рассуждения демонстрируют показатель успеха всего лишь около 25.5%, при этом надежность резко снижается в повторных испытаниях. Агенты испытывают трудности с извлечением корректных документов из плотно связанных баз знаний и с точным логическим выводом на основе сложных внутренних политик. В целом, τ-Knowledge предоставляет реалистичный полигон для разработки агентов, интегрирующих неструктурированные знания в развертываниях, ориентированных на взаимодействие с человеком.
Обучение нейросетевых решателей дифференциальных уравнений в частных производных (ДУЧП) часто ограничивается дорогостоящей генерацией данных или нестабильными физико-информированными нейронными сетями (Physics-Informed Neural Networks, PINN), связанными со сложными ландшафтами оптимизации из-за производных высокого порядка. Для решения этой проблемы мы предлагаем альтернативный подход, использующий методы Монте-Карло для оценки решения ДУЧП как стохастического процесса с целью слабого обучения (weak supervision). Используя метод блуждания по сферам (Walk-on-Spheres, WoS), мы представляем схему обучения под названием WoS-Neural Operator (WoS-NO), которая применяет слабое обучение на основе WoS для тренировки любого заданного нейронного оператора. Мы предлагаем амортизировать стоимость вычислений методом Монте-Карло по распределению экземпляров ДУЧП, используя стохастические представления из алгоритма WoS для генерации дешёвых, зашумленных оценок решения ДУЧП в процессе обучения. Это формулируется в виде физико-информированного функционала без использования данных, где нейронный оператор обучается регрессии по этим слабым supervision, что позволяет оператору изучать обобщённое отображение решений для целого семейства ДУЧП. Данная стратегия не требует дорогостоящих предварительно вычисленных наборов данных, избегает вычисления производных высокого порядка для функций потерь, которые ресурсоёмки по памяти и нестабильны, и демонстрирует обобщение на новые параметры и области ДУЧП без дообучения (zero-shot generalization). Эксперименты показывают, что при одинаковом количестве шагов обучения наш метод демонстрирует до 8.75-кратного улучшения по L_2-ошибке по сравнению со стандартными физико-информированными схемами обучения, до 6.31-кратного ускорения обучения и сокращение потребления памяти на GPU до 2.97 раз. Код представлен по адресу https://github.com/neuraloperator/WoS-NO.
Масштабирование вычислительных ресурсов на этапе вывода для больших языковых моделей (LLM) открыло беспрецедентные возможности логического мышления. Однако существующие методы масштабирования на этапе вывода обычно полагаются на неэффективные и неоптимальные алгоритмы дискретного поиска или метод проб и ошибок в промптах для улучшения онлайн-политики. В данной статье мы предлагаем nabla-Reasoner — итеративную фреймворк-систему генерации, которая интегрирует дифференцируемую оптимизацию над лог-оценками токенов в цикл декодирования для динамического уточнения политики. Наш ключевой компонент, Дифференцируемая Текстовая Оптимизация (DTO), использует градиентные сигналы как от правдоподобия самой LLM, так и от модели вознаграждения для уточнения текстовых представлений. nabla-Reasoner дополнительно включает отбраковку семплов и ускоренный дизайн для повышения надежности и скорости декодирования. Теоретически мы показываем, что выполнение градиентного спуска на этапе вывода в пространстве семплов для максимизации вознаграждения дуально выравниванию политики LLM с помощью RL с KL-регуляризацией. Эмпирически nabla-Reasoner демонстрирует улучшение точности более чем на 20% на сложном benchmark математических рассуждений, одновременно сокращая количество вызовов модели примерно на 10–40% по сравнению с сильными базовыми методами. В целом, наша работа знаменует смену парадигмы: от поиска нулевого порядка к оптимизации первого порядка во время тестирования, предлагая экономичный путь для усиления логических способностей LLM.
Метод оптимизации политики относительно групп (GRPO) демонстрирует высокую эффективность для пост-обучения авторегрессионных (AR) языковых моделей, однако его прямое применение к диффузионным большим языковым моделям (dLLM) часто приводит к коллапсу вознаграждения. Мы выявили два источника несовместимости. Во-первых, GRPO опирается на важностные отношения, определяемые вероятностями последовательностей, которые в случае dLLM являются интрактивными и должны оцениваться (например, через прокси-вероятности на основе ELBO или среднего поля), что приводит к inherently зашумленным отношениям. Во-вторых, формулировка стандартного GRPO не предназначена для оцененных отношений: её условное ограничение (clipping) может аномально обходиться из-за агностического к модели шума оценок, порождая всплески градиента, в то время как её нормировка с фиксированным размером группы усиливает флуктуации величины градиента при оценках отношений с высокой дисперсией. Мы показываем, что эти эффекты формируют самоподкрепляющийся цикл нестабильности, который провоцирует дрейф политики и дальнейший рост дисперсии отношений. Чтобы разорвать этот цикл, мы предлагаем StableDRL — реформулировку GRPO, адаптированную для dLLM, которая использует (i) безусловное ограничение для подавления всплесков, вызванных выбросами, и (ii) самонормировку для ограничения обновлений внутри выпуклой оболочки градиентов для каждого отдельного примера. Мы также расширяем StableDRL для блочных диффузионных моделей с помощью механизма ступенчатого внимания (staircase attention).
Крупные языковые модели иногда генерируют ложные или вводящие в заблуждение ответы. Два подхода к решению этой проблемы — выявление правдивости (модификация промптов или весов для получения честных ответов) и детекция лжи (классификация ложности ответов). Предыдущие исследования оценивали такие методы на моделях, специально обученных лгать или скрывать информацию, но эти искусственные конструкции могут не отражать естественно возникающую нечестность. Вместо этого мы изучаем открытые LLM от китайских разработчиков, обученные цензурировать политически чувствительные темы: модели Qwen3 часто выдают ложные сведения о таких темах, как Фалуньгун или протесты на площади Тяньаньмэнь, но иногда отвечают верно, что указывает на наличие у них знаний, которые они обучены подавлять. Используя это как тестовую среду, мы оцениваем набор методов выявления правдивости и детекции лжи. Для выявления честности наиболее надежно увеличивают долю правдивых ответов сэмплирование без шаблона чата, few-shot промптинг и дообучение на общих данных о правдивости. Для детекции лжи классификация собственных ответов самой цензурированной моделью показывает результат, близкий к верхней границе, заданной нецензурированной моделью, а линейные пробы, обученные на несвязанных данных, предлагают более дешевую альтернативу. Наиболее эффективные методы выявления честности также переносятся на передовые открытые модели, включая DeepSeek R1. Примечательно, что ни один метод не устраняет ложные ответы полностью. Мы публикуем все промпты, код и транскрипты.
Мы представляем PixARMesh — метод авторегрессивного восстановления полных 3D мешей внутренних помещений непосредственно по одному RGB-изображению. В отличие от предыдущих подходов, основанных на неявных полях знаковых расстояний и последующей оптимизации планировки, PixARMesh совместно предсказывает компоновку объектов и геометрию в рамках единой модели, создавая согласованные меши, готовые к использованию художниками, за один прямой проход. Опираясь на последние достижения в генеративных моделях мешей, мы дополняем кодировщик облака точек пиксельно-выровненными признаками изображения и глобальным контекстом сцены с помощью кросс-внимания, что обеспечивает точное пространственное моделирование по одному изображению. Сцены генерируются авторегрессивно из единого потока токенов, содержащего контекст, позу и меш, что позволяет получать компактные меши с высокодетальной геометрией. Эксперименты на синтетических и реальных данных показывают, что PixARMesh достигает высочайшего качества реконструкции, создавая легковесные и качественные меши, готовые для последующих приложений.
Офлайн-обучение с подкреплением, обусловленное целями (GCRL), изучает политики, зависящие от целей, по статическим заранее собранным наборам данных. Однако точная оценка ценности остается сложной задачей из-за ограниченного охвата пространства состояний и действий. Недавние физически информированные подходы попытались решить эту проблему, накладывая физические и геометрические ограничения на функцию ценности с помощью регуляризации, определенной через дифференциальные уравнения в частных производных (ДУЧП) первого порядка, такие как уравнение Эйконала. Однако такие формулировки часто могут быть некорректно поставленными в сложных, высокоразмерных средах. В данной работе мы предлагаем физически информированную регуляризацию, выведенную из вязкостного решения уравнения Гамильтона-Якоби-Беллмана (HJB). Предоставляя физически обоснованное индуктивное смещение, наш подход основывает процесс обучения на теории оптимального управления, явно регулируя и ограничивая обновления в ходе итераций по оценке ценности. Кроме того, мы используем теорему Фейнмана-Кака, чтобы переформулировать решение ДУЧП как математическое ожидание, что позволяет получить вычислимо осуществимую оценку целевой функции методом Монте-Карло, избегая численной неустойчивости при вычислении градиентов высшего порядка. Эксперименты демонстрируют, что наш метод улучшает геометрическую согласованность, делая его широко применимым для задач навигации и сложных манипуляционных задач высокой размерности. Исходные коды доступны по адресу https://github.com/HrishikeshVish/phys-fk-value-GCRL.
Восстановление изображений при разнородных искажениях остается сложной задачей для унифицированных все-в-одном подходов из-за интерференции признаков и недостаточной специализации экспертов. Мы предлагаем SLER-IR — фреймворк с послойной сферической маршрутизацией экспертов, который динамически активирует специализированные эксперты на разных слоях сети. Для обеспечения надежной маршрутизации мы вводим сферическое равномерное представление искажений с контрастивным обучением, которое проецирует векторы искажений на гиперсферу для устранения геометрического смещения в линейных пространствах вложений. Кроме того, модуль глобально-локального слияния гранулярности (GLGF) интегрирует глобальную семантику и локальные признаки искажений для обработки пространственно-неоднородных деградаций и разрыва в гранулярности между обучением и тестированием. Эксперименты на бенчмарках с тремя и пятью задачами демонстрируют, что SLER-IR стабильно превосходит современные методы по показателям PSNR и SSIM. Код и модели будут общедоступны.
Спецификация пространства действий играет ключевую роль в обучении политик роботизированного манипулирования на основе имитации, фундаментально формируя ландшафт оптимизации процесса обучения политик. В то время как последние достижения были в основном сосредоточены на масштабировании обучающих данных и мощности моделей, выбор пространства действий по-прежнему руководствуется эвристическими методами или унаследованными проектами, что приводит к неоднозначному пониманию философии проектирования роботизированных политик. Чтобы устранить эту неоднозначность, мы провели крупномасштабное и систематическое эмпирическое исследование, подтвердив, что пространство действий действительно оказывает значительное и сложное влияние на обучение роботизированных политик. Мы расчленяем пространство проектирования действий по временной и пространственной осям, что способствует структурированному анализу того, как эти выборы управляют как обучаемостью политики, так и стабильностью управления. На основе более 13 000 реальных испытаний на двуручном роботе и оценки более 500 обученных моделей в четырех сценариях мы исследуем компромиссы между абсолютными и дельта-представлениями, а также параметризациями в пространстве суставов и в рабочем пространстве. Наши крупномасштабные результаты позволяют предположить, что правильное проектирование политики для предсказания дельта-действий последовательно улучшает производительность, в то время как представления в пространстве суставов и в рабочем пространстве предлагают взаимодополняющие преимущества, способствуя стабильности управления и обобщающей способности соответственно.
Следование инструкциям является фундаментальной способностью больших языковых моделей (LLM), улучшение которой зависит от масштабируемой и точной обратной связи от моделей-оценщиков. Однако надежность современных моделей-оценщиков в выполнении инструкций остается недостаточно изученной из-за ряда недостатков существующих мета-оценочных бенчмарков, таких как недостаточный охват данных и упрощенные парные парадигмы оценки, которые не соответствуют сценариям оптимизации моделей. Для решения этой проблемы мы предлагаем IF-RewardBench — комплексный мета-оценочный бенчмарк для выполнения инструкций, охватывающий разнообразные типы инструкций и ограничений. Для каждой инструкции мы строим граф предпочтений, содержащий все парные предпочтения между множеством ответов на основе качества следования инструкции. Такой подход обеспечивает списочную парадигму оценки, которая проверяет способности моделей-оценщиков ранжировать множественные ответы, что крайне важно для выравнивания моделей. Масштабные эксперименты на IF-RewardBench выявили значительные недостатки современных моделей-оценщиков и показали, что наш бенчмарк достигает более сильной положительной корреляции с производительностью на последующих задачах по сравнению с существующими аналогами. Наши код и данные доступны по адресу https://github.com/thu-coai/IF-RewardBench.
Известно, что реконструкционный FID (rFID) VAE слабо коррелирует с генерационным FID (gFID) латентной диффузионной модели. Мы предлагаем интерполированный FID (iFID) — простой вариант rFID, который демонстрирует сильную корреляцию с gFID. А именно, для каждого элемента набора данных мы находим его ближайшего соседа (NN) в латентном пространстве и интерполируем их латентные представления. Затем мы декодируем интерполированный латентный вектор и вычисляем FID между декодированными образцами и исходным набором данных. Кроме того, мы уточняем утверждение о слабой корреляции rFID с gFID, показывая, что rFID коррелирует с качеством образцов на этапе диффузионного уточнения, тогда как iFID коррелирует с качеством образцов на этапе диффузионной навигации. Далее мы объясняем, почему iFID хорошо коррелирует с gFID, а реконструкционные метрики отрицательно коррелируют с gFID, связывая это с результатами в области диффузионной генерализации и галлюцинаций. Эмпирически iFID является первой метрикой, демонстрирующей сильную корреляцию с диффузионным gFID, достигая линейной корреляции Пирсона и ранговой корреляции Спирмена приблизительно на уровне 0,85. Исходный код доступен по адресу https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
Для полного раскрытия потенциала визуально насыщенных документов необходимы системы поиска, которые понимают не только текст, но и сложные макеты, что является ключевой проблемой в визуальном поиске документов (VDR). Преобладающие мультивекторные архитектуры, будучи мощными, сталкиваются с критической проблемой объема хранения данных, которую современные стратегии оптимизации, такие как слияние эмбеддингов, их прореживание или использование абстрактных токенов, не могут решить без ущерба для производительности или игнорирования важных визуальных подсказок макета. Чтобы решить эту проблему, мы представляем ColParse — новую парадигму, которая использует модель парсинга документа для генерации небольшого набора информированных о макете эмбеддингов подизображений, которые затем объединяются с глобальным векторным представлением на уровне страницы для создания компактного и структурно-осознанного мультивекторного представления. Многочисленные эксперименты демонстрируют, что наш метод сокращает требования к объему хранения более чем на 95%, одновременно обеспечивая значительный прирост производительности на множестве тестовых наборов и базовых моделей. Таким образом, ColParse устраняет критический разрыв между высокой точностью мультивекторного поиска и практическими требованиями крупномасштабного развертывания, открывая новый путь к созданию эффективных и интерпретируемых мультимодальных информационных систем.
Недавние исследования показали, что промежуточные слои базовых моделей часто формируют более дискриминативные представления, чем конечный слой. Хотя изначально это явление объясняли авторегрессионным предварительным обучением, оно также было выявлено в моделях, обученных с помощью контролируемых и дискриминативных самоконтролируемых задач. В данной работе мы проводим комплексное исследование для анализа поведения промежуточных слоев в предобученных трансформерах для компьютерного зрения. С помощью масштабных экспериментов с линейным probing на разнообразных бенчмарках классификации изображений мы обнаружили, что сдвиг распределения между данными предварительного обучения и целевыми данными является основной причиной деградации производительности в более глубоких слоях. Кроме того, мы выполняем детализированный анализ на уровне модулей. Наши результаты показывают, что стандартный probing выходов трансформерных блоков является субоптимальным: вместо этого probing активаций внутри feedforward-сети дает наилучшую производительность при значительном сдвиге распределения, тогда как нормализованный выход модуля многоголовой самоattention оказывается оптимальным при слабом сдвиге.