Ежедневно отобранные исследовательские статьи по ИИ с переводами
Быстрый прогресс в области видео-моделей в основном был сосредоточен на визуальном качестве, оставляя их способности к рассуждению недостаточно изученными. Видео-рассуждение основывает интеллект в пространственно-временных визуальных средах, которые выходят за рамки того, что текст может естественным образом передать, позволяя проводить интуитивные рассуждения о пространственно-временной структуре, такой как непрерывность, взаимодействие и причинно-следственные связи. Однако систематическое изучение видео-рассуждений и их масштабируемости затруднено из-за отсутствия крупномасштабных данных для обучения. Чтобы устранить этот пробел, мы представляем набор данных Very Big Video Reasoning (VBVR) — беспрецедентно крупный ресурс, охватывающий 200 тщательно отобранных задач на рассуждение, следующих принципиальной таксономии, и более миллиона видеоклипов, что примерно на три порядка больше существующих наборов данных. Мы также представляем VBVR-Bench, проверяемую систему оценки, которая выходит за рамки модельно-ориентированной проверки, включая основанные на правилах, согласованные с человеком системы оценки, что позволяет проводить воспроизводимую и интерпретируемую диагностику способностей к видео-рассуждению. Используя комплект VBVR, мы проводим одно из первых крупномасштабных исследований масштабирования видео-рассуждений и наблюдаем ранние признаки возникновения обобщения на ранее не встречавшиеся задачи. В совокупности VBVR закладывает основу для следующего этапа исследований в области обобщаемых видео-рассуждений. Данные, инструментарий для тестирования и модели общедоступны по адресу https://video-reason.com/.
Композитные системы ИИ обладают потенциалом, превосходящим возможности отдельных моделей, однако их успех критически зависит от эффективной оркестровки. Существующие подходы к маршрутизации сталкиваются с двумя ограничениями: (1) маршрутизаторы на уровне входных данных принимают грубые решения на уровне запросов, игнорируя развивающиеся требования задачи; (2) оркестраторы, обученные с подкреплением, дорого адаптировать, и они часто страдают от коллапса маршрутизации, многократно вызывая одну мощную, но дорогостоящую опцию в сценариях с множеством turns. Мы представляем SkillOrchestra — фреймворк для оркестровки с учетом навыков. Вместо прямого сквозного обучения политике маршрутизации, SkillOrchestra извлекает детализированные навыки из опыта выполнения, моделируя компетенцию и стоимость, специфичные для агентов, в рамках этих навыков. При развертывании оркестратор выводит потребности в навыках для текущего взаимодействия и выбирает агентов, которые наилучшим образом удовлетворяют им с учетом явного компромисса между производительностью и стоимостью. Масштабные эксперименты на десяти бенчмарках демонстрируют, что SkillOrchestra превосходит современные оркестраторы на основе обучения с подкреплением до 22.5%, при этом стоимость обучения снижается в 700 и 300 раз по сравнению с Router-R1 и ToolOrchestra соответственно. Эти результаты показывают, что явное моделирование навыков обеспечивает масштабируемую, интерпретируемую и эффективную по выборкам оркестровку, предлагая принципиальную альтернативу требовательным к данным подходам на основе обучения с подкреплением. Код доступен по адресу: https://github.com/jiayuww/SkillOrchestra.
После появления крупных базовых моделей возникли модели «Vision-Language-Action» (VLA), использующие мощное визуальное и языковое понимание для обучения универсальных стратегий. Однако современное состояние VLA-моделей остается фрагментированным и исследовательским. Хотя многие группы предложили собственные VLA-модели, несогласованность протоколов обучения и условий оценки затрудняет определение действительно значимых проектных решений. Чтобы упорядочить эту развивающуюся область, мы пересматриваем пространство проектирования VLA в рамках единой структуры и схемы оценки. Начиная с простой базовой VLA-модели, аналогичной RT-2 и OpenVLA, мы систематически анализируем проектные решения по трем направлениям: базовые компоненты, ключевые аспекты восприятия и подходы к моделированию действий. В результате этого исследования мы формулируем 12 ключевых выводов, которые вместе образуют практическое руководство по созданию эффективных VLA-моделей. Итогом этой работы стала простая, но мощная модель VLANeXt. VLANeXt превосходит предыдущие state-of-the-art методы на бенчмарках LIBERO и LIBERO-plus и демонстрирует высокую обобщающую способность в реальных экспериментах. Мы выпустим унифицированную, удобную кодобазу, которая послужит общей платформой для сообщества с целью воспроизведения наших результатов, исследования пространства проектирования и создания новых вариантов VLA на общей основе.
Мы представляем разведочное исследование по тестированию на устойчивость автономных агентов на основе языковых моделей, развернутых в реальной лабораторной среде с постоянной памятью, почтовыми ящиками, доступом к Discord, файловыми системами и возможностью выполнения команд оболочки. В течение двухнедельного периода двадцать исследователей ИИ взаимодействовали с агентами в доброжелательных и враждебных условиях. Сосредоточившись на сбоях, возникающих при интеграции языковых моделей с автономией, использованием инструментов и многопользовательским взаимодействием, мы документируем одиннадцать репрезентативных кейсов. Наблюдаемое поведение включает несанкционированное подчинение командам не-владельцев, раскрытие конфиденциальной информации, выполнение деструктивных действий на системном уровне, возникновение условий отказа в обслуживании, неконтролируемое потребление ресурсов, уязвимости спуфинга идентичности, кросс-агентное распространение небезопасных практик и частичный захват системы. В нескольких случаях агенты сообщали о выполнении задачи, в то время как фактическое состояние системы противоречило этим отчетам. Мы также сообщаем о некоторых неудачных попытках. Наши выводы подтверждают наличие уязвимостей, имеющих значение для безопасности, конфиденциальности и управления, в условиях реального развертывания. Такое поведение поднимает нерешенные вопросы относительно подотчетности, делегирования полномочий и ответственности за последующий ущерб, что требует безотлагательного внимания со стороны юристов, политиков и исследователей различных дисциплин. Данный отчет служит первоначальным эмпирическим вкладом в эту широкую дискуссию.
В последовательных рекомендательных системах все чаще применяется латентное многошаговое логическое выводы для улучшения вычислений во время тестирования. Несмотря на эмпирические успехи, существующие подходы в основном направляют промежуточные состояния логического вывода с помощью целеориентированных функций потерь без наложения явных ограничений на реализуемость. Это приводит к "латентному дрейфу", когда траектории рассуждений отклоняются в неправдоподобные области. Мы утверждаем, что эффективный логический вывод для рекомендаций следует рассматривать как навигацию по коллаборативному многообразию, а не как свободное латентное уточнение. С этой целью мы предлагаем ManCAR (Manifold-Constrained Adaptive Reasoning) — принципиальную框架, которая обосновывает логический вывод в рамках топологии глобального графа взаимодействий. ManCAR строит априорное распределение локальных намерений из коллаборативной окрестности недавних действий пользователя, представленное в виде распределения над симплексом элементов. В процессе обучения модель постепенно согласует свое латентное прогностическое распределение с этим априорным, вынуждая траекторию рассуждений оставаться в пределах допустимого многообразия. Во время тестирования логический вывод адаптивно продолжается до стабилизации прогностического распределения, избегая избыточного уточнения. Мы предоставляем вариационную интерпретацию ManCAR для теоретического обоснования его механизмов предотвращения дрейфа и адаптивной остановки при тестировании. Эксперименты на семи эталонных наборах данных показывают, что ManCAR последовательно превосходит современные базовые методы, достигая относительного улучшения до 46,88% по показателю NDCG@10. Наш код доступен по адресу https://github.com/FuCongResearchSquad/ManCAR.
Хотя модели "Vision-Language-Action" (VLA) демонстрируют быстрый прогресс в предварительном обучении, их развитие в области обучения с подкреплением (RL) по-прежнему сдерживается низкой эффективностью использования выборок и разреженностью вознаграждений в реальных условиях. Разработка обобщаемых моделей процессуального вознаграждения крайне важна для обеспечения детальной обратной связи, необходимой для преодоления этого разрыва, однако существующие временные функции ценности часто не способны к обобщению за пределы своих обучающих областей. Мы представляем TOPReward — новую, вероятностно обоснованную временную функцию ценности, которая использует скрытые знания о мире предобученных видео-визуально-языковых моделей (VLM) для оценки прогресса выполнения роботизированной задачи. В отличие от предыдущих методов, которые запрашивают у VLM прямую выдачу численных значений прогресса, склонных к искажению, TOPReward извлекает прогресс задачи непосредственно из внутренних токенных логитов VLM. В условиях zero-shot-оценки на более чем 130 различных реальных задачах и нескольких роботизированных платформах (например, Franka, YAM, SO-100/101) TOPReward достигает среднего коэффициента ценностно-порядковой корреляции (VOC) 0.947 на модели Qwen3-VL, что значительно превосходит современный базовый метод GVL, который показывает корреляцию, близкую к нулю, на той же открытой модели. Мы также демонстрируем, что TOPReward служит универсальным инструментом для прикладных задач, включая детектирование успешности выполнения и клонирование поведения, выровненного по вознаграждению.
Унифицированные мультимодальные модели способны одновременно понимать и генерировать визуальный контент в рамках единой архитектуры. Однако существующие модели остаются требовательными к данным и излишне громоздкими для развертывания на периферийных устройствах. Мы представляем Mobile-O — компактную визуально-языковую диффузионную модель, которая обеспечивает унифицированный мультимодальный интеллект на мобильных устройствах. Её ключевой модуль, Mobile Conditioning Projector (MCP), объединяет визуально-языковые признаки с диффузионным генератором с использованием глубинных разделяемых сверток и послойного выравнивания. Такая конструкция обеспечивает эффективное кросс-модальное кондиционирование при минимальных вычислительных затратах. Обученная всего на нескольких миллионах образцов и дообученная в новом формате квадруплета (промпт генерации, изображение, вопрос, ответ), Mobile-O совместно улучшает как возможности визуального понимания, так и генерации. Несмотря на эффективность, Mobile-O демонстрирует конкурентоспособные или превосходящие результаты по сравнению с другими унифицированными моделями, достигая 74% на GenEval и опережая Show-O и JanusFlow на 5% и 11% соответственно, при этом работая в 6 и 11 раз быстрее. В задачах визуального понимания Mobile-O превосходит их на 15,3% и 5,1% в среднем по семи тестовым наборам. Работая всего за ~3 секунды на изображение 512×512 пикселей на iPhone, Mobile-O создает первую практическую основу для реального времени унифицированного мультимодального понимания и генерации на периферийных устройствах. Мы надеемся, что Mobile-O облегчит будущие исследования в области реального времени унифицированного мультимодального интеллекта, работающего полностью на устройстве без зависимости от облачных сервисов. Наш код, модели, данные и мобильное приложение доступны по адресу https://amshaker.github.io/Mobile-O/.
Способность манипулировать инструментами значительно расширяет спектр задач, доступных для выполнения роботом. Однако манипуляция инструментами представляет собой сложный класс задач, требующий захвата тонких объектов, вращения объектов в манипуляторе и силового взаимодействия. Поскольку сбор данных телеуправления для таких действий является сложной задачей, обучение с подкреплением (RL) по схеме «sim-to-real» представляет собой многообещающую альтернативу. Тем не менее, существующие подходы обычно требуют значительных инженерных усилий для моделирования объектов и настройки функций вознаграждения для каждой задачи. В данной работе мы предлагаем метод SimToolReal, делая шаг к обобщению политик RL «sim-to-real» для манипуляции инструментами. Вместо фокусировки на одном объекте и задаче мы процедурно генерируем в симуляции большое разнообразие примитивов, подобных инструментам, и обучаем единую политику RL с универсальной целью манипулирования каждым объектом для достижения случайных целевых поз. Такой подход позволяет SimToolReal выполнять общую ловкую манипуляцию инструментами во время тестирования без какого-либо обучения, специфичного для конкретного объекта или задачи. Мы демонстрируем, что SimToolReal превосходит предыдущие методы ретаргетинга и фиксированного захвата на 37%, соответствуя при этом производительности специализированных политик RL, обученных для конкретных целевых объектов и задач. Наконец, мы показываем, что SimToolReal обобщается для разнообразного набора повседневных инструментов, демонстрируя высокую zero-shot производительность в более чем 120 реальных испытаниях, охватывающих 24 задачи, 12 экземпляров объектов и 6 категорий инструментов.
Мы исследуем задачу установления визуального соответствия на уровне объектов между различными точками обзора в видео, уделяя особое внимание сложным сценариям перехода от эгоцентрического к экзоцентрическому виду и наоборот. Предлагается простая, но эффективная архитектура на основе условной бинарной сегментации, в которой маска запрашиваемого объекта кодируется в латентное представление для локализации соответствующего объекта в целевом видео. Для формирования устойчивых, инвариантных к точке обзора представлений вводится цель обучения циклической согласованности: предсказанная маска в целевом виде проецируется обратно в исходный вид для реконструкции исходной маски запроса. Это двунаправленное ограничение создает сильный сигнал самоконтроля без необходимости разметки и позволяет применять обучение на этапе тестирования (test-time training, TTT) во время вывода. Эксперименты на наборах данных Ego-Exo4D и HANDAL-X демонстрируют эффективность нашего подхода к оптимизации и стратегии TTT, достигая наилучших результатов на текущий момент. Код доступен по адресу https://github.com/shannany0606/CCMP.
Обучение с подкреплением с верификаторами (RLVR) является ключевой парадигмой для улучшения логических рассуждений больших языковых моделей (LLM), однако существующие методы часто страдают от ограниченного исследования пространства. Политики склонны коллапсировать к нескольким шаблонам рассуждений и преждевременно прекращать глубокое исследование, в то время как традиционная энтропийная регуляризация вносит лишь локальную стохастичность и не позволяет достичь значимого разнообразия на уровне путей рассуждений, что приводит к слабым и нестабильным сигналам обучения в групповой оптимизации политик. Мы предлагаем DSDR, фреймворк обучения с подкреплением с Dual-Scale Diversity Regularization (регуляризацией разнообразия на двух масштабах), который декомпозирует разнообразие в рассуждениях LLM на глобальную и связанную компоненты. Глобально DSDR способствует разнообразию среди корректных траекторий рассуждений для исследования различных режимов решения. Локально он применяет инвариантную к длине энтропийную регуляризацию на уровне токенов, ограниченную корректными траекториями, предотвращая коллапс энтропии внутри каждого режима при сохранении правильности. Два масштаба связаны через механизм распределения "глобальный-к-локальному", который усиливает локальную регуляризацию для более различимых корректных траекторий. Мы предоставляем теоретическое обоснование, показывающее, что DSFR сохраняет оптимальную правильность при ограниченной регуляризации, поддерживает информативные сигналы обучения в групповой оптимизации и дает принципиальное правило связи глобального и локального масштабов. Эксперименты на нескольких наборах данных для проверки рассуждений демонстрируют устойчивое улучшение точности и метрики pass@k, подчеркивая важность двумасштабного разнообразия для глубокого исследования в RLVR. Код доступен по адресу https://github.com/SUSTechBruce/DSDR.
Синтетические данные, генерируемые видео-генеративными моделями, демонстрируют потенциал для обучения роботов как масштабируемый конвейер, однако часто страдают от нестабильного качества действий из-за неидеально сгенерированных видео. В последнее время для проверки качества видео используются модели "визуальный язык" (VLMs), но они имеют ограничения в различении физически корректных видео и, даже в этом случае, не могут напрямую оценить сами сгенерированные действия. Для решения этой проблемы мы представляем RoboCurate — новую структуру для генерации синтетических роботизированных данных, которая оценивает и фильтрует качество аннотированных действий, сравнивая их с воспроизведением в симуляции. В частности, RoboCurate воспроизводит предсказанные действия в симуляторе и оценивает качество действий, измеряя согласованность движений между развёртыванием в симуляторе и сгенерированным видео. Кроме того, мы обеспечиваем разнообразие наблюдений, выходящее за пределы доступного набора данных, с помощью редактирования "изображение-в-изображение" и применяем перенос "видео-в-видео" с сохранением действий для дальнейшего расширения вариативности внешнего вида. Мы наблюдаем, что данные, сгенерированные RoboCurate, дают существенное относительное улучшение показателей успешности по сравнению с использованием только реальных данных: +70,1% на GR-1 Tabletop (300 демо), +16,1% на DexMimicGen в настройке предварительного обучения и +179,9% в сложных условиях реального мира ALLEX для манипуляций человекоподобного робота.
Мы представляем tttLRM — новую крупномасштабную модель для 3D-реконструкции, которая использует слой обучения во время тестирования (Test-Time Training, TTT) для обеспечения длинноконтекстной авторегрессионной реконструкции с линейной вычислительной сложностью, что дополнительно масштабирует возможности модели. Наша платформа эффективно сжимает множество изображений в быстрые веса TTT-слоя, формируя неявное 3D-представление в латентном пространстве, которое может быть декодировано в различные явные форматы, такие как гауссовы сплаты (Gaussian Splats, GS) для последующих приложений. Онлайн-версия нашей модели поддерживает прогрессивную 3D-реконструкцию и уточнение на основе потоковых наблюдений. Мы демонстрируем, что предварительное обучение на задачах синтеза новых видов успешно переносится на явное 3D-моделирование, приводя к улучшению качества реконструкции и ускоренной сходимости. Многочисленные эксперименты показывают, что наш метод превосходит современные подходы по эффективности прямого восстановления 3D-гауссов как для объектов, так и для сцен.
Оптическое распознавание символов (OCR) является фундаментальной задачей для оцифровки информации, выступая в качестве критически важного моста между визуальными данными и текстовым пониманием. Хотя современные модели «визуальный язык» (VLM) достигли высокой точности в этой области, они в основном полагаются на авторегрессионное декодирование, которое становится вычислительно затратным и медленным для длинных документов, поскольку требует последовательного прямого прохода для каждого генерируемого токена. Мы выявили ключевую возможность преодоления этого узкого места: в отличие от генерации с открытым концом, OCR — это высокодетерминированная задача, где визуальный вход строго определяет уникальную выходную последовательность, что теоретически позволяет осуществлять эффективное параллельное декодирование с помощью диффузионных моделей. Однако мы показываем, что существующие маскированные диффузионные модели не могут использовать этот потенциал; они вносят структурные нестабильности, которые допустимы для гибких задач, таких как создание подписей, но катастрофичны для жестких требований точного соответствия в OCR. Чтобы устранить этот разрыв, мы представляем DODO — первую VLM, использующую блочную дискретную диффузию и раскрывающую её потенциал для ускорения OCR. Разлагая генерацию на блоки, DODO смягчает ошибки синхронизации, присущие глобальной диффузии. Экспериментально наш метод демонстрирует точность, близкую к state-of-the-art, при этом обеспечивая до 3-кратного ускорения вывода по сравнению с авторегрессионными базовыми методами.
Системы агентной памяти позволяют агентам на основе больших языковых моделей (LLM) сохранять состояние в ходе длительных взаимодействий, обеспечивая долгосрочное рассуждение и персонализацию, выходящие за рамки фиксированных контекстных окон. Несмотря на быстрое развитие архитектур, эмпирические основы этих систем остаются хрупкими: существующие бенчмарки часто недостаточно масштабированы, метрики оценки не согласованы с семантической полезностью, производительность значительно варьируется в зависимости от базовой модели, а системные затраты часто упускаются из виду. В данном обзоре представлен структурированный анализ агентной памяти как с архитектурной, так и с системной точек зрения. Сначала мы вводим краткую таксономию систем MAG, основанную на четырех структурах памяти. Затем мы анализируем ключевые проблемные точки, ограничивающие современные системы, включая эффекты насыщения бенчмарков, валидность метрик и чувствительность оценщиков, зависимость точности от базовой модели, а также задержку и снижение пропускной способности, вносимые обслуживанием памяти. Связывая структуру памяти с эмпирическими ограничениями, этот обзор поясняет, почему современные системы агентной памяти часто не оправдывают теоретических ожиданий, и намечает направления для более надежной оценки и масштабируемого системного проектирования.
Современные крупномасштабные системы ранжирования функционируют в сложной среде конкурирующих целей, операционных ограничений и развивающихся продуктовых требований. Прогресс в этой области всё чаще упирается не в методы моделирования как таковые, а в ограничение инженерного контекста: трудоёмкий процесс преобразования нечёткого продуктового замысла в обоснованные, исполняемые и проверяемые гипотезы. Мы представляем GEARS (Generative Engine for Agentic Ranking Systems) — фреймворк, который переосмысливает оптимизацию ранжирования как автономный процесс открытия в рамках программируемой среды экспериментирования. Вместо подхода к оптимизации как к статическому выбору модели, GEARS использует Специализированные Агентские Навыки для инкапсуляции экспертных знаний по ранжированию в переиспользуемые способности к логическому выводу. Это позволяет операторам направлять системы через высокоуровневые интенции, такие как персонализация на основе "вибра" (vibe). Кроме того, для обеспечения надёжности в продакшене фреймворк включает механизмы валидации, которые обеспечивают статистическую устойчивость и отсеивают хрупкие политики, переобученные на краткосрочных сигналах. Экспериментальная проверка на различных продуктовых поверхностях демонстрирует, что GEARS стабильно выявляет превосходные, почти Парето-оптимальные политики, синергетически объединяя алгоритмические сигналы с глубоким контекстом ранжирования, при этом обеспечивая строгую стабильность развёртывания.
Оптимизация GPU-ядр критически важна для эффективности современных систем машинного обучения, но остается сложной задачей из-за комплексного взаимодействия факторов проектирования и быстрой эволюции аппаратного обеспечения. Существующие автоматизированные подходы обычно рассматривают большие языковые модели (LLM) лишь как стохастические генераторы кода в рамках эволюционных циклов, управляемых эвристиками. Эти методы часто испытывают трудности со сложными ядрами, требующими согласованных, многоэтапных структурных преобразований, поскольку им не хватает явных возможностей планирования и они часто отбрасывают перспективные стратегии из-за неэффективных или некорректных промежуточных реализаций. Для решения этой проблемы мы предлагаем метод поиска через коэволюцию моделей мира и на его основе создаем K-Search. Заменяя статические поисковые эвристики коэволюционирующей моделью мира, наша система использует априорные предметные знания LLM для направления поиска, активно исследуя пространство оптимизации. Этот подход явно разделяет высокоуровневое алгоритмическое планирование и низкоуровневую инстанциацию программ, позволяя системе исследовать немонотонные пути оптимизации, оставаясь устойчивой к временным дефектам реализации. Мы оцениваем K-Search на разнообразных сложных ядрах из FlashInfer, включая ядра GQA, MLA и MoE. Наши результаты показывают, что K-Search значительно превосходит современные методы эволюционного поиска, демонстрируя в среднем улучшение в 2.10 раза и до 14.3 раз на сложных ядрах MoE. В задаче GPUMode TriMul K-Search достигает наилучшей производительности на H100, показывая результат 1030 мкс и превосходя как предыдущие эволюционные методы, так и решения, созданные человеком.
Модели «Vision-Language-Action» (VLA) стали перспективной парадигмой для робототехнического манипулирования общего назначения, использующей масштабное предварительное обучение для достижения высокой производительности. Эта область быстро развивается благодаря внедрению пространственных априорных знаний и разнообразных архитектурных инноваций. Однако эти достижения часто сопровождаются различными методиками обучения и деталями реализации, что затрудняет точное определение источника эмпирических улучшений. В данной работе мы представляем SimVLA — упрощенный базовый вариант, предназначенный для создания прозрачного ориентира в исследованиях VLA. Строго разделяя восприятие и управление, используя стандартную Vision-Language архитектуру и облегченный модуль действий, а также стандартизируя ключевые аспекты обучения, мы демонстрируем, что минималистичный дизайн может достигать наилучших результатов. Несмотря на наличие всего 0,5 млрд параметров, SimVLA превосходит модели с миллиардами параметров в стандартных симуляционных тестах без предварительного обучения на роботах. Кроме того, SimVLA демонстрирует сопоставимую с pi0.5 производительность на реальном роботе. Наши результаты устанавливают SimVLA как надежный, воспроизводимый базовый уровень, который позволяет четко соотносить будущие архитектурные инновации с эмпирическими улучшениями. Веб-сайт: https://frontierrobo.github.io/SimVLA
Несмотря на выдающиеся практические успехи трансформерных языковых моделей, последние исследования выявили обеспокоенность относительно их способности отслеживать состояние. В частности, растущее число публикаций демонстрирует это ограничение в основном через неудачи в обобщении за пределами распределения данных, такие как экстраполяция по длине. В данной работе мы смещаем внимание на последствия этих ограничений внутри распределения. Мы проводим масштабное экспериментальное исследование эффективности использования данных трансформерами и рекуррентными нейронными сетями в различных режимах обучения с учителем. Мы обнаруживаем, что объем обучающих данных, требуемый трансформерам, растет гораздо быстрее с увеличением размера пространства состояний и длины последовательности, чем для RNN. Кроме того, мы анализируем степень, в которой изученные механизмы отслеживания состояния являются общими для последовательностей разной длины. Мы показываем, что трансформеры демонстрируют незначительный или даже вредный перенос весов между разными длинами, что указывает на то, что они изучают специфичные для каждой длины решения изолированно. В отличие от них, рекуррентные модели демонстрируют эффективное усредненное обучение за счет разделения весов между разными длинами, позволяя данным для одной длины последовательности улучшать производительность на других. В совокупности эти результаты демонстрируют, что отслеживание состояния остается фундаментальной проблемой для трансформеров, даже когда распределения обучающих и тестовых данных совпадают.
Мы представляем Nacrith — систему сжатия без потерь, которая объединяет трансформерную языковую модель на 135 млн параметров (SmolLM2-135M) с ансамблем легковесных онлайн-предикторов и 32-битным арифметическим кодером. Помимо базовой парадигмы LLM плюс арифметическое кодирование, Nacrith вносит несколько нововведений: (1) повышение точности CDF с 2^16 до 2^24, что устраняет ~75% потерь квантования, вызванных минимальными порогами вероятностей в больших словарях; (2) N-граммная модель на уровне токенов для быстрых локальных предсказаний; (3) адаптивная функция смещения в логарифмическом пространстве, корректирующая ошибки LLM для каждого документа с помощью онлайн-градиентного спуска; (4) пропуск LLM по уверенности для ускорения обработки высокопредсказуемых токенов; (5) гибридный бинарный формат (NC06), расширяющий нейросжатие на произвольные бинарные файлы — насколько нам известно, впервые среди компрессоров на основе LLM; (6) бэкенд вывода llama.cpp, обеспечивающий ~7-кратное ускорение декодирования одного токена по сравнению с PyTorch; (7) параллельное сжатие на нескольких GPU с использованием до 8 воркеров; и (8) встроенное скользящее окно кэша KV, снижающее стоимость на кадр в ~37 раз. Система требует всего ~500 МБ весов GGUF и ~1,2 ГБ видеопамяти на воркер, работая на потребительских GPU. На файле alice29.txt (Кентерберийский корпус, 152 КБ) Nacrith достигает 0,918 бит на байт (bpb) — превосходя gzip в 3,1 раза, bzip2 в 2,5 раза, CMIX v21 на 44% и ts_zip на 20%, при этом сжимая данные ниже границ энтропии Шеннона нулевого, первого и второго порядков на уровне байтов. На enwik8 (100 МБ) Nacrith достигает 0,9389 bpb (11,74%), превосходя ts_zip (~1,11 bpb) на 15% и FineZip (1,024 bpb) на 8%, несмотря на использование модели в 60 раз меньше и без тонкой настройки. Оценка на данных вне распределения (документ, опубликованный после даты обучения модели) подтверждает, что достижения не являются артефактами запоминания: на неизвестном тексте достигнуто 0,723 bpb.
Цифровая индустрия предъявляет высокий спрос на качественные и разнообразные модульные 3D-ассеты, особенно для контента, создаваемого пользователями (UGC). В данной работе мы представляем AssetFormer — авторегрессионную модель на основе трансформера, предназначенную для генерации модульных 3D-ассетов по текстовым описаниям. Наше пилотное исследование использует реальные модульные ассеты, собранные с онлайн-платформ. AssetFormer решает задачу создания ассетов, состоящих из примитивов, которые соответствуют ограниченным параметрам проектирования для различных приложений. Благодаря инновационной адаптации методов последовательности модулей и декодирования, вдохновленных языковыми моделями, наш подход повышает качество генерации ассетов за счет авторегрессионного моделирования. Первоначальные результаты демонстрируют эффективность AssetFormer в упрощении создания ассетов для профессиональной разработки и сценариев UGC. Данная работа представляет гибкую структуру, расширяемую для различных типов модульных 3D-ассетов, внося вклад в развитие области генерации 3D-контента. Код доступен по адресу https://github.com/Advocate99/AssetFormer.
Современные методы 3D-анимации человека сталкиваются с трудностями в достижении фотореалистичности: кинематические подходы лишены нежесткой динамики (например, динамики одежды), в то время как методы, использующие априорные распределения видео-диффузии, способны синтезировать нежесткое движение, но страдают от артефактов качества и потери идентичности. Для преодоления этих ограничений мы представляем Ani3DHuman — фреймворк, объединяющий кинематическую анимацию с априорными данными видео-диффузии. Сначала мы вводим слоистое представление движения, разделяющее жесткое движение на остаточное нежесткое. Жесткое движение генерируется кинематическим методом, который затем создает грубый рендеринг для управления моделью видео-диффузии при генерации видеопоследовательностей, восстанавливающих остаточное нежесткое движение. Однако эта задача восстановления, основанная на диффузионной выборке, является крайне сложной, поскольку исходные рендеры находятся вне распределения, что приводит к сбою стандартных детерминированных ODE-сэмплеров. Поэтому мы предлагаем новый метод стохастической выборки с самоконтролем, который эффективно решает проблему выхода за пределы распределения за счет комбинации стохастической выборки (для фотореалистичного качества) и самоконтроля (для сохранения идентичности). Эти восстановленные видео обеспечивают высококачественный контроль, позволяя оптимизировать поле остаточного нежесткого движения. Многочисленные эксперименты демонстрируют, что Ani3DHuman способен генерировать фотореалистичную 3D-анимацию человека, превосходя существующие методы. Код доступен по адресу https://github.com/qiisun/ani3dhuman.
Аденозависимые вирусы (AAV) являются перспективными векторами для генной терапии, однако их нативные серотипы сталкиваются с ограничениями в тканевом тропизме, уклонении от иммунного ответа и эффективности производства. Инженерия капсидов для преодоления этих барьеров является сложной задачей из-за огромного пространства последовательностей и трудности одновременной оптимизации нескольких функциональных свойств. Сложность дополнительно возрастает в случае почки, которая представляет уникальные анатомические барьеры и клеточные мишени, требующие точной и эффективной инженерии векторов. Здесь мы представляем AAVGen, генеративную систему искусственного интеллекта для de novo дизайна капсидов AAV с улучшенными мультипризнаковыми профилями. AAVGen интегрирует языковую модель для белков (Protein Language Model, PLM) с контролируемым дообучением (Supervised Fine-Tuning, SFT) и методом обучения с подкреплением, названным Group Sequence Policy Optimization (GSPO). Модель направляется композитным сигналом вознаграждения, получаемым от трех предикторов на основе регрессии ESM-2, каждый из которых обучен предсказывать ключевое свойство: пригодность для производства, тропизм к почке и термостабильность. Наши результаты демонстрируют, что AAVGen генерирует разнообразную библиотеку новых аминокислотных последовательностей белка VP1. In silico валидация показала, что большинство сгенерированных вариантов демонстрируют превосходные показатели по всем трем использованным индексам, что указывает на успешную многоцелевую оптимизацию. Более того, структурный анализ с помощью AlphaFold3 подтверждает, что сгенерированные последовательности сохраняют каноническую укладку капсида, несмотря на диверсификацию последовательностей. AAVGen закладывает основу для data-driven инженерии вирусных векторов, ускоряя разработку векторов AAV следующего поколения с заданными функциональными характеристиками.
Надежная одометрия для шагающих роботов без использования камер или лидаров остается сложной задачей из-за дрейфа ИМУ и зашумленного измерения скоростей в сочленениях. В данной статье представлен чисто проприоцептивный оценщик состояния, использующий только данные ИМУ и двигателей для совместной оценки позы и скорости корпуса, с единой формулировкой, применимой к двуногим, четвероногим и шагающе-колесным роботам. Ключевая идея заключается в рассмотрении каждой контактирующей ноги как кинематического якоря: оценка усилий на стопе на основе моментов в сочленениях выбирает надежные контакты, а соответствующие позиции постановки стоп обеспечивают периодические ограничения в мировой системе координат, которые подавляют долгосрочный дрейф. Для предотвращения дрейфа по высоте при длительном перемещении мы вводим легковесную кластеризацию высот и поправку с временным затуханием, которая "привязывает" вновь регистрируемые высоты постановки стоп к ранее наблюдаемым опорным плоскостям. Для улучшения наблюдений скорости стопы при квантовании энкодеров мы применяем кубатурный фильтр Калмана с обратной кинематикой, который непосредственно фильтрует скорости концевых точек стоп из углов и скоростей сочленений. Реализация дополнительно снижает дрейф курса за счет геометрической согласованности при множественных контактах и плавно переходит к кинематической опорной курсовой информации, когда ограничения по курсу от ИМУ недоступны или ненадежны. Мы оцениваем метод на четырех четвероногих платформах (три робота Astrall и Unitree Go2 EDU) с использованием замкнутых траекторий. На роботе Astrall с точечными стопами (робот A) горизонтальная петля длиной ~200 м и вертикальная петля длиной ~15 м завершаются с ошибкой 0,1638 м и 0,219 м соответственно; на шагающе-колесном роботе B соответствующие ошибки составляют 0,2264 м и 0,199 м. На шагающе-колесном роботе C горизонтальная петля длиной ~700 м дает ошибку 7,68 м, а вертикальная петля длиной ~20 м дает ошибку 0,540 м. Unitree Go2 EDU завершает горизонтальную петлю длиной ~120 м с ошибкой 2,2138 м и вертикальную петлю длиной ~8 м с вертикальной ошибкой менее 0,1 м. github.com/ShineMinxing/Ros2Go2Estimator.git
Традиционно причинный вывод как для перекрестных, так и для временных данных следовал парадигме, специфичной для набора данных, когда новая модель обучается для каждого отдельного набора. Такой подход ограничивает потенциал предварительного обучения на множественных наборах данных. Концепция больших причинных моделей (LCM) предлагает класс предварительно обученных нейросетевых архитектур, специально разработанных для причинного выявления во временных данных. Предыдущие подходы ограничены малым количеством переменных, деградируют с увеличением размера входных данных и сильно зависят от синтетических данных, что ограничивает их обобщающую способность. Мы предлагаем принципиальную основу для LCM, объединяющую разнообразные синтетические генераторы с реалистичными наборами временных рядов, что позволяет осуществлять масштабируемое обучение. Обширные эксперименты на синтетических, полусинтетических и реалистичных бенчмарках показывают, что LCM эффективно масштабируются на большее количество переменных и более глубокие архитектуры, сохраняя при этом высокую производительность. Обученные модели демонстрируют конкурентоспособную или превосходящую точность по сравнению с классическими и нейросетевыми базовыми методами, особенно в условиях распределения, отличного от обучающего, при этом обеспечивая быстрый однопроходный вывод. Результаты демонстрируют, что LCM являются многообещающей парадигмой моделей-оснований для причинного выявления во временных данных. Эксперименты и веса моделей доступны по адресу https://github.com/kougioulis/LCM-paper/.
Диагностическое рассуждение на основе временных рядов играет ключевую роль во многих приложениях, однако существующие решения сталкиваются с устойчивым разрывом: универсальные большие языковые модели (UBLM) обладают развитыми навыками логического вывода, но им не хватает предметных знаний для понимания сложных паттернов временных рядов. В свою очередь, специализированные языковые модели для временных рядов (СЯМВР) понимают эти паттерны, но не способны обобщать рассуждения для решения более сложных задач. Для преодоления этого разрыва мы предлагаем гибридную фреймворк инжекции знаний, который напрямую внедряет инсайты, сгенерированные СЯМВР, в цепочку рассуждений UBLM, достигая тем самым высококачественного анализа временных рядов с использованием предметных знаний. Поскольку сбор данных для тонкой настройки с инжекцией знаний является дорогостоящим, мы дополнительно используем подход на основе обучения с подкреплением с верифицируемыми вознаграждениями (OPV) для генерации информативных трасс рассуждений без участия человека с последующей передачей такой предметной трассы мышления в UBLM для эффективной инжекции знаний. Мы также представляем SenTSR-Bench — эталонный набор задач для диагностического анализа на основе многомерных временных рядов, собранный из реальных промышленных процессов. На SenTSR-Bench и других публичных наборах данных наш метод стабильно превосходит СЯМВР на 9.1%–26.1% и UBLM на 7.9%–22.4%, обеспечивая надежные и контекстно-зависимые диагностические инсайты для временных рядов.