Ежедневно отобранные исследовательские статьи по ИИ с переводами
Разнообразие данных пост-обучения критически важно для эффективной работы больших языковых моделей (LLM) на последующих задачах. Многие существующие подходы к формированию таких данных оценивают разнообразие с помощью текстовых метрик, фиксирующих лингвистические вариации, однако эти метрики дают лишь слабые сигналы о признаках, релевантных для конкретных задач, которые и определяют итоговую производительность. В данной работе мы представляем метрику покрытия активации признаков (Feature Activation Coverage, FAC), которая измеряет разнообразие данных в интерпретируемом пространстве признаков. На основе этой метрики мы далее предлагаем фреймворк синтеза данных, управляемый разнообразием, под названием FAC Synthesis, который сначала использует разреженный автоэнкодер для выявления недостающих признаков в исходном наборе данных, а затем генерирует синтетические примеры, явно отражающие эти признаки. Эксперименты показывают, что наш подход последовательно улучшает как разнообразие данных, так и результаты решения различных задач, включая следование инструкциям, детекцию токсичности, моделирование вознаграждения и управление поведением. Примечательно, что мы выявили общее интерпретируемое пространство признаков для разных семейств моделей (таких как LLaMA, Mistral и Qwen), что позволяет осуществлять межмодельный перенос знаний. Наша работа предлагает надежную и практичную методологию для исследования центрированной на данных оптимизации больших языковых моделей.
Поиск по голосовым запросам является важным режимом взаимодействия в современных информационно-поисковых системах. Однако существующие оценочные наборы данных часто ограничиваются простыми запросами в контролируемых шумовых условиях, что делает их непригодными для оценки устойчивости систем поиска по устным запросам к сложным акустическим возмущениям. Для решения этой проблемы мы представляем SQuTR — эталонный тест устойчивости для поиска по голосовым запросам, включающий масштабный набор данных и унифицированный протокол оценки. SQuTR объединяет 37 317 уникальных запросов из шести широко используемых англо- и китайскоязычных наборов данных текстового поиска, охватывающих множество доменов и разнообразные типы запросов. Мы синтезируем речь с использованием голосовых профилей 200 реальных дикторов и добавляем 17 категорий реальных фоновых шумов при контролируемых уровнях SNR, что позволяет проводить воспроизводимую оценку устойчивости от тихих до крайне шумных условий. В рамках единого протокола мы проводим масштабную оценку репрезентативных каскадных и end-to-end поисковых систем. Результаты экспериментов показывают, что производительность поиска снижается с ростом уровня шума, причем степень деградации существенно различается across системам. Даже крупномасштабные поисковые модели испытывают трудности в условиях экстремального шума, что указывает на сохраняющуюся критическую проблему устойчивости. В целом, SQuTR предоставляет воспроизводимую среду для сравнительного анализа и диагностики, а также способствует будущим исследованиям устойчивости систем преобразования устных запросов в текстовый поиск.
Мы представляем MedXIAOHE — базовую модель медицинского зрения и языка, созданную для развития универсального медицинского понимания и логических рассуждений в реальных клинических применениях. MedXIAOHE демонстрирует наилучшие результаты в разнообразных медицинских тестах и превосходит ведущие закрытые мультимодальные системы по ряду ключевых возможностей. Для этого мы предлагаем систему непрерывного дообучения с учетом сущностей, которая организует гетерогенные медицинские корпуса для расширения охвата знаний и сокращения разрывов в редких случаях (например, орфанные заболевания). Для обеспечения экспертного уровня медицинских рассуждений и взаимодействия MedXIAOHE интегрирует разнообразные паттерны медицинского мышления через обучение с подкреплением и инструментально-агентное обучение, обеспечивая многошаговую диагностическую логику с проверяемой цепочкой решений. Для повышения надежности в реальных условиях MedXIAOHE включает рубрики пользовательских предпочтений, обоснованное доказательствами рассуждение и генерацию развернутых отчетов с низким уровнем галлюцинаций, обеспечивая лучшее соответствие медицинским инструкциям. Мы публикуем данный отчет для документирования наших практических проектных решений, инсайтов масштабирования и оценочной системы, надеясь вдохновить дальнейшие исследования.
Мультимодальные большие языковые модели (МБЯМ) демонстрируют превосходство в задачах общего визуального понимания, но по-прежнему испытывают трудности с детальным восприятием, когда решающие признаки малы и легко подавляются глобальным контекстом. Недавние методы «мышления с изображениями» смягчают эту проблему за счет итеративного увеличения и уменьшения областей интереса на этапе вывода, однако это приводит к высокой задержке из-за повторяющихся вызовов инструментов и перекодирования изображения. Для решения этой проблемы мы предлагаем дистилляцию «регион-в-изображение», которая превращает масштабирование из инструмента времени вывода в примитив времени обучения, тем самым интериоризируя преимущества активного увеличения в одно прямое прохождение МБЯМ. В частности, мы сначала увеличиваем микро-обрезанные области, чтобы позволить мощным моделям-учителям генерировать данные для визуального вопроса-ответа высокого качества, а затем дистиллируем это основанное на регионах руководство обратно на полное изображение. После обучения на таких данных меньшая модель-ученик улучшает детальное восприятие «одним взглядом» без использования инструментов. Для строгой оценки этой способности мы дополнительно представляем ZoomBench — гибридно аннотированный бенчмарк из 845 данных ВОП, охватывающих шесть аспектов детального восприятия, вместе с двухракурсным протоколом, который количественно оценивает «разрыв масштабирования» между глобальным и региональным уровнями. Эксперименты показывают, что наши модели достигают лидирующей производительности на множестве бенчмарков детального восприятия, а также улучшают общие мультимодальные способности на таких тестах, как визуальное рассуждение и GUI-агенты. Мы дополнительно обсуждаем, когда «мышление с изображениями» необходимо, а когда его преимущества могут быть дистиллированы в одно прямое прохождение. Наш код доступен по адресу https://github.com/inclusionAI/Zooming-without-Zooming.
**Гипотеза.** Создание искусственного общего интеллекта, по своей сути, является проблемой сжатия. Эффективное сжатие требует резонанса: глубокое обучение лучше всего масштабируется, когда его архитектура соответствует фундаментальной структуре данных. Таковы основные принципы. Однако современные архитектуры для компьютерного зрения отошли от этих истин: визуальные сигналы обладают высокой избыточностью, в то время как дискриминативная информация, «сюрприз», разрежена. Современные модели равномерно обрабатывают плотные пиксельные сетки, тратя огромные вычислительные ресурсы на статичный фон вместо фокусировки на предсказательных остатках, которые определяют движение и смысл. Мы утверждаем, что для решения задачи визуального понимания необходимо согласовать наши архитектуры с информационно-теоретическими принципами видео, то есть с принципами кодеков. **Метод.** OneVision-Encoder кодирует видео, сжимая предсказуемую визуальную структуру в семантическое значение. Благодаря использованию «Патчификации по образцу Кодеков» (Codec Patchification), OV-Encoder отказывается от равномерных вычислений, чтобы фокусироваться исключительно на 3.1%-25% регионов, богатых энтропией сигнала. Для объединения пространственного и временного анализа в условиях нерегулярного расположения токенов, OneVision-Encoder использует общую 3D RoPE и обучается с задачей крупномасштабной кластерной дискриминации более чем по миллиону семантических концептов, совместно захватывая перманентность объектов и динамику движения. **Доказательства.** Результаты подтверждают нашу ключевую гипотезу: эффективность и точность — не компромисс; они положительно коррелируют. При интеграции в LLM, наша модель стабильно превосходит сильные базовые модели зрения, такие как Qwen3-ViT и SigLIP2, на 16 тестах для оценки понимания изображений, видео и документов, несмотря на использование существенно меньшего количества визуальных токенов и данных для предварительного обучения. Примечательно, что в задачах понимания видео OV-Encoder демонстрирует среднее улучшение на 4.1% по сравнению с Qwen3-ViT. Согласованное с кодеком, разреженное на уровне патчей представление является фундаментальным принципом, позволяющим OV-Encoder выступать в качестве масштабируемого движка для визуальных моделей-универсалов следующего поколения.
Видеоязыковые модели (VideoLMs) позволяют системам ИИ анализировать временную динамику в видео. Чтобы соответствовать ограничению на максимальный размер контекстного окна, современные методы используют выборку ключевых кадров, что может приводить к потере как макроуровневых событий, так и микроуровневых деталей из-за разреженного временного охвата. Кроме того, обработка полных изображений и их токенов для каждого кадра связана со значительными вычислительными затратами. Для преодоления этих ограничений мы предлагаем использовать примитивы видеокодека (а именно векторы движения и остатки), которые изначально кодируют избыточность и разреженность видео без необходимости дорогостоящего кодирования полных изображений для большинства кадров. С этой целью мы представляем легковесные трансформерные энкодеры, которые агрегируют примитивы кодека и выравнивают их представления с эмбеддингами энкодера изображений с помощью стратегии предварительного обучения, ускоряющей сходимость при сквозной тонкой настройке. Наш подход сокращает время до первого токена до 86% и использование токенов до 93% по сравнению со стандартными VideoLMs. Более того, варьируя плотность ключевых кадров и примитивов кодека, мы смогли сохранить или превзойти производительность на 14 разнообразных бенчмарках для понимания видео, охватывающих общие вопросы-ответы, временные рассуждения, анализ длинных последовательностей и пространственное понимание сцен.
В данной статье представлена модель GeoAgent, способная рассуждать в тесном соответствии с человеческим мышлением и делать детализированные выводы об адресах. Предыдущие методы, основанные на обучении с подкреплением (RL), достигли прорывов в производительности и интерпретируемости, однако сохраняются опасения из-за их зависимости на сгенерированных ИИ данных "цепочки рассуждений" (CoT) и стратегиях обучения, которые противоречат географическим особенностям. Для решения этих проблем мы сначала представляем GeoSeek — новый геолокационный набор данных, содержащий CoT-данные, аннотированные экспертами-географами и профессиональными игроками. Далее мы тщательно исследуем inherent characteristics географических задач и предлагаем geo-similarity reward (вознаграждение за географическое сходство) и consistency reward (вознаграждение за согласованность), оцениваемое агентом согласованности, для помощи в обучении. Это побуждает модель сходиться к правильным ответам с географической точки зрения, обеспечивая при этом целостность и последовательность её процесса рассуждений. Результаты экспериментов показывают, что GeoAgent превосходит существующие методы и ряд общих VLLM на различных уровнях детализации, генерируя при этом рассуждения, тесно согласованные с человеческими.
Извлечение видео на основе семантического движения является фундаментальной, но до сих пор не решенной проблемой. Существующие подходы к представлению видео чрезмерно полагаются на статическую внешность и контекст сцены, а не на динамику движения — это смещение унаследовано от их обучающих данных и целей. В свою очередь, традиционные ориентированные на движение входные данные, такие как оптический поток, лишены семантической обоснованности, необходимой для понимания движения на высоком уровне. Чтобы продемонстрировать это внутреннее смещение, мы представляем бенчмарки SimMotion, сочетающие контролируемые синтетические данные с новым размеченным человеком набором данных из реального мира. Мы показываем, что существующие модели показывают низкую производительность на этих бенчмарках, часто не способные отделить движение от внешности. Для устранения этого пробела мы предлагаем SemanticMoments — простой, не требующий обучения метод, который вычисляет временные статистики (в частности, моменты высших порядков) для признаков из предварительно обученных семантических моделей. На наших бенчмарках SemanticMoments стабильно превосходит существующие методы, основанные на RGB, оптическом потоке и текстовом контроле. Это демонстрирует, что временные статистики в семантическом пространстве признаков обеспечивают масштабируемую и перцептивно обоснованную основу для ориентированного на движение понимания видео.
Подкрепляемое обучение (ПО) с верифицируемыми вознаграждениями стало стандартным этапом пост-обучения для улучшения зрительного мышления в визуально-языковых моделях, однако остаётся неясным, какие именно способности улучшает ПО по сравнению с контролируемой тонкой настройкой в качестве холодной инициализации. Улучшения в сквозных бенчмарках объединяют множество факторов, что затрудняет attribution улучшений конкретным навыкам. Чтобы устранить этот разрыв, мы предлагаем Франкенштейн-подход к анализу, включающий: (i) функциональную локализацию через каузальный probing; (ii) характеристику обновлений через сравнение параметров; и (iii) тест на переносимость через слияние моделей. Вместо этого ПО индуцирует последовательное смещение на этапе вывода преимущественно в средних и поздних слоях, и эти доработки средних и поздних слоев являются как переносимыми (через слияние), так и необходимыми (через заморозку) для достижений ПО. В целом, наши результаты позволяют предположить, что надёжный вклад ПО в зрительное мышление заключается не в равномерном улучшении визуального восприятия, а в систематической доработке вычислений в средних и поздних слоях трансформера, что улучшает согласованность между зрением и логическим выводом и результативность мышления, подчеркивая ограничения оценок, основанных исключительно на бенчмарках, для понимания улучшений в мультимодальном мышлении.
Искусственные интеллектуальные агенты способны решать всё более сложные задачи. Для достижения более амбициозных целей им необходимо уметь осмысленно декомпозировать проблемы на управляемые подзадачи и безопасно делегировать их выполнение другим ИИ-агентам и людям. Однако существующие методы декомпозиции и делегирования задач основаны на простых эвристиках и не способны динамически адаптироваться к изменениям среды и надёжно обрабатывать непредвиденные сбои. В данной работе мы предлагаем адаптивную структуру для интеллектуального делегирования в ИИ — последовательность решений, включающих распределение задач, которая также предусматривает передачу полномочий, ответственности, подотчётности, чёткие спецификации ролей и границ, ясность намерений и механизмы установления доверия между двумя (или более) сторонами. Предлагаемая структура применима как к людям, так и к ИИ в роли делегирующих и делегируемых сторон в сложных сетях делегирования и направлена на формирование основ для разработки протоколов в зарождающейся агентной веб-среде.
Создание универсальных воплощенных агентов для разнородного аппаратного обеспечения остается ключевой проблемой в робототехнике, часто формулируемой как парадигма «один интеллект — множество форм». Прогрессу препятствуют фрагментированные данные, несогласованные представления и невыровненные цели обучения. Мы представляем ABot-M0 — фреймворк, который создает системный конвейер курирования данных, одновременно совместно оптимизируя архитектуру модели и стратегии обучения, что позволяет осуществлять сквозное преобразование гетерогенных сырых данных в унифицированные, эффективные представления. Из шести публичных наборов данных мы очищаем, стандартизируем и балансируем выборки для построения UniACT-dataset, крупномасштабного набора данных, содержащего более 6 миллионов траекторий и 9500 часов данных, охватывающих разнообразные морфологии роботов и сценарии задач. Унифицированное предварительное обучение улучшает передачу знаний и обобщение между платформами и задачами, поддерживая развитие универсального воплощенного интеллекта. Для повышения эффективности и стабильности прогнозирования действий мы предлагаем Гипотезу Многообразия Действий: эффективные действия робота лежат не в полном высокоразмерном пространстве, а на низкоразмерном, гладком многообразии, управляемом законами физики и ограничениями задач. На основе этого мы вводим Обучение на Многообразии Действий (Action Manifold Learning, AML), которое использует базовую архитектуру DiT для прямого прогнозирования чистых, непрерывных последовательностей действий. Это смещает обучение с удаления шума на проекцию на допустимые многообразия, улучшая скорость декодирования и стабильность политики. ABot-M0 поддерживает модульное восприятие через двухпотоковый механизм, интегрирующий семантику VLM с геометрическими априорными знаниями и многовидовыми входами от plug-and-play 3D модулей, таких как VGGT и Qwen-Image-Edit, усиливая пространственное понимание без модификации базовой архитектуры и смягчая характерные для стандартных VLM ограничения в 3D-рассуждениях. Эксперименты показывают, что компоненты работают независимо с аддитивным эффектом. Мы опубликуем весь код и конвейеры для обеспечения воспроизводимости и будущих исследований.
Моделирование предлагает масштабируемый и экономичный способ обогащения обучения моделей «зрение-язык-действие» (VLA), снижая зависимость от дорогостоящих демонстраций на реальных роботах. Однако большинство методов совместного обучения в симуляции и реальности опираются на контролируемую тонкую настройку (SFT), которая рассматривает симуляцию как статичный источник демонстраций и не использует масштабное замкнутое взаимодействие. Как следствие, достижения в реальном мире и обобщающая способность часто оказываются ограниченными. В данной статье мы предлагаем основанную на обучении с подкреплением (RL) структуру совместного обучения в симуляции и реальности (RL-Co), которая использует интерактивную симуляцию, сохраняя при этом возможности работы в реальном мире. Наш метод следует общей двухэтапной схеме: сначала мы производим начальную инициализацию политики с помощью SFT на смеси реальных и смоделированных демонстраций, а затем выполняем её тонкую настройку с помощью обучения с подкреплением в симуляции, одновременно добавляя вспомогательную функцию контролируемых потерь на реальных данных, чтобы закрепить политику и смягчить катастрофическое забывание. Мы оцениваем нашу структуру на четырёх задачах манипулирования объектами на столе в реальном мире, используя две репрезентативные архитектуры VLA — OpenVLA и π_{0.5}, — и наблюдаем устойчивое улучшение по сравнению с тонкой настройкой только на реальных данных и совместным обучением на основе SFT, включая увеличение успешности в реальном мире на +24% для OpenVLA и на +20% для π_{0.5}. Помимо более высоких показателей успеха, совместное обучение с подкреплением обеспечивает лучшую обобщающую способность к незнакомым вариациям задач и существенно повышает эффективность использования реальных данных, предлагая практичный и масштабируемый путь для использования симуляции с целью улучшения развёртывания реальных роботов.
Универсальное понимание видео требует моделирования детализированной визуальной и аудиоинформации во времени в разнообразных реальных сценариях. Однако производительность существующих моделей в основном ограничена данными в формате видео-инструкций, которые представляют сложное аудиовизуальное содержание в виде единых, неполных описаний, лишённых детализированной организации и достоверной разметки. Для решения этой проблемы мы представляем: (i) ASID-1M — открытую коллекцию из миллиона структурированных, детализированных аннотаций-инструкций для аудиовизуального контента с одно- и многокомпонентным контролем атрибутов; (ii) ASID-Verify — масштабируемый конвейер курации данных для аннотирования с автоматической верификацией и уточнением, обеспечивающий семантическую и временную согласованность между описаниями и соответствующим аудиовизуальным контентом; и (iii) ASID-Captioner — модель понимания видео, обученную методом контролируемого тонкого обучения (SFT) на ASID-1M. Эксперименты на семи тестовых наборах, охватывающих аудиовизуальное описательное аннотирование, аннотирование по атрибутам, вопросно-ответные задачи на основе описаний и временную привязку на основе описаний, показывают, что ASID-Captioner улучшает качество детализированных описаний, одновременно снижая количество галлюцинаций и улучшая следование инструкциям. Модель демонстрирует наилучшую производительность среди открытых моделей и конкурирует с Gemini-3-Pro.
Вывод больших языковых моделей (LLM) часто ограничен объемом памяти и пропускной способностью памяти в развертываниях с ограниченными ресурсами, что делает квантизацию фундаментальной техникой для эффективного обслуживания. Хотя послетренировочная квантизация (PTQ) сохраняет высокую точность при 4 битах, ее качество ухудшается при 2-3 битах. В основе проблемы лежит то, что существующие методы применяют формульно-инвариантную сетку квантизации (например, фиксированные равномерные интервалы UINT2) для каждой группы, что строго ограничивает допустимое множество для минимизации ошибки. Для решения этой проблемы мы предлагаем Bit-Plane Decomposition Quantization (BPDQ), которая строит переменную сетку квантизации с помощью битовых плоскостей и скалярных коэффициентов, итеративно уточняя их с использованием приближенной информации второго порядка, одновременно постепенно компенсируя ошибки квантизации для минимизации расхождения на выходе. В режиме 2 бит BPDQ позволяет обслуживать модель Qwen2.5-72B на одной видеокарте RTX 3090 с точностью 83.85% на GSM8K (против 90.83% при 16 битах). Кроме того, мы предоставляем теоретический анализ, показывающий, что переменная сетка расширяет допустимое множество, и что процесс квантизации последовательно согласуется с целью оптимизации в геометрии, индуцированной гессианом. Код: github.com/KingdalfGoodman/BPDQ.
Диффузионные большие языковые модели (dLLM) стали перспективной альтернативой авторегрессионным (AR) LLM благодаря своей способности к параллельной генерации токенов. Данная парадигма особенно хорошо подходит для генерации кода, где критически важны целостное структурное планирование и несеквенциальное уточнение. Несмотря на этот потенциал, адаптация dLLM для генерации CUDA-ядр остается сложной задачей, что обусловлено не только высокой специализацией, но и острой нехваткой высококачественных данных для обучения. Для решения этих проблем мы создали CuKe — расширенный набор данных для контролируемой тонкой настройки, оптимизированный для высокопроизводительных CUDA-ядр. На его основе мы предлагаем двухфазную систему тщательно отобранного обучения с подкреплением (BiC-RL), состоящую из этапа дополнения CUDA-ядр и этапа сквозной генерации CUDA-ядр. Используя эту обучающую архитектуру, мы представляем DICE — серию диффузионных больших языковых моделей, предназначенных для генерации CUDA-ядр, с тремя масштабами параметров: 1.7B, 4B и 8B. Масштабные эксперименты на KernelBench демонстрируют, что DICE существенно превосходит как авторегрессионные, так и диффузионные LLM сопоставимого масштаба, устанавливая новый state-of-the-art в области генерации CUDA-ядр.
Научное мышление по своей сути требует интеграции сложных инструментариев для навигации в предметно-ориентированных знаниях. Однако современные бенчмарки в значительной степени игнорируют способность агентов координировать инструменты для таких строгих рабочих процессов. Чтобы заполнить этот пробел, мы представляем SciAgentGym — масштабируемую интерактивную среду, включающую 1780 предметно-ориентированных инструментов в четырех дисциплинах естественных наук, поддерживаемую надежной инфраструктурой исполнения. В дополнение к этому мы представляем SciAgentBench, многоуровневый набор для оценки, предназначенный для стресс-тестирования агентских возможностей — от элементарных действий до долгосрочных рабочих процессов. Наша оценка выявляет ключевое узкое место: современные модели испытывают трудности со сложным научным использованием инструментов. Даже для передовой модели, такой как GPT-5, процент успешных выполнений резко падает с 60,6% до 30,9% по мере увеличения горизонта взаимодействия, в основном из-за сбоев в выполнении многошаговых рабочих процессов. Для решения этой проблемы мы предлагаем SciForge — метод синтеза данных, который моделирует пространство действий с инструментами в виде графа зависимостей для генерации логически осознанных траекторий обучения. После дообучения на этих траекториях наша модель SciAgent-8B превосходит значительно более крупную Qwen3-VL-235B-Instruct, демонстрируя позитивный кросс-доменный перенос способностей к научному использованию инструментов. Эти результаты подчеркивают многообещающий потенциал агентов следующего поколения для автономной научной деятельности.
Тонкая настройка с подкреплением (RL) стала ключевой методикой для улучшения больших языковых моделей (LLM) при решении задач, требующих интенсивных рассуждений, что мотивирует её распространение на визуально-языковые модели (VLM). Хотя VLM, донастроенные с помощью RL, показывают улучшения на бенчмарках визуального мышления, они остаются уязвимыми к слабому визуальному обоснованию, галлюцинациям и избыточной зависимости от текстовых подсказок. Мы демонстрируем, что простые контролируемые текстовые возмущения — вводящие в заблуждение подписи или некорректные цепочки рассуждений (CoT) — приводят к значительному снижению робастности и уверенности модели, причём эти эффекты более выражены, когда учитывается согласованность CoT в открытых мультимодальных моделях рассуждений. Энтропийные метрики дополнительно показывают, что эти возмущения перераспределяют неопределённость модели и вероятностную массу на правильный вариант, выявляя модельно-специфичные тенденции в ошибках калибровки. Для лучшего понимания этих уязвимостей мы анализируем динамику RL-настройки и обнаруживаем компромисс между точностью и достоверностью: донастройка повышает точность на бенчмарках, но одновременно может подрывать надёжность сопровождающей цепочки рассуждений и её устойчивость к контекстным изменениям. Хотя состязательная аугментация улучшает робастность, сама по себе она не предотвращает дрейф достоверности. Включение вознаграждения, учитывающего достоверность, может восстановить соответствие между ответами и рассуждениями, но в сочетании с аугментацией обучение рискует сколлапсировать на стратегии коротких путей, а робастность остаётся недостижимой. В совокупности эти результаты подчёркивают ограничения оценок, ориентированных только на точность, и обосновывают необходимость протоколов обучения и тестирования, которые совместно учитывают корректность, устойчивость и достоверность визуально обоснованных рассуждений.
Итеративные генеративные политики, такие как диффузионные модели и согласование потоков, обеспечивают превосходную выразительность для непрерывного управления, но усложняют обучение с подкреплением с максимальной энтропией, поскольку логарифмические плотности действий для них недоступны напрямую. Чтобы решить эту проблему, мы предлагаем метод Field Least-Energy Actor-Critic (FLAC) — свободный от правдоподобия фреймворк, который регулирует стохастичность политики путем штрафования кинетической энергии поля скоростей. Наше ключевое наблюдение заключается в формулировке оптимизации политики как задачи обобщенного моста Шрёдингера (GSB) относительно высокоэнтропийного референсного процесса (например, равномерного). В этой интерпретации принцип максимальной энтропии возникает естественным образом как стремление оставаться близко к высокоэнтропийному референсу при оптимизации возврата, без необходимости вычисления явных плотностей действий. В данном фреймворке кинетическая энергия служит физически обоснованным суррогатом для расхождения с референсом: минимизация энергии в пространстве путей ограничивает отклонение индуцированного терминального распределения действий. Основываясь на этой интерпретации, мы выводим схему итерации политики с регуляризацией по энергии и практический офф-политичный алгоритм, который автоматически настраивает кинетическую энергию с помощью механизма двойственной лагранжевой переменной. Экспериментально FLAC демонстрирует превосходящую или сопоставимую производительность на высокоразмерных бенчмарках по сравнению с сильными базовыми методами, избегая явного оценивания плотности.
В данном отчете мы представляем Xiaomi-Robotics-0 — передовую модель «видение-язык-действие» (VLA), оптимизированную для высокой производительности и быстрого плавного выполнения в реальном времени. Ключевым аспектом нашего метода является тщательно продуманный рецепт обучения и стратегия развертывания. Xiaomi-Robotics-0 сначала проходит предварительное обучение на крупномасштабных данных о траекториях роботов с различной морфологией и визуально-языковых данных, что наделяет ее широкими и обобщаемыми способностями к генерации действий, одновременно предотвращая катастрофическое забывание визуально-семантических знаний базовой предобученной VLM. В процессе дообучения мы предлагаем несколько методов для асинхронного выполнения VLA-модели, чтобы устранить задержки вывода при работе с реальным роботом. При развертывании мы тщательно синхронизируем временные метки последовательных прогнозируемых фрагментов действий для обеспечения непрерывного и бесшовного выполнения в реальном времени. Мы всесторонне оцениваем Xiaomi-Robotics-0 на симуляционных тестах и на двух сложных задачах с реальным роботом, требующих точного и ловкого двуручного манипулирования. Результаты показывают, что наш метод демонстрирует наилучшую производительность во всех симуляционных тестах. Более того, Xiaomi-Robotics-0 способна работать быстро и плавно на реальных роботах с использованием потребительского графического процессора, достигая высоких показателей успешности и пропускной способности в обеих задачах. Для содействия будущим исследованиям код и контрольные точки модели опубликованы по адресу https://xiaomi-robotics-0.github.io.
Достижение пространственного интеллекта требует выхода за пределы визуальной правдоподобности для создания симуляторов мира, основанных на физических законах. Хотя кодирующие большие языковые модели (LLM) продвинули генерацию статических 3D-сцен, расширение этой парадигмы до 4D-динамики остается ключевым рубежом. Эта задача представляет две фундаментальные проблемы: переплетение контекста на разных масштабах, при котором монолитная генерация не способна сбалансировать локальную структуру объектов с глобальной компоновкой окружения; и семантико-физический разрыв исполнения, при котором генерация кода в разомкнутом контуре приводит к физическим галлюцинациям, лишенным динамической достоверности. Мы представляем Code2Worlds — фреймворк, который формулирует 4D-генерацию как генерацию кода для симуляции на основе языкового описания. Во-первых, мы предлагаем двухпоточную архитектуру, которая разделяет усиленную поиском генерацию объектов и иерархическую оркестрацию окружения. Во-вторых, для обеспечения динамической достоверности мы создаем механизм замкнутого цикла с учетом физики, в котором PostProcess Agent скриптует динамику, а VLM-Motion Critic выполняет саморефлексию для итеративного уточнения кода симуляции. Оценки на бенчмарке Code4D показывают, что Code2Worlds превосходит базовые методы с приростом SGS на 41% и на 49% более высокой Показателем Богатства (Richness), при этом уникально генерируя физически достоверную динамику, отсутствующую в предыдущих статических методах. Код: https://github.com/AIGeeksGroup/Code2Worlds. Сайт: https://aigeeksgroup.github.io/Code2Worlds.
Последние достижения в диффузионных генеративных моделях создали новую парадигму для переосвещения изображений и видео. Однако расширение этих возможностей на 4D-переосвещение остается сложной задачей, в основном из-за недостатка парных данных для обучения 4D-переосвещению и трудностей поддержания временной согласованности при экстремальных изменениях ракурса. В данной работе мы предлагаем Light4D — новую бесплатную для обучения систему, предназначенную для синтеза согласованных 4D-видео при целевом освещении, даже при резких изменениях точки обзора. Во-первых, мы представляем Disentangled Flow Guidance — стратегию, учитывающую время, которая эффективно внедряет управление освещением в латентное пространство, сохраняя геометрическую целостность. Во-вторых, для усиления временной согласованности мы разрабатываем Temporal Consistent Attention в архитектуре IC-Light и дополнительно внедряем детерминированную регуляризацию для устранения мерцания изображения. Многочисленные эксперименты демонстрируют, что наш метод достигает конкурентоспособных результатов по временной согласованности и точности освещения, устойчиво обрабатывая вращения камеры от -90 до 90 градусов. Код: https://github.com/AIGeeksGroup/Light4D. Сайт: https://aigeeksgroup.github.io/Light4D.
Мы представляем UniDFlow — унифицированную дискретную framework-систему согласования потоков для многомодального понимания, генерации и редактирования. Она разделяет задачи понимания и генерации с помощью специализированных низкоранговых адаптеров, избегая интерференции целевых функций и переплетения представлений, в то время как новая многомодальная адаптация предпочтений на основе референсов оптимизирует относительные результаты при идентичных условиях, повышая достоверность и управляемость без масштабного переобучения. UniDFlow достигает state-of-the-art результатов на восьми бенчмарках и демонстрирует сильную zero-shot обобщаемость к задачам, включая инпейнтинг, контекстную генерацию изображений, референсное редактирование и композиционную генерацию, несмотря на отсутствие явного специализированного обучения.
Традиционные методы автоматизации проектирования рекомендательных систем, такие как поиск нейронных архитектур (NAS), часто ограничены фиксированным пространством поиска, задаваемым априорными знаниями человека, что ограничивает инновации предопределенными операторами. В то время как современные фреймворки эволюции кода на основе больших языковых моделей (LLM) смещают цель с фиксированного пространства поиска на открытые программные пространства, они в основном опираются на скалярные метрики (например, NDCG, Hit Ratio), которые не способны дать качественное представление о недостатках модели или направленные рекомендации для улучшения. Для решения этой проблемы мы предлагаем Self-EvolveRec — новую архитектуру, которая создает направленную обратную связь путем интеграции симулятора пользователя для качественной оценки и инструмента диагностики модели для количественной внутренней верификации. Кроме того, мы представляем стратегию совместной эволюции модели и диагностического инструмента, чтобы обеспечить динамическую адаптацию критериев оценки по мере развития архитектуры рекомендательной системы. Многочисленные эксперименты демонстрируют, что Self-EvolveRec значительно превосходит современные базовые методы на основе NAS и эволюции кода с LLM как по эффективности рекомендаций, так и по удовлетворенности пользователей. Наш код доступен по адресу https://github.com/Sein-Kim/self_evolverec.
Модели аудиодиффузии способны синтезировать музыку высокого качества из текстовых описаний, однако внутренние механизмы репрезентации в них высокоуровневых концепций остаются малоизученными. В данной работе мы используем метод патчинга активаций, чтобы показать, что различные семантические музыкальные концепции — такие как наличие определённых инструментов, вокала или жанровых характеристик — контролируются небольшим общим подмножеством слоёв внимания в передовых архитектурах аудиодиффузии. Далее мы демонстрируем, что применение контрастного добавления активаций и разреженных автоэнкодеров в этих слоях позволяет достичь более точного управления генерируемым аудио, что указывает на прямую пользу феномена специализации. Направленно модифицируя активации выявленных слоёв, мы можем с высокой точностью изменять конкретные музыкальные элементы, такие как модуляция темпа или смена настроения композиции.
Методы управления поведением больших языковых моделей основаны на выявлении семантических направлений в скрытых представлениях, однако обычно реализуются через интервенции активаций во время вывода, которые применяют фиксированную глобальную модификацию внутренних состояний модели. Несмотря на эффективность, такие интервенции часто приводят к неблагоприятному компромиссу между атрибутами и полезностью при сильном контроле, поскольку игнорируют тот факт, что многие поведенческие аспекты регулируются малыми и гетерогенными подмножествами компонентов модели. Мы предлагаем Steer2Edit — теоретически обоснованную бестренинговую框架, преобразующую векторы управления из сигналов контроля во время вывода в диагностические сигналы для редактирования весов ранга 1 на уровне компонентов. Вместо равномерного внедрения направления управления во время генерации Steer2Edit избирательно перераспределяет поведенческое влияние на отдельные головы внимания и MLP-нейроны, создавая интерпретируемые правки, которые сохраняют стандартный прямой проход и остаются совместимыми с оптимизированным параллельным выводом. В задачах безопасности, снижения галлюцинаций и эффективности рассуждений Steer2Edit последовательно достигает более благоприятного баланса между атрибутами и полезностью: при сопоставимой итоговой производительности метод улучшает безопасность до 17.2%, повышает правдивость на 9.8% и сокращает длину рассуждений в среднем на 12.2%. В целом, Steer2Edit создает принципиальный мост между управлением представлениями и редактированием весов, трансформируя сигналы управления в интерпретируемые бестренинговые обновления параметров.
Крупные языковые модели (LLM) представляют собой перспективное направление для систем рекомендаций, однако их развитие сдерживалось отсутствием предсказуемых законов масштабирования, которые крайне важны для направления исследований и оптимизации распределения ресурсов. Мы предполагаем, что это может быть связано с присущими исходным данным о пользовательских взаимодействиях шумом, смещениями и неполнотой в предыдущих подходах к непрерывному предварительному обучению (CPT). В данной статье представлена новая многоуровневая структура для генерации высококачественных синтетических данных, которая позволяет обойти эти проблемы за счет создания курируемого педагогического учебного плана для LLM. Мы предоставляем убедительные прямые доказательства полезности нашего учебного плана, демонстрируя, что стандартные последовательные модели, обученные на наших принципиально синтетических данных, значительно превосходят (на +130% по метрике recall@100 для SasRec) модели, обученные на реальных данных, в задачах ранжирования, что подтверждает их превосходство в изучении обобщаемых паттернов пользовательских предпочтений. Основываясь на этом, мы впервые эмпирически демонстрируем устойчивое степенное масштабирование для LLM, которая непрерывно дообучается на наших высококачественных, специфичных для рекомендаций данных. Наши эксперименты выявляют последовательное и предсказуемое снижение перплексии для нескольких модальностей синтетических данных. Эти результаты устанавливают фундаментальную методологию для надежного масштабирования возможностей LLM в области рекомендательных систем, тем самым смещая фокус исследований с устранения недостатков данных на использование высококачественной структурированной информации.
Крупные базовые модели продемонстрировали высокую способность к обобщению в открытом мире для решения сложных задач в области компьютерного зрения и обработки естественного языка, однако сопоставимый уровень обобщения пока не достигнут в робототехнике. Ключевой проблемой является ограниченная способность моделей к решению задач "с нуля" (zero-shot), что препятствует их эффективному обобщению на новые сценарии. В данной работе мы предлагаем GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning) — иерархическую модель "зрение-язык-действие" (VLA), которая более эффективно использует обобщающие способности базовых моделей, обеспечивая манипуляцию "с нуля" и автоматическую генерацию данных для робототехники. В частности, мы исследуем класс иерархических моделей VLA, в которых высокоуровневый модуль сегментации аффордансов (Affordance Segmentation Module, ASM) дообучается для восприятия аффордансов ключевых точек изображения сцены; средний уровень (3DAgent) выполняет понимание задачи, использование знаний о навыках и планирование траектории для генерации 3D-пути, указывающего желаемую траекторию концевого эффектора робота. Предсказанный промежуточный 3D-путь затем используется как руководство для низкоуровневой, учитывающей 3D политики управления, способной к точному манипулированию. По сравнению с альтернативными подходами, наш метод не требует сбора данных с реальных роботов или демонстраций человеком, что делает его значительно более масштабируемым для разнообразных задач и точек обзора. Экспериментально показано, что GeneralVLA успешно генерирует траектории для 14 задач, значительно превосходя современные методы, такие как VoxPoser. Сгенерированные демонстрации позволяют обучать более устойчивые политики клонирования поведения по сравнению с обучением на человеческих демонстрациях или на данных, сгенерированных VoxPoser, Scaling-up и Code-As-Policies. Мы полагаем, что GeneralVLA может стать масштабируемым методом как для генерации данных в робототехнике, так и для решения новых задач в режиме "с нуля". Код: https://github.com/AIGeeksGroup/GeneralVLA. Сайт: https://aigeeksgroup.github.io/GeneralVLA.
Квантование после обучения (PTQ) является ключевым для развертывания больших языковых моделей (LLM) на устройствах с ограниченной памятью, однако оно делает модели статичными и сложными для дообучения. Стандартные парадигмы дообучения, включая обучение с подкреплением (RL), фундаментально опираются на обратное распространение ошибки и веса высокой точности для вычисления градиентов. Следовательно, они неприменимы к квантованным моделям, где пространство параметров дискретно и недифференцируемо. Хотя эволюционные стратегии (ES) предлагают альтернативу, не требующую обратного распространения, оптимизация квантованных параметров все равно может терпеть неудачу из-за исчезающих или неточных градиентов. В данной статье представлены Квантованные Эволюционные Стратегии (QES) — парадигма оптимизации, которая выполняет дообучение всех параметров непосредственно в квантованном пространстве. QES основаны на двух нововведениях: (1) они интегрируют накопленную обратную связь по ошибке для сохранения градиентных сигналов высокой точности и (2) используют воспроизведение состояний без сохранения состояния (stateless seed replay) для снижения использования памяти до уровней, характерных для низкоточной логики вывода. QES значительно превосходят современный метод дообучения нулевого порядка на задачах арифметических рассуждений, делая прямое дообучение квантованных моделей возможным. Таким образом, это открывает возможность масштабирования LLM полностью в квантованном пространстве. Исходный код доступен по адресу https://github.com/dibbla/Quantized-Evolution-Strategies.
Мы представляем scPilot — первую системную платформу для реализации омикс-нативного анализа: большая языковая модель (LLM) ведёт диалог на естественном языке, напрямую исследуя данные single-cell RNA-seq и используя биоинформатические инструменты по требованию. scPilot преобразует ключевые этапы анализа одноклеточных данных, такие как аннотация типов клеток, реконструкция траекторий развития и идентификация мишеней транскрипционных факторов, в пошаговые задачи логического вывода, которые модель должна решать, обосновывать и при необходимости пересматривать на основе новых данных. Для оценки прогресса мы представляем scBench — набор из 9 экспертно подготовленных наборов данных и систем оценки, которые достоверно измеряют способность scPilot к омикс-нативному анализу в сравнении с различными LLM. Эксперименты с моделью o1 показали, что итеративный омикс-нативный анализ повышает среднюю точность аннотации типов клеток на 11%, а Gemini-2.5-Pro сокращает граф-edit расстояние для траекторий на 30% по сравнению с одношаговым запросом, одновременно генерируя прозрачные цепочки рассуждений, объясняющие неоднозначность маркерных генов и регуляторную логику. Обеспечивая работу LLM с исходными омикс-данными, scPilot делает анализ одноклеточных данных проверяемым, интерпретируемым и диагностически информативным. Код, данные и пакет доступны по адресу https://github.com/maitrix-org/scPilot.
Картографирование отдельных крон деревьев играет ключевую роль в таких задачах, как ведение реестров городских насаждений и мониторинг состояния лесов, что помогает нам понимать и заботиться об окружающей среде. Однако автоматическое разделение крон на аэрофотоснимках представляет сложность из-за таких факторов, как текстура изображения и частичное перекрытие крон. В данном исследовании представлен метод обучения моделей глубокого обучения для сегментации и разделения отдельных деревьев на RGB и мультиспектральных изображениях с использованием псевдоразметки, полученной на основе данных аэролазерного сканирования (ALS). Наше исследование демонстрирует, что псевдоразметку на основе ALS можно улучшить с помощью zero-shot модели семантической сегментации Segment Anything Model 2 (SAM 2). Предложенный метод позволяет получать предметно-ориентированные обучающие аннотации для моделей, работающих с оптическими изображениями, без затрат на ручную разметку, что приводит к созданию моделей сегментации, превосходящих по точности доступные модели, предназначенные для общего применения в той же задаче.
Идентификация коммитов, исправляющих уязвимости, соответствующих раскрытым CVE, крайне важна для обеспечения безопасной разработки программного обеспечения, но остается сложной задачей в крупных масштабах, поскольку большие репозитории содержат миллионы коммитов, и лишь малая их доля касается проблем безопасности. Существующие автоматизированные подходы, включая традиционные методы машинного обучения и недавние методы на основе больших языковых моделей (LLM), часто страдают от неоптимального баланса между точностью и полнотой. Часто оцениваемые на случайно выбранных коммитах, мы обнаруживаем, что они существенно недооценивают реальную сложность задачи, когда кандидаты уже являются релевантными для безопасности и высоко схожими. Мы предлагаем Favia, судебный агентно-ориентированный фреймворк для идентификации исправлений уязвимостей, который сочетает масштабируемое ранжирование кандидатов с глубоким и итеративным семантическим анализом. Favia сначала использует эффективную стадию ранжирования для сужения пространства поиска коммитов. Затем каждый коммит тщательно оценивается с помощью LLM-агента, основанного на парадигме ReAct. Предоставляя агенту среду в виде репозитория до коммита вместе со специализированными инструментами, агент пытается локализовать уязвимые компоненты, перемещаться по кодовой базе и устанавливать причинно-следственную связь между изменениями кода и корневыми причинами уязвимостей. Этот основанный на доказательствах процесс позволяет надежно идентифицировать косвенные, многофайловые и нетривиальные исправления, которые ускользают от одношаговых или основанных на сходстве методов. Мы оцениваем Favia на CVEVC, крупномасштабном наборе данных, который мы создали и который содержит более 8 миллионов коммитов из 3708 реальных репозиториев, и показываем, что он стабильно превосходит современные традиционные и LLM-базлайны в условиях реалистичного отбора кандидатов, демонстрируя наилучший баланс точности и полноты, а также самые высокие F1-меры.
Идентификация языка (Language Identification, LID) является важным этапом построения качественных многоязычных наборов данных из веб-содержимого. Существующие инструменты LID (такие как OpenLID или GlotLID) часто испытывают трудности с распознаванием близкородственных языков и с различением валидного естественного языка от шума, что загрязняет языково-специфичные подмножества, особенно для языков с ограниченными ресурсами. В данной работе мы расширяем классификатор OpenLID, добавляя больше обучающих данных, объединяя проблемные кластеры языковых вариантов и вводя специальную метку для обозначения шума. Мы называем эту расширенную систему OpenLID-v3 и оцениваем её в сравнении с GlotLID на нескольких бенчмарках. В процессе разработки мы сосредотачиваемся на трёх группах близкородственных языков (боснийский, хорватский и сербский; романские разновидности Северной Италии и Южной Франции; скандинавские языки) и создаём новые оценочные наборы данных там, где существующие недостаточны. Мы обнаружили, что ансамблевые подходы повышают точность, но также существенно снижают охват для языков с ограниченными ресурсами. OpenLID-v3 доступен по адресу https://huggingface.co/HPLT/OpenLID-v3.