Ежедневно отобранные исследовательские статьи по ИИ с переводами
Image Chain-of-Thought (Image-CoT) — это парадигма масштабирования на этапе тестирования, которая улучшает генерацию изображений за счет увеличения времени вывода. Большинство методов Image-CoT ориентированы на генерацию по текстовому описанию (T2I). В отличие от T2I, редактирование изображений является целенаправленным: пространство решений ограничено исходным изображением и инструкцией. Это несоответствие порождает три проблемы при применении Image-CoT к редактированию: неэффективное распределение ресурсов при фиксированном бюджете сэмплирования, ненадежная верификация на ранних стадиях с использованием общих оценок MLLM и избыточные результаты редактирования при крупномасштабном сэмплировании. Для решения этих проблем мы предлагаем ADaptive Edit-CoT (ADE-CoT) — адаптивную систему масштабирования на этапе тестирования для повышения эффективности и качества редактирования. Она включает три ключевые стратегии: (1) распределение ресурсов с учетом сложности, которое назначает динамические бюджеты на основе оцененной сложности правки; (2) специфичную для редактирования верификацию при раннем отсечении, использующую локализацию областей и согласованность с описанием для отбора перспективных кандидатов; и (3) глубинную стратегию останова по достижению результата, управляемую специфичным для экземпляра верификатором, которая прекращает обработку при обнаружении результатов, соответствующих цели. Экстенсивные эксперименты на трех передовых моделях редактирования (Step1X-Edit, BAGEL, FLUX.1 Kontext) и трех бенчмарках показывают, что ADE-CoT обеспечивает превосходный баланс между производительностью и эффективностью. При сопоставимых бюджетах сэмплирования ADE-CoT демонстрирует лучшие результаты с более чем двукратным ускорением по сравнению с методом Best-of-N.
OmniLottie — это универсальный фреймворк, который генерирует высококачественные векторные анимации по мультимодальным инструкциям. Для гибкого управления движением и визуальным содержимым мы ориентируемся на Lottie — легковесный JSON-формат для представления как форм, так и анимационных поведений. Однако исходные JSON-файлы Lottie содержат обширные инвариантные структурные метаданные и токены форматирования, что создает значительные трудности для обучения генерации векторной анимации. Поэтому мы представляем тщательно разработанный токенизатор Lottie, который преобразует JSON-файлы в структурированные последовательности команд и параметров, представляющих формы, анимационные функции и управляющие параметры. Такой токенизатор позволяет нам построить OmniLottie на базе предобученных моделей «визуальный язык» для следования мультимодальным перемежающимся инструкциям и генерации высококачественных векторных анимаций. Для дальнейшего прогресса в исследованиях по генерации векторной анимации мы создали MMLottie-2M — масштабный набор данных профессионально разработанных векторных анимаций, снабженных текстовыми и визуальными аннотациями. В ходе обширных экспериментов мы подтверждаем, что OmniLottie способен создавать яркие и семантически согласованные векторные анимации, точно следующие мультимодальным человеческим инструкциям.
Агенты программной инженерии (SWE) стремительно совершенствуются, и последние достижения в значительной степени обусловлены обучением с подкреплением (RL). Однако обучение RL ограничено дефицитом крупномасштабных наборов задач с воспроизводимыми средами выполнения и надежными наборами тестов. Хотя появляется все больше бенчмарков, наборы данных, пригодные для обучения, остаются ограниченными по масштабу и разнообразию или часто ориентированы на ограниченный набор экосистем языков с высокими ресурсами. Мы представляем SWE-rebench V2, языково-независимый автоматизированный конвейер для сбора исполняемых практических задач SWE и масштабируемого построения сред обучения RL. Конвейер синтезирует специфичные для репозитория процедуры установки и тестирования с помощью интерактивного агента настройки и отфильтровывает некорректные экземпляры с использованием ансамбля LLM-судей, валидированного по аннотациям SWE-bench, проверенным человеком. С помощью этого конвейера мы создали набор данных из 32 000+ задач, охватывающих 20 языков и 3 600+ репозиториев, с предварительно собранными образами для воспроизводимого выполнения. Для дальнейшего масштабирования данных обучения мы дополнительно выпускаем 120 000+ задач с инструкциями по установке, тестами "из失败 в успех" и богатыми метаданными, где формулировка проблемы генерируется на основе описания исходного pull request'а. Мы проверяем собранные экземпляры с помощью диагностического исследования, охватывающего подмножество задач на пяти языках программирования для семи популярных моделей, и предоставляем метаданные на уровне экземпляра, которые помечают распространенные confounding-факторы, такие как излишне строгие тесты и нечеткие описания. Мы публикуем наборы данных, код для сбора и выполнения, а также сопутствующие артефакты, чтобы обеспечить крупномасштабное обучение агентов SWE для различных языков и репозиториев.
По мере того как выравнивание больших языковых моделей (LLM) эволюционирует от простых завершений текста к сложному, высокоразвитому генеративному синтезу, оценочные модели все чаще смещаются в сторону рубрикатор-ориентированной оценки для снижения поверхностных смещений. Однако в сообществе отсутствует единый бенчмарк для оценки данной парадигмы, поскольку существующие бенчмарки лишены как необходимой дискриминативной сложности, так и эталонных аннотаций рубрик, требуемых для строгого анализа. Для устранения этого пробела мы представляем RubricBench — курируемый бенчмарк, содержащий 1 147 парных сравнений, специально разработанных для оценки надежности рубрикатор-ориентированной оценки. Наша методика построения использует многомерный конвейер фильтрации для отбора сложных примеров с нюансированной сложностью входных данных и вводящими в заблуждение поверхностными смещениями, дополняя каждый экспертными, атомарными рубриками, строго выведенными из инструкций. Всесторонние эксперименты выявляют значительный разрыв в возможностях между человеко-аннотированными и модельно-генерируемыми рубриками, указывая на то, что даже передовые модели испытывают трудности с автономным определением валидных критериев оценки, существенно отставая от результатов, полученных при участии человека.
OpenAutoNLU — это библиотека автоматизированного машинного обучения с открытым исходным кодом для задач понимания естественного языка (NLU), включая как классификацию текстов, так и распознавание именованных сущностей (NER). В отличие от существующих решений, мы предлагаем выбор режима обучения с учётом данных, который не требует ручной настройки пользователем. Библиотека также предоставляет интегрированную диагностику качества данных, настраиваемое обнаружение данных вне распределения (OOD) и функции работы с большими языковыми моделями (LLM) в рамках минималистичного lowcode API. Демонстрационное приложение доступно по адресу https://openautonlu.dev.
Последние достижения в области развития способностей к рассуждению у мультимодальных больших языковых моделей (МБЯМ) позволили им решать более сложные задачи, такие как научный анализ и математические рассуждения. Несмотря на перспективность, способности МБЯМ к рассуждениям в различных сценариях реальной жизни остаются в значительной степени неисследованными и не имеют стандартизированных бенчмарков для оценки. Чтобы восполнить этот пробел, мы представляем MMR-Life — комплексный бенчмарк, разработанный для оценки разнообразных способностей МБЯМ к мультимодальным рассуждениям на основе нескольких изображений в реальных жизненных сценариях. MMR-Life состоит из 2646 вопросов с множественным выбором, основанных на 19 108 изображениях, полученных преимущественно из реального контекста, и всесторонне охватывает семь типов рассуждений: абдуктивные, аналогические, каузальные, дедуктивные, индуктивные, пространственные и временные. В отличие от существующих бенчмарков на рассуждения, MMR-Life не опирается на узкоспециальные знания, а вместо этого требует от моделей интегрировать информацию из нескольких изображений и применять различные способности к рассуждению. Оценка 37 передовых моделей демонстрирует, что MMR-Life представляет собой серьезную challenge-задачу. Даже лучшие модели, такие как GPT-5, достигают точности лишь 58% и демонстрируют значительный разброс в производительности между разными типами рассуждений. Более того, мы анализируем парадигмы рассуждений существующих МБЯМ, исследуя, как такие факторы, как длина размышления, метод рассуждения и тип рассуждения, влияют на их производительность. В итоге, MMR-Life закладывает всестороннюю основу для оценки, анализа и совершенствования следующего поколения мультимодальных систем рассуждений.
Крупные языковые модели (LLM) недавно продемонстрировали впечатляющие способности к логическим рассуждениям, что в значительной степени стало возможным благодаря последующему дообучению (post-training) на основе обучения с учителем (SFT) и обучения с подкреплением (RL) на высококачественных данных, требующих логических рассуждений. Однако воспроизведение и расширение этих возможностей в открытых и масштабируемых условиях затруднено тремя фундаментальными проблемами, связанными с данными: (1) проблема "холодного старта", возникающая из-за отсутствия начальных наборов данных с подробными, длинными траекториями "цепочки рассуждений" (CoT), необходимых для инициализации политик рассуждений; (2) ограниченный охват предметных областей, поскольку большинство существующих открытых наборов данных для рассуждений сосредоточены на математике, с малым охватом более широких научных дисциплин; и (3) узкое место в разметке, где сложность задач рассуждений передового уровня делает надежную человеческую разметку чрезмерно дорогой или неосуществимой. Для решения этих проблем мы представляем CHIMERA, компактный синтетический набор данных для рассуждений, содержащий 9 тыс. примеров для обобщающих междисциплинарных рассуждений. CHIMERA построен с тремя ключевыми свойствами: (1) он предоставляет богатые, длинные траектории CoT-рассуждений, синтезированные современными моделями рассуждений; (2) он имеет широкий и структурированный охват, охватывая 8 основных научных дисциплин и более 1 тыс. узко специализированных тем, организованных с помощью сгенерированной моделью иерархической таксономии; и (3) он использует полностью автоматизированный, масштабируемый конвейер оценки, который применяет мощные модели рассуждений для перекрестной проверки как валидности задач, так и правильности ответов. Мы используем CHIMERA для пост-тренировки модели Qwen3 с 4 млрд параметров. Несмотря на скромный размер набора данных, полученная модель демонстрирует высокую производительность на наборе сложных бенчмарков для оценки рассуждений, включая GPQA-Diamond, AIME 24/25/26, HMMT 25 и Humanity's Last Exam, приближаясь или соответствуя результатам моделей со значительно большим размером, таких как DeepSeek-R1 и Qwen3-235B.
Современные многокамерные детекторы 3D-объектов в помещениях полагаются на дорогостоящую сенсорную геометрию (точные калибровки поз многокамерных систем) для объединения многокамерной информации в глобальное представление сцены, что ограничивает их применение в реальных условиях. Мы рассматриваем более практичную задачу: многокамерное 3D-обнаружение объектов в помещениях без сенсорной геометрии (SG-Free), где отсутствуют геометрические входные данные от сенсоров (позы камер или данные о глубине). Недавно предложенный трансформер с визуальной геометрической основой (VGGT) показал, что сильные 3D-признаки можно извлекать непосредственно из изображений. Основываясь на этом, мы представляем VGGT-Det — первую систему, разработанную специально для SG-Free многокамерного 3D-обнаружения объектов в помещениях. Вместо простого использования предсказаний VGGT, наш метод интегрирует кодировщик VGGT в трансформерный конвейер. Для эффективного использования семантических и геометрических априорных знаний, заложенных в VGGT, мы вводим два ключевых компонента: (i) Генерацию запросов с управлением вниманием (AG): использует карты внимания VGGT как семантические априорные данные для инициализации объектных запросов, улучшая локализацию за счет фокусировки на областях объектов при сохранении глобальной пространственной структуры; (ii) Агрегацию признаков на основе запросов (QD): обучаемый See-Query взаимодействует с объектными запросами, чтобы «увидеть» их потребности, и динамически агрегирует многоуровневые геометрические признаки из слоев VGGT, которые постепенно преобразуют 2D-признаки в 3D. Эксперименты показывают, что VGGT-Det значительно превосходит лучший метод в условиях SG-Free на 4.4 и 8.6 mAP@0.25 на ScanNet и ARKitScenes соответственно. Абляционное исследование подтверждает, что внутренние семантические и геометрические априорные знания, изученные VGGT, могут быть эффективно использованы нашими компонентами AG и QD.
Разработка многошаговых интерактивных агентов с использованием инструментов сопряжена со сложностями, поскольку реальные потребности пользователей часто являются комплексными и неоднозначными, однако агенты должны выполнять детерминированные действия для их удовлетворения. Для преодоления этого разрыва мы представляем CoVe (Constraint-Verification — ограничение-верификация), фреймворк для синтеза данных после обучения, предназначенный для тренировки интерактивных агентов с обеспечением как сложности, так и корректности данных. CoVe начинается с определения явных ограничений задачи, которые выполняют двойную роль: они направляют генерацию сложных траекторий и выступают в качестве детерминированных верификаторов для оценки качества траекторий. Это позволяет создавать высококачественные тренировочные траектории для контролируемого тонкого настройки (SFT) и получать точные сигналы вознаграждения для обучения с подкреплением (RL). Наша оценка на сложном бенчмарке τ²-bench демонстрирует эффективность фреймворка. Примечательно, что наша компактная модель CoVe-4B достигает показателей успешности в 43,0% и 59,4% в доменах Авиаперевозок и Розничной торговли соответственно; её общая производительность значительно превосходит сильные базовые модели схожего масштаба и остается конкурентоспособной с моделями до 17 раз большего размера. Эти результаты указывают на то, что CoVe предоставляет эффективный и результативный путь для синтеза тренировочных данных для передовых интерактивных агентов. Для поддержки будущих исследований мы открываем исходный код, обученную модель и полный набор из 12 тысяч высококачественных траекторий, использованных для обучения.
Личные фотоальбомы представляют собой не просто коллекции статичных изображений, а живые, экологические архивы, определяемые временной непрерывностью, социальными взаимосвязями и богатыми метаданными, что делает персонализированный поиск фотографий нетривиальной задачей. Однако существующие бенчмарки для поиска в значительной степени опираются на изолированные от контекста веб-снимки, не способные отразить многоаспектное рассуждение, необходимое для решения аутентичных, намеренно-ориентированных пользовательских запросов. Чтобы устранить этот разрыв, мы представляем PhotoBench — первый бенчмарк, созданный на основе аутентичных личных альбомов. Он предназначен для смещения парадигмы от визуального сопоставления к персонализированному многоаспектному, намеренно-ориентированному рассуждению. На основе строгой системы профилирования из множества источников, которая интегрирует визуальную семантику, пространственно-временные метаданные, социальную идентичность и временные события для каждого изображения, мы синтезируем сложные намеренно-ориентированные запросы, укорененные в жизненных траекториях пользователей. Обширная оценка на PhotoBench выявляет два ключевых ограничения: *модальный разрыв*, когда унифицированные модели эмбеддингов не справляются с невизуальными ограничениями, и *парадокс слияния источников*, когда агентские системы демонстрируют слабую координацию инструментов. Эти результаты указывают на то, что следующий рубеж в персонализированном мультимодальном поиске лежит за пределами унифицированных эмбеддингов и требует создания надежных агентских систем рассуждений, способных к точному удовлетворению ограничений и слиянию информации из множества источников. Наш PhotoBench доступен.
Мы представляем LLaDA-o — эффективную и адаптивную по длине универсальную диффузионную модель для мультимодального понимания и генерации. LLaDA-o построена на основе фреймворка Mixture of Diffusion (MoD), который разделяет дискретную маскированную диффузию для понимания текста и непрерывную диффузию для визуальной генерации, связывая их через общий, простой и эффективный механизм внимания, снижающий избыточные вычисления для фиксированных условий. На основе MoD мы дополнительно вводим центрированную на данных стратегию адаптации длины, которая обеспечивает декодирование гибкой длины в мультимодальных сценариях без изменений архитектуры. Многочисленные эксперименты показывают, что LLaDA-o достигает наилучших результатов среди универсальных диффузионных моделей на бенчмарках мультимодального понимания и генерации, а также набирает 87.04 балла на DPG-Bench для генерации изображений по тексту, что подтверждает эффективность унифицированного диффузионного моделирования. Код доступен по адресу https://github.com/ML-GSAI/LLaDA-o.
Генеративные базовые модели все чаще масштабируются как по ширине, так и по глубине, что создает серьезные проблемы для стабильного обучения признаков и надежного переноса гиперпараметров (HP) между моделями разных размеров. Хотя параметризация максимального обновления (μP) предложила принципиальное решение обеих проблем для масштабирования по ширине, существующие расширения на режим совместного масштабирования по ширине и глубине остаются фрагментированными, специфичными для архитектуры и оптимизатора и часто опираются на технически сложные теории. В данной работе мы разрабатываем простой и унифицированный спектральный подход к μP при совместном масштабировании по ширине и глубине. Рассматривая остаточные сети с варьируемой глубиной блоков, мы сначала вводим спектральное условие μP, которое точно характеризует, как нормы весов и их пошаговые обновления должны масштабироваться с шириной и глубиной, объединяя ранее разрозненные формулировки μP как частные случаи. Основываясь на этом условии, мы затем выводим общий рецепт реализации μP для широкого класса оптимизаторов, отображая спектральные ограничения в конкретные параметризации HP. Этот подход не только восстанавливает существующие формулировки μP (например, для SGD и AdamW), но и естественным образом расширяется на более широкий диапазон оптимизаторов. Наконец, эксперименты на языковых моделях в стиле GPT-2 демонстрируют, что предложенное спектральное условие μP сохраняет стабильность обучения признаков и обеспечивает надежный перенос HP при масштабировании по ширине и глубине.
Последние достижения в области базовых моделей диффузии для видео (Video Diffusion Models, VDM) привели к значительному прогрессу. Однако, несмотря на впечатляющее визуальное качество генерируемых видео, восстановление согласованных 3D-сцен из этих результатов остается сложной задачей из-за ограниченной управляемости камерой и несогласованности генерируемого контента при просмотре с различных траекторий камеры. В данной статье мы предлагаем WorldStereo — новую архитектуру, которая связывает управляемую камерой генерацию видео и 3D-реконструкцию с помощью двух специализированных модулей геометрической памяти. Формально, глобальная геометрическая память обеспечивает точное управление камерой, одновременно внедряя coarse структурные априорные знания через инкрементально обновляемые облака точек. Кроме того, пространственно-стерео память ограничивает рецептивные поля внимания модели 3D-соответствиями, чтобы фокусироваться на мелкодетальных особенностях из банка памяти. Эти компоненты позволяют WorldStereo генерировать видео, согласованные по множеству viewpoints, при точном управлении камерой, что способствует высококачественной 3D-реконструкции. Более того, гибкая branch-архитектура управления WorldStereo демонстрирует впечатляющую эффективность, благодаря использованию backbone VDM, дистиллированного через matching распределений, без совместного обучения. Многочисленные эксперименты на бенчмарках как для управляемой камерой генерации видео, так и для 3D-реконструкции подтверждают эффективность нашего подхода. Примечательно, что мы показываем, как WorldStereo действует как мощная модель мира (world model), решая разнообразные задачи генерации сцен (начинающиеся как с перспективных, так и с панорамных изображений) с получением 3D-результатов высокой точности. Модели будут опубликованы.
Обучение с подкреплением (ОП) играет ключевую роль в улучшении способности к рассуждению и согласованности больших языковых моделей, однако его эффективность критически зависит от выбора обучающих данных. Существующие стратегии онлайн-отбора в основном опираются на эвристики, основанные на сложности, отдавая предпочтение точкам данных с промежуточными показателями успеха, неявно отождествляя сложность с информативностью и пренебрегая эпистемической неопределенностью, возникающей из-за ограниченности данных. Мы представляем InSight — метод INформационно-управляемого отбора данных для обучения с подкреплением, основанный на задаче максимизации взвешенной взаимной информации. Моделируя исходы данных с помощью байесовских латентных показателей успеха, мы показываем, что ожидаемое снижение неопределенности раскладывается на взаимодополняющие компоненты, зависящие от сложности и объема данных, выявляя фундаментальное ограничение отбора, основанного только на сложности. Используя это наблюдение, InSight строит стабильную функцию полезности на основе среднего апостериорного ожидания успеха точек данных, а не зашумленных выборочных исходов, и естественным образом обобщается на сценарии с множественными прогонами, типичные для обучения с подкреплением с верифицируемыми вознаграждениями. Многочисленные эксперименты демонстрируют, что InSight стабильно достигает наилучших результатов и повышает эффективность обучения, включая средний прирост на +1.41 по тестам на планирование и математику, улучшение на +1.01 по общим рассуждениям и ускорение обучения до ~2.2 раз при незначительных дополнительных вычислительных затратах.
Обучение с подкреплением (RL) для математических рассуждений может страдать от разреженности вознаграждений: при решении сложных задач языковая модель не может сгенерировать ни одной корректной траектории, что лишает RL содержательной позитивной обратной связи. В то же время часто существуют эталонные решения, написанные человеком, вместе с задачей (например, задачи с AoPS), но прямая дообучение на этих решениях не приносит пользы, поскольку модели часто не могут имитировать человеческие доказательства, выходящие за пределы их собственного пространства рассуждений. Мы представляем Reference-Guided Fine-Tuning (ReGFT) — простой и эффективный метод, который использует эталонные решения, написанные человеком, для синтеза позитивных траекторий на сложных задачах и обучения на них перед применением RL. Для каждой задачи мы предоставляем модели часть эталонного решения и позволяем ей сгенерировать собственную цепочку рассуждений, гарантируя, что результирующие траектории остаются в пространстве рассуждений модели, но при этом используют преимущества эталонного руководства. Дообучение на этих траекториях, направляемых эталоном, увеличивает количество решаемых задач и создает контрольную точку, которая получает больше позитивных вознаграждений в процессе RL. На трех тестовых наборах (AIME24, AIME25, BeyondAIME) ReGFT стабильно повышает точность обучения с учителем, ускоряет обучение по методу DAPO и поднимает итоговый уровень производительности RL. Наши результаты показывают, что ReGFT эффективно преодолевает разреженность вознаграждений и раскрывает потенциал RL для математических рассуждений.
Крупные языковые модели (LLM) становятся основой для автономных агентов, способных использовать инструменты для решения сложных задач. Обучение с подкреплением (RL) стало распространенным подходом для внедрения таких агентских возможностей, но обычно в строго контролируемых условиях обучения. Оно часто зависит от тщательно составленных пар "задача-решение" и значительного человеческого контроля, что создает фундаментальное препятствие для открытого саморазвития в направлении сверхразумных систем. В данной статье мы предлагаем фреймворк Tool-R0 для обучения агентов общего назначения, вызывающих инструменты, с нуля с помощью RL и самодостаточной игры (self-play) в предположении об отсутствии исходных данных (zero-data). Инициализированные из одной базовой LLM, Tool-R0 совместно развивает Генератор и Решатель с комплементарными вознаграждениями: один предлагает целенаправленные сложные задачи на границе компетенции другого, а другой учится решать их с помощью вызовов реальных инструментов. Это создает самовоспроизводящийся цикл, не требующий предварительно существующих задач или наборов данных. Оценка на различных бенчмарках использования инструментов показывает, что Tool-R0 обеспечивает относительное улучшение на 92.5% по сравнению с базовой моделью и превосходит полностью контролируемые базовые линии по вызову инструментов в тех же условиях. Наша работа также предоставляет эмпирические инсайты о LLM-агентах с самодостаточной игрой за счет анализа коэволюции, динамики учебного плана (curriculum) и масштабируемости.
Обучение с подкреплением (RL) все чаще применяется для пост-обучения медицинских визуально-языковых моделей (VLM), однако до сих пор неясно, улучшает ли RL медицинское визуальное мышление или в основном оттачивает поведение, уже сформированное обучением с учителем (SFT). Мы представляем контролируемое исследование, которое разделяет эти эффекты по трем осям: зрение, SFT и RL. Используя MedMNIST в качестве многомодального тестового стенда, мы исследуем визуальное восприятие, сравнивая зрительные модули VLM с базовыми моделями, работающими только с изображениями, количественно оцениваем поддержку рассуждений и эффективность выборки с помощью Accuracy@1 и Pass@K, а также определяем, когда RL закрывает разрыв в поддержке и как достижения переносятся между модальностями. Мы обнаружили, что RL наиболее эффективен, когда модель уже обладает нетривиальной поддержкой (высокий Pass@K): он в основном сужает выходное распределение, улучшая Acc@1 и эффективность выборки, в то время как SFT расширяет поддержку и делает RL эффективным. На основе этих выводов мы предлагаем рецепт, учитывающий границы применимости, и реализуем его, проводя пост-обучение методом RL модели, инициализированной OctoMed, на небольшом сбалансированном подмножестве множественного выбора VQA из PMC, достигая высокой средней производительности на шести медицинских бенчмарках VQA.
Мы представляем V-SONAR — пространство визуально-языковых эмбеддингов, расширенное на основе текстового пространства SONAR (Omnilingual Embeddings Team et al., 2026), которое поддерживает 1500 текстовых и 177 речевых языков. Для построения V-SONAR мы предлагаем процедуру пост-обработки, которая отображает представления существующего визуального энкодера в пространство SONAR. Мы проводим всестороннюю оценку V-SONAR и показываем, что его эмбеддинги демонстрируют конкурентоспособные результаты в задаче поиска видео по тексту. Оснащенный текстовым декодером OMNISONAR, V-SONAR дополнительно превосходит современные визуально-языковые модели в задачах описания видео, включая DREAM-1K (BLEU 23.9 против 19.6) и PE-VIDEO (BLEU 39.0 против 30.0). Используя V-SONAR, мы впервые демонстрируем, что Large Concept Model (LCM; LCM team et al., 2024), работающая в пространстве SONAR и обученная только на английских текстах, способна выполнять как понимание единичных, так и множественных визуальных концептов в zero-shot режиме. Наконец, мы представляем V-LCM, которая расширяет LCM за счет тонкой настройки на визуально-языковых инструкциях. V-LCM кодирует визуальные и языковые входные данные в унифицированную последовательность латентных эмбеддингов через V-SONAR и SONAR и обучается с тем же латентным диффузионным целевым критерием предсказания следующего эмбеддинга, что и в текстовом предварительном обучении LCM. Эксперименты на крупномасштабной многозадачной мультиязыковой смеси данных для инструктивной настройки подчеркивают потенциал V-LCM: модель соответствует современным визуально-языковым моделям в задачах описания изображений/видео и ответов на вопросы, при этом значительно превосходя их на 61 языке из 62 протестированных — от ресурсообеспеченных до малоресурсных.
Когда текстовое описание дополняется новой деталью, сходство между изображением и текстом должно снижаться, если эта деталь неверна. Мы показываем, что дуальные энкодеры в стиле CLIP часто нарушают эту интуицию: добавление правдоподобного, но неверного объекта или отношения к в остальном правильному описанию может увеличить оценку сходства. Мы называем такие случаи полуправдой. На наборе данных COCO CLIP предпочитает правильное краткое описание лишь в 40,6% случаев, а производительность падает до 32,9%, когда добавленная деталь является отношением. Мы связываем эту уязвимость со слабым контролем за частями описаний: контрастивное обучение выравнивает полные предложения, но явно не принуждает к заземлению отдельных сущностей и отношений. Мы предлагаем CS-CLIP (Component-Supervised CLIP), который разлагает подписи на единицы сущностей и отношений, конструирует минимально измененную ложную версию для каждой единицы и дообучает модель оценивать правильную единицу выше её ложной версии, сохраняя стандартный вывод дуального энкодера. CS-CLIP повышает точность на задачах с полуправдой до 69,3% и улучшает среднюю производительность на установленных композиционных тестах на 5,7 пунктов, что позволяет предположить, что сокращение ошибок полуправды согласуется с более широкими успехами в композиционном понимании. Код общедоступен по адресу: https://github.com/kargibora/CS-CLIP
Способны ли агенты на основе больших языковых моделей исследовать базы кода и рассуждать о семантике программ без их выполнения? Мы изучаем эту возможность, которую называем агентным семантическим анализом кода, и представляем полуформальное рассуждение: структурированную методологию промптинга, требующую от агентов построения явных предпосылок, трассировки путей выполнения и вывода формальных заключений. В отличие от неструктурированной цепочки рассуждений, полуформальное рассуждение служит сертификатом: агент не может пропустить случаи или делать неподтвержденные утверждения. Мы проводим оценку на трех задачах (верификация эквивалентности патчей, локализация дефектов и ответы на вопросы по коду) и показываем, что полуформальное рассуждение стабильно повышает точность во всех из них. Для верификации эквивалентности патчей точность повышается с 78% до 88% на курируемых примерах и достигает 93% на реальных патчах, сгенерированных агентами, приближаясь к надежности, необходимой для сигналов вознаграждения в обучении с подкреплением без выполнения кода. Для ответов на вопросы по коду на наборе RubberDuckBench (Mohammad et al., 2026) полуформальное рассуждение достигает точности 87%. Для локализации дефектов на наборе Defects4J (Just et al., 2014) полуформальное рассуждение улучшает точность Top-5 на 5 процентных пунктов по сравнению со стандартным рассуждением. Эти результаты демонстрируют, что структурированный агентный анализ позволяет проводить содержательный семантический анализ кода без выполнения, открывая практические приложения в конвейерах обучения с подкреплением, ревью кода и статическом анализе программ.
Модели типа «думай-отвечай», такие как DeepSeek-R1, достигли значительного прогресса за счёт использования интерпретируемого внутреннего рассуждения. Однако, несмотря на частое присутствие саморефлексивных маркеров вроде «Ой!», они остаются уязвимыми к ошибкам вывода при однопроходном выводе. Для преодоления этого ограничения мы предлагаем эффективный Рекурсивный Процесс «Думай-Отвечай» (R-TAP), который позволяет моделям вступать в итеративные циклы рассуждений и генерировать более точные ответы, выходя за рамки традиционных однопроходных подходов. Ключевым элементом данного метода является генератор уверенности, который оценивает определённость ответов модели и направляет последующие улучшения. Внедряя два комплементарных вознаграждения — вознаграждение за рекурсивное увеличение уверенности и вознаграждение за уверенность итогового ответа — мы демонстрируем, что модели, усиленные R-TAP, стабильно превосходят традиционные однопроходные методы как для больших языковых моделей (LLM), так и для моделей «зрение-язык» (VLM). Более того, анализируя частоту появления выражений типа «Ой» в ответах моделей, мы обнаруживаем, что модели с применением R-TAP демонстрируют значительно меньше саморефлексивных паттернов, что приводит к более стабильным и быстрым рассуждениям во время вывода. Мы надеемся, что R-TAP проложит путь к развитию эффективных и продуманных методов для усовершенствования процессов рассуждения будущего ИИ.
Управление вниманием (attention steering) — важная техника для контроля фокуса модели, позволяющая реализовать такие возможности, как выделение ключевых частей запроса, когда модель отдает приоритет тексту, указанному пользователем. Однако существующие методы управления вниманием требуют явного хранения полной матрицы внимания, что делает их несовместимыми с оптимизированными по памяти реализациями, такими как FlashAttention. Мы представляем Spectral Editing Key Amplification (SEKA), метод управления без дообучения, который решает эту проблему путем прямого редактирования ключевых эмбеддингов (key embeddings) до вычисления внимания. SEKA использует спектральное разложение, чтобы направлять ключевые эмбеддинги в латентные направления, которые усиливают оценки внимания для определенных токенов. Мы расширяем этот подход до Adaptive SEKA (AdaSEKA), адаптивного к запросу варианта, который использует механизм маршрутизации без обучения для динамического комбинирования нескольких экспертных подпространств на основе семантического содержания промпта. Наши эксперименты показывают, что оба метода значительно превосходят сильные базовые линии на стандартных бенчмарках управления вниманием, добавляя при этом значительно меньшие задержки и нагрузку на память, оставаясь совместимыми с оптимизированными механизмами внимания.
Мы представляем Legal RAG Bench — эталонный набор данных и методику оценки для тестирования сквозной производительности юридических RAG-систем. Как эталонный набор, Legal RAG Bench включает 4876 фрагментов из «Сборника уголовных обвинительных актов Виктории» вместе со 100 сложными, специально разработанными вопросами, требующими экспертных знаний в области уголовного права и процесса. Предоставлены как развернутые ответы, так и подтверждающие их фрагменты текста. Как методика оценки, Legal RAG Bench использует полный факторный план и новую систему иерархического декомпозирования ошибок, что позволяет проводить прямое сравнение вклада моделей поиска и логического вывода в RAG. Мы оценили три современные модели эмбеддингов (Isaacus Kanon 2 Embedder, Google Gemini Embedding 001 и OpenAI Text Embedding 3 Large) и две передовые большие языковые модели (Gemini 3.1 Pro и GPT-5.2), установив, что информационный поиск является основным фактором производительности юридических RAG-систем, тогда как LLM оказывают более умеренное влияние на корректность и обоснованность ответов. В частности, модель Kanon 2 Embedder оказала наибольшее положительное воздействие на производительность, улучшив среднюю корректность на 17.5 баллов, обоснованность на 4.5 балла и точность поиска на 34 балла. Мы наблюдаем, что многие ошибки, приписываемые галлюцинациям в юридических RAG-системах, на самом деле вызваны сбоями поиска, и делаем вывод, что поиск задает потолок производительности для многих современных юридических RAG-систем. Мы документируем причины и процесс создания Legal RAG Bench наряду с результатами наших оценок. Мы также открыто публикуем наш код и данные для содействия воспроизведению наших результатов.
Создание интерактивных цифровых сред для игр, робототехники и моделирования опирается на сочленённые 3D-объекты, функциональность которых определяется геометрией их частей и кинематической структурой. Однако существующие подходы имеют фундаментальные ограничения: методы реконструкции на основе оптимизации требуют медленного, индивидуального подбора соединений для каждого объекта и обычно работают только с простыми объектами, имеющими одно сочленение, в то время как методы на основе поиска собирают части из фиксированной библиотеки, что приводит к повторяющейся геометрии и плохой обобщающей способности. Для решения этих проблем мы представляем ArtLLM — новую систему для генерации высококачественных сочленённых ассетов непосредственно из полных 3D-сеток. В её основе лежит 3D-мультимодальная большая языковая модель, обученная на масштабном наборе данных по артикуляции, созданном из существующих датасетов и процедурно сгенерированных объектов. В отличие от предыдущих работ, ArtLLM авторегрессивно предсказывает переменное количество частей и соединений, выводя их кинематическую структуру единым образом из облака точек объекта. Затем этот учитывающий артикуляцию план управляет 3D-генеративной моделью для синтеза геометрий частей с высокой точностью. Эксперименты на наборе данных PartNet-Mobility показывают, что ArtLLM значительно превосходит современные методы как по точности планирования частей, так и по предсказанию соединений, демонстрируя при этом robustную обобщаемость на реальные объекты. Наконец, мы показываем её полезность для построения цифровых двойников, подчёркивая потенциал для масштабируемого обучения роботов.
Крупные языковые модели (LLM) коренным образом преобразовали плотный поиск, сменив базовую архитектуру с дискриминативных энкодеров на генеративные. Однако сохраняется ключевой разрыв: хотя LLM обладают мощными способностями к рассуждению, современные системы поиска в основном используют их как статические энкодеры, оставляя нераскрытым их потенциал для сложных логических выводов. Для решения этой проблемы существующие подходы обычно применяют конвейеры «переписать-затем-найти» для генерации явных цепочек рассуждений (CoT) перед поиском. Однако это приводит к неприемлемой задержке. В данной статье мы предлагаем LaSER — новую структуру само-дистилляции, которая интериоризирует явные рассуждения в латентное пространство плотных систем поиска. Работая на общей LLM-архитектуре, LaSER вводит механизм двухканального обучения: Явный канал, который явно кодирует эталонные траектории рассуждений, и Латентный канал, выполняющий неявное латентное мышление. Для соединения этих каналов мы разработали стратегию многомасштабного выравнивания. Помимо стандартного выравнивания выходов, мы вводим механизм выравнивания траекторий, который синхронизирует промежуточные латентные состояния латентного пути с семантической прогрессией явных сегментов рассуждений. Это позволяет системе поиска «думать молча» и эффективно без авторегрессионной генерации текста. Многочисленные эксперименты на внутри- и внедоменных тестах, требующих интенсивных рассуждений, демонстрируют, что LaSER существенно превосходит современные базовые методы. Кроме того, анализ на различных архитектурах и масштабах моделей подтверждает устойчивость нашего подхода, показывая, что наша унифицированная структура обучения важна для пробуждения эффективного латентного мышления. Наш метод успешно объединяет глубину рассуждений явных CoT-конвейеров с эффективностью вывода стандартных плотных систем поиска.
Обучение с подкреплением на тестовых данных (TTRL) стало перспективной парадигмой для саморазвивающихся больших моделей рассуждений (LRM), позволяя осуществлять онлайн-адаптацию на размеченных тестовых входных данных посредством самоиндуцированных вознаграждений на основе мажоритарного голосования. Однако, ложный, но высокочастотный непроверенный консенсус может стать смещенным и усиленным сигналом вознаграждения, приводя к коллапсу неправильной моды. Мы устраняем этот тип сбоя с помощью T³RL (Проверка Инструментами для Обучения с Подкреплением на Тестовых Данных), которая вводит проверку инструментами на этапе тестирования в оценку вознаграждения. Конкретно, верификатор использует внешний инструмент в качестве доказательства (например, выполнение кода), чтобы увеличить вес проверенных траекторий в верификационно-ориентированном голосовании, создавая более надежные псевдо-метки для обучения. На различных наборах математических задач разной сложности (MATH-500, AMC и AIME 2024) и с разнообразными типами базовых моделей T³RL значительно превосходит TTRL, демонстрируя больший прирост на более сложных задачах. В более широком смысле, T³RL можно рассматривать как верифицированный синтез данных в режиме онлайн, что подчеркивает проверку инструментами на этапе тестирования как ключевой механизм для стабилизации саморазвития.
Обучение на верифицируемых символьных данных является перспективным способом расширения границ логического мышления языковых моделей за пределы того, что предоставляют стандартные корпуса для предварительного обучения. Однако существующие процедурные генераторы часто полагаются на фиксированные головоломки или шаблоны и не обеспечивают необходимой широты распределения данных в больших масштабах. Мы представляем Reasoning Core — масштабируемый набор инструментов, который процедурно генерирует верифицируемые символьные данные для логических рассуждений в ключевых формальных областях: планирование на языке PDDL в рандомизированных доменах, логика первого порядка с равенством, синтаксический анализ и генерация контекстно-свободных грамматик, причинно-следственные рассуждения на случайных байесовских сетях и системы уравнений. Каждая задача снабжена внешним решателем для строгой верификации и допускает непрерывный контроль сложности для построения учебных программ. Примеры могут по желанию включать трассировки рассуждений, полученные от решателя, что позволяет осуществлять обучение с учителем уже на самых ранних этапах предварительного обучения, а тот же интерфейс предоставляет верифицируемые функции вознаграждения для обучения с подкреплением. Наши эксперименты показывают, что включение данных Reasoning Core в предварительное обучение улучшает последующие логические рассуждения, сохраняя или даже немного улучшая качество языкового моделирования. Оценка с нулевым разгоном подтверждает, что эти задачи бросают вызов передовым моделям, таким как GPT-5. Код и данные находятся в открытом доступе по лицензии MIT.
В данном отчете представлена CharacterFlywheel — итеративный процесс по принципу маховика для улучшения больших языковых моделей (LLM) в промышленных социальных чат-приложениях Instagram, WhatsApp и Messenger. Отталкиваясь от модели LLaMA 3.1, мы совершенствовали модели на протяжении 15 поколений, используя данные как внутреннего, так и внешнего трафика реальных пользователей. В ходе непрерывных развертываний с июля 2024 года по апрель 2025 года мы проводили контролируемые 7-дневные A/B-тесты, которые показали стабильное улучшение вовлеченности: 7 из 8 вновь развернутых моделей продемонстрировали положительный прирост по сравнению с базовым уровнем, при этом наиболее эффективные модели достигли улучшения широты вовлеченности до 8,8% и глубины вовлеченности до 19,4%. Мы также наблюдали существенный прогресс в управляемости: следование инструкциям увеличилось с 59,2% до 84,8%, а нарушения инструкций снизились с 26,6% до 5,8%. Мы подробно описываем процесс CharacterFlywheel, который интегрирует курацию данных, моделирование вознаграждения для оценки и интерполяции ландшафта метрик вовлеченности, контролируемое тонкое настройка (SFT), обучение с подкреплением (RL), а также офлайн- и онлайн-оценку для обеспечения надежного прогресса на каждом шаге оптимизации. Также обсуждаются наши методы предотвращения переобучения и управления производственной динамикой в масштабе. Данные достижения способствуют повышению научной строгости и углублению понимания LLM в социальных приложениях, обслуживающих миллионы пользователей.
Мы представляем (Classroom Final Exam) — мультимодальный бенчмарк для оценки способностей больших языковых моделей к рассуждениям в более чем 20 предметных областях STEM. Бенчмарк составлен из реальных, многократно использовавшихся домашних заданий и экзаменационных задач университетского уровня, сопровождаемых эталонными решениями, предоставленными преподавателями курсов. представляет собой серьёзное испытание даже для передовых моделей: недавно выпущенная Gemini-3.1-pro-preview демонстрирует общую точность 59,69%, в то время как следующая за ней модель, Gemini-3-flash-preview, достигает 55,46%, что указывает на значительный потенциал для улучшений. Помимо результатов лидерборда, мы проводим диагностический анализ, декомпозируя эталонные решения на последовательности рассуждений. Мы обнаружили, что хотя передовые модели часто правильно отвечают на промежуточные подвопросы, они испытывают трудности с надёжным выводом и поддержанием корректных промежуточных состояний на протяжении многошаговых решений. Мы также наблюдаем, что сгенерированные моделями решения обычно содержат больше шагов рассуждений по сравнению с решениями преподавателей, что указывает на неоптимальную эффективность шагов и более высокий риск накопления ошибок. Данные и код доступны по адресу https://github.com/Analogy-AI/CFE_Bench.
Современные диффузионные модели для генерации изображений по тексту (text-to-image, T2I) демонстрируют впечатляющий реализм, однако точное соответствие между текстовым запросом и изображением остается сложной задачей, особенно для комплексных промптов с множеством объектов, связей и детализированных атрибутов. Существующие методы масштабирования на этапе вывода, не требующие обучения, опираются на фиксированный бюджет итераций, не способный адаптироваться к сложности запроса, в то время как модели с настройкой через рефлексию требуют тщательно отобранных наборов данных для рефлексии и масштабной совместной дообучки диффузионных и визуально-языковых моделей, что часто приводит к переобучению на путях рефлексии и недостаточной переносимости между моделями. Мы представляем RAISE (Requirement-Adaptive Self-Improving Evolution) — не требующую обучения эволюционную систему для адаптивной генерации T2I, управляемую требованиями. RAISE формулирует генерацию изображения как процесс адаптивного масштабирования, направляемый требованиями, развивая на этапе вывода популяцию кандидатов с помощью разнообразных действий по улучшению, включая переформулирование промпта, повторную выборку шума и редактирование по инструкциям. Каждое поколение проверяется по структурированному контрольному списку требований, что позволяет системе динамически выявлять неудовлетворенные пункты и выделять дополнительные вычислительные ресурсы только там, где это необходимо. Это обеспечивает адаптивное масштабирование на этапе тестирования, согласующее вычислительные затраты со смысловой сложностью запроса. На наборах данных GenEval и DrawBench RAISE достигает наилучших показателей соответствия (0.94 по GenEval в целом), при этом генерируя меньше образцов (сокращение на 30–40%) и совершая меньше вызовов визуально-языковой модели (сокращение на 80%) по сравнению с предыдущими методами масштабирования и моделями с настройкой через рефлексию, демонстрируя эффективное, обобщаемое и модельно-агностическое самосовершенствование в несколько раундов. Код доступен по адресу https://github.com/LiyaoJiang1998/RAISE.
Мы представляем Synthetic Visual Genome 2 (SVG2) — крупномасштабный датасет панорамных видео-сценовых графов. SVG2 содержит более 636 тыс. видеороликов с 6,6 млн объектов, 52,0 млн атрибутов и 6,7 млн отношений, что на порядок превосходит масштаб и разнообразие предыдущих пространственно-временных датасетов сценовых графов. Для создания SVG2 мы разработали полностью автоматизированный конвейер, объединяющий панорамную сегментацию в multiple масштабах, трекинг траекторий в онлайн- и офлайн-режимах с автоматическим обнаружением новых объектов, семантический парсинг на уровне траекторий и пространственно-временной вывод отношений на основе GPT-5. На основе этого ресурса мы обучаем TRaSER — модель генерации видео-сценовых графов. TRaSER расширяет возможности визуальных языковых моделей (VLM) за счёт механизма выравнивания токенов по траекториям и новых модулей: ресемплера объектных траекторий и ресемплера временных окон для преобразования исходных видео и панорамных траекторий в компактные пространственно-временные сценовые графы за один прямой проход. Ресемплер временных окон связывает визуальные токены с короткими сегментами траекторий для сохранения локальной динамики и временной семантики, а ресемплер объектных траекторий агрегирует полные траектории для поддержания глобального контекста объектов. На тестовых наборах данных PVSG, VIPSeg, VidOR и SVG2 модель TRaSER улучшает детекцию отношений на +15–20%, предсказание объектов — на +30–40% по сравнению с сильнейшими открытыми базовыми методами и на +13% относительно GPT-5, а предсказание атрибутов — на +15%. Когда сценовые графы, сгенерированные TRaSER, передаются в VLM для ответов на вопросы по видео, это обеспечивает прирост абсолютной точности на +1,5–4,6% по сравнению с использованием только видео или видео, дополненного сценовыми графами от Qwen2.5-VL, что демонстрирует полезность явных пространственно-временных сценовых графов в качестве промежуточного представления.
Визуальное ответы на вопросы на основе знаний (KB-VQA) демонстрируют значительный потенциал для решения задач, требующих интенсивного использования знаний. Однако возникают конфликты между статическими параметрическими знаниями в моделях «визуальный язык» (VLM) и динамически извлекаемой информацией из-за статичности знаний модели, полученных на этапе предварительного обучения. Выходные данные либо игнорируют извлеченный контекст, либо демонстрируют несогласованную интеграцию с параметрическими знаниями, что создает серьезные проблемы для KB-VQA. Современные методы смягчения конфликтов знаний в основном адаптированы из подходов, основанных на языке, и сосредоточены на конфликтах на уровне контекста с помощью специальных промптинговых стратегий или механизмов декодирования с учетом контекста. Однако эти методы игнорируют критически важную роль визуальной информации в конфликтах и страдают от избыточности извлекаемого контекста, что мешает точному определению конфликтов и их эффективному устранению. Для преодоления этих ограничений мы предлагаем CC-VQA: новый не требующий дообучения метод для KB-VQA, учитывающий конфликты и корреляции. Наш метод состоит из двух ключевых компонентов: (1) Визуально-центричное контекстуальное разрешение конфликтов, которое выполняет визуально-семантический анализ конфликтов во внутренних и внешних контекстах знаний; и (2) Кодирование и декодирование с управлением корреляциями, включающее компрессию позиционного кодирования для утверждений с низкой корреляцией и адаптивное декодирование с использованием взвешенной по корреляциям оценки конфликтов. Обширные оценки на бенчмарках E-VQA, InfoSeek и OK-VQA демонстрируют, что CC-VQA достигает наилучшей производительности, обеспечивая абсолютное улучшение точности на 3,3\%–6,4\% по сравнению с существующими методами. Код доступен по адресу https://github.com/cqu-student/CC-VQA.
Мы определяем учет заслонения как фундаментальный, но недооцененный аспект в задаче генерации изображений по 3D-компоновке. Он необходим для синтеза частично заслоненных объектов с геометрией и масштабом, согласованными по глубине. Хотя существующие методы могут генерировать реалистичные сцены, соответствующие входным компоновкам, они часто не способны точно моделировать взаимные заслонения объектов. Мы предлагаем SeeThrough3D — модель для генерации по 3D-компоновке, которая явно моделирует заслонения. Мы вводим occlusion-aware 3D-представление сцены (OSCR), в котором объекты изображаются в виде полупрозрачных 3D-боксов, размещенных в виртуальной среде и отрендеренных с заданной точки зрения камеры. Прозрачность кодирует скрытые области объектов, позволяя модели учитывать заслонения, а рендеринг с определенной точки зрения обеспечивает явный контроль над камерой в процессе генерации. Мы используем предобученную flow-based текстово-изобразительную модель генерации, вводя набор визуальных токенов, полученных из нашего отрендеренного 3D-представления. Кроме того, мы применяем маскированную самовнимание для точной привязки каждого ограничивающего прямоугольника объекта к его текстовому описанию, что позволяет точно генерировать несколько объектов без смешивания их атрибутов. Для обучения модели мы создали синтетический датасет с разнообразными многопользовательскими сценами с сильными взаимными заслонениями объектов. SeeThrough3D эффективно обобщается на незнакомые категории объектов и обеспечивает точный контроль 3D-компоновки с реалистичными заслонениями и согласованным управлением камерой.
Федеративная настройка по инструкциям (FIT) позволяет совместно настраивать большие языковые модели по инструкциям в условиях кросс-изолированной среды с участием нескольких организаций (клиентов) без необходимости обмена приватными инструкциями. Недавние исследования о естественных бэкдорах и существующий метод сбора обучающих данных указывают на то, что отравленные образцы могут быть повсеместно и непреднамеренно внедрены в реальные наборы данных, потенциально распределенные среди всех клиентов, даже если клиенты добросовестны. В данной работе систематически исследуется эта угроза в контексте FIT, демонстрируя, что существующие методы защиты неэффективны, когда отравленные данные рассредоточены среди всех клиентов. Решение этой проблемы сопряжено с двумя основными трудностями: выявлением отличительных характеристик отравленных образцов у каждого клиента и обеспечением совместной защиты в условиях, когда некоторые клиенты сильно насыщены отравленными образцами. Для преодоления этих трудностей мы определяем градиенты в частотной области как надежный сигнал для распознавания отравленных данных. Кроме того, мы предлагаем механизм глобальной вторичной кластеризации, который способствует совместному выявлению отравленных образцов между клиентами. В итоге, данная статья представляет ProtegoFed — первую свободную от бэкдоров framework FIT, которая точно обнаруживает, удаляет и даже очищает рассредоточенные отравленные данные между клиентами в процессе обучения. Результаты экспериментов на четырех наборах данных FL показывают, что ProtegoFed идентифицирует от 92,00% до 100,00% отравленных образцов, снижает успешность атаки почти до нуля и сохраняет полезность модели для основной задачи. Код доступен по адресу https://github.com/dongdongzhaoUP/ProtegoFed.
Последние достижения в области генерации видео открыли новые возможности для макроскопического моделирования сложных динамических систем, однако их применение к микроскопическим явлениям остаётся практически неисследованным. Микроскопическое моделирование обладает огромным потенциалом для биомедицинских приложений, таких как разработка лекарств, системы "орган-на-чипе" и изучение механизмов заболеваний, а также демонстрирует перспективы в образовании и интерактивной визуализации. В данной работе мы представляем MicroWorldBench — многоуровневый критериально-ориентированный бенчмарк для задач микроскопического моделирования. MicroWorldBench позволяет проводить систематическую оценку на основе 459 уникальных экспертно-аннотированных критериев, охватывающих множество задач микроскопического моделирования (например, процессы на уровне органов, клеточная динамика и молекулярные взаимодействия на субклеточном уровне) и оценочных измерений (например, научная достоверность, визуальное качество, следование инструкциям). MicroWorldBench показывает, что современные state-of-the-art модели генерации видео не справляются с микроскопическим моделированием, демонстрируя нарушения физических законов, временную несогласованность и расхождение с экспертными критериями. Для решения этих проблем мы создали MicroSim-10K — высококачественный, проверенный экспертами набор данных для моделирования. Используя этот набор данных, мы обучаем MicroVerse — модель генерации видео, специализированную для микроскопического моделирования. MicroVerse способна точно воспроизводить сложные микроскопические механизмы. Наша работа впервые вводит концепцию Micro-World Simulation и представляет работающий прототип, прокладывая путь для приложений в биологии, образовании и научной визуализации. Наша работа демонстрирует потенциал образовательного микроскопического моделирования биологических механизмов. Наши данные и код общедоступны по адресу https://github.com/FreedomIntelligence/MicroVerse.
Разработка систем автоматического распознавания речи (АРР) для языков с ограниченными ресурсами затруднена из-за нехватки размеченных корпусов. В данном исследовании, носящем доказательный характер, песни рассматриваются как нетрадиционный, но перспективный источник данных для казахской АРР. Мы подготовили набор данных, состоящий из 3013 аудио-текстовых пар (около 4,5 часов) из 195 песен 36 исполнителей, сегментированных на уровне строк текста. Используя Whisper в качестве базового распознавателя, мы дообучаем модели в семи сценариях с использованием данных из песен (Songs), Common Voice Corpus (CVC) и FLEURS, и оцениваем их на трех тестовых наборах: CVC, FLEURS и Kazakh Speech Corpus 2 (KSC2). Результаты показывают, что дообучение на песнях улучшает производительность по сравнению с базовыми моделями без дообучения (zero-shot). Например, Whisper Large-V3 Turbo, дообученная на смеси данных из Songs, CVC и FLEURS, достигает нормализованной WER 27,6% на CVC и 11,8% на FLEURS, одновременно уменьшая ошибку на KSC2 вдвое (39,3% против 81,2%) по сравнению с zero-shot моделью. Хотя эти улучшения остаются ниже результатов моделей, обученных на 1100-часовом корпусе KSC2, они демонстрируют, что даже небольшие смеси песенных и речевых данных могут привести к значительной адаптации в условиях ограниченных ресурсов для АРР. Набор данных опубликован на Hugging Face для исследовательских целей под ограничительной некоммерческой лицензией.
Обучение путем наблюдения требует от агента научиться выполнять задачу, используя только наблюдения за ее выполнением. В данной работе исследуется аналогичная постановка задачи в области обучения реальных роботов, где не предполагается доступ к заранее заданным функциям вознаграждения или действиям демонстратора. Для решения этой задачи в условиях ограниченности данных представлен алгоритм обучения с обратным подкреплением (Inverse Reinforcement Learning, IRL), основанный на планировании, для построения модели мира исключительно на основе наблюдений и взаимодействия. Эксперименты, полностью проведенные в реальном мире, демонстрируют, что данный подход эффективен для обучения манипуляционным задачам на основе изображений с нуля менее чем за час, без использования априорных знаний, предварительного обучения или каких-либо данных, кроме наблюдений за задачей. Более того, показано, что полученная модель мира способна к онлайн-переобучению в реальном мире с нуля. По сравнению с существующими подходами, включая IRL, обучение с подкреплением (RL) и клонирование поведения (Behavior Cloning, BC), которые основаны на более строгих предположениях, предложенный метод демонстрирует значительно более высокую эффективность использования данных и процент успешного выполнения задач, открывая практический путь для онлайн-моделирования мира и планирования на основе наблюдений и взаимодействия. Видео и дополнительная информация доступны по ссылке: https://uwrobotlearning.github.io/mpail2/.
Мы представляем FireRed-OCR — системную платформу для преобразования общих VLM в высокопроизводительные OCR-модели. Крупные мультимодальные языковые модели (VLM) продемонстрировали впечатляющие общие возможности, но часто страдают от «структурных галлюцинаций» при обработке сложных документов, что ограничивает их полезность в промышленных OCR-приложениях. В данной статье мы представляем FireRed-OCR — новую платформу, предназначенную для преобразования моделей общего назначения (на базе Qwen3-VL) в экспертов по пиксельно-точному структурному анализу документов. Для решения проблемы нехватки высококачественных структурированных данных мы создали «Геометрическую + Семантическую» Фабрику Данных. В отличие от традиционной случайной выборки, наш конвейер использует кластеризацию геометрических признаков и многомерную разметку для синтеза и курирования высокосбалансированного набора данных, эффективно обрабатывающего редкие макеты и типы документов. Кроме того, мы предлагаем Трехэтапную Прогрессивную Стратегию Обучения, которая направляет модель от пиксельного восприятия к генерации логической структуры. Эта учебная программа включает: (1) Многозадачную предварительную адаптацию для закрепления понимания моделью структуры документа; (2) Специализированное SFT для стандартизации вывода Markdown для всего изображения; и (3) Оптимизацию Групповой Относительной Политики с Ограничениями Формата (GRPO), которая использует обучение с подкреплением для обеспечения строгой синтаксической валидности и структурной целостности (например, закрытие таблиц, синтаксис формул). Обширные оценки на OmniDocBench v1.5 показывают, что FireRed-OCR достигает наилучшей производительности с общим баллом 92,94%, значительно превосходя сильные базовые модели, такие как DeepSeek-OCR 2 и OCRVerse, по метрикам текста, формул, таблиц и порядка чтения. Мы открываем исходный код и веса нашей модели для содействия парадигме «От общего VLM к специализированному структурному эксперту».
Модели геопространственных основ (Geo-Foundation Models, GFMs) были оценены на разнообразных задачах дистанционного зондирования Земли, включая несколько предметных областей, и продемонстрировали значительный потенциал для создания надежных карт даже при наличии разреженных размеченных данных. Однако тестирование GFMs для криосферных приложений до сих пор было ограниченным, в основном из-за отсутствия подходящих наборов данных для оценки. Чтобы восполнить этот пробел, мы представляем Cryo-Bench — эталонный набор данных, созданный для оценки производительности GFMs по ключевым компонентам криосферы. Cryo-Bench включает задернованные ледники, ледниковые озера, морской лед и линии откола айсбергов, охватывая данные с различных сенсоров и обширные географические регионы. Мы оцениваем 14 моделей GFMs вместе с базовыми моделями UNet и ViT, чтобы определить их преимущества, ограничения и оптимальные стратегии использования. При замороженном энкодере UNet достигает наивысшего среднего mIoU в 66.38, за ним следует TerraMind с показателем 64.02 на пяти наборах данных для оценки, входящих в Cryo-Bench. В условиях обучения с малым количеством данных (10% входных данных) такие GFMs, как DOFA и TerraMind, превосходят UNet, достигая показателей mIoU 59.53, 56.62 и 56.60 соответственно, по сравнению с 56.60 у U-Net. При полной дообучке GFMs мы наблюдаем нестабильную производительность across наборами данных и моделями. Однако настройка скорости обучения вместе с дообучением существенно улучшает производительность GFMs. Например, оценка на двух репрезентативных наборах данных (GLID и CaFFe) показывает среднее относительное улучшение на 12.77%. Несмотря на минимальное представление данных по криосфере в их предварительно обученных данных, GFMs демонстрируют заметные способности к адаптации к домену и дают осмысленные результаты across задачами. На основе наших выводов мы рекомендуем тонкую настройку энкодера с оптимизацией гиперпараметров для достижения наилучшей возможной производительности, используя при этом замороженные энкодеры, когда пользователям нужны быстрые результаты без проведения обширных экспериментов. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
Молочная продуктивность молочных коз зааненской породы, известных высокими удоями, тесно связана с их размерами тела, что делает точные 3D-измерения тела необходимыми для оценки потенциала надоев. Однако существующие методы реконструкции не располагают аутентичными 3D-данными, специфичными для коз. Для устранения этого ограничения мы создали набор данных FemaleSaanenGoat, содержащий синхронизированные RGBD-видеозаписи в восьми проекциях 55 самок зааненских коз (возраст 6–18 месяцев). Используя многовидовой DynamicFusion, мы объединяем зашумленные нежесткие последовательности облаков точек в высокоточные 3D-сканы, преодолевая проблемы, связанные с неровными поверхностями и быстрыми движениями. На основе этих сканов мы разработали SaanenGoat — параметрическую 3D-модель формы, специально созданную для самок зааненских коз. Данная модель включает усовершенствованный шаблон с 41 скелетным суставом и улучшенным представлением вымени, зарегистрированный на наших данных сканирования. Комплексное пространство форм, построенное на основе 48 коз, позволяет точно отображать разнообразные индивидуальные вариации. С помощью модели SaanenGoat мы получаем высокоточную 3D-реконструкцию по однопроекционному RGBD-вводу и достигаем автоматизированного измерения шести ключевых размеров тела: длины туловища, высоты в холке, ширины груди, обхвата груди, ширины крупа и высоты в крестце. Результаты экспериментов демонстрируют превосходную точность нашего метода как в 3D-реконструкции, так и в измерениях тела, предлагая новую парадигму для крупномасштабных 3D-приложений в точном животноводстве.