Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предлагаем FlowRL: метод, который сопоставляет полное распределение вознаграждений через балансировку потоков вместо максимизации вознаграждений в обучении с подкреплением (RL) для больших языковых моделей (LLM). Современные модели продвинутого рассуждения используют методы максимизации вознаграждений (например, PPO и GRPO), которые склонны к чрезмерной оптимизации доминирующих сигналов вознаграждения, игнорируя менее частые, но допустимые пути рассуждения, что снижает разнообразие. В отличие от этого, мы преобразуем скалярные вознаграждения в нормализованное целевое распределение с использованием обучаемой функции разбиения, а затем минимизируем обратную дивергенцию Кульбака-Лейблера между политикой и целевым распределением. Мы реализуем эту идею как метод оптимизации с балансировкой потоков, который способствует разнообразному исследованию и обобщаемым траекториям рассуждения. Мы проводим эксперименты на задачах математического и программного рассуждения: FlowRL демонстрирует значительное среднее улучшение на 10,0% по сравнению с GRPO и на 5,1% по сравнению с PPO на математических бенчмарках, а также стабильно лучше справляется с задачами программного рассуждения. Эти результаты подчеркивают, что сопоставление распределения вознаграждений является ключевым шагом к эффективному исследованию и разнообразному рассуждению в обучении с подкреплением для LLM.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), позволили создать агентов для работы с компьютерами (Computer Use Agents, CUAs), которые автономно взаимодействуют с графическими интерфейсами, демонстрируя значительный потенциал. Однако прогресс ограничен отсутствием крупномасштабных открытых данных и базовых моделей для работы с компьютерами. В данной работе мы представляем ScaleCUA — шаг к масштабированию открытых CUAs. Мы предлагаем крупномасштабный набор данных, охватывающий 6 операционных систем и 3 предметные области, созданный с помощью замкнутого цикла, объединяющего автоматизированных агентов и экспертов-людей. Обученная на этих масштабированных данных, ScaleCUA способна работать на различных платформах без затруднений. В частности, она демонстрирует значительное улучшение по сравнению с базовыми моделями (+26,6 на WebArena-Lite-v2, +10,7 на ScreenSpot-Pro) и устанавливает новые рекорды (94,4% на MMBench-GUI L1-Hard, 60,6% на OSWorld-G, 47,4% на WebArena-Lite-v2). Эти результаты подчеркивают силу масштабирования на основе данных для создания универсальных агентов работы с компьютерами. Мы опубликуем данные, модели и код для содействия будущим исследованиям: https://github.com/OpenGVLab/ScaleCUA.
Крупные языковые модели (LLM) всё чаще применяются в различных реальных сценариях, каждый из которых регулируется уникальными поведенческими и безопасностными спецификациями (spec), адаптированными пользователями или организациями. Эти спецификации, разделяемые на безопасностные (safety-spec) и поведенческие (behavioral-spec), варьируются в зависимости от сценариев и эволюционируют вместе с изменяющимися предпочтениями и требованиями. Мы формализуем эту задачу как проблему согласования спецификаций, фокусируясь на способности LLM следовать динамическим, сценарий-специфичным спецификациям как с поведенческой, так и с безопасностной точек зрения. Для решения этой задачи мы предлагаем Align3 — лёгкий метод, использующий тестовую рефлексию (Test-Time Deliberation, TTD) с иерархическим анализом и корректировкой для рассуждений в рамках границ спецификаций. Мы также представляем SpecBench — унифицированный бенчмарк для измерения согласования спецификаций, охватывающий 5 сценариев, 103 спецификации и 1 500 запросов. Эксперименты с 15 моделями для рассуждений и 18 инструктивными моделями с использованием нескольких методов TTD, включая Self-Refine, TPO и MoreThink, дают три ключевых вывода: (i) тестовая рефлексия улучшает согласование спецификаций; (ii) Align3 продвигает границу компромисса между безопасностью и полезностью с минимальными накладными расходами; (iii) SpecBench эффективно выявляет пробелы в согласовании. Эти результаты подчеркивают потенциал тестовой рефлексии как эффективной стратегии для рассуждений в рамках границ реальных спецификаций.
Мы представляем AToken — первый унифицированный визуальный токенизатор, который достигает как высококачественной реконструкции, так и семантического понимания для изображений, видео и 3D-объектов. В отличие от существующих токенизаторов, специализирующихся либо на реконструкции, либо на понимании для отдельных модальностей, AToken кодирует эти разнообразные визуальные данные в общее 4D-латентное пространство, объединяя обе задачи и модальности в единой структуре. В частности, мы предлагаем архитектуру на основе чистого трансформера с 4D-ротационными позиционными эмбеддингами для обработки визуальных данных произвольного разрешения и временной длительности. Для обеспечения стабильного обучения мы вводим цель обучения без использования состязательных подходов, сочетающую перцептивные потери и потери на основе матриц Грама, что позволяет достичь передового качества реконструкции. Благодаря прогрессивной учебной программе, AToken постепенно расширяется от отдельных изображений к видео и 3D-объектам, поддерживая как непрерывные, так и дискретные латентные токены. AToken достигает показателя 0.21 rFID с точностью 82.2% на ImageNet для изображений, 3.01 rFVD с точностью 32.6% на MSRVTT для видео и 28.19 PSNR с точностью 90.9% для классификации 3D-объектов. В прикладных задачах AToken позволяет выполнять как задачи визуальной генерации (например, генерация изображений с использованием непрерывных и дискретных токенов, генерация видео из текста, синтез 3D из изображений), так и задачи понимания (например, мультимодальные LLM), демонстрируя конкурентоспособные результаты на всех тестах. Эти результаты открывают путь к созданию нового поколения мультимодальных ИИ-систем, основанных на унифицированной визуальной токенизации.
Крупные языковые модели (LLM) всё чаще обучаются с использованием обучения с подкреплением на основе проверяемых вознаграждений (RLVR), однако реальное применение требует моделей, способных к самоулучшению без использования меток или внешних оценок. Существующие методы без меток, такие как минимизация уверенности, самосогласованность или цели, основанные на большинстве голосов, стабилизируют обучение, но постепенно сокращают исследование, что приводит к коллапсу энтропии: генерации становятся короче, менее разнообразными и хрупкими. В отличие от предыдущих подходов, таких как обучение с подкреплением на этапе тестирования (TTRL), которые в основном адаптируют модели к текущему немаркированному набору данных, наша цель шире: обеспечить общее улучшение без ущерба для внутренней способности модели к исследованию и обобщению, то есть к эволюции. Мы формализуем эту проблему и предлагаем EVolution-Oriented and Label-free Reinforcement Learning (EVOL-RL), простое правило, которое сочетает стабильность с вариативностью в условиях отсутствия меток. EVOL-RL использует ответ, выбранный большинством голосов, в качестве стабильной опоры (выбор), добавляя при этом вознаграждение, учитывающее новизну, которое поощряет ответы, чьи рассуждения отличаются от уже созданных (вариативность), измеряемые в семантическом пространстве. Реализованный с помощью GRPO, EVOL-RL также использует асимметричное ограничение для сохранения сильных сигналов и регуляризатор энтропии для поддержания поиска. Этот дизайн, основанный на выборе большинства и вариативности новизны, предотвращает коллапс, поддерживает более длинные и информативные цепочки рассуждений и улучшает как pass@1, так и pass@n. EVOL-RL стабильно превосходит базовый уровень TTRL, основанный только на большинстве; например, обучение на немаркированном AIME24 повышает pass@1 для Qwen3-4B-Base на AIME25 с 4.6% у TTRL до 16.4%, а pass@16 — с 18.5% до 37.9%. EVOL-RL не только предотвращает коллапс разнообразия, но и открывает более сильное обобщение в различных областях (например, GPQA). Кроме того, мы демонстрируем, что EVOL-RL также повышает производительность в условиях RLVR, подчеркивая его широкую применимость.
Недавние модели диффузии видео демонстрируют значительный потенциал в задачах пространственного интеллекта благодаря своим богатым априорным знаниям о мире. Однако этот потенциал ограничивается их недостаточной управляемостью и геометрической несогласованностью, что создает разрыв между их сильными априорными знаниями и практическим применением в задачах 3D/4D. В результате современные подходы часто полагаются на переобучение или тонкую настройку, что может привести к ухудшению предварительно обученных знаний и требует высоких вычислительных затрат. Для решения этой проблемы мы предлагаем WorldForge, обучающийся на этапе вывода фреймворк, состоящий из трех тесно связанных модулей. Внутришаговая рекурсивная оптимизация вводит механизм рекурсивной оптимизации на этапе вывода, который многократно улучшает предсказания сети на каждом шаге шумоподавления, что позволяет точно вводить траектории. Слияние латентных пространств с управлением по оптическому потоку использует сходство оптического потока для разделения движения и внешнего вида в латентном пространстве и выборочного введения управления траекториями в каналы, связанные с движением. Двухпутевое самокорректирующее управление сравнивает управляемые и неуправляемые пути шумоподавления для адаптивной коррекции отклонений траекторий, вызванных зашумленными или несовмещенными структурными сигналами. Вместе эти компоненты вводят детализированное управление, согласованное с траекториями, без необходимости обучения, достигая как точного управления движением, так и фотореалистичного создания контента. Многочисленные эксперименты на различных бенчмарках подтверждают превосходство нашего метода в реалистичности, согласованности траекторий и визуальной точности. Эта работа представляет новую парадигму "подключи и работай" для управляемого синтеза видео, предлагая новый взгляд на использование генеративных априорных знаний для пространственного интеллекта.
Поиск стал ключевой инфраструктурой для агентов на основе больших языковых моделей (LLM) и широко рассматривается как критически важный элемент на пути к более общему искусственному интеллекту. Финансовая сфера представляет собой особенно требовательную площадку для испытаний: аналитики регулярно проводят сложные, многоэтапные поиски в данных, чувствительных ко времени и специфичных для предметной области, что делает её идеальной для оценки как навыков поиска, так и обоснованного рассуждения на основе знаний. Однако в существующих открытых финансовых наборах данных отсутствует оценка способности поиска данных для сквозных агентов, в основном потому, что создание реалистичных, сложных задач требует глубоких финансовых знаний, а данные, чувствительные ко времени, сложно оценивать. Мы представляем FinSearchComp — первый полностью открытый эталонный тест для реалистичного поиска и рассуждения в открытой финансовой области. FinSearchComp включает три задачи — Получение данных, чувствительных ко времени, Простой исторический поиск и Сложное историческое исследование, — которые точно воспроизводят рабочие процессы реальных финансовых аналитиков. Чтобы обеспечить сложность и надежность, мы привлекли 70 профессиональных финансовых экспертов для аннотирования и реализовали строгий многоэтапный конвейер контроля качества. Эталонный тест включает 635 вопросов, охватывающих глобальные рынки и рынки Большого Китая, и мы оцениваем на нём 21 модель (продукт). Grok 4 (web) лидирует в глобальном подмножестве, приближаясь к точности экспертного уровня. DouBao (web) возглавляет подмножество Большого Китая. Экспериментальные анализы показывают, что оснащение агентов веб-поиском и финансовыми плагинами существенно улучшает результаты на FinSearchComp, а страна происхождения моделей и инструментов значительно влияет на производительность. Соответствуя реалистичным задачам аналитиков и предоставляя сквозную оценку, FinSearchComp предлагает профессиональную, высокосложную тестовую среду для сложного финансового поиска и рассуждения.
Недавние исследования продемонстрировали важность высококачественных визуальных представлений в генерации изображений и подчеркнули ограничения генеративных моделей в понимании изображений. Как генеративная парадигма, изначально разработанная для обработки естественного языка, авторегрессионные модели сталкиваются с аналогичными проблемами. В данной работе мы представляем первое систематическое исследование механизмов применения парадигмы предсказания следующего токена в визуальной области. Мы выделяем три ключевых свойства, которые препятствуют изучению высокоуровневой визуальной семантики: локальная и условная зависимость, семантическая несогласованность между шагами и недостаток пространственной инвариантности. Мы показываем, что эти проблемы могут быть эффективно решены за счет введения самоконтролируемых задач в процессе обучения, что приводит к новой обучающей структуре — Self-guided Training for AutoRegressive models (ST-AR). Без использования предварительно обученных моделей представлений ST-AR значительно улучшает способность авторегрессионных моделей понимать изображения и повышает качество генерации. В частности, ST-AR обеспечивает улучшение FID примерно на 42% для LlamaGen-L и на 49% для LlamaGen-XL при сохранении той же стратегии сэмплирования.
В данной статье представлена модель RynnVLA-001, объединяющая зрение, язык и действия (Vision-Language-Action, VLA), основанная на крупномасштабном генеративном предобучении с использованием видеозаписей человеческих демонстраций. Мы предлагаем новую двухэтапную методологию предобучения. На первом этапе, называемом Ego-Centric Video Generative Pretraining, обучается модель преобразования изображений в видео на основе 12 миллионов эгоцентричных видеозаписей манипуляций, чтобы предсказывать будущие кадры, учитывая начальный кадр и текстовую инструкцию. Второй этап, Human-Centric Trajectory-Aware Modeling, расширяет этот подход, совместно предсказывая траектории ключевых точек, что эффективно связывает предсказание визуальных кадров с предсказанием действий. Кроме того, для улучшения представления действий мы предлагаем ActionVAE — вариационный автоэнкодер, который сжимает последовательности действий в компактные латентные представления, уменьшая сложность пространства выходных данных модели VLA. При дообучении на тех же наборах данных для робототехники модель RynnVLA-001 демонстрирует превосходную производительность по сравнению с современными базовыми методами, что подтверждает, что предложенная стратегия предобучения обеспечивает более эффективную инициализацию для моделей VLA.
Современные методы редактирования изображений на основе инструкций (IBIE) сталкиваются с трудностями при выполнении сложных задач редактирования, поскольку как типы редактирования, так и количество образцов в существующих наборах данных ограничены. Более того, традиционное создание наборов данных часто включает зашумленные пары изображение-описание, что может вносить предвзятость и ограничивать возможности моделей в сложных сценариях редактирования. Чтобы устранить эти ограничения, мы представляем MultiEdit — всеобъемлющий набор данных, содержащий более 107 тысяч высококачественных образцов редактирования изображений. Он охватывает 6 сложных задач редактирования через разнообразную коллекцию из 18 типов редактирования, не связанных с переносом стиля, и 38 операций переноса стиля, охватывая спектр от изощренного переноса стиля до сложных семантических операций, таких как редактирование с учетом персонажей и редактирование текста внутри изображения. Мы используем инновационный процесс создания набора данных, который задействует две мультимодальные большие языковые модели (MLLM) для генерации визуально-адаптивных инструкций редактирования и создания высококачественных отредактированных изображений соответственно. Многочисленные эксперименты показывают, что тонкая настройка базовых открытых моделей с использованием нашего набора MultiEdit-Train значительно улучшает производительность моделей на сложных задачах редактирования в предложенном нами тестовом наборе MultiEdit-Test, при этом эффективно сохраняя их возможности на стандартном тестовом наборе. Мы считаем, что MultiEdit предоставляет ценный ресурс для продвижения исследований в области более разнообразных и сложных возможностей IBIE. Наш набор данных доступен по адресу https://huggingface.co/datasets/inclusionAI/MultiEdit.
Пространственно-временная локализация в видео (STVG) направлена на определение пространственно-временной трубки в видео, заданной текстовым запросом. В данной работе мы используем мультимодальные большие языковые модели (MLLMs) для исследования решения задачи STVG в режиме zero-shot. Мы выявили два ключевых аспекта, связанных с MLLMs: (1) MLLMs склонны динамически назначать специальные токены, называемые токенами локализации, для привязки текстового запроса; и (2) MLLMs часто демонстрируют неоптимальную локализацию из-за неспособности полностью интегрировать подсказки из текстового запроса (например, атрибуты, действия) для вывода. На основе этих наблюдений мы предлагаем zero-shot фреймворк для STVG на основе MLLMs, который включает новые стратегии декомпозированного пространственно-временного выделения (DSTH) и временного усиления сборки (TAS) для раскрытия способности MLLMs к рассуждению. Стратегия DSTH сначала разделяет исходный запрос на подзапросы атрибутов и действий для проверки наличия цели как в пространственном, так и во временном измерениях. Затем она использует новый модуль повторного внимания с управлением логитами (LRA) для изучения латентных переменных в качестве пространственных и временных подсказок, регулируя предсказания токенов для каждого подзапроса. Эти подсказки выделяют атрибуты и действия соответственно, направляя внимание модели на надежные визуальные области, связанные с пространством и временем. Кроме того, поскольку пространственная локализация по подзапросу атрибутов должна быть временно согласованной, мы вводим стратегию TAS для сборки предсказаний с использованием исходных кадров видео и временно усиленных кадров в качестве входных данных для улучшения временной согласованности. Мы оцениваем наш метод на различных MLLMs и показываем, что он превосходит современные методы на трех стандартных бенчмарках STVG. Код будет доступен по адресу https://github.com/zaiquanyang/LLaVA_Next_STVG.
Ультразвуковая визуализация стала предпочтительным методом для раннего скрининга рака благодаря своим преимуществам, таким как отсутствие ионизирующего излучения, низкая стоимость и возможность проведения исследований в реальном времени. Однако традиционная ультразвуковая диагностика в значительной степени зависит от опыта врача, что приводит к высокой субъективности и низкой эффективности диагностики. Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), предлагают перспективные решения для этой проблемы, но существующие универсальные модели демонстрируют ограниченные знания в задачах ультразвуковой медицины, плохо обобщаются при распознавании поражений в различных органах и имеют низкую эффективность в многозадачной диагностике. Для устранения этих ограничений мы предлагаем EchoVLM — модель, объединяющую зрение и язык, специально разработанную для ультразвуковой медицинской визуализации. Модель использует архитектуру Mixture of Experts (MoE), обученную на данных, охватывающих семь анатомических областей. Такая конструкция позволяет модели выполнять множество задач, включая генерацию отчетов по ультразвуковым исследованиям, диагностику и визуальный вопросно-ответный анализ (VQA). Результаты экспериментов показали, что EchoVLM достигла значительного улучшения на 10,15 и 4,77 балла по метрикам BLEU-1 и ROUGE-1 соответственно по сравнению с Qwen2-VL в задаче генерации ультразвуковых отчетов. Эти результаты свидетельствуют о том, что EchoVLM обладает значительным потенциалом для повышения точности диагностики в ультразвуковой визуализации, что делает её перспективным техническим решением для будущих клинических применений. Исходный код и веса модели доступны по адресу https://github.com/Asunatan/EchoVLM.
Обнаружение изменений по высококачественным спутниковым изображениям является краеугольным камнем приложений для наблюдения за Землей, однако его эффективность часто снижается из-за двух ключевых проблем. Во-первых, ложные срабатывания возникают, когда модели ошибочно интерпретируют радиометрические изменения, вызванные временными сдвигами (например, освещением, сезонностью), как реальные изменения. Во-вторых, значительный семантический разрыв между глубокими абстрактными признаками и поверхностными, богатыми деталями признаками затрудняет их эффективное объединение, что приводит к плохо очерченным границам. Для решения этих проблем мы предлагаем Frequency-Spatial Synergistic Gated Network (FSG-Net) — новую парадигму, которая систематически разделяет семантические изменения и ложные вариации. В частности, FSG-Net сначала работает в частотной области, где модуль Discrepancy-Aware Wavelet Interaction Module (DAWIM) адаптивно устраняет псевдоизменения, избирательно обрабатывая различные частотные компоненты. Затем уточненные признаки усиливаются в пространственной области с помощью модуля Synergistic Temporal-Spatial Attention Module (STSAM), который повышает значимость областей с реальными изменениями. Для преодоления семантического разрыва Lightweight Gated Fusion Unit (LGFU) использует высокоуровневую семантику для избирательного управления и интеграции ключевых деталей из поверхностных слоев. Комплексные эксперименты на наборах данных CDD, GZ-CD и LEVIR-CD подтверждают превосходство FSG-Net, устанавливая новый эталон с показателями F1-score 94,16%, 89,51% и 91,27% соответственно. Код будет доступен по адресу https://github.com/zxXie-Air/FSG-Net после возможной публикации.