Ежедневно отобранные исследовательские статьи по ИИ с переводами
В то время как автономные агенты программной инженерии меняют парадигмы программирования, они в настоящее время страдают от ограничения «закрытого мира»: они пытаются исправлять ошибки с нуля или только с использованием локального контекста, игнорируя огромный исторический человеческий опыт, доступный на таких платформах, как GitHub. Доступ к этому опыту «открытого мира» затруднен из-за неструктурированной и фрагментированной природы реальных данных систем отслеживания проблем. В этой статье мы представляем MemGovern — фреймворк, предназначенный для управления и преобразования сырых данных GitHub в полезную для агентов эмпирическую память. MemGovern использует управление опытом для преобразования человеческого опыта в удобные для агентов карты опыта и представляет стратегию агентского поиска опыта, которая позволяет осуществлять логически управляемое извлечение человеческих экспертных знаний. Создав 135 000 управляемых карт опыта, MemGovern добивается значительного повышения производительности, улучшая показатель успешного решения задач в SWE-bench Verified на 4,65%. Будучи подходом типа plug-in, MemGovern предлагает решение для создания удобной для агентов инфраструктуры памяти.
Мы представляем Solar Open — 102-миллиардную двуязычную модель смеси экспертов (Mixture-of-Experts), разработанную для языков с ограниченными ресурсами. Solar Open демонстрирует системную методологию создания конкурентоспособных больших языковых моделей, решая три взаимосвязанные задачи. Во-первых, для эффективного обучения в условиях недостатка данных по таким языкам мы синтезировали 4,5 триллиона токенов высококачественных, узкоспециализированных и ориентированных на обучение с подкреплением данных. Во-вторых, мы организовали эти данные с помощью прогрессивного учебного плана, совместно оптимизирующего состав, пороги качества и охват предметных областей на 20 триллионах токенов. В-третьих, для развития способностей к логическому рассуждению с помощью масштабируемого обучения с подкреплением мы применили предложенный нами фреймворк SnapPO для эффективной оптимизации. По результатам тестирования на английском и корейском языках Solar Open демонстрирует конкурентоспособную производительность, подтверждая эффективность данной методологии для развития ИИ в условиях ограниченных языковых ресурсов.
Существующие бенчмарки долгосрочной памяти в основном используют многотурные диалоги или синтетические истории пользователей, что делает производительность поиска несовершенным показателем для понимания личности. Мы представляем \BenchName, публично доступный бенчмарк, построенный на основе развернутых автобиографических нарративов, где действия, контекст и внутренние мысли предоставляют плотные доказательства для выведения устойчивых мотиваций и принципов принятия решений. \BenchName~реконструирует каждый нарратив в ориентированный на флешбэки, привязанный ко времени поток и оценивает модели с помощью вопросов, связанных с доказательствами и охватывающих фактологическое припоминание, атрибуцию субъективных состояний и рассуждения на уровне принципов. На разнообразных нарративных источниках системы с поисковым усилением в основном улучшают фактологическую точность, в то время как ошибки сохраняются в отношении временно обоснованных объяснений и выводов более высокого уровня, что подчеркивает необходимость механизмов памяти, выходящих за рамки поиска. Наши данные находятся в KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
Недавний парадигмальный сдвиг в сторону больших моделей рассуждений (LRM) как автономных агентов усилил потребность в sophisticated, многоходовых возможностях использования инструментов. Однако существующие наборы данных и подходы к их генерации ограничены статическими, предопределенными наборами инструментов, которые не масштабируются до сложности открытого взаимодействия человека и агента. Чтобы решить эту проблему, мы изначально разработали фреймворк для автоматизированной генерации масштабируемых целеориентированных многократных диалогов, используя симулятор на основе LRM для динамического создания высокоценных, предметно-ориентированных инструментов решения поставленных задач. Однако мы наблюдаем, что чисто целеориентированный дизайн часто приводит к траекториям «исключительно решения задач», где агент достигает цели с минимальным взаимодействием, не генерируя многоходовые беседы, характерные для реальных сценариев. Чтобы устранить этот разрыв, мы переходим к пользователь-ориентированной парадигме симуляции. Разделяя генерацию задач и специализированный симулятор пользователя, имитирующий поведенческие правила человека — такие как инкрементное формулирование запросов и пошаговая обратная связь — мы способствуем созданию более аутентичных, продолжительных многократных диалогов, отражающих итеративную природу решения проблем в реальном мире. Наш конвейер генерации функционирует как универсальный модуль plug-and-play, способный инициировать генерацию из любого состояния, обеспечивая высокую масштабируемость при создании обширных данных по использованию инструментов. Более того, позволяя выполнять несколько задач в рамках одной траектории, он производит высокоплотный набор данных, отражающий многогранные требования реального взаимодействия человека и агента.
Создание интеллектуальных агентов, способных к ловкому манипулированию, является ключевым для достижения человеко-подобной автоматизации как в робототехнике, так и в цифровых средах. Однако существующие GUI-агенты полагаются на дискретные предсказания кликов (x,y), что исключает свободные, замкнутые траектории (например, перетаскивание ползунка прогресса), требующие непрерывного восприятия и корректировки в реальном времени. В данной работе мы разрабатываем ShowUI-π — первую потоковую генеративную модель в качестве ловкой руки для GUI, обладающую следующими особенностями: (i) Единые Дискретно-Непрерывные Действия, объединяющие дискретные клики и непрерывные перетаскивания в рамках общей модели, что обеспечивает гибкую адаптацию к различным режимам взаимодействия; (ii) Потоковое Генерирование Действий для моделирования перетаскивания, которое предсказывает инкрементные перемещения курсора на основе непрерывных визуальных наблюдений с помощью легковесного эксперта действий, гарантируя плавные и стабильные траектории; (iii) Данные для Обучения Перетаскиванию и Бенчмарк, где мы вручную собираем и синтезируем 20 тыс. траекторий перетаскивания в пяти областях (например, PowerPoint, Adobe Premiere Pro) и представляем ScreenDrag — бенчмарк с комплексными онлайн- и офлайн-протоколами оценки для проверки способностей GUI-агентов к перетаскиванию. Наши эксперименты показывают, что проприетарные GUI-агенты по-прежнему испытывают трудности с ScreenDrag (например, Operator набирает 13.27 баллов, а лучший Gemini-2.5-CUA достигает 22.18). В то же время ShowUI-π достигает результата в 26.98 баллов, имея всего 450 млн параметров, что подчеркивает как сложность задачи, так и эффективность нашего подхода. Мы надеемся, что эта работа продвинет развитие GUI-агентов в сторону человеко-подобного ловкого управления в цифровом мире. Код доступен по адресу https://github.com/showlab/showui-pi.
Сложные рассуждения в рамках инструментально-расширенных агентов по своей природе являются долгосрочными, что приводит к накоплению цепочек рассуждений и временных артефактов инструментов, перегружая ограниченный рабочий контекст больших языковых моделей. Без явных механизмов памяти такое накопление нарушает логическую непрерывность и подрывает соответствие задачи. Это определяет память не как вспомогательный вопрос эффективности, а как ключевой компонент для поддержания последовательных, целенаправленных рассуждений на длительных горизонтах. Мы предлагаем MemoBrain, исполнительную модель памяти для инструментально-расширенных агентов, которая создает зависимую от контекста память о шагах рассуждений, фиксируя важные промежуточные состояния и их логические связи. Функционируя как второй пилот совместно с агентом рассуждений, MemoBrain организует прогресс рассуждений без блокировки выполнения и активно управляет рабочим контекстом. В частности, модель удаляет недействительные шаги, сворачивает завершенные подтраектории и сохраняет компактный, высокозначимый каркас рассуждений в рамках фиксированного бюджета контекста. В совокупности эти механизмы обеспечивают явный когнитивный контроль над траекториями рассуждений вместо пассивного накопления контекста. Мы оцениваем MemoBrain на сложных долгосрочных бенчмарках, включая GAIA, WebWalker и BrowseComp-Plus, демонстрируя стабильное улучшение по сравнению с сильными базовыми методами.
Обучение с подкреплением значительно повысило производительность агентов на основе больших языковых моделей (LLM) при выполнении задач с проверяемыми результатами, однако оно по-прежнему испытывает трудности с открытыми задачами для агентов, имеющими обширные пространства решений (например, сложное планирование путешествий). Из-за отсутствия объективной эталонной истины для таких задач современные алгоритмы RL в значительной степени полагаются на модели вознаграждения, которые присваивают отдельным ответам скалярные оценки. Мы утверждаем, что такое поточечное оценивание страдает от присущего ему *коллапса дискриминации*: модель вознаграждения с трудом различает subtle преимущества среди различных траекторий, в результате чего оценки внутри группы сжимаются в узкий диапазон. Следовательно, эффективный сигнал вознаграждения начинает доминироваться шумом от модели вознаграждения, что приводит к стагнации оптимизации. Для решения этой проблемы мы предлагаем ArenaRL — парадигму обучения с подкреплением, которая переходит от поточечного скалярного оценивания к относительному ранжированию внутри группы. ArenaRL вводит механизм попарной оценки, учитывающий процесс, и использует многоуровневые рубрики для присвоения траекториям детализированных относительных оценок. Кроме того, мы создаем внутригрупповую адверсарную арену и разрабатываем турнирную схему ранжирования для получения стабильных сигналов преимущества. Эмпирические результаты подтверждают, что построенная схема с выбыванием после поражения с заданными начальными условиями достигает почти эквивалентной точности оценки преимущества по сравнению с полными попарными сравнениями со сложностью O(N²), при этом работая со сложностью всего O(N), находя оптимальный баланс между эффективностью и точностью. Более того, для решения проблемы отсутствия benchmarks полного цикла для открытых агентов мы создали Open-Travel и Open-DeepResearch — два высококачественных benchmarks, характеризующихся комплексным конвейером, охватывающим SFT, RL-обучение и многомерную оценку. Многочисленные эксперименты показывают, что ArenaRL существенно превосходит стандартные RL-базисы, позволяя агентам на основе LLM генерировать более надежные решения для сложных реальных задач.
Мы представляем серию Ministral 3 — семейство параметрически эффективных плотных языковых моделей, разработанных для вычислений и приложений с ограниченной памятью, доступное в трёх размерах: 3B, 8B и 14B параметров. Для каждого размера модели мы выпускаем три варианта: предобученную базовую модель общего назначения, модель с дообучением на инструкциях и модель для рассуждений, предназначенную для решения сложных задач. Кроме того, мы представляем наш метод получения моделей Ministral 3 с помощью каскадной дистилляции — итеративной прореживания и продолжения обучения с применением техники дистилляции. Каждая модель обладает возможностями понимания изображений, и все они распространяются под лицензией Apache 2.0.
Автономные агенты на основе больших языковых моделей (БЯМ) стремительно развиваются для решения многошаговых задач, однако обеспечение их надежности остается критически важной проблемой. Фундаментальной основой такой надежности является калибровка — способность агента выражать уверенность, которая достоверно отражает его реальную производительность. Хотя калибровка хорошо изучена для статических моделей, ее динамика в инструментальных рабочих процессах агентов остается малоисследованной. В данной работе мы систематически исследуем вербализованную калибровку у агентов, использующих инструменты, и выявляем фундаментальную дихотомию уверенности, обусловленную типом инструмента. В частности, наше пилотное исследование показывает, что инструменты поиска доказательств (например, веб-поиск) систематически вызывают сильную избыточную уверенность из-за присущего шума в извлекаемой информации, в то время как инструменты верификации (например, интерпретаторы кода) способны обосновывать рассуждения с помощью детерминированной обратной связи и смягчать ошибки калибровки. Для устойчивого улучшения калибровки across типам инструментов мы предлагаем framework тонкой настройки с подкрепляющим обучением (ПО), который совместно оптимизирует точность решения задач и калибровку, поддерживаемый комплексным бенчмарком дизайнов вознаграждений. Мы демонстрируем, что обученные нами агенты не только достигают превосходной калибровки, но и проявляют robustную генерализацию — от локальных тренировочных сред к зашумленным веб-условиям и к другим областям, таким как математические рассуждения. Наши результаты подчеркивают необходимость domain-specific стратегий калибровки для агентов, использующих инструменты. В более широком смысле данная работа закладывает основу для создания самосознательных агентов, способных достоверно сообщать о неопределенности в ответственных развертываниях в реальном мире.
Методы видеосегментации объектов, такие как SAM2, демонстрируют высокую производительность благодаря архитектурам на основе памяти, но сталкиваются с трудностями при значительных изменениях ракурса из-за зависимости от признаков внешнего вида. Традиционные методы 3D-сегментации экземпляров решают проблему согласованности ракурса, но требуют данных о позе камеры, карт глубины и дорогостоящей предварительной обработки. Мы представляем 3AM — усовершенствование на этапе обучения, которое интегрирует 3D-ориентированные признаки из MUSt3R в SAM2. Наш легковесный модуль слияния признаков (Feature Merger) объединяет многоуровневые признаки MUSt3R, кодирующие неявное геометрическое соответствие. В сочетании с признаками внешнего вида SAM2 модель достигает геометрически согласованного распознавания, основанного как на пространственном положении, так и на визуальном сходстве. Мы предлагаем стратегию выборки с учетом поля зрения, обеспечивающую наблюдение за пространственно согласованными областями объекта для надежного обучения 3D-соответствию. Ключевым моментом является то, что наш метод на этапе вывода требует только RGB-входные данные, без необходимости в позах камеры или предварительной обработке. На сложных наборах данных с широкобазовым движением (ScanNet++, Replica) 3AM существенно превосходит SAM2 и его расширения, достигая 90,6% IoU и 71,7% Positive IoU на Selected Subset из ScanNet++, улучшая показатели передовых методов VOS на +15,9 и +30,4 пункта соответственно. Страница проекта: https://jayisaking.github.io/3AM-Page/
Технология генерации с расширением выборкой данных сталкивается с компромиссом: объединение документов в длинный промпт позволяет осуществлять междокументные рассуждения, но создает узкие места на этапе предварительного заполнения, тогда как раздельное кэширование ключей и значений документов обеспечивает скорость, но нарушает междокументное взаимодействие. Мы предлагаем декодирование с параллельным контекстом экспертов (Pced) — не требующую дообучения архитектуру, которая переносит агрегацию свидетельств из механизма внимания на этап декодирования. Pced рассматривает retrieved-документы как изолированных «экспертов», синхронизируя их предсказания с помощью нового правила контрастного декодирования с учетом выборки, которое взвешивает логиты экспертов относительно априорного распределения модели. Данный подход восстанавливает возможности междокументных рассуждений без построения общего механизма внимания между документами.
Конвейеры генерации с расширением выборки (RAG) должны решать задачи, выходящие за рамки простого извлечения единичных документов, такие как интерпретация визуальных элементов (таблицы, диаграммы, изображения), синтез информации из нескольких документов и обеспечение точного указания источников. Существующие бенчмарки не отражают эту сложность, часто фокусируясь на текстовых данных, понимании одиночных документов или изолированной оценке извлечения и генерации. Мы представляем ViDoRe v3 — комплексный мультимодальный бенчмарк для RAG, включающий многотипные запросы к коллекциям визуально насыщенных документов. Он охватывает 10 наборов данных из различных профессиональных областей, состоящих из ~26 000 страниц документов, сопряженных с 3 099 проверенными человеком запросами, каждый из которых доступен на 6 языках. Благодаря 12 000 часам усилий по человеческой разметке мы предоставляем высококачественные аннотации для релевантности поиска, локализации ограничивающих рамок и проверенных эталонных ответов. Наша оценка современных RAG-конвейеров показывает, что визуальные модели поиска превосходят текстовые, модели с поздним взаимодействием и текстовый реранкинг существенно улучшают производительность, а гибридные или чисто визуальные контексты повышают качество генерации ответов. Однако современные модели по-прежнему испытывают трудности с нетекстовыми элементами, открытыми запросами и точной визуальной привязкой. Для стимулирования прогресса в решении этих задач бенчмарк выпущен под коммерчески разрешительной лицензией по адресу https://hf.co/vidore.
Последние достижения в области диффузионных трансформеров (DiT) установили новые стандарты в генерации изображений, однако их практическое применение на устройствах остается непрактичным из-за высоких вычислительных затрат и требований к памяти. В данной работе мы представляем эффективную архитектуру DiT, адаптированную для мобильных и периферийных устройств, которая обеспечивает качество генерации на уровне трансформеров при строгих ограничениях ресурсов. Наша разработка объединяет три ключевых компонента. Во-первых, мы предлагаем компактную архитектуру DiT с адаптивным глобально-локальным механизмом разреженного внимания, который балансирует моделирование глобального контекста и сохранение локальных деталей. Во-вторых, мы представляем эластичную框架у обучения, которая совместно оптимизирует под-архитектуры DiT различной мощности в рамках единой суперсети, позволяя одной модели динамически адаптироваться для эффективного вывода на разном оборудовании. Наконец, мы разработали дистилляцию с согласованием распределений на основе знаний — поэтапный конвейер дистилляции, который интегрирует цель DMD с передачей знаний от учительских моделей с малым числом шагов, обеспечивая генерацию высокой точности с низкой задержкой (например, за 4 шага), пригодную для использования на устройствах в реальном времени. В совокупности эти достижения позволяют создавать масштабируемые, эффективные и качественные диффузионные модели для развертывания на разнообразном оборудовании.
Несмотря на быстрый прогресс моделей генерации видео, роль данных в формировании движения остается малоизученной. Мы представляем Motive (MOTIon attribution for Video gEneration) — ориентированный на движение, градиентный фреймворк атрибуции данных, который масштабируется для современных больших наборов видео-данных высокого качества и соответствующих моделей. Мы используем его для изучения того, какие клипы дообучения улучшают или ухудшают временную динамику. Motive изолирует временную динамику от статического внешнего вида с помощью масок потерь, взвешенных по движению, что позволяет эффективно и масштабируемо вычислять влияние, специфичное для движения. В моделях текст-видео Motive идентифицирует клипы, которые сильно влияют на движение, и направляет курацию данных, улучшающую временную согласованность и физическую правдоподобность. С помощью данных с высоким влиянием, отобранных Motive, наш метод улучшает как плавность движения, так и степень динамики в VBench, достигая 74.1% уровня предпочтения человеком по сравнению с предварительно обученной базовой моделью. Насколько нам известно, это первая система, которая атрибутирует движение, а не визуальное представление в генеративных моделях видео, и использует это для курации данных дообучения.
Модели VLA продемонстрировали многообещающий потенциал в навигации с воплощенным агентом, объединяя восприятие и планирование и наследуя сильные способности к обобщению крупных языково-визуальных моделей. Однако большинство существующих моделей VLA полагаются на реактивные отображения непосредственно от наблюдений к действиям, не обладая явными возможностями логического вывода и устойчивой памятью, необходимыми для сложных задач навигации с длительным горизонтом планирования. Для решения этих проблем мы предлагаем VLingNav — модель VLA для навигации с воплощенным агентом, основанную на лингвистически обусловленной когниции. Во-первых, вдохновившись теорией двойственного процесса человеческого познания, мы вводим адаптивный механизм цепи рассуждений, который динамически активирует явное логическое рассуждение только при необходимости, позволяя агенту плавно переключаться между быстрым интуитивным выполнением и медленным обдуманным планированием. Во-вторых, для обработки пространственных зависимостей с длительным горизонтом мы разрабатываем визуально-вспомогательный лингвистический модуль памяти, который создает устойчивую кросс-модальную семантическую память, позволяя агенту вспоминать прошлые наблюдения для предотвращения повторного исследования и выявлять тенденции перемещения в динамических средах. Что касается методики обучения, мы создали Nav-AdaCoT-2.9M — крупнейший на сегодняшний день набор данных по навигации с воплощенным агентом, содержащий аннотации логических рассуждений и обогащенный адаптивными аннотациями цепи рассуждений, которые индуцируют парадигму рассуждения, способную адаптировать как момент, так и предмет для размышлений. Кроме того, мы включаем этап обучения с подкреплением под руководством онлайн-эксперта, позволяя модели превзойти чистое имитационное обучение и приобрести более устойчивое, самостоятельно исследуемое навигационное поведение. Многочисленные эксперименты демонстрируют, что VLingNav достигает наилучших результатов в широком спектре бенчмарков навигации с воплощенным агентом. Примечательно, что VLingNav переносится на реальные роботизированные платформы в режиме zero-shot, выполняя различные навигационные задачи и демонстрируя высокую степень междоменной и межзадачной обобщающей способности.
Управляемая замена персонажей в видео с использованием предоставленного пользователем идентификатора остается сложной проблемой из-за отсутствия парных видеоданных. Предыдущие работы в основном опирались на парадигму, основанную на реконструкции, которая требует масок сегментации для каждого кадра и явных структурных ориентиров (например, скелетона, карты глубины). Однако эта зависимость серьезно ограничивает их обобщающую способность в сложных сценариях, включающих окклюзии, взаимодействия персонажа с объектами, нестандартные позы или сложное освещение, что часто приводит к визуальным артефактам и временной несогласованности. В данной статье мы предлагаем MoCha, новаторскую архитектуру, которая обходит эти ограничения, требуя лишь одну произвольную маску кадра. Для эффективной адаптации многомодального входного условия и усиления идентичности лица мы вводим условие-зависимый RoPE (Rotary Position Embedding) и используем этап пост-обучения на основе обучения с подкреплением (RL). Кроме того, для преодоления дефицита качественных парных данных для обучения мы предлагаем комплексный конвейер построения данных. В частности, мы разрабатываем три специализированных набора данных: высокодетализированный рендеренный набор данных, созданный с помощью Unreal Engine 5 (UE5), набор данных, управляемый выражением лиц, синтезированный современными техниками анимации портретов, и аугментированный набор данных, полученный из существующих пар видео-маска. Многочисленные эксперименты демонстрируют, что наш метод существенно превосходит существующие передовые подходы. Мы опубликуем код для содействия дальнейшим исследованиям. Более подробная информация доступна на странице нашего проекта: orange-3dv-team.github.io/MoCha.
Повышение способностей крупных языковых моделей (LLM) к логическим рассуждениям в значительной степени опиралось на итеративное самообучение с данными, сгенерированными моделью. Хотя существующие подходы эффективно повышают точность, они в основном подкрепляют успешные пути рассуждений, что влечет за собой существенные затраты на калибровку: модели становятся излишне уверенными и теряют способность представлять неопределенность. Этот сбой был охарактеризован как форма коллапса модели при согласовании, когда прогностические распределения вырождаются в сторону точечных оценок с низкой дисперсией. Мы решаем эту проблему, переосмысливая обучение рассуждениям как эпистемическую задачу обучения, в которой модели должны научиться не только тому, *как* рассуждать, но и тому, *когда* их рассуждениям можно доверять. Мы предлагаем эпистемически-калиброванные рассуждения (EpiCaR) в качестве целевой функции обучения, которая совместно оптимизирует производительность рассуждений и калибровку, и реализуем ее в рамках итеративной процедуры контролируемой тонкой настройки с использованием явных сигналов самооценки. Эксперименты на семействах моделей Llama-3 и Qwen-3 демонстрируют, что наш подход достигает парето-превосходства над стандартными базовыми методами как по точности, так и по калибровке, особенно в моделях с достаточной способностью к рассуждениям (например, 3B+). Данная框架 эффективно обобщается на математические рассуждения вне распределения (GSM8K) и генерацию кода (MBPP). В конечном счете, наш подход позволяет в 3 раза сократить вычислительные затраты на вывод, достигая производительности STaR при K=30 всего с K=10 сэмплами в достаточно мощных моделях.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало стандартной парадигмой для логических рассуждений в больших языковых моделях. Однако оптимизация исключительно на правильность конечного ответа часто заставляет модели прибегать к бесцельному, многословному исследованию, когда они полагаются на тактику исчерпывающего перебора, а не на структурированное планирование для достижения решений. Хотя эвристические ограничения, такие как штрафы за длину, могут снизить многословие, они часто обрезают важные шаги рассуждений, создавая сложный компромисс между эффективностью и верифицируемостью. В данной статье мы утверждаем, что дискриминативная способность является предпосылкой для эффективной генерации: научившись отличать верные решения, модель может усвоить направляющий сигнал, который сокращает пространство поиска. Мы предлагаем JudgeRLVR, двухэтапную парадигму «сначала оценить, затем сгенерировать». На первом этапе мы обучаем модель оценивать ответы-решения с верифицируемыми ответами. На втором этапе мы дообучаем ту же модель с помощью стандартного генеративного RLVR, инициализированного из состояния «оценщика». По сравнению с базовым RLVR, использующим те же обучающие данные из математической области, JudgeRLVR достигает лучшего компромисса между качеством и эффективностью для модели Qwen3-30B-A3B: на внутрипредметных математических задачах она демонстрирует прирост средней точности примерно на +3,7 пункта при сокращении средней длины генерации на 42%; на внешних бенчмарках она показывает улучшение средней точности примерно на +4,5 пункта, что свидетельствует о повышенной способности к обобщению.
Благодаря быстрому прогрессу в области генерации изображений, визуальное редактирование текста с использованием инструкций на естественном языке привлекает все больше внимания. Основная задача заключается в полном понимании инструкции и исходного изображения для генерации визуального текста, стилистически согласованного с изображением. Предыдущие методы часто включали сложные этапы указания содержания текста и атрибутов, таких как размер шрифта, цвет и компоновка, без учета стилевой согласованности с исходным изображением. Для решения этой проблемы мы предлагаем UM-Text — унифицированную мультимодальную модель для контекстного понимания и визуального редактирования текста по инструкциям на естественном языке. В частности, мы внедряем визуальную языковую модель (VLM) для обработки инструкции и исходного изображения, что позволяет детально проектировать содержание текста и компоновку на основе контекстной информации. Для генерации точного и гармоничного изображения визуального текста мы дополнительно предлагаем UM-Encoder для объединения эмбеддингов различной условной информации, где комбинация автоматически настраивается VLM в соответствии с входной инструкцией. В процессе обучения мы предлагаем функцию потерь региональной согласованности для более эффективного контроля генерации глифов в латентном и RGB-пространстве и разрабатываем специальную трехэтапную стратегию обучения для дальнейшего повышения производительности модели. Кроме того, мы представляем UM-DATA-200K — масштабный набор данных изображений визуального текста в разнообразных сценах для обучения моделей. Многочисленные качественные и количественные результаты на нескольких публичных бенчмарках демонстрируют, что наш метод достигает передовых показателей.
В данной статье представлена VideoLoom — унифицированная большая языковая модель для видео (Video LLM), предназначенная для совместного пространственно-временного анализа. Для развития способностей к точной пространственной и временной локализации мы создали LoomData-8.7k, антропоцентрический видео-датасет с темпорально привязанными и пространственно локализованными описаниями. Благодаря этому VideoLoom демонстрирует наилучшие или высококонкурентные результаты на различных пространственных и временных бенчмарках (например, 63.1 J&F на ReVOS для сегментации объектов по ссылке в видео и 48.3 R1@0.7 на Charades-STA для временной привязки). Кроме того, мы представляем LoomBench — новый бенчмарк, состоящий из темпоральных, пространственных и композиционных видео-вопросных пар, который позволяет проводить комплексную оценку Video LLM с различных сторон. В совокупности эти разработки предлагают универсальный и эффективный инструментарий для совместного пространственно-временного анализа видео, устанавливая новый стандарт в области мультимодального искусственного интеллекта.
Системы Text-to-Visualization (Text2Vis) преобразуют запросы на естественном языке к табличным данным в краткие ответы и исполняемые визуализации. Хотя закрытые LLM генерируют рабочий код, результирующие диаграммы часто страдают от недостаточной семантической согласованности и ясности — качеств, которые можно оценить только после выполнения кода. Модели с открытым исходным кодом справляются еще хуже, часто производя неисполняемый или визуально неудовлетворительный результат. Хотя контролируемое тонкое обучение (SFT) может улучшить исполняемость кода, оно не способно повысить общее качество визуализации, поскольку традиционная функция потерь SFT не учитывает обратную связь после выполнения. Чтобы устранить этот пробел, мы предлагаем RL-Text2Vis — первую систему генерации Text2Vis на основе обучения с подкреплением. Построенный на основе Group Relative Policy Optimization (GRPO), наш метод использует новую многокритериальную функцию вознаграждения, которая совместно оптимизирует текстовую точность, корректность кода и качество визуализации с использованием обратной связи после выполнения. Обучив модели Qwen2.5 (7B и 14B), RL-Text2Vis достигает относительного улучшения качества диаграмм на 22% по сравнению с GPT-4o на бенчмарке Text2Vis и повышает процент успешного выполнения кода с 78% до 97% относительно базового zero-shot подхода. Наши модели значительно превосходят сильные zero-shot и контролируемые базовые уровни, а также демонстрируют robustную генерализацию на внешних наборах данных, таких как VIS-Eval и NVBench. Эти результаты подтверждают эффективность GRPO как стратегии для структурированного мультимодального вывода в задаче генерации визуализаций. Наш код доступен по адресу https://github.com/vis-nlp/RL-Text2Vis.
Дискретная токенизация движений недавно позволила большим языковым моделям (LLM) выступать в качестве универсальных основ для понимания движений и семантического анализа, связывающего движения и язык. Однако существующие подходы обычно разделяют квантование движений и обучение семантическим представлениям, связывая их лишь через идентификаторы токенов. Такой метод не позволяет эффективно согласовать внутреннюю геометрию пространства движений с пространством векторных представлений, что ограничивает способность LLM к тонкому семантическому анализу движений. Мы полагаем, что выравнивание наиболее эффективно, когда обе модальности имеют единую геометрическую основу. Поэтому вместо того, чтобы заставлять LLM заново восстанавливать сложную геометрию между токенами движений, мы предлагаем новую архитектуру, которая явно обеспечивает ортогональность как для кодовой книги движений, так и для пространства векторных представлений LLM, гарантируя, что их реляционные структуры естественно отражают друг друга. В частности, мы используем квантизатор только с декодером и Gumbel-Softmax для дифференцируемого обучения и сбалансированного использования кодовой книги. Для связи модальностей применяется разреженная проекция, которая отображает коды движений в пространство векторных представлений LLM с сохранением ортогональности. Наконец, двухэтапный график ортонормальной регуляризации накладывает мягкие ограничения во время обучения токенизатора и тонкой настройки LLM для поддержания геометрического выравнивания без ущерба для семантической адаптации. Многочисленные эксперименты на наборе данных HumanML3D показывают, что наша архитектура обеспечивает 20% прирост производительности по сравнению с современными методами, подтверждая, что единая геометрическая основа эффективно расширяет возможности LLM для тонкого семантического анализа движений.
Крупные языковые модели (LLM) все чаще развертываются в реальных системах проверки фактов, однако существующие оценки сосредоточены преимущественно на верификации утверждений и упускают из виду более широкий рабочий процесс проверки, включая извлечение утверждений и поиск доказательств. Эта узкая направленность не позволяет современным тестовым наборам выявлять системные сбои в рассуждениях, фактологические «слепые зоны» и проблемы устойчивости современных LLM. Чтобы заполнить этот пробел, мы представляем FactArena — полностью автоматизированную арен-стиль систему оценки, которая проводит всестороннее поэтапное тестирование LLM по всему конвейеру проверки фактов. FactArena интегрирует три ключевых компонента: (i) управляемый LLM процесс проверки фактов, стандартизирующий декомпозицию утверждений, поиск доказательств через инструментально-расширенное взаимодействие и прогнозирование вердикта на основе обоснования; (ii) арен-стиль механизм судейства, руководствующийся унифицированными эталонными правилами для обеспечения беспристрастного и последовательного парного сравнения разнородными судейскими агентами; и (iii) управляемый ареной модуль эволюции утверждений, который адаптивно генерирует более сложные и семантически контролируемые утверждения для исследования фактологической устойчивости LLM за пределами фиксированных исходных данных. На примере 16 передовых LLM, охватывающих семь модельных семейств, FactArena демонстрирует стабильные и интерпретируемые рейтинги. Наш анализ также выявляет значительные расхождения между точностью статической верификации утверждений и компетентностью сквозной проверки фактов, подчеркивая необходимость холистической оценки. Предлагаемая система предлагает масштабируемую и надежную парадигму для диагностики фактологического мышления LLM, руководства будущей разработкой моделей и обеспечения надежного развертывания LLM в критически важных для безопасности приложениях проверки фактов.