Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем MiroThinker v1.0 — агента для исследовательских задач с открытым исходным кодом, разработанного для развития возможностей инструментально-расширенного мышления и поиска информации. В отличие от предыдущих агентов, которые лишь наращивали размер модели или длину контекста, MiroThinker исследует масштабирование взаимодействия на уровне модели, систематически обучая её обрабатывать более глубокие и частые взаимодействия агента со средой как третье измерение повышения производительности. В отличие от масштабирования LLM во время тестирования, которое работает изолированно и рискует деградировать при длинных цепочках рассуждений, интерактивное масштабирование использует обратную связь от среды и получение внешней информации для исправления ошибок и уточнения траекторий. Благодаря обучению с подкреплением модель достигает эффективного масштабирования взаимодействия: при окне контекста в 256K токенов она может выполнять до 600 вызовов инструментов на задачу, что позволяет осуществлять продолжительные многошаговые рассуждения и сложные рабочие процессы реальных исследований. На четырёх репрезентативных тестах — GAIA, HLE, BrowseComp и BrowseComp-ZH — вариант модели на 72B параметров демонстрирует точность до 81,9%, 37,7%, 47,1% и 55,6% соответственно, превосходя предыдущие агенты с открытым кодом и приближаясь к коммерческим аналогам, таким как GPT-5-high. Наш анализ показывает, что MiroThinker стабильно извлекает выгоду из интерактивного масштабирования: исследовательская производительность предсказуемо улучшается по мере углубления и учащения взаимодействий агента со средой, демонстрируя, что глубина взаимодействия проявляет свойства масштабирования, аналогичные размеру модели и длине контекста. Эти результаты устанавливают масштабирование взаимодействия в качестве третьего критически важного измерения для создания исследовательских агентов следующего поколения с открытым кодом, дополняя ёмкость модели и размер контекстного окна.
Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности в различных областях, однако их обучение остается ресурсоемким и длительным процессом, требующим значительных вычислительных мощностей и тщательной организации процедур обучения. "Суп моделей" (model souping) — практика усреднения весов нескольких моделей одинаковой архитектуры — стала перспективной техникой, применяемой до и после обучения, которая позволяет повысить производительность без дорогостоящего переобучения. В данной статье мы представляем Soup Of Category Experts (SoCE) — принципиальный подход к созданию "супа моделей", который использует состав бенчмарков для выявления оптимальных кандидатов и применяет взвешенное неоднородное усреднение для максимизации производительности. В отличие от предыдущих подходов с однородным усреднением, наш метод основывается на наблюдении, что категории бенчмарков часто демонстрируют низкую взаимную корреляцию по производительности моделей. SoCE идентифицирует "экспертные" модели для каждого слабо коррелированного кластера категорий и объединяет их с помощью оптимизированного взвешенного усреднения вместо использования равных весов. Мы показываем, что предложенный метод улучшает производительность и надежность в различных областях, включая мультиязычные возможности, вызов инструментов и математические задачи, и достигает передовых результатов на Berkeley Function Calling Leaderboard.
Последние достижения в области больших языковых моделей (LLM) сместили границы исследований от решения головоломок к научному уровню рассуждений — тому, который необходим для решения задач, ответы на которые должны соответствовать законам природы, а не просто удовлетворять критериям оценки. Физика является наиболее строгим испытанием этого перехода, поскольку она связывает символы с реальностью на фундаментальном уровне, выступая краеугольным камнем большинства современных технологий. В данной работе мы продвигаем исследования в области физики, разрабатывая большие языковые модели с исключительными способностями к физическим рассуждениям, особенно эффективные в решении задач уровня олимпиад. Мы представляем P1 — семейство открытых моделей для физических рассуждений, полностью обученных с использованием обучения с подкреплением (RL). Среди них P1-235B-A22B является первой открытой моделью, демонстрирующей уровень, соответствующий золотой медали на последней Международной физической олимпиаде (IPhO 2025), и завоевывающей 12 золотых медалей из 13 международных и региональных физических соревнований в 2024/2025 годах. P1-30B-A3B также превосходит почти все другие открытые модели на IPhO 2025, получая серебряную медаль. Дополненная агентной платформой PhysicsMinions, модель P1-235B-A22B+PhysicsMinions занимает первое место на IPhO 2025 и демонстрирует наивысший средний балл на 13 физических соревнованиях. Помимо физики, модели P1 также показывают выдающиеся результаты в других задачах, требующих рассуждений, таких как математика и программирование, что свидетельствует о высокой обобщающей способности серии P1.
Мы представляем Uni-MoE 2.0 из семейства Lychee. Как полностью открытая омнимодальная большая модель (OLM), она существенно развивает серию Uni-MoE от Lychee в области языко-центричного мультимодального понимания, рассуждений и генерации. На основе плотной архитектуры Qwen2.5-7B мы создали Uni-MoE-2.0-Omni с нуля, благодаря трем ключевым вкладам: проектированию смеси экспертов (MoE) с динамической пропускной способностью, прогрессивной стратегии обучения, усиленной итеративной стратегией подкрепления, и тщательно отобранной технике согласования мультимодальных данных. Модель способна к омнимодальному пониманию, а также к генерации изображений, текста и речи. С архитектурной точки зрения, наша новая MoE-структура балансирует вычислительную эффективность и возможности для 10 кросс-модальных входов, используя общих, маршрутизируемых и нулевых экспертов, в то время как наша Omni-Modality 3D RoPE обеспечивает пространственно-временное кросс-модальное выравнивание в слое самовнимания. В обучении, после кросс-модального предварительного обучения, мы используем прогрессивную стратегию контролируемого тонкого настройки, которая активирует экспертов, специфичных для модальностей, и усиливается сбалансированным составом данных, а также итеративным методом GSPO-DPO для стабилизации RL-обучения и улучшения рассуждений. Что касается данных, базовая модель, обученная на приблизительно 75 млрд токенов открытых мультимодальных данных, оснащена специальными токенами для генерации речи и изображений, что позволяет ей изучать эти генеративные задачи, обусловливая свои выходные данные лингвистическими сигналами. Обширная оценка по 85 бенчмаркам демонстрирует, что наша модель достигает состояния искусства (SOTA) или высококонкурентной производительности по сравнению с ведущими OLM, превосходя Qwen2.5-Omni (обученную на 1.2 трлн токенов) более чем в 50 из 76 тестов. Ключевые преимущества включают понимание видео (+7% в среднем по 8 тестам), омнимодальное понимание (+7% в среднем по 4 тестам) и аудиовизуальные рассуждения (+4%). Модель также продвигает обработку длинных речевых форматов (снижая WER на 4.2%) и лидирует в низкоуровневой обработке изображений и контролируемой генерации по 5 метрикам.
Мы представляем Part-X-MLLM — нативную 3D мультимодальную большую языковую модель, которая унифицирует разнообразные 3D-задачи, формулируя их в виде программ в структурированной исполняемой грамматике. Получая на вход RGB-облако точек и текстовый запрос на естественном языке, наша модель авторегрессивно генерирует единую связную последовательность токенов, кодирующую партитивные ограничивающие рамки, семантические описания и команды редактирования. Этот структурированный выход служит универсальным интерфейсом для управления последующими геометрически осознанными модулями, ориентированными на партитивную генерацию и редактирование. Разделяя символьное планирование и геометрический синтез, наш подход позволяет управлять любым совместимым геометрическим движком через единый языковой интерфейс. Мы предварительно обучаем архитектуру с двойным кодировщиком для разделения структуры и семантики и проводим инструктивное тонкое обучение модели на крупномасштабном партитивно-ориентированном наборе данных. Эксперименты показывают, что наша модель превосходно создает высококачественные структурированные планы, обеспечивая передовую производительность в задачах обоснованного вопросно-ответного взаимодействия, композиционной генерации и локализованного редактирования через единый интерфейс. Страница проекта: https://chunshi.wang/Part-X-MLLM/
Хотя генерация с осознанием мыслительного процесса направлена на повышение производительности при решении сложных задач, мы выявляем критический режим сбоя, при котором существующие последовательные авторегрессионные подходы могут парадоксальным образом ухудшать результаты из-за распространения ошибок. Для систематического анализа этой проблемы мы предлагаем ParaBench — новый эталонный набор, предназначенный для оценки как текстовой, так и визуальной модальностей вывода. Наш анализ с использованием ParaBench показывает, что это ухудшение производительности сильно коррелирует с плохим соответствием между сгенерированными рассуждениями и итоговым изображением. Для решения этой проблемы мы предлагаем параллельную мультимодальную диффузионную архитектуру MMaDA-Parallel, которая обеспечивает непрерывное двунаправленное взаимодействие между текстом и изображениями на всей траектории денойзинга. MMaDA-Parallel обучается с контролируемым тонким настраиванием, а затем дополнительно оптимизируется с помощью Parallel Reinforcement Learning (ParaRL) — новой стратегии, применяющей семантические вознаграждения вдоль траектории для обеспечения кросс-модальной согласованности. Эксперименты подтверждают, что наша модель значительно улучшает кросс-модальное соответствие и семантическую согласованность, демонстрируя улучшение показателя Output Alignment на ParaBench на 6,9% по сравнению с передовой моделью Bagel, что устанавливает более надежную парадигму для осознанного синтеза изображений. Наш код находится в открытом доступе по адресу https://github.com/tyfeld/MMaDA-Parallel.
Современные диффузионные модели шумоподавления не выполняют «очистку» в классическом смысле — они не предсказывают напрямую чистые изображения. Вместо этого нейронные сети предсказывают шум или зашумленные величины. В данной статье мы утверждаем, что предсказание чистых данных и предсказание зашумленных величин фундаментально различаются. Согласно гипотезе многообразия, естественные данные должны лежать на многообразии низкой размерности, тогда как зашумленные величины — нет. Исходя из этого предположения, мы предлагаем модели, напрямую предсказывающие чистые данные, что позволяет заведомо недостаточно емким сетям эффективно работать в пространствах очень высокой размерности. Мы демонстрируем, что простые трансформеры с крупными патчами на уровне пикселей могут быть мощными генеративными моделями: без использования токенизатора, предварительного обучения и дополнительных функций потерь. Наш подход концептуально представляет собой не что иное, как «просто трансформеры для изображений» (Just image Transformers, JiT). Мы сообщаем о конкурентоспособных результатах, полученных с помощью JiT с крупными размерами патчей 16 и 32 на ImageNet в разрешениях 256 и 512, где предсказание зашумленных величин высокой размерности может приводить к катастрофическим сбоям. Поскольку наши сети возвращаются к основам теории многообразий, наше исследование также возвращается к истокам и предлагает самодостаточную парадигму для трансформерной диффузии на сырых естественных данных.
Крупные языковые модели продемонстрировали значительный потенциал в качестве реранкеров для повышения общей производительности систем RAG. Однако существующие парадигмы реранкинга ограничены фундаментальной теоретической и практической дилеммой: поточечные методы, будучи простыми и высоко гибкими, оценивают документы независимо, что делает их подверженными "Ловушке ранкинговой близорукости" — игнорированию относительной важности документов. В отличие от них, списочные методы способны воспринимать глобальный контекст ранжирования, но страдают от присущей им "Жесткости списка", что приводит к серьезным проблемам масштабируемости и гибкости при обработке больших наборов кандидатов. Для решения этих проблем мы предлагаем Groupwise — новую парадигму реранкинга. В этом подходе запрос и группа кандидатных документов совместно подаются в модель, которая выполняет внутригрупповые сравнения для назначения индивидуальных релевантностных оценок каждому документу. Данная конструкция сохраняет гибкость поточечных методов, одновременно обеспечивая сравнительную способность списочных методов. Для обучения модели мы дополнительно применяем GRPO, оснащенный гетерогенной функцией вознаграждения, которая интегрирует метрики ранжирования с распределительным вознаграждением, направленным на выравнивание распределений оценок между группами. Для преодоления узкого места, вызванного нехваткой качественных размеченных данных, мы дополнительно предлагаем инновационный конвейер синтеза высококачественных данных для поиска и ранжирования. Полученные данные могут быть использованы не только для обучения реранкера, но и для обучения поискового модуля. Многочисленные эксперименты подтверждают эффективность нашего подхода на двух тестовых наборах для сложного поиска с элементами рассуждения: BRIGHT и R2MED.
Трехмерное моделирование переходит от статических визуальных представлений к физическим, сочлененным объектам, которые могут напрямую использоваться в симуляции и взаимодействии. Однако большинство существующих методов генерации 3D игнорируют ключевые физические и артикуляционные свойства, что ограничивает их полезность для воплощенного ИИ. Для преодоления этого разрыва мы представляем PhysX-Anything — первую симуляционно-готовую физическую фреймворк-генеративную систему 3D, которая на основе одного изображения из реального мира создает высококачественные симуляционно-готовые 3D-объекты с явной геометрией, артикуляцией и физическими атрибутами. В частности, мы предлагаем первую VLM-основанную физическую генеративную модель 3D вместе с новым 3D-представлением, эффективно токенизирующим геометрию. Оно сокращает количество токенов в 193 раза, позволяя явное обучение геометрии в рамках стандартных бюджетов токенов VLM без введения специальных токенов во время дообучения и значительно повышая качество генерации. Кроме того, для преодоления ограниченного разнообразия существующих физических 3D-датасетов мы создали новый набор данных PhysX-Mobility, который расширяет категории объектов в предыдущих физических 3D-датасетах более чем в 2 раза и включает свыше 2000 распространенных объектов реального мира с богатыми физическими аннотациями. Многочисленные эксперименты на PhysX-Mobility и изображениях из реального мира демонстрируют, что PhysX-Anything обеспечивает высокую генеративную производительность и надежную обобщающую способность. Более того, эксперименты на основе симуляции в среде MuJoCo подтверждают, что наши симуляционно-готовые объекты могут напрямую использоваться для обучения роботизированных политик, богатых контактами. Мы считаем, что PhysX-Anything может существенно расширить возможности широкого спектра downstream-приложений, особенно в области воплощенного ИИ и физически-основанной симуляции.
Быстрая эволюция моделей генерации видео сместила фокус с создания визуально правдоподобных результатов на решение задач, требующих физической достоверности и логической согласованности. Однако, несмотря на недавние прорывы, такие как цепочечное рассуждение по кадрам в Veo 3, до сих пор неясно, могут ли эти модели демонстрировать способности к рассуждению, аналогичные большим языковым моделям (LLM). Существующие бенчмарки в основном оценивают визуальное качество и временную согласованность, не затрагивая способности к рассуждениям высшего порядка. Чтобы заполнить этот пробел, мы предлагаем TiViBench — иерархический бенчмарк, специально разработанный для оценки способностей к рассуждению у моделей генерации видео по изображению (I2V). TiViBench систематически оценивает рассуждения по четырем измерениям: i) структурные рассуждения и поиск, ii) пространственные и визуальные паттерны рассуждений, iii) символические и логические рассуждения и iv) планирование действий и выполнение задач, охватывая 24 разнообразных сценария задач across 3 уровнях сложности. В результате масштабных оценок мы показываем, что коммерческие модели (например, Sora 2, Veo 3.1) демонстрируют более сильный потенциал к рассуждениям, в то время как модели с открытым исходным кодом раскрывают нереализованный потенциал, который по-прежнему ограничен небольшим масштабом обучения и недостаточным разнообразием данных. Чтобы раскрыть этот потенциал, мы представляем VideoTPO — простую, но эффективную стратегию тестирования, вдохновленную оптимизацией предпочтений. Путем выполнения LLM самоанализа сгенерированных кандидатов для выявления сильных и слабых сторон, VideoTPO значительно улучшает производительность рассуждений без необходимости дополнительного обучения, данных или моделей вознаграждения. Вместе TiViBench и VideoTPO прокладывают путь для оценки и развития способностей к рассуждению в моделях генерации видео, закладывая основу для будущих исследований в этой новой области.
Автоматизированные фреймворки красного командования для больших языковых моделей (LLM) становятся все более сложными, однако они имеют фундаментальное ограничение: их логика взлома ограничена выбором, комбинированием или усовершенствованием существующих атакующих стратегий. Это сковывает их креативность и не позволяет автономно изобретать совершенно новые механизмы атак. Для преодоления этого разрыва мы представляем EvoSynth — автономный фреймворк, который смещает парадигму от планирования атак к эволюционному синтезу методов взлома. Вместо оптимизации промптов EvoSynth использует мульти-агентную систему для автономной разработки, эволюции и выполнения новых атакующих алгоритмов на основе кода. Ключевой особенностью является цикл самокоррекции на уровне кода, позволяющий итеративно переписывать собственную атакующую логику в ответ на неудачу. В ходе масштабных экспериментов мы демонстрируем, что EvoSynth не только устанавливает новый state-of-the-art, достигая 85,5% успешности атак (Attack Success Rate, ASR) против высокоустойчивых моделей, таких как Claude-Sonnet-4.5, но и генерирует атаки, значительно более разнообразные, чем методы, существующие на сегодняшний день. Мы публикуем наш фреймворк для содействия будущим исследованиям в этом новом направлении эволюционного синтеза методов взлома. Код доступен по адресу: https://github.com/dongdongunique/EvoSynth.
Крупные языковые модели (LLM) превращают цифровые устройства из пассивных инструментов в проактивных интеллектуальных помощников. Однако большинство существующих фреймворков ограничены одной ОС или устройством, что делает кросс-платформенные workflows хрупкими и в значительной степени ручными. Мы представляем UFO³ — систему, объединяющую гетерогенные конечные точки, настольные компьютеры, серверы, мобильные устройства и периферию в единую оркестровочную ткань. UFO³ моделирует каждый пользовательский запрос как изменяемую TaskConstellation: распределённый DAG атомарных подзадач (TaskStars) с явными управляющими и информационными зависимостями (TaskStarLines). TaskConstellation непрерывно эволюционирует по мере поступления результатов с распределённых устройств, обеспечивая асинхронное выполнение, адаптивное восстановление и динамическую оптимизацию. Constellation Orchestrator выполняет задачи безопасно и асинхронно, применяя динамические обновления DAG, а Agent Interaction Protocol (AIP) предоставляет устойчивые низколатентные каналы для надёжной диспетчеризации задач и потоковой передачи результатов. Данные решения стирают традиционные границы между устройствами и платформами, позволяя агентам бесшовно взаимодействовать и усиливать коллективный интеллект. Мы оцениваем UFO³ на NebulaBench — наборе из 55 кросс-платформенных задач, охватывающих 5 машин и 10 категорий. UFO³ демонстрирует 83.3% успешного выполнения подзадач, 70.9% успеха задач, раскрывает параллелизм со средней шириной 1.72 и сокращает сквозную задержку на 31% относительно последовательного базового уровня. Эксперименты с инжекцией ошибок показывают плавную деградацию и восстановление при временных и постоянных сбоях агентов. Эти результаты подтверждают, что UFO³ обеспечивает точную, эффективную и отказоустойчивую оркестрацию задач в гетерогенных средах, объединяя изолированных агентов в согласованную адаптивную вычислительную ткань, простирающуюся через ландшафт повсеместных вычислений.
Модели "зрение–язык–действие" (VLA) недавно продемонстрировали многообещающие результаты в решении различных воплощенных задач, однако они все еще уступают в надежности и способности к обобщению, особенно при развертывании на различных платформах или в реальных условиях. В данной работе мы представляем NORA-1.5 — модель VLA, построенную на предварительно обученном базовом блоке NORA путем добавления к нему эксперта по действиям на основе сопоставления потоков. Одно лишь это архитектурное улучшение дает существенный прирост производительности, позволяя NORA-1.5 превзойти NORA и несколько передовых моделей VLA как в симулированных, так и в реальных тестах. Для дальнейшего повышения надежности и успешности решения задач мы разработали набор моделей вознаграждения для последующего обучения политик VLA. Наши функции вознаграждения сочетают (i) условную по действиям модель мира (WM), которая оценивает, ведут ли сгенерированные действия к достижению желаемой цели, и (ii) эвристику отклонения от эталонных данных, которая отличает хорошие действия от плохих. Используя эти сигналы вознаграждения, мы создаем наборы данных предпочтений и адаптируем NORA-1.5 к целевым платформам с помощью прямой оптимизации предпочтений (DPO). Масштабные оценки показывают, что последующее обучение на основе вознаграждения стабильно улучшает производительность как в симуляции, так и в условиях работы с реальным роботом, демонстрируя значительный рост надежности моделей VLA благодаря простым, но эффективным моделям вознаграждения. Наши результаты подчеркивают, что NORA-1.5 и последующее обучение с управлением вознаграждением представляют собой жизнеспособный путь к созданию более надежных воплощенных агентов, пригодных для развертывания в реальном мире.
Семейство моделей Segment Anything Model (SAM) стало широко используемой базовой моделью компьютерного зрения, однако его способность контролировать гранулярность сегментации остаётся ограниченной. Пользователям часто приходится вручную уточнять результаты — путём добавления дополнительных промптов или выбора из предварительно сгенерированных масок — для достижения желаемого уровня детализации. Этот процесс может быть неоднозначным, поскольку один и тот же промпт может соответствовать нескольким правдоподобным маскам, а сбор плотных аннотаций для всех уровней гранулярности чрезмерно дорог, что делает контролируемые решения неосуществимыми. Чтобы устранить это ограничение, мы представляем UnSAMv2, который позволяет сегментировать что угодно на любом уровне детализации без участия человека. UnSAMv2 расширяет стратегию разделяй и властвуй модели UnSAM за счёт обнаружения множества пар «маска-гранулярность» и введения нового эмбеддинга контроля гранулярности, который обеспечивает точное, непрерывное управление масштабом сегментации. Примечательно, что всего на 6К немаркированных изображений и с 0.02% дополнительных параметров UnSAMv2 существенно улучшает SAM-2, достигая возможности сегментировать что угодно на любом уровне детализации в интерактивных задачах, задачах сегментации всего изображения и видео. По результатам оценки на более чем 11 бенчмарках, UnSAMv2 улучшает показатели NoC_{90} (5.69 → 4.75), 1-IoU (58.0 → 73.1) и AR_{1000} (49.6 → 68.3), демонстрируя, что небольшие объёмы немаркированных данных в сочетании с методом самообучения с учётом гранулярности могут раскрыть потенциал базовых моделей компьютерного зрения.
Мультимодальные агенты на основе больших языковых моделей (LLM) недавно продемонстрировали впечатляющие возможности в области навигации в Интернете, позволяя выполнять сложные задачи веб-браузинга в различных доменах. Однако современные агенты сталкиваются с повторяющимися ошибками и не способны учиться на прошлом опыте между сессиями, что ограничивает их долгосрочную устойчивость и эффективность использования примеров. Мы представляем WebCoach — модель-агностичную саморазвивающуюся структуру, которая оснащает агентов веб-браузинга постоянной межсессионной памятью, обеспечивая улучшенное долгосрочное планирование, рефлексию и непрерывное обучение без переобучения. WebCoach состоит из трех ключевых компонентов: (1) WebCondenser, который стандартизирует сырые журналы навигации в сжатые сводки; (2) Внешнее хранилище памяти, которое организует полные траектории как эпизодический опыт; и (3) Coach, который извлекает релевантный опыт на основе сходства и новизны, и решает, внедрять ли специфические для задачи рекомендации в агента через runtime-хуки. Данная конструкция позволяет веб-агентам получать доступ к долговременной памяти за пределами их собственного контекстного окна, повышая устойчивость при выполнении сложных задач браузинга. Более того, WebCoach достигает саморазвития за счет непрерывного курирования эпизодической памяти из новых траекторий навигации, позволяя агентам улучшаться со временем без переобучения. Оценки на бенчмарке WebVoyager демонстрируют, что WebCoach стабильно улучшает производительность агентов, использующих браузер, на трех различных бэкбонах LLM. С моделью на 38B параметров он увеличивает процент успешного выполнения задач с 47% до 61%, при этом сокращая или сохраняя среднее количество шагов. Примечательно, что меньшие базовые модели с WebCoach достигают производительности, сопоставимой с тем же веб-агентом, использующим GPT-4o.
Данные дистанционного зондирования Земли представляют собой уникальную проблему: они обладают пространственной природой, как изображения, последовательностью, как видео или текст, и являются сильно мультимодальными. Мы представляем OlmoEarth: мультимодальную пространственно-временную базовую модель, которая использует новую формулировку самообучения, стратегию маскирования и функцию потерь, специально разработанные для области наблюдения за Землей. OlmoEarth демонстрирует наилучшую производительность по сравнению с 12 другими базовыми моделями в различных исследовательских бенчмарках и реальных задачах от внешних партнеров. При оценке эмбеддингов OlmoEarth показывает наилучший результат в 15 из 24 задач, а при полном дообучении — в 19 из 29 задач. Мы развертываем OlmoEarth в качестве основы сквозной платформы для сбора данных, разметки, обучения и вывода моделей дистанционного зондирования. Платформа OlmoEarth предоставляет передовые базовые модели и мощные инструменты управления данными в распоряжение некоммерческих организаций и НПО, работающих над решением самых серьезных мировых проблем. Исходный код OlmoEarth, данные для обучения и предобученные веса доступны по адресу https://github.com/allenai/olmoearth_pretrain.
Крупные языковые модели (LLM) трансформируют практически все отрасли, включая разработку программного обеспечения. В последние годы было предложено множество агентов на основе LLM для решения реальных программных задач. Такие программные агенты обычно оснащены набором инструментов для программирования и могут автономно принимать решения о следующих действиях, формируя полные траектории для решения сквозных программных задач. Несмотря на перспективность, они обычно требуют специальной разработки и могут быть неоптимальными, поскольку исчерпывающий поиск во всем пространстве проектирования каркаса агента может быть чрезвычайно сложным и затратным. Принимая во внимание, что программные агенты по своей сути являются программным обеспечением, которое можно дополнительно улучшать/модифицировать, исследователи недавно предложили ряд самоулучшающихся программных агентов, включая Машину Дарвина-Гёделя (DGM). В то же время такие самоулучшающиеся агенты требуют затратного офлайн-обучения на конкретных бенчмарках и могут плохо обобщаться на различные LLM или бенчмарки. В данной статье мы предлагаем Live-SWE-agent — первого живого программного агента, который может автономно и непрерывно эволюционировать на лету во время выполнения при решении реальных программных задач. Конкретно, Live-SWE-agent начинается с самого базового каркаса агента, имеющего доступ только к bash-инструментам (например, mini-SWE-agent), и автономно развивает собственную реализацию каркаса в процессе решения реальных программных задач. Наша оценка на широко изучаемом бенчмарке SWE-bench Verified показывает, что Live-SWE-agent достигает впечатляющего показателя решения задач в 75.4% без масштабирования во время тестирования, превосходя все существующие программные агенты с открытым исходным кодом и приближаясь к производительности лучшего проприетарного решения. Более того, Live-SWE-agent превосходит передовые программные агенты, созданные вручную, на недавнем бенчмарке SWE-Bench Pro, достигая наилучшего известного показателя решения задач в 45.8%.
Обучение в контексте (ICL) — способность модели выводить и применять абстрактные паттерны из примеров, предоставленных во входных данных, — широко изучалось в больших языковых моделях, обученных предсказанию следующего токена на текстах человека. Более того, предыдущие работы часто связывают это emergent-свойство со специфическими статистическими характеристиками человеческого языка. Это поднимает фундаментальный вопрос: может ли ICL органически возникать в других последовательностях исключительно за счет масштабного прогностического обучения? Чтобы исследовать это, мы обращаемся к геномным последовательностям — альтернативной символической области, богатой статистической структурой. В частности, мы изучаем геномную модель Evo2, обученную преимущественно на предсказании следующего нуклеотида (A/T/C/G) в масштабах, сопоставимых со средними языковыми моделями. Мы разработали контролируемую экспериментальную систему, включающую задачи символьного логического вывода, представленные как в лингвистической, так и в геномной формах, что позволяет напрямую сравнивать ICL между геномными и языковыми моделями. Наши результаты показывают, что геномные модели, подобно своим лингвистическим аналогам, демонстрируют логарифмически-линейный рост эффективности индукции паттернов с увеличением числа демонстраций в контексте. Насколько нам известно, это первое свидетельство органически emergent-ного ICL в геномных последовательностях, подтверждающее гипотезу о том, что ICL возникает как следствие масштабного прогностического моделирования на богатых данных. Эти результаты расширяют концепцию emergent-ного метаобучения за пределы языка, указывая на единый, модально-независимый взгляд на обучение в контексте.
Крупные языковые модели (LLM) значительно продвинули вперед задачу вопросно-ответных систем на основе графов знаний (KGQA), однако существующие системы обычно оптимизированы для выдачи высокорелевантных, но предсказуемых ответов. Недостающей, но желательной способностью является использование LLM для предложения неожиданных и новых («серендиптивных») ответов. В данной статье мы формально определяем задачу KGQA с учетом серендиптивности и предлагаем фреймворк SerenQA для оценки способности LLM раскрывать неожиданные инсайты в научных задачах KGQA. SerenQA включает строгую метрику серендиптивности, основанную на релевантности, новизне и неожиданности, а также экспертно размеченный бенчмарк, созданный на основе Клинического графа знаний и сфокусированный на перепрофилировании лекарственных средств. Кроме того, он содержит структурированный пайплайн оценки, охватывающий три подзадачи: извлечение знаний, логический вывод на подграфе и исследование серендиптивности. Наши эксперименты показывают, что хотя современные LLM хорошо справляются с извлечением, они все еще испытывают трудности с выявлением действительно неожиданных и ценных открытий, что указывает на значительный простор для будущих улучшений. Наши подготовленные ресурсы и расширенная версия доступны по адресу: https://cwru-db-group.github.io/serenQA.
Модели «зрение–язык» (Vision-Language Models, VLMs) демонстрируют высокую эффективность в условиях zero-shot-вывода, но часто деградируют при доменных сдвигах во время тестирования. По этой причине в последнее время получили распространение стратегии эпизодической адаптации на этапе тестирования (test-time adaptation) как мощные методы подстройки VLMs к отдельным немаркированным изображениям. Однако существующие стратегии адаптации, такие как настройка промптов во время тестирования, обычно требуют обратного распространения через веса больших кодировщиков или изменения основных компонентов модели. В данной работе мы представляем Spectrum-Aware Test-Time Steering (STS) — облегченный фреймворк адаптации, который извлекает спектральное подпространство из текстовых эмбеддингов для определения главных семантических направлений и обучается управлять латентными представлениями с учетом спектра, адаптируя небольшое количество параметров сдвига на каждый образец для минимизации энтропии между аугментированными представлениями. STS полностью работает на этапе вывода в латентном пространстве, без обратного распространения через замороженные кодировщики и без их модификации. На основе стандартных протоколов оценки наши комплексные эксперименты показывают, что STS значительно превосходит или сравнимо конкурирует с современными методами адаптации на этапе тестирования, при этом вводя лишь небольшое количество дополнительных параметров и обеспечивая скорость вывода до 8 раз выше при 12-кратном уменьшении требований к памяти по сравнению с традиционной настройкой промптов во время тестирования. Код доступен по адресу https://github.com/kdafnis/STS.
Мультимодальные большие языковые модели все чаще применяются в биомедицинской визуализации, однако развитие научных рассуждений для микроскопии по-прежнему ограничено дефицитом крупномасштабных высококачественных данных для обучения. Мы представляем MicroVQA++ — трехэтапный, крупномасштабный и высококачественный корпус вопросно-ответных данных по микроскопии, созданный на основе архива BIOMEDICA. На первом этапе формируется исходная разметка из проверенных экспертами пар «изображение-подпись», полученных из рецензируемых статей. На втором этапе применяется HiCQA-Graph — новая гетерогенная графовая структура, объединяющая изображения, подписи и вопросы-ответы, которая комбинирует текстовые entailment-отношения на основе NLI, визуально-языковое выравнивание на основе CLIP и сигналы агента для выявления и фильтрации противоречивых примеров. На третий этап использует агента на основе мультимодальной большой языковой модели (MLLM) для генерации вопросов с множественным выбором (MCQ) с последующей проверкой человеком. Результирующий выпуск включает крупный набор для обучения и проверенный человеком тестовый набор, распределение сложных примеров в котором по уровням таксономии Блума превосходит бенчмарк MicroVQA. Наша работа предоставляет: (i) контролируемый по качеству набор данных, сочетающий экспертные публикации с графовой фильтрацией и человеческой доработкой; (ii) HiCQA-Graph — первый граф, совместно моделирующий (изображение, подпись, вопрос-ответ) для кросс-модальной фильтрации на согласованность; (iii) доказательства того, что тщательное построение данных позволяет MLLM размером 4B достигать конкурентоспособной производительности в рассуждениях по микроскопии (например, с GPT-5) и устанавливать state-of-the-art результаты среди открытых MLLM. Код и набор данных будут опубликованы по завершении процесса рецензирования.
Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в решении широкого круга задач, однако большинство высокопроизводительных моделей остаются закрытыми или частично открытыми, что ограничивает прозрачность и воспроизводимость. В данной работе мы представляем Instella — семейство полностью открытых языковых моделей с тремя миллиардами параметров, обученных исключительно на общедоступных данных и с открытым исходным кодом. Разработанная на базе графических процессоров AMD Instinct MI300X, модель Instella создавалась посредством масштабного предварительного обучения, общей инструктивной настройки и согласования с человеческими предпочтениями. Несмотря на использование значительно меньшего количества токенов при предварительном обучении по сравнению со многими современными аналогами, Instella демонстрирует наилучшие результаты среди полностью открытых моделей и конкурирует с ведущими моделями сравнимого размера с открытыми весами. Мы также выпускаем две специализированные версии: Instella-Long, способную обрабатывать контекст длиной до 128 тысяч токенов, и Instella-Math — модель, ориентированную на логические рассуждения и улучшенную с помощью контролируемого тонкого обучения и обучения с подкреплением на математических задачах. В совокупности эти разработки представляют Instella как прозрачную, производительную и универсальную альтернативу для научного сообщества, способствуя достижению цели открытых и воспроизводимых исследований в области языкового моделирования.
Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности к рассуждению и следованию инструкциям, однако их расширенное модальное пространство создает новые композиционные риски безопасности, возникающие из-за сложного взаимодействия текста и изображений. Такие кросс-модальные связи могут порождать небезопасную семантику даже при доброкачественных индивидуальных входах, обнажая хрупкую осведомленность о безопасности у современных MLLM. Хотя последние работы повышают безопасность, направляя модели на анализ потенциальных рисков, нерегулируемые траектории рассуждений могут нарушить согласованность; несмотря на то, что Group Relative Policy Optimization (GRPO) обеспечивает само-вознаграждаемое уточнение без участия человека, ей не хватает верифицируемых сигналов для безопасности рассуждений. Для решения этой проблемы мы предлагаем SafeGRPO — само-вознаграждаемую мультимодальную структуру согласования по безопасности, которая интегрирует управляемое правилами построение вознаграждения в GRPO, обеспечивая интерпретируемую и проверяемую оптимизацию безопасности рассуждений. Построенная на основе созданного набора данных SafeTag-VL-3K с явными визуальными, текстовыми и комбинированными тегами безопасности, SafeGRPO выполняет пошаговое направляемое безопасное мышление для обеспечения структурированного рассуждения и согласования поведения, существенно улучшая мультимодальную осведомленность о безопасности, композиционную устойчивость и стабильность рассуждений в различных тестах без ущерба для общих возможностей.
Совсем недавно было показано, что выравнивание репрезентаций из различных модальностей позволяет получить представление о структурном сходстве и последующих возможностях различных энкодеров для разнородных типов данных. Несмотря на значительный прогресс в согласовании изображений с текстом, временная природа видеоданных в этом контексте остается в основном неисследованной. В данной работе мы проводим первое комплексное исследование выравнивания видео-текстовых репрезентаций, исследуя возможности современных видео- и языковых энкодеров. Наши результаты выявляют несколько ключевых инсайтов. Во-первых, мы демонстрируем, что кросс-модальное выравнивание сильно зависит от насыщенности как визуальных (статические изображения против многокадровых видео), так и текстовых (одиночные подписи против коллекции) данных, предоставляемых во время тестирования, особенно при использовании передовых видеоэнкодеров. Мы предлагаем параметрические законы масштабирования на этапе тестирования, которые описывают это поведение и демонстрируют замечательную предсказательную силу по сравнению с эмпирическими наблюдениями. Во-вторых, мы исследуем корреляцию между семантическим выравниванием и производительностью как на семантических, так и на не-семантических downstream-задачах, предоставляя первоначальные свидетельства того, что сильное выравнивание с текстовыми энкодерами может быть связано с универсальными видео-репрезентациями и пониманием. Наконец, мы коррелируем временные рассуждения с кросс-модальным выравниванием, предоставляя сложный тестовый полигон для моделей зрения и языка. В целом, наша работа представляет видео-текстовое выравнивание как информативный zero-shot способ исследования репрезентативной силы различных энкодеров для пространственно-временных данных. Страница проекта доступна по адресу https://video-prh.github.io/
По мере того как большие языковые модели (LLMs) превращаются в сложных автономных агентов, способных выполнять комплексные задачи разработки программного обеспечения, оценка их реальных возможностей становится критически важной. Хотя существующие бенчмарки, такие как LoCoBench~qiu2025locobench, оценивают понимание кода в длинном контексте, они ориентированы на одношаговую оценку и не могут охватить интерактивную природу многотурового взаимодействия, паттерны использования инструментов и адаптивные рассуждения, необходимые реальным агентам программирования. Мы представляем LoCoBench-Agent — комплексную систему оценки, специально разработанную для тестирования LLM-агентов в реалистичных рабочих процессах разработки ПО с длинным контекстом. Наша система расширяет 8000 сценариев LoCoBench до интерактивных сред для агентов, позволяя проводить систематическую оценку многотуровых диалогов, эффективности использования инструментов, восстановления после ошибок и архитектурной согласованности в ходе продолжительных сессий разработки. Мы также вводим методологию оценки с 9 метриками по измерениям понимания и эффективности. Наша система предоставляет агентам 8 специализированных инструментов (файловые операции, поиск, анализ кода) и оценивает их в диапазоне длин контекста от 10K до 1M токенов, что позволяет точно оценивать производительность в условиях длинного контекста. В результате систематической оценки современных моделей мы выявили несколько ключевых выводов: (1) агенты демонстрируют выдающуюся устойчивость к длинному контексту; (2) существует компромисс между пониманием и эффективностью с отрицательной корреляцией, где тщательное исследование повышает понимание, но снижает эффективность; и (3) эффективность диалога существенно различается между моделями, причем стратегические паттерны использования инструментов отличают высокопроизводительных агентов. Являясь первым бенчмарком для LLM-агентов с длинным контекстом в области разработки ПО, LoCoBench-Agent закладывает строгую основу для измерения возможностей агентов, выявления пробелов в производительности и развития масштабируемой автономной разработки программного обеспечения.
Целенаправленный убеждающий диалог, примером которого служат такие приложения, как телемаркетинг, требует сложного многоходового планирования и строгого фактического соответствия, что остается серьезной проблемой даже для передовых больших языковых моделей (LLM). Нехватка данных, специфичных для задачи, часто ограничивала предыдущие работы, а прямое применение LLM страдает от стратегической хрупкости и фактических галлюцинаций. В данной статье мы сначала создаем и публикуем TeleSalesCorpus — первый основанный на реальных данных диалоговый набор для этой предметной области. Затем мы предлагаем AI-Salesman, новую архитектуру с двухэтапной структурой. Для этапа обучения мы разрабатываем алгоритм байесовского обучения с подкреплением, который изучает надежные продажные стратегии из зашумленных диалогов. Для этапа вывода мы представляем агента с динамическим управлением по сценарию (Dynamic Outline-Guided Agent, DOGA), который использует предварительно созданную библиотеку сценариев для обеспечения динамического, покомандного стратегического руководства. Кроме того, мы разрабатываем комплексную систему оценки, сочетающую детализированные метрики для ключевых продажных навыков с парадигмой «LLM-как-эксперт». Результаты экспериментов демонстрируют, что предложенная модель AI-Salesman значительно превосходит базовые модели как по автоматическим метрикам, так и в комплексных экспертных оценках, подтверждая ее эффективность в сложных убеждающих сценариях.
Существующие системы поисково-дополненной генерации (RAG) обычно используют централизованную архитектуру, что приводит к высоким затратам на сбор, интеграцию и управление данными, а также вызывает проблемы конфиденциальности. Существует острая потребность в децентрализованной системе RAG, которая позволяет базовым моделям напрямую использовать информацию от владельцев данных, сохраняющих полный контроль над своими источниками. Однако децентрализация создает проблему: многочисленные независимые источники данных значительно различаются по надежности, что может снижать точность поиска и качество ответов. Для решения этой проблемы наша децентрализованная система RAG включает новый механизм оценки надежности, который динамически оценивает каждый источник на основе качества предоставляемых им ответов и отдает приоритет высококачественным источникам при поиске. Для обеспечения прозрачности и доверия процесс оценки безопасно управляется через смарт-контракты на блокчейне, создавая проверяемые и защищенные от несанкционированного изменения записи надежности без reliance на центральный орган. Мы оценили нашу децентрализованную систему с двумя моделями Llama (3B и 8B) в двух имитационных средах, где шесть источников данных имели разный уровень надежности. Наша система демонстрирует улучшение производительности на +10,7% по сравнению с централизованным аналогом в условиях ненадежных данных, приближенных к реальным. Примечательно, что она приближается к предельной производительности централизованных систем в условиях идеально надежных данных. Децентрализованная инфраструктура обеспечивает безопасное и достоверное управление оценками, достигая примерно 56% экономии предельных затрат благодаря пакетным операциям обновления. Наш код и система имеют открытый исходный код на github.com/yining610/Reliable-dRAG.
Ультразвуковое исследование (УЗИ) является одним из наиболее широко используемых методов медицинской визуализации благодаря своей низкой стоимости, портативности, возможности получения изображения в реальном времени и отсутствию ионизирующего излучения. Однако интерпретация УЗ-изображений остается в высокой степени зависимой от оператора и значительно варьируется в зависимости от анатомических областей, протоколов получения изображений и типов оборудования. Эти вариации, наряду с такими уникальными challenges, как наличие спекл-шума, низкая контрастность и ограниченность стандартизированных аннотаций, препятствуют разработке обобщаемых и эффективных по меткам ИИ-моделей для ультразвука. В данной статье мы представляем OpenUS — первую воспроизводимую модель-основу для ультразвука с открытым исходным кодом, построенную на большой коллекции публичных данных. OpenUS использует архитектуру Vision Mamba, которая захватывает как локальные, так и глобальные дальнодействующие зависимости в изображении. Для извлечения богатых признаков на этапе предварительного обучения мы вводим новую framework самоконфигурируемого маскирования, сочетающую контрастное обучение с маскированным моделированием изображений. Данная стратегия интегрирует карту внимания учителя с loss-функцией реконструкции ученика, адаптивно уточняя клинически релевантное маскирование для повышения эффективности предварительного обучения. OpenUS также применяет динамическое расписание обучения для постепенной регулировки сложности процесса предварительного обучения. Для разработки модели-основы мы собрали крупнейший на сегодняшний день публичный набор ультразвуковых данных, содержащий более 308 тыс. изображений из 42 общедоступных датасетов, охватывающих различные анатомические области, медицинские учреждения, типы сканеров и виды патологий. Наша предварительно обученная модель OpenUS может быть легко адаптирована для конкретных downstream-задач путем использования в качестве основы для эффективного по меткам тонкого настроения. Код доступен по адресу https://github.com/XZheng0427/OpenUS.