Ежедневно отобранные исследовательские статьи по ИИ с переводами
Маркировка LLM как «сквозных» (end-to-end) является некорректной. На практике они зависят от недифференцируемого процесса декодирования, требующего трудоёмкой ручной настройки гиперпараметров, таких как температура и top-p. В данной статье представлена AutoDeco — новая архитектура, которая обеспечивает по-настоящему «сквозное» генеративное моделирование за счёт обучения управлению собственной стратегией декодирования. Мы дополняем стандартный трансформер лёгкими выходными слоями, которые на каждом шаге динамически предсказывают контекстно-зависимые значения температуры и top-p вместе с логитами следующего токена. Такой подход превращает декодирование в параметрический процесс на уровне токенов, позволяя модели саморегулировать стратегию сэмплирования за один прямой проход. В результате масштабных экспериментов на восьми бенчмарках мы показываем, что AutoDeco не только существенно превосходит стандартные стратегии декодирования, но и достигает результатов, сопоставимых с подобранным вручную оракулом-бейзлайном, полученным путём «взлома тестового набора» — практического верхнего предела для любого статического метода. Важнее всего, что мы обнаружили emergent-способность к управлению декодированием на основе инструкций: модель учится интерпретировать команды на естественном языке (например, «генерировать с низкой случайностью») и подстраивать предсказываемые температуру и top-p на уровне отдельных токенов, открывая новую парадигму для управляемого и интерактивного декодирования в LLM.
Мы представляем Kimi Linear — гибридную архитектуру линейного внимания, которая впервые превосходит полное внимание при честных сравнениях в различных сценариях, включая режимы масштабирования для коротких контекстов, длинных контекстов и обучения с подкреплением (RL). В её основе лежит Kimi Delta Attention (KDA) — выразительный модуль линейного внимания, расширяющий Gated DeltaNet за счёт более детализированного механизма затворов, что позволяет эффективнее использовать ограниченную память рекуррентных нейронных сетей с конечным состоянием. Наш специализированный чанковый алгоритм обеспечивает высокую аппаратную эффективность благодаря специальному варианту диагонально-низкоранговых (DPLR) переходных матриц, который значительно сокращает вычисления по сравнению с общей DPLR-формулировкой, оставаясь при этом более согласованным с классическим дельта-правилом. Мы провели предварительное обучение модели Kimi Linear с 3 млрд активированных параметров и 48 млрд общих параметров на основе послойного гибрида KDA и Multi-Head Latent Attention (MLA). Наши эксперименты показывают, что при идентичном процессе обучения Kimi Linear превосходит полную MLA с существенным отрывом по всем оцениваемым задачам, одновременно сокращая использование KV-кэша до 75% и обеспечивая до 6-кратную пропускную способность при декодировании для контекста в 1 млн токенов. Эти результаты демонстрируют, что Kimi Linear может быть прямой заменой архитектур с полным вниманием, обеспечивая превосходную производительность и эффективность, в том числе для задач с большими длинами ввода и вывода. Для поддержки дальнейших исследований мы открываем исходный код реализации ядра KDA и vLLM, а также публикуем чекпоинты предобученной и инструктивно-настроенной модели.
Мы представляем Emu3.5 — крупномасштабную мультимодальную мировую модель, которая изначально предсказывает следующее состояние в области зрения и языка. Emu3.5 предварительно обучается end-to-end с единой целью предсказания следующего токена на корпусе чередующихся визуально-языковых данных, содержащем более 10 триллионов токенов, в основном полученных из последовательных кадров и транскриптов интернет-видео. Модель естественным образом принимает чередующиеся визуально-языковые входные данные и генерирует чередующиеся визуально-языковые выходные данные. Emu3.5 дополнительно проходит пост-обучение с помощью крупномасштабного обучения с подкреплением для улучшения мультимодального мышления и генерации. Для повышения эффективности вывода мы предлагаем Дискретную Адаптацию Диффузии (DiDA), которая преобразует последовательное декодирование токен за токеном в двунаправленное параллельное предсказание, ускоряя обработку одного изображения примерно в 20 раз без потери производительности. Emu3.5 демонстрирует мощные встроенные мультимодальные возможности, включая генерацию визуально-языковых последовательностей с большим горизонтом, генерацию "что угодно в изображение" (X2I) и создание сложных изображений, насыщенных текстом. Она также проявляет обобщаемые способности к моделированию мира, позволяя исследовать мир с пространственно-временной согласованностью и осуществлять манипуляции в открытом мире для различных сценариев и задач. Для сравнения, Emu3.5 демонстрирует производительность, сопоставимую с Gemini 2.5 Flash Image (Nano Banana) в задачах генерации и редактирования изображений, и показывает превосходные результаты в наборе задач чередующейся генерации. Мы открываем исходный код Emu3.5 по адресу https://github.com/baaivision/Emu3.5 для поддержки исследований сообщества.
Атлас ChatGPT от OpenAI представляет новые возможности для взаимодействия с вебом, позволяя модели анализировать веб-страницы, обрабатывать пользовательские интенции и выполнять ввод с помощью курсора и клавиатуры непосредственно в браузере. Хотя его способности к задачам информационного поиска были продемонстрированы, производительность в динамичных, интерактивных средах остается малоизученной. В данном исследовании мы проводим раннюю оценку веб-интерактивных возможностей Атласа, используя в качестве тестовых сценариев браузерные игры, включая Google T-Rex Runner, Судоку, Flappy Bird и Stein.world. Мы используем внутриигровые показатели производительности в качестве количественных метрик для оценки результатов в различных типах задач. Наши результаты показывают, что Атлас демонстрирует высокую производительность в задачах логического мышления, таких как Судоку, завершая головоломки значительно быстрее человеческого базового уровня, но испытывает существенные трудности в играх, требующих точного тайминга и моторного контроля, часто неспособный преодолеть даже начальные препятствия. Эти находки свидетельствуют, что, хотя Атлас демонстрирует способности к аналитической обработке, сохраняются заметные ограничения в динамических веб-средах, требующих взаимодействия в реальном времени. Сайт нашего проекта доступен по адресу https://atlas-game-eval.github.io.
Крупные языковые модели (LLM) часто испытывают трудности с задачами, требующими многошаговых рассуждений. Для небольших открытых моделей обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) терпит неудачу, когда правильные решения редко сэмплируются даже после множества попыток, тогда как контролируемое тонкое настраивание (SFT) склонно к переобучению на длинных демонстрациях через жесткое покомпонентное имитирование. Для устранения этого пробела мы предлагаем Контролируемое обучение с подкреплением (SRL) — фреймворк, который переформулирует решение задач как генерацию последовательности логических «действий». SRL обучает модель генерировать внутренний монолог рассуждений перед принятием каждого действия. Он обеспечивает более плавные вознаграждения на основе сходства между действиями модели и экспертными действиями, извлеченными из набора данных SFT пошаговым образом. Этот контроль предоставляет более богатые обучающие сигналы даже когда все прогоны неверны, одновременно поощряя гибкие рассуждения, направляемые экспертными демонстрациями. В результате SRL позволяет небольшим моделям осваивать сложные задачи, ранее недоступные для SFT или RLVR. Более того, инициализация обучения с помощью SRL с последующей донастройкой RLVR дает наилучшую общую производительность. Помимо бенчмарков рассуждений, SRL эффективно обобщается на агентные задачи программной инженерии, что утверждает его как надежный и универсальный фреймворк обучения для LLM, ориентированных на рассуждения.
Хотя предварительно обученные визуальные представления значительно продвинули имитационное обучение, они часто оказываются неспецифичными для задачи, поскольку остаются замороженными в процессе обучения политики. В данной работе мы исследуем возможность использования предварительно обученных диффузионных моделей "текст-изображение" для получения адаптивных к задаче визуальных представлений в робототехнике без тонкой настройки самой модели. Однако мы обнаружили, что наивное применение текстовых условий — успешная стратегия в других областях компьютерного зрения — дает минимальный или даже отрицательный эффект в задачах управления. Мы объясняем это разрывом между данными, на которых обучалась диффузионная модель, и средами роботизированного управления, что заставляет нас утверждать необходимость условий, учитывающих специфическую, динамическую визуальную информацию, требуемую для управления. Для решения этой проблемы мы предлагаем ORCA, которая вводит обучаемые промпты задач, адаптирующиеся к среде управления, и визуальные промпты, захватывающие детализированную, специфичную для кадра информацию. Благодаря обеспечению адаптивных к задаче представлений с помощью наших новых условий, наш подход достигает наилучших результатов на различных робототехнических бенчмарках, значительно превосходя предыдущие методы.
Создание агентов, способных к обобщению в веб-, десктопных и мобильных средах, остается нерешенной задачей, поскольку существующие системы полагаются на специфичные для среды интерфейсы, ограничивающие кроссплатформенное развертывание. Мы представляем Surfer 2 — унифицированную архитектуру, работающую исключительно на основе визуальных наблюдений и демонстрирующую наилучшую производительность во всех трех средах. Surfer 2 интегрирует иерархическое управление контекстом, раздельное планирование и выполнение, а также самопроверку с адаптивным восстановлением, что обеспечивает надежную работу в рамках длительных задач. Наша система достигает точности 97,1% на WebVoyager, 69,6% на WebArena, 60,1% на OSWorld и 87,1% на AndroidWorld, превосходя все предыдущие системы без специфичной для задач тонкой настройки. При многократных попытках Surfer 2 превосходит человеческие показатели на всех тестовых наборах. Эти результаты демонстрируют, что системная оркестрация усиливает возможности базовых моделей и позволяет осуществлять универсальное управление компьютером исключительно через визуальное взаимодействие, одновременно указывая на необходимость создания моделей следующего поколения для достижения парето-оптимального баланса затрат и эффективности.
Современные модели генерации видео способны создавать видео высокой четкости с временной согласованностью, что указывает на возможное наличие в них значительных знаний о мире. Помимо реалистичного синтеза, они также демонстрируют зарождающиеся способности, свидетельствующие о зрительном восприятии, моделировании и манипулировании. Однако важный вопрос остается открытым: готовы ли видео-модели выступать в роли решателей задач с нулевым обучением (zero-shot) в сложных сценариях визуального мышления? В данной работе мы проводим эмпирическое исследование для всестороннего изучения этого вопроса, сосредоточившись на ведущей и популярной модели Veo-3. Мы оцениваем ее способности к рассуждению по 12 направлениям, включая пространственную, геометрическую, физическую, временную логику и логику воплощенного взаимодействия, систематически характеризуя как ее сильные стороны, так и типичные ошибки. Для стандартизации исследования мы сформировали набор оценочных данных MME-CoF — компактный бенчмарк, позволяющий провести глубокую и тщательную оценку рассуждений по цепочке кадров (Chain-of-Frame, CoF). Наши результаты показывают, что хотя современные видео-модели демонстрируют обнадеживающие паттерны рассуждений в области краткосрочной пространственной согласованности, точного позиционирования и локально последовательной динамики, они остаются ограниченными в возможностях долгосрочного каузального reasoning, строгих геометрических ограничений и абстрактной логики. В целом, они еще не являются надежными самостоятельными решателями с нулевым обучением, но проявляют обнадеживающие признаки в качестве вспомогательных визуальных механизмов в паре со специализированными моделями рассуждений. Страница проекта: https://video-cof.github.io
Мы представляем AMO-Bench — эталонный тест для оценки продвинутого математического мышления уровня олимпиад или даже выше, состоящий из 50 задач, созданных вручную. Существующие бенчмарки широко используют задачи математических соревнований уровня старшей школы для оценки способностей больших языковых моделей (LLM) к математическим рассуждениям. Однако многие существующие математические соревнования становятся менее эффективными для оценки моделей высшего эшелона из-за насыщения производительности (например, AIME24/25). Чтобы решить эту проблему, AMO-Bench предлагает более строгие задачи, гарантируя, что все 50 проблем (1) прошли перекрёстную проверку экспертами на соответствие как минимум стандартам сложности Международной математической олимпиады (IMO) и (2) являются полностью оригинальными, чтобы предотвратить потенциальные утечки производительности из-за запоминания данных. Более того, каждая задача в AMO-Bench требует только конечного ответа, а не доказательства, что позволяет проводить автоматическую и надежную оценку. Результаты экспериментов на 26 LLM с использованием AMO-Bench показывают, что даже лучшая модель достигает точности лишь 52,4%, при этом большинство LLM набирают ниже 40%. Помимо этих низких результатов, наш дальнейший анализ выявляет обнадеживающую тенденцию масштабирования с увеличением вычислительных ресурсов во время тестирования на AMO-Bench. Эти результаты подчеркивают значительный потенциал для улучшения математических рассуждений в современных LLM. Мы публикуем AMO-Bench для содействия дальнейшим исследованиям в области развития способностей языковых моделей к рассуждениям.
Мы представляем новую эру искусственного интеллекта, названную агентной организацией, в которой агенты решают сложные проблемы путем совместной и параллельной работы, достигая результатов, превосходящих возможности индивидуального интеллекта. Для реализации этого видения мы предлагаем асинхронное мышление (AsyncThink) как новую парадигму рассуждений с большими языковыми моделями, которая организует внутренний мыслительный процесс в параллельно исполняемые структуры. В частности, мы разрабатываем протокол мышления, где организатор динамически распределяет подзадачи между исполнителями, объединяет промежуточные знания и формирует согласованные решения. Что особенно важно, структура мышления в этом протоколе может быть дополнительно оптимизирована с помощью обучения с подкреплением. Эксперименты показывают, что AsyncThink обеспечивает на 28% меньшую задержку вывода по сравнению с параллельным мышлением, одновременно повышая точность математических рассуждений. Более того, AsyncThink демонстрирует обобщение освоенных возможностей асинхронного мышления, успешно справляясь с новыми задачами без дополнительного обучения.
Несмотря на недавние достижения в области генерации трёхмерных движений человека (MoGen) на стандартных бенчмарках, существующие модели по-прежнему сталкиваются с фундаментальным ограничением в их способности к обобщению. В отличие от этого, смежные области генеративного моделирования, в первую очередь генерация видео (ViGen), продемонстрировали впечатляющую способность к обобщению при моделировании человеческого поведения, выявляя передаваемые идеи, которые MoGen может использовать. Руководствуясь этим наблюдением, мы представляем комплексную структуру, которая систематически переносит знания из ViGen в MoGen по трём ключевым направлениям: данные, моделирование и оценка. Во-первых, мы представляем ViMoGen-228K, крупномасштабный набор данных, содержащий 228 000 высококачественных образцов движений, который объединяет высокоточные данные оптического MoCap с семантически аннотированными движениями из веб-видео и синтезированными образцами, созданными передовыми моделями ViGen. Набор данных включает как пары "текст-движение", так и триплеты "текст-видео-движение", существенно расширяя семантическое разнообразие. Во-вторых, мы предлагаем ViMoGen, диффузионный трансформер на основе сопоставления потоков, который унифицирует априорные знания из данных MoCap и моделей ViGen через управляемую мультимодальную кондиционирование. Для повышения эффективности мы дополнительно разрабатываем ViMoGen-light, дистиллированный вариант, который устраняет зависимости от генерации видео, сохраняя при этом высокую способность к обобщению. Наконец, мы представляем MBench, иерархический бенчмарк, предназначенный для детальной оценки по таким параметрам, как качество движений, соответствие промпту и способность к обобщению. Многочисленные эксперименты показывают, что наша структура значительно превосходит существующие подходы как в автоматических, так и в экспертных оценках. Код, данные и бенчмарк будут общедоступны.
Существует два распространенных подхода к построению 3D-сцен: процедурная генерация и подъем из 2D. Среди них подъем на основе панорам зарекомендовал себя как перспективная техника, использующая мощные априорные знания 2D-генерации для создания иммерсивных, реалистичных и разнообразных 3D-окружений. В данной работе мы развиваем эту технику для генерации готовых к использованию в графике 3D-сцен, пригодных для физически корректного рендеринга (PBR), переосвещения и симуляции. Наше ключевое наблюдение заключается в перепрофилировании 2D-генеративных моделей для панорамного восприятия геометрии, текстур и PBR-материалов. В отличие от существующих подходов подъема из 2D, которые фокусируются на генерации внешнего вида и игнорируют восприятие внутренних свойств, мы представляем OmniX — универсальную и единую framework. Основанный на легковесной и эффективной кросс-модальной структуре-адаптере, OmniX повторно использует априорные знания 2D-генерации для широкого спектра панорамных задач компьютерного зрения, включая панорамное восприятие, генерацию и дополнение. Кроме того, мы создали крупномасштабный синтетический панорамный датасет, содержащий высококачественные мультимодальные панорамы из разнообразных интерьерных и экстерьерных сцен. Многочисленные эксперименты демонстрируют эффективность нашей модели в области панорамного визуального восприятия и генерации готовых к использованию в графике 3D-сцен, открывая новые возможности для создания иммерсивных и физически достоверных виртуальных миров.
Современные генеративные модели для создания изображений по тексту обучаются на больших некурируемых наборах данных, что обеспечивает широкие возможности генерации. Однако это плохо согласуется с предпочтениями пользователей. В последнее время были разработаны оценочные модели, специально предназначенные для последующего отбора сгенерированных изображений и их адаптации к определённому критерию, как правило, предпочтениям пользователя. Такой отбраковка информативных данных вместе с оптимизацией под единственный критерий часто приводит к снижению разнообразия, семантической точности и эффективности. Вместо подобной постобработки мы предлагаем условить модель на нескольких оценочных моделях в процессе обучения, чтобы модель напрямую усваивала пользовательские предпочтения. Мы демонстрируем, что это не только значительно повышает визуальное качество генерируемых изображений, но и существенно ускоряет обучение. Наш предложенный метод, названный MIRO, демонстрирует наилучшие результаты на композиционном бенчмарке GenEval и по шкалам пользовательских предпочтений (PickAScore, ImageReward, HPSv2).
Носимые устройства, такие как умные очки, преобразуют способ взаимодействия людей с окружающей средой, позволяя пользователям получать информацию об объектах в поле их зрения. Мультимодальная генерация с расширением контекста (MM-RAG) играет ключевую роль в поддержке таких запросов, однако до сих пор не существует всеобъемлющего бенчмарка для этой задачи, особенно для сценариев с носимой электроникой. Чтобы заполнить этот пробел, мы представляем CRAG-MM — комплексный бенчмарк RAG для мультимодальных многотурных диалогов. CRAG-MM содержит разнообразный набор из 6,5 тыс. троек (изображение, вопрос, ответ) и 2 тыс. визуально-ориентированных многотурных бесед в 13 предметных областях, включая 6,2 тыс. эгоцентричных изображений, созданных для имитации съемки с носимых устройств. Мы тщательно разработали вопросы, чтобы отразить реальные сценарии и вызовы, включая пять типов проблем с качеством изображения, шесть типов вопросов, различную популярность объектов, разную динамику информации и различное количество туров диалога. Мы определили три задачи: расширение контекста из одного источника, расширение контекста из нескольких источников и многотурные диалоги — каждая из которых снабжена соответствующим корпусом для поиска и API как для поиска по изображениям и графам знаний, так и для поиска по веб-страницам. Наша оценка показывает, что прямолинейные подходы RAG достигают лишь 32% и 43% достоверности на задачах CRAG-MM с одно- и многотурным вопросно-ответным взаимодействием соответственно, тогда как передовые отраслевые решения демонстрируют схожее качество (32%/45%), что указывает на значительный простор для улучшений. Бенчмарк был использован в рамках KDD Cup 2025, привлек около 1 тыс. участников и 5 тыс. решений, при этом победители улучшили базовые показатели на 28%, что подчеркивает его раннее влияние на развитие области.
Электронные медицинские карты (ЭМК) содержат богатую, но сложную информацию, и их автоматизированный анализ крайне важен для клинического принятия решений. Несмотря на недавние успехи больших языковых моделей (БЯМ) в клинических процессах, их способность анализировать ЭМК остается ограниченной из-за узкого охвата задач и отсутствия возможностей рассуждений, ориентированных на ЭМК. Данная работа направлена на преодоление этого разрыва. В частности, мы представляем EHR-Ins — крупномасштабный, всеобъемлющий набор инструкций для рассуждений по ЭМК, содержащий 300 тысяч высококачественных примеров с рассуждениями и 4 миллиона примеров без рассуждений, охватывающих 42 различные задачи по работе с ЭМК. Его ключевая инновация — это фреймворк, управляемый графом мышления, который позволяет генерировать высококачественные данные для рассуждений в больших масштабах. На его основе мы разрабатываем EHR-R1 — серию улучшенных в плане рассуждений БЯМ с числом параметров до 72 миллиардов, адаптированных для анализа ЭМК. Благодаря многоэтапной парадигме обучения, включающей адаптацию к предметной области, усиление рассуждений и обучение с подкреплением, EHR-R1 систематически приобретает предметные знания и разнообразные способности к рассуждению, обеспечивая точный и надежный анализ ЭМК. Наконец, мы представляем EHR-Bench — новый бенчмарк, созданный на основе MIMIC-IV и охватывающий 42 задачи, для всесторонней оценки рассуждений и прогнозирования в сценариях работы с ЭМК. В экспериментах мы показываем, что полученная модель EHR-R1 последовательно превосходит передовые коммерческие и открытые БЯМ (включая DeepSeek-V3 и GPT-4o), опережая GPT-4o более чем на 30 баллов на MIMIC-Bench и демонстрируя на 10% более высокий AUROC в условиях zero-shot на EHRSHOT. В совокупности EHR-Ins, EHR-R1 и EHR-Bench значительно продвинули разработку в направлении более надежного и клинически релевантного анализа ЭМК.
Технологии искусственного интеллекта для работы с документами быстро развиваются и привлекают всё больше внимания. Однако, хотя основные усилия были сосредоточены на анализе структуры документа (DLA), его генеративная составляющая — генерация макета документа — остаётся малоизученной. Основное препятствие заключается в недостатке разнообразных макетов: академические статьи с манхэттенской структурой доминируют в существующих исследованиях, в то время как макеты из открытого мира, такие как газеты и журналы, остаются серьёзно недопредставленными. Для устранения этого пробела мы создали OmniLayout-1M — первый миллионный набор данных разнообразных макетов документов, охватывающий шесть распространённых типов документов и включающий современные макеты, собранные из множества источников. Более того, поскольку существующие методы испытывают трудности в сложных областях и часто не могут согласованно расположить длинные последовательности, мы представляем OmniLayout-LLM — модель объёмом 0.5B параметров с разработанной двухэтапной парадигмой обучения «от грубого к точному»: 1) изучение универсальных принципов компоновки из OmniLayout-1M с грубыми категориальными определениями и 2) перенос полученных знаний в конкретную предметную область с детализированными аннотациями. Многочисленные эксперименты демонстрируют, что наш подход достигает высокой производительности в нескольких доменах набора данных M⁶Doc, существенно превосходя как существующие специализированные решения для генерации макетов, так и несколько новейших универсальных больших языковых моделей. Наш код, модели и набор данных будут публично доступны.
По мере развития агентных систем на основе больших языковых моделей (LLM) они все чаще опосредуют экономические решения — от поиска продуктов до совершения транзакций — от имени пользователей. Такие приложения сулят выгоды, но также порождают множество вопросов относительно подотчетности агентов и их ценности для пользователей. Для решения этих вопросов необходимо понимать, как агенты ведут себя в условиях, приближенных к реальным рыночным. Однако предыдущие исследования в основном оценивали агентов в ограниченных сценариях, таких как рынки для решения единичных задач (например, переговоры) или структурированные взаимодействия между двумя агентами. Реальные рынки фундаментально отличаются: они требуют от агентов способности справляться с разнообразными экономическими активностями и координироваться в рамках крупных, динамичных экосистем, где множество агентов с непрозрачным поведением могут вести открытые диалоги. Чтобы преодолеть этот разрыв, мы исследуем двусторонние агентные рынки, где Ассистенты представляют интересы потребителей, а Сервисные агенты — конкурирующие бизнесы. Для безопасного изучения этих взаимодействий мы разработали Magentic-Marketplace — симулированную среду, в которой могут функционировать Ассистенты и Сервисы. Эта среда позволяет нам изучать ключевые рыночные динамики: полезность, достигаемую агентами, поведенческие смещения, уязвимость к манипуляциям и то, как механизмы поиска влияют на рыночные результаты. Наши эксперименты показывают, что передовые модели могут приближаться к оптимальной эффективности — но только в идеальных условиях поиска. Производительность резко ухудшается с ростом масштаба, и все модели демонстрируют сильное смещение в пользу первого предложения, создавая 10-30-кратное преимущество скорости ответа над его качеством. Эти результаты раскрывают, как поведение агентов формируется в различных рыночных условиях, что информирует проектирование справедливых и эффективных агентных рынков.
Покомпонентная 3D-генерация обладает значительным потенциалом для различных приложений. Предыдущие генераторы компонентов, использующие неявные векторно-множественные токены для представления частей, часто страдают от недостаточной геометрической детализации. Другое направление исследований применяет явное воксельное представление, но использует общую глобальную воксельную сетку для всех компонентов; это часто приводит к тому, что мелкие части занимают слишком мало вокселей, что снижает качество. В данной статье мы предлагаем FullPart — новую архитектуру, сочетающую неявную и явную парадигмы. Сначала она выводит bounding box-компоновку через процесс неявной диффузии векторных множеств боксов — задачу, которую неявная диффузия эффективно решает, поскольку токены боксов содержат минимум геометрических деталей. Затем генерируются детализированные компоненты, каждый в своей собственной фиксированной воксельной сетке полного разрешения. Вместо использования общего глобального пространства низкого разрешения, каждый компонент в нашем методе — даже мелкий — генерируется в полном разрешении, что позволяет синтезировать сложные детали. Мы также вводим стратегию кодирования центральной точки для решения проблемы несоответствия при обмене информацией между частями разного фактического размера, сохраняя глобальную согласованность. Кроме того, для преодоления дефицита надежных данных по компонентам мы представляем PartVerse-XL — крупнейший на сегодняшний день размеченный вручную набор данных 3D-компонентов, содержащий 40 тыс. объектов и 320 тыс. частей. Многочисленные эксперименты демонстрируют, что FullPart достигает state-of-the-art результатов в покомпонентной 3D-генерации. Мы опубликуем весь код, данные и модель для содействия будущим исследованиям в области генерации 3D-компонентов.
Крупные мультимодальные модели (LMM) демонстрируют растущую способность отвечать на медицинские вопросы, требующие совместного анализа изображений и текста, однако создание универсальных систем визуального вопросно-ответного взаимодействия (VQA) в медицине затруднено из-за отсутствия обширных, открыто доступных и качественных корпусов данных. Мы представляем MedVLSynther — рубрико-управляемую генеративно-верификационную структуру, которая синтезирует высококачественные вопросы VQA с множественным выбором непосредственно из открытой биомедицинской литературы на основе изображений, подписей к ним и текстовых ссылок. Генератор создает самодостаточные формулировки вопросов и параллельные, взаимоисключающие варианты ответов в соответствии с машиночитаемой JSON-схемой; многоэтапный верификатор обеспечивает соблюдение ключевых критериев (самодостаточность, единственно правильный ответ, клиническая достоверность, согласованность изображения и текста), начисляет баллы за соответствие детализированным позитивным аспектам и выявляет типичные ошибки перед принятием вопроса. Применение этого конвейера к PubMed Central позволило создать MedSynVQA: 13 087 проверенных вопросов для 14 803 изображений, охватывающих 13 методов визуализации и 28 анатомических областей. Обучение открытых LMM с подкреплением с использованием верифицируемых вознаграждений повышает точность на шести медицинских бенчмарках VQA, достигая в среднем 55.85 (3B) и 58.15 (7B), с максимальными показателями 77.57 на VQA-RAD и 67.76 на PathVQA, превосходя результаты сильных медицинских LMM. Абляционные исследования подтверждают необходимость как этапа генерации, так и верификации, а также стабильное улучшение результатов с увеличением объема проверенных данных; целевой анализ на контаминацию не выявил заимствований из оценочных наборов. Благодаря полной работе с открытой литературой и открытыми моделями, MedVLSynther предлагает проверяемый, воспроизводимый и обеспечивающий конфиденциальность путь к масштабируемым данным для обучения медицинских систем VQA.
Искусственный интеллект демонстрирует быстрый прогресс в решении исследовательских тестов на знания и логику, однако остаётся неясным, как эти достижения трансформируются в экономическую ценность и автоматизацию. Для оценки этого мы представляем Индекс удалённого труда (RLI) — широкий межотраслевой тест, состоящий из реальных экономически значимых проектов, предназначенных для оценки сквозной производительности агентов в практических условиях. ИИ-агенты показывают результаты близкие к минимальным на RLI, при этом наиболее эффективный агент достиг уровня автоматизации в 2,5%. Эти результаты позволяют обосновать дискуссии об автоматизации с помощью ИИ эмпирическими данными, создавая общую основу для отслеживания воздействия ИИ и давая заинтересованным сторонам возможность proactively управлять автоматизацией труда на основе ИИ.
В данной работе исследуется, могут ли небольшие языковые модели получить преимущества от инструктивного тонкого настройки. Мы сравниваем наборы данных для инструктивной настройки в формате диалога и вопросно-ответных задач, применяемые либо в объединенном, либо в последовательном (учебном) режиме, на декодерных моделях с 100 и 140 миллионами параметров. Оценка проводится в условиях как тонкой настройки (SuperGLUE), так и zero-shot режима (BLiMP, EWoK, WUGs, отслеживание сущностей и психолингвистическая корреляция). Результаты показывают, что инструктивная настройка дает небольшой, но стабильный выигрыш в сценариях тонкой настройки, причем последовательные учебные планы превосходят объединенные данные; однако улучшения не всегда переносятся на zero-shot задачи, что указывает на компромисс между адаптацией, ориентированной на взаимодействие, и широкой лингвистической обобщающей способностью. Эти результаты подчеркивают как потенциал, так и ограничения адаптации человеко-ориентированных стратегий обучения для малоресурсных языковых моделей и указывают на перспективность гибридных учебных подходов для улучшения обобщающей способности в условиях экологических ограничений обучения.
Современные большие языковые модели (БЯМ), способные использовать инструменты, обучаются на статических наборах данных, что позволяет им взаимодействовать с внешними инструментами и выполнять многошаговые рассуждения с их интеграцией, генерируя траектории вызовов инструментов. Однако эти модели имитируют разрешение запроса в рамках стандартной процедуры вызова инструментов, вследствие чего не исследуют возможные альтернативные решения и демонстрируют ограниченную производительность в развивающейся, динамической среде вызовов инструментов. В данной работе мы предлагаем PORTool — метод обучения с подкреплением (ОП), который побуждает БЯМ, использующую инструменты, исследовать различные траектории, ведущие к правильному ответу. Конкретно, метод начинается с генерации нескольких "прогонов" (rollouts) для заданного запроса, причём некоторые из них имеют общие первые несколько шагов вызовов инструментов, формируя древовидную структуру. Затем мы назначаем вознаграждение каждому шагу на основе его способности давать правильный ответ и выполнять успешные вызовы инструментов. Общий шаг, присутствующий в разных траекториях, получает одинаковое вознаграждение, тогда как разные шаги в рамках одной "вилки" получают разные вознаграждения. Наконец, эти пошаговые вознаграждения используются для расчёта преимуществ относительно вилки, которые комбинируются с преимуществами относительно траектории, для обучения БЯМ использованию инструментов. Эксперименты используют 17 инструментов для обработки пользовательских запросов, охватывающих как чувствительные ко времени, так и инвариантные ко времени темы. Мы проводим абляционные исследования, чтобы систематически обосновать необходимость и надежность конструкции пошаговых вознаграждений. Кроме того, мы сравниваем предложенный метод PORTool с другими подходами к обучению и демонстрируем значительное улучшение итоговой точности и количества шагов вызовов инструментов.
Крупные языковые модели (LLM) демонстрируют передовые результаты в задачах понимания и генерации естественного языка. Однако развертывание ведущих коммерческих моделей для специализированных задач, таких как электронная коммерция, часто затруднено из-за высоких вычислительных затрат, задержек и операционных расходов. В данной статье исследуется жизнеспособность более компактных моделей с открытыми весами в качестве ресурсоэффективной альтернативы. Мы представляем методологию оптимизации модели Llama 3.2 с одним миллиардом параметров для многозадачного распознавания намерений в сфере электронной коммерции. Модель дообучалась с использованием квантованной адаптации низкого ранга (QLoRA) на синтетически сгенерированном наборе данных, разработанном для имитации реальных пользовательских запросов. Впоследствии были применены методы посттренировочного квантования, создавшие версии, оптимизированные для GPU (GPTQ) и CPU (GGUF). Наши результаты показывают, что специализированная модель объемом 1B достигает точности 99%, соответствуя производительности значительно более крупной модели GPT-4.1. Детальный анализ производительности выявил критически важные, зависящие от аппаратного обеспечения компромиссы: в то время как 4-битное квантование GPTQ сократило использование видеопамяти на 41%, оно парадоксальным образом замедлило вывод на 82% на устаревшей архитектуре GPU (NVIDIA T4) из-за накладных расходов на деквантование. Напротив, форматы GGUF на CPU позволили достичь ускорения пропускной способности вывода до 18 раз и сокращения потребления оперативной памяти более чем на 90% по сравнению с базовым уровнем FP16. Мы делаем вывод, что небольшие, правильно оптимизированные модели с открытыми весами являются не просто жизнеспособной, но и более подходящей альтернативой для предметно-ориентированных приложений, предлагая передовую точность за долю вычислительных затрат.
Самосовершенствование стало основной парадигмой для развития способностей к рассуждению у больших визуально-языковых моделей (LVLM), где модели итеративно исследуют и обучаются на успешных траекториях. Однако мы выявили ключевую проблему в этом процессе: модель преуспевает в генерации высококачественных траекторий для простых запросов (т.н. данные «головы» распределения), но испытывает трудности с более сложными запросами (данные «хвоста» распределения). Это приводит к несбалансированной оптимизации, которая заставляет модель отдавать приоритет простым навыкам рассуждения, одновременно препятствуя её способности решать более сложные задачи. С каждой итерацией этот дисбаланс становится всё более выраженным — динамику, которую мы называем «эффектом Матфея» — что в конечном итоге препятствует дальнейшему улучшению модели и приводит к появлению плато производительности. Для противодействия этой проблеме мы предлагаем четыре эффективные стратегии с двух точек зрения: переформатирование распределения и повторная выборка траекторий, чтобы достичь повторного балансирования «головы» и «хвоста» в процессе самосовершенствования, основанном на исследовании и обучении. Многочисленные эксперименты на моделях Qwen2-VL-7B-Instruct и InternVL2.5-4B в задачах визуального рассуждения демонстрируют, что наши методы стабильно улучшают визуальные reasoning-способности, превосходя базовое самосовершенствование в среднем на 3.86 балла.
Крупные языковые модели продемонстрировали впечатляющие способности к рассуждению при решении разнообразных задач на естественном языке. Однако сопоставимые прорывы в области научных открытий более ограничены, поскольку понимание сложных физических явлений требует многогранных представлений, выходящих далеко за рамки одного лишь языка. Ярким примером является проектирование функциональных материалов, таких как металло-органические каркасы (МОК), которые критически важны для ряда значимых приложений, включая улавливание углерода и хранение водорода. Навигация по их обширному и сложному пространству проектирования в языковых представлениях, интерпретируемых языковыми моделями, является сложной задачей из-за многочисленных возможных трехмерных атомных конфигураций и строгих ретикулярных правил координационной геометрии и топологии. Несмотря на обнадеживающие ранние результаты в области открытий с помощью языковых моделей для более простых материаловедческих систем, проектирование МОК по-прежнему в значительной степени опирается на неявный человеческий опыт, редко формализуемый исключительно в текстовой информации. Чтобы преодолеть этот барьер, мы представляем L2M3OF — первую мультимодальную языковую модель для МОК. L2M3OF интегрирует обучение представлениям кристаллических структур с языковым пониманием для совместной обработки структурной, текстовой и знаниевой модальностей. L2M3OF использует предварительно обученный кристаллический кодировщик с легковесным проекционным слоем для сжатия структурной информации в токенное пространство, обеспечивая эффективное согласование с языковыми инструкциями. Для облегчения обучения и оценки мы создали базу данных «структура-свойство-знание» для кристаллических материалов и провели сравнительный анализ L2M3OF с передовыми проприетарными языковыми моделями, такими как GPT-5, Gemini-2.5-Pro и DeepSeek-R1. Эксперименты показывают, что L2M3OF превосходит ведущие текстовые проприетарные языковые модели в задачах прогнозирования свойств и генерации знаний, несмотря на использование значительно меньшего количества параметров. Эти результаты подчеркивают важность мультимодальных подходов для понимания пористых материалов и утверждают L2M3OF в качестве основы для систем искусственного интеллекта следующего поколения в области открытия материалов.
Проектирование белковых остова ферментов с субстрат-специфичной функциональностью представляет собой ключевую задачу в вычислительной инженерии белков. Современные генеративные модели преуспевают в дизайне белков, но сталкиваются с ограничениями в данных о связывании, субстрат-специфичном контроле и гибкости для de novo генерации остова фермента. Для решения этой проблемы мы представляем EnzyBind — набор данных, содержащий 11 100 экспериментально подтверждённых пар фермент-субстрат, специально отобранных из PDBbind. На его основе мы предлагаем EnzyControl, метод, обеспечивающий функциональный и субстрат-специфичный контроль при генерации остова фермента. Наш подход генерирует белковые остовы ферментов, обусловленные MSA-аннотированными каталитическими центрами и соответствующими им субстратами, которые автоматически извлекаются из курированных данных о фермент-субстратных парах. В основе EnzyControl лежит EnzyAdapter — лёгкий, модульный компонент, интегрированный в предварительно обученную модель скаффолдинга мотивов, что позволяет ей учитывать субстрат. Двухэтапная парадигма обучения дополнительно оттачивает способность модели генерировать точные и функциональные структуры ферментов. Эксперименты показывают, что наш EnzyControl демонстрирует наилучшие результаты по структурным и функциональным метрикам на бенчмарках EnzyBind и EnzyBench, с особенно значительным улучшением на 13% в дизайнабельности и на 13% в каталитической эффективности по сравнению с базовыми моделями. Код доступен по адресу https://github.com/Vecteur-libre/EnzyControl.
Последние достижения в области обработки устной речи привели к значительному прогрессу в решении фонетических задач, таких как автоматическое распознавание речи (АРР), распознавание фонем (РФ), преобразование графем в фонемы (G2P) и преобразование фонем в графемы (P2G). Несмотря на их концептуальное сходство, эти задачи в основном изучались изолированно, каждая с опорой на специфические архитектуры и наборы данных. В данной статье мы представляем POWSM (Phonetic Open Whisper-style Speech Model) — первую унифицированную платформу, способную совместно выполнять несколько фонетических задач. POWSM обеспечивает seamless-преобразование между аудио, текстом (графемами) и фонемами, открывая новые возможности для универсальной и ресурсо-эффективной обработки речи. Наша модель превосходит или соответствует по точности специализированным моделям РФ аналогичного размера (Wav2Vec2Phoneme и ZIPA), одновременно поддерживая задачи G2P, P2G и АРР. Наши данные для обучения, код и модели опубликованы в целях развития открытой науки.
Использование общедоступных веб-данных крупного масштаба, таких как панорамные снимки улиц и спутниковые изображения, для оценки городских социально-экономических показателей имеет первостепенное значение для достижения глобальных целей устойчивого развития. С появлением больших визуально-языковых моделей (LVLM) возникли новые возможности для решения этой задачи путем ее рассмотрения как проблемы многомодального восприятия и понимания. Однако последние исследования показывают, что LVLM по-прежнему испытывают трудности с точными и интерпретируемыми прогнозами социально-экономических показателей на основе визуальных данных. Для преодоления этих ограничений и максимального раскрытия потенциала LVLM мы представляем CityRiSE — новую структуру для оценки социально-экономического статуса городских территорий в LVLM с помощью чистого обучения с подкреплением (RL). Благодаря тщательно отобранным многомодальным данным и проверяемому дизайну вознаграждений наш подход направляет LVLM на фокусировку семантически значимых визуальных признаков, обеспечивая структурированное и целенаправленное рассуждение для универсального прогнозирования социально-экономического статуса. Эксперименты демонстрируют, что CityRiSE с возникающим процессом рассуждения значительно превосходит существующие базовые методы, улучшая как точность прогнозирования, так и способность к обобщению в различных городских контекстах, особенно при прогнозировании для неизученных городов и неизвестных показателей. Данная работа подчеркивает перспективность сочетания RL и LVLM для интерпретируемой и универсальной оценки городских социально-экономических параметров.
Диаграммы играют важную роль в визуализации, анализе данных и обмене идеями между людьми. Однако существующие модели "визуальный язык" (VLM) по-прежнему недостаточно точно воспринимают детали и с трудом извлекают тонкую структуру из диаграмм. Такие ограничения в интерпретации диаграмм также препятствуют их способности сравнивать несколько диаграмм и проводить над ними рассуждения. В данной статье мы представляем новый "ChartAlign Benchmark (ChartAB)" для комплексной оценки VLM в задачах интерпретации диаграмм, а именно: извлечения табличных данных, локализации элементов визуализации и распознавания различных атрибутов из диаграмм разнообразных типов и сложности. Мы разработали JSON-шаблон для облегчения расчета метрик оценки, специально адаптированных для каждой задачи интерпретации. Благодаря включению нового двухэтапного подхода к логическому выводу, бенчмарк может дополнительно оценить способность VLM сопоставлять и сравнивать элементы/атрибуты между двумя диаграммами. Наш анализ оценки нескольких современных VLM выявляет новые аспекты их перцептивных смещений, слабых мест, устойчивости и галлюцинаций при понимании диаграмм. Эти результаты подчеркивают тонкие расхождения между VLM в задачах понимания диаграмм и указывают на конкретные навыки, которые необходимо усилить в современных моделях.