Ежедневно отобранные исследовательские статьи по ИИ с переводами
Диффузионные языковые модели обещают быструю параллельную генерацию, в то время как авторегрессионные (AR) модели обычно превосходят по качеству благодаря своей причинной структуре, которая естественным образом согласуется с моделированием языка. Это поднимает фундаментальный вопрос: можем ли мы достичь синергии с высокой пропускной способностью, повышенной загрузкой GPU и качеством на уровне AR моделей? Существующие методы не позволяют эффективно сбалансировать эти два аспекта: либо они отдают приоритет AR, используя более слабую модель для последовательного чернового генерирования (спекулятивное декодирование), что приводит к низкой эффективности черновиков, либо используют некоторую форму логики декодирования слева направо (подобную AR) для диффузии, что все еще страдает от снижения качества и теряет потенциальную распараллеливаемость. Мы представляем TiDAR — гибридную архитектуру на уровне последовательности, которая создает черновики токенов (Thinking) с помощью диффузии и финализирует выходные данные (Talking) авторегрессионно — все за один прямой проход с использованием специально разработанных структурированных масок внимания. Эта конструкция использует свободную вычислительную плотность GPU, достигая сильного баланса между способностью к черновому генерированию и верификации. Более того, TiDAR разработан как автономная модель, удобная для развертывания (с низкими накладными расходами). Мы всесторонне сравниваем TiDAR с AR моделями, спекулятивным декодированием и вариантами диффузионных моделей на задачах генерации и правдоподобия для масштабов 1.5B и 8B параметров. Благодаря параллельному созданию черновиков и семплированию, а также поддержке точного KV-кэша, TiDAR превосходит спекулятивное декодирование по измеренной пропускной способности и превосходит диффузионные модели, такие как Dream и Llada, как по эффективности, так и по качеству. Что наиболее важно, TiDAR является первой архитектурой, которая сокращает разрыв в качестве с AR моделями, при этом обеспечивая генерацию от 4.71x до 5.91x больше токенов в секунду.
Мы представляем Lumine — первый открытый рецепт для разработки универсальных агентов, способных выполнять многочасовые сложные миссии в реальном времени в сложных 3D-мирах с открытым миром. Lumine использует парадигму взаимодействия, подобную человеческой, которая объединяет восприятие, рассуждение и действие в сквозной манере, основанной на модели обработки визуальной и языковой информации. Система обрабатывает сырые пиксели с частотой 5 Гц для генерации точных действий с клавиатурой и мышью на частоте 30 Гц и адаптивно запускает процесс рассуждения только при необходимости. Обучаясь в Genshin Impact, Lumine успешно завершает всю пятичасовую основную сюжетную линию Мондштадта с эффективностью, сопоставимой с человеческой, и выполняет широкий спектр задач, следуя инструкциям на естественном языке, как в 3D-исследовании открытого мира, так и в 2D-управлении графическим интерфейсом, включая сбор ресурсов, боевые действия, решение головоломок и взаимодействие с NPC. Помимо высокой производительности в рамках своей области, Lumine демонстрирует сильную способность к обобщению в условиях нулевого переноса между играми. Без какой-либо дополнительной настройки она выполняет 100-минутные миссии в Wuthering Waves и завершает полную пятичасовую первую главу Honkai: Star Rail. Эти многообещающие результаты подчеркивают эффективность Lumine в различных мирах и динамиках взаимодействия, что является важным шагом на пути к созданию универсальных агентов в открытых средах.
Идентификация лидов (хитовых соединений) является ключевой задачей на ранних этапах разработки лекарств, традиционно требующей значительных экспериментальных ресурсов. Недавние достижения в области искусственного интеллекта, в частности больших языковых моделей (LLM), позволили создать методы виртуального скрининга, снижающие затраты и повышающие эффективность. Однако растущая сложность этих инструментов ограничила их доступность для исследователей, работающих в "мокрых" лабораториях. Мульти-агентные системы предлагают перспективное решение, сочетая интерпретируемость LLM с точностью специализированных моделей и инструментов. В данной работе мы представляем MADD — мульти-агентную систему, которая строит и выполняет настроенные конвейеры идентификации лидов на основе запросов на естественном языке. MADD использует четыре скоординированных агента для выполнения ключевых подзадач в области генерации de novo соединений и их скрининга. Мы оцениваем MADD на семи примерах из области разработки лекарств и демонстрируем его превосходную производительность по сравнению с существующими решениями на основе LLM. С помощью MADD мы впервые применяем подход AI-first к дизайну лекарств для пяти биологических мишеней и публикуем идентифицированные лид-молекулы. Наконец, мы представляем новый бенчмарк, содержащий пары "запрос-молекула" и результаты докинга для более чем трех миллионов соединений, чтобы внести вклад в агентное будущее дизайна лекарств.
Генерация видео на основе диффузионных моделей позволяет создавать реалистичные видеоролики, однако существующие методы кондиционирования на основе изображений и текста не обеспечивают точного управления движением. Предыдущие подходы к синтезу с контролем движения обычно требовали дообучения конкретной модели, что вычислительно затратно и ограничительно. Мы представляем Time-to-Move (TTM) — бесплатную, готовую к использованию платформу для генерации видео с контролем движения и внешнего вида на основе моделей диффузии для преобразования изображения в видео (I2V). Ключевая идея нашего метода заключается в использовании грубых референсных анимаций, полученных с помощью удобных манипуляций, таких как перетаскивание фрагментов или репроекция на основе глубины. Вдохновленные применением SDEdit для редактирования изображений с использованием грубых layout-подсказок, мы рассматриваем crude-анимации как coarse-подсказки движения и адаптируем этот механизм для видео. Мы сохраняем внешний вид с помощью кондиционирования на изображение и вводим двойное шумоподавление по времени — регионно-зависимую стратегию, которая обеспечивает строгое соответствие в областях, заданных для движения, сохраняя гибкость в остальных зонах, балансируя между точностью следования пользовательскому замыслу и естественностью динамики. Эта легковесная модификация процесса сэмплинга не требует дополнительного обучения или вычислительных затрат при выполнении и совместима с любой базовой архитектурой. Многочисленные эксперименты на бенчмарках для движения объектов и камеры показывают, что TTM превосходит или соответствует существующим обученным базовым методам по реалистичности и контролю движения. Кроме того, TTM предоставляет уникальную возможность: точный контроль внешнего вида через пиксельное кондиционирование, выходя за пределы ограничений текстовых промптов. Видео примеры и код доступны на странице проекта: https://time-to-move.github.io/.
Мы представляем Motif-2-12.7B — новую модель с открытыми весами, которая расширяет границы эффективности больших языковых моделей за счёт сочетания архитектурных инноваций и системной оптимизации. Разработанная для масштабируемого понимания языка и устойчивого обобщения инструкций при ограниченных вычислительных ресурсах, модель Motif-2-12.7B основана на архитектуре Motif-2.6B с интеграцией группового дифференциального внимания (GDA), которое повышает репрезентативную эффективность за счёт разделения путей внимания для обработки сигнала и управления шумом. Модель предварительно обучалась на 5,5 триллионах токенов из различных лингвистических, математических, научных и программных доменов с использованием планировщика данных на основе учебного плана, который постепенно меняет соотношение композиции данных. Тренировочная система использует оптимизатор MuonClip вместе с высокопроизводительными ядрами, включая сплавленные активации PolyNorm и алгоритм Parallel Muon, что обеспечивает значительный прирост пропускной способности и эффективности использования памяти в крупномасштабных распределённых средах. Пост-тренинг включает трёхэтапный конвейер обучения с учителем, который последовательно улучшает следование общим инструкциям, композиционное понимание и лингвистическую точность. Motif-2-12.7B демонстрирует конкурентоспособные результаты в различных бенчмарках, показывая, что продуманное масштабирование архитектуры и оптимизированный дизайн обучения могут соперничать с возможностями значительно более крупных моделей.
Расширение возможностей больших языковых моделей (LLM) за счет подключения внешних инструментов позволяет им выполнять сложные многошаговые задачи. Однако обучение работе с инструментами затрудняется статичными синтетическими конвейерами данных, в которых генерация данных и обучение модели выполняются как два раздельных, невзаимодействующих процесса. Такой подход не позволяет адаптивно фокусироваться на конкретных слабых местах модели и допускает сохранение зашумленных меток, что снижает эффективность обучения. Мы представляем LoopTool — полностью автоматизированную framework эволюции данных, учитывающую особенности модели, которая замыкает этот цикл за счет тесной интеграции синтеза данных и обучения модели. LoopTool итеративно улучшает как данные, так и модель с помощью трех синергетических модулей: (1) Жадно-поисковое зондирование возможностей (GCP) диагностирует освоенные и проблемные навыки модели; (2) Проверка меток с управляющим суждением (JGLV) использует открытую модель-арбитр для поиска и исправления ошибок аннотации, постепенно очищая набор данных; и (3) Ошибко-ориентированное расширение данных (EDDE) генерирует новые сложные примеры на основе выявленных неудач. Этот замкнутый цикл функционирует в рамках экономичной экосистемы с открытым исходным кодом, устраняя зависимость от дорогостоящих закрытых API. Эксперименты показывают, что наша 8-миллиардная модель, обученная с помощью LoopTool, значительно превосходит свой 32-миллиардный генератор данных и устанавливает новые рекорды на benchmarks BFCL-v3 и ACEBench для своего масштаба. Наша работа демонстрирует, что замкнутые, самоусовершенствующиеся конвейеры данных могут кардинально улучшить способности LLM к использованию инструментов.
Модели Vision-Language-Action (VLA) продемонстрировали значительный потенциал для универсальной роботизированной манипуляции, однако их зависимость от экспертных демонстраций ограничивает способность обучаться на ошибках и выполнять самокоррекцию. Обучение с подкреплением (RL) решает эти проблемы за счет самоулучшающегося взаимодействия с физической средой, но страдает от высокой вычислительной сложности на реальных роботах. Мы представляем World-Model-based Policy Optimization (WMPO) — принципиальную框架 для VLA RL с он-политикой без взаимодействия с реальной средой. В отличие от широко используемых латентных мировых моделей, WMPO фокусируется на пиксельных предсказаниях, которые согласуют «воображаемые» траектории с признаками VLA, предварительно обученными на веб-масштабных изображениях. Ключевым является то, что WMPO позволяет политике выполнять он-политику GRPO, которая обеспечивает более высокую производительность по сравнению с часто используемыми методами офф-политики. Многочисленные эксперименты в симуляции и на реальном роботе показывают, что WMPO (i) существенно повышает эффективность выборки, (ii) достигает более высокой общей производительности, (iii) проявляет emergent-поведение, такое как самокоррекция, и (iv) демонстрирует robust-обобщение и способности к непрерывному обучению.
Разработка пользовательского интерфейса (UI) требует преобразования дизайн-макетов в функциональный код — процесс, который остается рутинным и трудоемким. Хотя современные Vision-Language Models (VLM) автоматизируют генерацию кода из UI, они создают лишь статические макеты на HTML/CSS/JavaScript, лишенные интерактивности. Для решения этой проблемы мы предлагаем WebVIA — первую агентную фреймворк-систему для генерации и валидации интерактивного кода из UI. Фреймворк состоит из трех компонентов: 1) агента исследования для захвата скриншотов UI в нескольких состояниях; 2) модели UI2Code, генерирующей исполняемый интерактивный код; 3) модуля валидации, проверяющего интерактивность. Эксперименты показывают, что WebVIA-Agent обеспечивает более стабильное и точное исследование UI по сравнению с универсальными агентами (например, Gemini-2.5-Pro). Кроме того, наши дообученные модели WebVIA-UI2Code демонстрируют значительное улучшение в генерации исполняемого и интерактивного кода на HTML/CSS/JavaScript, превосходя базовые версии как на интерактивных, так и на статических бенчмарках UI2Code. Наш код и модели доступны по адресу https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
Мультимодальные большие языковые модели (MБЯМ) продемонстрировали впечатляющие способности в задачах ответов на вопросы на основе визуальной и языковой информации. Несмотря на свои сильные стороны, эти модели часто сталкиваются с трудностями при решении сложных задач, требующих рассуждений, таких как решение математических задач. Предыдущие работы были сосредоточены на дообучении на специализированных математических наборах данных. Однако эти наборы данных, как правило, напрямую дистиллируются из моделей-учителей, которые захватывают лишь статические паттерны рассуждений, что создает существенный разрыв по сравнению с моделями-учениками. Эта зависимость от фиксированных данных, полученных от учителя, не только ограничивает способность модели адаптироваться к новым или более сложным вопросам, выходящим за рамки обучающих данных, но и лишена итерационной глубины, необходимой для надежного обобщения. Чтобы преодолеть эти ограничения, мы предлагаем \method, фреймворк математического саморазвития для МБЯМ. В отличие от традиционных парадигм одноэтапного дообучения, \method итеративно улучшает модель с помощью циклов вывода, рефлексии и обратной связи на основе вознаграждения. В частности, мы используем итеративное дообучение, включая корректные пути рассуждений, полученные из вывода на предыдущем этапе, и интегрируя рефлексию от специализированной модели вознаграждения по результату (Outcome Reward Model, ORM). Для проверки эффективности \method мы оцениваем его на наборе сложных бенчмарков, демонстрируя значительное улучшение производительности по сравнению с базовыми моделями. Примечательно, что наши экспериментальные результаты на MathVL-test превосходят результаты ведущей открытой мультимодальной модели математических рассуждений QVQ. Наш код и модели доступны по адресу https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
Веб-агенты сталкиваются с трудностями при адаптации к новым веб-сайтам из-за недостатка задач и демонстраций, специфичных для конкретной среды. В последних работах исследуется генерация синтетических данных для решения этой проблемы, однако они страдают от проблем с качеством данных: синтезированные задачи содержат галлюцинации, которые невозможно выполнить, а собранные траектории зашумлены избыточными или несогласованными действиями. В данной статье мы предлагаем SynthAgent — полностью синтетическую систему управления, направленную на повышение качества синтетических данных за счет двойного уточнения как задач, так и траекторий. Наш подход начинается с синтеза разнообразных задач через категоризированное исследование веб-элементов, что обеспечивает эффективное покрытие целевой среды. В процессе сбора траекторий мы уточняем задачи при обнаружении конфликтов с реальными наблюдениями, уменьшая галлюцинации при сохранении согласованности задачи. После сбора мы проводим уточнение траекторий с учетом глобального контекста, чтобы уменьшить потенциальный шум или рассогласования. Наконец, мы дообучаем веб-агенты с открытым исходным кодом на уточненных синтетических данных, чтобы адаптировать их к целевой среде. Результаты экспериментов показывают, что SynthAgent превосходит существующие методы работы с синтетическими данными, подтверждая важность высококачественного синтетического управления. Код будет общедоступен по адресу https://github.com/aiming-lab/SynthAgent.
Диффузионные модели продемонстрировали высокую генеративную производительность при использовании методов управления, таких как классификаторно-независимое руководство (CFG), которые улучшают качество выходных данных путем модификации траектории сэмплирования. Эти методы обычно улучшают целевой выход, намеренно ухудшая другой, часто безусловный выход, с использованием эвристических функций возмущения, таких как смешение идентичности или размытые условия. Однако данным подходам не хватает принципиального обоснования, и они опираются на ручные искажения. В данной работе мы предлагаем Метод управления вниманием с использованием адверсарной сходимости Зинхорна (ASAG) — новый подход, который переосмысливает оценки внимания в диффузионных моделях через призму оптимального транспорта и намеренно нарушает транспортную стоимость с помощью алгоритма Зинхорна. Вместо наивного повреждения механизма внимания ASAG внедряет адверсарную стоимость в слои самовнимания для снижения попиксельного сходства между запросами и ключами. Это преднамеренное ухудшение ослабляет вводящие в заблуждение выравнивания внимания и приводит к улучшению качества условных и безусловных сэмплов. ASAG демонстрирует устойчивые улучшения в тексто-изобразительной диффузии и повышает управляемость и достоверность в downstream-приложениях, таких как IP-Adapter и ControlNet. Метод является легковесным, работает по принципу «включи и работай» и повышает надежность без необходимости переобучения модели.
Инструменты агентного кодирования, такие как OpenAI Codex, Claude Code и Cursor, трансформируют ландшафт программной инженерии. Эти системы на базе ИИ функционируют как автономные члены команды, способные планировать и выполнять сложные задачи разработки. Агенты стали активными участниками рефакторинга — краеугольного камня устойчивой разработки программного обеспечения, направленного на улучшение внутреннего качества кода без изменения наблюдаемого поведения. Несмотря на растущее внедрение, существует критический недостаток эмпирического понимания того, как агентный рефакторинг используется на практике, как он соотносится с рефакторингом, выполняемым человеком, и какое влияние оказывает на качество кода. Чтобы восполнить этот эмпирический пробел, мы представляем масштабное исследование рефакторингов, сгенерированных ИИ-агентами, в реальных проектах Java с открытым исходным кодом, проанализировав 15 451 экземпляр рефакторинга в 12 256 пул-реквестах и 14 988 коммитах, полученных из набора данных AIDev. Наш эмпирический анализ показывает, что рефакторинг является распространенной и целенаправленной деятельностью в этой парадигме разработки: агенты явно нацеливаются на рефакторинг в 26,1% коммитов. Анализ типов рефакторинга reveals, что усилия агентов в основном сводятся к низкоуровневым, ориентированным на согласованность правкам, таким как изменение типа переменной (11,8%), переименование параметра (10,4%) и переименование переменной (8,5%), что отражает предпочтение локализованных улучшений по сравнению с изменениями высокоуровневого дизайна, характерными для человеческого рефакторинга. Кроме того, мотивация агентного рефакторинга подавляюще сосредоточена на внутренних аспектах качества: сопровождаемость (52,5%) и читаемость (28,1%). Более того, количественная оценка метрик качества кода показывает, что агентный рефакторинг приводит к небольшим, но статистически значимым улучшениям структурных метрик, особенно для изменений среднего уровня, уменьшая размер и сложность классов (например, медианное Δ для Class LOC = -15,25).
Языковые модели демонстрируют впечатляющие способности к генерации естественного языка, но остаются подвержены галлюцинациям, порождая фактически неверную информацию, несмотря на синтаксически связные ответы. В данном исследовании представлен "Верифицирующий Оракул" — архитектурное решение, предназначенное для предотвращения галлюцинаций в языковых моделях путём наложения ограничений истинности через формальную проверку по структурированным графам знаний. В отличие от статистических подходов, основанных на масштабировании данных или дообучении, "Верифицирующий Оракул" внедряет детерминированный шаг проверки в генеративный процесс модели, гарантируя, что высказываются только фактологически точные утверждения. Мы оценили эффективность "Верифицирующего Оракула" в экспериментах, сравнив его с несколькими передовыми методами, включая базовую генерацию языковой модели, дообучение на фактологическое воспроизведение, дообучение на поведение воздержания и генерацию с дополнением retrieval-augmented generation (RAG). Наши результаты показывают, что хотя RAG и дообучение улучшают производительность, они не устраняют галлюцинации полностью. В отличие от них, "Верифицирующий Оракул" достиг идеальной точности воздержания (AP = 1.0) и нулевого уровня ложных ответов (FAR-NE = 0.0), обеспечивая генерацию только валидных утверждений с точностью фактологических ответов в 89.1%. Эта работа демонстрирует, что архитектурные инновации, такие как "Верифицирующий Оракул", предлагают необходимое и достаточное решение проблемы галлюцинаций в областях со структурированными представлениями знаний, предоставляя гарантии, недостижимые для статистических методов. Хотя "Верифицирующий Оракул" специально разработан для борьбы с галлюцинациями в фактологических областях, его концепция закладывает основу для генерации с ограничениями истинности в будущих системах ИИ, открывая новый путь к созданию надёжных, эпистемически обоснованных моделей.