Ежедневно отобранные исследовательские статьи по ИИ с переводами
Методы самоэволюции улучшают генерацию кода посредством итерационных циклов «генерация-верификация-уточнение», однако существующие подходы страдают от низкой эффективности исследования, не позволяя находить решения повышенной сложности в условиях ограниченных ресурсов. Эта неэффективность обусловлена тремя факторами: смещением инициализации, задерживающим эволюцию в областях неоптимальных решений; неконтролируемыми стохастическими операциями, лишенными обратной связи; и недостаточным использованием накопленного опыта между задачами. Для преодоления этих ограничений мы предлагаем метод контролируемой самоэволюции (CSE), состоящий из трех ключевых компонентов. Диверсифицированная инициализация планирования генерирует структурно различные алгоритмические стратегии для широкого охвата пространства решений. Генетическая эволюция заменяет стохастические операции механизмами с управлением по обратной связи, обеспечивая целенаправленную мутацию и композиционное скрещивание. Иерархическая память эволюции фиксирует как успешный, так и неудачный опыт на межадачном и внутризадачном уровнях. Эксперименты на EffiBench-X показывают, что CSE стабильно превосходит все базовые методы при использовании различных LLM-архитектур. Кроме того, CSE демонстрирует более высокую эффективность с ранних поколений и сохраняет непрерывное улучшение на протяжении всей эволюции. Наш код доступен по адресу https://github.com/QuantaAlpha/EvoControl.
Системы углубленного исследования широко применяются для многоэтапного веб-поиска, анализа и синтеза информации из различных источников, однако их оценка остается сложной задачей. Существующие бенчмарки часто требуют трудоемкой разметки для создания заданий, опираются на статические критерии оценки или не позволяют надежно проверять факты при отсутствии цитирований. Для преодоления этих ограничений мы представляем DeepResearchEval — автоматизированную платформу для создания задач углубленного исследования и агентной оценки. Для формирования заданий мы предлагаем персонализированный конвейер, генерирующий реалистичные сложные исследовательские задачи на основе разнообразных пользовательских профилей, с применением двухэтапного фильтра (Квалификация Задачи и Необходимость Поиска) для отбора только тех заданий, которые требуют интеграции доказательств из множества источников и внешнего поиска. Для оценки мы разработали агентный конвейер с двумя компонентами: Адаптивная Поточечная Оценка Качества, которая динамически определяет специфичные для задачи критерии, параметры и веса оценки на основе каждого сгенерированного задания, и Активная Проверка Фактов, которая автономно извлекает и верифицирует утверждения из отчетов через веб-поиск, даже при отсутствии цитирований.
Крупные языковые модели (LLM) как агенты демонстрируют врожденные способности к логическому выводу через совместное использование множества инструментов. Однако в процессе логического вывода агента существующие методы часто сталкиваются с (i) локально близорукой генерацией, обусловленной отсутствием прогнозирования на несколько шагов вперед (lookahead), и (ii) нестабильностью траектории рассуждений, когда незначительные ранние ошибки могут усиливаться и приводить к расходящимся путям рассуждений. Эти проблемы затрудняют балансировку между глобальной эффективностью и вычислительной производительностью. Для решения этих двух проблем мы предлагаем мета-адаптивное исследование с агентами на основе LLM (https://github.com/exoskeletonzj/MAXS) — мета-адаптивную framework логического вывода, которая гибко интегрирует выполнение инструментов и планирование рассуждений. MAXS использует стратегию прогнозирования на несколько шагов вперед для расширения путей рассуждений, оценивая преимущество (advantage value) использования инструментов, и комбинирует дисперсию пошаговой согласованности (step consistency variance) и наклоны межшаговых трендов для совместного выбора стабильных, согласованных и высокоценных шагов рассуждений. Кроме того, мы вводим механизм сходимости траекторий, который контролирует вычислительные затраты путем остановки дальнейших разверток (rollouts) после достижения согласованности пути, что позволяет достичь баланса между эффективностью использования ресурсов и глобальной результативностью в рассуждениях с множеством инструментов. Мы провели обширные эмпирические исследования на трех базовых моделях (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) и пяти наборах данных, которые демонстрируют, что MAXS стабильно превосходит существующие методы как по производительности, так и по эффективности логического вывода. Дополнительный анализ подтверждает эффективность нашей стратегии прогнозирования и использования инструментов.
Научное рассуждение опирается не только на логический вывод, но и на активацию предшествующих знаний и опытных структур. Память позволяет эффективно повторно использовать знания и повышать согласованность и устойчивость рассуждений. Однако существующие бенчмарки в основном оценивают итоговые ответы или пошаговую связность, упуская из виду механизмы, управляемые памятью, которые лежат в основе человеческого мышления и включают активацию якорей и аттракторов с последующей их интеграцией в многошаговый вывод. Чтобы заполнить этот пробел, мы предлагаем A³-Bench~ https://a3-bench.github.io — бенчмарк, предназначенный для оценки научного рассуждения через двухуровневую активацию, управляемую памятью, основанную на активации якорей и аттракторов. Во-первых, мы аннотируем 2 198 задач научного рассуждения из различных областей, используя процесс SAPM (субъект, якорь и аттрактор, проблема и развитие памяти). Во-вторых, мы представляем двухуровневую систему оценки памяти с использованием якорей и аттракторов, а также метрику AAUI (Индекс использования якорей и аттракторов) для измерения уровня активации памяти. Наконец, в ходе экспериментов с различными базовыми моделями и парадигмами мы валидируем A³-Bench и анализируем, как активация памяти влияет на результативность рассуждений, предоставляя новые данные о научном рассуждении, управляемом памятью.
В данном отчете мы представляем DASD-4B-Thinking — легковесную, но высокопроизводительную и полностью открытую модель рассуждений. Она демонстрирует наилучшие результаты (SOTA) среди открытых моделей сопоставимого масштаба на сложных тестах по математике, научным рассуждениям и генерации кода, превосходя даже несколько более крупных моделей. Мы начинаем с критического переосмысления широко принятой в сообществе парадигмы дистилляции: обучения с учителем (SFT) на ответах, сгенерированных учителем, также известной как дистилляция на уровне последовательностей. Хотя ряд недавних работ, следующих этой схеме, продемонстрировали впечатляющую эффективность и высокую практическую результативность, они в основном основаны на перспективе SFT. Как следствие, эти подходы сосредоточены преимущественно на разработке эвристических правил для фильтрации данных SFT, в значительной степени упуская из виду основной принцип самой дистилляции — позволить модели-ученику изучить полное распределение выходных данных учителя, чтобы унаследовать его способность к обобщению. В частности, мы выделяем три критических ограничения в текущей практике: i) Неадекватное представление распределения учителя на уровне последовательности; ii) Несоответствие между распределением выходных данных учителя и обучающей способностью ученика; и iii) Смещение воздействия (exposure bias), возникающее из-за принудительного обучения на выходах учителя в противовес авторегрессионному выводу. В совокупности эти недостатки отражают системное отсутствие явного взаимодействия между учителем и учеником на протяжении всего процесса дистилляции, что оставляет её сущность нераскрытой. Для решения этих проблем мы предлагаем ряд методологических инноваций, которые в совокупности формируют усовершенствованный конвейер обучения для дистилляции на уровне последовательностей. Примечательно, что DASD-4B-Thinking достигает конкурентоспособных результатов, используя всего 448 тыс. обучающих примеров — на порядок меньше, чем использует большинство существующих открытых проектов. Для поддержки исследований сообщества мы публично выпускаем наши модели и обучающий набор данных.
Задачи "Vision-Language-Action" (VLA) требуют анализа сложных визуальных сцен и выполнения адаптивных действий в динамических средах. Хотя последние исследования в области рассуждающих VLA-систем показывают, что явные цепочки рассуждений (CoT) могут улучшить обобщающую способность, они страдают от высокой задержки вывода из-за длинных трасс рассуждений. Мы предлагаем Fast-ThinkAct — эффективную архитектуру рассуждений, которая достигает компактного, но производительного планирования через вербализуемое латентное рассуждение. Fast-ThinkAct обучается эффективно рассуждать с помощью латентных CoT путем извлечения знаний из учителя, управляемого целевой функцией, ориентированной на предпочтения, для согласования траекторий манипулирования, которая переносит как лингвистические, так и визуальные способности планирования для воплощенного управления. Это позволяет реализовать обучение политик, усиленное рассуждениями, которое эффективно связывает компактное рассуждение с выполнением действий. Многочисленные эксперименты на различных бенчмарках воплощенного манипулирования и рассуждений демонстрируют, что Fast-ThinkAct достигает высокой производительности с сокращением задержки вывода до 89,3% по сравнению с передовыми рассуждающими VLA-системами, сохраняя при этом эффективное планирование на длинных горизонтах, few-shot адаптацию и восстановление после сбоев.
Универсальные большие визуально-языковые модели (LVLM), несмотря на свои масштабы, часто демонстрируют низкую эффективность в дерматологии из-за «диффузного внимания» — неспособности выделить тонкие патологические поражения из фонового шума. В данной статье мы оспариваем предположение, что масштабирование параметров является единственным путём к медицинской точности. Мы представляем SkinFlow — методологию, которая трактует диагностику как оптимизацию эффективности передачи визуальной информации. Наш подход использует динамический визуальный кодировщик с виртуальной шириной (DVE) для «развёртывания» сложных патологических многообразий без физического расширения параметров в сочетании с двухэтапной стратегией обучения с подкреплением. Эта стратегия последовательно выравнивает явные медицинские описания (Этап I) и восстанавливает неявные диагностические текстуры (Этап II) в ограниченном семантическом пространстве. Кроме того, мы предлагаем клинически обоснованный протокол оценки, который отдаёт приоритет диагностической безопасности и иерархической релевантности над жёстким соответствием меткам. Эмпирические результаты убедительны: наша модель с 7 млрд параметров устанавливает новый рекорд на бенчмарке Fitzpatrick17k, демонстрируя прирост точности Top-1 на +12,06% и Top-6 на +28,57% по сравнению с массивными универсальными моделями (такими как Qwen3VL-235B и GPT-5.2). Эти результаты показывают, что оптимизация геометрической ёмкости и информационного потока обеспечивает более совершенное диагностическое мышление по сравнению с простым масштабированием параметров.
Мы представляем OpenVoxel — алгоритм без обучения для группировки и описания разреженных вокселей в задачах понимания 3D-сцен с открытым словарём. Получив модель разреженной воксельной растеризации (SVR) из многовидовых изображений 3D-сцены, наш OpenVoxel способен формировать осмысленные группы, описывающие различные объекты в сцене. Кроме того, используя мощные Vision Language Models (VLM) и Multimodal Large Language Models (MLLM), наш OpenVoxel успешно строит информативную карту сцены, присваивая описания каждой группе, что позволяет решать дальнейшие задачи понимания 3D-сцен, такие как сегментация с открытым словарём (OVS) или сегментация по референциальным выражениям (RES). В отличие от предыдущих методов, наш подход не требует обучения и не использует эмбеддинги из текстового энкодера CLIP/BERT. Вместо этого мы напрямую выполняем текстовый поиск с помощью MLLM. В ходе обширных экспериментов наш метод продемонстрировал превосходную производительность по сравнению с недавними исследованиями, особенно в сложных задачах сегментации по референциальным выражениям (RES). Код будет открыт.
Разработка больших языковых моделей (LLM) позволила достичь превосходных результатов в ряде прикладных задач, включая генерацию с расширением на основе извлечения информации (RAG) с использованием LLM. Качество генерируемого контента в значительной степени зависит от полезности извлеченной информации и способности внутреннего механизма обработки информации LLM интегрировать её в процесс формирования ответа. Обычно предполагается, что извлеченная информация релевантна вопросу. Однако степень релевантности и полезности извлеченной информации может варьироваться в зависимости от конкретного запроса и коллекции документов. Учет релевантности извлеченной информации при генерации ответа является важной задачей. В данной статье мы предлагаем OpenDecoder — новый подход, который использует явную оценку извлеченной информации в качестве признаков-индикаторов качества для генерации. Наша цель — построить RAG-модель, более устойчивую к различным уровням зашумленного контекста. Рассматриваются три типа явной оценочной информации: оценка релевантности, ранговый показатель и оценка QPP (прогнозирование эффективности запроса). Результаты экспериментов на пяти эталонных наборах данных демонстрируют эффективность и лучшую устойчивость OpenDecoder, который превосходит различные базовые методы. Важно отметить, что данная парадигма гибко интегрируется с дообучением LLM для любых целей и может быть дополнена любыми типами внешних индикаторов.
Вмешательство на основе опыта в веб-агентах представляет собой перспективную техническую парадигму, повышающую способности агентов к взаимодействию за счет предоставления ценных инсайтов из накопленного опыта. Однако существующие методы преимущественно пассивно внедряют опыт как глобальный контекст до выполнения задачи, с трудом адаптируясь к динамически меняющимся контекстным наблюдениям во время взаимодействия агента со средой. Мы предлагаем ExpSeek, который смещает фокус опыта в сторону проактивного поиска на пошаговом уровне: (1) оценку энтропийных порогов на уровне шага для определения времени вмешательства с использованием внутренних сигналов модели; (2) разработку специально адаптированного содержания опыта для каждого шага. Эксперименты на моделях Qwen3-8B и 32B в рамках четырех сложных бенчмарков веб-агентов демонстрируют, что ExpSeek достигает абсолютного улучшения на 9.3% и 7.5% соответственно. Наши эксперименты подтверждают осуществимость и преимущества использования энтропии в качестве сигнала самоактивации, а также показывают, что даже компактная модель опыта объемом 4B способна значительно повысить производительность более крупных агент-моделей.
Модели «визуальный язык» (Vision-Language Models, VLM) демонстрируют выдающиеся результаты в задачах привязки к пользовательскому интерфейсу (UI), что обусловлено их способностью обрабатывать скриншоты всё более высокого разрешения. Однако скриншоты токенизируются в тысячи визуальных токенов (например, около 4700 для разрешения 2K), что приводит к значительным вычислительным затратам и размыванию внимания. В отличие от этого, люди при взаимодействии с UI обычно фокусируются на областях интереса. В данной работе мы впервые ставим задачу эффективной привязки к UI. Руководствуясь практическим анализом особенностей и проблем задачи, мы предлагаем FocusUI — эффективную архитектуру для привязки к UI, которая выбирает наиболее релевантные инструкции патчи, сохраняя при этом позиционную непрерывность для точной привязки. FocusUI решает две ключевые проблемы: (1) Устранение избыточных токенов в визуальном кодировании. Мы создаём патч-уровневую разметку, объединяя оценку, обусловленную инструкцией, с правиловой оценкой на графе UI, которая понижает вес больших однородных областей для отбора различимых и релевантных инструкции визуальных токенов. (2) Сохранение позиционной непрерывности при отборе визуальных токенов. Мы обнаружили, что общие методы прореживания визуальных токенов приводят к серьёзному падению точности в задачах привязки к UI из-за нарушения позиционной информации. Мы представляем новую стратегию PosPad, которая сжимает каждую непрерывную последовательность отброшенных визуальных токенов в единый специальный маркер, размещаемый по последнему индексу последовательности, для сохранения позиционной непрерывности. Комплексные эксперименты на четырёх бенчмарках привязки показывают, что FocusUI превосходит специализированные для GUI базовые методы. На бенчмарке ScreenSpot-Pro модель FocusUI-7B достигает улучшения производительности на 3.7% по сравнению с GUI-Actor-7B. Даже при сохранении всего 30% визуальных токенов, FocusUI-7B теряет лишь 3.2% точности, обеспечивая при этом до 1.44x ускорение вывода и на 17% меньший пиковый объём памяти GPU.
Обучение больших языковых моделей (LLM) часто оптимизируется для согласования с предпочтениями, поощряя выходные данные, которые воспринимаются как полезные и удобные для взаимодействия. Однако эта ориентация на предпочтения может быть эксплуатирована: манипулятивные промты могут направлять ответы в сторону угодливого согласия с пользователем и уводить от правдивой корректировки. В данной работе мы исследуем, уязвимы ли выровненные модели для *атак, подрывающих предпочтения* (Preference-Undermining Attacks, PUA) — класса манипулятивных стратегий промтинга, предназначенных для эксплуатации стремления модели угодить предпочтениям пользователя в ущерб правдивости. Мы предлагаем диагностическую методологию, которая обеспечивает более детализированный и директивный анализ по сравнению с агрегированными баллами бенчмарков, используя факторный оценочный framework для декомпозиции сдвигов, вызванных промтами, на интерпретируемые эффекты системных целей (ориентированных на истину vs. на предпочтения) и факторов диалога в стиле PUA (директивное управление, личная derogation, условное одобрение, отрицание реальности) в рамках контролируемого плана 2 × 2^4. Неожиданно, более продвинутые модели иногда более подвержены манипулятивным промтам. Помимо доминирующего фактора отрицания реальности, мы наблюдаем специфичные для моделей изменения знака и взаимодействия с факторами в стиле PUA, что указывает на необходимость tailored защит, а не единой устойчивости. Эти результаты предлагают новую, воспроизводимую методологию факторного оценивания, которая обеспечивает более детальную диагностику для пост-тренировочных процессов, таких как RLHF, позволяя достичь лучших компромиссов в продуктовой итерации LLM за счет более тонкого понимания рисков согласования предпочтений и воздействия манипулятивных промтов.
Хотя агенты на основе больших языковых моделей (LLM) демонстрируют потенциал для глубоких исследований, большинство существующих подходов полагаются на фиксированные рабочие процессы, которые плохо адаптируются к реальным открытым запросам. Поэтому в последних работах исследуется саморазвитие, позволяющее агентам переписывать собственный код или промпты для повышения способности решать задачи, однако неограниченная оптимизация часто приводит к нестабильности, галлюцинациям и дрейфу инструкций. Мы предлагаем EvoFSM — структурированную саморазвивающуюся framework, которая обеспечивает как адаптивность, так и контроль за счёт эволюции явного конечного автомата (Finite State Machine, FSM) вместо свободного переписывания. EvoFSM разделяет пространство оптимизации на макроскопический Поток (логику переходов между состояниями) и микроскопические Навыки (поведения, специфичные для состояний), что позволяет осуществлять целевые улучшения в рамках чётких поведенческих границ. Под руководством механизма-критика EvoFSM совершенствует FSM с помощью небольшого набора ограниченных операций и дополнительно включает саморазвивающуюся память, которая аккумулирует успешные траектории как переиспользуемые априорные знания, а паттерны неудач — как ограничения для будущих запросов. Обширные оценки на пяти бенчмарках многошагового вопросно-ответного поиска демонстрируют эффективность EvoFSM. В частности, EvoFSM достигает точности 58,0% на бенчмарке DeepSearch. Дополнительные результаты по задачам интерактивного принятия решений further подтверждают его способность к обобщению.
Мы представляем TranslateGemma — набор открытых моделей машинного перевода, основанных на базовых моделях Gemma 3. Для повышения присущих Gemma 3 мультиязычных возможностей применительно к задаче перевода мы применяем двухэтапный процесс дообучения. Сначала выполняется контролируемое дообучение с использованием богатой смеси высококачественных синтетических параллельных данных крупного масштаба, сгенерированных с помощью передовых моделей, и данных человеческого перевода. За этим следует этап обучения с подкреплением, на котором мы оптимизируем качество перевода с использованием ансамбля моделей вознаграждения, включая MetricX-QE и AutoMQM, нацеленных на качество перевода. Мы демонстрируем эффективность TranslateGemma с помощью человеческой оценки на тестовом наборе WMT25 для 10 языковых пар и автоматической оценки на бенчмарке WMT24++ для 55 языковых пар. Автоматические метрики показывают стабильный и существенный прирост по сравнению с базовыми моделями Gemma 3 для всех размеров. Примечательно, что меньшие модели TranslateGemma часто достигают производительности, сопоставимой с более крупными базовыми моделями, предлагая улучшенную эффективность. Мы также показываем, что модели TranslateGemma сохраняют сильные мультимодальные возможности с улучшенной производительностью на бенчмарке перевода изображений Vistra. Выпуск открытых моделей TranslateGemma направлен на предоставление научному сообществу мощных и адаптируемых инструментов для машинного перевода.
Последние достижения в области моделей мира продемонстрировали потенциал для прогнозирования будущей динамики состояний среды, позволяя агентам принимать решения и действовать без доступа к реальным окружениям. Современные методы в основном выполняют одношаговые или фиксированные по горизонту прогоны, оставляя их потенциал для сложного планирования задач нераскрытым. Мы предлагаем Imagine-then-Plan (ITP) — унифицированную框架 для обучения агентов через упреждающее воображение, где модель политики агента взаимодействует с изученной моделью мира, порождая многошаговые «воображаемые» траектории. Поскольку горизонт воображения может варьироваться в зависимости от задач и этапов, мы вводим новый механизм адаптивного упреждающего планирования, балансируя между конечной целью и прогрессом задачи. Результирующие воображаемые траектории предоставляют богатые сигналы о будущих последствиях, таких как достигнутый прогресс и потенциальные конфликты, которые объединяются с текущими наблюдениями, формируя частично наблюдаемый и вообразимый марковский процесс принятия решений для обучения политики. Мы реализуем ITP в двух вариантах: без обучения и с обучением с подкреплением. Масштабные эксперименты на репрезентативных тестовых наборах для агентов демонстрируют, что ITP значительно превосходит конкурентоспособные базовые методы. Дальнейший анализ подтверждает, что наш адаптивный механизм упреждающего планирования существенно усиливает способность агентов к рассуждению, предоставляя ценные insights для решения более широкого круга сложных задач.
Современные генеративные модели видео на основе диффузионных моделей способны создавать высокореалистичные видеоролики, однако они вычислительно неэффективны, зачастую требуя минут GPU-времени для генерации всего нескольких секунд видео. Эта неэффективность представляет собой серьезное препятствие для развертывания генеративного видео в приложениях, требующих взаимодействия в реальном времени, таких как воплощенный ИИ и VR/AR. В данной статье исследуется новая стратегия генерации видео статичных сцен с условием на камеру: использование диффузионных генеративных моделей для создания разреженного набора ключевых кадров с последующим синтезом полного видео посредством 3D-реконструкции и рендеринга. Путем поднятия ключевых кадров в 3D-представление и рендеринга промежуточных видов наш подход распределяет стоимость генерации на сотни кадров, одновременно обеспечивая геометрическую согласованность. Мы также представляем модель, которая предсказывает оптимальное количество ключевых кадров для заданной траектории камеры, что позволяет системе адаптивно распределять вычисления. Наш итоговый метод, SRENDER, использует очень разреженные ключевые кадры для простых траекторий и более плотные — для сложного движения камеры. В результате генерация видео становится более чем в 40 раз быстрее по сравнению с диффузионным базовым методом при создании 20-секундного видео, при этом сохраняя высокую визуальную достоверность и временную стабильность, что открывает практический путь к эффективному и управляемому синтезу видео.
Память играет фундаментальную роль в усилении способности к рассуждению, адаптивности и контекстуальной точности современных больших языковых моделей (LLM) и мультимодальных LLM. По мере перехода этих моделей от статических предсказателей к интерактивным системам, способным к непрерывному обучению и персонализированному выводу, внедрение механизмов памяти стало центральной темой в их архитектурной и функциональной эволюции. В данном обзоре представлен всесторонний и структурированный синтез знаний о памяти в LLM и MLLM, организующий литературу в единую таксономию, включающую имплицитную, эксплицитную и агентную парадигмы памяти. В частности, обзор выделяет три основные архитектуры памяти. Имплицитная память относится к знаниям, встроенным во внутренние параметры предварительно обученных трансформеров, включая их способность к запоминанию, ассоциативному поиску и контекстуальным рассуждениям. Недавние работы исследуют методы интерпретации, манипуляции и реконфигурации этой скрытой памяти. Эксплицитная память включает внешние компоненты хранения и поиска, предназначенные для дополнения выходных данных модели динамическими, запрашиваемыми представлениями знаний, такими как текстовые корпуса, плотные векторы и графовые структуры, что позволяет осуществлять масштабируемое и обновляемое взаимодействие с источниками информации. Агентная память вводит постоянные, временно протяженные структуры памяти в автономных агентах, способствуя долгосрочному планированию, самосогласованности и коллективному поведению в мультиагентных системах, что актуально для воплощенного и интерактивного ИИ. Выходя за рамки текста, обзор рассматривает интеграцию памяти в мультимодальных средах, где важна согласованность между модальностями зрения, языка, звука и действий. Обсуждаются ключевые архитектурные достижения, эталонные задачи и открытые проблемы, включая вопросы, связанные с объемом памяти, выравниванием, фактической согласованностью и межсистемной совместимостью.
Анализ изученных представлений имеет слепое пятно: он фокусируется на сходстве, измеряя, насколько близко эмбеддинги соответствуют внешним ориентирам, но сходство раскрывает лишь то, что представлено, а не то, насколько эта структура устойчива. Мы вводим геометрическую стабильность — отдельное измерение, которое количественно оценивает, насколько надежно геометрия представлений сохраняется при возмущениях, и представляем Shesha, фреймворк для её измерения. На примере 2463 конфигураций в семи областях мы показываем, что стабильность и сходство эмпирически не коррелируют (ρ≈0.01) и механистически различны: метрики сходства коллапсируют после удаления главных компонент, в то время как стабильность сохраняет чувствительность к мелкозернистой структуре многообразия. Это различие дает практическую пользу: для мониторинга безопасности стабильность действует как функциональный геометрический канарейка, обнаруживая структурный дрейф почти в 2 раза чувствительнее, чем CKA, и отфильтровывая нефункциональный шум, вызывающий ложные срабатывания в жестких метриках расстояния; для управляемости контролируемая стабильность предсказывает линейную управляемость (ρ=0.89–0.96); для выбора моделей стабильность диссоциирует от переносимости, выявляя геометрическую цену, которую влечет оптимизация на перенос. За пределами машинного обучения стабильность предсказывает когерентность CRISPR-пертурбаций и нейроповеденческую связь. Количественно оценивая, насколько надежно системы сохраняют структуру, геометрическая стабильность предоставляет необходимое дополнение к сходству для аудита представлений в биологических и вычислительных системах.
Воплощенные системы воспринимают мир как «симфонию потоков»: совокупность множества непрерывных потоков сенсорного ввода, связанных с самодвижением и переплетенных с динамикой внешних объектов. Эти потоки подчиняются гладким, параметризованным по времени симметриям, которые комбинируются посредством строго структурированной алгебры; однако большинство нейросетевых моделей мира игнорируют эту структуру и вместо этого многократно переобучаются одним и тем же преобразованиям на основе данных. В данной работе мы представляем «Эквивариантные к потокам модели мира» — фреймворк, в котором как самодвижение, так и движение внешних объектов унифицированы в виде однопараметрических «потоков» групп Ли. Мы используем эту унификацию для реализации эквивариантности групп относительно данных преобразований, обеспечивая тем самым стабильное латентное представление мира на сотнях временных шагов. На бенчмарках моделирования мира по частично наблюдаемым 2D- и 3D-видеопоследовательностям мы демонстрируем, что эквивариантные к потокам модели мира значительно превосходят сопоставимые передовые архитектуры мировых моделей на основе диффузии и с расширенной памятью — особенно в случаях, когда существуют предсказуемые динамики мира за пределами текущего поля зрения агента. Мы показываем, что эквивариантность к потокам особенно полезна для длинных разверток, обобщаясь далеко за пределы горизонта обучения. Структурируя представления моделей мира относительно внутреннего и внешнего движения, эквивариантность к потокам прокладывает масштабируемый путь к эффективному с точки зрения данных, управляемому симметриями, воплощенному интеллекту. Ссылка на проект: https://flowequivariantworldmodels.github.io.
Мультимодальные большие языковые модели (MLLM) демонстрируют значительный прогресс в области мультимодальных рассуждений. Ранние подходы были сосредоточены на чисто текстовых рассуждениях. Более поздние исследования стали включать мультимодальную информацию в шаги рассуждения; однако они часто следуют единому, специфичному для задачи шаблону рассуждений, что ограничивает их обобщающую способность для различных мультимодальных задач. На самом деле, существует множество мультимодальных задач, требующих разнообразных навыков рассуждения, таких как увеличение конкретной области или выделение объекта на изображении. Для решения этой проблемы мы предлагаем унифицированное генеративное мультимодальное рассуждение, которое объединяет различные навыки мультимодальных рассуждений за счёт генерации промежуточных изображений в процессе рассуждения. Мы реализуем эту парадигму в модели Omni-R1 — двухэтапной структуре SFT+RL с функцией потерь на выравнивание восприятия и вознаграждением за восприятие, что позволяет осуществлять функциональную генерацию изображений. Кроме того, мы представляем Omni-R1-Zero, которая устраняет необходимость в мультимодальных разметках, используя бутстрэппинг пошаговых визуализаций из данных текстовых рассуждений. Экспериментальные результаты показывают, что Omni-R1 достигает унифицированного генеративного рассуждения для широкого спектра мультимодальных задач, а Omni-R1-Zero в среднем может соответствовать или даже превосходить Omni-R1, что указывает на перспективное направление для генеративных мультимодальных рассуждений.
Улучшение больших языковых моделей (LLM) на основе обучения с подкреплением (RL) часто приводит к снижению разнообразия выходных данных, что подрывает их полезность в задачах с открытым концом, таких как творческое письмо. Современные методы не имеют явных механизмов для направленного изучения разнообразных вариантов и вместо этого отдают приоритет эффективности оптимизации и производительности в ущерб разнообразию. В данной статье предлагается RL-фреймворк, структурированный вокруг полуструктурированной длинной цепочки рассуждений (Chain-of-Thought, CoT), в котором процесс генерации декомпозируется на явно планируемые промежуточные шаги. Мы представляем метод ветвления с разнообразным планированием, который стратегически вносит расхождения на этапе планирования на основе вариаций разнообразия, а также групповое вознаграждение за разнообразие для поощрения различных траекторий. Результаты экспериментов на бенчмарках творческого письма демонстрируют, что наш подход значительно улучшает разнообразие выходных данных без ущерба для качества генерации, стабильно превосходя существующие базовые методы.
Задача генерации видео из изображений (Image-to-Video, I2V) направлена на синтез видео на основе эталонного изображения и текстового промпта. Это требует от диффузионных моделей согласования высокочастотных визуальных ограничений и низкочастотных текстовых указаний в процессе деноизинга. Однако, хотя существующие модели I2V уделяют приоритетное внимание визуальной согласованности, вопрос эффективного объединения этого двойного руководства для обеспечения строгого следования текстовому промпту остается малоизученным. В данной работе мы наблюдаем, что в моделях I2V на основе Diffusion Transformer (DiT) определенные промежуточные слои демонстрируют слабые семантические отклики (названные Семантически-Слабыми Слоями), что проявляется в измеримом падении текстово-визуального сходства. Мы объясняем это явлением, называемым "Изоляцией Условий", при котором внимание к визуальным признакам частично отрывается от текстовых указаний и чрезмерно полагается на выученные визуальные паттерны. Для решения этой проблемы мы предлагаем Фокальное Руководство (Focal Guidance, FG), которое усиливает управляемость со стороны Семантически-Слабых Слоев. FG включает два механизма: (1) Детальное Семантическое Руководство (Fine-grained Semantic Guidance, FSG) использует CLIP для идентификации ключевых областей в эталонном кадре и применяет их в качестве якоря для направления Семантически-Слабых Слоев. (2) Кэширование Внимания (Attention Cache) передает карты внимания из семантически отзывчивых слоев в Семантически-Слабые Слои, внедряя явные семантические сигналы и снижая их чрезмерную зависимость от выученных визуальных паттернов модели, тем самым усиливая adherence к текстовым инструкциям. Для дальнейшей валидации нашего подхода и решения проблемы отсутствия оценки в этом направлении мы представляем бенчмарк для оценки следования инструкциям в моделях I2V. На этом бенчмарке Фокальное Руководство доказывает свою эффективность и обобщаемость, повышая общий балл на Wan2.1-I2V до 0.7250 (+3.97%) и увеличивая показатель основанной на MMDiT модели HunyuanVideo-I2V до 0.5571 (+7.44%).
Обучение с подкреплением (ОП) предлагает принципиальный подход к повышению способностей больших языковых моделей к рассуждению, однако его эффективность зависит от обучающих сигналов, которые остаются информативными по мере развития моделей. На практике прогресс ОП часто замедляется, когда сложность задачи плохо согласуется с возможностями модели или когда обучение доминируется узким набором повторяющихся шаблонов проблем. Для совместного решения этих вопросов мы предлагаем SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning) — фреймворк, который поддерживает эффективные обучающие сигналы посредством адаптивного проектирования среды. SCALER представляет масштабируемый конвейер синтеза, который преобразует реальные программные задачи в верифицируемые среды для рассуждений с контролируемой сложностью и неограниченной генерацией примеров, позволяя проводить обучение с подкреплением за пределами конечных наборов данных при сохранении строгих гарантий корректности. На основе этого SCALER дополнительно использует адаптивную стратегию ОП в многопоточной среде, которая динамически регулирует сложность примеров и курирует активный набор сред для отслеживания границы возможностей модели и поддержания диверсификации распределения. Такая ко-адаптация предотвращает разреженность вознаграждения, смягчает переобучение узким шаблонам задач и способствует устойчивому улучшению на протяжении всего обучения. Многочисленные эксперименты показывают, что SCALER последовательно превосходит базовые методы ОП, основанные на наборах данных, в различных тестах на рассуждение и демонстрирует более стабильную динамику обучения на длительных горизонтах.
Критико-ориентированное обучение с подкреплением (RL) стало мощной парадигмой для тренировки агентов на основе больших языковых моделей (LLM), дополняя разреженные вознаграждения по исходу обратной связью на естественном языке. Однако современные методы часто полагаются на статические или офлайн-модели критика, которые не адаптируются по мере эволюции политики. В он-полиси RL паттерны ошибок агента со временем меняются, что приводит к устареванию стационарных критиков и снижению полезности их обратной связи. Для решения этой проблемы мы представляем ECHO (Evolving Critic for Hindsight-Guided Optimization) — фреймворк, который совместно оптимизирует политику и критика через синхронизированный коэволюционный цикл. ECHO использует каскадный механизм rollout, в котором критика генерирует множественные диагнозы для начальной траектории, после чего следует уточнение политики для обеспечения группового структурированного оценивания преимущества. Мы решаем проблему плато обучения с помощью целевой функции формирования выигрыша, учитывающей насыщение, которая вознаграждает критика за индуцирование постепенных улучшений в высокопроизводительных траекториях. Используя dual-track GRPO-обновления, ECHO гарантирует, что обратная связь критика остается синхронизированной с эволюционирующей политикой. Результаты экспериментов показывают, что ECHO обеспечивает более стабильное обучение и более высокий успех в решении задач с длинным горизонтом планирования в открытых мирах.
Распределение рабочих нагрузок в кластерах часто требует сложных конфигураций, что создает проблему удобства использования. В данной статье представлена семантическая, ориентированная на намерения парадигма планирования для кластерных систем с использованием обработки естественного языка. Система использует большую языковую модель (LLM), интегрированную через расширение планировщика Kubernetes, для интерпретации аннотаций подсказок распределения на естественном языке, выражающих мягкие аффинные предпочтения. Был разработан прототип, включающий кэш состояния кластера и анализатор намерений (с использованием AWS Bedrock). Эмпирическая оценка продемонстрировала высокую точность парсинга LLM (>95% Subset Accuracy на оценочном наборе данных с эталонными значениями) для моделей высшего класса, таких как Amazon Nova Pro/Premier и Mistral Pixtral Large, что значительно превосходит базовый механизм. Тесты качества планирования в шести сценариях показали, что прототип обеспечивает превосходящее или эквивалентное размещение по сравнению со стандартными конфигурациями Kubernetes, особенно преуспевая в сложных и количественных сценариях, а также при обработке конфликтующих мягких предпочтений. Результаты подтверждают целесообразность использования LLM для упрощения планирования, но также выявляют ограничения, такие как синхронная задержка LLM, что указывает на необходимость асинхронной обработки для готовности к промышленной эксплуатации. Данная работа подтверждает жизнеспособность семантических мягких аффинных правил для упрощения оркестрации рабочих нагрузок.
Крупные языковые модели часто генерируют правдоподобные, но недостоверные выводы, которые пользователи не могут проверить по исходному тексту, что является серьёзным ограничением в чувствительных к соблюдению нормативных требований областях, таких как государственный сектор и юридический анализ. Мы представляем sui-1 — модель с 24 миллиардами параметров, которая создаёт абстрактные резюме со встроенными цитатами, позволяя пользователям отслеживать каждое утверждение до его исходного предложения. Наш синтетический конвейер данных сочетает цепочку рассуждений с многоэтапной проверкой, генерируя более 22 000 высококачественных учебных примеров на пяти языках из разнообразных источников, включая парламентские документы, веб-тексты и Wikipedia. Оценка показывает, что sui-1 значительно превосходит все протестированные открытые базовые модели, включая модели с втрое большим количеством параметров. Эти результаты демонстрируют, что специализированное обучение для конкретной задачи существенно превосходит простое масштабирование для создания обобщений, обоснованных цитированием. Веса модели и интерактивная демонстрация находятся в открытом доступе.
Качество субсловной токенизации критически важно для больших языковых моделей, однако оценка токенизаторов для морфологически богатых уральских языков затруднена из-за отсутствия чистых лексиконов морфем. Мы представляем SampoNLP — инструментарий, не требующий корпусов, для создания морфологических лексиконов с использованием оценки атомарности по принципу минимальной длины описания (MDL), который фильтрует составные формы на основе внутренних структурных признаков и подходит для условий с ограниченными ресурсами. Используя высокоточные лексиконы, сгенерированные SampoNLP для финского, венгерского и эстонского языков, мы проводим систематическую оценку BPE-токенизаторов для диапазона размеров словаря (8к–256к). Мы предлагаем унифицированную метрику — интегральную оценку производительности (IPS) — для балансировки между покрытием морфем и избыточным разделением. Анализируя кривые IPS, мы определяем «точки излома» убывающей отдачи и впервые даем эмпирически обоснованные рекомендации по оптимальным размерам словаря (k) для этих языков. Наше исследование не только предлагает практические рекомендации, но и количественно демонстрирует ограничения стандартного BPE для высокоагглютинативных языков. Библиотека SampoNLP и все сгенерированные ресурсы находятся в открытом доступе: https://github.com/AragonerUA/SampoNLP.