Ежедневно отобранные исследовательские статьи по ИИ с переводами
Многие методы разреженного внимания без обучения эффективны для ускорения диффузионных моделей. Недавно в ряде работ было предложено сделать разреженное внимание обучаемым, что позволяет дополнительно увеличить разреженность, сохраняя качество генерации. Мы исследуем три ключевых вопроса: (1) когда два распространенных правила маскирования, а именно Top-k и Top-p, дают сбой и как можно избежать этих сбоев? (2) почему обучаемое разреженное внимание может достигать более высокой разреженности, чем методы без обучения? (3) каковы ограничения тонкой настройки разреженного внимания с использованием диффузионной функции потерь и как мы можем их устранить? На основе этого анализа мы предлагаем SpargeAttention2 — метод обучаемого разреженного внимания, который достигает высокой разреженности без ухудшения качества генерации. SpargeAttention2 включает: (i) гибридное правило маскирования, сочетающее Top-k и Top-p для более устойчивого маскирования при высокой разреженности; (ii) эффективную реализацию обучаемого разреженного внимания; и (iii) цель тонкой настройки, вдохновленную дистилляцией, для лучшего сохранения качества генерации в процессе тонкой настройки с использованием разреженного внимания. Эксперименты на моделях видеодиффузии показывают, что SpargeAttention2 достигает 95% разреженности внимания и ускорения внимания в 16,2 раза при сохранении качества генерации, последовательно превосходя предыдущие методы разреженного внимания.
Мы представляем Unified Latents (UL) — фреймворк для обучения латентных представлений, совместно регуляризуемых диффузионным априорным распределением и декодируемых диффузионной моделью. Связывая выходной шум энкодера с минимальным уровнем шума априорного распределения, мы получаем простую функцию потерь, которая обеспечивает точную верхнюю границу битрейта латентного представления. На наборе данных ImageNet-512 наш подход демонстрирует конкурентоспособный показатель FID, равный 1.4, при высоком качестве реконструкции (PSNR) и требует меньше FLOP для обучения по сравнению с моделями, обученными на латентных представлениях Stable Diffusion. На наборе Kinetics-600 мы устанавливаем новый рекорд FVD, равный 1.3.
В статье представлена GUI-Owl-1.5 — новейшая нативная модель GUI-агента, которая включает инструктивные/мыслительные варианты в нескольких размерах (2B/4B/8B/32B/235B) и поддерживает ряд платформ (десктопные, мобильные, браузерные и другие) для обеспечения облачно-периферийного взаимодействия и работы в реальном времени. GUI-Owl-1.5 демонстрирует передовые результаты более чем на 20 GUI-бенчмарках среди открытых моделей: (1) в задачах автоматизации GUI она набирает 56.5 на OSWorld, 71.6 на AndroidWorld и 48.4 на WebArena; (2) в задачах граундинга — 80.3 на ScreenSpotPro; (3) в задачах вызова инструментов — 47.6 на OSWorld-MCP и 46.8 на MobileWorld; (4) в задачах памяти и знаний — 75.5 на GUI-Knowledge Bench. Модель включает несколько ключевых инноваций: (1) Гибридный механизм данных: мы создали конвейер данных для понимания пользовательского интерфейса и генерации траекторий на основе комбинации симулированных и облачных песочниц для повышения эффективности и качества сбора данных. (2) Универсальное усиление возможностей агента: мы используем единый конвейер синтеза мышления для улучшения推理-способностей модели, уделяя особое внимание ключевым навыкам, включая использование Tool/MCP, память и адаптацию к мульти-агентным средам. (3) Масштабирование RL в многоплатформенных средах: мы предлагаем новый алгоритм RL для сред (MRPO) для решения проблем конфликтов между платформами и низкой эффективности обучения в длительных задачах. Модели GUI-Owl-1.5 имеют открытый исходный код, а облачная демо-песочница доступна по адресу https://github.com/X-PLUG/MobileAgent.
Автономные агентные ИИ-ассистенты, выполняющие многошаговые задачи, ставят перед пользовательским опытом открытые вопросы: как такие системы должны сообщать о ходе работы и своих рассуждениях в ходе длительных операций, особенно в контекстах, требующих концентрации внимания, таких как вождение? Мы исследуем время предоставления обратной связи и её детализацию от агентных ИИ-ассистентов в автомобиле на основе больших языковых моделей с помощью контролируемого смешанного исследования (N=45), сравнивая обратную связь о запланированных шагах и промежуточных результатах с молчаливой работой и ответом только по завершении. Используя парадигму двойной задачи с голосовым ассистентом в автомобиле, мы обнаружили, что промежуточная обратная связь значительно повышает воспринимаемую скорость, доверие и пользовательский опыт, одновременно снижая нагрузку — эти эффекты сохранялись при различной сложности задач и контекстах взаимодействия. Интервью дополнительно выявили предпочтение пользователей к адаптивному подходу: высокая начальная прозрачность для установления доверия с последующим постепенным снижением детализации по мере подтверждения надежности системы, с корректировками на основе важности задачи и ситуационного контекста. Мы переводим наши эмпирические выводы в практические рекомендации по проектированию времени и детализации обратной связи для агентных ассистентов, балансируя между прозрачностью и эффективностью.
Крупные языковые модели (LLM) все чаще применяются для решения сложных задач, которые не обязательно решаются одним ответом, а требуют взаимодействия со средой для получения информации. В таких сценариях LLM должны учитывать компромисс между затратами и неопределенностью при принятии решения о том, когда прекратить исследование и зафиксировать ответ. Например, при работе с программированием LLM должна тестировать сгенерированный фрагмент кода, если она не уверена в его корректности: стоимость написания теста ненулевая, но обычно ниже, чем цена ошибки. В данной работе мы показываем, что можно побудить LLM к явному анализу балансировки этих компромиссов, что приводит к более оптимальному исследованию среды. Мы формализуем несколько задач, включая информационный поиск и программирование, как проблемы последовательного принятия решений в условиях неопределенности. Каждая задача имеет скрытое состояние среды, о котором можно рассуждать с помощью априорного распределения, передаваемого агенту на основе LLM. Мы представляем фреймворк Calibrate-Then-Act (CTA), в котором LLM получает дополнительный контекст для более оптимальных действий. Это улучшение сохраняется даже при обучении с подкреплением как базового подхода, так и CTA. Наши результаты по информационному поиску в вопросах-ответах и на упрощенной задаче программирования демонстрируют, что явное определение компромиссов "затраты-выгода" с помощью CTA помогает агентам находить более оптимальные стратегии принятия решений.
Демонстрации, выполняемые человеком и записываемые с помощью носимых устройств (например, тактических перчаток), обеспечивают быстрое и точное управление для обучения политик, направляемое богатой и естественной тактильной обратной связью. Однако ключевой проблемой остается передача тактильных сигналов, собранных человеком, роботам, несмотря на различия в сенсорных модальностях и физическом воплощении. Существующие подходы "от человека к роботу" (H2R), включающие осязание, часто предполагают идентичные тактильные сенсоры, требуют парных данных и предполагают минимальный или нулевой разрыв в физическом воплощении между человеком-демонстратором и роботами, что ограничивает масштабируемость и универсальность. Мы предлагаем TactAlign — метод кросс-эмбодиментного тактильного выравнивания, который передает тактильные сигналы, собранные человеком, роботу с иным физическим воплощением. TactAlign преобразует тактильные наблюдения человека и робота в общее латентное представление с использованием ректифицированного потока, без необходимости в парных наборах данных, ручных метках или привилегированной информации. Наш метод позволяет осуществлять недорогой латентный перенос, направляемый псевдопарами, полученными из взаимодействия "рука-объект". Мы демонстрируем, что TactAlign улучшает передачу H2R-политик в различных задачах, насыщенных контактами (поворот, вставка, закрытие крышки), обобщается на неизвестные объекты и задачи с использованием человеческих данных (менее 5 минут) и обеспечивает передачу H2R с нулевым примером в высокоточных задачах (вкручивание лампочки).
Мы представляем технический отчет по Arcee Trinity Large — разреженной модели типа «смесь экспертов» (Mixture-of-Experts, MoE) с общим числом параметров 400 млрд и 13 млрд активируемых на каждый токен. Также мы сообщаем о моделях Trinity Nano и Trinity Mini: Trinity Nano имеет 6 млрд общих параметров с 1 млрд активируемых на токен, а Trinity Mini — 26 млрд общих параметров с 3 млрд активируемых на токен. Современная архитектура моделей включает чередование локальной и глобальной механизмов внимания, gated attention, depth-scaled sandwich norm и сигмоидную маршрутизацию для «смеси экспертов». Для Trinity Large мы также представляем новую стратегию балансировки нагрузки в MoE под названием Soft-clamped Momentum Expert Bias Updates (SMEBU). Обучение моделей проводилось с использованием оптимизатора Muon. Все три модели завершили обучение без всплесков потерь. Модели Trinity Nano и Trinity Mini прошли предварительное обучение на 10 триллионах токенов, а Trinity Large — на 17 триллионах токенов. Чекпоинты моделей доступны по адресу https://huggingface.co/arcee-ai.
Диффузионные транссформеры (DiT) достигли наилучших результатов в генерации изображений и видео, однако их успех сопряжен с высокими вычислительными затратами. Эта неэффективность во многом обусловлена фиксированным процессом токенизации, который использует патчи постоянного размера на протяжении всей фазы денойзинга, независимо от сложности контента. Мы предлагаем динамическую токенизацию — эффективную стратегию на этапе тестирования, которая варьирует размеры патчей в зависимости от сложности контента и временного шага денойзинга. Наше ключевое наблюдение заключается в том, что на ранних шагах достаточно более крупных патчей для моделирования глобальной структуры, тогда как на поздних итерациях требуются более мелкие патчи для проработки локальных деталей. Во время вывода наш метод динамически перераспределяет размеры патчей между шагами денойзинга для генерации изображений и видео, что существенно снижает затраты при сохранении перцептивного качества генерации. Многочисленные эксперименты демонстрируют эффективность нашего подхода: он обеспечивает ускорение до 3,52× и 3,2× на моделях FLUX-1.Dev и Wan 2.1 соответственно, без ущерба для качества генерации и соответствия промпту.
Для понимания и идентификации беспрецедентных рисков, создаваемых быстро развивающимися моделями искусственного интеллекта (ИИ), в практическом руководстве по управлению рисками фронтирного ИИ представлена комплексная оценка их фронтирных рисков. По мере стремительной эволюции общих возможностей больших языковых моделей (БЯМ) и распространения агентного ИИ, данная версия технического отчета по анализу рисков представляет обновленную и детализированную оценку пяти критически важных аспектов: кибератаки, убеждение и манипуляция, стратегический обман, неконтролируемые НИОКР в области ИИ и самовоспроизведение. В частности, мы вводим более сложные сценарии для кибератак. Для убеждения и манипуляции мы оцениваем риск убеждения типа «БЯМ-для-БЯМ» на недавно выпущенных моделях. Для стратегического обмана и построения схем мы добавляем новый эксперимент, касающийся возникающего несоответствия. В отношении неконтролируемых НИОКР в области ИИ мы фокусируемся на «неправильной эволюции» агентов по мере их автономного расширения субстратов памяти и наборов инструментов. Кроме того, мы также отслеживаем и оцениваем показатели безопасности OpenClaw во время взаимодействия на Moltbook. Для самовоспроизведения мы вводим новый сценарий с ограниченными ресурсами. Что более важно, мы предлагаем и проверяем ряд надежных стратегий смягчения последствий для противодействия этим новым угрозам, предоставляя предварительный технический и практический путь для безопасного развертывания фронтирного ИИ. Эта работа отражает наше текущее понимание фронтирных рисков ИИ и призывает к коллективным действиям для смягчения этих вызовов.
Хотя передовые большие языковые модели демонстрируют мощные способности к рассуждениям и решению математических задач, практический процесс обучения специализированных научных языковых моделей непосредственно из исходных данных остается недостаточно документированным. В данной работе мы представляем детальное тематическое исследование по обучению научной языковой модели объемом 1.36 миллиарда параметров непосредственно из необработанных исходных кодов arXiv в формате LaTeX, охватывающих математику, информатику и теоретическую физику. Мы описываем сквозной конвейер, включающий фильтрацию метаданных, проверку архивов, извлечение LaTeX, нормализацию текста, предметно-ориентированную токенизацию и обучение плотных трансформеров в условиях ограниченных вычислительных ресурсов (2xGPU A100). На основе 24 экспериментальных прогонов мы анализируем стабильность обучения, законы масштабирования, потери при подготовке данных и узкие места в инфраструктуре. Наши результаты показывают, как решения на этапе предобработки существенно влияют на объем пригодных к использованию токенов, как токенизация воздействует на стабильность обработки символов и как ограничения систем хранения и ввода-вывода могут быть не менее значимыми ограничивающими факторами, чем вычислительные ресурсы. Мы также анализируем динамику сходимости и демонстрируем стабильное поведение процесса обучения в условиях богатого данными режима (52 миллиарда токенов предварительного обучения). Вместо предложения новой архитектуры данная работа представляет собой инженерно-обоснованное и прозрачное описание процесса обучения компактной научной языковой модели с нуля. Мы надеемся, что эти наблюдения помогут исследователям, работающим в условиях умеренных вычислительных бюджетов, которые стремятся создавать предметно-специализированные модели.
Значительная часть прогресса в области многопользовательского обучения с подкреплением (MARL) в играх с несовершенной информацией исторически зависела от ручного итеративного уточнения базовых методов. Хотя такие фундаментальные семейства алгоритмов, как минимизация контрфактического сожаления (CFR) и оракулы пространства политик (PSRO), имеют прочную теоретическую основу, разработка их наиболее эффективных вариантов часто полагается на человеческую интуицию для навигации в обширном пространстве алгоритмического дизайна. В данной работе мы предлагаем использовать AlphaEvolve, эволюционного агента для программирования на основе больших языковых моделей, для автоматического открытия новых алгоритмов многопользовательского обучения. Мы демонстрируем универсальность этого подхода, эволюционируя новые варианты для двух различных парадигм теоретико-игрового обучения. Во-первых, в области итеративной минимизации сожаления мы эволюционируем логику, управляющую накоплением сожаления и выводом политики, обнаруживая новый алгоритм — CFR с волатильность-адаптивным дисконтированием (VAD-CFR). VAD-CFR использует новые, неинтуитивные механизмы, включая чувствительное к волатильности дисконтирование, оптимизм с обеспечением согласованности и жесткий график накопления политики с "теплым стартом", чтобы превзойти передовые базовые методы, такие как Discounted Predictive CFR+. Во-вторых, в рамках алгоритмов обучения на основе популяций мы эволюционируем мета-стратегии для обучения и оценки для PSRO, обнаруживая новый вариант — PSRO со сглаженным гибридным оптимистичным сожалением (SHOR-PSRO). SHOR-PSRO вводит гибридный мета-решатель, который линейно объединяет Оптимистичное согласование по сожалению со сглаженным, контролируемым температурой распределением по наилучшим чистым стратегиям. Динамически уменьшая этот коэффициент смешивания и бонусы за разнообразие в процессе обучения, алгоритм автоматизирует переход от разнообразия популяции к строгому поиску равновесия, демонстрируя превосходную эмпирическую сходимость по сравнению со стандартными статическими мета-решателями.
Обеспечение способности моделей VLA предсказывать динамику окружающей среды, известное как моделирование мира, признано ключевым для улучшения роботизированного мышления и обобщения. Однако современные подходы сталкиваются с двумя основными проблемами: 1. Цель обучения заставляет модели чрезмерно акцентироваться на пиксельной реконструкции, что ограничивает семантическое обучение и обобщение. 2. Зависимость от предсказанных будущих наблюдений во время вывода часто приводит к накоплению ошибок. Для решения этих задач мы представляем метод выравнивания будущих репрезентаций через параллельное прогрессивное расширение (FRAPPE). Наш метод использует двухэтапную стратегию дообучения: на этапе mid-training модель учится предсказывать латентные репрезентации будущих наблюдений; на этапе post-training мы параллельно наращиваем вычислительную нагрузку и одновременно выравниваем репрезентацию с помощью нескольких различных визуальных базовых моделей. Значительно повышая эффективность дообучения и снижая зависимость от размеченных действиями данных, FRAPPE предлагает масштабируемый и экономный по данным путь для усиления осведомленности о мире в универсальных роботизированных политиках. Эксперименты на бенчмарке RoboTwin и реальных задачах демонстрируют, что FRAPPE превосходит современные подходы и показывает сильное обобщение в долгосрочных и непредвиденных сценариях.
Мы представляем всесторонний анализ того, как двухслойные нейронные сети обучаются признакам для решения задачи модульного сложения. Наша работа предлагает полную механистическую интерпретацию обученной модели и теоретическое объяснение её динамики обучения. В то время как предыдущие исследования установили, что отдельные нейроны обучаются фурье-признакам с одной частотой и выравниванию фазы, они не дают полного объяснения того, как эти признаки объединяются в глобальное решение. Мы заполняем этот пробел, формализуя условие диверсификации, которое возникает в процессе обучения при перепараметризации и состоит из двух частей: фазовой симметрии и частотной диверсификации. Мы доказываем, что эти свойства позволяют сети коллективно аппроксимировать несовершенную индикаторную функцию для правильной логики задачи модульного сложения. Хотя отдельные нейроны производят зашумленные сигналы, фазовая симметрия позволяет использовать схему мажоритарного голосования, которая компенсирует шум, давая сети возможность надёжно определять правильную сумму. Кроме того, мы объясняем возникновение этих признаков при случайной инициализации через механизм "счастливого билета" (lottery ticket). Наш анализ градиентного потока доказывает, что частоты конкурируют внутри каждого нейрона, и "победитель" определяется его начальной спектральной величиной и выравниванием фазы. С технической точки зрения, мы даём строгую характеристику послойной динамики фазовой связи и формализуем конкурентный ландшафт, используя лемму сравнения ОДУ. Наконец, мы используем эти идеи, чтобы разгадать феномен "озарения" (grokking), охарактеризовав его как трёхстадийный процесс, включающий запоминание с последующими двумя фазами обобщения, движимыми конкуренцией между минимизацией потерь и decay-регуляризацией весов.
Агенты, работающие в сложных программных средах, получают преимущество от прогнозирования последствий своих действий, поскольку даже одна некорректная операция с пользовательским интерфейсом (UI) может нарушить длительные рабочие процессы, требующие сохранения артефактов. Эта проблема особенно остро стоит в сценариях работы с компьютером, где реальное выполнение не поддерживает контрфактическое исследование, что делает крупномасштабное обучение методом проб и ошибок и планирование непрактичными, несмотря на полностью цифровую и детерминированную природу среды. Мы представляем Компьютерную Модель Мира (CUWM) — модель мира для настольного программного обеспечения, которая предсказывает следующее состояние UI на основе текущего состояния и предполагаемого действия. CUWM использует двухэтапную факторизацию динамики UI: сначала модель предсказывает текстовое описание изменений состояния, релевантных для агента, а затем визуализирует эти изменения для синтеза следующего снимка экрана. CUWM обучается на оффлайн-переходах UI, собранных при взаимодействии агентов с реальными приложениями Microsoft Office, и дополнительно дорабатывается с помощью этапа облегченного обучения с подкреплением, который согласовывает текстовые предсказания переходов со структурными требованиями компьютерных сред. Мы оцениваем CUWM с помощью поиска действий во время тестирования, когда замороженный агент использует модель мира для имитации и сравнения кандидатных действий перед их выполнением. На множестве задач в Office масштабирование на этапе тестирования с руководством модели мира улучшает качество решений и надежность выполнения.
Ключевой проблемой редактирования больших языковых моделей (LLM) является сохранение способностей: методы, успешно изменяющие целевое поведение, могут незаметно подстраиваться под прокси-метрику редактирования и нарушать общие возможности, порождая деградирующее поведение, напоминающее взлом прокси/вознаграждения. Мы представляем CrispEdit — масштабируемый и принципиальный алгоритм редактирования второго порядка, который трактует сохранение способностей как явное ограничение, обобщая и унифицируя несколько существующих подходов к редактированию. CrispEdit формулирует редактирование как задачу условной оптимизации и обеспечивает соблюдение ограничения путем проекции обновлений редактирования на подпространство с малой кривизной ландшафта потерь способностей. Основой CrispEdit является выражение ограничения на способности через дивергенцию Брегмана, квадратичная форма которой точно дает гессиан Гаусса-Ньютона, даже когда базовая модель не обучена до сходимости. Мы делаем эту процедуру второго порядка эффективной для масштаба LLM, используя приближение кривизны с факторизацией Кронекера (K-FAC) и новый проектор, свободный от явного задания матриц, который использует структуру Кронекера, чтобы избежать построения массивных матриц проекции. На стандартных бенчмарках редактирования моделей CrispEdit достигает высокого процента успешных правок, сохраняя деградацию способностей в среднем ниже 1% по всем наборам данных, что значительно превосходит предыдущие редакторы.
Трансформеры с линейным вниманием стали мощной альтернативой софтмакс-вниманию благодаря своей эффективности. Однако линейное внимание, как правило, менее выразительно и приводит к снижению точности по сравнению с софтмакс-вниманием. Чтобы сократить разрыв в точности между софтмакс-вниманием и линейным вниманием, мы модифицируем Mamba-2 — весьма мощный вариант линейного внимания. Сначала мы упрощаем Mamba-2 до её наиболее фундаментальных и важных компонентов, оценивая, какие именно архитектурные решения обеспечивают наибольшую точность. На основе этого упрощённого варианта Mamba (Mamba-2S) мы улучшаем A-маску и повышаем порядок скрытого состояния, в результате чего получаем метод, названный нами 2Mamba, который по точности практически не уступает софтмакс-вниманию, но при этом значительно более эффективен по памяти для длинных контекстов. Мы также исследуем элементы Mamba-2, которые позволяют превзойти точность софтмакс-внимания. Для всех наших экспериментов предоставлен код.
Крупные языковые модели (LLM) недавно продемонстрировали мощные способности к рассуждению и обобщению, что мотивирует их использование в качестве стратегий принятия решений в сложных средах. StarCraft II (SC2) с его огромным пространством состояний-действий и частичной наблюдаемостью представляет собой сложный полигон для испытаний. Однако существующие агенты SC2 на основе LLM в основном сосредоточены на улучшении самой стратегии и упускают из виду интеграцию обучаемой модели переходов, обусловленной действиями, в цикл принятия решений. Чтобы заполнить этот пробел, мы предлагаем StarWM — первую мировую модель для SC2, которая предсказывает будущие наблюдения в условиях частичной наблюдаемости. Для облегчения изучения гибридной динамики SC2 мы вводим структурированное текстовое представление, которое факторизует наблюдения на пять семантических модулей, и создаём SC2-Dynamics-50k — первый набор данных для инструктивного тонкого настройки прогнозирования динамики SC2. Мы также разрабатываем многомерную автономную систему оценки для прогнозируемых структурированных наблюдений. Автономные результаты показывают существенное преимущество StarWM по сравнению с базовыми моделями с нулевым снимком, включая почти 60%-е улучшение точности прогнозирования ресурсов и согласованности макросостояния собственной стороны. Наконец, мы предлагаем StarWM-Agent — систему принятия решений, усиленную мировой моделью, которая интегрирует StarWM в цикл принятия решений «Генерация–Симуляция–Уточнение» для уточнения стратегии на основе предвидения. Онлайн-оценка против встроенного ИИ SC2 демонстрирует стабильные улучшения, выражающиеся в повышении процента побед на 30%, 15% и 30% против уровней Hard (LV5), Harder (LV6) и VeryHard (LV7) соответственно, наряду с улучшенной стабильностью макроуправления и оценкой тактических рисков.
Несмотря на быстрый прогресс в области автономных веб-агентов, участие человека остается необходимым для формирования предпочтений и корректировки поведения агента по мере выполнения задач. Однако современные агентские системы не имеют принципиального понимания того, когда и почему люди вмешиваются, часто продолжая работу автономно после критических точек принятия решений или запрашивая ненужные подтверждения. В данной работе мы представляем задачу моделирования человеческого вмешательства для поддержки совместного выполнения веб-задач. Мы собираем CowCorpus — набор данных из 400 траекторий веб-навигации реальных пользователей, содержащий более 4200 чередующихся действий человека и агента. Мы выявляем четыре различных паттерна взаимодействия пользователей с агентами: дистанционный контроль, непосредственный надзор, совместное решение задач и полное принятие управления пользователем. Используя эти данные, мы обучаем языковые модели (ЯМ) прогнозировать, когда пользователи с высокой вероятностью вмешаются, на основе их стилей взаимодействия, что позволило добиться улучшения точности прогнозирования вмешательств на 61,4–63,4% по сравнению с базовыми ЯМ. Наконец, мы внедряем эти модели, учитывающие возможность вмешательства, в действующие агенты веб-навигации и оцениваем их в пользовательском исследовании, фиксируя увеличение оцененной пользователями полезности агента на 26,5%. В совокупности наши результаты демонстрируют, что структурированное моделирование человеческого вмешательства приводит к созданию более адаптивных и коллаборативных агентов.
Мы представляем NESSiE — минимальный тестовый набор для оценки необходимого уровня безопасности больших языковых моделей (LLM). Используя минимальное количество тестовых случаев для проверки информационной безопасности и безопасности доступа, NESSiE выявляет связанные с безопасностью сбои, которых не должно возникать, учитывая низкую сложность задач. NESSiE задуман как легковесный и простой в использовании инструмент для базовой проверки безопасности языковых моделей и, как таковой, недостаточен для гарантии общей безопасности — однако мы утверждаем, что прохождение этого теста является необходимым условием для любого развертывания. Тем не менее, даже современные LLM не достигают 100% результата на NESSiE и, следовательно, не удовлетворяют нашему необходимому условию безопасности языковых моделей, даже при отсутствии атак. Наша метрика Safe & Helpful (SH) позволяет напрямую сравнивать два требования, демонстрируя, что модели склонны скорее к полезности, чем к безопасности. Мы также обнаружили, что отключение механизмов рассуждений у некоторых моделей, и особенно наличие безобидного отвлекающего контекста, ухудшают их производительность. В целом наши результаты подчеркивают критические риски развертывания таких моделей в качестве автономных агентов в реальных условиях. Мы публикуем датасет, пакет и код для визуализации в открытом доступе.
Модели «Vision-Language-Action» (VLA) стали ключевой парадигмой в области физического искусственного интеллекта и все чаще развертываются в автономных транспортных средствах, роботах и умных пространствах. В этих ограниченных по ресурсам встроенных системах выбор подходящей базовой большой языковой модели (LLM) является критически важной задачей: модели должны балансировать точность со строгими ограничениями на задержку вывода и аппаратную эффективность. Это делает совместное проектирование аппаратного и программного обеспечения (hardware-software co-design) кардинально необходимым требованием для развертывания LLM на устройстве, где каждая аппаратная платформа требует индивидуального архитектурного решения. Мы предлагаем закон совместного аппаратного проектирования, который совместно учитывает точность модели и производительность вывода. В частности, мы моделируем потери при обучении как явную функцию архитектурных гиперпараметров и характеризуем задержку вывода с помощью рофлайн-моделирования. Мы эмпирически оцениваем 1942 кандидатных архитектуры на платформе NVIDIA Jetson Orin, обучив 170 отобранных моделей на 10 млрд токенов каждая, чтобы вывести закон масштабирования, связывающий архитектуру с потерями при обучении. Сопоставляя этот закон масштабирования с моделью задержки, мы устанавливаем прямую взаимосвязь «точность-задержка» и определяем Парето-фронт для LLM, спроектированных совместно с аппаратным обеспечением. Мы также формулируем поиск архитектуры как совместную оптимизацию по точности и производительности, определяя допустимые области проектирования в рамках промышленных аппаратных бюджетов и бюджетов приложений. Наш подход сокращает время выбора архитектуры с месяцев до дней. При той же задержке, что и у модели Qwen2.5-0.5B на целевом оборудовании, наша совместно спроектированная архитектура демонстрирует на 19,42% меньшую перплексию на WikiText-2. Насколько нам известно, это первая принципиальная и работоспособная framework для законов масштабирования с совместным аппаратным проектированием при развертывании LLM на устройстве. Мы сделаем код и соответствующие контрольные точки общедоступными.
Безопасностное согласование (safety alignment) является ключевым условием ответственного развертывания больших языковых моделей (LLM). Однако существующие подходы часто полагаются на ресурсоемкую тонкую настройку, затратную для обновления, аудита и поддержки в различных семействах моделей. Полная тонкая настройка приводит к значительным вычислительным и ресурсным затратам, в то время как параметрически-эффективные методы, такие как LoRA, жертвуют эффективностью ради нестабильного повышения безопасности и чувствительности к выбору проектных решений. Механизмы безопасности, такие как автоматические выключатели (circuit breakers), снижают количество небезопасных выводов без изменения весов модели, но не формируют и не сохраняют напрямую внутренние представления, управляющие поведением безопасности. Эти ограничения затрудняют быстрое и надежное обновление систем безопасности, особенно в условиях частого изменения моделей или необходимости адаптации к новым политикам и доменам. Мы представляем NeST — облегченную структуро-ориентированную систему безопасностного согласования, которая усиливает поведение отказа за счет выборочной адаптации небольшого подмножества нейронов, связанных с безопасностью, при заморозке остальной части модели. NeST согласует обновления параметров с внутренней организацией поведения безопасности путем кластеризации функционально связанных нейронов безопасности и применения совместных обновлений внутри каждого кластера. Это позволяет осуществлять целенаправленную и стабильную адаптацию безопасности без масштабной модификации модели или дополнительных вычислительных затрат на этапе вывода. Мы провели сравнительный анализ NeST с тремя основными базовыми методами: полной тонкой настройкой, тонкой настройкой на основе LoRA и автоматическими выключателями на 10 открытых LLM, охватывающих различные семейства и размеры моделей. На всех протестированных моделях NeST снизил уровень успешности атак в среднем с 44,5% до 4,36%, что соответствует сокращению небезопасных генераций на 90,2%, при этом требуя в среднем всего 0,44 млн обучаемых параметров. Это эквивалентно уменьшению количества обновляемых параметров в 17 310 раз по сравнению с полной тонкой настройкой и в 9,25 раз по сравнению с LoRA, при этом consistently обеспечивая более высокую эффективность безопасностного согласования.
Хотя обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) продемонстрировало высокую эффективность в задачах логического вывода, его нельзя напрямую применять в неверифицируемых областях, где отсутствуют эталонные верификаторы, таких как согласование больших языковых моделей (LLM). В данной работе мы исследуем, могут ли LLM-оценщики, управляемые референсными данными, заполнить этот пробел, выступая в роли мягких «верификаторов». Во-первых, мы разрабатываем протоколы оценки, которые улучшают LLM-оценщиков для согласования LLM с использованием эталонных выходных данных. В ходе всесторонних экспериментов мы показываем, что подход с использованием референсных данных существенно повышает точность менее мощных LLM-судей при использовании эталонов от передовых моделей; более сильные LLM-судьи также могут быть улучшены за счет высококачественных (т.е. созданных человеком) референсов. Опираясь на этих улучшенных судей, мы демонстрируем полезность высококачественных референсов в тонкой настройке согласования, где LLM, управляемые референсными данными, используются в качестве судей для самосовершенствования. Мы показываем, что самоулучшение с управлением от референсов дает явный выигрыш по сравнению как с прямым SFT на эталонных выходах, так и с самоулучшением с использованием судей, не зависящих от референсов, достигая производительности, сопоставимой с обучением с помощью ArmoRM — мощной дообученной модели вознаграждения. В частности, наш метод достигает 73,1% и 58,7% на AlpacaEval и Arena-Hard с моделью Llama-3-8B-Instruct и 70,0% и 74,1% с моделью Qwen2.5-7B, что соответствует среднему абсолютному приросту на +20,2 / +17,1 пункта по сравнению с SFT-дистилляцией и на +5,3 / +3,6 пункта по сравнению с самоулучшением без референсов на AlpacaEval / Arena-Hard. Эти результаты подчеркивают потенциал использования LLM-оценщиков, управляемых референсными данными, для обеспечения эффективного пост-тренинга LLM в неверифицируемых областях.
Оценка стереоскопической глубины является фундаментальной задачей подводного робототехнического восприятия, однако страдает от значительных доменных сдвигов, вызванных зависящим от длины волны ослаблением света, рассеянием и рефракцией. Современные подходы используют монокулярные фундаментальные модели с итеративным уточнением на основе GRU для адаптации к подводным условиям; однако последовательное стробирование и локальные сверточные ядра в GRU требуют множественных итераций для распространения диспаратности на большие расстояния, что ограничивает производительность в областях с большой диспаратностью и слаботекстурированных подводных регионах. В данной статье мы предлагаем StereoAdapter-2, который заменяет традиционный обновитель ConvGRU на новый оператор ConvSS2D, основанный на селективных моделях пространства состояний. Предлагаемый оператор использует четырехнаправленную стратегию сканирования, которая естественным образом согласуется с эпиполярной геометрией, одновременно захватывая вертикальную структурную согласованность, что позволяет эффективно распространять пространственную информацию на большие расстояния в рамках одного шага обновления при линейной вычислительной сложности. Кроме того, мы создаем UW-StereoDepth-80K, крупномасштабный синтетический набор данных подводного стерео с разнообразными базовыми линиями, коэффициентами затухания и параметрами рассеяния, используя двухэтапный генеративный конвейер, сочетающий семантически осознаваемый перенос стиля и синтез новых видов с геометрической согласованностью. В сочетании с унаследованной от StereoAdapter динамической адаптацией LoRA, наш фреймворк достигает передовой zero-shot производительности на подводных бенчмарках с улучшением на 17% на TartanAir-UW и на 7.2% на SQUID, а реальные испытания на платформе BlueROV2 демонстрируют надежность нашего подхода. Код: https://github.com/AIGeeksGroup/StereoAdapter-2. Сайт: https://aigeeksgroup.github.io/StereoAdapter-2.