Ежедневно отобранные исследовательские статьи по ИИ с переводами
Появление ИИ-агентов порождает сложные проблемы безопасности, связанные с автономным использованием инструментов и взаимодействием со средой. Современные защитные модели лишены агентского понимания рисков и прозрачности в диагностике угроз. Для создания агентского защитного механизма, охватывающего многочисленные сложные риски, мы предлагаем единую трехмерную таксономию, ортогонально классифицирующую агентские риски по источнику (где), типу сбоя (как) и последствиям (что). Руководствуясь этой структурированной иерархической таксономией, мы представляем детализированный бенчмарк агентской безопасности (ATBench) и диагностическую защитную систему AgentDoG для безопасности агентов. AgentDoG обеспечивает контекстный мониторинг траекторий агентов на детальном уровне. Ключевое преимущество системы — способность диагностировать коренные причины небезопасных действий и внешне безопасных, но нелогичных поступков, предоставляя информацию о происхождении решений и прозрачность, выходящую за рамки бинарных оценок, для эффективного согласования агентов. Доступны варианты AgentDoG трех размеров (4B, 7B и 8B параметров) на базе архитектур Qwen и Llama. Экстенсивные эксперименты подтверждают, что AgentDoG демонстрирует передовые результаты в модерации агентской безопасности в разнообразных сложных сценариях взаимодействия. Все модели и наборы данных находятся в открытом доступе.
Когда люди сталкиваются с проблемами, превосходящими их непосредственные возможности, они полагаются на инструменты, что предоставляет перспективную парадигму для улучшения визуального мышления в мультимодальных больших языковых моделях (MLLM). Следовательно, эффективное рассуждение зависит от умения определять, какие инструменты использовать, когда их задействовать и как комбинировать их на протяжении нескольких шагов, даже при столкновении с новыми инструментами или задачами. Мы представляем AdaReasoner — семейство мультимодальных моделей, которые осваивают использование инструментов как общий навык рассуждения, а не как поведение, специфичное для конкретного инструмента или явно контролируемое извне. AdaReasoner стал возможным благодаря: (i) масштабируемому конвейеру курирования данных, который знакомит модели с долгосрочными многошаговыми взаимодействиями с инструментами; (ii) алгоритму обучения с подкреплением Tool-GRPO, который оптимизирует выбор инструментов и их последовательность на основе успешности конечной задачи; и (iii) механизму адаптивного обучения, который динамически регулирует использование инструментов. Вместе эти компоненты позволяют моделям выводить полезность инструмента из контекста задачи и промежуточных результатов, обеспечивая координацию нескольких инструментов и обобщение на незнакомые инструменты. Эмпирически AdaReasoner демонстрирует выраженное адаптивное и обобщающее поведение при работе с инструментами: модель автономно осваивает полезные инструменты, подавляет нерелевантные и регулирует частоту их использования в зависимости от требований задачи, несмотря на отсутствие явного обучения этому. Эти возможности приводят к передовой производительности на сложных бенчмарках, улучшая базовую модель на 7 млрд параметров в среднем на +24,9% и превосходя мощные проприетарные системы, такие как GPT-5, в нескольких задачах, включая VSP и Jigsaw.
Обладая значительным потенциалом в области роботизированного манипулирования, перспективная фулдамент-модель «Зрение-Язык-Действие» (Vision-Language-Action, VLA) должна обеспечивать достоводную генерализацию для различных задач и платформ, сохраняя при этом экономическую эффективность (например, с точки зрения объема данных и GPU-часов, необходимых для адаптации). Для достижения этой цели мы разработали модель LingBot-VLA, обученную на примерно 20 000 часах реальных данных, собранных с 9 популярных конфигураций двухруких роботов. В ходе систематической оценки на 3 роботизированных платформах, каждая из которых выполнила 100 задач с 130 эпизодами на задачу после обучения, наша модель продемонстрировала явное превосходство над аналогами, подтвердив свою высокую производительность и широкую обобщающую способность. Мы также создали эффективную кодобазу, которая обеспечивает пропускную способность 261 семпл в секунду на один GPU при обучении на 8 GPU, что соответствует ускорению в 1.5–2.8 раза (в зависимости от используемой базовой VLM-модели) по сравнению с существующими кодобазами, ориентированными на VLA. Вышеуказанные характеристики гарантируют, что наша модель хорошо подходит для развертывания в реальных условиях. Для развития области обучения роботов мы предоставляем открытый доступ к коду, базовой модели и бенчмарк-данным, стремясь способствовать решению более сложных задач и внедрению надежных стандартов оценки.
Люди конструируют внутренние ментальные модели мира и осуществляют рассуждения, манипулируя концептами внутри этих моделей. Новейшие достижения в области искусственного интеллекта, в частности, рассуждения по цепочке мыслей (Chain-of-Thought, CoT), аппроксимируют подобные когнитивные способности человека, причем предполагается, что ментальные модели мира встроены в большие языковые модели. Современные системы, опираясь преимущественно на вербальные рассуждения, достигли экспертного уровня в формальных и абстрактных областях, таких как математика и программирование. Однако они все еще значительно отстают от человека в таких областях, как физический и пространственный интеллект, которые требуют более богатых репрезентаций и фоновых знаний. Появление унифицированных мультимодальных моделей (UMM), способных как к вербальной, так и к визуальной генерации, вызвало интерес к более человекообразным рассуждениям, основанным на комплементарных мультимодальных путях, хотя их преимущества остаются неясными. С точки зрения теории ментальных моделей, данная статья представляет первое принципиальное исследование того, когда и как визуальная генерация приносит пользу рассуждениям. Наша ключевая позиция — это гипотеза визуального превосходства: для определенных задач — особенно тех, что основаны на физическом мире — визуальная генерация более естественно служит в качестве ментальной модели мира, тогда как чисто вербальные ментальные модели сталкиваются с ограничениями, возникающими из-за репрезентационных барьеров или недостатка фоновых знаний. Теоретически мы формализуем внутреннее моделирование мира как ключевой компонент рассуждений CoT и анализируем различия между различными формами ментальных моделей. Эмпирически мы идентифицируем задачи, требующие чередования визуально-вербальных рассуждений CoT, и создаем новый оценочный набор данных VisWorld-Eval. Контролируемые эксперименты на передовой UMM показывают, что чередующийся CoT значительно превосходит чисто вербальный CoT в задачах, благоприятствующих визуальному моделированию мира, но не дает явных преимуществ в остальных случаях. В совокупности эта работа проясняет потенциал мультимодального моделирования мира для создания более мощного, человекообразного мультимодального ИИ.
Интернет-аудиовизуальные клипы передают смысл через изменяющиеся во времени звуки и движение, что выходит за рамки возможностей текстового представления. Чтобы исследовать, способны ли ИИ-модели понимать такие сигналы в контексте человеческой культуры, мы представляем AVMeme Exam — курируемый человеком бенчмарк, содержащий более тысячи знаковых интернет-звуков и видео, включающих речь, песни, музыку и звуковые эффекты. Каждый мем снабжен уникальными вопросами и ответами, оценивающими уровни понимания — от поверхностного содержания до контекста, от эмоций до использования и фоновых знаний, а также метаданными, такими как год создания, транскрипт, краткое описание и маркеры чувствительности. Мы систематически оцениваем передовые мультимодальные большие языковые модели (MLLM) вместе с участниками-людьми, используя данный бенчмарк. Наши результаты выявляют устойчивое ограничение: современные модели демонстрируют низкие результаты в заданиях с безтекстовой музыкой и звуковыми эффектами, а также испытывают трудности с контекстным и культурным мышлением по сравнению с анализом поверхностного содержания. Эти выводы указывают на ключевой пробел в человеко-ориентированном мультимодальном интеллекте и подчеркивают необходимость создания моделей, способных воспринимать информацию контекстуально и культурно, выходя за рамки поверхностного восприятия того, что они слышат и видят. Страница проекта: avmemeexam.github.io/public
Несмотря на значительный прогресс, достигнутый моделями «визуальный язык» (Vision-Language Models, VLM), современные архитектуры часто демонстрируют ограниченную способность сохранять мелкозернистую визуальную информацию, что приводит к грубозернистому мультимодальному пониманию. Мы объясняем этот недостаток субоптимальной парадигмой обучения, присущей преобладающим VLM, которая демонстрирует тексто-доминантную оптимизационную предвзятость, трактуя визуальные сигналы лишь как пассивные условные входные данные, а не как целевые ориентиры. Для решения этой проблемы мы представляем Youtu-VL — фреймворк, использующий парадигму унифицированного авторегрессионного обучения «визуальный язык» (Vision-Language Unified Autoregressive Supervision, VLUAS), которая фундаментально смещает цель оптимизации от «визуализация-как-вход» к «визуализация-как-цель». Интегрируя визуальные токены непосредственно в поток прогнозирования, Youtu-VL применяет унифицированное авторегрессионное обучение как к визуальным деталям, так и к лингвистическому содержанию. Кроме того, мы расширяем эту парадигму на визуально-центричные задачи, позволяя стандартной VLM выполнять их без добавления специфичных для задачи компонентов. Результаты масштабных эмпирических оценок демонстрируют, что Youtu-VL достигает конкурентоспособных результатов как на общих мультимодальных, так и на визуально-центричных задачах, закладывая прочную основу для разработки универсальных визуальных агентов.
Крупные языковые модели (LLМ) стимулируют развитие симуляции генеративных агентов (например, AI Town) для создания «динамического мира», что имеет огромную ценность как для развлечений, так и для исследований. Однако для неспециалистов, особенно не обладающих навыками программирования, самостоятельная настройка визуализируемой среды представляет значительную сложность. В данной статье мы представляем World Craft — агентный фреймворк для создания мира, который позволяет создавать исполняемый и визуализируемый AI Town на основе текстовых описаний пользователя. Он состоит из двух основных модулей: World Scaffold и World Guild. World Scaffold представляет собой структурированный и лаконичный стандарт для разработки интерактивных игровых сцен, служащий эффективным каркасом, позволяющим LLM настраивать исполняемую среду, подобную AI Town. World Guild — это мультиагентный фреймворк, который постепенно анализирует намерения пользователя из rough-описаний и синтезирует необходимые структурированные данные (например, layout окружения и ассеты) для World Scaffold. Кроме того, мы создали высококачественный датасет для коррекции ошибок методом обратной инженерии, чтобы улучшить пространственные знания, а также повысить стабильность и управляемость генерации layout, одновременно предоставляя многомерные метрики оценки для дальнейшего анализа. Многочисленные эксперименты демонстрируют, что наш фреймворк значительно превосходит существующие коммерческие код-агенты (Cursor и Antigravity) и LLM (Qwen3 и Gemini-3-Pro) в построении сцен и передаче нарративного замысла, предлагая масштабируемое решение для демократизации создания виртуальных сред.
Быстрое развитие языковых моделей с расширенным контекстом (LLM) вновь разожгло дискуссию о необходимости поисково-дополненной генерации (RAG). Однако эмпирические данные выявляют сохраняющиеся ограничения вывода на длинных контекстах, включая феномен «потери в середине», высокие вычислительные затраты и слабую масштабируемость для рассуждений по множеству документов. В свою очередь, традиционные системы RAG, будучи эффективными, ограничены плоским поиском на уровне фрагментов, который вносит семантический шум и не поддерживает структурированный кросс-документный синтез. Мы представляем FABLE — адаптивную двунаправленную поисковую структуру, усиленную LLM и основанную на лесной индексации, которая интегрирует LLM как в организацию знаний, так и в поиск. FABLE строит иерархические лесные индексы, улучшенные LLM, с многоуровневыми семантическими структурами, а затем использует двунаправленную стратегию, сочетающую LLM-направленное иерархическое обходное дерево с распространением, учитывающим структуру, для точного сбора доказательств, с явным контролем бюджета для адаптивного баланса эффективности. Многочисленные эксперименты демонстрируют, что FABLE стабильно превосходит современные методы RAG и достигает точности, сопоставимой с полноконтекстным LLM-выводом, при сокращении количества токенов до 94%, показывая, что LLM с длинным контекстом усиливают, а не полностью заменяют потребность в структурированном поиске.
В последние годы риски безопасности, связанные с большими языковыми моделями, становятся все более значительными, что подчеркивает настоятельную необходимость снижения генерации токсичного и вредоносного контента. Основная парадигма обеспечения безопасности языковых моделей обычно использует совместную структуру, включающую три роли: атакующий для генерации адверсарных промптов, защитник для обеспечения безопасности и оценщик для анализа ответов. В данной статье мы предлагаем фреймворк замкнутого цикла обучения с подкреплением под названием TriPlay-RL, который обеспечивает итеративное и совместное улучшение взаимодействия между тремя ролями при практически нулевой ручной разметке. Результаты экспериментов показывают, что атакующий сохраняет высокое разнообразие выходных данных при одновременном улучшении адверсарной эффективности на 20–50%; защитник достигает повышения показателей безопасности на 10–30% без ухудшения общих способностей к рассуждению; а оценщик непрерывно совершенствует свои способности к детализированному анализу через итерации, точно различая небезопасные ответы, простые отказы и полезные рекомендации. В целом, наш фреймворк устанавливает эффективную и масштабируемую парадигму для обеспечения безопасности языковых моделей, позволяя осуществлять непрерывную совместную эволюцию в рамках единого цикла обучения.
Масштабирование больших языковых моделей (LLM) упирается в предел. Увеличение ширины моделей дает diminishing returns, а расширение длины контекста не улучшает фундаментальную экспрессивность. В отличие от этого, масштабирование по глубине теоретически обеспечивает превосходную экспрессивность, однако современные архитектуры Transformer не позволяют надежно обучать модели на экстремальных глубинах. Мы возвращаемся к формулировке Post-LayerNorm (Post-LN), нестабильность которой в крупном масштабе привела к ее замене на Pre-LN в современных LLM. Мы показываем, что ключевая проблема Post-LN возникает из-за остаточного пути в стиле ResNet, который вызывает исчезновение градиента в глубоких сетях. Мы представляем Keel — Transformer с Post-LN, который заменяет этот остаточный путь на соединение в стиле Highway. Это изменение сохраняет поток градиента через остаточную ветвь, предотвращая исчезновение сигнала от верхних слоев к нижним. В отличие от предыдущих методов, Keel позволяет стабильно обучать модели на экстремальных глубинах без необходимости специализированной инициализации или сложных оптимизационных приемов. Keel надежно обучается на глубинах свыше 1000 слоев и последовательно улучшает перплексию и характеристики масштабирования по глубине по сравнению с Pre-LN. Эти результаты указывают на то, что Post-LN в сочетании с соединением в стиле Highway предоставляет простую и эффективную основу для построения глубоко масштабируемых LLM, открывая возможность создания будущих архитектур с бесконечной глубиной.
Несмотря на значительный прогресс в области согласования, большие языковые модели (БЯМ) остаются уязвимыми к состязательным атакам, которые провоцируют вредоносное поведение. Методы управления активациями предлагают перспективный подход к вмешательству на этапе вывода, но существующие методы имеют серьезные ограничения: добавление активаций требует тщательного подбора коэффициентов и чувствительно к вариациям норм по слоям, в то время как направленное абляционирование обеспечивает лишь бинарный контроль. Недавняя работа по угловому управлению вводит непрерывный контроль посредством вращения в 2D-подпространстве, но её практическая реализация нарушает сохранение нормы, вызывая сдвиг распределения и коллапс генерации, особенно в моделях с менее чем 7 миллиардами параметров. Мы предлагаем метод селективного управления, который устраняет эти ограничения за счет двух ключевых инноваций: (1) математически строгой формулировки сохраняющего норму вращения, которое поддерживает целостность распределения активаций, и (2) дискриминативного выбора слоев, применяющего управление только там, где представления признаков демонстрируют выравнивание классов с противоположными знаками. Эксперименты на девяти моделях показывают, что селективное управление достигает в 5,5 раз более высоких показателей успешности атак по сравнению с предыдущими методами, сохраняя нулевое количество нарушений перплексии и приблизительно 100% сохранение способностей на стандартных тестах. Наш подход обеспечивает принципиальную и эффективную основу для контролируемого и стабильного изменения поведения БЯМ. Код: https://github.com/knoveleng/steering
Современное обучение с распараллеливанием данных (DP) отдает предпочтение коллективным коммуникациям перед параметрическими серверами (PS) благодаря их простоте и эффективности при сбалансированных рабочих нагрузках. Однако предположение о сбалансированной нагрузке перестает выполняться при пост-тренинге больших языковых моделей (LLM) из-за высокой вариативности длин последовательностей. При несбалансированных нагрузках коллективные коммуникации создают барьеры синхронизации, приводя к недозагрузке устройств с меньшей нагрузкой. Это изменение динамики обучения требует пересмотра парадигмы PS в силу ее устойчивости к подобному дисбалансу. Мы предлагаем коммуникацию по требованию (On-Demand Communication, ODC), которая адаптирует PS в полностью шардированный распараллеленный по данным режим (FSDP), заменяя коллективные операции all-gather и reduce-scatter на прямую point-to-point связь. По сравнению с FSDP, ODC снижает частоту барьеров синхронизации с одного на слой до одного на мини-батч и развязывает рабочие нагрузки устройств, предотвращая простои более быстрых worker-ов. Это также позволяет реализовать более простой и эффективный балансировку нагрузки на уровне мини-батчей. В различных задачах пост-тренинга LLM ODC стабильно повышает утилизацию устройств и пропускную способность обучения, достигая ускорения до 36% по сравнению со стандартным FSDP. Эти результаты демонстрируют, что ODC оптимально подходит для распространенных несбалансированных рабочих нагрузок при пост-тренинге LLM. Наша реализация ODC и интеграция с FSDP имеет открытый исходный код по адресу https://github.com/sail-sg/odc.
Мы представляем SimpleSeg — поразительно простой, но высокоэффективный подход, наделяющий мультимодальные большие языковые модели (MLLM) собственной пиксельной восприимчивостью. Наш метод переосмысливает сегментацию как простую задачу генерации последовательностей: модель напрямую предсказывает последовательности точек (текстовые координаты), очерчивающие границы объектов, полностью в рамках своего языкового пространства. Для достижения высокой точности мы вводим двухэтапный конвейер обучения SFtoRL, в котором обучение с подкреплением на основе вознаграждения, рассчитываемого по IoU, уточняет последовательности точек для точного соответствия эталонным контурам. Мы обнаружили, что стандартная архитектура MLLM обладает мощной врожденной способностью к низкоуровневому восприятию, которую можно раскрыть без какой-либо специализированной архитектуры. На бенчмарках сегментации SimpleSeg демонстрирует результаты, сопоставимые, а зачастую и превосходящие методы, основанные на сложных, специфичных для задачи проектных решениях. Данная работа демонстрирует, что точное пространственное понимание может возникать из простого предсказания точек, ставя под сомнение преобладающую необходимость во вспомогательных компонентах и прокладывая путь к более унифицированным и мощным визуально-языковым моделям. Домашняя страница: https://simpleseg.github.io/
В последнее время мы часто наблюдали в рецензируемых статьях, препринтах и опубликованных работах галлюцинированные цитаты или ссылки, которые не соответствуют каким-либо существующим работам. Такие галлюцинированные цитирования представляют серьезную угрозу для достоверности науки. Когда они появляются в принятых статьях, они также могут негативно повлиять на репутацию конференций. В данном исследовании мы называем галлюцинированные цитирования «HalluCitation» и систематически изучаем их распространенность и влияние. Мы анализируем все статьи, опубликованные на конференциях ACL, NAACL и EMNLP в 2024 и 2025 годах, включая статьи основного трека, Findings и материалы воркшопов. Наш анализ показывает, что почти 300 статей содержат по крайней мере один HalluCitation, большинство из которых были опубликованы в 2025 году. Примечательно, что половина этих статей была выявлена на EMNLP 2025, самой недавней конференции, что указывает на быстрое усугубление данной проблемы. Более того, более 100 таких статей были приняты в основной трек и Findings на EMNLP 2025, что подрывает доверие к конференции.
Модели диффузии демонстрируют наилучшие результаты, однако часто не способны генерировать выходные данные, соответствующие человеческим предпочтениям и намерениям, что приводит к созданию изображений с низким эстетическим качеством и семантическими противоречиями. Существующие методы согласования представляют собой сложный компромисс: подходы тонкой настройки страдают от потери разнообразия из-за сверхоптимизации по функции вознаграждения, в то время как методы масштабирования на этапе тестирования влекут значительные вычислительные затраты и склонны к недостаточной оптимизации. Для преодоления этих ограничений мы предлагаем HyperAlign — новую архитектуру, которая обучает гиперсеть для эффективного и действенного согласования на этапе тестирования. Вместо модификации латентных состояний HyperAlign динамически генерирует веса низкоранговой адаптации для модуляции операторов генерации модели диффузии. Это позволяет адаптивно корректировать траекторию шумоподавления на основе входных латентных переменных, временных шагов и промптов для условного по вознаграждению согласования. Мы представляем несколько вариантов HyperAlign, различающихся частотой применения гиперсети, что позволяет балансировать между производительностью и эффективностью. Кроме того, мы оптимизируем гиперсеть с использованием целевой функции оценки вознаграждения, регуляризованной данными предпочтений для снижения риска подгонки под вознаграждение. Мы оцениваем HyperAlign на нескольких расширенных генеративных парадигмах, включая Stable Diffusion и FLUX. Метод значительно превосходит существующие базовые подходы тонкой настройки и масштабирования на этапе тестирования в улучшении семантической согласованности и визуальной привлекательности.
Бенчмарки являются важными инструментами для отслеживания прогресса в разработке больших языковых моделей (LLM), однако неточности в наборах данных и методах оценки постоянно подрывают их эффективность. Мы представляем Omni-MATH-2, вручную пересмотренную версию набора данных Omni-MATH, состоящую из чистого подмножества с точными ответами (n=4181) и размеченного подмножества с нестандартными задачами (n=247). Каждая задача была проверена для обеспечения компилируемости в LaTeX, решаемости и проверяемости, что включало добавление отсутствующих рисунков или информации, маркировку задач, требующих доказательства, оценки или изображения, и удаление лишних элементов. Этот процесс значительно снижает шум, вызванный особенностями набора данных, обеспечивая тем более точную оценку производительности модели. Аннотированный набор данных также позволяет нам оценить шум, вносимый системой оценивания, путем сравнения GPT-5 mini с оригинальным Omni-Judge, выявляя существенные расхождения между системами оценивания как на чистом, так и на размеченном подмножествах задач. Экспертные аннотации показывают, что Omni-Judge ошибается в 96,4% случаев расхождений в оценках, что указывает на его неспособность различать возможности моделей, даже задолго до насыщения бенчмарка. По мере усложнения задач мы выясняем, что все более компетентные системы оценивания становятся необходимыми, чтобы предотвратить маскировку реальных различий между моделями ошибками оценщика. Наконец, ни одна из систем оценивания не идентифицирует текущие режимы сбоев для подмножества размеченных задач, что демонстрирует критическую важность как качества набора данных, так и надежности системы оценивания для создания точных бенчмарков производительности моделей.
G-белковые рецепторы (GPCR) регулируют разнообразные физиологические процессы и играют ключевую роль в современной фармакологии. Однако обнаружение модуляторов GPCR остается сложной задачей, поскольку активация рецептора часто возникает из-за сложных аллостерических эффектов, а не прямого сродства связывания, а традиционные методы анализа медленны, дороги и не оптимизированы для изучения этой динамики. Здесь мы представляем GPCR-Filter, фреймворк глубокого обучения, специально разработанный для поиска модуляторов GPCR. Мы собрали высококачественный набор данных, содержащий более 90 000 экспериментально подтвержденных пар GPCR-лиганд, что обеспечило надежную основу для обучения и оценки. GPCR-Filter интегрирует языковую модель белков ESM-3 для получения высокоточной последовательности GPCR с графовыми нейронными сетями, кодирующими структуры лигандов, объединенными с помощью механизма слияния на основе внимания, который изучает функциональные взаимосвязи рецептор-лиганд. В различных условиях оценки GPCR-Filter стабильно превосходит современные модели взаимодействия соединение-белок и демонстрирует сильную способность к обобщению для неизвестных рецепторов и лигандов. Примечательно, что модель успешно идентифицировала агонисты рецептора 5-HT1A микромолярного уровня с различными химическими структурами. Эти результаты устанавливают GPCR-Filter как масштабируемый и эффективный вычислительный подход для обнаружения модуляторов GPCR, продвигая разработку лекарств с помощью ИИ для сложных сигнальных систем.
Датчики глубины широко используются в робототехнических платформах, а достижения в области быстрого и высокоточного моделирования глубины позволили политикам управления, обученным на данных о глубине, достигать надежного переноса из симуляции в реальность для широкого спектра задач. Несмотря на это, обучение представлений для модальности глубины остается недостаточно изученным по сравнению с RGB, где крупномасштабные фундаментальные модели в настоящее время определяют состояние дел в области. Чтобы восполнить этот пробел, мы представляем DeFM — самоконтролируемую фундаментальную модель, полностью обученную на изображениях глубины для робототехнических приложений. Используя цель самодистилляции в стиле DINO на курированном наборе данных из 60 миллионов изображений глубины, DeFM изучает геометрические и семантические представления, которые обобщаются для различных сред, задач и сенсоров. Чтобы сохранить метрическую осведомленность на множестве масштабов, мы вводим новую стратегию нормализации входных данных. Мы также дистиллируем DeFM в компактные модели, пригодные для робототехнических систем с ограниченными ресурсами. При оценке на бенчмарках классификации, сегментации, навигации, локомоции и манипулирования на основе глубины DeFM демонстрирует наилучшую производительность и сильную обобщающую способность от симуляции к реальным условиям. Мы публикуем все наши предварительно обученные модели, которые можно использовать "из коробки" для обучения роботов на основе данных глубины без специфичной для задачи дообучки. Веб-страница: https://de-fm.github.io/
Разрешение командных конфликтов требует не только предметной компетентности, но и социального интеллекта для нахождения общего языка и выработки консенсуса. По мере того как ИИ-агенты все чаще совместно работают над сложными задачами, они должны развивать координационные способности, чтобы функционировать как эффективные члены команды. Однако мы выдвигаем гипотезу, что современные агенты лишены этих возможностей. Для проверки этого мы представляем CooperBench — набор из более чем 600 задач по совместному программированию, охватывающих 12 библиотек на 4 языках программирования. Каждая задача назначает двум агентам различные функции, которые можно реализовать независимо, но которые могут конфликтовать при отсутствии должной координации. Задачи основаны на реальных репозиториях с открытым исходным кодом с тестами, написанными экспертами. Оценивая передовые программные агенты, мы наблюдаем «проклятие координации»: при совместной работе агенты демонстрируют в среднем на 30% более низкий процент успеха по сравнению с выполнением обеих задач по отдельности. Это резко контрастирует с человеческими командами, где добавление участников обычно повышает продуктивность. Наш анализ выявляет три ключевые проблемы: (1) каналы коммуникации перегружаются расплывчатыми, несвоевременными и неточными сообщениями; (2) даже при эффективном общении агенты отклоняются от своих обязательств; (3) агенты часто имеют неверные ожидания относительно планов и коммуникации других. С помощью крупномасштабного моделирования мы также наблюдаем редкое, но интересное emergent-поведение координации, включая разделение ролей, распределение ресурсов и ведение переговоров. Наше исследование представляет новый эталон для оценки совместного программирования и призывает к смещению фокуса с развития индивидуальных способностей агентов на формирование социального интеллекта.
Процесс проектирования на Verilog по своей природе требует значительных трудозатрат и глубоких предметных знаний. Хотя большие языковые модели (LLM) открывают перспективный путь к автоматизации, их ограниченные обучающие данные и присущее им последовательное мышление не способны охватить строгую формальную логику и параллелизм, характерные для аппаратных систем. Для преодоления этих ограничений мы представляем EvolVE — первую платформу, которая анализирует множественные стратегии эволюции для задач проектирования чипов, демонстрируя, что поиск по дереву Монте-Карло (MCTS) превосходно максимизирует функциональную корректность, в то время как управляемое идеями уточнение (IGR) оказывается более эффективным для оптимизации. Мы также используем генерацию структурированных тестовых сред (STG) для ускорения эволюционного процесса. Для решения проблемы отсутствия сложных бенчмарков оптимизации мы представляем IC-RTL, ориентированный на задачи промышленного масштаба, взятые из Национального конкурса по проектированию интегральных схем. Оценки подтверждают, что EvolVE устанавливает новый уровень состояния искусства, достигая 98,1% на VerilogEval v2 и 92% на RTLLM v2. Более того, на наборе промышленных задач IC-RTL наша платформа превосходит эталонные реализации, созданные участниками конкурса, снижая произведение показателей «Мощность-Производительность-Площадь» (PPA) до 66% для кодирования Хаффмана и на 17% в среднем геометрическом по всем задачам. Исходный код бенчмарка IC-RTL доступен по адресу https://github.com/weiber2002/ICRTL.
Непрерывное обучение, позволяющее моделям приобретать новые навыки и знания без ухудшения существующих возможностей, остается фундаментальной проблемой для базовых моделей. Хотя обучение с подкреплением на основе собственной политики (on-policy) может уменьшить забывание, оно требует явных функций вознаграждения, которые часто недоступны. Основной альтернативой — обучением на демонстрациях экспертов — доминирует контролируемая тонкая настройка (SFT), которая по своей природе является обучением на основе чужой политики (off-policy). Мы представляем метод Само-Дистилляционной Тонкой Настройки (SDFT) — простой подход, который позволяет осуществлять обучение на собственной политике непосредственно на демонстрациях. SDFT использует контекстное обучение, применяя модель, обусловленную демонстрацией, в качестве собственного учителя, генерируя учебные сигналы на основе собственной политики, которые сохраняют прежние возможности, одновременно приобретая новые навыки. В задачах изучения навыков и приобретения знаний SDFT стабильно превосходит SFT, достигая более высокой точности на новых задачах при значительном снижении катастрофического забывания. В экспериментах с последовательным обучением SDFT позволяет одной модели накапливать множество навыков с течением времени без регрессии производительности, утверждая дистилляцию на собственной политике как практический путь к непрерывному обучению на демонстрациях.