Ежедневно отобранные исследовательские статьи по ИИ с переводами
В стремлении к научному прогрессу коммуникация исследований столь же важна, как и само открытие. Однако исследователи часто отвлекаются на рутинную, повторяющуюся задачу создания веб-страниц проектов, чтобы сделать свои сложные статьи более доступными. Хотя автоматизация справилась со статичными слайдами и постерами, динамичная и интерактивная природа веб-страниц оставалась нерешённой проблемой. Чтобы преодолеть этот разрыв, мы переосмысливаем проблему, утверждая, что решение заключается не в одной команде, а в совместном иерархическом процессе. Мы представляем AutoPage — новую мульти-агентную систему, воплощающую эту философию. AutoPage разбивает создание страницы из статьи на поэтапный процесс от планирования повествования до мультимодального создания контента и интерактивной визуализации. Для борьбы с галлюцинациями ИИ специальные агенты-«Проверяющие» верифицируют каждый шаг на соответствие исходной статье, в то время как опциональные контрольные точки с участием человека гарантируют, что конечный продукт идеально соответствует видению автора, превращая систему из простого инструмента в мощного помощника для коллаборации. Для строгой проверки нашего подхода мы также создали PageBench — первый бенчмарк для этой новой задачи. Эксперименты показывают, что AutoPage не только генерирует высококачественные, визуально привлекательные страницы, но и делает это с замечательной эффективностью — менее чем за 15 минут и дешевле \$0,1. Код и набор данных будут опубликованы по адресу https://mqleet.github.io/AutoPage_ProjectPage/{Webpage}$.
Спекулятивное декодирование (SD) ускоряет вывод больших языковых моделей за счет использования небольшой черновой модели для генерации предсказаний, которые затем проверяются более крупной целевой моделью. Эффективность SD зависит от согласованности этих моделей, что обычно улучшается с помощью дистилляции знаний (KD). Однако традиционные методы KD направлены на минимизацию расхождения Кульбака-Лейблера между черновой и целевой моделями для всех токенов, что не соответствует истинной цели SD — максимизации коэффициента принятия токенов. Следовательно, черновые модели часто не могут полностью усвоить знания целевой модели из-за ограничений по емкости, что приводит к неоптимальной производительности. Для решения этой проблемы мы предлагаем AdaSPEC — новый метод, который включает селективную фильтрацию токенов в процесс KD. AdaSPEC использует референсную модель для идентификации и отсева токенов, которые сложно аппроксимировать, что позволяет дистиллировать черновую модель, лучше согласованную с целевой моделью на более простых токенах. Этот подход повышает общий коэффициент принятия токенов без ущерба для качества генерации. Мы оцениваем AdaSPEC на различных задачах, включая арифметические рассуждения, следование инструкциям, программирование и суммаризацию, используя конфигурации моделей с 31M/1.4B и 350M/2.7B параметров. Наши результаты показывают, что AdaSPEC стабильно превосходит современный метод DistillSpec, достигая более высоких коэффициентов принятия на всех задачах (до 15%). Код доступен по адресу https://github.com/yuezhouhu/adaspec.
Большинство моделей для анализа видео генерируют лишь текстовые траектории рассуждений, не указывая, когда и где появляются ключевые свидетельства. Недавние модели, такие как OpenAI-o3, вызвали широкий интерес к доказательно-ориентированному анализу изображений, однако распространение этой возможности на видео является более сложной задачей, поскольку требует совместного временного отслеживания и пространственной локализации в динамических сценах. Мы представляем Open-o3 Video — не-агентный фреймворк, который интегрирует явные пространственно-временные свидетельства в анализ видео, а также тщательно собираем обучающие данные и разрабатываем стратегии обучения для решения упомянутых выше проблем. Модель выделяет ключевые временные метки, объекты и ограничивающие рамки вместе со своими ответами, что позволяет обосновывать рассуждения конкретными визуальными наблюдениями. Для реализации этой функциональности мы сначала курируем и создаем два высококачественных набора данных: STGR-CoT-30k для SFT и STGR-RL-36k для RL, с тщательно разработанными временными и пространственными аннотациями, поскольку большинство существующих наборов данных предлагают либо временные интервалы для видео, либо пространственные рамки для изображений, не имея единого пространственно-временного контроля и траекторий рассуждений. Затем мы применяем стратегию обучения с подкреплением с "холодным стартом" и множеством специально разработанных вознаграждений, которые совместно стимулируют точность ответов, временное согласование и пространственную точность. На benchmark V-STAR модель Open-o3 Video демонстрирует наилучшую производительность, повышая mAM на 14.4% и mLGM на 24.2% по сравнению с базовой моделью Qwen2.5-VL. Последовательные улучшения также наблюдаются на широком спектре benchmarks для понимания видео, включая VideoMME, WorldSense, VideoMMMU и TVGBench. Помимо точности, траектории рассуждений, генерируемые Open-o3 Video, также предоставляют ценную информацию для масштабирования на этапе тестирования, обеспечивая проверку с учетом достоверности и повышая надежность ответов.
Современные модели преобразования текста в видео превосходно генерируют отдельные клипы, но не способны создавать связные многокадровые нарративы, составляющие суть повествования. Мы преодолеваем этот «нарративный разрыв» с помощью HoloCine — модели, которая генерирует целые сцены целостно, обеспечивая глобальную согласованность от первого до последнего кадра. Наша архитектура достигает точного режиссерского контроля через механизм оконного перекрёстного внимания, который привязывает текстовые промпты к конкретным кадрам, в то время как разреженная модель самовнимания между кадрами (плотная внутри кадров, но разреженная между ними) гарантирует эффективность, необходимую для генерации в масштабе минут. Помимо установления нового стандарта в нарративной согласованности, HoloCine демонстрирует замечательные эмерджентные способности: устойчивую память о персонажах и сценах и интуитивное понимание кинематографических приемов. Наша работа знаменует ключевой переход от синтеза клипов к автоматизированному кинопроизводству, делая сквозное создание фильмов осязаемой перспективой. Наш код доступен по адресу: https://holo-cine.github.io/.
Модели диффузионных трансформаторов способны генерировать изображения с выдающейся точностью и детализацией, однако их обучение в сверхвысоких разрешениях остается чрезвычайно затратным из-за квадратичного масштабирования механизма самовнимания относительно количества изображений-токенов. В данной статье мы представляем Dynamic Position Extrapolation (DyPE) — новый, не требующий дообучения метод, который позволяет предварительно обученным диффузионным трансформаторам синтезировать изображения в разрешениях, значительно превышающих их обучающие данные, без дополнительных затрат на выборку. DyPE использует преимущества спектральной прогрессии, присущей диффузионному процессу, где низкочастотные структуры сходятся раньше, а высокочастотные требуют больше шагов для разрешения. В частности, DyPE динамически корректирует позиционное кодирование модели на каждом шаге диффузии, согласуя его частотный спектр с текущей стадией генеративного процесса. Этот подход позволяет генерировать изображения в разрешениях, значительно превышающих обучающее разрешение, например, 16 миллионов пикселей с использованием FLUX. На нескольких тестовых наборах DyPE стабильно улучшает производительность и достигает передовых показателей точности в генерации изображений сверхвысокого разрешения, причем выигрыш становится еще более выраженным при более высоких разрешениях. Страница проекта доступна по адресу https://noamissachar.github.io/DyPE/.
Дискретные диффузионные модели предлагают перспективную альтернативу авторегрессионной генерации за счет параллельного декодирования, однако они сталкиваются с проблемой "стены семплирования": как только происходит категориальный семплинг, богатая распределительная информация схлопывается в one-hot векторы и не может передаваться между шагами, вынуждая последующие шаги работать с ограниченной информацией. Для решения этой проблемы мы представляем Loopholing — новый и простой механизм, сохраняющий эту информацию через детерминированный латентный путь, что приводит к созданию Loopholing Discrete Diffusion Models (LDDMs). Обученные эффективно с помощью стратегии самокондиционирования, LDDMs демонстрируют значительный прогресс: снижают перплексию генерации до 61% по сравнению с предыдущими базовыми методами, сокращая (а в некоторых случаях и превосходя) разрыв с авторегрессионными моделями и производя более связный текст. Примененные к задачам логического вывода, LDDMs также улучшают результаты на арифметических бенчмарках, таких как Countdown и Game of 24. Эти результаты также указывают на то, что loopholing смягчает проблему холостых шагов и осцилляций, открывая масштабируемый путь к высококачественной неавторегрессионной генерации текста.
Разработка воплощенных ИИ-агентов требует масштабируемых обучающих сред, сочетающих разнообразие контента с физической точностью. Мировые симуляторы предоставляют такие среды, но сталкиваются с характерными ограничениями: видеотехнологии генерируют разнообразный контент, но не обеспечивают физическую обратную связь в реальном времени для интерактивного обучения, тогда как физические движки обеспечивают точную динамику, но страдают от проблем масштабируемости из-за трудоемкого ручного создания ассетов. Мы представляем Seed3D 1.0 — фоновую модель, генерирующую готовые к симуляции 3D-ассеты из одиночных изображений, что решает проблему масштабируемости при сохранении физической строгости. В отличие от существующих моделей 3D-генерации, наша система создает ассеты с точной геометрией, согласованными текстурами и реалистичными физически корректными материалами. Эти ассеты можно напрямую интегрировать в физические движки с минимальной настройкой, что позволяет использовать их в роботизированном манипулировании и тренировочных симуляциях. Помимо отдельных объектов, система масштабируется до генерации целых сцен путем сборки объектов в согласованные среды. Обеспечивая масштабируемое создание контента, готового к симуляции, Seed3D 1.0 закладывает основу для развития физических мировых симуляторов. Seed3D 1.0 теперь доступен по адресу: https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D
Редактирование знаний предлагает эффективный способ обновления знаний модели без полного переобучения, однако предыдущие работы были сосредоточены почти исключительно на текстовых или визуальных модальностях. Мы представляем SAKE — первый бенчмарк, специально разработанный для редактирования знаний о слуховых атрибутах в больших аудио-языковых моделях (БАЯМ). В отличие от обновления фактов, SAKE нацелен на несколько абстрактных слуховых атрибутов, охватывая типы знаний, выходящие за рамки традиционных текстовых и визуальных доменов. Мы тестируем семь методов редактирования на двух БАЯМ по четырем измерениям: надежность, обобщаемость, локальность (аудио/текст) и портируемость. Результаты выявляют такие проблемы, как сохранение внутриатрибутного знания, не связанного с редактированием, обобщение правок для мультимодального мышления и сохранение изменений при последовательных обновлениях. SAKE предоставляет принципиальную основу для изучения того, как редактирование знаний распространяется на слуховые модальности, открывая новые направления для поддержки и адаптации БАЯМ в более разнообразных реальных сценариях.
Мы предлагаем метод Обучения с Подкреплением с Явными Человеческими Ценностями (RLEV), который выравнивает оптимизацию больших языковых моделей (LLM) непосредственно по количественным сигналам человеческих ценностей. В то время как Обучение с Подкреплением с Верифицируемыми Вознаграждениями (RLVR) эффективно обучает модели в объективных областях, используя бинарные вознаграждения за правильность, оно упускает из виду, что не все задачи одинаково значимы. RLEV расширяет эту структуру, напрямую включая человеко-определенные ценностные сигналы в функцию вознаграждения. Используя экзаменационные данные с явными эталонными ценностными метками, RLEV стабильно превосходит базовые методы, учитывающие только правильность, на множестве алгоритмов обучения с подкреплением и масштабов моделей. Ключевым моментом является то, что политики RLEV не только улучшают взвешенную по ценности точность, но и изучают ценностно-чувствительную политику завершения: кратки для низкоценных промптов и тщательны для высокоценных. Мы показываем, что это поведение проистекает из ценностно-взвешенного усиления градиента на токенах конца последовательности. Абляционные исследования подтверждают, что выигрыш причинно связан с ценностным выравниванием. RLEV сохраняет устойчивость при зашумленных ценностных сигналах, таких как метки, основанные на сложности, демонстрируя, что оптимизация по явной функции полезности предлагает практический путь для согласования LLM с человеческими приоритетами.
Крупные аудиолингвистические модели (LALMs) расширяют текстовые языковые модели за счет слухового восприятия, открывая новые возможности для мультимодальных приложений. Хотя их перцептивные способности, логическое мышление и производительность при решении задач широко изучены, безопасность их настройки в условиях паралингвистических вариаций остается малоисследованной. В данной работе систематически исследуется роль эмоциональной окраски речи. Мы создали набор данных вредоносных речевых инструкций, выраженных с различными эмоциями и интенсивностью, и оценили несколько передовых LALMs. Наши результаты выявляют существенные несоответствия в безопасности: разные эмоции вызывают различные уровни небезопасных ответов, а влияние интенсивности носит немонотонный характер, причем средние уровни экспрессии часто представляют наибольший риск. Эти результаты подчеркивают уязвимость LALMs, которой ранее пренебрегали, и указывают на необходимость разработки стратегий выравнивания, специально предназначенных для обеспечения устойчивости при эмоциональных вариациях, что является обязательным условием для надежного развертывания в реальных условиях.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало основной технологией для тренировки агентов на основе больших языковых моделей (LLM). Однако RLVR сильно зависит от тщательно составленных задач-запросов и соответствующих им эталонных ответов для обеспечения точных вознаграждений, что требует значительных человеческих усилий и препятствует масштабированию процессов RL, особенно в агентских сценариях. Хотя несколько недавних работ исследуют методы синтеза задач, сложность генерируемых агентских задач сложно контролировать, чтобы обеспечить эффективные преимущества для RL-тренировки. Для достижения агентского RLVR с более высокой масштабируемостью мы исследуем обучение в режиме самоигры для агентов углубленного поиска, в котором обучающаяся LLM использует многоходовые вызовы поисковой системы и действует одновременно как постановщик задач и решатель проблем. Постановщик задач стремится генерировать запросы для углубленного поиска с четко определенными эталонными ответами и возрастающей сложностью задач. Решатель проблем пытается обработать сгенерированные поисковые запросы и выдать корректные предсказания ответов. Чтобы гарантировать, что каждый сгенерированный поисковый запрос имеет точный эталонный ответ, мы собираем все результаты поиска из траектории постановщика в качестве внешних знаний, а затем применяем генерацию с дополнением retrieval-augmentation generation (RAG), чтобы проверить, можно ли на предложенный запрос правильно ответить при наличии всех необходимых поисковых документов. В этой игре с поисковой самоигрой (Search Self-Play, SSP) постановщик и решатель совместно развивают свои агентские способности через конкуренцию и кооперацию. На основании значительных экспериментальных результатов мы обнаружили, что SSP может существенно и равномерно улучшить производительность поисковых агентов на различных бенчмарках без какого-либо контроля, как в условиях обучения RL с нуля, так и в условиях непрерывного обучения. Код доступен по адресу https://github.com/Alibaba-Quark/SSP.
Мы представляем Massive Legal Embedding Benchmark (MLEB) — на сегодняшний день крупнейший, наиболее разнообразный и всеобъемлющий открытый бенчмарк для информационного поиска в юридической сфере. MLEB включает десять экспертно-аннотированных наборов данных, охватывающих различные юрисдикции (США, Великобритания, ЕС, Австралия, Ирландия и Сингапур), типы документов (судебные дела, законодательство, нормативные руководства, договоры и научная литература) и типы задач (поиск, классификация с нулевым обучением и ответы на вопросы). Семь наборов данных в составе MLEB были созданы заново для заполнения предметных и юрисдикционных пробелов в ландшафте открытых систем юридического поиска. Мы описываем нашу методологию построения MLEB и создания новых входящих в него наборов данных, а также открыто публикуем наш код, результаты и данные для обеспечения воспроизводимости оценок.
Естественный язык издавна обеспечивал человеческое сотрудничество, но его неточная, неоднозначная и опосредованная природа ограничивает потенциал коллективного интеллекта. Хотя машины не подвержены этим ограничениям, большинство многoагентных систем на основе больших языковых моделей по-прежнему полагаются исключительно на естественный язык, обмениваясь токенами или их векторными представлениями. Чтобы выйти за пределы языка, мы представляем новую парадигму — коммуникацию мыслей, которая позволяет агентам взаимодействовать напрямую, разум к разуму, подобно телепатии. Чтобы принципиально выявить эти скрытые мысли, мы формализуем процесс как общую модель с латентными переменными, где состояния агентов порождаются неизвестной функцией от лежащих в их основе мыслей. Мы доказываем, что в непараметрической постановке без вспомогательной информации как общие, так и частные латентные мысли между любой парой агентов могут быть идентифицированы. Более того, глобальная структура общности мыслей, включая то, какие агенты разделяют какие мысли и как структурированы эти отношения, также может быть восстановлена с теоретическими гарантиями. Руководствуясь установленной теорией, мы разрабатываем框架, который извлекает латентные мысли всех агентов до коммуникации и назначает каждому агенту релевантные мысли вместе с шаблонами их обмена. Эта парадигма естественным образом распространяется за пределы больших языковых моделей на все модальности, поскольку большинство наблюдаемых данных возникают из скрытых генеративных процессов. Эксперименты на синтетических и реальных benchmark-наборах подтверждают теорию и демонстрируют преимущества коммуникации мыслей для сотрудничества. Мы надеемся, что эта работа освещает потенциал использования скрытого мира, поскольку многие проблемы остаются нерешаемыми только через наблюдение на поверхностном уровне, независимо от вычислительных мощностей или объема данных.
Видео-рассуждение, требующее многошагового вывода по кадрам, остается серьезной проблемой для мультимодальных больших языковых моделей (MLLM). Хотя методы на основе обучения с подкреплением (RL) улучшают способности к рассуждению, они часто полагаются на текстовые цепочки, которые приводят к неподтвержденным или галлюцинированным выводам. С другой стороны, подходы с извлечением кадров обеспечивают визуальную привязку, но все же сталкиваются с трудностями в точной локализации доказательств. Для решения этих проблем мы представляем Conan — фреймворк для обоснованного многошагового видео-рассуждения. Conan идентифицирует контекстные и доказательные кадры, анализирует межкадровые связи и адаптивно решает, когда завершить вывод или продолжить исследование. Для этого мы (1) создали Conan-91K, крупномасштабный набор автоматически сгенерированных трасс рассуждений, включающий идентификацию кадров, анализ доказательств и принятие решений о действиях, и (2) разработали многоэтапную прогрессивную стратегию "холодного старта" в сочетании с RLVR-фреймворком обучения Identification-Reasoning-Action (AIR) для совместного улучшения многошагового визуального рассуждения. Многочисленные эксперименты на шести бенчмарках многошагового рассуждения показывают, что Conan превосходит базовую модель Qwen2.5-VL-7B-Instruct в среднем более чем на 10% по точности, демонстрируя наилучшие результаты. Кроме того, Conan эффективно обобщается на задачи понимания длинных видео, что подтверждает его высокую масштабируемость и устойчивость.
Несмотря на впечатляющую визуальную достоверность, существующие персонализированные генеративные модели не обеспечивают интерактивного контроля над пространственной композицией и плохо масштабируются на несколько объектов. Для решения этих ограничений мы представляем LayerComposer — интерактивную систему для персонализированной генерации изображений по текстовому описанию с участием нескольких объектов. Наш подход вносит два ключевых нововведения: (1) слоистое полотно — новое представление, в котором каждый объект размещается на отдельном слое, обеспечивая композицию без перекрытий; и (2) механизм блокировки, который сохраняет выбранные слои с высокой точностью, позволяя остальным слоям гибко адаптироваться к окружающему контексту. Подобно профессиональному программному обеспечению для редактирования изображений, предложенное слоистое полотно позволяет пользователям размещать, масштабировать или блокировать исходные объекты с помощью интуитивного управления слоями. Наш универсальный механизм блокировки не требует изменений в архитектуре, полагаясь вместо этого на встроенные позиционные эмбеддинги в сочетании с новой стратегией комплементарной выборки данных. Многочисленные эксперименты демонстрируют, что LayerComposer превосходит современные методы по точности пространственного контроля и сохранения идентичности в задачах многопользовательской персонализированной генерации изображений.
Мы предлагаем новую парадигму сегментации изображений на основе авторегрессионной генерации (ARGenSeg), обеспечивающую мультимодальное понимание и пиксельное восприятие в единой системе. Предыдущие работы, интегрирующие сегментацию изображений в мультимодальные большие языковые модели (MLLM), обычно используют либо представление граничных точек, либо специализированные сегментационные головы. Эти методы опираются на дискретные представления или семантические промпты, подаваемые в декодеры, ориентированные на конкретную задачу, что ограничивает способность MLLM улавливать мелкозернистые визуальные детали. Для решения этих проблем мы представляем фреймворк сегментации для MLLM на основе генерации изображений, который естественным образом производит плотные маски для целевых объектов. Мы используем MLLM для генерации визуальных токенов и преобразуем их обратно в изображения с помощью универсального VQ-VAE, делая сегментацию полностью зависимой от пиксельного понимания MLLM. Для снижения задержки вывода мы применяем стратегию предсказания следующего масштаба для параллельной генерации необходимых визуальных токенов. Многочисленные эксперименты демонстрируют, что наш метод превосходит предыдущие передовые подходы на нескольких наборах данных по сегментации с значительным ускорением времени вывода, сохраняя при этом высокие способности к пониманию.
Надежная обработка различий в коде (diff) является ключевой для агентов, которые редактируют и рефакторят репозитории в больших масштабах. Мы представляем Diff-XYZ — компактный бенчмарк для понимания различий в коде с тремя контролируемыми задачами: применение (старый код + diff → новый код), отмена применения (новый код - diff → старый код) и генерация diff (новый код - старый код → diff). Экземпляры в бенчмарке представляют собой тройки ⟨старый код, новый код, diff⟩, извлеченные из реальных коммитов в CommitPackFT, снабженные автоматическими метриками и четким протоколом оценки. Мы используем бенчмарк для целенаправленного эмпирического исследования формата унифицированного diff (unified diff) и проводим кросс-форматное сравнение различных представлений diff. Наши результаты показывают, что в зависимости от варианта использования и размера модели следует использовать разные форматы. Например, представление diff в формате поиска-и-замены хорошо подходит для более крупных моделей в сценарии генерации diff, но плохо подходит для анализа diff и smaller моделей. Бенчмарк Diff-XYZ является переиспользуемой основой для оценки и улучшения обработки diff в больших языковых моделях (LLM), что может помочь в будущей разработке форматов diff и моделей для редактирования кода. Набор данных опубликован на HuggingFace Hub: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
Крупные языковые модели (LLM) стали перспективными помощниками в научном письме. Однако возникают опасения относительно качества и надежности генерируемого текста, в частности, точности и достоверности цитирования. В то время как большинство недавних работ полагаются на методы типа «LLM-как-эксперт», надежность такого подхода сама по себе вызывает сомнения. В данной работе мы переосмысливаем оценку цитирования как проблему соответствия атрибуции цитат, то есть проверяем, совпадают ли цитаты, сгенерированные LLM, с теми, которые включил бы автор-человек для того же текста. Мы предлагаем **CiteGuard** — фреймворк агента с учетом поиска, предназначенный для обеспечения более достоверной основы для проверки цитирования. CiteGuard улучшает предыдущий базовый уровень на 12,3% и достигает точности до 65,4% на бенчмарке CiteME, что сопоставимо с уровнем человека (69,7%). Он также позволяет идентифицировать альтернативные, но допустимые цитаты.
MeanFlow недавно появилась как мощная структура для генеративного моделирования с малым числом шагов, обучаемого с нуля, однако причины её успеха ещё не до конца понятны. В данной работе мы показываем, что целевая функция MeanFlow естественным образом раскладывается на две части: согласование потока на траектории и согласованность траектории. Анализ градиентов показывает, что эти члены сильно отрицательно скоррелированы, что приводит к конфликту оптимизации и медленной сходимости. Руководствуясь этими наблюдениями, мы представляем alpha-Flow — широкое семейство целевых функций, которое объединяет согласование потока на траектории, Shortcut Model и MeanFlow в единую формулировку. Благодаря использованию стратегии учебного плана, плавно переходящей от согласования потока на траектории к MeanFlow, alpha-Flow разделяет конфликтующие цели и достигает лучшей сходимости. При обучении с нуля на класс-условном ImageNet-1K 256x256 с базовыми архитектурами DiT, alpha-Flow стабильно превосходит MeanFlow across масштабам и настройкам. Наша крупнейшая модель alpha-Flow-XL/2+ устанавливает новые рекорды состояния искусства, используя базовые DiT, с показателями FID 2.58 (1-NFE) и 2.15 (2-NFE).
Увеличение количества параметров и объема обучающих данных доказало свою эффективность как стратегия повышения производительности больших языковых моделей (LLM). Однако по мере того, как эти модели становятся все более мощными и широко внедряются, стоимость инференса превратилась в актуальную проблему. Несмотря на свою важность, компромисс между точностью модели и эффективностью инференса остается недостаточно изученным. В данной работе мы исследуем, как ключевые архитектурные факторы — размер скрытого слоя, распределение параметров между MLP и механизмом внимания (соотношение mlp-to-attention) и групповое внимание запросов (GQA) — влияют как на стоимость инференса, так и на точность. Мы представляем условный закон масштабирования, который дополняет фреймворк Chinchilla архитектурной информацией, а также фреймворк поиска для идентификации архитектур, одновременно эффективных для инференса и точных. Для проверки нашего подхода мы обучили более 200 моделей в диапазоне от 80 млн до 3 млрд параметров и от 8 млрд до 100 млрд токенов обучения и аппроксимировали предложенный условный закон масштабирования. Наши результаты показывают, что условный закон масштабирования надежно предсказывает оптимальные архитектурные выборы и что полученные модели превосходят существующие открытые базовые линии. При одинаковом бюджете на обучение оптимизированные архитектуры достигают до 2.1% более высокой точности и до 42% большей пропускной способности инференса по сравнению с LLaMA-3.2.
Это не обзор мировых моделей в традиционном понимании; это руководство для тех, кто хочет создавать миры. Наша цель — не каталогизировать каждую работу, где упоминалась «мировая модель». Вместо этого мы следуем чёткому пути: от ранних маскированных моделей, унифицировавших обучение представлений для разных модальностей, к унифицированным архитектурам, разделяющим единую парадигму, затем к интерактивным генеративным моделям, замыкающим петлю «восприятие-действие», и, наконец, к системам с расширенной памятью, которые поддерживают целостность миров во времени. Мы оставляем в стороне слабо связанные направления, чтобы сосредоточиться на главном: генеративном ядре, интерактивной петле и системе памяти. Мы показываем, что это — наиболее перспективный путь к созданию подлинных мировых моделей.
Склонность находить и использовать «обходные пути» для выполнения задач создает серьезные риски для надежной оценки и развертывания больших языковых моделей (LLM). Например, LLM-агент с доступом к модульным тестам может удалить падающие тесты вместо того, чтобы исправить лежащую в их основе ошибку. Такое поведение подрывает как валидность результатов бенчмарков, так и надежность развертываний LLM в качестве ассистентов программирования в реальных условиях. Для количественной оценки, изучения и смягчения такого поведения мы представляем ImpossibleBench — фреймворк для бенчмарков, который систематически измеряет склонность LLM-агентов использовать уязвимости в тест-кейсах. ImpossibleBench создает «невозможные» варианты задач из существующих бенчмарков, таких как LiveCodeBench и SWE-bench, путем введения прямых конфликтов между спецификацией на естественном языке и модульными тестами. Мы измеряем «показатель жульничества» агента как его процент прохождения этих невозможных задач, где любой успех обязательно подразумевает использование нарушающего спецификацию ярлыка. Как практический фреймворк, ImpossibleBench — это не просто оценка, а универсальный инструмент. Мы демонстрируем его полезность для: (1) изучения поведения моделей, выявляя более детальные особенности жульничества — от простой модификации тестов до сложной перегрузки операторов; (2) контекстного инжиниринга, показывая, как подсказка, доступ к тестам и цикл обратной связи влияют на уровень жульничества; и (3) разработки инструментов мониторинга, предоставляя полигон с верифицированными обманными решениями. Мы надеемся, что ImpossibleBench послужит полезным фреймворком для создания более robustных и надежных LLM-систем. Наша реализация доступна по адресу: https://github.com/safety-research/impossiblebench.
Крупные языковые модели (LLM) на основе архитектуры Transformer достигли выдающихся успехов, однако их стандартный механизм внимания требует квадратичных вычислительных затрат и затрат памяти относительно длины последовательности, что создает серьезное ограничение для обучения с длинным контекстом. Предыдущие исследования решают эту проблему по двум направлениям: (1) оптимизации на уровне ядра, ускоряющие операторы плотного и разреженного внимания; и (2) стратегии на уровне модуля, часто называемые распределенным вниманием или обучением с параллелизацией контекста, которые масштабируют внимание на несколько устройств. Однако систематическая оценка все еще остается ограниченной: сравнения на уровне операторов часто неполны, в то время как стратегии параллелизации контекста обычно специфичны для конкретных фреймворков, с неясным анализом производительности в различных контекстах. Для устранения этих пробелов мы предлагаем унифицированный бенчмарк, который интегрирует репрезентативные ядра внимания и механизмы параллелизации контекста с модульным и расширяемым интерфейсом для оценки. Бенчмарк оценивает методы по двум критически важным измерениям: (1) шаблоны маски внимания, которые сильно влияют на эффективность, масштабируемость и удобство использования, и (2) длина последовательности и масштаб распределения, которые определяют производительность в условиях экстремально длинного контекста при обучении. Благодаря всесторонним экспериментам на кластере размером до 96 графических процессоров наш бенчмарк позволяет проводить воспроизводимые сравнения, выявляет компромиссы, специфичные для методов, и предоставляет практические рекомендации по проектированию и развертыванию механизмов внимания при обучении LLM с длинным контекстом.
Командная работа над сложными задачами требует разнообразных коммуникационных стратегий, однако современные многозадачные системы LLM не имеют систематических структур для целенаправленного взаимодействия. Мы представляем Communication to Completion (C2C) — масштабируемую структуру, которая устраняет этот пробел за счет двух ключевых нововведений: (1) Фактор Согласованности (Alignment Factor, AF) — новой метрики, количественно оценивающей согласованность агентов с задачей, что напрямую влияет на эффективность работы, и (2) Структуры Последовательных Действий, которая интегрирует пошаговое выполнение с интеллектуальными коммуникационными решениями. C2C позволяет агентам делать осознанные с точки зрения затрат коммуникационные выборы, динамически улучшая понимание задачи за счет целевых взаимодействий. Мы оценили C2C на реалистичных рабочих процессах программирования по трем уровням сложности и с размерами команд от 5 до 17 агентов, сравнив с базовыми подходами без коммуникации и с фиксированными шагами. Результаты показывают, что C2C сокращает время выполнения задачи примерно на 40% при приемлемых коммуникационных издержках. Структура успешно выполняет все задачи в стандартных конфигурациях и сохраняет эффективность при масштабировании. C2C закладывает как теоретическую основу для измерения эффективности коммуникации в многозадачных системах, так и практическую структуру для сложных коллективных задач.
Мы представляем MSC-Bench — масштабный бенчмарк для оценки многошаговой сквозной оркестрации инструментов агентами на основе больших языковых моделей (LLM) в иерархической экосистеме Model-Context Protocol (MCP). Существующие бенчмарки часто оценивают инструменты изолированно, игнорируя такие проблемы, как функциональное перекрытие и кросс-серверная оркестрация, что приводит к излишне оптимистичным оценкам. MSC-Bench устраняет эти пробелы, формируя эталонные данные с помощью «наборов равнозначных функций», что позволяет использовать объективные метрики, такие как F1-мера, и снижает зависимость от оценки с помощью LLM-как-судьи. Организованный в виде пятиуровневого учебного плана, бенчмарк систематически проверяет способности агентов — от оркестрации одиночных инструментов до сложного кросс-серверного планирования и устойчивости к запросам вне области их компетенции. Эксперименты показывают, что жесткие иерархии могут ухудшать производительность без специально разработанных стратегий, и даже передовые агенты демонстрируют системные слабости в устойчивости. MSC-Bench предоставляет диагностическую основу для выявления этих ограничений и направления разработки более эффективных агентов, использующих инструменты. Бенчмарк и сопутствующие ресурсы доступны по адресу https://github.com/snooow1029/MSC_Bench.
Крупные языковые модели (LLM) теперь поддерживают контекстные окна объемом в сотни тысяч и миллионы токенов, что открывает возможности для таких приложений, как суммаризация длинных документов, крупномасштабный синтез кода, вопросно-ответные системы по множеству документов и устойчивый многотурный диалог. Однако такие расширенные контексты усугубляют квадратичную стоимость самовнимания, приводя к значительным задержкам при авторегрессионном декодировании. Существующие методы разреженного внимания снижают эти затраты, но опираются на эвристические паттерны, которые плохо справляются с recall критически важных пар ключ-значение (KV) для каждого запроса, что ведет к снижению точности. Мы представляем Adamas — легковесный, но высокоточный механизм разреженного внимания, разработанный для длинноконтекстного вывода. Adamas применяет преобразование Адамара, бакетизацию и 2-битное сжатие для создания компактных представлений, а также использует оценку манхэттенского расстояния для эффективного выбора top-k. Эксперименты показывают, что Adamas достигает точности полного внимания при бюджете всего в 64 токена, демонстрирует почти безпотерьную производительность при 128 токенах и поддерживает до 8-кратно более высокую разреженность по сравнению с предыдущими передовыми методами (SOTA), обеспечивая при этом до 4,4-кратного ускорения самовнимания и 1,5-кратного сквозного ускорения на последовательностях длиной 32K. Примечательно, что Adamas достигает сравнимой или даже более низкой перплексии, чем полное внимание, что подчеркивает его эффективность в сохранении точности при агрессивной разреженности.
С появлением различных предварительно обученных больших языковых моделей извлечение структурированных знаний из научных текстов претерпело революционные изменения по сравнению с традиционными методами машинного обучения или обработки естественного языка. Несмотря на эти достижения, доступные автоматизированные инструменты, позволяющие пользователям создавать, проверять и визуализировать наборы данных, извлеченные из научной литературы, остаются дефицитом. Поэтому мы разработали ComProScanner — автономную мультиагентную платформу, которая обеспечивает извлечение, проверку, классификацию и визуализацию машиночитаемых химических составов и свойств, интегрированных с данными о синтезе из научных статей для создания комплексных баз данных. Мы оценили нашу платформу на 100 научных статьях с использованием 10 различных БЯМ, включая как модели с открытым исходным кодом, так и проприетарные, для извлечения высокосложных составов, связанных с керамическими пьезоэлектрическими материалами, и соответствующих коэффициентов пьезоэлектрической деформации (d33), что было мотивировано отсутствием крупного набора данных для таких материалов. Модель DeepSeek-V3-0324 превзошла все модели с общей точностью 0.82. Данная платформа представляет собой простой, удобный и готовый к использованию пакет для извлечения высокосложных экспериментальных данных, скрытых в литературе, с целью построения наборов данных для машинного или глубокого обучения.
Недавние исследования с помощью методов probing выявили, что большие языковые модели содержат линейные подпространства, разделяющие истинные и ложные утверждения, однако механизм их возникновения остаётся неясным. Мы представляем прозрачную игрушечную модель на основе однослойного трансформатора, которая воспроизводит такие подпространства истинности end-to-end и демонстрирует конкретный механизм их формирования. Мы исследуем простой сценарий, в котором может возникать кодирование истинности: распределение данных, где фактические утверждения встречаются вместе с другими фактами (и наоборот), что побуждает модель изучать это различие для снижения LM-потерь на последующих токенах. Мы подтверждаем эту закономерность экспериментами с предобученными языковыми моделями. Наконец, в игрушечной модели мы наблюдаем двухфазную динамику обучения: сначала сети за несколько шагов запоминают отдельные фактические ассоциации, затем — в течение более длительного периода — обучаются линейному разделению истинного и ложного, что в свою очередь снижает потери языкового моделирования. В совокупности эти результаты дают как механистическое объяснение, так и эмпирическое обоснование того, как и почему в языковых моделях возникают линейные репрезентации истинности.