Ежедневно отобранные исследовательские статьи по ИИ с переводами
Видео академических презентаций стали важным средством коммуникации в научных исследованиях, однако их создание остается крайне трудоемким процессом, часто требующим часов работы над дизайном слайдов, записью и монтажом для короткого видео продолжительностью от 2 до 10 минут. В отличие от обычного видео, генерация презентационных видео связана с уникальными задачами: входные данные из научных статей, плотная мультимодальная информация (текст, графики, таблицы) и необходимость согласования нескольких связанных каналов, таких как слайды, субтитры, речь и говорящий человек. Для решения этих задач мы представляем PaperTalker — первый набор данных, включающий 101 научную статью, сопоставленную с авторскими презентационными видео, слайдами и метаданными докладчика. Мы также разработали четыре специализированных метрики оценки — Meta Similarity, PresentArena, PresentQuiz и IP Memory — для измерения того, насколько эффективно видео передает информацию статьи аудитории. На основе этого фундамента мы предлагаем PaperTalker — первую многоагентную систему для генерации академических презентационных видео. Она интегрирует создание слайдов с эффективным уточнением макета с помощью инновационного визуального выбора на основе поиска по дереву, привязку курсора, субтитрование, синтез речи и рендеринг говорящего, параллелизируя генерацию по слайдам для повышения эффективности. Эксперименты на наборе данных Paper2Video показали, что презентационные видео, созданные нашим подходом, более точны и информативны, чем существующие базовые методы, что представляет собой практический шаг к автоматизированной и готовой к использованию генерации академических видео. Наш набор данных, агент и код доступны по адресу https://github.com/showlab/Paper2Video.
Приложения больших языковых моделей (LLM), такие как агенты и предметно-ориентированные рассуждения, всё чаще полагаются на адаптацию контекста — модификацию входных данных с помощью инструкций, стратегий или доказательств, а не обновления весов. Предыдущие подходы улучшают удобство использования, но часто страдают от предвзятости краткости, которая жертвует предметными инсайтами ради сжатых резюме, и от коллапса контекста, где итеративное переписывание постепенно стирает детали. Основываясь на адаптивной памяти, представленной в Dynamic Cheatsheet, мы представляем ACE (Agentic Context Engineering) — фреймворк, который рассматривает контексты как развивающиеся плейбуки, которые накапливают, уточняют и организуют стратегии через модульный процесс генерации, рефлексии и курирования. ACE предотвращает коллапс с помощью структурированных, инкрементных обновлений, сохраняющих детальные знания и масштабируемых с моделями длинного контекста. На тестах для агентов и предметно-ориентированных задач ACE оптимизирует контексты как оффлайн (например, системные подсказки), так и онлайн (например, память агента), стабильно превосходя сильные базовые подходы: +10,6% для агентов и +8,6% для финансов, при этом значительно снижая задержку адаптации и стоимость развертывания. Примечательно, что ACE эффективно адаптируется без помеченного надзора, используя естественную обратную связь от выполнения. На лидерборде AppWorld ACE соответствует топовому производственному агенту по общему среднему показателю и превосходит его на более сложном тестовом разделе, несмотря на использование меньшей открытой модели. Эти результаты показывают, что комплексные, развивающиеся контексты позволяют создавать масштабируемые, эффективные и самосовершенствующиеся системы LLM с низкими накладными расходами.
Понимание видео представляет собой наиболее сложный рубеж в области компьютерного зрения, требуя от моделей способности анализировать сложные пространственно-временные взаимосвязи, долгосрочные зависимости и мультимодальные данные. Недавнее появление крупных мультимодальных моделей для видео (Video-LMMs), которые объединяют визуальные кодировщики с мощными декодерными языковыми моделями, продемонстрировало впечатляющие возможности в задачах понимания видео. Однако критический этап, который превращает эти модели из базовых систем восприятия в сложные механизмы рассуждения — пост-обучение — остается фрагментированным в научной литературе. Данный обзор представляет первое всестороннее исследование методологий пост-обучения для Video-LMMs, охватывающее три фундаментальных направления: контролируемое тонкое настройка (SFT) с использованием цепочки рассуждений, обучение с подкреплением (RL) на основе проверяемых целей и масштабирование на этапе тестирования (TTS) через улучшенные вычислительные ресурсы для вывода. Мы предлагаем структурированную таксономию, которая проясняет роли, взаимосвязи и видео-специфические адаптации этих методов, решая уникальные задачи, такие как временная локализация, пространственно-временное обоснование, эффективность обработки длинных видео и интеграция мультимодальных данных. Путем систематического анализа репрезентативных методов мы синтезируем ключевые принципы проектирования, инсайты и протоколы оценки, одновременно выделяя важные открытые проблемы в области проектирования наград, масштабируемости и оптимизации соотношения затрат и производительности. Мы также подбираем ключевые бенчмарки, наборы данных и метрики для обеспечения строгой оценки эффективности пост-обучения. Этот обзор призван предоставить исследователям и практикам единую структуру для развития возможностей Video-LMM. Дополнительные ресурсы и обновления поддерживаются по адресу: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training.
Поиск по дереву стал репрезентативной основой для рассуждений во время тестирования с использованием больших языковых моделей (LLM), что иллюстрируется такими методами, как Tree-of-Thought и поиск по дереву Монте-Карло, которые исследуют множество путей рассуждений. Однако остается сложным предоставление мгновенной и надежной количественной оценки качества промежуточных шагов рассуждений, а обширное исследование путей требует значительных вычислительных ресурсов. Для решения этой проблемы мы предлагаем поиск по дереву на основе взаимной информации (MITS) — новую структуру, которая направляет рассуждения с использованием принципов теории информации. MITS вводит эффективную функцию оценки, основанную на точечной взаимной информации (PMI), что позволяет пошагово оценивать пути рассуждений и расширять дерево поиска с помощью поиска по лучу без дорогостоящих симуляций с опережением, достигая превосходных результатов в рассуждениях при сохранении вычислительной эффективности. Структура дополняется стратегией динамической выборки на основе энтропии, которая адаптивно распределяет вычислительные ресурсы на неопределенные шаги рассуждений, где исследование наиболее полезно. Для окончательного прогноза MITS использует взвешенную схему голосования, которая объединяет оценки PMI с консенсусом прогнозов. В ходе всесторонних экспериментов на различных тестах рассуждений MITS последовательно превосходит базовые методы, устанавливая принципиальную и эффективную основу для рассуждений с использованием LLM.
Современные модели генерации видео способны создавать плавные и визуально привлекательные ролики, но часто испытывают трудности с синтезом сложной динамики, включающей последовательную цепочку последствий. Точное моделирование визуальных результатов и переходов состояний во времени остается ключевой задачей. В отличие от этого, крупные языковые и мультимодальные модели (например, GPT-4o) демонстрируют мощные способности к рассуждению о визуальных состояниях и предсказанию будущего. Чтобы объединить эти преимущества, мы представляем VChain — новую структуру цепочки визуальных рассуждений на этапе вывода, которая внедряет сигналы визуального анализа из мультимодальных моделей в процесс генерации видео. В частности, VChain включает специализированный конвейер, который использует крупные мультимодальные модели для создания разреженного набора ключевых кадров, которые затем применяются для управления разреженной настройкой предварительно обученного генератора видео только в эти ключевые моменты. Наш подход эффективен в плане настройки, вносит минимальные накладные расходы и избегает плотного контроля. Многочисленные эксперименты на сложных многошаговых сценариях показывают, что VChain значительно повышает качество генерируемых видео.
Атаки на взлом моделей обработки визуальной информации обычно основываются на незаметных состязательных возмущениях, тогда как атаки на текстовую модальность, как правило, предполагают видимые изменения (например, добавление несемантических суффиксов). В данной статье мы представляем незаметные методы взлома, использующие класс символов Unicode, называемых селекторами вариаций. Добавляя невидимые селекторы вариаций к вредоносным запросам, взломанные подсказки выглядят визуально идентичными исходным вредоносным запросам на экране, при этом их токенизация "тайно" изменяется. Мы предлагаем цепочку поиска для генерации таких состязательных суффиксов, чтобы вызывать вредоносные ответы. Наши эксперименты показывают, что наши незаметные методы взлома достигают высоких показателей успешности атак против четырех выровненных языковых моделей и обобщаются на атаки с инъекцией подсказок, при этом не производя никаких видимых изменений в тексте запроса. Наш код доступен по адресу https://github.com/sail-sg/imperceptible-jailbreaks.
Последние достижения в области больших языковых моделей демонстрируют, что гибридные архитектуры, сочетающие механизмы самовнимания с структурированными моделями пространства состояний, такими как Mamba, могут достичь убедительного баланса между качеством моделирования и вычислительной эффективностью, особенно для задач с длинным контекстом. Хотя эти гибридные модели демонстрируют многообещающую производительность, систематические сравнения стратегий гибридизации и анализ ключевых факторов, лежащих в основе их эффективности, еще не были четко представлены сообществу. В данной работе мы представляем всестороннюю оценку гибридных архитектур, основанных на межслойном (последовательном) или внутрислойном (параллельном) объединении. Мы оцениваем эти конструкции с различных точек зрения: производительность в языковом моделировании, способности к работе с длинным контекстом, анализ масштабируемости, а также эффективность обучения и вывода. Исследуя ключевые характеристики их вычислительных примитивов, мы определяем наиболее важные элементы для каждой стратегии гибридизации и дополнительно предлагаем оптимальные рецепты проектирования для обеих гибридных моделей. Наш всесторонний анализ предоставляет практические рекомендации и ценные инсайты для разработки гибридных языковых моделей, способствуя оптимизации архитектурных конфигураций.
Несмотря на недавние успехи в передаче оптимальных гиперпараметров при масштабировании модели и набора данных, универсальный объяснительный принцип до сих пор не установлен. Используя оптимизатор Scion, мы обнаруживаем, что совместное оптимальное масштабирование для размеров модели и набора данных регулируется единственным инвариантом: операторной нормой выходного слоя. Для моделей с числом параметров до 1,3 млрд, обученных на до 138 млрд токенов, оптимальная пара (скорость обучения/размер батча) (eta^{ast}, B^{ast}) всегда имеет одно и то же значение операторной нормы — явление, которое мы называем передачей нормы. Это условие постоянной нормы является необходимым, но не достаточным: хотя для каждого размера набора данных несколько пар (eta, B) достигают оптимальной нормы, только уникальная пара (eta^{ast}, B^{ast}) обеспечивает наилучшую потерю. В качестве достаточного условия мы впервые измеряем масштабирование (eta^{ast}, B^{ast}) с размером набора данных для Scion и обнаруживаем, что правила масштабирования согласуются с таковыми для оптимизатора Adam. Настройка скорости обучения для групп слоев также улучшает производительность модели, причем выходной слой оказывается наиболее чувствительным, а скрытые слои выигрывают от более низких скоростей обучения. Мы предоставляем практические рекомендации по оптимальному масштабированию, основанному на норме, и выпускаем нашу реализацию Distributed Scion (Disco) с логами более двух тысяч запусков для поддержки исследований динамики обучения крупномасштабных языковых моделей.
Архитектура Transformer стала де-факто стандартом для больших языковых моделей (LLM), демонстрируя выдающиеся способности в понимании и генерации текста. Однако её применение в диалоговых системах фундаментально ограничено её бессостоятельной природой и квадратичной вычислительной сложностью (O(L^2)) относительно длины последовательности L. Современные модели имитируют память, перерабатывая постоянно расширяющуюся историю диалога на каждом шаге, что приводит к неприемлемым затратам и задержкам в длинных беседах. В данной статье представлен Reactive Transformer (RxT) — новая архитектура, разработанная для преодоления этих ограничений за счёт перехода от парадигмы, управляемой данными, к событийно-ориентированной. RxT обрабатывает каждый шаг диалога как дискретное событие в реальном времени, сохраняя контекст в интегрированной системе кратковременной памяти (STM) фиксированного размера. Архитектура отличается уникальным операционным циклом, в котором генератор-декодер формирует ответ на основе текущего запроса и предыдущего состояния памяти, после чего кодировщик памяти и специализированная сеть внимания к памяти асинхронно обновляют STM, представляя полное взаимодействие. Этот подход кардинально меняет динамику масштабирования, снижая общую стоимость диалога для пользователя с квадратичной (O(N^2 cdot T)) до линейной (O(N cdot T)) относительно числа взаимодействий N. Разделяя генерацию ответов и обновление памяти, RxT достигает низкой задержки, обеспечивая по-настоящему реальное время, сохранение состояния и экономическую целесообразность длительных бесед. Мы подтвердили эффективность нашей архитектуры серией экспериментов на синтетических данных, продемонстрировав превосходную производительность и постоянное время вывода по сравнению с базовой бессостоятельной моделью сопоставимого размера.
Преобладающая парадигма для улучшения способностей к рассуждению у крупных языковых моделей (LLM) сосредоточена на посттренинге с использованием высококачественных данных, требующих интенсивного рассуждения. Хотя появляющиеся исследования указывают на то, что данные для рассуждений всё чаще включаются также на этапе промежуточного обучения — практика, которая является более закрытой и менее открыто характеризуемой, — роль таких данных на этапе предварительного обучения остаётся неясной. В частности, из-за непрозрачности корпусов для предварительного обучения в большинстве передовых моделей, эффект от введения данных для рассуждений на разных этапах предварительного и/или посттренинга относительно мало освещается в научной литературе. Это поднимает несколько важных вопросов: Является ли добавление данных для рассуждений на более раннем этапе предварительного обучения более эффективным, чем их введение на этапе посттренинга? Может ли более раннее включение таких данных привести к переобучению и ухудшению обобщающей способности, или, напротив, заложить прочные основы, которые не могут быть восстановлены последующим тонким настройкой? Мы проводим первое систематическое исследование того, как данные для рассуждений — варьирующиеся по масштабу, разнообразию и качеству — влияют на производительность LLM при их введении на разных этапах обучения. Мы обнаруживаем, что включение данных для рассуждений на этапе предварительного обучения является критически важным (в среднем 19% улучшения), закладывая фундаментальные способности, которые не могут быть полностью воспроизведены на этапе тонкой настройки (SFT), даже при использовании большего объёма данных. Мы выявляем асимметричный принцип оптимального распределения данных: предварительное обучение больше всего выигрывает от широкого разнообразия паттернов рассуждений (в среднем 11% улучшения), тогда как SFT более чувствителен к качеству данных (в среднем 15% улучшения). Мы показываем, что высококачественные данные для предварительного обучения имеют скрытые эффекты, активируемые только после SFT, и что бездумное увеличение объёма данных для SFT может быть вредным, нивелируя преимущества раннего включения данных для рассуждений. Наши результаты бросают вызов традиционному разделению языкового моделирования и рассуждений, предоставляя принципиальное руководство для стратегического распределения данных на всех этапах обучения с целью создания более мощных моделей.
Хотя современные модели генерации изображений преуспевают в создании эстетически привлекательных натуральных изображений, они испытывают трудности с созданием или редактированием структурированных визуализаций, таких как графики, диаграммы и математические фигуры, которые требуют планирования композиции, рендеринга текста и мультимодального рассуждения для обеспечения фактической точности. Для решения этой проблемы мы представляем первое всестороннее и систематическое исследование этой области, охватывающее создание данных, обучение моделей и эталонный тест для оценки. Сначала мы создаем крупномасштабный набор данных из 1,3 миллиона пар высококачественных структурированных изображений, полученных из исполняемых программ рисования и дополненных аннотациями с цепочкой рассуждений. На его основе мы обучаем унифицированную модель, которая интегрирует VLM с FLUX.1 Kontext через легковесный соединитель для улучшенного мультимодального понимания. Трехэтапная программа обучения позволяет достичь прогрессивного выравнивания признаков, внедрения знаний и генерации, усиленной рассуждениями, что дополнительно улучшается с помощью внешнего модуля рассуждений на этапе вывода. Наконец, мы представляем StructBench — новый эталонный тест для генерации и редактирования, содержащий более 1700 сложных примеров, и сопровождающую его метрику оценки StructScore, которая использует многораундовый протокол вопросов и ответов для оценки детальной фактической точности. Оценка 15 моделей показывает, что даже ведущие закрытые системы остаются далеки от удовлетворительных результатов. Наша модель демонстрирует высокую производительность в редактировании, а использование рассуждений на этапе вывода обеспечивает стабильные улучшения для различных архитектур. Публикуя набор данных, модель и эталонный тест, мы стремимся продвинуть унифицированные мультимодальные основы для работы со структурированными визуализациями.
Инструктивная настройка играет ключевую роль в улучшении способностей крупных языковых моделей (LLM) решать задачи, повышая их полезность в генерации полезных ответов на различные запросы. Однако предыдущие исследования показали, что такие модели чувствительны к незначительным изменениям в формулировках инструкций. В данной работе мы исследуем, может ли внесение возмущений в данные для инструктивной настройки повысить устойчивость LLM к зашумленным инструкциям. Мы сосредоточимся на том, как инструктивная настройка с возмущениями, такими как удаление стоп-слов или перестановка слов, влияет на производительность LLM на оригинальных и измененных версиях широко используемых тестов (MMLU, BBH, GSM8K). Мы также оцениваем динамику обучения и возможные изменения в поведении моделей. Удивительно, но наши результаты показывают, что инструктивная настройка на возмущенных инструкциях в некоторых случаях может улучшить производительность на последующих задачах. Эти результаты подчеркивают важность включения возмущенных инструкций в процесс инструктивной настройки, что может сделать LLM более устойчивыми к зашумленным пользовательским вводам.
Системы устного диалога часто используют каскадные конвейеры, которые транскрибируют, обрабатывают и повторно синтезируют речь. Хотя такой подход эффективен, он игнорирует паралингвистические сигналы и ограничивает выразительность. Современные сквозные методы снижают задержку и лучше сохраняют эти сигналы, но всё же полагаются на текстовые промежуточные этапы, создавая фундаментальное узкое место. Мы представляем MOSS-Speech — настоящую модель крупного языка для преобразования речи в речь, которая напрямую понимает и генерирует речь без использования текстовых указаний. Наш подход сочетает архитектуру с разделением слоёв на основе модальностей с замороженной стратегией предварительного обучения, сохраняя способность к рассуждению и знания предварительно обученных текстовых моделей крупного языка, добавляя при этом встроенные возможности работы с речью. Эксперименты показывают, что наша модель достигает передовых результатов в задачах устного ответа на вопросы и демонстрирует сопоставимую производительность в преобразовании речи в речь по сравнению с существующими системами, использующими текстовые указания, при этом сохраняя конкурентоспособные результаты в текстовых задачах. Сокращая разрыв между текстово-управляемым и прямым генерацией речи, наша работа устанавливает новую парадигму для выразительного и эффективного сквозного взаимодействия с речью.
Применение обучения с подкреплением к большим языковым моделям (LLM) для задач логического вывода часто сталкивается с проблемой нестабильных оценок градиента из-за фиксированного и равномерного сэмплирования ответов на различные запросы. Предыдущие работы, такие как GVM-RAFT, решают эту проблему путем динамического распределения вычислительного бюджета на каждый запрос для минимизации дисперсии стохастического градиента при ограниченном бюджете. Вдохновленные этим подходом, мы предлагаем Reinforce-Ada — адаптивную систему сэмплирования для онлайн-обучения с подкреплением LLM, которая непрерывно перераспределяет усилия по сэмплированию на запросы с наибольшей неопределенностью или потенциалом для обучения. В отличие от традиционных двухэтапных методов распределения, Reinforce-Ada чередует оценку и сэмплирование в процессе онлайн-последовательного исключения и автоматически прекращает сэмплирование для запроса, как только собирается достаточный сигнал. Для стабилизации обновлений мы формируем группы фиксированного размера с обеспечением разнообразия наград и вычисляем базовые значения преимуществ с использованием глобальной статистики, агрегированной на этапе адаптивного сэмплирования. Экспериментальные результаты на множестве архитектур моделей и тестовых наборов для логического вывода показывают, что Reinforce-Ada ускоряет сходимость и улучшает итоговую производительность по сравнению с GRPO, особенно при использовании варианта сбалансированного сэмплирования. Наша работа подчеркивает ключевую роль адаптивного управления данными с учетом дисперсии для обеспечения эффективного и надежного обучения с подкреплением LLM, способных к логическому выводу. Код доступен по адресу https://github.com/RLHFlow/Reinforce-Ada.
Согласование крупных языковых моделей (LLM) с человеческими ценностями всё чаще опирается на использование других LLM в качестве автоматических судей, или «автооценщиков». Однако их надежность ограничена фундаментальной проблемой: они обучаются на дискретных метках предпочтений, что навязывает единую истину для задач, которые часто являются субъективными, неоднозначными или сложными. Мы утверждаем, что надежный автооценщик должен научиться моделировать полное распределение предпочтений, определенное целевой популяцией. В данной статье мы предлагаем общий фреймворк для калибровки вероятностных автооценщиков к любому заданному распределению предпочтений. Мы формализуем проблему и представляем два метода обучения, адаптированных к различным условиям данных: 1) прямое тонкое обучение с учителем для плотных, вероятностных меток и 2) подход с обучением с подкреплением для разреженных, бинарных меток. Наши эмпирические результаты показывают, что тонкая настройка автооценщиков с целью соответствия распределению приводит к вербализированным вероятностным прогнозам, которые лучше согласуются с целевым распределением предпочтений, с улучшенной калибровкой и значительно меньшим позиционным смещением, при этом сохраняя производительность на объективных задачах.
Обучение с подкреплением сыграло ключевую роль в последних достижениях в области рассуждений больших языковых моделей, однако большинство алгоритмов полагаются на обучение на основе текущей политики, что требует новых прогонов на каждом этапе обновления, ограничивая эффективность и масштабируемость. Асинхронные системы обучения с подкреплением смягчают эту проблему, разделяя генерацию прогонов и обучение, но их эффективность зависит от способности справляться с высокой устареваемостью данных прогонов — условие, при котором существующие методы либо теряют производительность, либо полностью перестают работать. Мы возвращаемся к этой проблеме и обнаруживаем феномен "процветания перед коллапсом": устаревшие данные могут быть столь же информативными, как и данные текущей политики, если их правильно использовать. Основываясь на этом наблюдении, мы представляем M2PO (Second-Moment Trust Policy Optimization), который ограничивает второй момент весов важности, чтобы подавлять только крайние выбросы, сохраняя при этом информативные обновления. Примечательно, что M2PO значительно сокращает долю обрезанных токенов при высокой устареваемости (с 1,22% до 0,06% в процессе обучения), точно маскируя токены с высокой дисперсией, сохраняя стабильную оптимизацию. Обширная оценка на шести моделях (от 1,7 млрд до 32 млрд параметров) и восьми бенчмарках показывает, что M2PO обеспечивает стабильное обучение вне текущей политики даже с данными, устаревшими как минимум на 256 обновлений модели, и соответствует производительности обучения на текущей политике.
Недавние исследования показывают, что, помимо дискретного рассуждения через явные шаги цепочки мыслей, которые ограничены рамками естественных языков, крупные языковые модели (LLM) также способны рассуждать непрерывно в латентном пространстве, что позволяет передавать более богатую информацию на каждом шаге и тем самым повышать эффективность использования токенов. Несмотря на этот потенциал, латентное рассуждение всё ещё сталкивается с двумя проблемами, особенно в условиях, не требующих обучения: 1) чисто латентное рассуждение расширяет распределение поиска за счёт поддержания множества неявных путей, что рассеивает вероятностную массу, вносит шум и затрудняет сходимость к единственному решению с высокой уверенностью, тем самым снижая точность; 2) "переобдумывание" сохраняется даже без явного текста, что приводит к растрате токенов и снижению эффективности. Для решения этих проблем мы представляем SwiReasoning, обучение-независимый фреймворк для рассуждения в LLM, который включает два ключевых нововведения: 1) SwiReasoning динамически переключается между явным и латентным рассуждением, руководствуясь блочной уверенностью, оцениваемой по тенденциям энтропии в распределениях следующих токенов, чтобы сбалансировать исследование и использование и способствовать своевременной сходимости. 2) Ограничивая максимальное количество переключений между блоками рассуждения, SwiReasoning предотвращает "переобдумывание" и повышает эффективность использования токенов для задач различной сложности. На широко используемых математических и STEM-бенчмарках SwiReasoning стабильно повышает среднюю точность на 1,5%-2,8% для различных семейств и масштабов моделей, ориентированных на рассуждение. Кроме того, при ограниченных бюджетах SwiReasoning улучшает среднюю эффективность использования токенов на 56%-79%, с большим приростом по мере ужесточения бюджетов.
Последние достижения в области крупных генеративных моделей значительно продвинули редактирование изображений и генерацию изображений в контексте, однако критический пробел остается в обеспечении физической согласованности, где редактируемые объекты должны сохранять свою целостность. Эта способность особенно важна для задач, связанных с моделированием мира. В данной статье мы представляем ChronoEdit — фреймворк, который переосмысливает редактирование изображений как задачу генерации видео. Во-первых, ChronoEdit рассматривает исходное и отредактированное изображения как первый и последний кадры видео, что позволяет использовать крупные предобученные модели генерации видео, которые учитывают не только внешний вид объектов, но и неявную физику движения и взаимодействия через изученную временную согласованность. Во-вторых, ChronoEdit вводит этап временного рассуждения, который явно выполняет редактирование во время вывода. В этом контексте целевой кадр совместно очищается от шума с использованием токенов рассуждения, чтобы представить правдоподобную траекторию редактирования, которая ограничивает пространство решений физически допустимыми преобразованиями. Токены рассуждения затем удаляются через несколько шагов, чтобы избежать высоких вычислительных затрат на рендеринг полного видео. Для проверки ChronoEdit мы представляем PBench-Edit — новый бенчмарк пар изображение-запрос для контекстов, требующих физической согласованности, и демонстрируем, что ChronoEdit превосходит современные базовые модели как по визуальной точности, так и по физической правдоподобности. Код и модели для вариантов ChronoEdit на 14B и 2B будут опубликованы на странице проекта: https://research.nvidia.com/labs/toronto-ai/chronoedit.
Крупные языковые модели (LLM) всё чаще решают сложные задачи, требующие рассуждений, с помощью длинных цепочек мыслей, но их автокорреляционный процесс генерации, работающий только в прямом направлении, является хрупким; ошибки в ранних токенах могут каскадно накапливаться, что создаёт явную необходимость в механизмах саморефлексии. Однако существующие подходы к саморефлексии либо выполняют исправления на основе полных черновиков, либо обучают самокоррекции через дорогостоящее обучение, что в обоих случаях является реактивным и неэффективным. Чтобы решить эту проблему, мы предлагаем Self-Reflective Generation at Test Time (SRGen) — лёгкий фреймворк для тестового времени, который рефлексирует перед генерацией в неопределённых точках. В процессе генерации токенов SRGen использует динамическое пороговое значение энтропии для выявления токенов с высокой неопределённостью. Для каждого такого токена он обучает специфический корректирующий вектор, который полностью использует уже сгенерированный контекст для саморефлексивной генерации, чтобы исправить распределение вероятностей токена. Ретроспективно анализируя частичный вывод, эта саморефлексия позволяет принимать более надёжные решения, тем самым значительно снижая вероятность ошибок в точках с высокой неопределённостью. Оценка на сложных бенчмарках математических рассуждений и на разнообразных LLM показывает, что SRGen последовательно улучшает качество рассуждений моделей: улучшения в качестве однопроходной генерации также приводят к более сильному голосованию за самосогласованность. В частности, на AIME2024 с моделью DeepSeek-R1-Distill-Qwen-7B SRGen демонстрирует абсолютные улучшения на +12,0% по метрике Pass@1 и +13,3% по метрике Cons@5. Более того, наши результаты позиционируют SRGen как метод plug-and-play, который интегрирует рефлексию в процесс генерации для повышения надёжности рассуждений LLM, достигая стабильных улучшений с ограниченными накладными расходами и широкой совместимостью с другими методами, применяемыми на этапе обучения (например, RLHF) и тестового времени (например, SLOT).
Компьютерные агенты (CUAs) должны планировать рабочие процессы задач, основанные на разнообразных и постоянно меняющихся приложениях и средах, но обучение затруднено из-за нехватки крупномасштабных, высококачественных обучающих данных в целевой области. Существующие наборы данных являются узкоспециализированными, статичными и дорогостоящими для аннотирования, в то время как текущие методы генерации синтетических данных часто дают упрощённые или несоответствующие демонстрации задач. Чтобы устранить эти ограничения, мы представляем Watch & Learn (W&L) — фреймворк, который преобразует видеодемонстрации людей, доступные в Интернете, в исполняемые траектории взаимодействия с пользовательским интерфейсом (UI) в масштабе. Вместо прямого создания траекторий или использования эвристик ad hoc, мы формулируем задачу как цель обратной динамики: предсказание действия пользователя на основе последовательных состояний экрана. Такой подход снижает необходимость ручной разработки, упрощает обучение и обеспечивает более устойчивую обобщаемость между приложениями. Конкретно, мы разрабатываем конвейер аннотирования обратной динамики с извлечением видео, учитывающим задачи, генерируем более 53 тысяч высококачественных траекторий из необработанных веб-видео и показываем, что эти траектории улучшают CUAs как в контексте демонстраций, так и в качестве данных для обучения с учителем. На сложном бенчмарке OSWorld траектории UI, извлечённые с помощью W&L, последовательно улучшают как универсальные, так и передовые фреймворки в контексте, а также обеспечивают более значительный прирост для моделей с открытым исходным кодом при обучении с учителем. Эти результаты подчеркивают, что видеодемонстрации людей в масштабе Интернета представляют собой практичную и масштабируемую основу для продвижения CUAs к реальному внедрению.
Внедрение инструментов автодополнения кода на основе ИИ в разработке программного обеспечения значительно возросло, однако данные о взаимодействии пользователей, генерируемые этими системами, остаются собственностью крупных корпораций. Это создает барьер для академического сообщества, поскольку исследователям часто приходится разрабатывать специализированные платформы для проведения исследований взаимодействия человека и ИИ, что делает воспроизводимые исследования и анализ данных в крупных масштабах непрактичными. В данной работе мы представляем Code4MeV2 — ориентированный на исследования, открытый плагин автодополнения кода для IDE JetBrains, как решение этой проблемы. Code4MeV2 разработан с использованием архитектуры клиент-сервер и включает встроенное автодополнение кода и контекстно-зависимый чат-ассистент. Его ключевым вкладом является модульная и прозрачная система сбора данных, которая предоставляет исследователям детальный контроль за сбором телеметрии и контекста. Code4MeV2 демонстрирует производительность, сопоставимую с промышленными решениями, в области автодополнения кода, со средней задержкой в 200 мс. Мы оцениваем наш инструмент с помощью экспертной оценки и исследования с участием восьми пользователей. Отзывы как исследователей, так и обычных пользователей подчеркивают его информативность и полезность. Мы приглашаем сообщество использовать и вносить вклад в развитие этого инструмента. Дополнительную информацию о нем можно найти на сайте https://app.code4me.me.
Представьте, что мистер Бин попадает в мир Тома и Джерри — можем ли мы создавать видео, где персонажи естественно взаимодействуют в разных вселенных? Мы исследуем межперсонажное взаимодействие в генерации видео из текста, где ключевая задача — сохранить идентичность и поведение каждого персонажа, обеспечивая при этом согласованное взаимодействие в разных контекстах. Это сложно, поскольку персонажи могли никогда не существовать вместе, а смешение стилей часто приводит к стилевой путанице, где реалистичные персонажи выглядят мультяшно, и наоборот. Мы представляем фреймворк, который решает эти проблемы с помощью Cross-Character Embedding (CCE), изучающего идентичность и поведенческую логику из мультимодальных источников, и Cross-Character Augmentation (CCA), обогащающего обучение синтетическими данными о совместном существовании и смешанных стилях. Вместе эти методы позволяют естественное взаимодействие между ранее не существовавшими вместе персонажами без потери стилистической достоверности. Эксперименты на специально созданном наборе данных из мультфильмов и сериалов с 10 персонажами показывают значительные улучшения в сохранении идентичности, качестве взаимодействия и устойчивости к стилевой путанице, открывая новые возможности для генеративного сторителлинга. Дополнительные результаты и видео доступны на странице проекта: https://tingtingliao.github.io/mimix/.
Социальное влияние обработки естественного языка (Natural Language Processing, NLP) становится все более значимым, при этом растет внимание сообщества к инициативам, связанным с NLP для социального блага (NLP4SG). Действительно, в последние годы почти 20% всех статей в ACL Anthology посвящены темам, связанным с социальным благом, как это определено Целями устойчивого развития ООН (Adauto et al., 2023). В данном исследовании мы рассматриваем ландшафт NLP4SG с точки зрения авторов и площадок, количественно оценивая долю работ, посвященных вопросам социального блага как внутри сообщества ACL, так и за его пределами, как среди основных авторов ACL, так и среди авторов, не связанных с ACL. С помощью этого подхода мы обнаруживаем два удивительных факта о ландшафте NLP4SG. Во-первых, авторы ACL значительно чаще занимаются работами, связанными с социальным благом, публикуясь на площадках за пределами ACL. Во-вторых, подавляющее большинство публикаций, использующих методы NLP для решения вопросов социального блага, выполнены авторами, не связанными с ACL, и опубликованы на площадках за пределами ACL. Мы обсуждаем последствия этих выводов для формирования повестки дня сообщества ACL в отношении NLP4SG.
Крупные языковые модели (LLM) для формального доказательства теорем демонстрируют значительный потенциал, однако они часто страдают от недостатка обобщаемости и оказываются уязвимыми даже к незначительным изменениям формулировок задач. Чтобы устранить это ограничение, мы представляем новый конвейер аугментации данных, предназначенный для повышения устойчивости модели с двух перспектив: симметрии и сложности. С точки зрения симметрии мы предлагаем два взаимодополняющих метода: EvolAST, подход на основе абстрактного синтаксического дерева (AST), который нацелен на синтаксическую симметрию для генерации семантически эквивалентных вариантов задач, и EvolDomain, который использует LLM для работы с семантической симметрией путем перевода теорем между математическими областями. С точки зрения сложности мы предлагаем EvolDifficulty, который использует тщательно разработанные эволюционные инструкции для направления LLM в генерации новых теорем с более широким диапазоном сложности. Затем мы используем улучшенные данные для обучения EvolProver, 7-миллиардного параметрического нерассуждающего доказателя теорем. EvolProver устанавливает новый рекорд (SOTA) на FormalMATH-Lite с показателем 53,8% pass@32, превосходя все модели сопоставимого размера, включая модели, основанные на рассуждениях. Он также устанавливает новые рекорды SOTA для нерассуждающих моделей на MiniF2F-Test (69,8% pass@32), Ineq-Comp-Seed (52,2% pass@32) и Ineq-Comp-Transformed (34,0% pass@32). Абляционные исследования дополнительно подтверждают эффективность нашего конвейера аугментации данных на множестве бенчмарков.
4D Gaussian Splatting стал новой парадигмой для представления динамических сцен, позволяя осуществлять рендеринг сложных движений в реальном времени. Однако он сталкивается с серьезной проблемой избыточного объема хранения, поскольку для высококачественной реконструкции требуются миллионы гауссовых распределений. Хотя несколько исследований пытались уменьшить эту нагрузку на память, они все еще сталкиваются с ограничениями в степени сжатия или качестве визуализации. В данной работе мы представляем OMG4 (Optimized Minimal 4D Gaussian Splatting) — фреймворк, который создает компактный набор значимых гауссовых распределений, способных точно представлять 4D гауссовы модели. Наш метод последовательно сокращает количество гауссовых распределений в три этапа: (1) Гауссова выборка для идентификации примитивов, критически важных для точности реконструкции, (2) Гауссова обрезка для удаления избыточных элементов и (3) Гауссова слияние для объединения примитивов с похожими характеристиками. Кроме того, мы интегрируем неявное сжатие внешнего вида и обобщаем Sub-Vector Quantization (SVQ) для 4D представлений, что дополнительно сокращает объем хранения при сохранении качества. Экстенсивные эксперименты на стандартных наборах данных демонстрируют, что OMG4 значительно превосходит современные методы, сокращая размеры моделей более чем на 60% при сохранении качества реконструкции. Эти результаты позиционируют OMG4 как значительный шаг вперед в компактном представлении 4D сцен, открывая новые возможности для широкого спектра приложений. Наш исходный код доступен по адресу https://minshirley.github.io/OMG4/.
Масштабные диффузионные модели для генерации изображений по тексту стали основой современного редактирования изображений, однако одни только текстовые запросы не обеспечивают достаточного контроля над процессом редактирования. Особенно желательными являются два свойства: разъединение (disentanglement), при котором изменение одного атрибута не приводит к непреднамеренному изменению других, и непрерывный контроль, позволяющий плавно регулировать силу редактирования. Мы представляем метод для разъединенного и непрерывного редактирования через манипуляции на уровне токенов в текстовых эмбеддингах. Редактирование осуществляется путем изменения эмбеддингов вдоль тщательно выбранных направлений, которые контролируют силу целевого атрибута. Для определения таких направлений мы используем Разреженный Автокодировщик (Sparse Autoencoder, SAE), чье разреженное латентное пространство выделяет семантически изолированные измерения. Наш метод работает непосредственно с текстовыми эмбеддингами, не изменяя процесс диффузии, что делает его независимым от модели и применимым к различным архитектурам синтеза изображений. Эксперименты показывают, что он обеспечивает интуитивное и эффективное управление с непрерывным контролем для различных атрибутов и областей.
Крупные языковые модели (LLM) недавно продемонстрировали значительный потенциал в аудиовизуальном распознавании речи (AVSR), однако их высокая вычислительная сложность и чувствительность к гранулярности токенов ограничивают их практическое применение в условиях ограниченных ресурсов. Методы сжатия токенов могут снизить затраты на вывод, но они требуют предварительного задания степени сжатия и создают фиксированный выход фиксированной длины, не предоставляя гибкости для баланса между плотностью информации и эффективностью во время вывода. Обучение представлений по принципу матрёшки (MRL) решает эту проблему, позволяя одной модели работать на нескольких уровнях гранулярности токенов, что даёт возможность динамически регулировать степень сжатия. Однако современные методы на основе MRL рассматривают каждый масштаб независимо во время обучения, что ограничивает обобщение между масштабами, устойчивость при высоком сжатии и интерпретируемость. Чтобы преодолеть эти ограничения, мы предлагаем MoME (Mixture of Matryoshka Experts), новую структуру, которая интегрирует разреженную смесь экспертов (MoE) в LLM на основе MRL для AVSR. MoME расширяет замороженную LLM с помощью топ-k маршрутизируемых и общих экспертов, позволяя динамически распределять ёмкость между масштабами и модальностями. Общий маршрутизатор способствует согласованной активации экспертов на разных уровнях гранулярности, позволяя сжатым последовательностям использовать представления, изученные при меньшем сжатии. Эксперименты на наборах данных LRS2 и LRS3 показывают, что MoME достигает наилучших результатов в задачах AVSR, ASR и VSR, при этом требуя значительно меньше параметров и сохраняя устойчивость к шуму. MoME объединяет адаптивность MRL с эффективностью MoE, предлагая масштабируемое и интерпретируемое решение для распознавания речи с учётом ресурсов.
Обучение с подкреплением (RL) стало ключевым подходом для улучшения способности к рассуждению в больших языковых моделях (LLM). Однако алгоритмы, работающие на основе текущей политики, такие как Group Relative Policy Optimization (GRPO), часто сталкиваются с трудностями на ранних этапах обучения: шумные градиенты, вызванные низкокачественными прогонами, приводят к нестабильным обновлениям и неэффективному исследованию. Мы представляем Slow-Fast Policy Optimization (SFPO) — простую, но эффективную структуру, которая устраняет эти ограничения за счёт разложения каждого шага на три этапа: короткий быстрый прогон внутренних шагов на одном и том же батче, механизм перепозиционирования для контроля за отклонением от текущей политики и финальная медленная коррекция. Этот подход "перепозиционирование перед обновлением" сохраняет целевую функцию и процесс прогона неизменными, что делает SFPO совместимым с существующими конвейерами градиентов политики. Многочисленные эксперименты показывают, что SFPO стабильно улучшает устойчивость, сокращает количество прогонов и ускоряет сходимость обучения RL для задач рассуждения. В частности, он превосходит GRPO на 2.80 балла в среднем на тестах математического рассуждения. Кроме того, SFPO достигает лучшей точности GRPO с уменьшением количества прогонов до 4.93 и сокращением времени выполнения на 4.19.
Для плавного голосового взаимодействия требуется надежное и низкозадержочное определение момента завершения речи пользователя. Традиционные методы определения конца высказывания на основе тишины добавляют сотни миллисекунд задержки и не справляются с паузами или языковыми особенностями. Мы представляем, насколько нам известно, первое систематическое исследование определения конца реплики (EOT) для тайского текста в режиме реального времени. Мы сравниваем подходы с нулевым и малым количеством примеров (zero-shot и few-shot) для компактных языковых моделей (LLM) с тонкой настройкой легковесных трансформеров. Используя транскрибированные субтитры из корпуса YODAS и лингвистические маркеры, характерные для тайского языка (например, частицы в конце предложения), мы формулируем EOT как бинарное решение на границах токенов. Мы демонстрируем явный компромисс между точностью и задержкой и предлагаем готовый к публикации план реализации. Эта работа устанавливает базовый уровень для тайского языка и показывает, что небольшие, тонко настроенные модели могут обеспечивать почти мгновенные решения EOT, подходящие для устройств с ограниченными ресурсами.
Несмотря на прогресс в области многоязычного автоматического распознавания речи (ASR), код-свитчинг (CS) — смешение языков в пределах одного высказывания, характерное для повседневной речи, — остается серьезной и малоизученной проблемой. В данной статье мы представляем HiKE: иерархический бенчмарк для корейско-английского код-свитчинга, первый глобально доступный фреймворк для оценки корейско-английского CS, цель которого — предоставить инструмент для точной оценки многоязычных моделей ASR и стимулировать исследования в этой области. Предложенный фреймворк включает не только высококачественные, естественные данные CS по различным темам, но также тщательно размеченные заимствования и иерархическую схему маркировки уровней CS (слово, фраза, предложение), что позволяет систематически оценивать способность модели справляться с каждым уровнем код-свитчинга. Благодаря оценке различных многоязычных моделей ASR и экспериментам с тонкой настройкой, в статье показано, что хотя большинство многоязычных моделей ASR изначально испытывают трудности с CS-ASR, эту способность можно развить путем тонкой настройки на данных CS. HiKE будет доступен по адресу https://github.com/ThetaOne-AI/HiKE.
Преобразование естественно-языковых вопросов в SQL-запросы (Text-to-SQL) позволяет неэкспертным пользователям взаимодействовать с реляционными базами данных и долгое время оставалось ключевой задачей для естественно-языковых интерфейсов к данным. Хотя набор данных WikiSQL сыграл важную роль в ранних исследованиях NL2SQL, его использование сократилось из-за структурных и аннотационных проблем, включая несоответствия в регистре символов, ошибки в типах данных, синтаксические ошибки и вопросы без ответов. Мы представляем LLMSQL — систематическую переработку и преобразование WikiSQL, адаптированное для эпохи больших языковых моделей (LLM). Мы классифицируем эти ошибки и реализуем автоматизированные методы очистки и повторной аннотации. Чтобы оценить влияние этих улучшений, мы протестировали несколько крупных языковых моделей, включая Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 и другие. В отличие от обновления, LLMSQL представлен как готовый к использованию с LLM бенчмарк: в отличие от оригинального WikiSQL, ориентированного на модели с указателями, выбирающие токены из входных данных, LLMSQL предоставляет чистые естественно-языковые вопросы и полные SQL-запросы в виде простого текста, что упрощает генерацию и оценку для современных моделей преобразования естественного языка в SQL.
Диффузионные модели больших языковых моделей (dLLMs) обучаются гибко для моделирования экстремальных зависимостей в распределении данных; однако вопрос о том, как наилучшим образом использовать эту информацию на этапе вывода, остается открытым. В данной работе мы обнаруживаем интересное свойство этих моделей: dLLMs, обученные на текстовых данных, неявно изучают смесь полуавторегрессивных экспертов, где различные порядки генерации раскрывают различные специализированные поведения. Мы показываем, что использование любого фиксированного расписания на этапе вывода, что является распространенной практикой, снижает производительность, так как не позволяет использовать этот скрытый ансамбль. Для решения этой проблемы мы представляем HEX (Hidden semiautoregressive EXperts for test-time scaling), метод вывода без дополнительного обучения, который ансамблирует разнородные расписания блоков. Путем голосования большинства по различным путям генерации с разными размерами блоков, HEX надежно избегает проблем, связанных с любым фиксированным расписанием. На тестах на логическое мышление, таких как GSM8K, он повышает точность до 3.56 раз (с 24.72% до 88.10%), превосходя методы вывода с использованием top-K margin и специализированные методы тонкой настройки, такие как GRPO, без дополнительного обучения. HEX также демонстрирует значительные улучшения на тесте MATH с 16.40% до 40.00%, на научном тесте ARC-C с 54.18% до 87.80% и на TruthfulQA с 28.36% до 57.46%. Наши результаты устанавливают новую парадигму для масштабирования на этапе вывода в диффузионных LLM (dLLMs), показывая, что последовательность, в которой выполняется маскирование, играет критическую роль в определении производительности во время вывода.
По мере того как агенты на основе больших языковых моделей (LLM) всё чаще приобретают способности к самоэволюции, адаптируясь и совершенствуя свои стратегии через взаимодействие с реальным миром, их долгосрочная надёжность становится критической проблемой. Мы выделяем процесс "Перелома в Согласованности" (Alignment Tipping Process, ATP) — уникальный риск, возникающий после развёртывания самоэволюционирующих агентов LLM. В отличие от сбоев на этапе обучения, ATP возникает, когда постоянное взаимодействие приводит агентов к отказу от ограничений согласованности, установленных во время обучения, в пользу усиленных, эгоистичных стратегий. Мы формализуем и анализируем ATP через две взаимодополняющие парадигмы: "Эгоистичное Исследование", где повторяющиеся отклонения с высокой наградой вызывают индивидуальный дрейф поведения, и "Диффузия Имитационных Стратегий", где отклоняющиеся поведения распространяются в многозадачных системах. На основе этих парадигм мы создаём контролируемые тестовые среды и проводим бенчмаркинг моделей Qwen3-8B и Llama-3.1-8B-Instruct. Наши эксперименты показывают, что преимущества согласованности быстро разрушаются в условиях самоэволюции, причём изначально согласованные модели сходятся к несогласованным состояниям. В многозадачных средах успешные нарушения быстро распространяются, приводя к коллективной рассогласованности. Более того, современные методы согласования на основе обучения с подкреплением обеспечивают лишь хрупкую защиту от перелома в согласованности. В совокупности эти результаты демонстрируют, что согласованность агентов LLM не является статичным свойством, а представляет собой хрупкое и динамичное состояние, уязвимое к разрушению под воздействием обратной связи в процессе эксплуатации. Наши данные и код доступны по адресу https://github.com/aiming-lab/ATP.
Архитектуры Mixture-of-Experts (MoE) стали ключевым элементом масштабирования современных больших языковых моделей (LLM), однако мало что известно о том, как их разреженная динамика маршрутизации реагирует на многоязычные данные. В данной работе мы анализируем паттерны маршрутизации экспертов с использованием параллельных многоязычных наборов данных и представляем высоко интерпретируемые явления на уровне слоев. Мы обнаруживаем, что модели MoE маршрутизируют токены специфическим для языка образом в ранних и поздних слоях декодера, но демонстрируют значительное кросс-лингвальное выравнивание маршрутизации в средних слоях, что отражает тенденции совместного использования параметров, наблюдаемые в плотных LLM. В частности, мы выявляем четкую и сильную корреляцию между производительностью модели на данном языке и тем, насколько похоже маршрутизируются его токены на английский в этих слоях. Выходя за рамки корреляции, мы исследуем вмешательства на этапе вывода, которые способствуют более высокому кросс-лингвальному выравниванию маршрутизации. Мы представляем метод, который направляет маршрутизатор, продвигая экспертов средних слоев, часто активируемых на английском языке, и он успешно повышает многоязычную производительность. Эти улучшения на 1-2% остаются удивительно стабильными для двух задач оценки, трех моделей и более 15 языков, особенно учитывая, что эти простые вмешательства переопределяют маршрутизаторы тщательно обученных современных LLM. В сравнении, вмешательства за пределами средних слоев или направленные на специализированных многоязычных экспертов приводят только к снижению производительности. В целом, мы представляем множество выводов, объясняющих, как MoE обрабатывают неанглийский текст, и демонстрируем, что обобщение ограничено способностью модели использовать универсальных для всех языков экспертов.
Люди хорошо справляются с обучением в процессе работы: мы учимся решать задачи по мере их появления. Может ли модель делать то же самое? Мы предлагаем агента, который формирует специфическую для задачи учебную программу, называемую учебной программой на этапе тестирования (TTC-RL), и применяет обучение с подкреплением для продолжения тренировки модели на целевую задачу. Учебная программа на этапе тестирования позволяет избежать трудоемкого ручного отбора данных, автоматически выбирая наиболее релевантные для задачи данные из большого пула доступных обучающих данных. Наши эксперименты демонстрируют, что обучение с подкреплением на основе учебной программы на этапе тестирования последовательно улучшает модель на целевых задачах, что подтверждается различными оценками и моделями. В частности, на сложных математических и кодировочных тестах TTC-RL улучшает показатель pass@1 модели Qwen3-8B примерно в 1,8 раза на AIME25 и в 2,1 раза на CodeElo. Более того, мы обнаружили, что TTC-RL значительно повышает предельную производительность по сравнению с исходной моделью, увеличивая pass@8 на AIME25 с 40% до 62% и на CodeElo с 28% до 43%. Наши результаты показывают потенциал учебных программ на этапе тестирования в расширении парадигмы масштабирования на этапе тестирования до непрерывного обучения на тысячах релевантных для задачи опытов в процессе тестирования.
По мере того как системы стремятся к сверхинтеллекту, естественной предпосылкой для моделирования является то, что агенты могут самосовершенствоваться во всех аспектах своей собственной конструкции. Мы формализуем это с помощью пятиосевой декомпозиции и слоя принятия решений, разделяя стимулы от поведения обучения и анализируя оси изолированно. Наш ключевой результат выявляет и вводит острое противоречие между полезностью и обучением — структурный конфликт в самомодифицирующихся системах, при котором изменения, направленные на повышение полезности и улучшение текущей или ожидаемой производительности, могут также разрушать статистические предпосылки для надежного обучения и обобщения. Наши результаты показывают, что гарантии, не зависящие от распределения, сохраняются тогда и только тогда, когда семейство моделей, достижимых политикой, равномерно ограничено по емкости; когда емкость может расти без ограничений, рациональные с точки зрения полезности самопреобразования могут сделать обучаемые задачи необучаемыми. При стандартных предположениях, распространенных на практике, эти оси сводятся к одному критерию емкости, что дает единую границу для безопасной самомодификации. Численные эксперименты по нескольким осям подтверждают теорию, сравнивая разрушительные политики полезности с предложенными нами двухэтапными политиками, которые сохраняют обучаемость.
Крупные языковые модели (LLM) склонны генерировать лексически, семантически и стилистически однородные тексты. Это создает риск коллапса знаний, при котором однородные LLM опосредуют сокращение диапазона доступной информации с течением времени. Существующие работы по проблеме гомогенизации ограничены фокусом на закрытых множественных выборах или нечетких семантических признаках и не рассматривают тенденции во времени и культурных контекстах. Чтобы преодолеть это, мы предлагаем новую методологию для измерения эпистемического разнообразия, то есть вариативности утверждений о реальном мире в выводах LLM, которую мы используем для проведения широкого эмпирического исследования коллапса знаний в LLM. Мы тестируем 27 LLM, 155 тем, охватывающих 12 стран, и 200 вариаций запросов, взятых из реальных пользовательских чатов. Для тем нашего исследования мы показываем, что, хотя более новые модели склонны генерировать более разнообразные утверждения, почти все модели обладают меньшим эпистемическим разнообразием, чем базовый веб-поиск. Мы обнаруживаем, что размер модели негативно влияет на эпистемическое разнообразие, в то время как генерация, дополненная поиском (RAG), оказывает положительное влияние, хотя улучшение от RAG варьируется в зависимости от культурного контекста. Наконец, по сравнению с традиционным источником знаний (Википедией), мы обнаруживаем, что утверждения, специфичные для страны, больше отражают английский язык, чем местный, что подчеркивает пробел в эпистемическом представлении.
Мы представляем Paris — первую публично выпущенную диффузионную модель, предварительно обученную исключительно с использованием децентрализованных вычислений. Paris демонстрирует, что высококачественное преобразование текста в изображение может быть достигнуто без централизованной инфраструктуры. Paris доступна для исследований и коммерческого использования. Для создания Paris потребовалась реализация с нуля нашей системы Distributed Diffusion Training. Модель состоит из 8 экспертных диффузионных моделей (каждая с 129 млн — 605 млн параметров), обученных в полной изоляции без синхронизации градиентов, параметров или промежуточных активаций. Вместо необходимости синхронизированных обновлений градиентов на тысячах GPU мы разделяем данные на семантически согласованные кластеры, где каждый эксперт независимо оптимизирует свой подмножество данных, коллективно приближаясь к полному распределению. Легковесный трансформер-маршрутизатор динамически выбирает подходящих экспертов на этапе вывода, достигая качества генерации, сопоставимого с централизованными базовыми моделями. Устранение необходимости синхронизации позволяет проводить обучение на гетерогенном оборудовании без специализированных межсоединений. Эмпирическая проверка подтверждает, что децентрализованное обучение Paris сохраняет качество генерации, устраняя при этом необходимость в выделенных кластерах GPU для крупномасштабных диффузионных моделей. Paris достигает этого, используя в 14 раз меньше обучающих данных и в 16 раз меньше вычислительных ресурсов по сравнению с предыдущей децентрализованной базовой моделью.
Дискуссия о рисках приватности в крупных языковых моделях (LLM) непропорционально сосредоточена на дословном запоминании обучающих данных, в то время как множество более актуальных и масштабируемых угроз приватности остаются недостаточно изученными. В данной позиционной статье утверждается, что ландшафт приватности систем LLM выходит далеко за рамки извлечения обучающих данных, охватывая риски, связанные с практиками сбора данных, утечкой контекста на этапе вывода, возможностями автономных агентов и демократизацией наблюдения через атаки глубокого вывода. Мы представляем всеобъемлющую таксономию рисков приватности на протяжении всего жизненного цикла LLM — от сбора данных до развертывания — и на примерах кейсов демонстрируем, как текущие рамки приватности не справляются с этими многогранными угрозами. С помощью лонгитюдного анализа 1322 научных работ по приватности в области ИИ/МЛ, опубликованных на ведущих конференциях за последнее десятилетие (2016–2025), мы показываем, что, хотя запоминание данных получает непропорционально большое внимание в технических исследованиях, наиболее серьезные угрозы приватности лежат в других областях, где текущие технические подходы малоэффективны, а перспективные пути решения остаются неясными. Мы призываем к фундаментальному сдвигу в подходе исследовательского сообщества к вопросам приватности LLM, выходя за рамки узкой направленности текущих технических решений и принимая междисциплинарные подходы, которые учитывают социотехническую природу этих возникающих угроз.
Многоагентные системы на основе LLM преуспевают в планировании, использовании инструментов и координации ролей, но их открытость и сложность взаимодействия также делают их уязвимыми к взлому, инъекциям промптов и враждебному сотрудничеству. Существующие методы защиты делятся на два направления: (i) самопроверка, при которой каждый агент предварительно фильтрует небезопасные инструкции перед выполнением, и (ii) внешние защитные модули, которые контролируют поведение. Первый подход часто оказывается недостаточно эффективным, поскольку отдельный агент не обладает достаточными возможностями для выявления небезопасных цепочек взаимодействий между агентами и рисков, связанных с делегированием; второй подход увеличивает нагрузку на систему и создает единую точку отказа — при компрометации защитного модуля безопасность всей системы нарушается, а добавление большего числа защитников усугубляет затраты и сложность. Для решения этих проблем мы предлагаем AdvEvo-MARL, коэволюционную многоагентную систему обучения с подкреплением, которая интегрирует безопасность в задачи агентов. Вместо использования внешних защитников AdvEvo-MARL совместно оптимизирует атакующих (которые генерируют развивающиеся промпты для взлома) и защитников (агентов, обученных как выполнять свои задачи, так и противостоять атакам) в условиях враждебного обучения. Для стабилизации обучения и укрепления сотрудничества мы вводим публичный базис для оценки преимуществ: агенты в рамках одной функциональной группы используют общий базис среднего возврата на уровне группы, что позволяет снизить дисперсию обновлений и усилить координацию внутри группы. В различных сценариях атак AdvEvo-MARL стабильно удерживает уровень успешности атак (ASR) ниже 20%, тогда как базовые методы достигают 38,33%, при этом сохраняя — а иногда и улучшая — точность выполнения задач (до +3,67% в задачах на логическое мышление). Эти результаты показывают, что безопасность и полезность могут быть улучшены совместно без использования дополнительных защитных агентов или увеличения нагрузки на систему.
По мере того как мультимодальные агенты, управляемые крупными языковыми моделями (LLM), продолжают развиваться в плане автономности и обобщения, оценка на основе статических наборов данных больше не может адекватно отражать их реальные возможности в динамичных средах и разнообразных задачах. Существующие методы синтетических данных на основе LLM в основном разработаны для обучения и оценки LLM и, следовательно, не могут быть напрямую применены к задачам агентов, требующим использования инструментов и интерактивных возможностей. Хотя в последних исследованиях изучалась автоматическая генерация задач для агентов с использованием LLM, большинство усилий ограничиваются анализом текста или изображений, без систематического моделирования многошаговых взаимодействий в веб-средах. Для решения этих проблем мы предлагаем Graph2Eval — основанную на графах знаний структуру, которая автоматически генерирует как мультимодальные задачи на понимание документов, так и задачи на взаимодействие с веб-средой, что позволяет проводить всестороннюю оценку способностей агентов к рассуждению, сотрудничеству и взаимодействию. В нашем подходе графы знаний, построенные из многоисточниковых внешних данных, служат пространством задач, где мы преобразуем семантические отношения в структурированные мультимодальные задачи с использованием выборки подграфов, шаблонов задач и метапутей. Многоэтапный процесс фильтрации, основанный на достижимости узлов, оценке LLM и анализе сходства, применяется для обеспечения качества и выполнимости генерируемых задач. Кроме того, Graph2Eval поддерживает сквозную оценку различных типов агентов (одиночный агент, мультиагент, веб-агент) и измеряет способности к рассуждению, сотрудничеству и взаимодействию. Мы реализуем эту структуру с помощью Graph2Eval-Bench — тщательно отобранного набора данных, включающего 1319 задач, охватывающих сценарии понимания документов и взаимодействия с веб-средой. Эксперименты показывают, что Graph2Eval эффективно генерирует задачи, которые дифференцируют производительность агентов и моделей, выявляя пробелы в рассуждении, сотрудничестве и веб-взаимодействии в различных условиях, и предлагают новый взгляд на оценку агентов.
Степеневые преобразования являются популярными параметрическими методами для придания данным более гауссово-подобного вида и широко используются как этапы предварительной обработки в статистическом анализе и машинном обучении. Однако мы обнаруживаем, что прямые реализации степенных преобразований страдают от серьезных численных нестабильностей, которые могут приводить к некорректным результатам или даже сбоям. В данной статье мы предоставляем всесторонний анализ источников этих нестабильностей и предлагаем эффективные способы их устранения. Мы также расширяем степенные преобразования для применения в условиях федеративного обучения, решая как численные, так и распределительные проблемы, возникающие в этом контексте. Эксперименты на реальных наборах данных демонстрируют, что наши методы являются как эффективными, так и устойчивыми, значительно улучшая стабильность по сравнению с существующими подходами.
Кривые Receiver Operating Characteristic (ROC) и Precision-Recall (PR) являются фундаментальными инструментами для оценки классификаторов машинного обучения, предоставляя детальное понимание компромиссов между долей истинно положительных результатов и долей ложноположительных результатов (ROC) или между точностью и полнотой (PR). Однако в сценариях федеративного обучения (Federated Learning, FL), где данные распределены между несколькими клиентами, вычисление этих кривых становится сложной задачей из-за ограничений, связанных с конфиденциальностью и коммуникацией. В частности, сервер не имеет доступа к исходным оценкам предсказаний и меткам классов, которые используются для вычисления кривых ROC и PR в централизованной среде. В данной статье мы предлагаем новый метод аппроксимации кривых ROC и PR в условиях федеративного обучения путем оценки квантилей распределения оценок предсказаний с использованием распределенного дифференциального обеспечения конфиденциальности. Мы предоставляем теоретические оценки ошибки площади (Area Error, AE) между истинными и аппроксимированными кривыми, демонстрируя компромиссы между точностью аппроксимации, конфиденциальностью и затратами на коммуникацию. Экспериментальные результаты на реальных наборах данных показывают, что наш метод обеспечивает высокую точность аппроксимации при минимальных затратах на коммуникацию и строгих гарантиях конфиденциальности, что делает его практичным для оценки моделей с сохранением конфиденциальности в федеративных системах.
Мы представляем Code World Model (CWM) — открытую языковую модель с 32 миллиардами параметров, предназначенную для продвижения исследований в области генерации кода с использованием мировых моделей. Чтобы улучшить понимание кода за пределы того, что можно извлечь из обучения на статическом коде, мы проводим промежуточное обучение CWM на большом количестве траекторий "наблюдение-действие" из интерпретатора Python и агентных сред Docker, а также выполняем обширное многозадачное обучение с подкреплением (RL) в верифицируемых средах программирования, математики и многошаговой разработки программного обеспечения. CWM предоставляет мощную платформу для исследователей, чтобы изучить возможности, которые мировые модели предлагают для улучшения генерации кода с использованием рассуждений и планирования в вычислительных средах. Мы демонстрируем первые шаги того, как мировые модели могут улучшить агентное программирование, позволяя пошагово симулировать выполнение Python-кода, и показываем ранние результаты того, как рассуждения могут выиграть от этого. CWM — это плотная, декодер-только языковая модель, обученная с размером контекста до 131 тыс. токенов. Независимо от своих возможностей моделирования мира, CWM демонстрирует высокую производительность на общих задачах программирования и математики: она достигает показателей pass@1 в 65,8% на SWE-bench Verified (с масштабированием во время тестирования), 68,6% на LiveCodeBench, 96,6% на Math-500 и 76,0% на AIME 2024. Для поддержки дальнейших исследований в области моделирования миров кода мы публикуем контрольные точки модели после промежуточного обучения, SFT и RL.