Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) обычно основано на групповой выборке для оценки преимуществ и стабилизации обновлений политики. На практике большие размеры групп неосуществимы из-за вычислительных ограничений, что смещает обучение в сторону траекторий, уже имеющих высокую вероятность. Меньшие группы часто пропускают редкие корректные траектории, при этом содержа смешанные вознаграждения, что концентрирует вероятность на распространенных решениях. Мы выводим вероятность того, что обновления пропускают редкие корректные режимы, как функцию от размера группы, демонстрируя немонотонное поведение, и характеризуем, как обновления перераспределяют массу внутри корректного множества, показывая, что невыборочная корректная масса может уменьшаться даже при росте общей корректной массы. Мотивированные этим анализом, мы предлагаем коэффициент масштабирования преимущества, учитывающий сложность, по аналогии с Focal loss, который понижает вес обновлений для промптов с высоким успехом. Это легковесное изменение может быть напрямую интегрировано в любой групповой RLVR-алгоритм, такой как GRPO, DAPO и CISPO. На модели Qwen2.5-7B, на внутридоменных и внедоменных бенчмарках, наш метод улучшает pass@256 с 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) и 73.2 → 76.8 (CISPO), сохраняя или улучшая pass@1, без увеличения размера группы или вычислительных затрат.
Разреженные автоэнкодеры (SAE) являются мощным инструментом для интерпретации нейронных представлений, однако их применение в аудиообласти остается недостаточно изученным. Мы обучаем SAE для всех энкодерных слоев моделей Whisper и HuBERT, проводим всестороннюю оценку их стабильности и интерпретируемости и демонстрируем их практическую полезность. Более 50% признаков остаются consistent при различных начальных значениях генератора случайных чисел, а качество реконструкции сохраняется. Признаки SAE фиксируют как общую акустическую и семантическую информацию, так и конкретные события, включая фоновые шумы и паралингвистические звуки (например, смех, шепот), и эффективно их разделяют: для удаления концепта требуется исключение лишь 19-27% признаков. Управление признаками позволяет снизить количество ложных детекций речи в Whisper на 70% с незначительным ростом WER, что демонстрирует применимость метода в реальных условиях. Наконец, мы обнаружили корреляцию признаков SAE с активностью ЭЭГ человека во время восприятия речи, что указывает на их соответствие нейронной обработке в человеческом мозге. Код и контрольные точки доступны по адресу https://github.com/audiosae/audiosae_demo.
Мы представляем Baichuan-M3 — крупную языковую модель с медицинским уклоном, созданную для перехода от пассивного ответа на вопросы к активной поддержке решений клинического уровня. Преодолевая ограничения существующих систем в открытых консультациях, Baichuan-M3 использует специализированный конвейер обучения для моделирования системного рабочего процесса врача. Ключевые возможности включают: (i) активный сбор информации для устранения неоднозначности; (ii) долгосрочное рассуждение, объединяющее разрозненные данные в согласованные диагнозы; и (iii) адаптивное подавление галлюцинаций для обеспечения фактической достоверности. Эмпирические оценки демонстрируют, что Baichuan-M3 достигает передовых результатов на HealthBench, вновь представленных HealthBench-Hallu и ScanBench, значительно превосходя GPT-5.2 в клинических запросах, консультациях и безопасности. Модели общедоступны по адресу https://huggingface.co/collections/baichuan-inc/baichuan-m3.
Быстрое развитие больших языковых моделей (LLM) стимулировало создание автономных агентов, способных ориентироваться в сложных средах. Однако существующие методы оценки в основном следуют дедуктивной парадигме, при которой агенты выполняют задачи на основе явно заданных правил и статических целей, часто в рамках ограниченных горизонтов планирования. Что особенно важно, это игнорирует индуктивную необходимость для агентов самостоятельно выявлять скрытые законы переходов из опыта, что является краеугольным камнем для обеспечения предвидения агентом и поддержания стратегической согласованности. Чтобы заполнить этот пробел, мы представляем OdysseyArena — среду, которая переориентирует оценку агентов на долгосрочные, активные и индуктивные взаимодействия. Мы формализуем и реализуем четыре примитива, преобразуя абстрактную динамику переходов в конкретные интерактивные среды. На основе этого мы создаем OdysseyArena-Lite для стандартизированного бенчмаркинга, предоставляя набор из 120 задач для измерения индуктивной эффективности агента и его способности к долгосрочным открытиям. Идя дальше, мы представляем OdysseyArena-Challenge для стресс-тестирования стабильности агентов в условиях экстремально длинных горизонтов взаимодействия (например, > 200 шагов). Масштабные эксперименты с более чем 15 ведущими LLM показывают, что даже передовые модели демонстрируют недостаточную эффективность в индуктивных сценариях, что указывает на критическое узкое место в стремлении к автономному открытию в сложных средах. Наш код и данные доступны по адресу https://github.com/xufangzhi/Odyssey-Arena.
Энтропия служит ключевым метрическим показателем для измерения разнообразия выходных данных, генерируемых крупными языковыми моделями (LLM), предоставляя важные сведения об их исследовательских способностях. Хотя в последних исследованиях всё больше внимания уделяется мониторингу и регулированию энтропии для лучшего баланса между исследованием и использованием в процессе reinforcement fine-tuning (RFT), принципиальное понимание динамики энтропии в ходе этого процесса ещё не было всесторонне изучено. В данной статье мы создаём теоретическую основу для анализа динамики энтропии в процессе RFT, которая начинается с дискриминантного выражения, количественно оценивающего изменение энтропии при единичном обновлении логитов. Этот фундамент позволяет вывести выражение первого порядка для изменения энтропии, которое может быть далее расширено до формулы обновления Group Relative Policy Optimization (GRPO). Следствия и инсайты, полученные из теоретического анализа, вдохновляют на разработку методов контроля энтропии, а также предлагают унифицированную оптику для интерпретации различных энтропийных методов в существующих исследованиях. Мы предоставляем эмпирические доказательства в поддержку основных выводов нашего анализа и демонстрируем эффективность выведенных методов отсечения по энтропийному дискриминанту. Данное исследование даёт новые представления о динамике обучения RFT, обеспечивая теоретическую поддержку и практические стратегии для оптимизации баланса "исследование-использование" в процессе тонкой настройки LLM.
Возможность моделировать результаты действий в различных средах произведет революцию в разработке универсальных агентов в больших масштабах. Однако моделирование этих мировых динамик, особенно для задач, требующих ловких манипуляций в робототехнике, сопряжено со значительными трудностями из-за ограниченного охвата данных и дефицита меток действий. В качестве вклада в решение этой проблемы мы представляем DreamDojo — базовую мировую модель, которая обучается разнообразным взаимодействиям и точному управлению на основе 44 тысяч часов эгоцентричных видео с участием человека. Наш объединенный набор данных представляет собой крупнейший на сегодняшний день видеодатасет для предварительного обучения мировых моделей, охватывающий широкий спектр повседневных сценариев с разнообразными объектами и навыками. Для решения проблемы нехватки меток действий мы вводим непрерывные латентные действия в качестве унифицированных прокси-действий, улучшая передачу знаний о взаимодействии из немаркированных видео. После дообучения на небольшом целевом наборе данных по робототехнике DreamDojo демонстрирует глубокое понимание физики и точную управляемость действиями. Мы также разработали конвейер дистилляции, который ускоряет работу DreamDojo до скорости в реальном времени — 10.81 кадра в секунду — и дополнительно улучшает контекстную согласованность. Наша работа открывает несколько важных приложений на основе генеративных мировых моделей, включая телеуправление в реальном времени, оценку политик и планирование на основе моделей. Систематическая оценка на нескольких сложных бенчмарках с данными вне распределения подтверждает значимость нашего метода для моделирования задач, богатых контактами, в открытом мире, прокладывая путь к созданию универсальных мировых моделей для роботов.
В работе представлена система преобразования речи в текст "Pisets" для учёных и журналистов, основанная на трёхкомпонентной архитектуре, направленной на повышение точности распознавания речи при минимизации ошибок и галлюцинаций, связанных с моделью Whisper. Архитектура включает первичное распознавание с помощью Wav2Vec2, фильтрацию ложноположительных срабатываний посредством Audio Spectrogram Transformer (AST) и финальное распознавание речи через Whisper. Реализация методов обучения по учебному плану (curriculum learning) и использование разнообразных корпусов русскоязычной речи существенно повысили эффективность системы. Кроме того, были внедрены передовые методы моделирования неопределённости, способствовавшие дальнейшему улучшению качества транскрипции. Предложенные подходы обеспечивают устойчивую расшифровку длинных аудиоданных в различных акустических условиях по сравнению с WhisperX и стандартной моделью Whisper. Исходный код системы "Pisets" находится в открытом доступе на GitHub: https://github.com/bond005/pisets.
Нестабильность обучения остается критической проблемой при предварительном обучении больших языковых моделей (LLM), часто проявляясь в виде внезапных взрывов градиента, которые приводят к значительным потерям вычислительных ресурсов. Мы исследуем сбои обучения в модели NanoGPT с 5 миллионами параметров, масштабированной с помощью μP, и выявляем два ключевых явления, предшествующих коллапсу: (1) быстрое снижение стабильного ранга весовой матрицы (отношения квадрата нормы Фробениуса к квадрату спектральной нормы) и (2) усиление согласованности между якобианами соседних слоев. Мы теоретически доказываем, что эти два условия совместно вызывают экспоненциальный рост нормы градиента с увеличением глубины сети. Чтобы устранить этот механизм нестабильности, мы предлагаем MSign — новый оптимизатор, который периодически применяет матричную знаковую операцию для восстановления стабильного ранга. Эксперименты на моделях от 5M до 3B параметров демонстрируют, что MSign эффективно предотвращает сбои обучения при вычислительных накладных расходах менее 7,0%.
Внутреннее моделирование мира — предсказание переходов между предыдущими состояниями X и последующими состояниями Y при действиях Z — является ключевым для логического вывода и планирования в больших языковых моделях (LLM) и визуально-языковых моделях (VLM). Обучение таким моделям обычно требует дорогостоящих траекторий с размеченными действиями. Мы предлагаем SWIRL — фреймворк самообучения, который обучается на последовательностях, содержащих только состояния, рассматривая действия как латентную переменную и чередуя прямое моделирование мира (FWM) P_θ(Y|X,Z) и моделирование обратной динамики (IDM) Q_φ(Z|X,Y). SWIRL итерирует две фазы: (1) Вариационная максимизация информации, которая обновляет FWM для генерации последующих состояний, максимизирующих условную взаимную информацию с латентными действиями при заданных предыдущих состояниях, что поощряет идентифицируемую согласованность; и (2) Максимизация ELBO, которая обновляет IDM для объяснения наблюдаемых переходов, эффективно выполняя покоординатный подъем. Обе модели обучаются с подкреплением (в частности, с помощью GRPO), где логарифмическая вероятность противоположной замороженной модели используется как сигнал вознаграждения. Мы предоставляем теоретические гарантии обучаемости для обоих обновлений и оцениваем SWIRL на LLM и VLM в различных средах: одношаговые и многошаговые динамики в открытом визуальном мире, а также синтетические текстовые среды для физики, веба и вызова инструментов. SWIRL демонстрирует улучшения на 16% на AURORABench, 28% на ByteMorph, 16% на WorldPredictionBench и 14% на StableToolBench.
Последние достижения в области моделей логического вывода позволяют предположить, что генерация правдоподобных попыток решения задач исследовательского уровня в математике может стать реальностью, однако верификация остается узким местом, потребляя дефицитное время экспертов. Мы выдвигаем гипотезу, что содержательное решение должно содержать достаточный объем информации на уровне метода, чтобы при применении к кругу смежных задач обеспечивать лучшую последующую производительность по сравнению с некорректными решениями. Основываясь на этой идее, мы предлагаем оценку полезности на основе следствий — свободный от оракула метод оценки, который присваивает баллы каждому кандидату, проверяя его ценность в качестве контекстуального примера для решения связанных, но верифицируемых задач. Наш подход оценивается на оригинальном наборе математических проблем исследовательского уровня, каждую из которых сопровождает одно решение, написанное экспертом, и девять решений, сгенерированных большой языковой моделью. Примечательно, что оценка полезности на основе следствий последовательно превосходит модели вознаграждения, генеративные модели вознаграждения и оценки больших языковых моделей по качеству ранжирования. В частности, для GPT-OSS-120B она улучшает Acc@1 с 67.2 до 76.3 и AUC с 71.4 до 79.6, демонстрируя аналогично значительный прирост AUC для GPT-OSS-20B (с 69.0 до 79.2). Более того, по сравнению с оценками больших языковых моделей, она также показывает больший разрыв между решателем и оценщиком, сохраняя более четкое разделение правильных и ошибочных решений даже на тех примерах, где базовый решатель часто не справляется с задачей.
Крупные языковые модели, выполняющие сложные рассуждения, часто демонстрируют низкую эффективность в мультиязычных сценариях: они склонны рассуждать на английском языке даже при ответе на неанглоязычные вопросы; если же ограничить процесс рассуждений языком вопроса, точность значительно снижается. Эта проблема вызвана ограниченными способностями как к мультиязычному пониманию вопросов, так и к мультиязычным рассуждениям. Для решения обеих проблем мы предлагаем TRIT (Translation-Reasoning Integrated Training) — самообучающуюся систему, которая интегрирует тренировку перевода в процесс мультиязычных рассуждений. Без внешней обратной связи или дополнительных мультиязычных данных наш метод совместно улучшает понимание мультиязычных вопросов и генерацию ответов. На наборе данных MМATH наш метод превосходит несколько базовых моделей в среднем на 7 процентных пунктов, улучшая как правильность ответов, так и языковую согласованность. Дальнейший анализ показывает, что интеграция тренировки перевода улучшает кросс-лингвальное выравнивание вопросов более чем на 10 процентных пунктов и повышает качество перевода как математических вопросов, так и текстов общей тематики, с приростом до 8.4 баллов COMET на FLORES-200.
Быстрое развитие визуально-языковых моделей стимулировало появление GUI-агентов, обладающих огромным потенциалом для автоматизации сложных задач — от онлайн-покупок до бронирования авиабилетов, — что позволяет снизить нагрузку от рутинных цифровых процессов. Фундаментальной способностью таких систем является GUI-граундинг (привязка к элементам интерфейса), который обычно формируется как предварительное условие для сквозного выполнения задач. Он позволяет моделям точно локализовать элементы интерфейса, такие как текст и иконки, для выполнения точных операций, например, кликов и ввода текста. В отличие от предыдущих работ, в которых дообучаются модели, уже обладающие развитым пространственным восприятием (например, Qwen3-VL), наша цель — освоить полный технологический цикл, начав с базовой модели с минимальными способностями к граундингу, такой как POINTS-1.5. Мы представляем модель POINTS-GUI-G-8B, которая демонстрирует наилучшие результаты с показателями 59.9 на ScreenSpot-Pro, 66.0 на OSWorld-G, 95.7 на ScreenSpot-v2 и 49.9 на UI-Vision. Успех нашей модели обусловлен тремя ключевыми факторами: (1) Усовершенствованная инженерия данных, включающая унификацию форматов разнородных открытых наборов данных, а также сложные стратегии аугментации, фильтрации и градации по сложности; (2) Улучшенные стратегии обучения, в том числе непрерывное дообучение визуального энкодера для повышения точности восприятия и поддержание согласованности разрешения между обучением и выводом; и (3) Обучение с подкреплением (Reinforcement Learning, RL) с верифицируемыми вознаграждениями. Хотя RL традиционно используется для улучшения рассуждений, мы показываем, что оно значительно повышает точность в задаче GUI-граундинга, требующей интенсивного восприятия. Более того, GUI-граундинг предоставляет естественное преимущество для RL, поскольку вознаграждения легко проверяемы и обладают высокой точностью.
Масштабирование больших языковых моделей (LLM) стимулирует интерес к матричным оптимизаторам (таким как Shampoo, Muon, SOAP) благодаря их эффективной сходимости; однако их требование к целостному обновлению параметров вступает в противоречие с тензорной фрагментацией в распределенных фреймворках, подобных Megatron. Существующие решения неоптимальны: синхронные подходы страдают от вычислительной избыточности, а послойное разделение не позволяет разрешить это противоречие без нарушения геометрических ограничений эффективных коммуникационных примитивов. Для преодоления этого разрыва мы предлагаем Canzona — унифицированный, асинхронный и сбалансированный по нагрузке фреймворк, который разделяет логическое назначение оптимизатора и физическое распределение параметров. Для параллелизма данных мы представляем стратегию альфа-сбалансированного статического разделения, которая соблюдает атомарность, одновременно нивелируя дисбаланс нагрузки. Для тензорного параллелизма мы разрабатываем асинхронный вычислительный конвейер, использующий микрогрупповое планирование для пакетной обработки фрагментированных обновлений и скрытия накладных расходов на реконструкцию. Обширные оценки на семействе моделей Qwen3 (до 32 миллиардов параметров) на 256 графических процессорах демонстрируют, что наш подход сохраняет эффективность established параллельных архитектур, обеспечивая ускорение сквозного времени итерации в 1.57 раза и снижение задержки шага оптимизатора в 5.8 раз по сравнению с базовым уровнем.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало незаменимой парадигмой для улучшения способностей к рассуждению у больших языковых моделей (LLM). Однако стандартные методы оптимизации политик, такие как групповая относительная оптимизация политик (GRPO), часто сходятся к низкоэнтропийным политикам, что приводит к серьёзному коллапсу мод и ограниченному разнообразию выходных данных. Мы анализируем эту проблему с точки зрения динамики вероятностей выборки, выявляя, что стандартная цель обучения непропорционально усиливает пути с наивысшим правдоподобием, тем самым подавляя допустимые альтернативные цепочки рассуждений. Для решения этой проблемы мы предлагаем новый механизм перевзвешивания преимуществ (ARM), предназначенный для выравнивания уровней уверенности среди всех правильных ответов. Включая перплексию промпта и уверенность ответа в оценку преимущества, наш метод динамически преобразует сигнал вознаграждения, чтобы ослабить градиентные обновления для чрезмерно уверенных путей рассуждений, одновременно перераспределяя вероятностную массу в сторону недостаточно исследованных правильных решений. Эмпирические результаты демонстрируют, что наш подход значительно повышает генеративное разнообразие и энтропию ответов, сохраняя при этом конкурентоспособную точность, эффективно достигая превосходного баланса между исследованием и использованием в задачах рассуждений. Эксперименты на моделях Qwen2.5 и DeepSeek в рамках математических и кодировочных бенчмарков показывают, что ProGRPO существенно смягчает энтропийный коллапс. В частности, для Qwen2.5-7B наш метод превосходит GRPO на 5.7% по метрике Pass@1 и, что примечательно, на 13.9% по Pass@32, что подчеркивает его превосходную способность генерировать разнообразные правильные пути рассуждений.
Крупные модели рассуждений демонстрируют высокую производительность за счет масштабирования цепочек мыслей (chain-of-thought) на этапе вывода, однако эта парадигма страдает от квадратичной стоимости вычислений, ограничений длины контекста и ухудшения качества рассуждений из-за эффекта "потери в середине". Итеративные рассуждения смягчают эти проблемы за счет периодического суммирования промежуточных мыслей, но существующие методы полагаются на обучение с учителем или фиксированные эвристики и не оптимизируют моменты суммирования, сохраняемую информацию и стратегию возобновления рассуждений. Мы предлагаем InftyThink+, сквозную框架 обучения с подкреплением, которая оптимизирует всю траекторию итеративных рассуждений, используя управляемые моделью границы итераций и явное суммирование. InftyThink+ применяет двухэтапную схему обучения: холодный старт с учителем с последующим обучением с подкреплением на уровне траекторий, что позволяет модели изучать стратегические решения о суммировании и продолжении. Эксперименты на DeepSeek-R1-Distill-Qwen-1.5B показывают, что InftyThink+ повышает точность на 21% на AIME24 и превосходит традиционное обучение с подкреплением для длинных цепочек мыслей с значительным отрывом, одновременно демонстрируя лучшую обобщающую способность на тестах вне распределения. Более того, InftyThink+ существенно снижает задержку вывода и ускоряет обучение с подкреплением, демонстрируя повышенную эффективность рассуждений наряду с улучшенной производительностью.
Современные бенчмарки для мобильных GUI-агентов систематически не оценивают возможности памяти, содержа лишь 5,2–11,8% задач, связанных с памятью, и не включая оценку межсессионного обучения. Мы представляем MemGUI-Bench — комплексный бенчмарк с фокусом на память, использующий оценку pass@k и многоуровневую оценку LLM-as-judge. Наш вклад включает: (1) систематическую таксономию памяти, анализирующую 11 агентов пяти архитектур; (2) 128 задач в 26 приложениях, где 89,8% проверяют память через межвременное и межпространственное сохранение; (3) MemGUI-Eval — автоматизированный конвейер с прогрессивной проверкой и 7 иерархическими метриками; (4) оценку 11 современных агентов на основе исследовательских вопросов. Наши эксперименты выявили значительные дефициты памяти у всех оцениваемых систем, идентифицировали 5 характерных типов сбоев и позволили сформулировать 5 практических рекомендаций для проектирования. Все ресурсы, включая код, бенчмарк и результаты оценки, будут \textit{полностью открыты и постоянно поддерживаться} на https://lgy0404.github.io/MemGUI-Bench/.
Понимание эгоцентричных видео играет ключевую роль для воплощенного интеллекта. Современные мультимодальные большие языковые модели (MLLM) способны воспринимать как визуальные, так и аудиовходы. Однако, в связи со сложностью получения текстовых меток с согласованной межмодальной информацией, вопрос о том, могут ли MLLM совместно понимать обе модальности в эгоцентричных видео, остается малоизученным. Для решения этой проблемы мы представляем EgoAVU — масштабируемый механизм генерации данных, который автоматически создает эгоцентричные аудиовизуальные описания, вопросы и ответы. EgoAVU обогащает человеческие описания мультимодальным контекстом и генерирует аудиовизуальные нарративы посредством моделирования кросс-модальных корреляций. Токенная фильтрация видео и модульная курация на основе графов обеспечивают как разнообразие, так и качество данных. Используя EgoAVU, мы создали EgoAVU-Instruct — крупномасштабный обучающий набор данных из 3 млн примеров, и EgoAVU-Bench — проверенную вручную оценочную выборку, охватывающую разнообразные задачи. EgoAVU-Bench четко выявляет ограничения существующих MLLM: они сильно смещены в сторону визуальных сигналов, часто игнорируя аудиоподсказки или не связывая звук с визуальным источником. Дообучение MLLM на EgoAVU-Instruct эффективно решает эту проблему, обеспечивая до 113% улучшения производительности на EgoAVU-Bench. Эти преимущества также переносятся на другие эталоны, такие как EgoTempo и EgoIllusion, достигая до 28% относительного прироста производительности. Код будет опубликован для сообщества.
Генеративные модели вознаграждения (GenRM) и подход LLM-as-a-Judge демонстрируют обманчивую согласованность, выдавая правильные оценки по неправильным причинам, поскольку они обучаются и оцениваются с приоритетом точности результата, что подрывает их способность к обобщению в процессе RLHF. Мы представляем согласованность обоснований — детализированную метрику, которая количественно оценивает соответствие между процессом рассуждений модели и человеческим суждением. Наша оценка передовых моделей показывает, что согласованность обоснований эффективно различает современные модели и обнаруживает обманчивую согласованность, в то время как точность результата не справляется с обеими задачами. Для устранения этого разрыва мы вводим гибридный сигнал, сочетающий согласованность обоснований с точностью результата для обучения GenRM. Наш метод обучения достигает наилучшей производительности на RM-Bench (87.1%) и JudgeBench (82%), превосходя базовые подходы, основанные только на результате, в среднем на 5%. При использовании модели вознаграждения в RLHF наш метод эффективно улучшает производительность, что демонстрируется на Arena Hard v2, с заметным улучшением на 7% в задачах творческого письма. Дальнейший анализ подтверждает, что наш метод позволяет избежать ловушки обманчивой согласованности, эффективно обращая вспять снижение согласованности обоснований, наблюдаемое при обучении, ориентированном только на результат.
Архитектуры смеси экспертов (MoE) эволюционируют в сторону более мелкой гранулярности для повышения эффективности использования параметров. Однако существующие проекты MoE сталкиваются с неизбежным компромиссом между степенью специализации экспертов и эффективностью аппаратного выполнения. Мы предлагаем OmniMoE — совместно спроектированный на уровне системы и алгоритмов фреймворк, который доводит гранулярность экспертов до логического предела. OmniMoE вводит векторные атомарные эксперты, обеспечивая масштабируемую маршрутизацию и выполнение в рамках одного слоя MoE, сохраняя при этом общую плотную ветвь MLP для обработки общего назначения. Хотя такой атомарный дизайн максимизирует ёмкость, он создаёт серьёзные проблемы для сложности маршрутизации и доступа к памяти. Для их решения OmniMoE использует совместное проектирование системы и алгоритма: (i) маршрутизатор на основе декартова произведения, который разлагает огромное пространство индексов, снижая сложность маршрутизации с O(N) до O(√N); и (ii) ориентированное на экспертов планирование, которое инвертирует порядок выполнения, превращая разрозненные, ограниченные памятью поиски в эффективные плотные матричные операции. Проверка на семи бенчмарках показала, что OmniMoE (с 1.7B активными параметрами) достигает 50.9% точности в режиме zero-shot, превосходя грубозернистые (например, DeepSeekMoE) и мелкозернистые (например, PEER) базовые линии. Что важно, OmniMoE сокращает задержку вывода с 73 мс до 6.7 мс (ускорение в 10.9 раз) по сравнению с PEER, демонстрируя, что крупномасштабные мелкозернистые MoE могут быть быстрыми и точными. Наш код открыт по адресу https://github.com/flash-algo/omni-moe.
В то время как человек воспринимает мир через различные модальности, которые действуют синергетически, обеспечивая целостное понимание окружающей среды, существующие омнивидео-модели по-прежнему сталкиваются со значительными трудностями в задачах аудиовизуального понимания. В данной статье мы предлагаем OmniVideo-R1 — новую усиленную архитектуру, которая улучшает смешанную модальную логику. OmniVideo-R1 позволяет моделям «мыслить с помощью омнимодальных сигналов» за счёт двух ключевых стратегий: (1) интенсивного запросного grounding'а на основе парадигм самообучения и (2) модально-внимательного слияния, построенного на парадигмах контрастного обучения. Многочисленные эксперименты на различных бенчмарках показывают, что OmniVideo-R1 стабильно превосходит сильные базовые модели, что подчёркивает его эффективность и robustные обобщающие способности.
Крупные языковые модели (LLMs) продемонстрировали впечатляющие способности к рассуждению, добившись выдающихся результатов в широком спектре задач. Несмотря на эти успехи, сохраняются значительные сбои в рассуждениях, возникающие даже в, казалось бы, простых сценариях. Для систематического понимания и устранения этих недостатков мы представляем первое всестороннее исследование, посвященное сбоям рассуждений в LLM. Мы вводим новую систему категоризации, которая разделяет рассуждения на воплощенные и не-воплощенные типы, причем последние дополнительно подразделяются на неформальные (интуитивные) и формальные (логические) рассуждения. Параллельно мы классифицируем сбои рассуждений по дополнительной оси на три типа: фундаментальные сбои, присущие архитектурам LLM, которые широко влияют на последующие задачи; прикладные ограничения, проявляющиеся в определенных областях; и проблемы устойчивости, характеризующиеся нестабильной работой при незначительных вариациях. Для каждого сбоя рассуждений мы даем четкое определение, анализируем существующие исследования, исследуем коренные причины и представляем стратегии смягчения. Объединяя разрозненные исследовательские усилия, наше исследование предлагает структурированный взгляд на системные слабости в рассуждениях LLM, предоставляя ценные идеи и направляя будущие исследования на создание более сильных, надежных и устойчивых способностей к рассуждению. Дополнительно мы публикуем обширную коллекцию научных работ по сбоям рассуждений в LLM в виде репозитория на GitHub по адресу https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, чтобы обеспечить легкий вход в эту область.
Агенты с открытой саморазвивающейся архитектурой способны автономно модифицировать собственную структурную организацию для повышения своих возможностей и преодоления ограничений предопределённых архитектур, тем самым снижая зависимость от человеческого вмешательства. Мы представляем групповых эволюционирующих агентов (Group-Evolving Agents, GEA) — новую парадигму открытого саморазвития, в которой группа агентов рассматривается как фундаментальная эволюционная единица, обеспечивающая явное совместное использование и повторное применение опыта внутри группы на протяжении всего процесса эволюции. В отличие от существующих парадигм открытого саморазвития, использующих древовидную эволюцию, GEA преодолевает ограничение неэффективного использования исследовательского разнообразия, вызванное изолированностью эволюционных ветвей. Мы оцениваем GEA на сложных бенчмарках программирования, где метод значительно превосходит современные саморазвивающиеся методы (71,0% против 56,7% на SWE-bench Verified, 88,3% против 68,3% на Polyglot) и соответствует или превосходит лучшие созданные человеком агентские фреймворки (71,8% и 52,0% на двух бенчмарках соответственно). Анализ показывает, что GEA эффективнее преобразует исследовательское разнообразие на ранних этапах в устойчивый долгосрочный прогресс, достигая более высокой производительности при одинаковом количестве эволюционировавших агентов. Кроме того, GEA демонстрирует стабильную переносимость между различными моделями программирования и повышенную устойчивость, исправляя ошибки на уровне фреймворка в среднем за 1,4 итерации против 5 у саморазвивающихся методов.
Квантование только весов (weight-only quantization) играет важную роль в сжатии больших языковых моделей (Large Language Models, LLMs). Вдохновленные идеей классического прореживания по величине (magnitude pruning), мы исследуем, могут ли величины обновлений весов в процессе тонкой настройки, направленной на развитие способностей к рассуждению (reasoning-incentivized fine-tuning), служить ценным сигналом для квантования больших моделей рассуждений (Large Reasoning Models, LRMs). Мы выдвигаем гипотезу, что наименьшие и наибольшие по величине обновления весов в ходе тонкой настройки более важны, чем обновления промежуточной величины — явление, которое мы называем «защитой обоих краёв» ("protecting both ends"). После подтверждения гипотезы мы представляем QuantLRM — метод квантования весов LRMs на основе сигналов тонкой настройки. Мы аппроксимируем величины обновлений весов простыми ограниченными квадратичными функциями, чтобы защитить оба края. Умножая средние квадратичные значения на количество нулевых обновлений весов в каналах, мы вычисляем важность каналов, которая оказывается более эффективной, чем использование информации об активациях или информации второго порядка. Мы применяем QuantLRM для квантования различных тонко настроенных моделей (включая модели с контролируемой тонкой настройкой, оптимизацией прямых предпочтений и тонкой настройкой с подкреплением) на четырёх тестовых наборах для проверки рассуждений (AIME-120, FOLIO, temporal sequences и GPQA-Diamond) и эмпирически устанавливаем, что QuantLRM обеспечивает стабильное улучшение при квантовании LRMs, со средним улучшением на 6.55% для модели, настроенной с подкреплением. QuantLRM также поддерживает LRMs, не прошедшие тонкую настройку, получая эффективные сигналы с помощью псевдо-тонкой настройки (pseudo-fine-tuning), что значительно расширяет область его применения.
Эффективное развертывание больших языковых моделей (LLM) требует экстремального квантования, что создает критический компромисс между эффективностью низкоразрядного представления и производительностью. Остаточная бинаризация позволяет реализовать удобный для аппаратного обеспечения вывод без операций матричного умножения за счет stacking бинарных (±1) слоев, однако страдает от патологического явления ко-адаптации признаков. Мы выявляем ключевую проблему, которую называем межпутевой адаптацией: в процессе квантующего обучения параллельные остаточные бинарные пути изучают избыточные признаки, что деградирует структуру компенсации ошибок и ограничивает выразительную способность модели. В то время как предыдущие работы опираются на эвристические обходные решения (например, замораживание путей), которые ограничивают пространство решений, мы предлагаем RaBiT — новую framework квантования, которая разрешает ко-адаптацию за счет алгоритмического обеспечения иерархии остатков. Ее ключевой механизм последовательно выводит каждый бинарный путь из единого разделяемого веса с полной точностью, что гарантирует, что каждый путь корректирует ошибку предыдущего. Этот процесс стабилизируется надежной инициализацией, которая отдает приоритет сохранению функциональности над простой аппроксимацией весов. RaBiT переопределяет границу компромисса «точность-эффективность» для 2-битного представления: метод демонстрирует наилучшую производительность, конкурирует даже с требовательными к аппаратным ресурсам методами векторного квантования и обеспечивает ускорение вывода в 4.49 раза по сравнению с моделями полной точности на RTX 4090.
Крупные языковые модели (LLM) часто демонстрируют снижение производительности, культурного соответствия и надежности в вопросах безопасности при работе с неанглийскими языками. Это частично объясняется доминированием английского языка как в данных предварительного обучения, так и в наборах данных для согласования с человеческими предпочтениями. Методы обучения, такие как обучение с подкреплением на основе человеческой обратной связи (RLHF) и прямая оптимизация предпочтений (DPO), требуют данных о человеческих предпочтениях, которые для многих языков, кроме английского, остаются дефицитными и в основном не являются публично доступными. Для решения этой проблемы мы представляем compar:IA — открытый цифровой общественный сервис, разработанный внутри французского правительства и предназначенный для сбора масштабных данных о человеческих предпочтениях от широкой аудитории, преимущественно франкоговорящей. Платформа использует интерфейс парного сравнения вслепую для сбора неограниченных реалистичных промптов и пользовательских оценок для разнообразных языковых моделей, сохраняя низкий порог участия и применяя автоматическую фильтрацию с защитой приватности. По состоянию на 07.02.2026 compar:IA собрала более 600 000 свободных промптов и 250 000 предпочтений (голосов), причем примерно 89% данных представлено на французском языке. Мы публикуем три взаимодополняющих набора данных — диалоги, голоса и реакции — под открытыми лицензиями и представляем первоначальный анализ, включая рейтинг франкоязычных моделей и шаблоны пользовательского взаимодействия. Помимо французского контекста, compar:IA развивается в направлении международного цифрового общественного блага, предлагая повторно используемую инфраструктуру для многоязычного обучения моделей, их оценки и изучения взаимодействия человека и ИИ.
Мы исследуем устойчивый режим сбоя при многоцелевом согласовании больших языковых моделей (LLM): обучение улучшает производительность лишь по части целей, одновременно вызывая ухудшение по другим. Мы формализуем этот феномен как кросс-целевые помехи и проводим первое систематическое исследование для классических алгоритмов скаляризации, показывая, что помехи носят повсеместный характер и демонстрируют сильную зависимость от модели. Для объяснения этого феномена мы выводим локальный закон ковариации, показывающий, что цель улучшается в первом порядке, когда её вознаграждение демонстрирует положительную ковариацию со скаляризованной оценкой. Мы расширяем этот анализ на суррогатные цели с отсечкой, используемые в современном согласовании, демонстрируя, что закон ковариации остаётся справедливым при слабых условиях, несмотря на отсечку. Основываясь на этом анализе, мы предлагаем Адаптацию Весов с Целевой Ковариацией (CTWA) — модульный метод, который поддерживает положительную ковариацию между вознаграждениями целей и обучающим сигналом для эффективного устранения кросс-целевых помех. Наконец, мы дополняем эти локальные условия улучшения глобальным анализом сходимости в условиях Поляка — Лоясиевича, устанавливая, когда невыпуклая скаляризованная оптимизация достигает глобальной сходимости и как кросс-целевые помехи зависят от конкретных геометрических свойств модели.
Многоходовые джейлбрейки отражают реальную модель угроз для чат-ботов с настроенной безопасностью, тогда как одноходовые атаки являются лишь частным случаем. Однако существующие подходы не справляются со сложностью исследования и дрейфом намерений. Мы предлагаем SEMA — простую, но эффективную框架, которая обучает многоходового атакующего без опоры на существующие стратегии или внешние данные. SEMA состоит из двух этапов. Предварительная самонастройка обеспечивает пригодные rollout'ы путем тонкой настройки на не-отказных, хорошо структурированных, многоходовых адверсарных промптах, которые само генерируются с минимальным префиксом, стабилизируя последующее обучение. Обучение с подкреплением с учетом дрейфа намерений тренирует атакующего на получение валидных многоходовых адверсарных промптов при сохранении той же вредоносной цели. Мы закрепляем вредоносное намерение в многоходовых джейлбрейках с помощью вознаграждения, учитывающего дрейф намерений, которое комбинирует выравнивание намерения, риск согласия и уровень детализации. Наш режим атаки с разомкнутым контуром избегает зависимости от обратной связи жертвы, унифицирует одно- и многоходовые сценарии и снижает сложность исследования. На множестве наборов данных, моделей-жертв и судей джейлбрейков наш метод достигает наилучших показателей успешности атак (ASR), превосходя все одноходовые базовые методы, ручные сценарии и шаблонные многоходовые базовые методы, а также наши варианты SFT и DPO. Например, SEMA демонстрирует в среднем 80.1% ASR@1 на трех закрытых и открытых моделях-жертвах на AdvBench, что на 33.9% выше state-of-the-art. Подход компактен, воспроизводим и переносится между целями, обеспечивая более строгий и реалистичный стресс-тест для безопасности больших языковых моделей и позволяя автоматизировать red teaming для выявления и локализации режимов сбоев. Наш код доступен по адресу: https://github.com/fmmarkmq/SEMA.
Обучение с подкреплением (RL) стало преобладающей парадигмой для обучения ИИ-агентов на основе больших языковых моделей (LLM). Однако существующие базовые алгоритмы RL не имеют проверенных гарантий сходимости в сценариях с агентами, особенно в многоходовых настройках, что может приводить к нестабильности обучения и невозможности сходимости к оптимальным политикам. В данной статье мы систематически анализируем, как различные комбинации механизмов обновления политик и методов оценки преимуществ влияют на свойства сходимости в одно- и многоходовых сценариях. Мы обнаруживаем, что алгоритм REINFORCE с групповой относительной оценкой преимуществ (GRAE) может сходиться к глобальному оптимуму в условиях без дисконтирования, однако комбинация PPO и GRAE нарушает исходное свойство монотонного улучшения PPO. Кроме того, мы показываем, что основные базовые алгоритмы RL не могут одновременно обеспечить как отсутствие критики, так и гарантии сходимости в многоходовых сценариях. Для решения этой проблемы мы предлагаем SeeUPO (Sequence-level Sequential Update Policy Optimization) — подход без критика с гарантиями сходимости для многоходовых взаимодействий. SeeUPO моделирует многоходовое взаимодействие как последовательно исполняемые многорукие бандиты. Посредством пошагового последовательного обновления политик в обратном порядке выполнения алгоритм обеспечивает монотонное улучшение и сходимость к глобальному оптимальному решению с помощью обратной индукции. Эксперименты на AppWorld и BFCL v4 демонстрируют существенное улучшение SeeUPO по сравнению с существующими базовыми алгоритмами: относительный прирост составляет 43,3%–54,6% для Qwen3-14B и 24,1%–41,9% для Qwen2.5-14B (в среднем по бенчмаркам), наряду с превосходной стабильностью обучения.
Стандартные конвейеры обучения больших языковых моделей (LLM) обычно являются однонаправленными, прогрессируя от предварительного обучения к пост-обучению. Однако потенциал двустороннего процесса — когда инсайты из пост-обучения ретроактивно улучшают предобученную основу — остаётся неисследованным. Мы стремимся создать самоподкрепляющийся маховик: цикл, в котором модель, донастроенная с помощью обучения с подкреплением (RL), усиливает базовую модель, что, в свою очередь, улучшает последующую производительность после обучения, не требуя специально обученного учителя или референсной модели. Для реализации этого мы анализируем динамику обучения и определяем фазу середины обучения (annealing) как критический переломный момент для способностей модели. Эта фаза обычно возникает в конце предварительного обучения, используя высококачественные корпусы при быстро снижающейся скорости обучения. Опираясь на это наблюдение, мы представляем ReMiT (Reinforcement Learning-Guided Mid-Training). Конкретно, ReMiT использует априорные знания о рассуждениях RL-настроенных моделей для динамического перевзвешивания токенов на фазе середины обучения, отдавая приоритет тем, которые имеют ключевое значение для логического вывода. Эмпирически ReMiT демонстрирует среднее улучшение на 3% по 10 бенчмаркам предварительного обучения, охватывающим математику, код и общие рассуждения, и сохраняет этот прирост более чем на 2% на протяжении всего конвейера пост-обучения. Эти результаты подтверждают наличие итеративной обратной связи, позволяющей осуществлять непрерывную и самоподкрепляющуюся эволюцию LLM.
Унифицированные мультимодальные модели (UMM) продемонстрировали впечатляющие возможности в генерации реалистичных изображений и поддержке мультимодальных рассуждений. Однако их потенциал в решении задач планирования компьютерных операций, тесно связанных с повседневной жизнью, остается малоизученным. Генерация и редактирование изображений в компьютерных задачах требуют таких способностей, как пространственное мышление и процедурное понимание, и до сих пор неизвестно, обладают ли UMM этими возможностями для выполнения подобных задач. Поэтому мы предлагаем PlanViz — новый эталонный тест, разработанный для оценки генерации и редактирования изображений в контексте компьютерных операций. Для достижения цели оценки мы фокусируемся на подзадачах, часто встречающихся в повседневной жизни и требующих поэтапного планирования. В частности, разработаны три новые подзадачи: планирование маршрутов, построение рабочих диаграмм и отображение веб-интерфейсов. Мы решаем проблемы обеспечения качества данных путем курирования аннотированных человеком вопросов и эталонных изображений, а также внедряем процесс контроля качества. Для решения проблем комплексной и точной оценки предложена адаптивная метрика PlanScore, которая помогает оценивать корректность, визуальное качество и эффективность генерируемых изображений. В ходе экспериментов мы выявляем ключевые ограничения и перспективы для будущих исследований в данной области.
Гладкость архитектуры транссформеров широко изучалась в контексте обобщающей способности, устойчивости обучения и устойчивости к adversarial-атакам. Однако её роль в transfer learning остаётся слабо изученной. В данной работе мы анализируем способность компонентов vision transformer адаптировать свои выходные данные к изменениям входных данных, или, иными словами, их пластичность. Определяемая как средняя скорость изменения, пластичность отражает чувствительность к возмущениям входного сигнала; в частности, высокая пластичность подразумевает низкую гладкость. Мы демонстрируем с помощью теоретического анализа и всесторонних экспериментов, что данный подход обеспечивает принципиальные рекомендации по выбору компонентов для приоритизации в процессе адаптации. Ключевой вывод для практиков заключается в том, что высокая пластичность модулей внимания и feedforward-слоев последовательно приводит к лучшим результатам дообучения. Наши результаты расходятся с преобладающим предположением о желательности гладкости, предлагая новый взгляд на функциональные свойства трансформеров. Код доступен по адресу https://github.com/ambroiseodt/vit-plasticity.
Плотные транссформаторные языковые модели в основном придерживались единой архитектурной схемы: каждый слой состоит из модуля внимания, за которым следует прямаяfeed-forward network, FFN) сеть с узко-широко-узким многослойным перцептрономMLP), где большая часть параметров сосредоточена в MLP с коэффициентом расширения от 2 до 4. Мотивируясь недавними результатами, показывающими, что резидуальные широко-узко-широкиеMLP в форме песочных часов) обладают превосходной способностью к аппроксимации функций, мы пересматриваем устоявшуюся конвенцию о форме MLP в трансформере, ставя под вопрос необходимость узко-широко-узкого дизайна. Для изучения этого вопроса мы разрабатываем вариант трансформера, который заменяет традиционную FFN на более глубокую FFN в форме песочных часов, состоящую из стека подобных песочным часам суб-MLP, соединенных резидуальными связями. Мы предполагаем, что более глубокая, но более легкая FFN в форме песочных часов может стать конкурентоспособной альтернативой традиционной FFN, а параметры, сэкономленные за счет использования более легкой FFN, могут быть использованы более эффективно, например, для увеличения скрытой размерности модели при фиксированном бюджете параметров. Мы подтверждаем это эмпирическими проверками на различных масштабах моделей: FFN в форме песочных часов превосходят традиционные FFN вплоть до 400 млн параметров и демонстрируют сопоставимую производительность на более крупных масштабах до 1 млрд параметров; варианты с FFN в форме песочных часов с уменьшенным количеством параметров в FFN и увеличенным — в механизме внимания показывают стабильное улучшение по сравнению с традиционными конфигурациями при сопоставимом бюджете. В совокупности эти результаты проливают новый свет на последние работы и побуждают к переосмыслению конвенции об узко-широко-узком MLP и баланса между вниманием и FFN для создания эффективных и выразительных современных языковых моделей.
Предобработка цельных срезов тканей (WSI), обычно включающая детектирование тканей с последующим извлечением патчей, является основой для AI-ориентированных вычислительных патологических процессов. Это остается серьезным вычислительным узким местом, поскольку существующие инструменты либо полагаются на неточное эвристическое пороговое разделение для детектирования тканей, либо используют подходы на основе ИИ, обученные на данных с ограниченным разнообразием, которые работают на уровне патчей, что приводит к значительной вычислительной сложности. Мы представляем AtlasPatch — эффективную и масштабируемую платформу предобработки срезов для точного детектирования тканей и высокопроизводительного извлечения патчей с минимальными вычислительными затратами. Модуль детектирования тканей AtlasPatch обучен на гетерогенном и полуручном аннотированном наборе данных из ~30 000 миниатюр WSI с использованием эффективного дообучения модели Segment-Anything. Инструмент экстраполирует тканевые маски с миниатюр на полноразмерные срезы для извлечения координат патчей при заданном пользователем увеличении, с возможностью потоковой передачи патчей непосредственно в распространенные кодировщики изображений для получения эмбеддингов или сохранения изображений патчей, все эффективно распараллеливается на CPU и GPU. Мы оцениваем AtlasPatch по точности сегментации, вычислительной сложности и последующему обучению с множественными экземплярами, достигая производительности уровня современных аналогов при работе с долей их вычислительной стоимости. AtlasPatch имеет открытый исходный код и доступен по адресу https://github.com/AtlasAnalyticsLab/AtlasPatch.
Крупные языковые модели продемонстрировали впечатляющие возможности в открытых диалоговых доменах. Однако современные методы демонстрируют неоптимальную производительность в сервисных диалогах, поскольку опираются на зашумленные, низкокачественные данные человеческих разговоров. Это ограничение возникает из-за дефицита данных и сложности моделирования аутентичного целенаправленного поведения пользователей. Для решения этих проблем мы предлагаем SEAD (Self-Evolving Agent for Service Dialogue) — фреймворк, позволяющий агентам обучаться эффективным стратегиям без масштабных человеческих аннотаций. SEAD разделяет моделирование пользователя на два компонента: Контроллер профилей, генерирующий разнообразные пользовательские состояния для управления учебным планом, и Модель ролевой игры пользователя, ориентированную на реалистичное воплощение ролей. Такая конструкция гарантирует, что среда предоставляет адаптивные учебные сценарии вместо роли несправедливого противника. Эксперименты показывают, что SEAD значительно превосходит открытые базовые модели и проприетарные коммерческие модели, повышая коэффициент завершения задач на 17,6% и эффективность диалога на 11,1%. Код доступен по адресу: https://github.com/Da1yuqin/SEAD.
Несмотря на недавние успехи, масштабирование во время тестирования — то есть динамическое увеличение бюджета токенов по мере необходимости на этапе вывода — остается ненадежным для моделей "визуальный язык" (VLMs): неструктурированные цепочки рассуждений об изображениях смешивают восприятие и логику, что приводит к длинным, неорганизованным контекстам, где небольшие ошибки восприятия могут каскадно приводить к совершенно неверным ответам. Более того, для достижения хорошей производительности требуется дорогостоящее обучение с подкреплением с использованием искусственно созданных вознаграждений. Здесь мы представляем SPARC (Separating Perception And Reasoning Circuits) — модульную структуру, которая явно разделяет визуальное восприятие и логические рассуждения. Вдохновленные последовательной сенсорно-когнитивной обработкой в мозге, мы реализуем двухэтапный конвейер, в котором модель сначала выполняет явный визуальный поиск для локализации релевантных вопросу областей, а затем строит свои рассуждения, conditioning их на этих областях, чтобы получить окончательный ответ. Это разделение позволяет независимо масштабировать систему во время тестирования с асимметричным распределением вычислительных ресурсов (например, приоритизируя обработку восприятия при сдвиге распределения), поддерживает выборочную оптимизацию (например, улучшение только этапа восприятия, когда он является узким местом для сквозной производительности) и позволяет работать со сжатыми контекстами, выполняя глобальный поиск при низком разрешении изображения и выделяя обработку высокого разрешения только выбранным областям, тем самым сокращая общее количество визуальных токенов и вычислений. На сложных бенчмарках визуального мышления SPARC превосходит монолитные базовые модели и сильные подходы с визуальным заземлением. Например, SPARC повышает точность модели Qwen3VL-4B на бенчмарке V^* VQA на 6.7 процентных пунктов и превосходит метод "thinking with images" на 4.6 пункта в сложной задаче OOD, несмотря на требование в 200 раз меньшего бюджета токенов.
Существующие подходы к анализу активаций нейронных сетей, такие как метод главных компонент (PCA) и разреженные автоэнкодеры, опираются на строгие структурные предположения. Генеративные модели предлагают альтернативу: они способны выявлять структуру без подобных предположений и выступают в качестве априорных распределений, повышающих точность интервенций. Мы исследуем это направление, обучая диффузионные модели на одном миллиарде активаций резидуального потока, создавая «метамодели», которые изучают распределение внутренних состояний сети. Мы обнаружили, что потери диффузионной модели плавно уменьшаются с ростом вычислительных затрат и надежно предсказывают полезность для последующих задач. В частности, применение априорного распределения, изученного метамоделью, для управляющих интервенций улучшает беглость речи, причем выигрыш увеличивается по мере снижения потерь. Более того, нейроны метамодели все больше изолируют концепции в отдельных единицах, с показателями разреженного probing, которые масштабируются по мере уменьшения потерь. Эти результаты позволяют предположить, что генеративные метамодели предлагают масштабируемый путь к интерпретируемости без ограничительных структурных предположений. Страница проекта: https://generative-latent-prior.github.io.
Современные агенты информационного поиска (InfoSeeking) испытывают трудности с сохранением фокуса и связности в ходе долгосрочного исследования, поскольку отслеживание состояний поиска, включая процедуру планирования и массивные результаты, в рамках одного текстового контекста по своей природе ненадежно. Для решения этой проблемы мы представляем Table-as-Search (TaS) — структурированную систему планирования, которая переформулирует задачу InfoSeeking как задачу заполнения таблицы. TaS преобразует каждый запрос в структурированную схему таблицы, хранящуюся во внешней базе данных, где строки представляют кандидатов для поиска, а столбцы обозначают ограничения или требуемую информацию. Эта таблица точно управляет состояниями поиска: заполненные ячейки строго фиксируют историю и результаты поиска, тогда как пустые ячейки служат явным планом поиска. Ключевым моментом является то, что TaS унифицирует три различные задачи InfoSeeking: Глубокий поиск (Deep Search), Широкий поиск (Wide Search) и сложный Глубоко-Широкий поиск (DeepWide Search). Многочисленные эксперименты демонстрируют, что TaS существенно превосходит множество современных базовых методов на трех типах бенчмарков, включая мульти-агентные фреймворки и коммерческие системы. Кроме того, наш анализ подтверждает превосходную устойчивость TaS в долгосрочном информационном поиске, а также его эффективность, масштабируемость и гибкость. Код и наборы данных находятся в открытом доступе по адресу https://github.com/AIDC-AI/Marco-Search-Agent.
Сегментация на основе языковых запросов является популярной темой в компьютерном зрении. Хотя последние достижения в мультимодальных больших языковых моделях (MLLM) наделили системы сегментации способностями к логическому выводу, эти разработки остаются ограниченными замороженными внутренними знаниями MLLM, что сужает их потенциал для реальных сценариев, требующих работы с актуальной информацией или предметно-ориентированными концепциями. В данной работе мы предлагаем Seg-ReSearch — новую парадигму сегментации, преодолевающую ограничения знаний существующих подходов. Благодаря возможности чередующегося логического вывода и внешнего поиска, Seg-ReSearch позволяет системам сегментации обрабатывать динамические запросы из открытого мира, выходящие за пределы замороженных знаний MLLM. Для эффективного обучения этой способности мы представляем иерархическую схему вознаграждений, сочетающую первоначальное руководство с прогрессивными стимулами, что смягчает дилемму между разреженными сигналами результата и жёстким пошаговым контролем. Для оценки мы создали OK-VOS — сложный бенчмарк, явно требующий привлечения внешних знаний для сегментации видеообъектов. Эксперименты на OK-VOS и двух существующих бенчмарках для сегментации с логическим выводом демонстрируют, что наш Seg-ReSearch существенно превосходит современные подходы. Код и данные будут доступны по адресу https://github.com/iSEE-Laboratory/Seg-ReSearch.
Дистилляция знаний стала ключевой методикой для передачи знаний от более мощных больших языковых моделей (LLM) к меньшим и более эффективным моделям. Однако традиционные подходы к дистилляции сталкиваются с проблемами, связанными с конфликтами знаний и высокими требованиями к ресурсам, особенно при использовании нескольких учительских моделей. В данной статье мы вводим концепцию Очистки Знаний, которая объединяет обоснования из нескольких учительских LLM в единое обоснование, тем самым смягчая конфликты и повышая эффективность. Для исследования эффективности очистки знаний мы дополнительно предлагаем пять методов очистки с различных точек зрения. Наши эксперименты демонстрируют, что эти методы не только улучшают производительность дистиллированной модели, но и эффективно alleviating конфликты знаний. Более того, маршрутизаторные методы демонстрируют robustные способности к обобщению, подчеркивая потенциал инновационных техник очистки в оптимизации многопреподавательской дистилляции и содействии практическому развертыванию мощных, но легковесных моделей.
Истинная самоэволюция требует от агентов способности быть непрерывно обучающимися системами, которые усваивают новый опыт для решения будущих задач. Однако строгое измерение этой фундаментальной способности затруднено двумя проблемами: смешением предшествующих знаний, когда «новые» знания могут присутствовать в предварительно обучающих данных, и смешением сложности рассуждений, когда неудачи могут быть вызваны трудностью задачи, а не неспособностью вспомнить усвоенные знания. Мы представляем SE-Bench — диагностическую среду, которая обфусцирует библиотеку NumPy и её документацию по API в псевдо-новый пакет со случайными идентификаторами. Агенты обучаются усвоению этого пакета и оцениваются на простых задачах кодирования без доступа к документации, что создаёт чистые условия, где задачи тривиальны при знании нового API, но невозможны для базовых моделей без него. Наше исследование выявляет три ключевых вывода: (1) *Парадокс открытой книги*: обучение с опорой на документацию препятствует запоминанию, требуя «обучения с закрытой книгой» для принудительного сжатия знаний в веса модели; (2) *Пробел в обучении с подкреплением (RL)*: стандартное RL не может полностью усвоить новые знания из-за ограничений PPO и отрицательных градиентов; и (3) *Жизнеспособность самоигры*: модели способны обучаться на самостоятельно сгенерированных, зашумлённых задачах в сочетании с SFT, но не с RL. В целом, SE-Bench создаёт строгую диагностическую платформу для исследования самоэволюции через усвоение знаний. Наш код и набор данных доступны по адресу https://github.com/thunlp/SE-Bench.
Дифференцируемые согласующие слои и парадигмы остаточных связей, часто реализуемые с помощью энтропийно-регуляризованного оптимального транспорта (ОТ), служат критически важными механизмами в структурном прогнозировании и масштабировании архитектур. Однако восстановление дискретных перестановок или поддержание тождественных отображений путем аннелинга ε к нулю является печально известной нестабильной задачей. В данной работе мы выявляем фундаментальный механизм этой неудачи: преждевременный коллапс мод. Анализируя ненормальную динамику фиксированной точки отображения Зинхорна, мы раскрываем теоретический термодинамический предел скорости: стандартное экспоненциальное охлаждение опережает скорость сжатия оператора вывода, которая ухудшается как O(1/ε). Для решения этой проблемы мы предлагаем Эффективный кусочно-гибридный адаптивный контроль стабильности (Efficient Piecewise Hybrid Adaptive Stability Control, EPH-ASC) — адаптивный алгоритм планирования, который отслеживает устойчивость процесса вывода. Мы демонстрируем, что EPH-ASC необходим для стабилизации многообразие-ограниченных гипер-связей (mHC) в процессе обучения в крупном масштабе на наборе данных FineWeb-Edu, эффективно предотвращая взрывы градиента на поздних стадиях за счет обеспечения закона линейной устойчивости.
Климатические риски все чаще нарушают работу городского транспорта и аварийно-спасательных служб, повреждая жилой фонд, ухудшая состояние инфраструктуры и снижая доступность транспортной сети. В данной статье представлен Skjold-DiT — диффузионно-трансформерный фреймворк, который интегрирует гетерогенные пространственно-временные городские данные для прогнозирования климатических рисков на уровне зданий, явным образом учитывая структуру транспортной сети и сигналы доступности, релевантные для интеллектуальных транспортных средств (например, доступность для экстренных служб и ограничения эвакуационных маршрутов). Конкретно, Skjold-DiT позволяет моделировать маршрутные ограничения в условиях опасности, создавая калиброванные уровни доступности с учетом неопределенности (достижимость, увеличение времени в пути и избыточность маршрутов), которые могут использоваться системами маршрутизации интеллектуальных транспортных средств и экстренного реагирования. Skjold-DiT сочетает: (1) Fjell-Prompt — интерфейс условной генерации на основе промптов, предназначенный для поддержки межгородского переноса; (2) Norrland-Fusion — кросс-модальный механизм внимания, объединяющий карты опасностей/изображения, атрибуты зданий, демографические данные и транспортную инфраструктуру в единое латентное представление; и (3) Valkyrie-Forecast — контрафактный симулятор для генерации вероятностных траекторий риска при заданных вмешательствах. Мы представляем набор данных Baltic-Caspian Urban Resilience (BCUR), содержащий 847 392 наблюдения на уровне зданий в шести городах, включая аннотации множественных опасностей (например, индикаторы наводнений и жары) и характеристики транспортной доступности. Эксперименты оценивают качество прогнозирования, межгородскую обобщающую способность, калибровку и релевантные для транспорта результаты, включая достижимость и время в пути при климатических рисках в условиях контрафактных вмешательств.
Посттренировочная квантификация снижает вычислительную стоимость больших языковых моделей, но фундаментально изменяет их социальные смещения таким образом, что агрегированные метрики не способны это уловить. Мы представляем первое масштабное исследование 50 квантифицированных моделей, оцененных на PostTrainingBiasBench — унифицированном бенчмарке, включающем 13 наборов данных для оценки смещений в закрытых и открытых задачах. Мы выявляем феномен, названный нами *инвертированием замаскированного смещения при квантификации*, при котором до 21% ответов переключаются между смещенным и несмещенным состояниями после квантификации, несмотря на отсутствие изменений в агрегированных показателях смещения. Эти переключения сильно обусловлены неопределенностью модели: ответы с высокой неопределенностью в 3–11 раз чаще изменяются, чем уверенные. Степень квантификации усиливает этот эффект: модели с 4-битной квантификацией демонстрируют в 4–6 раз больше поведенческих изменений, чем 8-битные. Критически важно, что эти изменения создают асимметричное влияние на различные демографические группы — смещение может усиливаться до 18,6% для одних групп и улучшаться на 14,1% для других, что приводит к обманчиво нейтральным агрегированным результатам. Бóльшие модели не проявляют последовательного преимущества в устойчивости, а группоспецифичные сдвиги непредсказуемо варьируются между семействами моделей. Наши результаты демонстрируют, что сжатие фундаментально меняет паттерны смещений, что требует обязательной постквантификационной оценки и вмешательств для обеспечения надежности на практике.