Ежедневно отобранные исследовательские статьи по ИИ с переводами
Объединение мультимодального понимания и генерации продемонстрировало впечатляющие возможности в передовых проприетарных системах. В данной работе мы представляем BAGEL — открытую базовую модель, которая изначально поддерживает мультимодальное понимание и генерацию. BAGEL представляет собой унифицированную модель, использующую только декодер, предварительно обученную на триллионах токенов, отобранных из крупномасштабных переплетенных данных, включающих текст, изображения, видео и веб-данные. При масштабировании с использованием таких разнообразных мультимодальных данных BAGEL демонстрирует возникающие способности к сложному мультимодальному рассуждению. В результате она значительно превосходит открытые унифицированные модели как в мультимодальной генерации, так и в понимании на стандартных тестах, одновременно проявляя продвинутые способности к мультимодальному рассуждению, такие как свободное манипулирование изображениями, предсказание будущих кадров, 3D-манипуляции и навигация в мире. С целью содействия дальнейшим исследованиям в области мультимодальности мы делимся ключевыми результатами, деталями предварительного обучения, протоколом создания данных, а также публикуем наш код и контрольные точки для сообщества. Страница проекта доступна по адресу https://bagel-ai.org/.
Эффективность механизма внимания имеет важное значение из-за его квадратичной временной сложности. Мы повышаем эффективность внимания за счет двух ключевых вкладов. Во-первых, мы используем новые тензорные ядра FP4 в GPU Blackwell для ускорения вычислений внимания. Наша реализация достигает 1038 TOPS на RTX5090, что в 5 раз быстрее, чем самая быстрая версия FlashAttention на RTX5090. Эксперименты показывают, что наше внимание FP4 может ускорять вывод различных моделей в режиме plug-and-play. Во-вторых, мы впервые применяем низкобитовое внимание к задачам обучения. Существующие работы по низкобитовому вниманию, такие как FlashAttention3 и SageAttention, сосредоточены только на выводе. Однако эффективность обучения больших моделей также важна. Чтобы исследовать, можно ли эффективно применять низкобитовое внимание к задачам обучения, мы разработали точное и эффективное 8-битное внимание как для прямого, так и для обратного распространения. Эксперименты показывают, что 8-битное внимание обеспечивает без потерь производительность в задачах тонкой настройки, но демонстрирует более медленную сходимость в задачах предварительного обучения. Код будет доступен по адресу https://github.com/thu-ml/SageAttention.
Модели вознаграждения играют ключевую роль в направлении крупных языковых моделей к выводам, соответствующим ожиданиям человека. Однако остается открытым вопрос эффективного использования вычислительных ресурсов на этапе тестирования для повышения производительности моделей вознаграждения. В данной работе мы представляем Модели Рассуждений о Вознаграждении (RRMs), которые специально разработаны для выполнения осознанного процесса рассуждения перед генерацией итоговых вознаграждений. Используя цепочку рассуждений (chain-of-thought reasoning), RRMs задействуют дополнительные вычислительные ресурсы на этапе тестирования для сложных запросов, где подходящие вознаграждения не очевидны сразу. Для разработки RRMs мы реализуем фреймворк обучения с подкреплением, который способствует развитию способностей к самостоятельному рассуждению о вознаграждениях без необходимости явных трасс рассуждений в качестве обучающих данных. Экспериментальные результаты демонстрируют, что RRMs достигают превосходной производительности на бенчмарках моделирования вознаграждений в различных областях. Особенно важно отметить, что RRMs могут адаптивно использовать вычислительные ресурсы на этапе тестирования для дальнейшего повышения точности вознаграждений. Предобученные модели рассуждений о вознаграждениях доступны по адресу https://huggingface.co/Reward-Reasoning.
Масштабирование вычислительных ресурсов на этапе тестирования имеет решающее значение для улучшения способности к рассуждению у крупных языковых моделей (LLM). Существующие подходы обычно используют обучение с подкреплением (RL) для максимизации проверяемой награды, получаемой в конце цепочек рассуждений. Однако такие методы оптимизируют только итоговую производительность при большом и фиксированном бюджете токенов, что снижает эффективность как в обучении, так и в эксплуатации. В данной работе мы представляем новую структуру, AnytimeReasoner, для оптимизации производительности рассуждений в режиме реального времени, которая направлена на повышение эффективности использования токенов и гибкости рассуждений при различных ограничениях на бюджет токенов. Для достижения этого мы сокращаем полный процесс мышления, чтобы он укладывался в выборочные бюджеты токенов из априорного распределения, заставляя модель суммировать оптимальный ответ для каждого сокращенного процесса мышления для проверки. Это вводит проверяемые плотные награды в процесс рассуждений, способствуя более эффективному распределению заслуг в оптимизации RL. Затем мы оптимизируем политики мышления и суммирования раздельно, чтобы максимизировать совокупную награду. Кроме того, мы вводим новую технику снижения дисперсии, Budget Relative Policy Optimization (BRPO), для повышения устойчивости и эффективности процесса обучения при усилении политики мышления. Эмпирические результаты в задачах математического рассуждения показывают, что наш метод стабильно превосходит GRPO при всех бюджетах мышления в различных априорных распределениях, улучшая как обучение, так и эффективность использования токенов.
Нейросимволические (NeSy) предсказатели объединяют нейронное восприятие с символическим рассуждением для решения задач, таких как визуальное рассуждение. Однако стандартные NeSy-предсказатели предполагают условную независимость между извлекаемыми символами, что ограничивает их способность моделировать взаимодействия и неопределённость, часто приводя к излишне уверенным предсказаниям и слабой обобщаемости на данные, выходящие за пределы распределения. Чтобы преодолеть ограничения предположения о независимости, мы представляем нейросимволические диффузионные модели (NeSyDMs) — новый класс NeSy-предсказателей, использующих дискретную диффузию для моделирования зависимостей между символами. Наш подход повторно использует предположение о независимости из NeSy-предсказателей на каждом шаге диффузионного процесса, что позволяет масштабируемое обучение при сохранении учёта зависимостей между символами и количественной оценки неопределённости. На синтетических и реальных тестах, включая высокоразмерное визуальное планирование маршрутов и основанное на правилах автономное вождение, NeSyDMs достигают наивысшей точности среди NeSy-предсказателей и демонстрируют сильную калибровку.
Ключевой тенденцией в области крупных моделей рассуждений (например, OpenAI o3) является их естественная способность использовать внешние инструменты, такие как веб-браузеры для поиска, а также написание и выполнение кода для манипуляции изображениями, что позволяет им "мыслить" с помощью изображений. В сообществе исследователей, работающих с открытым исходным кодом, хотя значительный прогресс был достигнут в развитии агентских способностей, ограниченных только языком, таких как вызов функций и интеграция инструментов, разработка мультимодальных агентских возможностей, включающих настоящее "мышление" с помощью изображений, и соответствующих бенчмарков, остается менее изученной. Данная работа подчеркивает эффективность визуального агентского усиленного тонкого настройки (Visual-ARFT) для обеспечения гибких и адаптивных способностей рассуждения для крупных визуально-языковых моделей (LVLMs). Благодаря Visual-ARFT, открытые LVLMs получают возможность просматривать веб-сайты для получения актуальной информации и писать код для манипуляции и анализа входных изображений с использованием таких техник, как обрезка, поворот и другие методы обработки изображений. Мы также представляем мультимодальный агентский инструментальный бенчмарк (MAT) с двумя настройками (MAT-Search и MAT-Coding), предназначенный для оценки агентских способностей LVLMs в поиске и написании кода. Наши экспериментальные результаты показывают, что Visual-ARFT превосходит базовый уровень на +18,6% F1 / +13,0% EM в MAT-Coding и на +10,3% F1 / +8,7% EM в MAT-Search, в конечном итоге опережая GPT-4o. Visual-ARFT также демонстрирует улучшение на +29,3% F1 / +25,9% EM на существующих бенчмарках многошаговых вопросов и ответов, таких как 2Wiki и HotpotQA, что свидетельствует о сильных обобщающих способностях. Наши результаты позволяют предположить, что Visual-ARFT предлагает перспективный путь к созданию устойчивых и обобщаемых мультимодальных агентов.
DeepSeek-R1 продемонстрировала выдающуюся эффективность в стимулировании способностей к рассуждению и обобщению у крупных языковых моделей (LLM) с использованием обучения с подкреплением. Тем не менее, потенциал вычислительного моделирования, индуцированного рассуждениями, не был тщательно исследован в контексте оценки качества изображений (IQA) — задачи, критически зависящей от визуального анализа. В данной статье мы представляем VisualQuality-R1, модель оценки качества изображений без эталона (NR-IQA), основанную на рассуждениях, и обучаем её с использованием обучения с подкреплением для ранжирования — алгоритма, адаптированного к внутренне относительной природе визуального качества. В частности, для пары изображений мы применяем оптимизацию групповой относительной политики для генерации нескольких оценок качества для каждого изображения. Эти оценки затем используются для вычисления сравнительных вероятностей того, что одно изображение имеет более высокое качество, чем другое, в рамках модели Терстона. Вознаграждения для каждой оценки качества определяются с использованием непрерывных мер точности, а не дискретизированных бинарных меток. Многочисленные эксперименты показывают, что предложенная модель VisualQuality-R1 стабильно превосходит дискриминативные модели NR-IQA, основанные на глубоком обучении, а также недавний метод регрессии качества, индуцированный рассуждениями. Более того, VisualQuality-R1 способна генерировать контекстуально насыщенные описания качества, согласованные с человеческим восприятием, и поддерживает обучение на нескольких наборах данных без необходимости пересогласования перцептивных шкал. Эти особенности делают VisualQuality-R1 особенно подходящей для надёжного измерения прогресса в широком спектре задач обработки изображений, таких как супер-разрешение и генерация изображений.
Трансформеры, стандартная реализация для больших языковых моделей (LLM), обычно состоят из десятков или сотен дискретных слоев. Хотя большее количество слоев может привести к лучшей производительности, этот подход подвергается сомнению как далекий от эффективности, особенно учитывая превосходство непрерывных слоев, продемонстрированное диффузионными и потоковыми моделями для генерации изображений. Мы предлагаем Latent Flow Transformer (LFT), который заменяет блок слоев на один обученный транспортный оператор, обученный с помощью метода согласования потоков, что обеспечивает значительное сжатие при сохранении совместимости с исходной архитектурой. Кроме того, мы устраняем ограничения существующих потоковых методов в сохранении связности, вводя алгоритм Flow Walking (FW). На модели Pythia-410M LFT, обученный с согласованием потоков, сжимает 6 из 24 слоев и превосходит прямое пропускание 2 слоев (KL-дивергенция лог-вероятностей модели 0.407 против 0.529), демонстрируя осуществимость этого подхода. При обучении с использованием FW LFT дополнительно дистиллирует 12 слоев в один, снижая KL до 0.736, что превосходит результат пропускания 3 слоев (0.932), значительно сокращая разрыв между авторегрессивными и потоковыми парадигмами генерации.
Цель: С развитием крупных языковых моделей (LLM) для здравоохранения возникает необходимость в конкурентоспособных моделях с открытым исходным кодом для защиты общественных интересов. Данная работа вносит вклад в область открытых медицинских LLM, оптимизируя ключевые этапы предобработки данных и обучения, а также демонстрируя, как повысить безопасность модели (с помощью DPO) и её эффективность (с помощью RAG). Используемая методология оценки, включающая четыре различных типа тестов, задаёт новый стандарт для этой области. Полученные модели, показавшие конкурентоспособность с лучшими частными аналогами, выпускаются под разрешительной лицензией. Методы: На основе мощных базовых моделей, таких как Llama 3.1 и Qwen 2.5, Aloe Beta использует пользовательский набор данных, дополняя общедоступные данные синтетическими примерами цепочки рассуждений (Chain of Thought). Модели проходят этап согласования с помощью оптимизации прямых предпочтений (Direct Preference Optimization), уделяя особое внимание этической и политически согласованной производительности в условиях атак на взлом (jailbreaking). Оценка включает закрытые, открытые, тесты на безопасность и экспертные оценки для максимизации надёжности результатов. Результаты: На основе стабильной производительности семейства моделей Aloe даются рекомендации по всему процессу разработки. Эти модели демонстрируют конкурентоспособные результаты на тестах, связанных с здравоохранением и медицинскими областями, и часто предпочитаются медицинскими специалистами. В вопросах предвзятости и токсичности модели Aloe Beta значительно повышают безопасность, показывая устойчивость к неизвестным атакам на взлом. Для ответственного выпуска к моделям семейства Aloe прилагается детальная оценка рисков, специфичных для здравоохранения. Заключение: Модели Aloe Beta и методология их создания представляют собой значительный вклад в область открытых медицинских LLM, предлагая передовую производительность при соблюдении высоких этических требований. Данная работа задаёт новый стандарт для разработки и отчётности по согласованным LLM в здравоохранении.
Обучение с подкреплением (RL) недавно продемонстрировало значительный потенциал в улучшении способностей к рассуждению у крупных языковых моделей (LLM). В частности, метод "Zero" обучения с подкреплением, представленный Deepseek-R1-Zero, позволяет проводить прямое RL-обучение базовых LLM без необходимости промежуточного этапа контролируемой тонкой настройки. Несмотря на эти достижения, текущие исследования в области рассуждений LLM в основном сосредоточены на математических и программистских задачах, что во многом обусловлено обилием данных и простотой проверки ответов. Это ограничивает применимость и обобщаемость таких моделей в более широких областях, где вопросы часто имеют разнообразные представления ответов, а данные более скудны. В данной статье мы предлагаем General-Reasoner, новую парадигму обучения, разработанную для улучшения способностей LLM к рассуждениям в различных областях. Наши ключевые вклады включают: (1) создание крупномасштабного, высококачественного набора данных вопросов с проверяемыми ответами, собранных с помощью веб-краулинга и охватывающих широкий спектр дисциплин; и (2) разработку генеративной модели для проверки ответов, которая заменяет традиционные правила проверки на возможности цепочки рассуждений и контекстного осознания. Мы обучаем серию моделей и оцениваем их на широком спектре наборов данных, охватывающих такие области, как физика, химия, финансы, электроника и другие. Наше всестороннее тестирование на 12 бенчмарках (например, MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH и MATH AMC) демонстрирует, что General-Reasoner превосходит существующие базовые методы, достигая устойчивой и обобщаемой производительности в задачах рассуждений, сохраняя при этом превосходную эффективность в математических задачах.
Несмотря на свои сильные стороны, крупные языковые модели (LLM) часто не могут точно выразить свою уверенность, что затрудняет оценку их возможных ошибок и снижает их надежность. В данной работе мы демонстрируем, что модели, использующие расширенное цепочечное рассуждение (CoT), не только превосходят другие модели в решении задач, но и точнее выражают свою уверенность. В частности, мы протестировали шесть моделей с рассуждениями на шести наборах данных и обнаружили, что они демонстрируют строго лучшую калибровку уверенности по сравнению с моделями без рассуждений в 33 из 36 случаев. Наш детальный анализ показывает, что эти улучшения в калибровке обусловлены "медленным мышлением" моделей с рассуждениями — такими как исследование альтернативных подходов и возврат к предыдущим шагам, — что позволяет им динамически корректировать свою уверенность в процессе CoT, делая её всё более точной. В частности, мы обнаружили, что модели с рассуждениями становятся всё лучше калиброванными по мере развёртывания их CoT, чего не наблюдается у моделей без рассуждений. Более того, удаление элементов "медленного мышления" из CoT приводит к значительному ухудшению калибровки. Наконец, мы показываем, что эти преимущества не ограничиваются моделями с рассуждениями — модели без рассуждений также улучшают свою калибровку, если их направлять на "медленное мышление" через обучение в контексте.
Недавние модели крупномасштабного рассуждения (Large Reasoning Models, LRMs) продемонстрировали существенное улучшение способностей к рассуждению по сравнению с традиционными крупными языковыми моделями (Large Language Models, LLMs) благодаря включению расширенных процессов мышления перед генерацией окончательных ответов. Однако чрезмерно длительное мышление приводит к значительным накладным расходам в виде потребления токенов и задержек, что особенно избыточно для простых запросов. В данной работе мы представляем модели крупномасштабного гибридного рассуждения (Large Hybrid-Reasoning Models, LHRMs) — первый тип моделей, способных адаптивно определять необходимость выполнения мышления на основе контекстной информации пользовательских запросов. Для достижения этого мы предлагаем двухэтапный процесс обучения, включающий гибридную тонкую настройку (Hybrid Fine-Tuning, HFT) в качестве начального этапа, за которым следует обучение с подкреплением в режиме онлайн с использованием предложенного метода оптимизации групповой политики (Hybrid Group Policy Optimization, HGPO) для неявного обучения выбору подходящего режима мышления. Кроме того, мы вводим метрику под названием Гибридная точность (Hybrid Accuracy) для количественной оценки способности модели к гибридному мышлению. Результаты многочисленных экспериментов показывают, что LHRMs могут адаптивно выполнять гибридное мышление для запросов различной сложности и типа. Они превосходят существующие LRMs и LLMs как в способностях к рассуждению, так и в общих возможностях, одновременно значительно повышая эффективность. В совокупности наша работа призывает к пересмотру целесообразного использования расширенных процессов мышления и предоставляет прочную основу для создания систем гибридного мышления.
Современные языковые модели, ориентированные на рассуждения, достигают высокой точности за счет генерации длинных промежуточных цепочек рассуждений перед выдачей окончательных ответов. Хотя такой подход эффективен для решения задач, требующих логического мышления, длинные цепочки рассуждений значительно увеличивают использование памяти и время генерации токенов, что ограничивает практическое применение таких моделей. Мы предлагаем метод сжатия путей рассуждений (Reasoning Path Compression, RPC), который ускоряет вывод, не требуя дополнительного обучения, за счет использования семантической разреженности путей рассуждений. RPC периодически сжимает кэш ключей и значений (KV cache), сохраняя только те элементы, которые получают высокие оценки важности, вычисляемые с помощью окна-селектора, состоящего из недавно сгенерированных запросов. Эксперименты показывают, что RPC увеличивает скорость генерации модели QwQ-32B до 1,60 раз по сравнению с выводом с полным кэшем KV, при этом точность снижается на 1,2% на тестовом наборе AIME 2024. Наши результаты демонстрируют, что семантическая разреженность в траекториях рассуждений может быть эффективно использована для сжатия, предлагая практический путь к эффективному развертыванию моделей рассуждений. Наш код доступен по адресу https://github.com/jiwonsong-dev/ReasoningPathCompression.
Обучение моделей искусственного интеллекта (ИИ) способностям к обобщённому рассуждению долгое время оставалось сложной задачей. Недавние исследования в области больших языковых моделей (LLM), таких как DeepSeek-R1, показали, что методы обучения с подкреплением, такие как GRPO, могут позволить предварительно обученным LLM развивать способности к рассуждению с использованием простых пар вопрос-ответ. В данной работе мы стремимся обучить визуальные языковые модели (VLM) выполнять рассуждения на основе данных изображений с помощью обучения с подкреплением и визуальных пар вопрос-ответ, без явного контроля за цепочкой рассуждений (CoT). Наши результаты показывают, что простое применение обучения с подкреплением к VLM — путём запроса модели на создание цепочки рассуждений перед предоставлением ответа — может привести к тому, что модель будет использовать упрощённые пути для лёгких вопросов, что снижает её способность к обобщению на неизвестных распределениях данных. Мы утверждаем, что ключом к предотвращению упрощённого обучения является поощрение модели к интерпретации изображений до начала рассуждений. Поэтому мы обучаем модель следовать формату вывода "описание-рассуждение-ответ": сначала генерировать подробное описание изображения, а затем строить развёрнутую цепочку рассуждений. При обучении на 273 тыс. визуальных пар вопрос-ответ без CoT и использовании только обучения с подкреплением наша модель, названная Visionary-R1, превосходит мощные мультимодальные модели, такие как GPT-4o, Claude3.5-Sonnet и Gemini-1.5-Pro, на нескольких бенчмарках визуального рассуждения.
Крупные мультимодальные модели (LMMs) недавно стали мощным инструментом для понимания длинных видео (LVU), что стимулировало разработку стандартизированных LVU-бенчмарков для оценки их производительности. Однако наше исследование выявило довольно трезвый урок для существующих LVU-бенчмарков. Во-первых, большинство существующих бенчмарков в значительной степени полагаются на вопросы с множественным выбором (MCQs), результаты оценки которых завышены из-за возможности угадать правильный ответ. Во-вторых, значительная часть вопросов в этих бенчмарках имеет сильные априорные данные, позволяющие моделям отвечать напрямую, даже не просматривая входное видео. Например, Gemini-1.5-Pro может достичь точности более 50%, получив случайный кадр из длинного видео на Video-MME. Мы также наблюдаем, что увеличение количества кадров не обязательно приводит к улучшению на существующих бенчмарках, что противоречит интуиции. В результате валидность и надежность текущих LVU-бенчмарков подрываются, что препятствует достоверной оценке способности LMMs к пониманию длинных видео. Чтобы решить эту проблему, мы предлагаем VideoEval-Pro, реалистичный LVU-бенчмарк, содержащий вопросы с открытыми краткими ответами, которые действительно требуют понимания всего видео. VideoEval-Pro оценивает как понимание на уровне сегментов, так и на уровне всего видео через задачи восприятия и рассуждения. Оценив 21 проприетарную и открытую видео-LMM, мы пришли к следующим выводам: (1) видео-LMMs демонстрируют резкое падение производительности (>25%) на вопросах с открытыми ответами по сравнению с MCQs; (2) удивительно, но более высокие баллы по MCQs не приводят к более высоким баллам по открытым вопросам на VideoEval-Pro; (3) по сравнению с другими MCQ-бенчмарками, VideoEval-Pro больше выигрывает от увеличения количества входных кадров. Наши результаты показывают, что VideoEval-Pro предлагает более реалистичную и надежную меру понимания длинных видео, предоставляя более четкое представление о прогрессе в этой области.
Интеллектуальное создание игр представляет собой революционный прорыв в разработке игр, использующий генеративный искусственный интеллект для динамического создания и улучшения игрового контента. Несмотря на значительные успехи в области генеративных моделей, комплексный синтез высококачественных игровых ресурсов, включая как изображения, так и видео, остается сложной задачей. Для создания высококачественного игрового контента, который одновременно соответствует предпочтениям игроков и значительно повышает эффективность работы дизайнеров, мы представляем проект Hunyuan-Game, инновационную разработку, призванную революционизировать интеллектуальное производство игр. Hunyuan-Game включает два основных направления: генерацию изображений и генерацию видео. Компонент генерации изображений основан на обширном наборе данных, включающем миллиарды игровых изображений, что привело к созданию группы специализированных моделей генерации изображений, адаптированных для игровых сценариев: (1) Общая генерация изображений из текста. (2) Генерация визуальных эффектов для игр, включая создание эффектов на основе текста и эталонных изображений. (3) Генерация прозрачных изображений для персонажей, сцен и визуальных эффектов. (4) Генерация игровых персонажей на основе эскизов, черно-белых изображений и белых моделей. Компонент генерации видео основан на всеобъемлющем наборе данных, включающем миллионы игровых и аниме-видео, что привело к разработке пяти ключевых алгоритмических моделей, каждая из которых направлена на решение критических проблем в разработке игр и обладает высокой адаптацией к различным игровым видео-сценариям: (1) Генерация видео из изображений. (2) Синтез видео с аватарами в 360 A/T позах. (3) Генерация динамических иллюстраций. (4) Генеративное улучшение разрешения видео. (5) Генерация интерактивных игровых видео. Эти модели генерации изображений и видео не только демонстрируют высокий уровень эстетической выразительности, но и глубоко интегрируют знания в предметной области, формируя системное понимание разнообразных художественных стилей игр и аниме.
Обрезка больших языковых моделей (LLM) стала перспективной технологией для сжатия LLM, что позволяет их развертывание на устройствах с ограниченными ресурсами. Однако текущие методы обычно требуют доступа к публичным калибровочным образцам, которые могут быть сложными для получения в областях, чувствительных к конфиденциальности. Для решения этой проблемы мы представляем FedPrLLM — комплексную фреймворк для федеративной обрезки, предназначенную для сжатия LLM с сохранением конфиденциальности. В FedPrLLM каждый клиент должен только рассчитать матрицу маски обрезки на основе своих локальных калибровочных данных и поделиться ею с сервером для обрезки глобальной модели. Этот подход позволяет совместно обрезать глобальную модель с учетом знаний каждого клиента, сохраняя при этом конфиденциальность локальных данных. Кроме того, мы проводим обширные эксперименты для изучения различных возможностей в рамках фреймворка FedPrLLM, включая различные группы сравнения, стратегии обрезки и решение о масштабировании весов. Наши обширные оценки показывают, что одноэтапная обрезка с сравнением слоев и без масштабирования весов является оптимальным выбором в рамках FedPrLLM. Мы надеемся, что наша работа поможет направить будущие усилия по обрезке LLM в областях, чувствительных к конфиденциальности. Наш код доступен по адресу https://github.com/Pengxin-Guo/FedPrLLM.
Кодовое переключение (CS) представляет собой значительную проблему для крупных языковых моделей (LLMs), однако его понятность остается недостаточно изученной в контексте LLMs. Мы представляем CS-Sum, инструмент для оценки понятности CS в LLMs через суммирование диалогов с CS на английский язык. CS-Sum является первым эталонным тестом для суммирования диалогов с CS для пар языков мандарин-английский (EN-ZH), тамильский-английский (EN-TA) и малайский-английский (EN-MS), содержащим 900–1300 аннотированных человеком диалогов для каждой языковой пары. Оценивая десять LLMs, включая модели с открытым и закрытым исходным кодом, мы анализируем их производительность в условиях few-shot, подхода «перевод-суммирование» и тонкой настройки (LoRA, QLoRA на синтетических данных). Наши результаты показывают, что, несмотря на высокие оценки по автоматизированным метрикам, LLMs допускают тонкие ошибки, которые искажают полный смысл диалога. В связи с этим мы выделяем три наиболее распространенных типа ошибок, которые LLMs допускают при обработке ввода с CS. Частота ошибок варьируется в зависимости от языковых пар и LLMs, причем некоторые модели демонстрируют более частые ошибки на определенных языковых парах, что подчеркивает необходимость специализированного обучения на данных с кодовым переключением.
Невидимое водяное знаковое изображение может защитить авторские права на изображения и предотвратить злонамеренное использование визуальных генеративных моделей. Однако существующие методы генеративного водяного знака в основном разработаны для диффузионных моделей, в то время как водяное знаковое для авторегрессионных моделей генерации изображений остается малоизученным. Мы предлагаем IndexMark, фреймворк для водяного знакового без необходимости обучения, предназначенный для авторегрессионных моделей генерации изображений. IndexMark вдохновлен свойством избыточности кодовой книги: замена авторегрессивно сгенерированных индексов на похожие индексы приводит к незначительным визуальным различиям. Основной компонент IndexMark — это простой, но эффективный метод "сопоставления и замены", который тщательно выбирает токены водяного знака из кодовой книги на основе сходства токенов и способствует использованию токенов водяного знака через их замену, тем самым встраивая водяной знак без ущерба для качества изображения. Проверка водяного знака осуществляется путем расчета доли токенов водяного знака в сгенерированных изображениях, а точность дополнительно повышается с помощью Индексного Кодировщика. Кроме того, мы вводим вспомогательную схему валидации для повышения устойчивости к атакам обрезки. Эксперименты показывают, что IndexMark достигает передовых показателей по качеству изображений и точности проверки, а также демонстрирует устойчивость к различным искажениям, включая обрезку, шумы, гауссово размытие, случайное стирание, изменение цвета и JPEG-сжатие.
Несмотря на широкое распространение, мультимодальные большие языковые модели (MLLMs) демонстрируют снижение производительности при столкновении с незнакомыми запросами в условиях сдвигов распределения. Существующие методы улучшения обобщающей способности MLLMs обычно требуют либо большего количества обучающих данных, либо более сложных архитектур моделей, что влечет за собой значительные затраты человеческого труда или вычислительных ресурсов. В данной работе мы предлагаем альтернативный подход для повышения устойчивости MLLMs при сдвигах распределения, основываясь на перспективе обучения представлений. Вдохновленные принципом информационного узкого места (IB), мы выводим вариационную нижнюю границу IB для MLLMs и разрабатываем практическую реализацию — настройку визуального инструктивного узкого места (Vittle). Затем мы предоставляем теоретическое обоснование Vittle, раскрывая его связь с информационно-теоретической метрикой устойчивости MLLM. Эмпирическая проверка трех MLLMs на задачах открытого и закрытого вопросно-ответного взаимодействия, а также обнаружения галлюцинаций объектов на 45 наборах данных, включая 30 сценариев сдвига, демонстрирует, что Vittle последовательно улучшает устойчивость MLLMs при сдвигах, стремясь к обучению минимально достаточного представления.
По мере экспоненциального роста размеров крупных языковых моделей память GPU становится узким местом для адаптации этих моделей к последующим задачам. В данной работе мы стремимся расширить границы эффективного использования памяти при обучении, минимизируя потребление памяти на веса модели, градиенты и состояния оптимизатора в рамках единой структуры. Наша идея заключается в устранении как градиентов, так и состояний оптимизатора с использованием оптимизации нулевого порядка, которая аппроксимирует градиенты путем возмущения весов во время прямых проходов для определения направлений градиентов. Чтобы минимизировать использование памяти на веса, мы применяем квантование модели, например, преобразование из bfloat16 в int4. Однако прямое применение оптимизации нулевого порядка к квантованным весам невозможно из-за разрыва точности между дискретными весами и непрерывными градиентами, что потребовало бы де-квантования и повторного квантования. Для преодоления этой проблемы мы предлагаем Квантованную Оптимизацию Нулевого Порядка (QZO), новый подход, который возмущает непрерывную шкалу квантования для оценки градиентов и использует метод ограничения направленной производной для стабилизации обучения. QZO является ортогональным как к скалярным, так и к кодексным методам пост-тренировочного квантования. По сравнению с полной тонкой настройкой в bfloat16, QZO может снизить общую стоимость памяти более чем в 18 раз для 4-битных LLM и позволяет выполнять тонкую настройку Llama-2-13B и Stable Diffusion 3.5 Large на одном GPU с 24 ГБ памяти.
Несмотря на впечатляющие достижения в области визуально-языковых моделей (VLMs) для многомодальных задач, их зависимость от RGB-входов ограничивает точное пространственное понимание. Существующие методы интеграции пространственных подсказок, таких как облака точек или данные о глубине, либо требуют специализированных сенсоров, либо неэффективно используют информацию о глубине для задач более высокого порядка. В связи с этим мы предлагаем новый метод пространственного восприятия и рассуждения, названный SSR, — инновационную структуру, которая преобразует необработанные данные о глубине в структурированные, интерпретируемые текстовые обоснования. Эти текстовые обоснования служат значимыми промежуточными представлениями, существенно улучшающими способности к пространственному рассуждению. Кроме того, мы используем дистилляцию знаний для сжатия сгенерированных обоснований в компактные латентные эмбеддинги, что позволяет эффективно интегрировать их в существующие VLMs без необходимости переобучения. Для всесторонней оценки мы представляем новый набор данных SSR-CoT, масштабный визуально-языковой набор данных для рассуждений, обогащенный промежуточными аннотациями пространственного рассуждения, а также SSRBench — комплексный многозадачный бенчмарк. Многочисленные эксперименты на различных бенчмарках демонстрируют, что SSR существенно улучшает использование данных о глубине и повышает качество пространственного рассуждения, тем самым продвигая VLMs к более человеко-подобному многомодальному пониманию. Наш проект доступен по адресу: https://yliu-cs.github.io/SSR.
Архитектуры Mixture-of-Experts (MoE) в рамках крупных моделей рассуждений (Large Reasoning Models, LRMs) достигли впечатляющих способностей к рассуждению за счет избирательной активации экспертов, что способствует структурированным когнитивным процессам. Несмотря на значительные успехи, существующие модели рассуждений часто страдают от когнитивных неэффективностей, таких как чрезмерное или недостаточное обдумывание. Чтобы устранить эти ограничения, мы представляем новую методологию управления на этапе вывода, названную Reinforcing Cognitive Experts (RICE), которая призвана улучшить производительность рассуждений без дополнительного обучения или сложных эвристик. Используя нормализованную точечную взаимную информацию (nPMI), мы систематически идентифицируем специализированных экспертов, называемых «когнитивными экспертами», которые координируют метауровневые операции рассуждения, характеризуемые токенами, такими как «<think>». Эмпирические оценки с ведущими LRM на основе MoE (DeepSeek-R1 и Qwen3-235B) на строгих количественных и научных бенчмарках демонстрируют заметные и устойчивые улучшения в точности рассуждений, когнитивной эффективности и кросс-доменной обобщаемости. Важно отметить, что наш легковесный подход значительно превосходит распространенные методы управления рассуждениями, такие как проектирование промптов и ограничения декодирования, сохраняя при этом общие навыки модели по следованию инструкциям. Эти результаты подчеркивают усиление когнитивных экспертов как перспективное, практичное и интерпретируемое направление для повышения когнитивной эффективности в продвинутых моделях рассуждений.
Генеративный ИИ-поиск трансформирует информационный поиск, предоставляя комплексные ответы на сложные запросы, что снижает зависимость пользователей от ручного просмотра и обобщения множества веб-страниц. Однако, хотя этот подход повышает удобство, он нарушает цикл улучшений, основанный на обратной связи, который исторически двигал эволюцию традиционного веб-поиска. Веб-поиск может непрерывно совершенствовать свои модели ранжирования, собирая масштабные и детализированные данные о пользовательской активности (например, клики, время пребывания) на уровне документов. В отличие от этого, генеративный ИИ-поиск работает через более длинный поисковый конвейер, включающий декомпозицию запросов, извлечение документов и генерацию ответов, но обычно получает лишь обобщённую обратную связь на финальный результат. Это создаёт разрыв в цикле обратной связи, где отзывы пользователей о конечном выводе не могут быть эффективно сопоставлены с конкретными компонентами системы, что затрудняет улучшение каждого промежуточного этапа и поддержание цикла обратной связи. В данной статье мы представляем NExT-Search, новое поколение поискового подхода, призванного вернуть детализированную обратную связь на уровне процессов в генеративный ИИ-поиск. NExT-Search объединяет два взаимодополняющих режима: Режим отладки пользователем, который позволяет активным пользователям вмешиваться на ключевых этапах; и Режим теневого пользователя, где персонализированный агент имитирует предпочтения пользователя и предоставляет ИИ-ассистированную обратную связь для менее активных пользователей. Кроме того, мы рассматриваем, как эти сигналы обратной связи могут быть использованы через онлайн-адаптацию, которая уточняет текущие результаты поиска в реальном времени, и офлайн-обновление, которое агрегирует логи взаимодействий для периодической тонкой настройки моделей декомпозиции запросов, извлечения и генерации. Возвращая контроль человека над ключевыми этапами конвейера генеративного ИИ-поиска, мы считаем, что NExT-Search предлагает перспективное направление для создания богатых обратной связью ИИ-поисковых систем, способных непрерывно развиваться вместе с отзывами пользователей.
Дистилляция стала практичным и эффективным подходом для улучшения способностей к рассуждению у открытых языковых моделей. В данной работе мы проводим масштабное эмпирическое исследование дистилляции данных для рассуждений, собирая проверенные выходные данные от трех современных моделей-учителей — AM-Thinking-v1, Qwen3-235B-A22B и DeepSeek-R1 — на общем корпусе из 1,89 миллиона запросов. Мы создаем три параллельных набора данных и анализируем их распределения, обнаруживая, что данные, дистиллированные с помощью AM-Thinking-v1, демонстрируют большее разнообразие длины токенов и более низкую перплексию. Модели-ученики, обученные на каждом наборе данных, оцениваются на тестах для рассуждений, включая AIME2024, AIME2025, MATH500 и LiveCodeBench. Модель на основе AM стабильно показывает наилучшие результаты (например, 84,3 на AIME2024, 72,2 на AIME2025, 98,4 на MATH500 и 65,9 на LiveCodeBench) и демонстрирует адаптивное поведение при генерации ответов — более длинные ответы для сложных задач и более короткие для простых. Эти результаты подчеркивают ценность высококачественных, проверенных трасс рассуждений. Мы публикуем дистиллированные наборы данных AM-Thinking-v1 и Qwen3-235B-A22B для поддержки будущих исследований в области открытых и высокопроизводительных языковых моделей, ориентированных на рассуждения. Наборы данных доступны на платформе Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
По мере того как языковые модели становятся более мощными и сложными, крайне важно, чтобы они оставались надежными и заслуживающими доверия. Существуют тревожные предварительные свидетельства того, что модели могут пытаться обманывать или скрывать информацию от своих операторов. Чтобы изучить способность современных методов выявлять такие скрытые знания, мы обучаем модель Taboo: языковую модель, которая описывает конкретное секретное слово, не называя его явно. Важно отметить, что секретное слово не представлено в обучающих данных или запросе модели. Затем мы исследуем методы для раскрытия этого секрета. Сначала мы оцениваем неинтерпретируемые (чернобоксные) подходы. После этого мы разрабатываем в основном автоматизированные стратегии, основанные на методах механистической интерпретируемости, включая logit lens и разреженные автоэнкодеры. Оценка показывает, что оба подхода эффективны для выявления секретного слова в нашей концептуальной настройке. Наши результаты подчеркивают перспективность этих подходов для извлечения скрытых знаний и предлагают несколько перспективных направлений для будущих исследований, включая тестирование и уточнение этих методов на более сложных модельных организмах. Эта работа направлена на решение важной проблемы извлечения скрытых знаний из языковых моделей, тем самым способствуя их безопасному и надежному использованию.
Мы представляем Vox-Profile — всеобъемлющий бенчмарк для характеристики богатых признаков говорящего и речи с использованием базовых моделей обработки речи. В отличие от существующих работ, которые сосредоточены на одном аспекте характеристик говорящего, Vox-Profile предоставляет целостные и многомерные профили, отражающие как статические признаки говорящего (например, возраст, пол, акцент), так и динамические свойства речи (например, эмоции, темп речи). Этот бенчмарк основан на науке о речи и лингвистике, разработан при участии экспертов в данной области для точного индексирования характеристик говорящего и речи. Мы проводим эксперименты с использованием более чем 15 общедоступных наборов речевых данных и нескольких широко используемых базовых моделей обработки речи, которые охватывают различные статические и динамические свойства говорящего и речи. Помимо бенчмарк-экспериментов, мы демонстрируем несколько прикладных задач, поддерживаемых Vox-Profile. Во-первых, мы показываем, что Vox-Profile может дополнять существующие наборы данных для распознавания речи, чтобы анализировать вариативность производительности ASR. Vox-Profile также используется как инструмент для оценки производительности систем генерации речи. Наконец, мы оцениваем качество наших автоматизированных профилей путем сравнения с экспертной оценкой и демонстрируем конвергентную валидность. Vox-Profile доступен публично по адресу: https://github.com/tiantiaf0627/vox-profile-release.
Gemini всё чаще используется для выполнения задач от имени пользователей, где возможности вызова функций и использования инструментов позволяют модели получать доступ к данным пользователей. Однако некоторые инструменты требуют доступа к ненадёжным данным, что влечёт за собой риски. Злоумышленники могут внедрять вредоносные инструкции в ненадёжные данные, что приводит к отклонению модели от ожиданий пользователя и неправильной обработке их данных или прав доступа. В этом отчёте мы излагаем подход Google DeepMind к оценке устойчивости моделей Gemini к атакам и описываем основные уроки, извлечённые в процессе. Мы тестируем, как Gemini справляется с изощрённым противником, используя фреймворк для оценки устойчивости к атакам, который применяет набор адаптивных методов атак, непрерывно тестируя прошлые, текущие и будущие версии Gemini. Мы описываем, как эти постоянные оценки напрямую помогают сделать Gemini более устойчивой к манипуляциям.
Тонкая настройка с подкреплением (Reinforcement Finetuning, RFT) стала стандартным подходом для улучшения способностей крупных языковых моделей (LLM) к рассуждению. Однако её влияние на доверие к моделям остаётся недостаточно изученным. В данной работе мы выявляем и систематически исследуем критический побочный эффект RFT, который мы называем "налогом на галлюцинации": ухудшение поведения отказа, приводящее к тому, что модели уверенно генерируют галлюцинированные ответы на неразрешимые вопросы. Для изучения этого явления мы представляем SUM (Synthetic Unanswerable Math) — высококачественный набор данных, состоящий из неразрешимых математических задач, предназначенных для проверки способности моделей распознавать неразрешимые вопросы путём рассуждения на основе недостаточной или неоднозначной информации. Наши результаты показывают, что стандартная тренировка RFT может снизить частоту отказов модели более чем на 80%, что значительно увеличивает склонность модели к галлюцинациям. Мы также демонстрируем, что включение всего 10% данных SUM в процессе RFT существенно восстанавливает корректное поведение отказа с минимальными компромиссами в точности на решаемых задачах. Важно отметить, что этот подход позволяет LLM использовать вычислительные ресурсы на этапе вывода для рассуждения о собственной неопределённости и границах знаний, улучшая обобщение не только на задачи из других областей математики, но и на задачи фактологического ответа на вопросы.
Несмотря на их впечатляющий успех и применение в различных рабочих процессах, языковые модели иногда выдают недостоверные ответы. Наше ограниченное понимание того, как правдивость механистически закодирована в этих моделях, ставит под угрозу их надежность и безопасность. В данной статье мы предлагаем метод для идентификации представлений правдивости на уровне нейронов. Мы показываем, что языковые модели содержат "нейроны правдивости", которые кодируют правдивость независимо от темы. Эксперименты, проведенные на моделях различного масштаба, подтверждают существование таких нейронов, демонстрируя, что кодирование правдивости на уровне нейронов является свойством, присущим многим языковым моделям. Распределение нейронов правдивости по слоям согласуется с предыдущими исследованиями геометрии правдивости. Избирательное подавление активаций нейронов правдивости, обнаруженных с помощью набора данных TruthfulQA, ухудшает производительность как на TruthfulQA, так и на других тестовых наборах, что указывает на то, что механизмы правдивости не привязаны к конкретному набору данных. Наши результаты предлагают новые инсайты в механизмы, лежащие в основе правдивости в языковых моделях, и указывают потенциальные направления для повышения их доверия и надежности.
Разработка эффективных языковых моделей (LLM) с развитыми способностями к рассуждению обычно требует обучения с использованием обучения с подкреплением с верифицируемыми наградами (RLVR) или дистилляции с тщательно отобранными длинными цепочками рассуждений (CoT), что в значительной степени зависит от обширных обучающих данных. Это создает серьезную проблему, когда объем качественных обучающих данных ограничен. Мы предлагаем эффективную по выборкам двухэтапную стратегию обучения для разработки LLM с развитыми способностями к рассуждению при ограниченном надзоре. На первом этапе мы "разогреваем" модель, дистиллируя длинные CoT из игрушечной области, а именно логических головоломок "Рыцари и Лжецы" (K&K), чтобы приобрести общие навыки рассуждения. На втором этапе мы применяем RLVR к разогретой модели, используя ограниченный набор примеров из целевой области. Наши эксперименты демонстрируют, что этот двухфазный подход предлагает несколько преимуществ: (i) только этап разогрева способствует обобщенному рассуждению, что приводит к улучшению производительности в широком спектре задач, включая MATH, HumanEval⁺ и MMLU-Pro; (ii) когда как базовая модель, так и разогретая модель обучаются RLVR на одном и том же небольшом наборе данных (≤100 примеров), разогретая модель стабильно превосходит базовую; (iii) разогрев перед обучением RLVR позволяет модели сохранять кросс-доменную обобщаемость даже после обучения на конкретной области; (iv) введение этапа разогрева в процесс обучения не только повышает точность, но и общую эффективность использования выборок во время обучения RLVR. Результаты, представленные в этой статье, подчеркивают перспективность использования разогрева для создания устойчивых LLM с развитыми способностями к рассуждению в условиях ограниченных данных.
Обеспечение безопасности крупных языковых моделей (LLM) имеет критическое значение для их ответственного внедрения, однако существующие методы оценки часто делают акцент на производительности, а не на выявлении уязвимостей. Мы представляем Phare — многоязычную диагностическую платформу для анализа и оценки поведения LLM по трем ключевым направлениям: галлюцинации и надежность, социальные предубеждения и генерация вредоносного контента. Наше исследование 17 современных LLM выявило систематические уязвимости во всех аспектах безопасности, включая склонность к угодливости, чувствительность к формулировкам запросов и воспроизведение стереотипов. Акцентируя внимание на конкретных уязвимостях, а не просто ранжируя модели, Phare предоставляет исследователям и практикам полезные инсайты для создания более надежных, согласованных и заслуживающих доверия языковых систем.
Быстрое развитие методов поиска ошибок привело к обнаружению большего количества уязвимостей, чем разработчики могут разумно исправить, что создает острую необходимость в эффективных методах автоматизированного исправления программ (Automated Program Repair, APR). Однако сложность современных ошибок часто делает точный анализ первопричин трудным и ненадежным. Для решения этой проблемы мы предлагаем подход к исправлению на месте сбоя, который упрощает задачу исправления, одновременно снижая риск эксплуатации уязвимостей. Кроме того, мы представляем подход к генерации исправлений на основе шаблонов, который значительно снижает затраты на токены для крупных языковых моделей (Large Language Models, LLMs), сохраняя при этом эффективность и производительность. Мы реализовали наш прототип системы WILLIAMT и провели ее оценку в сравнении с современными инструментами APR. Наши результаты показывают, что в сочетании с лучшим агентом CodeRover-S WILLIAMT снижает затраты на токены на 45,9% и увеличивает процент исправления ошибок до 73,5% (+29,6%) на бенчмарке ARVO, который представляет собой эталонный набор уязвимостей в открытом исходном коде. Кроме того, мы демонстрируем, что WILLIAMT может эффективно функционировать даже без доступа к передовым LLMs: даже локальная модель, работающая на Mac M4 Mini, достигает приемлемого уровня исправления. Эти результаты подчеркивают широкую применимость и масштабируемость WILLIAMT.
С быстрым развитием мощных больших языковых моделей (LLM) в последние годы широкий спектр задач в области программной инженерии теперь может быть решен с использованием LLM, что значительно повышает производительность и масштабируемость. Множество эталонных наборов данных было разработано для оценки способностей этих моделей в написании кода, однако они в основном сосредоточены на задачах решения проблем и устранения ошибок. В отличие от них, мы представляем новый эталонный набор данных MIGRATION-BENCH с уникальной направленностью: миграция кода. MIGRATION-BENCH призван служить всеобъемлющим эталоном для миграции с Java 8 на последние долгосрочные поддерживаемые версии (LTS) (Java 17, 21). MIGRATION-BENCH включает полный набор данных и его подмножество, содержащее 5 102 и 300 репозиториев соответственно. Подмножество отобрано как репрезентативное, учитывая сложность и трудность задач, и предлагает универсальный ресурс для поддержки исследований в области миграции кода. Кроме того, мы предоставляем комплексную структуру оценки для облегчения строгого и стандартизированного тестирования LLM на этой сложной задаче. Мы также предлагаем SD-Feedback и демонстрируем, что LLM могут эффективно справляться с миграцией кода на уровне репозитория на Java 17. Для выбранного подмножества с использованием Claude-3.5-Sonnet-v2 SD-Feedback достигает 62,33% и 27,00% успешности (pass@1) для минимальной и максимальной миграции соответственно. Эталонный набор данных и исходный код доступны по адресам: https://huggingface.co/collections/AmazonScience и https://github.com/amazon-science/self_debug соответственно.
По мере развития посттренировочных технологий крупные языковые модели (LLM) все чаще дополняются структурированными способностями к многошаговому рассуждению, которые обычно оптимизируются с помощью обучения с подкреплением. Такие модели с улучшенными рассуждениями превосходят стандартные LLM в выполнении сложных задач и теперь лежат в основе многих коммерческих API LLM. Однако, чтобы защитить проприетарное поведение и снизить многословность, провайдеры обычно скрывают следы рассуждений, возвращая только окончательный ответ. Эта непрозрачность создает критический пробел в прозрачности: пользователи платят за невидимые токены рассуждений, которые часто составляют большую часть стоимости, но не имеют возможности проверить их подлинность. Это открывает двери для инфляции подсчета токенов, когда провайдеры могут завышать отчетность об использовании токенов или вводить синтетические, низкозатратные токены для увеличения счетов. Чтобы решить эту проблему, мы предлагаем CoIn — фреймворк для проверки, который аудирует как количество, так и семантическую валидность скрытых токенов. CoIn строит верифицируемое дерево хэшей из отпечатков токенов для проверки их количества и использует сопоставление на основе эмбеддингов для обнаружения сфабрикованного контента рассуждений. Эксперименты показывают, что CoIn, развернутый в качестве доверенного стороннего аудитора, может эффективно обнаруживать инфляцию подсчета токенов с успешностью до 94,7%, демонстрируя высокую способность восстанавливать прозрачность биллинга в непрозрачных сервисах LLM. Набор данных и код доступны по адресу https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
Разреженная смесь экспертов (SMoE) предлагает привлекательное решение для масштабирования сложности модели, выходящее за рамки увеличения глубины или ширины сети. Однако мы утверждаем, что эффективное обучение SMoE остается сложной задачей из-за субоптимального процесса маршрутизации, при котором эксперты, выполняющие вычисления, не участвуют напрямую в процессе маршрутизации. В данной работе мы предлагаем механизм конкуренции — новый подход к маршрутизации токенов к экспертам с наивысшим нейронным откликом. Теоретически мы показываем, что механизм конкуренции обладает лучшей эффективностью использования данных по сравнению с традиционной маршрутизацией через softmax. Кроме того, мы разрабатываем CompeteSMoE — простой, но эффективный алгоритм для обучения крупных языковых моделей, который использует маршрутизатор для изучения политики конкуренции, что позволяет достичь высокой производительности при низких затратах на обучение. Наши обширные эмпирические оценки на задачах визуальной настройки инструкций и предварительного обучения языку демонстрируют эффективность, устойчивость и масштабируемость CompeteSMoE по сравнению с современными стратегиями SMoE. Мы сделали реализацию доступной по адресу: https://github.com/Fsoft-AIC/CompeteSMoE. Данная работа является улучшенной версией предыдущего исследования, представленного в arXiv:2402.02526.
Рассуждения больших языковых моделей (LLM) для сложных задач неизбежно связаны с компромиссом между точностью решения и вычислительной эффективностью. Последующий этап проверки, хотя и направлен на повышение производительности, дополнительно усложняет эту картину, вводя собственный сложный компромисс: сложные генеративные модели вознаграждения (GenRMs) могут быть вычислительно непосильными, если их наивно интегрировать с LLM на этапе тестирования, в то время как более простые и быстрые методы могут быть недостаточно надежными. Для преодоления этих трудностей мы представляем FlexiVe — новый генеративный верификатор, который гибко балансирует вычислительные ресурсы между быстрым и надежным "быстрым мышлением" и тщательным "медленным мышлением", используя стратегию гибкого распределения бюджета проверки. Мы также предлагаем конвейер Solve-Detect-Verify — эффективную структуру масштабирования на этапе вывода, которая интеллектуально интегрирует FlexiVe, заранее определяя точки завершения решения для запуска целевой проверки и предоставления сфокусированной обратной связи решателю. Эксперименты показывают, что FlexiVe достигает превосходной точности в выявлении ошибок в траекториях рассуждений на ProcessBench. Кроме того, на сложных математических тестах рассуждений (AIME 2024, AIME 2025 и CNMO) наш полный подход превосходит базовые методы, такие как самосогласованность, по точности рассуждений и эффективности вывода. Наша система предлагает масштабируемое и эффективное решение для улучшения рассуждений LLM на этапе тестирования.
Масштабирование во время тестирования (Test-time scaling, TTS) доказало свою эффективность в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Проверка играет ключевую роль в TTS, одновременно влияя на (1) производительность рассуждений и (2) вычислительную эффективность, что обусловлено качеством и вычислительной стоимостью проверки. В данной работе мы бросаем вызов традиционным парадигмам проверки и впервые систематически исследуем влияние гранулярности проверки — то есть, как часто проверяющий механизм вызывается в процессе генерации, выходя за рамки проверки только конечного результата или отдельных шагов генерации. С этой целью мы представляем алгоритм Variable Granularity Search (VG-Search), который обобщает поиск по лучу (Beam Search) и выборку Best-of-N с помощью настраиваемого параметра гранулярности g. Многочисленные эксперименты с VG-Search при различных вычислительных бюджетах, конфигурациях генератора-проверяющего и атрибутах задач показывают, что динамический выбор g может улучшить вычислительную эффективность и поведение масштабирования. На основе этих результатов мы предлагаем адаптивные стратегии VG-Search, которые достигают повышения точности до 3,1% по сравнению с Beam Search и 3,6% по сравнению с Best-of-N, одновременно сокращая количество FLOPs более чем на 52%. Мы опубликуем исходный код для поддержки будущих исследований.
Несмотря на значительные успехи в области больших языковых моделей (LLM), их способности к запоминанию знаний остаются недостаточно изученными из-за отсутствия стандартизированных и качественных тестовых сред. В данной статье мы представляем новый, основанный на реальных данных и масштабируемый бенчмарк для инъекции знаний, который непрерывно развивается без необходимости вмешательства человека. В частности, мы предлагаем WikiDYK, который использует недавно добавленные и написанные человеком факты из разделов "Знаете ли вы..." Википедии. Эти записи тщательно отбираются опытными редакторами Википедии на основе таких критериев, как проверяемость и ясность. Каждая запись преобразуется в несколько пар "вопрос-ответ", охватывающих разнообразные форматы задач — от простых заданий с пропусками до сложных многошаговых вопросов. WikiDYK содержит 12 290 фактов и 77 180 вопросов, а также легко расширяется за счет будущих обновлений от редакторов Википедии. Масштабные эксперименты с использованием продолженного предобучения выявили удивительный факт: несмотря на их распространенность в современных LLM, каузальные языковые модели (CLM) демонстрируют значительно более слабые способности к запоминанию знаний по сравнению с двунаправленными языковыми моделями (BiLM), показывая на 23% более низкую точность с точки зрения надежности. Чтобы компенсировать меньшие масштабы текущих BiLM, мы предлагаем модульную совместную структуру, использующую ансамбли BiLM в качестве внешних хранилищ знаний для интеграции с LLM. Эксперименты показывают, что наша структура дополнительно повышает точность надежности до 29,1%.
Данное исследование предлагает уникальную оценку того, как системы искусственного интеллекта (ИИ) интерпретируют цифровой язык поколения Альфа (Gen Alpha, рожденные в 2010–2024 годах). Как первое поколение, выросшее вместе с ИИ, Gen Alpha сталкивается с новыми формами онлайн-рисков из-за глубокого погружения в цифровую среду и растущего несоответствия между их развивающимися способами коммуникации и существующими инструментами безопасности. Их уникальный язык, сформированный под влиянием игр, мемов и трендов, движимых ИИ, часто скрывает вредоносные взаимодействия как от человеческих модераторов, так и от автоматизированных систем. Мы оцениваем четыре ведущие модели ИИ (GPT-4, Claude, Gemini и Llama 3) на их способность выявлять замаскированные случаи домогательств и манипуляций в дискурсе Gen Alpha. Используя набор данных из 100 недавних выражений с игровых платформ, социальных сетей и видеоконтента, исследование выявляет критические пробелы в понимании, имеющие прямые последствия для онлайн-безопасности. Эта работа вносит вклад: (1) в создание первого в своем роде набора данных, фиксирующего выражения Gen Alpha; (2) в разработку структуры для улучшения систем модерации ИИ с целью защиты молодежи; (3) в многоаспектную оценку, включающую системы ИИ, человеческих модераторов и родителей, с прямым участием исследователей из числа Gen Alpha; и (4) в анализ того, как лингвистическое расхождение увеличивает уязвимость молодежи. Результаты подчеркивают острую необходимость перепроектирования систем безопасности, адаптированных к молодежной коммуникации, особенно с учетом нежелания Gen Alpha обращаться за помощью, когда взрослые не понимают их цифровой мир. Это исследование объединяет инсайты исследователя из Gen Alpha с систематическим академическим анализом для решения критических задач цифровой безопасности.
Обнаружение рисков, связанных с искусственным интеллектом (ИИ), становится всё более сложной задачей по мере появления более мощных моделей и их использования новых методов, таких как "Alignment Faking", чтобы обойти попытки их выявления. Вдохновлённые тем, как рискованное поведение у людей (например, незаконные действия, которые могут причинить вред другим) иногда обусловлено глубоко укоренившимися ценностями, мы считаем, что выявление ценностей в моделях ИИ может служить системой раннего предупреждения о рискованном поведении ИИ. Мы создали LitmusValues — оценочный конвейер, который раскрывает приоритеты моделей ИИ в различных классах ценностей ИИ. Затем мы собрали AIRiskDilemmas — разнообразную коллекцию дилемм, в которых ценности сталкиваются друг с другом в сценариях, связанных с рисками безопасности ИИ, такими как "Стремление к власти". Измеряя приоритеты ценностей модели ИИ на основе её совокупных выборов, мы получаем самосогласованный набор прогнозируемых приоритетов ценностей, которые выявляют потенциальные риски. Мы показываем, что ценности в LitmusValues (включая, казалось бы, безобидные, такие как "Забота") могут предсказывать как наблюдаемое рискованное поведение в AIRiskDilemmas, так и неожиданное рискованное поведение в HarmBench.
Обнаружение медийной предвзятости является важной задачей для обеспечения справедливого и сбалансированного распространения информации, однако она остается сложной из-за субъективности предвзятости и недостатка высококачественных аннотированных данных. В данной работе мы выполняем классификацию предвзятости на уровне предложений, дообучая модель на основе RoBERTa на экспертно аннотированном наборе данных BABE. Используя тест Макнемара и парный t-тест с 5x2 кросс-валидацией, мы демонстрируем статистически значимое улучшение производительности по сравнению с базовой моделью DA-RoBERTa, предварительно обученной с адаптацией к домену. Кроме того, анализ на основе механизма внимания показывает, что наша модель избегает распространенных ошибок, таких как чрезмерная чувствительность к политически заряженным терминам, и вместо этого более осмысленно учитывает контекстуально значимые токены. Для всестороннего изучения медийной предвзятости мы представляем конвейер, который объединяет нашу модель с уже существующим классификатором типов предвзятости. Наш метод демонстрирует хорошую обобщаемость и интерпретируемость, несмотря на ограничения, связанные с анализом на уровне предложений и размером набора данных из-за отсутствия более крупных и продвинутых корпусов предвзятости. Мы обсуждаем контекстно-зависимое моделирование, нейтрализацию предвзятости и классификацию продвинутых типов предвзятости как потенциальные направления для будущих исследований. Наши результаты способствуют созданию более надежных, объяснимых и социально ответственных NLP-систем для обнаружения медийной предвзятости.
В последние годы наблюдается значительный рост создания и потребления видеоконтента. Создание увлекательного контента требует тщательного подбора как визуальных, так и аудиоэлементов. В то время как подбор визуальных элементов, с использованием таких техник, как выбор оптимального ракурса или постобработка, был центральным аспектом производства медиа, его естественный аналог — аудио — не претерпел аналогичных улучшений. Это часто приводит к разрыву между визуальной и акустической значимостью. Чтобы устранить этот разрыв, мы представляем новую задачу: визуально-направленное акустическое выделение, которое направлено на преобразование аудио для создания соответствующих эффектов выделения, управляемых сопровождающим видео, что в конечном итоге создает более гармоничный аудиовизуальный опыт. Мы предлагаем гибкую мультимодальную архитектуру на основе трансформеров для решения этой задачи. Для обучения нашей модели мы также представляем новый набор данных — набор данных "muddy mix", используя тщательную обработку аудио и видео в фильмах, что обеспечивает форму бесплатного обучения. Мы разрабатываем процесс генерации псевдо-данных для имитации плохо сведенного аудио, воспроизводящего реальные сценарии через трехэтапный процесс — разделение, корректировку и повторное сведение. Наш подход стабильно превосходит несколько базовых методов как в количественной, так и в субъективной оценке. Мы также систематически изучаем влияние различных типов контекстного руководства и уровней сложности набора данных. Наша страница проекта доступна здесь: https://wikichao.github.io/VisAH/.
Мультимодальное обучение расширяет перцептивные возможности когнитивных систем за счет интеграции информации из различных сенсорных модальностей. Однако существующие исследования мультимодального слияния обычно предполагают статическую интеграцию, не полностью учитывая ключевые динамические механизмы, обнаруженные в мозге. В частности, мозг демонстрирует феномен обратной эффективности, при котором более слабые одномодальные сигналы приводят к более сильным преимуществам мультисенсорной интеграции; напротив, когда сигналы отдельных модальностей сильнее, эффект слияния уменьшается. Этот механизм позволяет биологическим системам достигать устойчивого познания даже при скудных или зашумленных перцептивных сигналах. Вдохновленные этим биологическим механизмом, мы исследуем взаимосвязь между мультимодальным выводом и информацией из отдельных модальностей, предлагая стратегию мультимодального слияния, основанную на обратной эффективности (IEMF). Внедряя эту стратегию в нейронные сети, мы достигаем более эффективной интеграции с улучшенной производительностью модели и вычислительной эффективностью, демонстрируя до 50% снижения вычислительных затрат для различных методов слияния. Мы проводим эксперименты по аудиовизуальной классификации, непрерывному обучению и задачам ответов на вопросы, чтобы подтвердить эффективность нашего метода. Результаты последовательно показывают, что наш метод отлично справляется с этими задачами. Для проверки универсальности и обобщаемости мы также проводим эксперименты на искусственных нейронных сетях (ANN) и спайковых нейронных сетях (SNN), результаты которых демонстрируют хорошую адаптируемость к обоим типам сетей. Наше исследование подчеркивает потенциал внедрения биологически вдохновленных механизмов в мультимодальные сети и предлагает перспективные направления для будущего развития мультимодального искусственного интеллекта. Код доступен по адресу https://github.com/Brain-Cog-Lab/IEMF.
Токенизация — это первый, и часто недооцененный, слой вычислений в языковых моделях. Хотя метод Chain-of-Thought (CoT) позволяет трансформерным моделям приближать рекуррентные вычисления за счёт внешнего представления промежуточных шагов, мы показываем, что успех такого рассуждения принципиально ограничен структурой токенизированных входных данных. В данной работе представлено теоретическое и эмпирическое исследование того, как схемы токенизации, в частности субсловные методы, такие как byte-pair encoding (BPE), препятствуют символьным вычислениям, объединяя или скрывая атомарные единицы рассуждений. Мы вводим понятие Token Awareness (осознанности токенов), чтобы формализовать, как низкая гранулярность токенов нарушает логическое выравнивание и препятствует обобщению символьных процедур. Систематическая оценка на арифметических и символьных задачах демонстрирует, что структура токенов существенно влияет на производительность рассуждений, вызывая сбои даже при использовании CoT, тогда как атомарно выровненные форматы открывают возможности для сильного обобщения, позволяя небольшим моделям (например, GPT-4o-mini) превосходить более крупные системы (например, o1) в структурированных рассуждениях. Наши результаты показывают, что способность к символьным рассуждениям в больших языковых моделях (LLM) не является чисто архитектурной, а глубоко обусловлена представлениями на уровне токенов.
Глобальная геолокация изображений — задача предсказания GPS-координат по изображениям, сделанным в любой точке Земли, — представляет собой фундаментальную проблему из-за огромного разнообразия визуального контента в разных регионах. Хотя современные подходы используют двухэтапный процесс, включающий поиск кандидатов и выбор наилучшего соответствия, они обычно полагаются на упрощенные эвристики сходства и точечное обучение, не учитывая пространственные отношения между кандидатами. В данной работе мы предлагаем GeoRanker — ранжирующую систему, учитывающую расстояния, которая использует крупные модели обработки изображений и текста для совместного кодирования взаимодействий между запросом и кандидатами и предсказания географической близости. Кроме того, мы вводим функцию потерь, учитывающую расстояния разных порядков, что позволяет модели анализировать как абсолютные, так и относительные расстояния, учитывая структурированные пространственные отношения. Для поддержки этого подхода мы создали GeoRanking — первый набор данных, специально разработанный для задач географического ранжирования с мультимодальной информацией о кандидатах. GeoRanker демонстрирует наилучшие результаты на двух известных бенчмарках (IM2GPS3K и YFCC4K), значительно превосходя текущие лучшие методы.
Многошаговое ответы на вопросы (Multi-hop Question Answering, MHQA) добавляет дополнительные уровни сложности к задаче ответов на вопросы, делая её более трудной. Когда языковые модели (Language Models, LMs) получают несколько результатов поиска, они должны не только извлекать релевантную информацию, но и применять многошаговое рассуждение (multi-hop reasoning) между источниками информации. Хотя LMs хорошо справляются с традиционными задачами ответов на вопросы, причинная маска (causal mask) может ограничивать их способность рассуждать в сложных контекстах. В данной статье мы исследуем, как LMs реагируют на многошаговые вопросы, переставляя результаты поиска (извлечённые документы) в различных конфигурациях. Наше исследование выявило следующие интересные результаты: 1) Модели с архитектурой "кодировщик-декодировщик" (encoder-decoder), такие как модели семейства Flan-T5, в целом превосходят LMs с декодером (decoder-only) в задачах MHQA, несмотря на значительно меньший размер; 2) изменение порядка "золотых" документов (gold documents) выявляет различные тенденции как в моделях Flan T5, так и в тонко настроенных моделях с декодером, причём оптимальная производительность наблюдается, когда порядок документов соответствует порядку цепочки рассуждений; 3) улучшение моделей с декодером за счёт добавления двунаправленного внимания (bi-directional attention) путём модификации причинной маски может эффективно повысить их итоговую производительность. Помимо этого, мы проводим тщательное исследование распределения весов внимания (attention weights) LMs в контексте MHQA. Наши эксперименты показывают, что веса внимания имеют тенденцию достигать более высоких значений, когда полученный ответ является правильным. Мы используем это наблюдение для эвристического улучшения производительности LMs в данной задаче. Наш код доступен по адресу: https://github.com/hwy9855/MultiHopQA-Reasoning.
Недавние достижения в области больших языковых моделей (LLM) и обилие данных о продуктах питания привели к исследованиям, направленным на улучшение понимания пищи с использованием LLM. Несмотря на существование нескольких рекомендательных систем, использующих LLM и графы знаний (KG), исследования по интеграции связанных с пищей KG с LLM остаются ограниченными. Мы представляем KERL — унифицированную систему, которая использует пищевые KG и LLM для предоставления персонализированных рекомендаций по питанию и генерации рецептов с сопутствующей информацией о микронутриентах. Получив естественноязыковый запрос, KERL извлекает сущности, извлекает подграфы из KG, которые затем передаются в LLM в качестве контекста для выбора рецептов, удовлетворяющих заданным ограничениям. Далее наша система генерирует шаги приготовления и информацию о питательной ценности для каждого рецепта. Для оценки нашего подхода мы также разработали эталонный набор данных, курируя вопросы, связанные с рецептами, в сочетании с ограничениями и личными предпочтениями. В ходе обширных экспериментов мы показываем, что предложенный нами подход, основанный на усилении LLM с помощью KG, значительно превосходит существующие методы, предлагая полное и согласованное решение для рекомендаций по питанию, генерации рецептов и анализа питательной ценности. Наш код и эталонные наборы данных доступны по адресу https://github.com/mohbattharani/KERL.
Расшифровка изображений из активности мозга получила недавно значительный импульс благодаря прогрессу в генеративных моделях искусственного интеллекта и доступности крупных наборов данных функциональной магнитно-резонансной томографии (фМРТ) сверхвысокого поля. Однако современные подходы зависят от сложных многоэтапных конвейеров и шагов предварительной обработки, которые обычно сводят временное измерение записей активности мозга, тем самым ограничивая временно-разрешенные декодеры. В данной работе мы представляем Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction) — новую одноэтапную диффузионную модель, разработанную для реконструкции изображений из динамически изменяющихся записей фМРТ. Наш подход предлагает три основных вклада. Во-первых, Dynadiff упрощает обучение по сравнению с существующими методами. Во-вторых, наша модель превосходит современные модели на временно-разрешенных сигналах фМРТ, особенно по метрикам реконструкции изображений на уровне семантики, оставаясь при этом конкурентоспособной на предобработанных данных фМРТ, где время сводится. В-третьих, этот подход позволяет точно характеризовать эволюцию представлений изображений в активности мозга. В целом, данная работа закладывает основу для временно-разрешенной расшифровки изображений из активности мозга.
Несмотря на прогресс в трансформаторных языковых моделях (LMs), фундаментальный вопрос остается в значительной степени без ответа: активируются ли все слои во время вывода? Мы исследуем этот вопрос, выявляя неактивированные слои (которые мы называем Пустотами) с помощью необучаемого и не требующего параметров адаптивного метода вычислений под названием L2 Adaptive Computation (LAC). Мы адаптируем LAC из его первоначального применения, ориентированного на эффективность, для отслеживания активированных слоев во время вывода. Этот метод отслеживает изменения в L2-норме активаций для идентификации пустот. Мы анализируем активацию слоев в инструктивно настроенных LMs в двух фазах: Обработка Промпта (PP), где мы отслеживаем активированные слои для каждого токена во входных промптах, и Генерация Ответа (RG), где мы отслеживаем активированные слои для каждого сгенерированного токена. Мы также демонстрируем, что различные слои активируются в этих двух фазах. Чтобы показать эффективность нашего метода, мы оценили три различные инструктивно настроенные LMs из семейств Llama, Mistral и Qwen на трех тестах: MMLU, GPQA Diamond и BoolQ. Например, на MMLU в условиях zero-shot пропуск пустот в Qwen2.5-7B-Instruct привел к улучшению с 69.24 до 71.29, при этом модель использует только 30% слоев. Аналогично, Mistral-7B-Instruct-v0.3 на GPQA Diamond улучшился с 13.88 до 18.36 при использовании 70% слоев в обеих фазах PP и RG. Эти результаты показывают, что не все слои вносят равный вклад во время вывода, и что избирательный пропуск большинства из них может улучшить производительность моделей на определенных задачах.
Известная проблема Retrieval Augmented Generation (RAG) заключается в том, что извлечённые отрывки, не относящиеся к запросу, иногда отвлекают языковую модель (LLM), генерирующую ответ, что приводит к некорректному результату. В данной работе мы исследуем эту ключевую проблему и формализуем эффект отвлечения отрывка относительно запроса (и LLM). Мы предлагаем количественную меру эффекта отвлечения отрывка и демонстрируем её устойчивость для различных LLM. Наше исследование представляет новые методы для выявления и использования сложных отвлекающих отрывков с целью улучшения систем RAG. Благодаря тонкой настройке LLM на тщательно отобранных отвлекающих отрывках мы достигаем повышения точности ответов до 7,5% по сравнению с моделями, настроенными на стандартных наборах данных RAG. Наш вклад заключается в двух аспектах: во-первых, мы выходим за рамки простой бинарной классификации нерелевантных отрывков как полностью несвязанных или отвлекающих, и во-вторых, разрабатываем и анализируем несколько методов для поиска сложных отвлекающих отрывков. Насколько нам известно, ни одно другое исследование не предлагало столь всеобъемлющей структуры для выявления и использования сложных отвлекающих отрывков.
Мы представляем концептуальную основу для обучения моделей "Видение-Язык" (Vision-Language Models, VLMs) выполнению задачи визуального принятия перспективы (Visual Perspective Taking, VPT), которая является ключевой способностью для воплощённого познания, необходимого для взаимодействия человека и робота (Human-Robot Interaction, HRI). В качестве первого шага к этой цели мы представляем синтетический набор данных, созданный в NVIDIA Omniverse, который позволяет проводить обучение с учителем для задач пространственного рассуждения. Каждый экземпляр данных включает RGB-изображение, описание на естественном языке и матрицу преобразования 4x4, представляющую позу объекта. Мы сосредоточены на выводе расстояния по оси Z как базового навыка, с перспективой расширения на полное рассуждение в 6 степенях свободы (Degrees Of Freedom, DOFs). Набор данных доступен публично для поддержки дальнейших исследований. Эта работа служит основополагающим шагом на пути к созданию воплощённых систем ИИ, способных к пространственному пониманию в интерактивных сценариях взаимодействия человека и робота.
Визуальные представления играют ключевую роль в способности к обучению и обобщению для политик манипуляции роботов. Хотя существующие методы опираются на глобальные или плотные признаки, такие представления часто смешивают информацию, релевантную и нерелевантную задаче, что ограничивает устойчивость при сдвигах распределения. В данной работе мы исследуем объектно-ориентированные представления (OCR) как структурированную альтернативу, которая сегментирует визуальный вход на конечный набор сущностей, вводя индуктивные предпосылки, которые более естественно соответствуют задачам манипуляции. Мы сравниваем различные визуальные кодировщики — объектно-ориентированные, глобальные и плотные методы — на наборе симулированных и реальных задач манипуляции, варьирующихся от простых до сложных, и оцениваем их способность к обобщению в различных визуальных условиях, включая изменения освещения, текстуры и наличие отвлекающих элементов. Наши результаты показывают, что политики на основе OCR превосходят плотные и глобальные представления в условиях обобщения, даже без предварительного обучения, специфичного для задачи. Эти выводы свидетельствуют о том, что OCR является перспективным направлением для разработки визуальных систем, эффективно обобщающих в динамичных, реальных роботизированных средах.