Ежедневно отобранные исследовательские статьи по ИИ с переводами
Поскольку LLM все чаще используются в приложениях, связанных с безопасностью, обеспечение их безопасности с помощью ограждений остается ключевой проблемой. В данной статье предлагается GuardReasoner, новый защитный механизм для LLM, направленный на обучение модели ограждения рассуждать. Конкретно, мы сначала создаем набор данных GuardReasonerTrain, состоящий из 127 тыс. образцов с 460 тыс. подробных шагов рассуждения. Затем мы представляем SFT рассуждения для разблокировки способности моделей ограждения к рассуждению. Кроме того, мы представляем сложные образцы DPO для дальнейшего укрепления их способности к рассуждению. Таким образом, GuardReasoner достигает лучшей производительности, объяснимости и обобщаемости. Обширные эксперименты и анализы на 13 бенчмарках 3 задач ограждения демонстрируют его превосходство. Заметно, что GuardReasoner 8B превосходит GPT-4o+CoT на 5.74% и LLaMA Guard 3 8B на 20.84% по среднему показателю F1. Мы предоставляем данные для обучения, код и модели различных масштабов (1B, 3B, 8B) GuardReasoner: https://github.com/yueliu1999/GuardReasoner/.
Большие языковые модели (LLM), такие как o1 от OpenAI, продемонстрировали выдающиеся способности в сложных задачах рассуждения за счет увеличения вычислительных ресурсов во время тестирования и проявления глубокого мышления, сходного с человеческим. Однако мы выделяем явление, которое мы называем недостаточным мышлением, когда LLM подобные o1 часто переключаются между различными мыслями рассуждения, не достаточно исследуя перспективные пути к правильному решению. Это поведение приводит к недостаточной глубине рассуждения и снижению производительности, особенно на сложных математических задачах. Для систематического анализа этой проблемы мы проводим эксперименты на трех сложных наборах тестов и двух представительных моделях, подобных o1, с открытым исходным кодом, выявляя, что частое переключение мыслей коррелирует с неправильными ответами. Мы представляем новую метрику для количественной оценки недостаточного мышления путем измерения эффективности токенов в неправильных ответах. Для решения проблемы недостаточного мышления мы предлагаем стратегию декодирования с штрафом за переключение мыслей (TIP), которая уменьшает преждевременные переходы между мыслями, поощряя более глубокое исследование каждого пути рассуждения. Экспериментальные результаты показывают, что наш подход повышает точность на сложных наборах данных, не требуя донастройки модели. Наши результаты способствуют пониманию неэффективности рассуждений в LLM, подобных o1, и предлагают практическое решение для улучшения их способностей к решению проблем.
Обучение больших языковых моделей (LLM) обычно распределяется по большому количеству ускорителей для сокращения времени обучения. Поскольку внутренние состояния и градиенты параметров должны обмениваться на каждом шаге градиента, все устройства должны быть соседними с использованием каналов связи с низкой задержкой и высокой пропускной способностью для поддержки необходимого объема обмениваемых битов. Недавно распределенные алгоритмы, такие как DiLoCo, смягчили такое требование соседства: ускорители могут быть сгруппированы в «рабочие», где синхронизация между рабочими происходит редко. Это, в свою очередь, означает, что рабочие могут использовать более низкопропускные каналы связи без ущерба для качества обучения. Однако в этих методах обмен данными между рабочими по-прежнему требует той же пиковой пропускной способности, поскольку синхронизации требуют обмена всеми параметрами между всеми рабочими. В данной статье мы улучшаем DiLoCo тремя способами. Во-первых, мы синхронизируем только подмножества параметров последовательно, а не все сразу, что значительно снижает пиковую пропускную способность. Во-вторых, мы позволяем рабочим продолжать обучение во время синхронизации, что сокращает время настенных часов. В-третьих, мы квантуем данные, обмениваемые между рабочими, что дополнительно снижает пропускную способность между рабочими. Путем правильного комбинирования этих модификаций мы экспериментально показываем, что можем распределить обучение миллиардных параметров и достичь аналогичного качества, но с сокращением требуемой пропускной способности на два порядка.
Прорыв DeepSeek-R1 является поворотным моментом для отрасли искусственного интеллекта в целом, а также для LLM в частности. Его возможности продемонстрировали выдающуюся производительность в нескольких задачах, включая креативное мышление, генерацию кода, математику и автоматическое исправление программ, при, казалось бы, более низкой стоимости выполнения. Однако LLM должны придерживаться важного качественного свойства, а именно соответствия безопасности и человеческим ценностям. Явным конкурентом DeepSeek-R1 является его американский аналог - модель o3-mini от OpenAI, от которой ожидаются высокие стандарты производительности, безопасности и стоимости. В данной статье мы проводим систематическую оценку уровня безопасности как DeepSeek-R1 (версия 70b), так и o3-mini от OpenAI (бета-версия). Для этого мы используем наш недавно выпущенный автоматизированный инструмент для тестирования безопасности, названный ASTRAL. Используя этот инструмент, мы автоматически и систематически генерируем и выполняем общее количество 1260 небезопасных тестовых входов на обеих моделях. После проведения полуавтоматической оценки результатов, предоставленных обеими LLM, результаты показывают, что DeepSeek-R1 является крайне небезопасным по сравнению с o3-mini от OpenAI. На основе нашей оценки DeepSeek-R1 дал небезопасные ответы на 11,98% выполненных запросов, в то время как o3-mini только на 1,19%.
Большие языковые модели обладают множеством интеллектуальных способностей. Хотя множество бенчмарков оценивают их интеллект, мало внимания уделяется их способности к исследованию, важной характеристике для обнаружения новой информации и адаптации к новым средам как в естественных, так и в искусственных системах. Неясно, насколько эффективно БЯМ могут исследовать, особенно в задачах с открытым исходом. В данном исследовании исследуется, могут ли БЯМ превзойти людей в исследовании во время задачи с открытым исходом, используя Little Alchemy 2 в качестве парадигмы, где агенты комбинируют элементы для обнаружения новых. Результаты показывают, что большинство БЯМ уступают людям, за исключением модели o1, при этом традиционные БЯМ в основном полагаются на стратегии, основанные на неопределенности, в отличие от людей, которые уравновешивают неопределенность и уполномочивание. Репрезентационный анализ моделей с разреженными автокодировщиками показал, что неопределенность и выборы представлены на более ранних блоках трансформера, в то время как значения уполномочивания обрабатываются позже, что заставляет БЯМ думать слишком быстро и делать преждевременные решения, затрудняя эффективное исследование. Эти результаты проливают свет на ограничения исследования БЯМ и предлагают направления для улучшения их адаптивности.
Мы представляем MedXpertQA, высоко сложный и всесторонний бенчмарк для оценки медицинских знаний на уровне эксперта и продвинутого рассуждения. MedXpertQA включает 4 460 вопросов, охватывающих 17 специальностей и 11 систем органов. Он включает два подмножества: Text для оценки текста и MM для оценки мультимодальности. Следует отметить, что MM представляет экспертные вопросы экзамена с разнообразными изображениями и обширной клинической информацией, включая медицинские записи пациентов и результаты обследований, что отличает его от традиционных медицинских мультимодальных бенчмарков с простыми вопрос-ответ, сгенерированными из подписей к изображениям. MedXpertQA применяет строгую фильтрацию и дополнение для решения проблемы недостаточной сложности существующих бенчмарков, таких как MedQA, и включает вопросы специализированных экзаменов для улучшения клинической значимости и всесторонности. Мы проводим синтез данных для снижения риска утечки данных и проводим несколько раундов экспертных рецензий для обеспечения точности и надежности. Мы оцениваем 16 ведущих моделей на MedXpertQA. Более того, медицина глубоко связана с принятием решений в реальном мире, обеспечивая богатую и репрезентативную среду для оценки способностей к рассуждению за пределами математики и кода. Для этой цели мы разрабатываем подмножество, ориентированное на рассуждения, чтобы облегчить оценку моделей, подобных o1.
Посттренировочная настройка языковой модели (LLM) от DPO до дистилляции может улучшить поведение и разблокировать новые навыки, однако открытая наука, поддерживающая эти техники посттренировочной настройки, все еще находится в зачаточном состоянии. Одним из ограничивающих факторов была сложность проведения масштабных сравнительных анализов моделей, генерирующих синтетические данные, и судей LLM. Для устранения этого пробела мы представляем WILDCHAT-50M, самый крупный общедоступный набор данных чатов на сегодняшний день. Мы расширяем существующий набор данных WildChat, включая ответы не только от GPT, но и от более чем 50 различных моделей с открытыми весами, размер которых варьируется от 0,5 млрд до 104 млрд параметров. Мы проводим обширный сравнительный анализ и демонстрируем потенциал этого набора данных, создав RE-WILD, наш собственный общедоступный SFT-микс, который превосходит недавний SFT-микс Tulu-3 от Allen AI с лишь 40% от количества образцов. Наш набор данных, образцы и код доступны по адресу https://github.com/penfever/wildchat-50m.
Данный доклад представляет SANA-1.5, линейный Диффузионный Трансформер для эффективного масштабирования в генерации текста к изображению. Основываясь на SANA-1.0, мы представляем три ключевых инновации: (1) Эффективное масштабирование обучения: парадигма увеличения глубины, позволяющая масштабировать от 1.6B до 4.8B параметров с значительным сокращением вычислительных ресурсов, в сочетании с эффективным по памяти оптимизатором 8 бит. (2) Обрезка глубины модели: техника анализа важности блока для эффективного сжатия модели до произвольных размеров с минимальной потерей качества. (3) Масштабирование на этапе вывода: стратегия повторного выбора, которая обменивает вычисления на емкость модели, позволяя более маленьким моделям соответствовать качеству более крупных моделей на этапе вывода. Благодаря этим стратегиям, SANA-1.5 достигает оценки согласования текста и изображения 0.72 на GenEval, которая может быть дополнительно улучшена до 0.80 через масштабирование на этапе вывода, устанавливая новый SoTA на бенчмарке GenEval. Эти инновации обеспечивают эффективное масштабирование модели в различных бюджетах вычислений, сохраняя высокое качество и делая генерацию изображений высокого качества более доступной.
Понимание физического мира является фундаментальным вызовом в технологии воплощенного искусственного интеллекта, что критически важно для обеспечения возможности агентам выполнять сложные задачи и безопасно функционировать в реальных средах. Визио-языковые модели (VLM) показали большой потенциал в рассуждениях и планировании задач для воплощенных агентов, однако их способность понимать физические явления остается крайне ограниченной. Для устранения этого разрыва мы представляем PhysBench, комплексный бенчмарк, разработанный для оценки способности VLM понимать физический мир на разнообразных задачах. PhysBench содержит 10 002 записи взаимосвязанных видео-изображение-текстовых данных, разделенных на четыре основных области: свойства физических объектов, отношения между физическими объектами, понимание физических сцен и физические динамики на основе физики, дополнительно разделенные на 19 подклассов и 8 различных измерений способностей. Наши обширные эксперименты, проведенные на 75 представительных VLM, показывают, что эти модели отлично справляются с рассуждениями на основе здравого смысла, но испытывают трудности с пониманием физического мира, вероятно из-за отсутствия физических знаний в их обучающих данных и отсутствия встроенных физических априорных знаний. Для решения этой проблемы мы представляем PhysAgent, новую структуру, которая объединяет сильные стороны обобщения VLM с специализированными знаниями моделей зрения, значительно улучшая способность VLM понимать физические явления на различных задачах, включая улучшение на 18,4\% для GPT-4o. Более того, наши результаты показывают, что улучшение способностей VLM понимать физический мир может помочь воплощенным агентам, таким как MOKA. Мы считаем, что PhysBench и PhysAgent предлагают ценные идеи и способствуют устранению разрыва между VLM и пониманием физического мира.
В то время как много работ по веб-агентам подчеркивает перспективу автономного выполнения задач от имени пользователей, на практике агенты часто не справляются с сложными задачами в реальных сценариях и моделировании предпочтений пользователей. Это открывает возможность для сотрудничества людей с агентом и эффективного использования его возможностей. Мы предлагаем CowPilot, фреймворк, поддерживающий автономную и совместную веб-навигацию человека с агентом, а также оценку по успешности и эффективности выполнения задач. CowPilot сокращает количество шагов, которые должны выполнить люди, позволяя агентам предлагать следующие шаги, в то время как пользователи могут приостановить, отклонить или выбрать альтернативные действия. Во время выполнения пользователи могут вмешиваться в действия агента, переопределяя предложения или возобновляя контроль агента по необходимости. Мы провели кейс-исследования на пяти популярных веб-сайтах и обнаружили, что совместный режим работы человека с агентом достигает высокой успешности в 95%, требуя от людей выполнения всего лишь 15,2% общего числа шагов. Даже с вмешательством человека во время выполнения задачи, агент успешно завершает до половины задач самостоятельно. CowPilot может служить полезным инструментом для сбора данных и оценки агента на различных веб-сайтах, что, как мы считаем, способствует исследованиям по взаимодействию пользователей и агентов. Видеодемонстрации доступны по ссылке https://oaishi.github.io/cowpilot.html