Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

GuardReasoner: К защите на основе рассуждений для LLM.
GuardReasoner: Towards Reasoning-based LLM Safeguards

Jan 30

ByYue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi

Поскольку LLM все чаще используются в приложениях, связанных с безопасностью, обеспечение их безопасности с помощью ограждений остается ключевой проблемой. В данной статье предлагается GuardReasoner, новый защитный механизм для LLM, направленный на обучение модели ограждения рассуждать. Конкретно, мы сначала создаем набор данных GuardReasonerTrain, состоящий из 127 тыс. образцов с 460 тыс. подробных шагов рассуждения. Затем мы представляем SFT рассуждения для разблокировки способности моделей ограждения к рассуждению. Кроме того, мы представляем сложные образцы DPO для дальнейшего укрепления их способности к рассуждению. Таким образом, GuardReasoner достигает лучшей производительности, объяснимости и обобщаемости. Обширные эксперименты и анализы на 13 бенчмарках 3 задач ограждения демонстрируют его превосходство. Заметно, что GuardReasoner 8B превосходит GPT-4o+CoT на 5.74% и LLaMA Guard 3 8B на 20.84% по среднему показателю F1. Мы предоставляем данные для обучения, код и модели различных масштабов (1B, 3B, 8B) GuardReasoner: https://github.com/yueliu1999/GuardReasoner/.

Мысли разбросаны повсюду: о недостаточном анализе o1-подобных LLM.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

Jan 30

ByYue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

Большие языковые модели (LLM), такие как o1 от OpenAI, продемонстрировали выдающиеся способности в сложных задачах рассуждения за счет увеличения вычислительных ресурсов во время тестирования и проявления глубокого мышления, сходного с человеческим. Однако мы выделяем явление, которое мы называем недостаточным мышлением, когда LLM подобные o1 часто переключаются между различными мыслями рассуждения, не достаточно исследуя перспективные пути к правильному решению. Это поведение приводит к недостаточной глубине рассуждения и снижению производительности, особенно на сложных математических задачах. Для систематического анализа этой проблемы мы проводим эксперименты на трех сложных наборах тестов и двух представительных моделях, подобных o1, с открытым исходным кодом, выявляя, что частое переключение мыслей коррелирует с неправильными ответами. Мы представляем новую метрику для количественной оценки недостаточного мышления путем измерения эффективности токенов в неправильных ответах. Для решения проблемы недостаточного мышления мы предлагаем стратегию декодирования с штрафом за переключение мыслей (TIP), которая уменьшает преждевременные переходы между мыслями, поощряя более глубокое исследование каждого пути рассуждения. Экспериментальные результаты показывают, что наш подход повышает точность на сложных наборах данных, не требуя донастройки модели. Наши результаты способствуют пониманию неэффективности рассуждений в LLM, подобных o1, и предлагают практическое решение для улучшения их способностей к решению проблем.

Потоковая модель распределенного обучения с перекрывающимися коммуникациями: к новому подходу к бесплатному ланчу.
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

Jan 30

ByArthur Douillard, Yanislav Donchev, Keith Rush, Satyen Kale, Zachary Charles, Zachary Garrett, Gabriel Teston, Dave Lacey, Ross McIlroy, Jiajun Shen, Alexandre Ramé, Arthur Szlam, Marc'Aurelio Ranzato, Paul Barham

Обучение больших языковых моделей (LLM) обычно распределяется по большому количеству ускорителей для сокращения времени обучения. Поскольку внутренние состояния и градиенты параметров должны обмениваться на каждом шаге градиента, все устройства должны быть соседними с использованием каналов связи с низкой задержкой и высокой пропускной способностью для поддержки необходимого объема обмениваемых битов. Недавно распределенные алгоритмы, такие как DiLoCo, смягчили такое требование соседства: ускорители могут быть сгруппированы в «рабочие», где синхронизация между рабочими происходит редко. Это, в свою очередь, означает, что рабочие могут использовать более низкопропускные каналы связи без ущерба для качества обучения. Однако в этих методах обмен данными между рабочими по-прежнему требует той же пиковой пропускной способности, поскольку синхронизации требуют обмена всеми параметрами между всеми рабочими. В данной статье мы улучшаем DiLoCo тремя способами. Во-первых, мы синхронизируем только подмножества параметров последовательно, а не все сразу, что значительно снижает пиковую пропускную способность. Во-вторых, мы позволяем рабочим продолжать обучение во время синхронизации, что сокращает время настенных часов. В-третьих, мы квантуем данные, обмениваемые между рабочими, что дополнительно снижает пропускную способность между рабочими. Путем правильного комбинирования этих модификаций мы экспериментально показываем, что можем распределить обучение миллиардных параметров и достичь аналогичного качества, но с сокращением требуемой пропускной способности на два порядка.

Большие языковые модели думают настолько быстро, что не могут эффективно исследовать окружающее пространство.
Large Language Models Think Too Fast To Explore Effectively

Jan 29

ByLan Pan, Hanbo Xie, Robert C. Wilson

Большие языковые модели обладают множеством интеллектуальных способностей. Хотя множество бенчмарков оценивают их интеллект, мало внимания уделяется их способности к исследованию, важной характеристике для обнаружения новой информации и адаптации к новым средам как в естественных, так и в искусственных системах. Неясно, насколько эффективно БЯМ могут исследовать, особенно в задачах с открытым исходом. В данном исследовании исследуется, могут ли БЯМ превзойти людей в исследовании во время задачи с открытым исходом, используя Little Alchemy 2 в качестве парадигмы, где агенты комбинируют элементы для обнаружения новых. Результаты показывают, что большинство БЯМ уступают людям, за исключением модели o1, при этом традиционные БЯМ в основном полагаются на стратегии, основанные на неопределенности, в отличие от людей, которые уравновешивают неопределенность и уполномочивание. Репрезентационный анализ моделей с разреженными автокодировщиками показал, что неопределенность и выборы представлены на более ранних блоках трансформера, в то время как значения уполномочивания обрабатываются позже, что заставляет БЯМ думать слишком быстро и делать преждевременные решения, затрудняя эффективное исследование. Эти результаты проливают свет на ограничения исследования БЯМ и предлагают направления для улучшения их адаптивности.

SANA 1.5: Эффективное масштабирование вычислений времени обучения и времени вывода в линейном диффузионном трансформере
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Jan 30

ByEnze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han

Данный доклад представляет SANA-1.5, линейный Диффузионный Трансформер для эффективного масштабирования в генерации текста к изображению. Основываясь на SANA-1.0, мы представляем три ключевых инновации: (1) Эффективное масштабирование обучения: парадигма увеличения глубины, позволяющая масштабировать от 1.6B до 4.8B параметров с значительным сокращением вычислительных ресурсов, в сочетании с эффективным по памяти оптимизатором 8 бит. (2) Обрезка глубины модели: техника анализа важности блока для эффективного сжатия модели до произвольных размеров с минимальной потерей качества. (3) Масштабирование на этапе вывода: стратегия повторного выбора, которая обменивает вычисления на емкость модели, позволяя более маленьким моделям соответствовать качеству более крупных моделей на этапе вывода. Благодаря этим стратегиям, SANA-1.5 достигает оценки согласования текста и изображения 0.72 на GenEval, которая может быть дополнительно улучшена до 0.80 через масштабирование на этапе вывода, устанавливая новый SoTA на бенчмарке GenEval. Эти инновации обеспечивают эффективное масштабирование модели в различных бюджетах вычислений, сохраняя высокое качество и делая генерацию изображений высокого качества более доступной.

o3-mini против DeepSeek-R1: Какой из них безопаснее?
o3-mini vs DeepSeek-R1: Which One is Safer?

Jan 30

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

Прорыв DeepSeek-R1 является поворотным моментом для отрасли искусственного интеллекта в целом, а также для LLM в частности. Его возможности продемонстрировали выдающуюся производительность в нескольких задачах, включая креативное мышление, генерацию кода, математику и автоматическое исправление программ, при, казалось бы, более низкой стоимости выполнения. Однако LLM должны придерживаться важного качественного свойства, а именно соответствия безопасности и человеческим ценностям. Явным конкурентом DeepSeek-R1 является его американский аналог - модель o3-mini от OpenAI, от которой ожидаются высокие стандарты производительности, безопасности и стоимости. В данной статье мы проводим систематическую оценку уровня безопасности как DeepSeek-R1 (версия 70b), так и o3-mini от OpenAI (бета-версия). Для этого мы используем наш недавно выпущенный автоматизированный инструмент для тестирования безопасности, названный ASTRAL. Используя этот инструмент, мы автоматически и систематически генерируем и выполняем общее количество 1260 небезопасных тестовых входов на обеих моделях. После проведения полуавтоматической оценки результатов, предоставленных обеими LLM, результаты показывают, что DeepSeek-R1 является крайне небезопасным по сравнению с o3-mini от OpenAI. На основе нашей оценки DeepSeek-R1 дал небезопасные ответы на 11,98% выполненных запросов, в то время как o3-mini только на 1,19%.

MedXpertQA: Оценка экспертного уровня медицинского мышления и понимания
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Jan 30

ByYuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou

Мы представляем MedXpertQA, высоко сложный и всесторонний бенчмарк для оценки медицинских знаний на уровне эксперта и продвинутого рассуждения. MedXpertQA включает 4 460 вопросов, охватывающих 17 специальностей и 11 систем органов. Он включает два подмножества: Text для оценки текста и MM для оценки мультимодальности. Следует отметить, что MM представляет экспертные вопросы экзамена с разнообразными изображениями и обширной клинической информацией, включая медицинские записи пациентов и результаты обследований, что отличает его от традиционных медицинских мультимодальных бенчмарков с простыми вопрос-ответ, сгенерированными из подписей к изображениям. MedXpertQA применяет строгую фильтрацию и дополнение для решения проблемы недостаточной сложности существующих бенчмарков, таких как MedQA, и включает вопросы специализированных экзаменов для улучшения клинической значимости и всесторонности. Мы проводим синтез данных для снижения риска утечки данных и проводим несколько раундов экспертных рецензий для обеспечения точности и надежности. Мы оцениваем 16 ведущих моделей на MedXpertQA. Более того, медицина глубоко связана с принятием решений в реальном мире, обеспечивая богатую и репрезентативную среду для оценки способностей к рассуждению за пределами математики и кода. Для этой цели мы разрабатываем подмножество, ориентированное на рассуждения, чтобы облегчить оценку моделей, подобных o1.

WILDCHAT-50M: Глубокое исследование роли синтетических данных в Посттренировочном этапе
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Jan 30

ByBenjamin Feuer, Chinmay Hegde

Посттренировочная настройка языковой модели (LLM) от DPO до дистилляции может улучшить поведение и разблокировать новые навыки, однако открытая наука, поддерживающая эти техники посттренировочной настройки, все еще находится в зачаточном состоянии. Одним из ограничивающих факторов была сложность проведения масштабных сравнительных анализов моделей, генерирующих синтетические данные, и судей LLM. Для устранения этого пробела мы представляем WILDCHAT-50M, самый крупный общедоступный набор данных чатов на сегодняшний день. Мы расширяем существующий набор данных WildChat, включая ответы не только от GPT, но и от более чем 50 различных моделей с открытыми весами, размер которых варьируется от 0,5 млрд до 104 млрд параметров. Мы проводим обширный сравнительный анализ и демонстрируем потенциал этого набора данных, создав RE-WILD, наш собственный общедоступный SFT-микс, который превосходит недавний SFT-микс Tulu-3 от Allen AI с лишь 40% от количества образцов. Наш набор данных, образцы и код доступны по адресу https://github.com/penfever/wildchat-50m.

PhysBench: Оценка и улучшение моделей видео-языкового взаимодействия для понимания физического мира
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Jan 27

ByWei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang

Понимание физического мира является фундаментальным вызовом в технологии воплощенного искусственного интеллекта, что критически важно для обеспечения возможности агентам выполнять сложные задачи и безопасно функционировать в реальных средах. Визио-языковые модели (VLM) показали большой потенциал в рассуждениях и планировании задач для воплощенных агентов, однако их способность понимать физические явления остается крайне ограниченной. Для устранения этого разрыва мы представляем PhysBench, комплексный бенчмарк, разработанный для оценки способности VLM понимать физический мир на разнообразных задачах. PhysBench содержит 10 002 записи взаимосвязанных видео-изображение-текстовых данных, разделенных на четыре основных области: свойства физических объектов, отношения между физическими объектами, понимание физических сцен и физические динамики на основе физики, дополнительно разделенные на 19 подклассов и 8 различных измерений способностей. Наши обширные эксперименты, проведенные на 75 представительных VLM, показывают, что эти модели отлично справляются с рассуждениями на основе здравого смысла, но испытывают трудности с пониманием физического мира, вероятно из-за отсутствия физических знаний в их обучающих данных и отсутствия встроенных физических априорных знаний. Для решения этой проблемы мы представляем PhysAgent, новую структуру, которая объединяет сильные стороны обобщения VLM с специализированными знаниями моделей зрения, значительно улучшая способность VLM понимать физические явления на различных задачах, включая улучшение на 18,4\% для GPT-4o. Более того, наши результаты показывают, что улучшение способностей VLM понимать физический мир может помочь воплощенным агентам, таким как MOKA. Мы считаем, что PhysBench и PhysAgent предлагают ценные идеи и способствуют устранению разрыва между VLM и пониманием физического мира.

CowPilot: Фреймворк для автономной и совместной навигации по веб-ресурсам человека и агента.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Jan 28

ByFaria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig

В то время как много работ по веб-агентам подчеркивает перспективу автономного выполнения задач от имени пользователей, на практике агенты часто не справляются с сложными задачами в реальных сценариях и моделировании предпочтений пользователей. Это открывает возможность для сотрудничества людей с агентом и эффективного использования его возможностей. Мы предлагаем CowPilot, фреймворк, поддерживающий автономную и совместную веб-навигацию человека с агентом, а также оценку по успешности и эффективности выполнения задач. CowPilot сокращает количество шагов, которые должны выполнить люди, позволяя агентам предлагать следующие шаги, в то время как пользователи могут приостановить, отклонить или выбрать альтернативные действия. Во время выполнения пользователи могут вмешиваться в действия агента, переопределяя предложения или возобновляя контроль агента по необходимости. Мы провели кейс-исследования на пяти популярных веб-сайтах и обнаружили, что совместный режим работы человека с агентом достигает высокой успешности в 95%, требуя от людей выполнения всего лишь 15,2% общего числа шагов. Даже с вмешательством человека во время выполнения задачи, агент успешно завершает до половины задач самостоятельно. CowPilot может служить полезным инструментом для сбора данных и оценки агента на различных веб-сайтах, что, как мы считаем, способствует исследованиям по взаимодействию пользователей и агентов. Видеодемонстрации доступны по ссылке https://oaishi.github.io/cowpilot.html

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

GuardReasoner: К защите на основе рассуждений для LLM.
GuardReasoner: Towards Reasoning-based LLM Safeguards

Jan 30

ByYue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi

Мысли разбросаны повсюду: о недостаточном анализе o1-подобных LLM.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

Jan 30

ByYue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

Потоковая модель распределенного обучения с перекрывающимися коммуникациями: к новому подходу к бесплатному ланчу.
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

Jan 30

Большие языковые модели думают настолько быстро, что не могут эффективно исследовать окружающее пространство.
Large Language Models Think Too Fast To Explore Effectively

Jan 29

ByLan Pan, Hanbo Xie, Robert C. Wilson

SANA 1.5: Эффективное масштабирование вычислений времени обучения и времени вывода в линейном диффузионном трансформере
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Jan 30

ByEnze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han

o3-mini против DeepSeek-R1: Какой из них безопаснее?
o3-mini vs DeepSeek-R1: Which One is Safer?

Jan 30

ByAitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

MedXpertQA: Оценка экспертного уровня медицинского мышления и понимания
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Jan 30

ByYuxin Zuo, Shang Qu, Yifei Li, Zhangren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, Bowen Zhou

WILDCHAT-50M: Глубокое исследование роли синтетических данных в Посттренировочном этапе
WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Jan 30

ByBenjamin Feuer, Chinmay Hegde

PhysBench: Оценка и улучшение моделей видео-языкового взаимодействия для понимания физического мира
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Jan 27

ByWei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang

CowPilot: Фреймворк для автономной и совместной навигации по веб-ресурсам человека и агента.
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Jan 28

ByFaria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig