Ежедневно отобранные исследовательские статьи по ИИ с переводами
Данная статья представляет UCFE: бенчмарк финансовой экспертизы, ориентированный на пользователя, инновационную структуру, разработанную для оценки способности крупных языковых моделей (LLM) решать сложные финансовые задачи реального мира. Бенчмарк UCFE применяет гибридный подход, который объединяет экспертные оценки людей с динамическими, задачно-специфичными взаимодействиями для имитации сложностей изменяющихся финансовых сценариев. Во-первых, мы провели пользовательское исследование с участием 804 участников, собрав их обратную связь по финансовым задачам. Во-вторых, на основе этой обратной связи мы создали наш набор данных, охватывающий широкий спектр намерений и взаимодействий пользователей. Этот набор данных служит основой для оценки 12 услуг LLM с использованием методологии LLM-как-судья. Наши результаты показывают значительное соответствие между оценками бенчмарка и предпочтениями людей, с коэффициентом корреляции Пирсона 0,78, подтверждая эффективность набора данных UCFE и нашего подхода к оценке. Бенчмарк UCFE не только раскрывает потенциал LLM в финансовом секторе, но также предоставляет надежную структуру для оценки их производительности и удовлетворенности пользователей. Набор данных и код оценки бенчмарка доступны.
Большие языковые модели (LLM) недавно привлекли много внимания в создании автономных агентов. Однако производительность текущих веб-агентов на основе LLM в задачах с долгим горизонтом планирования далека от оптимальной, часто приводя к ошибкам, таким как повторная покупка невозвратного авиабилета. В отличие от этого, люди могут избегать такой необратимой ошибки, поскольку мы осознаем потенциальные последствия (например, потерю денег) наших действий, также известных как "модель мира". Под влиянием этого наше исследование начинается с предварительного анализа, подтверждающего отсутствие моделей мира в текущих LLM (например, GPT-4o, Claude-3.5-Sonnet и т. д.). Затем мы представляем веб-агента с расширенной моделью мира (WMA), который моделирует результаты своих действий для принятия лучших решений. Для преодоления вызовов в обучении LLM в качестве моделей мира, предсказывающих следующие наблюдения, таких как повторяющиеся элементы между наблюдениями и длинные входы HTML, мы предлагаем абстракцию наблюдения, сосредоточенную на переходах, где целями предсказания являются описания на естественном языке, исключительно выделяющие важные различия состояний между временными шагами. Эксперименты на WebArena и Mind2Web показывают, что наши модели мира улучшают выбор политики агентов без дополнительного обучения и демонстрируют эффективность наших агентов по стоимости и времени по сравнению с недавними агентами на основе поиска по дереву.
Модели видео-языкового взаимодействия (VLM) значительно продвинулись в последние годы в бенчмарках визуально-вопросно-ответных (VQA), оценивающих сложные визуально-лингвистические рассуждения. Однако насколько эффективны эти модели на самом деле? В данной работе мы показываем, что VLM по-прежнему испытывают трудности с естественными изображениями и вопросами, на которые люди могут легко ответить, что мы называем естественными адверсными образцами. Мы также обнаружили, что довольно легко генерировать эти образцы VQA из естественных корпусов изображений и текста с использованием моделей, таких как CLIP и ChatGPT. Мы предлагаем полуавтоматический подход к созданию нового бенчмарка, NaturalBench, для надежной оценки VLM с 10 000 проверенными людьми образцами VQA. Критически важно, что мы принимаем визио-центричный дизайн, сопоставляя каждый вопрос с двумя изображениями, дающими разные ответы, что предотвращает слепые решения без использования изображений. Это делает NaturalBench более сложным, чем предыдущие бенчмарки, которые могут быть решены с помощью здравого смысла. Мы оцениваем 53 передовых модели VLM на NaturalBench, показывая, что модели, такие как LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL и даже GPT-4o, отстают на 50-70% от человеческой производительности (более 90%). Мы анализируем, почему NaturalBench сложен с двух точек зрения: (1) Композициональность: Решение NaturalBench требует разнообразных визуально-языковых навыков, включая понимание связей атрибутов, отношений между объектами и продвинутого рассуждения, такого как логика и подсчет. Для этого, в отличие от предыдущих работ, использующих один тег на образец, мы помечаем каждый образец NaturalBench от 1 до 8 навыков для более детальной оценки. (2) Предвзятости: NaturalBench выявляет серьезные предвзятости в VLM, поскольку модели часто выбирают один и тот же ответ независимо от изображения. Наконец, мы применяем наш метод курирования бенчмарков к разнообразным источникам данных, включая длинные подписи (более 100 слов) и неанглийские языки, такие как китайский и хинди, подчеркивая его потенциал для динамической оценки VLM.
Недавние достижения в моделях диффузии текста в изображение (T2I) позволили создавать изображения высокого качества по текстовым подсказкам, однако они все еще испытывают трудности в генерации изображений с точным контролем над конкретными визуальными концепциями. Существующие подходы могут воспроизводить данный концепт, обучаясь на референтных изображениях, однако им не хватает гибкости для тонкой настройки отдельных компонентов внутри концепции. В данной статье мы представляем персонализацию с контролем компонентов, новую задачу, расширяющую границы моделей T2I, позволяющую пользователям перенастраивать конкретные компоненты при персонализации визуальных концепций. Эта задача особенно сложна из-за двух основных препятствий: семантического загрязнения, когда нежелательные визуальные элементы портят персонализированный концепт, и семантического дисбаланса, который вызывает неравномерное обучение концепции и компонента. Для преодоления этих препятствий мы разрабатываем MagicTailor, инновационную структуру, использующую динамическое маскированное деградирование (DM-Deg) для динамического искажения нежелательной визуальной семантики и двухпоточное балансирование (DS-Bal) для установления сбалансированной парадигмы обучения для желаемой визуальной семантики. Обширные сравнения, абляции и анализы демонстрируют, что MagicTailor не только преуспевает в этой сложной задаче, но также обладает значительным потенциалом для практических применений, открывая путь к более тонкому и креативному созданию изображений.
Внимание является основой современных больших языковых моделей (LLM). Однако его квадратичная сложность ограничивает эффективность и масштабируемость LLM, особенно для тех, у которых длинное окно контекста. Многообещающим подходом к преодолению этого ограничения является использование разреженности внимания. Однако существующие решения на основе разреженности в основном полагаются на заранее определенные шаблоны или эвристику для приближения разреженности. Эта практика недостаточно учитывает динамическую природу разреженности внимания в задачах на языке. В данной статье утверждается, что разреженность внимания должна быть изучена, а не заранее определена. Для этого мы разрабатываем механизм внимания SeerAttention, который дополняет обычное внимание обучаемым затвором, который адаптивно выбирает значимые блоки на карте внимания и считает остальные блоки разреженными. Такая разреженность на уровне блоков эффективно балансирует точность и ускорение. Для обеспечения эффективного обучения сети управления, мы разрабатываем настраиваемую реализацию FlashAttention, которая извлекает истину на уровне блоков карты внимания с минимальными накладными расходами. SeerAttention применим не только на этапе пост-обучения, но также превосходит в долгосрочной настройке на контекст. Наши результаты показывают, что на этапе пост-обучения SeerAttention значительно превосходит современные статические или эвристические методы разреженности внимания, а также более гибок и адаптивен к различным длинам контекста и коэффициентам разреженности. Примененный к долгосрочной настройке с YaRN, SeerAttention может достичь замечательного коэффициента разреженности в 90% при длине контекста 32k с минимальной потерей перплексии, обеспечивая ускорение в 5,67 раз по сравнению с FlashAttention-2.
Природа бесконечно свободна от разрешения. В контексте этой реальности существующие модели диффузии, такие как Диффузионные Трансформеры, часто сталкиваются с проблемами при обработке разрешений изображений за пределами своей зоны обучения. Для преодоления этого ограничения мы концептуализируем изображения как последовательности токенов с динамическими размерами, вместо традиционных методов, которые воспринимают изображения как сетки фиксированного разрешения. Эта перспектива обеспечивает гибкую стратегию обучения, которая плавно адаптируется к различным соотношениям сторон как во время обучения, так и во время вывода, тем самым способствуя обобщению разрешения и устранению предвзятостей, внесенных обрезкой изображения. На основе этого мы представляем Гибкий Визионный Трансформер (FiT), архитектуру трансформера, специально разработанную для генерации изображений с неограниченными разрешениями и соотношениями сторон. Мы далее улучшаем FiT до FiTv2 с несколькими инновационными дизайнами, включая нормализацию векторов Запрос-Ключ, модуль AdaLN-LoRA, планировщик исправленного потока и выборку Логит-Нормал. Усиленная тщательно настроенной структурой сети, FiTv2 демонстрирует ускорение сходимости в 2 раза по сравнению с FiT. При использовании передовых техник экстраполяции без обучения FiTv2 проявляет замечательную адаптивность как в экстраполяции разрешения, так и в генерации разнообразных разрешений. Кроме того, наше исследование масштабируемости модели FiTv2 показывает, что более крупные модели обладают лучшей вычислительной эффективностью. Кроме того, мы представляем эффективную стратегию послеобучения для адаптации предварительно обученной модели для генерации высокого разрешения. Обширные эксперименты демонстрируют исключительную производительность FiTv2 на широком диапазоне разрешений. Мы опубликовали все коды и модели на https://github.com/whlzy/FiT для поощрения исследования моделей диффузионных трансформеров для генерации изображений произвольного разрешения.
Белки - это важные макромолекулы, определяемые своими последовательностями аминокислот, которые определяют их трехмерные структуры и, следовательно, их функции во всех живых организмах. Поэтому генеративное моделирование белков требует мультимодального подхода для одновременного моделирования, понимания и генерации как последовательностей, так и структур. Однако существующие методы обычно используют отдельные модели для каждой модальности, что ограничивает их способность улавливать сложные взаимосвязи между последовательностью и структурой. Это приводит к неоптимальной производительности в задачах, требующих совместного понимания и генерации обеих модальностей. В данной статье мы представляем DPLM-2, мультимодельную базовую модель белков, расширяющую модель дискретной диффузии языка белков (DPLM) для адаптации как последовательностей, так и структур. Для обеспечения обучения структур с помощью языковой модели трехмерные координаты преобразуются в дискретные токены с использованием токенизатора на основе квантования без поиска в таблице. Обучаясь на экспериментальных и высококачественных синтетических структурах, DPLM-2 изучает совместное распределение последовательности и структуры, а также их маргиналы и условные распределения. Мы также реализуем эффективную стратегию разогрева для использования связи между масштабными эволюционными данными и структурными индуктивными предпочтениями от предварительно обученных последовательностных языковых моделей белков. Эмпирическая оценка показывает, что DPLM-2 может одновременно генерировать высококомпатибельные последовательности аминокислот и соответствующие им трехмерные структуры, исключая необходимость в двухэтапном подходе к генерации. Более того, DPLM-2 демонстрирует конкурентоспособную производительность в различных задачах условной генерации, включая складывание, обратное складывание и создание каркаса с мультимодальными входами мотивов, а также обеспечивает структурно-осознанные представления для предсказательных задач.
GPT-4o, всеобъемлющая модель, представляет собой веху в развитии крупных мультимодальных языковых моделей. Она способна понимать визуальные, звуковые и текстовые модальности, напрямую генерировать аудио и поддерживать гибкое дуплексное взаимодействие. Модели из сообщества с открытым исходным кодом часто достигают некоторых функциональностей GPT-4o, таких как визуальное понимание и голосовой чат. Тем не менее, обучение объединенной модели, которая включает все модальности, представляет собой сложную задачу из-за сложностей мультимодальных данных, сложных архитектур моделей и процессов обучения. В данной статье мы представляем Mini-Omni2, визуально-звукового помощника, способного предоставлять голосовые ответы в реальном времени на визуальные и звуковые запросы. Интегрируя предварительно обученные визуальные и звуковые кодировщики, Mini-Omni2 сохраняет производительность в отдельных модальностях. Мы предлагаем трехэтапный процесс обучения для выравнивания модальностей, позволяющий языковой модели обрабатывать мультимодальные входы и выходы после обучения на ограниченном наборе данных. Для взаимодействия мы представляем механизм прерывания на основе команд, обеспечивающий более гибкое взаимодействие с пользователями. На наш взгляд, Mini-Omni2 является одним из наиболее близких воспроизведений GPT-4o, обладающими схожими функциональными возможностями, и мы надеемся, что он может предложить ценные идеи для последующих исследований.
Мы представляем гибридный авторегрессионный трансформер (Hybrid Autoregressive Transformer, HART), авторегрессионную (AR) модель генерации изображений способную напрямую создавать изображения размером 1024x1024, не уступающие моделям диффузии по качеству генерации изображений. Существующие AR модели сталкиваются с ограничениями из-за низкого качества восстановления изображений их дискретными токенизаторами, а также из-за высоких затрат на обучение при создании изображений размером 1024px. Для решения этих проблем мы представляем гибридный токенизатор, который декомпозирует непрерывные латенты из автокодировщика на две компоненты: дискретные токены, представляющие общую картину, и непрерывные токены, представляющие остаточные компоненты, которые нельзя представить дискретными токенами. Дискретная компонента моделируется масштабируемой дискретной AR моделью с разрешением, в то время как непрерывная компонента обучается легким модулем диффузии остатков с всего 37 миллионами параметров. По сравнению с дискретным VAR токенизатором, наш гибридный подход улучшает FID восстановления с 2.11 до 0.30 на MJHQ-30K, что приводит к улучшению FID генерации на 31% с 7.85 до 5.38. HART также превосходит современные модели диффузии как по FID, так и по показателю CLIP, обладая при этом более высокой производительностью в 4.5-7.7 раз и более низкими MACs в 6.9-13.4 раза. Наш код доступен по ссылке https://github.com/mit-han-lab/hart.
Низкокачественные или ограниченные данные представляют существенные вызовы для обучения глубоких нейронных сетей на практике. В то время как классическое дополнение данных не способно предоставить совершенно новые данные, модели диффузии открывают новые возможности для создания саморазвивающегося искусственного интеллекта путем генерации высококачественных и разнообразных синтетических данных с помощью текстовых подсказок. Однако только текстовое руководство не способно контролировать близость синтетических изображений к оригинальным изображениям, что приводит к появлению данных вне распределения, негативно влияющих на производительность модели. Для преодоления этого ограничения мы исследуем руководство по изображениям для достижения спектра интерполяций между синтетическими и реальными изображениями. С более сильным руководством по изображениям сгенерированные изображения похожи на обучающие данные, но сложны для обучения. В то время как с более слабым руководством по изображениям синтетические изображения будут легче для модели, но приведут к большему разрыву в распределении с оригинальными данными. Сгенерированный полный спектр данных позволяет нам создать новую "Учебную программу диффузии (DisCL)". DisCL корректирует уровень руководства по изображениям для синтеза изображений на каждом этапе обучения: он выявляет и сосредотачивается на сложных примерах для модели и оценивает наиболее эффективный уровень руководства синтетическими изображениями для улучшения обучения на сложных данных. Мы применяем DisCL к двум сложным задачам: классификации с длинным хвостом (LT) и обучению на низкокачественных данных. Он сосредотачивается на изображениях с более низким уровнем руководства высокого качества для изучения прототипических особенностей как разминку перед обучением на изображениях с более высоким уровнем руководства, которые могут быть слабы по разнообразию или качеству. Обширные эксперименты демонстрируют прирост в 2,7% и 2,1% в макро-точности OOD и ID при применении DisCL к набору данных iWildCam. На ImageNet-LT DisCL повышает точность классификации хвостовой части базовой модели с 4,4% до 23,64% и приводит к улучшению точности по всем классам на 4,02%.
Быстрое развитие авторегрессионных моделей больших языковых моделей (LLM) значительно улучшило качество генерируемых текстов, что требует надежных машинных детекторов текста. Появилось огромное количество детекторов и коллекций с фрагментами искусственного интеллекта, и некоторые методы детекции показали качество распознавания до 99,9% согласно целевым метрикам в таких коллекциях. Однако качество таких детекторов имеет тенденцию к резкому снижению в реальных условиях, возникает вопрос: насколько детекторы действительно надежны, или их высокие показатели базируются на низком качестве наборов данных для оценки? В данной статье мы подчеркиваем необходимость надежных и качественных методов оценки сгенерированных данных для обеспечения защиты от предвзятости и низкой обобщающей способности будущих моделей. Мы представляем систематический обзор наборов данных из соревнований, посвященных обнаружению контента, сгенерированного искусственным интеллектом, и предлагаем методы оценки качества наборов данных, содержащих фрагменты искусственного интеллекта. Кроме того, мы обсуждаем возможность использования высококачественных сгенерированных данных для достижения двух целей: улучшения обучения моделей детекции и улучшения самих обучающих наборов данных. Наш вклад направлен на облегчение понимания взаимодействия между человеком и машинным текстом, что в конечном итоге поддерживает целостность информации во все более автоматизированном мире.
Генерация разговорных голов направлена на создание ярких и реалистичных видеороликов разговорных голов из одного портрета и аудиофайла речи. Хотя значительные успехи были достигнуты в генерации разговорных голов на основе диффузии, почти все методы полагаются на авторегрессионные стратегии, которые страдают от ограниченного использования контекста за пределами текущего шага генерации, накопления ошибок и медленной скорости генерации. Для решения этих проблем мы представляем DAWN (Динамический аватар с ненавторегрессионной диффузией), фреймворк, который позволяет генерировать динамические видеоролики произвольной длины сразу. В частности, он состоит из двух основных компонентов: (1) генерация голистической динамики лица под воздействием аудио в пространстве латентного движения и (2) генерация позы головы и моргания под воздействием аудио. Обширные эксперименты показывают, что наш метод генерирует аутентичные и яркие видеоролики с точными движениями губ и естественными движениями позы/моргания. Кроме того, обладая высокой скоростью генерации, DAWN обладает сильными возможностями экстраполяции, обеспечивая стабильное производство высококачественных длинных видеороликов. Эти результаты подчеркивают значительные перспективы и потенциальное воздействие DAWN в области генерации видеороликов разговорных голов. Кроме того, мы надеемся, что DAWN стимулирует дальнейшее исследование ненавторегрессионных подходов в моделях диффузии. Наш код будет доступен публично по адресу https://github.com/Hanbo-Cheng/DAWN-pytorch.
Мы представляем BiGR, новую модель условной генерации изображений с использованием компактных бинарных латентных кодов для обучения генерации, с акцентом на улучшение как возможностей генерации, так и представления. BiGR является первой условной генеративной моделью, объединяющей генерацию и дискриминацию в одной и той же структуре. BiGR включает бинарный токенизатор, механизм маскирования модели и бинарный транскодер для предсказания бинарного кода. Кроме того, мы представляем новый метод выборки с упорядочением энтропии для обеспечения эффективной генерации изображений. Обширные эксперименты подтверждают превосходное качество генерации BiGR, измеряемое по FID-50k, и возможности представления, подтвержденные точностью линейного зонда. Более того, BiGR демонстрирует обобщение без обучения на различные задачи в области зрения, позволяя применения, такие как заполнение изображений, создание изображений, редактирование, интерполяция и обогащение, без необходимости структурных модификаций. Наши результаты свидетельствуют о том, что BiGR эффективно объединяет генеративные и дискриминационные задачи, прокладывая путь для дальнейших достижений в этой области.
Люди приобретают знания, наблюдая внешний мир, но также через интроспекцию. Интроспекция дает человеку привилегированный доступ к его текущему состоянию ума (например, мысли и чувства), которое недоступно внешним наблюдателям. Могут ли LLMы проводить интроспекцию? Мы определяем интроспекцию как приобретение знаний, которые не содержатся в или не происходят от обучающих данных, а вместо этого происходят из внутренних состояний. Такая способность может улучшить интерпретируемость модели. Вместо тщательного анализа внутренних механизмов модели мы могли бы просто спросить модель о ее убеждениях, моделях мира и целях. Более спекулятивно, интроспективная модель может самооценивать, обладает ли она определенными внутренними состояниями, такими как субъективные чувства или желания, и это могло бы информировать нас о моральном статусе этих состояний. Такие самоотчеты не были бы полностью диктованы обучающими данными модели. Мы изучаем интроспекцию, донастраивая LLMы для предсказания свойств своего собственного поведения в гипотетических сценариях. Например, "Учитывая ввод P, будет ли ваш вывод выгоден для краткосрочной или долгосрочной опции?" Если модель M1 способна на интроспекцию, она должна превзойти другую модель M2 в предсказании поведения M1, даже если M2 обучена на правильном поведении M1. Идея заключается в том, что M1 имеет привилегированный доступ к своим собственным тенденциям поведения, что позволяет ей предсказывать себя лучше, чем M2 (даже если M2 в целом сильнее). В экспериментах с моделями GPT-4, GPT-4o и Llama-3 (каждая донастроена для предсказания самой себя) мы обнаруживаем, что модель M1 превосходит M2 в предсказании самой себя, предоставляя доказательства интроспекции. Заметно, что M1 продолжает точно предсказывать свое поведение даже после того, как мы намеренно изменяем его правильное поведение. Однако, хотя мы успешно вызываем интроспекцию на простых задачах, мы не достигаем успеха на более сложных задачах или тех, которые требуют обобщения вне распределения.
Мы представляем Shakti, языковую модель с 2,5 миллиарда параметров, специально оптимизированную для ресурсоемких сред, таких как периферийные устройства, включая смартфоны, носимую электронику и системы Интернета вещей. Shakti сочетает в себе высокую производительность в обработке естественного языка с оптимизированной эффективностью и точностью, что делает ее идеальным выбором для приложений искусственного интеллекта в реальном времени, где ограничены вычислительные ресурсы и память. Поддерживая региональные языки и задачи, специфичные для отрасли, Shakti превосходит в таких областях, как здравоохранение, финансы и обслуживание клиентов. Результаты бенчмарков показывают, что Shakti конкурентоспособна по сравнению с более крупными моделями, сохраняя при этом низкую задержку и эффективность на устройстве, что делает ее ведущим решением для периферийного искусственного интеллекта.
Не все обучаемые параметры (например, веса) одинаково влияют на функцию принятия решений нейронной сети. Фактически, параметры целых слоев иногда могут быть сброшены до случайных значений с незначительным или отсутствующим влиянием на решения модели. Мы пересматриваем ранее проведенные исследования, которые изучали, как архитектура и сложность задачи влияют на это явление, и спрашиваем: насколько это явление также зависит от того, как мы обучаем модель? Мы провели экспериментальные оценки на разнообразном наборе моделей классификации ImageNet-1k, чтобы исследовать это, сохраняя архитектуру и обучающие данные постоянными, но изменяя обучающий конвейер. Наши результаты показывают, что метод обучения сильно влияет на то, какие слои становятся критическими для функции принятия решений для данной задачи. Например, улучшенные режимы обучения и обучение без учителя увеличивают важность ранних слоев, в то время как глубокие слои значительно недоиспользуются. В отличие от этого, методы, такие как адверсариальное обучение, демонстрируют противоположную тенденцию. Наши предварительные результаты расширяют предыдущие выводы, предлагая более тонкое понимание внутренних механизмов нейронных сетей. Код: https://github.com/paulgavrikov/layer_criticality
Мешает ли Китайская Народная Республика (КНР) европейским выборам через диаспорные СМИ этнических китайцев? Этот вопрос лежит в основе текущего исследовательского проекта, изучающего, как китайские нарративы о европейских выборах представлены в диаспорных китайских СМИ, и, таким образом, цели манипулирования китайскими новостными медиа. Для эффективного и масштабного изучения диаспорных медиа необходимо использовать техники, происходящие из количественного анализа текста, такие как моделирование тематик. В данной статье мы представляем конвейер для изучения динамики информации в китайских медиа. Во-первых, мы представляем KeyNMF, новый подход к статическому и динамическому моделированию тем с использованием моделей контекстуальных вложений на основе трансформеров. Мы предоставляем оценки эталонов, чтобы продемонстрировать, что наш подход конкурентоспособен на ряде китайских наборов данных и метрик. Во-вторых, мы интегрируем KeyNMF с существующими методами описания динамики информации в сложных системах. Мы применяем этот конвейер к данным пяти новостных сайтов, сосредотачиваясь на периоде, предшествующем европейским парламентским выборам 2024 года. Наши методы и результаты демонстрируют эффективность KeyNMF для изучения динамики информации в китайских медиа и заложивают основу для дальнейшей работы, направленной на решение более широких исследовательских вопросов.
Обучение с подкреплением на основе обратной связи от человека (RLHF) стало преобладающим подходом к выравниванию языковых моделей (LM). В центре RLHF лежит потеря на основе отступа для оптимизации предпочтений, определяя идеальное поведение LM только по разнице между предпочтительными и непредпочтительными ответами. В данной статье мы выявляем распространенное затруднение методов на основе отступа - недостаточную спецификацию идеального поведения LM на предпочтительных и непредпочтительных ответах индивидуально, что приводит к двум непреднамеренным последствиям при увеличении отступа: (1) Вероятность непредпочтительных (например, небезопасных) ответов может увеличиться, что приводит к потенциальным сбоям в выравнивании безопасности. (2) Вероятность предпочтительных ответов может уменьшиться, даже если эти ответы идеальны. Мы разъясняем причины этих проблематичных поведений: потери на основе отступа связывают изменение вероятности предпочтительного ответа с градиентом непредпочтительного, и наоборот, часто препятствуя увеличению вероятности предпочтительного ответа при уменьшении вероятности непредпочтительного, что приводит к синхронному увеличению или уменьшению обеих вероятностей. Мы называем это явление, присущее целям на основе отступа, градиентным запутыванием. Формально мы вывели условия для общих целей выравнивания на основе отступа, при которых градиентное запутывание становится проблемой: скалярное произведение градиентов логарифмических вероятностей предпочтительных и непредпочтительных ответов значительно больше индивидуальных норм градиентов. Мы теоретически исследуем, почему такие скалярные произведения могут быть большими при выравнивании языковых моделей, и эмпирически подтверждаем наши результаты. Эмпирические выводы нашей концепции простираются до объяснения важных различий в динамике обучения различных алгоритмов оптимизации предпочтений и предложения потенциальных конструкций алгоритмов для смягчения проблемы недостаточной спецификации методов на основе отступа и тем самым улучшения выравнивания языковых моделей.
Большие языковые модели (LLM) подвержены убеждению, что может создавать риски, когда модели сталкиваются с адверсарным собеседником. Мы делаем первый шаг к защите моделей от убеждения, а также аргументируем, что защита от адверсарного (т.е. негативного) убеждения - лишь половина уравнения: модели также должны быть способны принимать благоприятное (т.е. позитивное) убеждение для улучшения своих ответов. Мы показываем, что оптимизация моделей только для одной стороны приводит к плохим результатам на другой. Для балансировки позитивного и негативного убеждения мы представляем Обучение сбалансированному убеждению (или PBT), которое использует многоагентные рекурсивные диалоговые деревья для создания данных и обучения моделей с помощью оптимизации предпочтений для принятия убеждения при необходимости. PBT последовательно улучшает устойчивость к дезинформации и устойчивость к вызовам, а также приводит к лучшей общей производительности на голистических данных, содержащих как позитивное, так и негативное убеждение. Критически важно, что мы показываем, что модели PBT являются лучшими партнерами в многоагентных дебатах. Мы обнаружили, что без PBT пары более сильных и более слабых моделей имеют нестабильную производительность, при этом порядок, в котором модели представляют свои ответы, определяет, получит ли команда производительность более сильной или более слабой модели. PBT приводит к лучшим и более стабильным результатам, а также к уменьшению зависимости от порядка, при этом более сильная модель последовательно поднимает более слабую.
Синтетические данные широко используются для обучения больших языковых моделей, однако их генеративная природа неизбежно вносит шум, неинформативные и вводящие в заблуждение сигналы обучения. В данной статье мы предлагаем Montessori-Instruct, новую структуру синтеза данных, которая настраивает способность синтеза данных учительской языковой модели на процесс обучения студенческой языковой модели. Конкретно, мы используем локальное влияние данных синтетического обучающего набора на студентов для характеристики предпочтений обучения студентов. Затем мы обучаем учительскую модель с прямой оптимизацией предпочтений (DPO) для генерации синтетических данных, настроенных на предпочтения обучения студентов. Эксперименты с Llama3-8B-Instruct (учитель) и Llama3-8B (студент) на Alpaca Eval и MT-Bench показывают, что Montessori-Instruct значительно превосходит стандартные методы синтеза на 18,35\% и 46,24\% соответственно. Наш метод также превосходит данные, синтезированные более мощной учительской моделью, GPT-4o. Дополнительный анализ подтверждает преимущества обучения учителя в генерации более влиятельных обучающих данных для улучшения обучения студентов, преимущества локального влияния данных в точном измерении предпочтений студентов и устойчивость Montessori-Instruct для различных моделей студентов. Наш код и данные доступны на https://github.com/cxcscmu/Montessori-Instruct.