Ежедневно отобранные исследовательские статьи по ИИ с переводами
Надзорное дообучение (SFT) играет ключевую роль в адаптации крупных языковых моделей (LLM) к конкретным областям или задачам. Однако, как показывают эмпирические эксперименты, собранные данные неизбежно содержат шум в практических приложениях, что создает значительные вызовы для производительности модели на последующих задачах. Поэтому существует настоятельная необходимость в шумоустойчивой SFT-структуре для улучшения возможностей модели на последующих задачах. Для решения этой проблемы мы представляем надежную SFT-структуру (RobustFT), которая выполняет обнаружение шума и переоценку на данных последующей задачи. Для идентификации шума наш подход использует многопользовательскую коллаборативную систему с моделями, улучшенными выводом, для достижения превосходного обнаружения шума. В фазе очистки от шума мы используем стратегию с учетом контекста, которая включает наиболее релевантные и уверенные знания, за которыми следует тщательная оценка для создания надежных аннотаций. Кроме того, мы представляем эффективный механизм выбора данных на основе энтропии ответа, обеспечивая сохранение только высококачественных образцов для дообучения. Обширные эксперименты, проведенные на нескольких LLM на пяти наборах данных, демонстрируют исключительную производительность RobustFT в шумных сценариях.
В отсутствие обширных данных, размеченных людьми, для сложных задач рассуждения самоусовершенствование - когда модели обучаются на своих собственных выводах - стало основным методом повышения производительности. Однако критические факторы, лежащие в основе механизма этих итеративных методов самоусовершенствования, остаются плохо понятыми, такие как в каких условиях самоусовершенствование эффективно и каковы узкие места в текущих итерациях. В данной работе мы выявляем и предлагаем методы для мониторинга двух ключевых факторов в этом итеративном процессе: (1) способность модели генерировать достаточно разнообразные ответы (исследование); и (2) эффективность внешних вознаграждений в различении кандидатов высокого качества от менее качественных (эксплуатация). Используя математическое рассуждение в качестве кейс-стади, мы начинаем с количественного анализа для отслеживания динамики исследования и эксплуатации, обнаруживая, что способности модели к исследованию быстро ухудшаются с течением времени, и эффективность использования внешних вознаграждений также уменьшается. Вдохновленные этими результатами, мы представляем B-STaR, фреймворк для самообучения рассуждения, который автономно корректирует конфигурации на протяжении итераций для балансировки исследования и эксплуатации, тем самым оптимизируя эффективность самоусовершенствования на основе текущей политики модели и доступных вознаграждений. Наши эксперименты по математическому рассуждению, программированию и здравому смыслу демонстрируют, что B-STaR не только улучшает способности модели к исследованию на протяжении обучения, но также достигает более эффективного баланса между исследованием и эксплуатацией, что приводит к превосходной производительности.
Способность к рассуждениям является неотъемлемой для больших мультимодальных моделей (LMMs). В отсутствие аннотированных данных цепочки мыслей в мультимодальном формате, самоэволюционное обучение, при котором модель учится на основе своих собственных выводов, стало эффективным и масштабируемым подходом для улучшения способностей к рассуждениям. Несмотря на его растущее использование, полное понимание самоэволюционного обучения, особенно в контексте мультимодального рассуждения, остается ограниченным. В данной статье мы углубляемся в тонкости самоэволюционного обучения для мультимодального рассуждения, выделяя три ключевых фактора: Метод Обучения, Модель Вознаграждения и Вариации Запросов. Мы систематически исследуем каждый фактор и исследуем, как различные конфигурации влияют на эффективность обучения. Наш анализ приводит к набору лучших практик для каждого фактора, направленных на оптимизацию мультимодального рассуждения. Кроме того, мы исследуем Динамику Самоэволюции во время обучения и влияние автоматических механизмов балансировки на повышение производительности. После всех исследований мы представляем окончательный рецепт для самоэволюционного обучения в мультимодальном рассуждении, заключая эти дизайнерские выборы во фреймворк, который мы называем MSTaR (Мультимодальное Самоэволюционное Обучение для Рассуждения), который эффективен для моделей различных размеров на различных бенчмарках, превосходя предварительно эволюционную модель значительно на 5 бенчмарках мультимодального рассуждения без использования дополнительных аннотаций человека, как продемонстрировано на MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) и InternVL2 (2B). Мы считаем, что данное исследование заполняет значительную пробел в понимании самоэволюционного обучения для мультимодального рассуждения и предлагает прочный фреймворк для будущих исследований. Наши модели политики и вознаграждения, а также собранные данные, предоставлены для облегчения дальнейших исследований в области мультимодального рассуждения.
Авторегрессионные (AR) модели достигли передовых показателей в генерации текста и изображений, но страдают от медленной генерации из-за пошагового процесса токен-за-токеном. Мы задаем амбициозный вопрос: можно ли адаптировать предварительно обученную AR модель для генерации выводов всего за один или два шага? В случае успеха это значительно продвинет разработку и применение AR моделей. Мы замечаем, что существующие работы, пытающиеся ускорить генерацию AR путем генерации нескольких токенов одновременно, фундаментально не могут уловить распределение вывода из-за условных зависимостей между токенами, что ограничивает их эффективность для генерации на несколько шагов. Для решения этой проблемы мы предлагаем метод Distilled Decoding (DD), который использует сопоставление потоков для создания детерминированного отображения из гауссовского распределения в распределение вывода предварительно обученной AR модели. Затем мы обучаем сеть для упрощения этого отображения, обеспечивая генерацию на несколько шагов. DD не требует обучающих данных оригинальной AR модели, что делает его более практичным. Мы оцениваем DD на передовых моделях AR для изображений и представляем многообещающие результаты на ImageNet-256. Для VAR, требующего генерации на 10 шагов, DD позволяет генерацию за один шаг (ускорение в 6.3 раза), с приемлемым увеличением FID с 4.19 до 9.96. Для LlamaGen, DD сокращает генерацию с 256 шагов до 1, достигая ускорения в 217.8 раза с сопоставимым увеличением FID с 4.11 до 11.35. В обоих случаях базовые методы полностью терпят неудачу с FID>100. DD также превосходит в генерации текста-изображения, сокращая генерацию с 256 шагов до 2 для LlamaGen с минимальным увеличением FID с 25.70 до 28.95. Как первая работа, демонстрирующая возможность генерации за один шаг для моделей AR изображений, DD бросает вызов преобладающему представлению о том, что AR модели по своей сути медленные, и открывает новые возможности для эффективной генерации AR. Веб-сайт проекта находится по адресу https://imagination-research.github.io/distilled-decoding.
Серия моделей o1 обучается с использованием масштабного обучения с подкреплением для рассуждений с использованием цепочки мыслей. Эти продвинутые возможности рассуждений открывают новые пути для улучшения безопасности и надежности наших моделей. В частности, наши модели могут рассуждать о наших политиках безопасности в контексте при ответе на потенциально небезопасные запросы через размышленное выравнивание. Это приводит к результатам на уровне передовых технологий на определенных бенчмарках по рискам, таким как генерация незаконных советов, выбор стереотипных ответов и подверженность известным побегам из тюрьмы. Обучение моделей включать цепочку мыслей перед ответом имеет потенциал разблокировать существенные преимущества, а также увеличивать потенциальные риски, вытекающие из повышенного интеллекта. Наши результаты подчеркивают необходимость создания надежных методов выравнивания, тщательного тестирования их эффективности и поддержания тщательных протоколов управления рисками. В этом отчете описывается работа по безопасности, проведенная для моделей OpenAI o1 и OpenAI o1-mini, включая оценки безопасности, внешнюю красную командировку и оценки Фреймворка готовности.
Техники, позволяющие крупным языковым моделям (LLM) "думать больше", генерируя и обращая внимание на промежуточные шаги рассуждений, показали перспективы в решении сложных проблем. Однако стандартные подходы генерируют последовательности дискретных токенов непосредственно перед ответом, что может привести к значительным задержкам и затруднить оптимизацию. В данной работе мы демонстрируем, что замороженную LLM можно дополнить оффлайн-копроцессором, который работает с кэшем ключ-значение (kv) модели. Этот копроцессор дополняет кэш набором латентных вложений, разработанных для улучшения достоверности последующего декодирования. Мы обучаем этот копроцессор, используя потери языкового моделирования от декодера на стандартных данных предварительного обучения, при этом декодер сам остается замороженным. Этот подход позволяет модели учиться, в энд-ту-энд дифференцируемом стиле, как дистиллировать дополнительные вычисления в свой kv-кэш. Поскольку декодер остается неизменным, копроцессор может работать оффлайн и асинхронно, и языковая модель может функционировать нормально, если копроцессор недоступен или если данный кэш считается не требующим дополнительных вычислений. Мы экспериментально показываем, что при дополнении кэша декодер достигает более низкой перплексии на многочисленных последующих токенах. Более того, даже без какого-либо задаче-специфического обучения, наши эксперименты демонстрируют, что дополнение кэша последовательно снижает перплексию и улучшает производительность на широком спектре задач, требующих рассуждений.
Обучение в контексте (In-Context Learning, ICL) – это методика, согласно которой языковые модели делают прогнозы на основе примеров, предоставленных в их входном контексте. Ранее размер окна контекста ограничивал количество примеров, которые можно было показать, что делало техники выбора примеров ключевыми для определения максимально эффективного набора примеров. Однако недавнее появление моделей языка с длинным контекстом (Long Context Language Models, LCLMs) значительно увеличило количество примеров, которые можно включить в контекст, возникает важный вопрос о том, чувствителен ли результат ICL в режиме многократного показа к методу выбора образцов. Для ответа на этот вопрос мы пересматриваем эти подходы в контексте LCLMs через обширные эксперименты на 18 наборах данных, охватывающих 4 задачи. К удивлению, мы обнаруживаем, что сложные техники выбора примеров не приносят существенных улучшений по сравнению с простым случайным выбором образцов. Вместо этого мы приходим к выводу, что появление LCLMs фундаментально изменило вызов ICL: от выбора наиболее эффективных примеров к сбору достаточного количества примеров для заполнения окна контекста. В частности, на некоторых наборах данных включение всех доступных примеров не использует полностью окно контекста; однако, добавляя примеры в контекст с помощью простого подхода к аугментации данных, мы значительно улучшаем производительность ICL на 5%.
Обучение надежного видео вариационного автокодировщика (VAE) является важным для снижения избыточности видео и облегчения эффективной генерации видео. Прямое применение изображений VAE к отдельным кадрам может привести к временным несоответствиям и субоптимальным коэффициентам сжатия из-за отсутствия временного сжатия. Существующие видео VAE начали решать проблему временного сжатия; однако они часто страдают от недостаточной производительности восстановления. В этой статье мы представляем новый и мощный видео автокодировщик, способный к высококачественному видео кодированию. Во-первых, мы замечаем, что спутывание пространственного и временного сжатия путем простого расширения изображения VAE до 3D VAE может привести к появлению размытости движения и артефактов искажения деталей. Поэтому мы предлагаем пространственное сжатие, осознавающее временные аспекты, для более эффективного кодирования и декодирования пространственной информации. Кроме того, мы интегрируем легкую модель сжатия движения для дальнейшего временного сжатия. Во-вторых, мы предлагаем использовать текстовую информацию, присущую наборам данных текст-видео, и внедрить текстовое руководство в нашу модель. Это значительно улучшает качество восстановления, особенно с точки зрения сохранения деталей и временной стабильности. В-третьих, мы дополнительно улучшаем универсальность нашей модели путем совместного обучения как на изображениях, так и на видео, что не только улучшает качество восстановления, но и позволяет модели выполнять как автокодирование изображений, так и видео. Обширные оценки по сравнению с сильными недавними базовыми уровнями демонстрируют превосходную производительность нашего метода. Веб-сайт проекта можно найти по адресу https://yzxing87.github.io/vae/.
Недавно модели, подобные O1, стали представительными примерами, иллюстрирующими эффективность длинной цепочки мыслей (CoT) в задачах рассуждений, таких как математические и программистские задачи. В данной статье мы представляем DRT-o1, попытку перенести успех длинного CoT на нейронный машинный перевод (MT). В частности, с учетом литературных произведений, которые могут содержать сравнения и метафоры, перевод этих текстов на целевой язык практически очень сложен из-за культурных различий. В таких случаях дословный перевод часто не способен эффективно передать задуманное значение. Даже для профессиональных человеческих переводчиков требуется значительное внимание к сохранению семантики на протяжении процесса перевода. Для имитации способности LLM к долгим размышлениям в MT мы сначала извлекаем предложения, содержащие сравнения или метафоры, из существующих литературных произведений, а затем разрабатываем мультиагентную структуру для перевода этих предложений с помощью долгих размышлений. В мультиагентной структуре используется переводчик для итеративного перевода исходного предложения под рекомендациями, предоставленными советником. Для обеспечения эффективности долгих размышлений также используется оценщик, который определяет, лучше ли текущий перевод, чем предыдущий, или нет. Таким образом, мы собираем десятки тысяч данных долгих размышлений MT, которые используются для обучения нашего DRT-o1. Экспериментальные результаты по литературному переводу демонстрируют эффективность DRT-o1. Используя Qwen2.5-7B и Qwen2.5-14B в качестве основ, улучшение, достигнутое DRT-o1, составляет 7.33~8.26 BLEU и 1.66~3.36 CometScore. Кроме того, DRT-o1-7B может превзойти QwQ-32B-Preview на 7.82 BLEU и 1.46 CometScore, что подтверждает его эффективность. Проект доступен по ссылке https://github.com/krystalan/DRT-o1.
Современные генеративные системы искусственного интеллекта настроены на представление информации по умолчанию, а не на вовлечение пользователей в обучение, как это делал бы человеческий наставник. Для решения широкого спектра потенциальных образовательных сценариев использования этих систем мы переосмысливаем задачу внедрения педагогического поведения как задачу последующего педагогического инструктирования, где обучающие и оценочные примеры включают инструкции на уровне системы, описывающие конкретные педагогические атрибуты, присутствующие или желаемые в последующих модельных оборотах. Такая постановка задачи позволяет избежать привязки наших моделей к какому-либо конкретному определению педагогики и вместо этого позволяет учителям или разработчикам указывать желаемое поведение модели. Это также открывает путь к улучшению моделей Gemini для обучения, позволяя добавлять наши педагогические данные к посттренировочным смесям, наряду с их быстро расширяющимся набором возможностей. Оба аспекта представляют собой важные изменения по сравнению с нашим первоначальным техническим отчетом. Мы показываем, как обучение с последующим педагогическим инструктированием порождает модель LearnLM (доступную на Google AI Studio), которая значительно предпочтительнее для экспертов по разнообразным сценариям обучения, с средними показателями предпочтения на уровне 31% по сравнению с GPT-4o, на 11% выше, чем у Claude 3.5, и на 13% выше, чем у модели Gemini 1.5 Pro, на основе которой был создан LearnLM.
Большие языковые модели продемонстрировали выдающиеся возможности в генерации кода, однако часто испытывают трудности с выполнением сложных программистских задач, требующих глубокого алгоритмического мышления. В то время как надзор за процессом через обученные модели вознаграждения показывает потенциал в направлении шагов рассуждения, это требует дорогостоящих обучающих данных и страдает от ненадежной оценки. Мы предлагаем Подконтрольный Процессу Исход, новый парадигму, который рассматривает совершенствование исхода само по себе как процесс, который подлежит надзору. Наша структура использует конкретные сигналы выполнения для обоснования надзора за шагами рассуждения, используя при этом древовидное исследование для поддержания нескольких траекторий решения одновременно. Эксперименты показывают, что наш подход позволяет даже более маленьким моделям достигать высокой точности успеха и показателей производительности на конкурентных программистских задачах, создавая более надежную верификацию, чем традиционные модели вознаграждения без необходимости обучения PRM. Наш подход достигает значительных улучшений по всем 5 моделям и 3 наборам данных: в среднем увеличение в правильности на 26.9% и в эффективности на 42.2%. Результаты свидетельствуют о том, что предоставление структурированного пространства рассуждений с конкретными сигналами верификации критично для решения сложных программистских задач. Мы открыто публикуем весь наш код и данные по адресу: https://github.com/zhuohaoyu/ORPS
Большие языковые модели (LLM) продемонстрировали выдающийся потенциал в научных областях, однако остается нерешенным фундаментальный вопрос: Можем ли мы смоделировать человеческие исследовательские сообщества с помощью LLM? Решение этого вопроса может углубить наше понимание процессов, лежащих в основе идейного брейнсторминга, и вдохновить на автоматическое обнаружение новых научных идей. В данной работе мы предлагаем ResearchTown, мультиагентную структуру для симуляции исследовательского сообщества. В рамках этой структуры человеческое исследовательское сообщество упрощается и моделируется как граф агентов-данных, где исследователи и статьи представлены как узлы типа агента и типа данных соответственно, и связаны на основе их коллаборативных отношений. Мы также представляем TextGNN, текстовую инферентную структуру, которая моделирует различные исследовательские действия (например, чтение статей, написание статей и написание рецензий) как специальные формы объединенного процесса передачи сообщений на графе агентов-данных. Для оценки качества симуляции исследований мы представляем ResearchBench, бенчмарк, который использует задачу предсказания маскировки узлов для масштабируемой и объективной оценки на основе сходства. Наши эксперименты раскрывают три ключевых вывода: (1) ResearchTown может обеспечить реалистичную симуляцию коллаборативных исследовательских действий, включая написание статей и написание рецензий; (2) ResearchTown может поддерживать надежную симуляцию с участием нескольких исследователей и разнообразных статей; (3) ResearchTown может генерировать междисциплинарные исследовательские идеи, которые потенциально вдохновляют на новые направления исследований.
Представьте мир, где искусственный интеллект может обрабатывать вашу работу, пока вы спите - организовывать ваши исследовательские материалы, составлять отчет или создавать презентацию, которая вам нужна на следующий день. Однако, хотя текущие цифровые агенты могут выполнять простые задачи, им далеко до способности справляться с сложной реальной работой, которую люди регулярно выполняют. Мы представляем PC Agent, систему искусственного интеллекта, которая демонстрирует важный шаг к этому видению через передачу человеческого когнитивного процесса. Наш ключевой инсайт заключается в том, что путь от выполнения простых "задач" к обработке сложной "работы" заключается в эффективном захвате и изучении человеческих когнитивных процессов во время использования компьютера. Для проверки этой гипотезы мы представляем три ключевых инновации: (1) PC Tracker, легкая инфраструктура, которая эффективно собирает высококачественные траектории взаимодействия человека с компьютером с полным когнитивным контекстом; (2) двухэтапный конвейер завершения когнитивного процесса, который преобразует сырые данные взаимодействия в богатые когнитивные траектории, завершая семантику действий и мыслительные процессы; и (3) мультиагентная система, объединяющая агента планирования для принятия решений с агентом обоснования для надежного визуального обоснования. Наши предварительные эксперименты по созданию презентаций в PowerPoint показывают, что сложные возможности цифровой работы могут быть достигнуты с небольшим количеством высококачественных когнитивных данных - PC Agent, обученный всего на 133 когнитивных траекториях, способен обрабатывать сложные сценарии работы, включающие до 50 шагов в различных приложениях. Это демонстрирует эффективность нашего подхода к данным, подчеркивая, что ключ к обучению способных цифровых агентов заключается в сборе человеческих когнитивных данных. Публикуя нашу полную структуру, включая инфраструктуру сбора данных и методы завершения когнитивного процесса, мы стремимся снизить барьеры для исследовательского сообщества в разработке действительно способных цифровых агентов.
Поскольку большие языковые модели (LLM) все чаще применяются в качестве агентов, их интеграция в интерактивные среды и использование инструментов представляют новые проблемы безопасности, выходящие за рамки связанных с моделями самих по себе. Однако отсутствие всесторонних бенчмарков для оценки безопасности агентов является значительным препятствием для эффективной оценки и дальнейшего улучшения. В данной статье мы представляем Agent-SafetyBench, всесторонний бенчмарк, разработанный для оценки безопасности агентов LLM. Agent-SafetyBench включает в себя 349 сред с взаимодействием и 2 000 тестовых случаев, оценивая 8 категорий рисков безопасности и охватывая 10 общих режимов отказа, часто встречающихся в небезопасных взаимодействиях. Наша оценка 16 популярных агентов LLM показывает обеспокоительный результат: ни один из агентов не достигает оценки безопасности выше 60%. Это подчеркивает значительные проблемы безопасности в агентах LLM и подчеркивает значительную потребность в улучшениях. Через количественный анализ мы выявляем критические режимы отказа и обобщаем два основных дефекта безопасности в текущих агентах LLM: недостаток устойчивости и недостаток осведомленности о рисках. Более того, наши результаты показывают, что полагаться только на оборонительные подсказки недостаточно для решения этих проблем безопасности, что подчеркивает необходимость более продвинутых и надежных стратегий. Мы выпускаем Agent-SafetyBench на сайте https://github.com/thu-coai/Agent-SafetyBench для облегчения дальнейших исследований и инноваций в оценке и улучшении безопасности агентов.
Многомодальный многопартийный разговор (MMC) является менее изученной, но важной темой исследований, поскольку хорошо соответствует реальным сценариям и, следовательно, потенциально имеет более широкое применение. По сравнению с традиционными многомодальными разговорами, MMC требует более сильных способностей к пониманию персонажей, поскольку визуальный и текстовый контекст включают множество собеседников. Для облегчения изучения этой проблемы мы представляем в этой статье Friends-MMC, набор данных MMC, содержащий 24 000+ уникальных высказываний, сопровождаемых видеоконтекстом. Для изучения понимания диалога, мы также аннотируем говорящего в каждом высказывании, имена и ограничивающие рамки лиц, появляющихся в видео. На основе этого набора данных Friends-MMC мы дополнительно изучаем две фундаментальные задачи MMC: идентификацию говорящего в разговоре и предсказание ответа в разговоре, обе из которых имеют многопартийный характер с видео или изображением в качестве визуального контекста. Для идентификации говорящего в разговоре мы демонстрируем неэффективность существующих методов, таких как предварительно обученные модели, и предлагаем простой, но эффективный базовый метод, который использует оптимизационный решатель для использования контекста двух модальностей для достижения лучшей производительности. Для предсказания ответа в разговоре мы донастраиваем генеративные модели диалога на Friends-MMC и анализируем выгоды информации о говорящем. Код и набор данных доступны публично по адресу https://github.com/yellow-binary-tree/Friends-MMC, и поэтому мы призываем к большему вниманию к моделированию информации о говорящем при понимании разговоров.
Недавнее введение OpenAI метода Тонкой Настройки с Подкреплением (RFT) демонстрирует потенциал модели основы рассуждений и предлагает новую парадигму для настройки сверх простого имитирования шаблонов. В данном техническом отчете представлен OpenRFT, наша попытка настроить общие модели рассуждений для задач, специфичных для области, в тех же условиях, что и RFT. OpenRFT решает две ключевые проблемы отсутствия данных о шагах рассуждений и ограниченного количества обучающих примеров, используя областные примеры тремя способами: увеличение вопросов, синтез данных процесса рассуждений и обучение на небольшом количестве примеров. Оценка проводится на SciKnowEval, где OpenRFT достигает значительного улучшения производительности всего с 100 областными примерами для каждой задачи. Дополнительные результаты экспериментов будут регулярно обновляться в последующих версиях. Исходные коды, наборы данных и модели доступны по ссылке: https://github.com/ADaM-BJTU/OpenRFT
Важным шагом для улучшения соответствия LLM человеческим намерениям является тонкая настройка инструкций (Instruction Fine-Tuning, IFT), что требует высокого качества набора данных. Однако существующие наборы данных IFT часто содержат знания, несовместимые с внутренними знаниями LLM, полученными на этапе предварительного обучения, что может серьезно повлиять на эффективность IFT. Для решения этой проблемы мы представляем фреймворк NILE (iNternal consIstency aLignmEnt), направленный на оптимизацию наборов данных IFT для дальнейшего раскрытия возможностей LLM. NILE работает путем вызова внутренних знаний целевой предварительно обученной LLM, соответствующих данным инструкций. Внутренние знания используются для корректировки ответов в наборах данных IFT. Кроме того, мы предлагаем новый метод фильтрации внутренней согласованности (Internal Consistency Filtering, ICF) для фильтрации обучающих выборок, обеспечивая их высокую согласованность с внутренними знаниями LLM. Наши эксперименты показывают, что выровненные с помощью NILE наборы данных IFT значительно повышают производительность LLM на различных наборах данных для оценки способностей LLM, достигая до 66,6% улучшения на Arena-Hard и 68,5% на Alpaca-Eval V2. Дополнительный анализ подтверждает, что каждый компонент фреймворка NILE вносит свой вклад в эти значительные улучшения производительности и предоставляет убедительные доказательства того, что согласованность набора данных с предварительными внутренними знаниями является ключевой для максимизации потенциала LLM.