Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в области крупных языковых моделей (LLM) демонстрируют значительные возможности в понимании и генерации естественного языка. С увеличением количества LLM возникает вопрос о том, как использовать коллективные знания нескольких LLM, что представляет собой увлекательное направление исследований. Для достижения этой цели мы предлагаем новый подход, который использует коллективные сильные стороны нескольких LLM с помощью методологии Смеси Агентов (MoA). В нашем подходе мы строим слоистую архитектуру MoA, в которой каждый слой состоит из нескольких агентов LLM. Каждый агент использует все выходные данные агентов предыдущего слоя в качестве вспомогательной информации при генерации своего ответа. Модели MoA достигают передовых результатов на AlpacaEval 2.0, MT-Bench и FLASK, превосходя GPT-4 Omni. Например, наша MoA, использующая только открытые LLM, является лидером AlpacaEval 2.0 с существенным отрывом, достигая показателя 65,1% по сравнению с 57,5% у GPT-4 Omni.
Поиском обогащенная генерация (Retrieval-Augmented Generation, RAG) недавно появилась как многообещающее решение для устранения недостатков больших языковых моделей (Large Language Model, LLM) в области недостатка знаний. Однако существующие наборы данных RAG недостаточно отражают разнообразную и динамичную природу реальных задач вопросно-ответной системы (Question Answering, QA). Для устранения этого разрыва мы представляем Comprehensive RAG Benchmark (CRAG) - набор данных для фактического вопросно-ответного тестирования, состоящий из 4 409 вопросов и ответов, а также имитирующий веб- и поисковые запросы в графах знаний (Knowledge Graph, KG). CRAG разработан для охвата широкого спектра вопросов в пяти областях и восьми категориях вопросов, отражая разнообразие популярности сущностей от популярных до долгоиграющих, а также временные динамики от лет до секунд. Наша оценка на этом тесте подчеркивает разрыв в полной достоверности ответов. В то время как большинство передовых LLM достигают <=34% точности на CRAG, добавление RAG прямым образом улучшает точность только до 44%. Самые передовые отраслевые решения RAG отвечают только на 63% вопросов без галлюцинаций. CRAG также показывает гораздо более низкую точность в ответах на вопросы, касающиеся фактов с более высокой динамикой, низкой популярностью или повышенной сложностью, что указывает на будущие направления исследований. Набор данных CRAG заложил основу для вызова KDD Cup 2024, привлекший тысячи участников и заявок в течение первых 50 дней соревнования. Мы обязуемся поддерживать CRAG для обслуживания научных сообществ в развитии решений RAG и общих решений в области QA.
Мы представляем WildBench, автоматизированную систему оценки, разработанную для сравнения больших языковых моделей (LLM) с использованием сложных запросов реальных пользователей. WildBench состоит из 1 024 задач, тщательно отобранных из более чем миллиона логов человеко-чатботовых разговоров. Для автоматизированной оценки с помощью WildBench мы разработали две метрики, WB-Reward и WB-Score, которые могут быть вычислены с использованием передовых LLM, таких как GPT-4-turbo. Оценка WildBench использует задачно-специфические чеклисты для систематической оценки выходных данных модели и предоставляет структурированные объяснения, обосновывающие оценки и сравнения, что приводит к более надежным и интерпретируемым автоматическим суждениям. WB-Reward использует детализированные попарные сравнения между ответами модели, генерируя пять потенциальных результатов: намного лучше, немного лучше, немного хуже, намного хуже или ничья. В отличие от предыдущих оценок, которые использовали одну базовую модель, мы выбрали три базовые модели с разным уровнем производительности для обеспечения всесторонней попарной оценки. Кроме того, мы предлагаем простой метод уменьшения длинного смещения, преобразуя результаты "немного лучше/хуже" в "ничья", если победивший ответ превышает проигравший на более чем K символов. WB-Score оценивает качество выходных данных модели индивидуально, что делает его быстрой и экономически эффективной метрикой оценки. Результаты WildBench демонстрируют сильную корреляцию с рейтингами Elo, присуждаемыми человеком, из Chatbot Arena по сложным задачам. В частности, WB-Reward достигает коэффициента корреляции Пирсона 0,98 с лучшими моделями. Кроме того, WB-Score достигает 0,95, превосходя как 0,91 ArenaHard, так и 0,89 AlpacaEval2.0 для контролируемых по длине побед, а также 0,87 для обычных побед.
Генеративный искусственный интеллект совершил замечательные прорывы в революционизации областей, таких как генерация изображений и видео. Эти достижения обусловлены инновационными алгоритмами, архитектурой и данными. Однако быстрое распространение генеративных моделей выявило критическую проблему: отсутствие надежных метрик оценки. Текущие автоматические оценки, такие как FID, CLIP, FVD и т. д., часто не улавливают тонкое качество и удовлетворение пользователя, связанные с генеративными результатами. В данной статье предлагается открытая платформа GenAI-Arena для оценки различных моделей генерации изображений и видео, где пользователи могут активно участвовать в оценке этих моделей. Используя коллективную обратную связь и голоса пользователей, GenAI-Arena стремится предоставить более демократичную и точную меру производительности модели. Она охватывает три арены для генерации текста в изображения, генерации текста в видео и редактирования изображений соответственно. В настоящее время мы рассматриваем общее количество 27 открытых генеративных моделей. GenAI-Arena работает уже четыре месяца, собрав более 6000 голосов от сообщества. Мы описываем нашу платформу, анализируем данные и объясняем статистические методы для ранжирования моделей. Для дальнейшего продвижения исследований в области создания метрик оценки на основе моделей, мы выпускаем очищенную версию наших данных о предпочтениях для трех задач, а именно GenAI-Bench. Мы призываем существующие мультимодальные модели, такие как Gemini, GPT-4o, имитировать голосование людей. Мы вычисляем корреляцию между голосованием модели и голосованием людей, чтобы понять их способности к суждению. Наши результаты показывают, что существующие мультимодальные модели все еще отстают в оценке сгенерированного визуального контента, даже лучшая модель GPT-4o достигает только корреляции Пирсона 0,22 в подоценке качества и ведет себя как случайное угадывание в других случаях.
Оценка неопределенности или уверенности в ответах модели может быть значительной при оценке доверия не только к ответам, но и к самой модели в целом. В данной статье мы исследуем проблему оценки уверенности в ответах больших языковых моделей (LLM) с простым черным ящиком или запросом к ним. Мы предлагаем простую и расширяемую структуру, в рамках которой мы создаем новые признаки и обучаем модель (интерпретируемую) (например, логистическую регрессию) на этих признаках для оценки уверенности. Мы эмпирически демонстрируем, что наша простая структура эффективна в оценке уверенности flan-ul2, llama-13b и mistral-7b, превосходя существующие подходы к оценке уверенности черного ящика на стандартных наборах данных, таких как TriviaQA, SQuAD, CoQA и Natural Questions, даже более чем на 10% (по AUROC) в некоторых случаях. Кроме того, наш интерпретируемый подход предоставляет понимание признаков, которые предсказывают уверенность, что приводит к интересному и полезному открытию, что наши модели уверенности, построенные для одной LLM, обобщаются на другие нулевым шагом на данном наборе данных.
Впечатляющие возможности в больших языковых моделях (LLM) предоставляют мощный подход для переосмысления опыта ввода пользователей. В данной статье демонстрируется Proofread, новая функция Gboard, основанная на серверной LLM в Gboard, обеспечивающая безупречные исправления на уровне предложений и абзацев одним касанием. Мы описываем полную систему в данной статье, начиная от генерации данных, разработки метрик до настройки модели и развертывания. Для получения моделей достаточного качества мы реализуем тщательный синтетический конвейер данных, адаптированный к онлайн-сценариям использования, разрабатываем многоаспектные метрики, используем двухэтапный подход к настройке модели для получения специализированной LLM для функции: Обучение с Учителем (SFT) для базового качества, за которым следует подход настройки с Подкреплением (RL) для целевой доработки. В частности, мы обнаружили, что последовательная настройка на задачи переписывания и корректировки обеспечивает лучшее качество на этапе SFT, и предлагаем глобальные и прямые вознаграждения на этапе настройки RL для дальнейшего улучшения. Обширные эксперименты на людском размеченном золотом наборе показали, что наша настроенная модель PaLM2-XS достигла 85.56\% хорошего соотношения. Мы запустили функцию на устройствах Pixel 8, обслуживая модель на TPU v5 в Google Cloud, с тысячами ежедневно активных пользователей. Задержка обслуживания была значительно снижена благодаря квантизации, сегментации текста и спекулятивному декодированию. Нашу демонстрацию можно посмотреть по ссылке https://youtu.be/4ZdcuiwFU7I{Youtube}.
Мы представляем NATURAL PLAN, реалистичный бенчмарк по планированию на естественном языке, включающий 3 основные задачи: Планирование поездки, Планирование встречи и Планирование календаря. Мы сосредотачиваемся на оценке планировочных возможностей LLM с полной информацией о задаче, предоставляя выводы из инструментов, таких как Google Flights, Google Maps и Google Calendar в качестве контекста для моделей. Это исключает необходимость использования среды инструментов для оценки LLM по планированию. Мы замечаем, что NATURAL PLAN представляет собой сложный бенчмарк для моделей последнего поколения. Например, в задаче Планирования поездки GPT-4 и Gemini 1.5 Pro смогли достичь лишь 31.1% и 34.8% соответственно. Мы обнаруживаем, что производительность модели резко снижается с увеличением сложности задачи: все модели показывают результаты ниже 5%, когда городов 10, что подчеркивает значительный разрыв в планировании на естественном языке для моделей последнего поколения. Мы также проводим обширные исследования по абляции на NATURAL PLAN, чтобы дополнительно прояснить (не)эффективность подходов, таких как самокоррекция, обобщение с небольшим количеством данных и планирование с длинными контекстами для улучшения планирования LLM.
Предсказуемое поведение при масштабировании передовых систем искусственного интеллекта является чрезвычайно желательным свойством. Хотя существует обширная литература о том, как масштабируется производительность предварительного обучения, литература о том, как масштабируются конкретные возможности на следующем уровне, значительно запутана. В данной работе мы делаем шаг назад и спрашиваем: почему предсказание конкретных возможностей на следующем уровне с масштабированием остается неясным? Хотя многие факторы, безусловно, ответственны, мы выявляем новый фактор, который затрудняет моделирование поведения масштабирования на широко используемых бенчмарках с множественным выбором ответов. Используя пять семейств моделей и двенадцать хорошо известных бенчмарков с множественным выбором, мы показываем, что производительность на следующем уровне вычисляется из отрицательных логарифмических вероятностей через последовательность преобразований, которые постепенно ухудшают статистическую связь между производительностью и масштабом. Затем мы раскрываем механизм, вызывающий это ухудшение: метрики на следующем уровне требуют сравнения правильного выбора с небольшим количеством конкретных неправильных выборов, что означает, что точное предсказание возможностей на следующем уровне требует предсказания не только того, как концентрируется вероятностная масса на правильном выборе при масштабировании, но и того, как вероятностная масса колеблется на конкретных неправильных выборах при масштабировании. Мы эмпирически изучаем, как вероятностная масса на правильном выборе совместно изменяется с вероятностной массой на неправильных выборах при увеличении вычислительных ресурсов, предполагая, что законы масштабирования для неправильных выборов могут быть достижимы. Наша работа также объясняет, почему законы масштабирования предварительного обучения обычно считаются более предсказуемыми, чем возможности на следующем уровне, и способствует установлению предсказуемых оценок масштабирования для передовых моделей искусственного интеллекта.
Появление больших языковых моделей (LLM) потребовало применения параллельных методов обучения, включающих задействование тысяч видеокарт для обучения одной модели. К сожалению, мы обнаружили, что эффективность текущего параллельного обучения часто оказывается недостаточной, в основном из-за двух основных проблем. Во-первых, отказы оборудования неизбежны и приводят к прерываниям в задачах обучения. Невозможность быстро определить неисправные компоненты приводит к значительным потерям ресурсов видеокарт. Во-вторых, поскольку видеокарты должны ждать завершения синхронизации параметров перед переходом к следующему раунду вычислений, сетевые перегрузки могут значительно увеличить время ожидания для видеокарт. Для решения этих проблем в данной статье представлено коммуникационное решение, известное как C4. Ключевые идеи C4 двояки. Во-первых, в параллельном обучении коллективная коммуникация обладает периодическими и однородными характеристиками, поэтому любые аномалии обязательно связаны с каким-то видом неисправности оборудования. Используя эту особенность, C4 может быстро определить неисправные компоненты, оперативно выявить аномалию и перезапустить задачу, тем самым избегая потерь ресурсов, вызванных задержками в обнаружении аномалий. Во-вторых, предсказуемая модель коммуникации коллективной коммуникации, включающая небольшое количество больших потоков, позволяет C4 эффективно выполнять планирование трафика, существенно снижая сетевые перегрузки. C4 был широко реализован в наших производственных системах, сокращая издержки, вызванные ошибками, примерно на 30% и улучшая производительность во время выполнения на примерно 15% для определенных приложений с умеренными затратами на коммуникацию.