Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели стали универсальным инструментом, однако их применение к задачам, требующим значительных вычислительных ресурсов для вывода и больших обучающих наборов данных в целевой области, остается сложным. В данной работе формализуются эти ограничения и выделяются четыре ключевых параметра: бюджет предварительного обучения (для обучения до определения целевой области), бюджет специализации (для обучения после определения целевой области), бюджет вывода и размер обучающего набора данных в целевой области. В рамках этих условий мы сравниваем различные подходы из литературы по машинному обучению. Ограниченные стоимостью вывода, мы находим более эффективные альтернативы стандартной практике обучения очень крупных базовых трансформерных моделей. В частности, мы показываем, что гиперсети и смеси экспертов демонстрируют лучшую перплексию при больших бюджетах предварительного обучения, в то время как небольшие модели, обученные на наборах данных с важностным выбором, оказываются предпочтительными при больших бюджетах специализации.
Развитие крупных языковых моделей (LLM) значительно продвинуло область генерации кода. Предыдущие работы интегрировали обучение с подкреплением (RL) с обратной связью от компилятора для исследования пространства выходных данных LLM с целью повышения качества генерации кода. Однако длинный код, генерируемый LLM в ответ на сложные требования человека, делает исследование с помощью RL сложной задачей. Кроме того, поскольку модульные тесты могут не охватывать сложный код, оптимизация LLM с использованием этих невыполненных фрагментов кода неэффективна. Для решения этих проблем мы представляем StepCoder, новый RL-фреймворк для генерации кода, состоящий из двух основных компонентов: CCCS решает задачу исследования, разбивая задачу генерации длинных последовательностей кода на учебный план подзадач завершения кода (Curriculum of Code Completion Subtasks), а FGO оптимизирует модель, маскируя невыполненные сегменты кода для обеспечения тонкой оптимизации (Fine-Grained Optimization). Кроме того, мы создаем набор данных APPS+ для обучения RL, который вручную проверяется для обеспечения корректности модульных тестов. Результаты экспериментов показывают, что наш метод улучшает способность исследовать пространство выходных данных и превосходит современные подходы на соответствующих бенчмарках.
Планирование с самого зарождения искусственного интеллекта было одной из ключевых задач, однако ранние ИИ-агенты в основном сосредотачивались на ограниченных сценариях, поскольку многие когнитивные основы, необходимые для планирования на уровне человека, отсутствовали. В последнее время языковые агенты, основанные на больших языковых моделях (LLM), продемонстрировали интересные возможности, такие как использование инструментов и рассуждения. Способны ли эти языковые агенты к планированию в более сложных условиях, недоступных для предыдущих ИИ-агентов? Для продвижения этого исследования мы предлагаем TravelPlanner — новый эталонный тест для планирования, ориентированный на планирование путешествий, что является распространённым сценарием в реальном мире. Он предоставляет богатую среду для экспериментов, различные инструменты для доступа к почти четырём миллионам записей данных, а также 1 225 тщательно отобранных целей планирования и эталонных планов. Комплексные оценки показывают, что современные языковые агенты пока не способны справляться с такими сложными задачами планирования — даже GPT-4 достигает успеха лишь в 0,6% случаев. Языковые агенты испытывают трудности с удержанием задачи, использованием правильных инструментов для сбора информации или учётом множества ограничений. Однако мы отмечаем, что сама возможность для языковых агентов решать такие сложные задачи уже является значительным прогрессом. TravelPlanner предоставляет сложный, но значимый тестовый стенд для будущих языковых агентов.
Мы представляем Pok\'eLLMon — первого агента, воплощённого в виде крупной языковой модели (LLM), который демонстрирует производительность на уровне человека в тактических боевых играх, что подтверждается в сражениях в Pok\'emon. Дизайн Pok\'eLLMon включает три ключевые стратегии: (i) Обучение с подкреплением в контексте, которое мгновенно использует текстовую обратную связь, полученную в ходе сражений, для итеративного улучшения политики; (ii) Генерация, дополненная знаниями, которая извлекает внешние знания для противодействия галлюцинациям и позволяет агенту действовать своевременно и корректно; (iii) Согласованная генерация действий для смягчения феномена панической смены покемонов, когда агент сталкивается с сильным противником и пытается избежать боя. Мы показываем, что онлайн-сражения против людей демонстрируют человеко-подобные боевые стратегии и своевременное принятие решений Pok\'eLLMon, достигая 49\% побед в рейтинговых соревнованиях и 56\% побед в приглашённых боях. Наша реализация и игровые логи сражений доступны по адресу: https://github.com/git-disl/PokeLLMon.
Создание насыщенных и управляемых движений является ключевой задачей в синтезе видео. Мы предлагаем Boximator — новый подход для точного управления движением. Boximator вводит два типа ограничений: жёсткие рамки (hard box) и мягкие рамки (soft box). Пользователи выделяют объекты на исходном кадре с помощью жёстких рамок, а затем используют любой тип рамок для приблизительного или строгого определения положения, формы или траектории движения объекта в последующих кадрах. Boximator функционирует как плагин для существующих моделей диффузии видео. Его процесс обучения сохраняет знания базовой модели за счёт заморозки исходных весов и обучения только управляющего модуля. Для решения задач обучения мы предлагаем новую технику самотрекинга, которая значительно упрощает изучение корреляций между рамками и объектами. Экспериментально Boximator достигает наилучших показателей качества видео (FVD), превосходя две базовые модели, и демонстрирует дальнейшее улучшение после включения ограничений рамками. Его высокая управляемость движением подтверждается значительным увеличением метрики выравнивания ограничивающих рамок. Человеческая оценка также показывает, что пользователи предпочитают результаты генерации Boximator по сравнению с базовой моделью.
Трансформеры являются доминирующей архитектурой для моделирования последовательностей, однако растет интерес к моделям, использующим фиксированный по размеру латентный вектор, который не зависит от длины последовательности. Мы называем такие модели "обобщенными моделями пространства состояний" (GSSM). В данной работе мы показываем, что хотя GSSM перспективны с точки зрения эффективности на этапе вывода, они уступают трансформерам в задачах, требующих копирования из входного контекста. Мы начинаем с теоретического анализа простой задачи копирования строк и доказываем, что двухслойный трансформер способен копировать строки экспоненциальной длины, тогда как GSSM принципиально ограничены своим фиксированным латентным состоянием. Экспериментально мы обнаруживаем, что трансформеры превосходят GSSM по эффективности и обобщаемости на синтетических задачах, требующих копирования контекста. Наконец, мы оцениваем предобученные большие языковые модели и обнаруживаем, что модели на основе трансформеров значительно превосходят модели пространства состояний в задачах копирования и извлечения информации из контекста. В совокупности эти результаты указывают на фундаментальный разрыв между трансформерами и GSSM в задачах, представляющих практический интерес.
Хотя крупные языковые модели (LLMs) продемонстрировали свою эффективность в задачах сложного рассуждения, их производительность в динамичных, интерактивных и конкурентных сценариях — таких как бизнес-стратегия и анализ фондового рынка — остается недостаточно изученной. Чтобы устранить этот пробел, мы формально исследуем способности LLMs к динамическому рассуждению для принятия решений в быстро меняющихся условиях. Мы представляем два пилотных испытания, основанных на теории игр, которые отражают сложность реального динамического принятия решений. Эти испытания четко определены, что позволяет проводить ясную, контролируемую и точную оценку динамических способностей рассуждения LLMs. В ходе обширных экспериментов мы обнаруживаем, что существующие методы рассуждения склонны давать сбои в динамичных условиях, требующих k-уровневого мышления — ключевой концепции, не затронутой в предыдущих работах. Для решения этой проблемы мы предлагаем новый подход к рассуждению для LLMs, названный "K-Level Reasoning". Этот подход принимает точку зрения соперников, чтобы рекурсивно применять k-уровневое мышление на основе доступной исторической информации, что значительно повышает точность прогнозирования последующих действий соперников и способствует более стратегическому принятию решений. Это исследование не только устанавливает надежный количественный эталон для оценки динамического рассуждения, но и существенно повышает эффективность LLMs в динамичных контекстах.
В данном техническом отчете описывается процесс обучения модели nomic-embed-text-v1 — первой полностью воспроизводимой, открытой, с открытыми весами и данными модели для создания текстовых эмбеддингов на английском языке с длиной контекста 8192, которая превосходит модели OpenAI Ada-002 и OpenAI text-embedding-3-small как в задачах с коротким, так и с длинным контекстом. Мы публикуем код обучения и веса модели под лицензией Apache 2. В отличие от других открытых моделей, мы предоставляем загрузчик обучающих данных, содержащий 235 миллионов тщательно отобранных текстовых пар, что позволяет полностью воспроизвести nomic-embed-text-v1. Код и данные для воспроизведения модели доступны по адресу: https://github.com/nomic-ai/contrastors.
Появление крупных моделей знаменует новую эру в машинном обучении, значительно превосходя более мелкие модели за счет использования обширных наборов данных для захвата и синтеза сложных закономерностей. Несмотря на эти достижения, исследования в области масштабирования, особенно в области генерации аудио, остаются ограниченными: предыдущие работы не выходили в область высококачественного (HiFi) звука с частотой 44,1 кГц и страдали как от спектральных разрывов, так и от размытости в высокочастотной области, а также от недостаточной устойчивости к данным, выходящим за пределы обучающего распределения. Эти ограничения сужают применимость моделей для различных задач, включая генерацию музыки и вокала. Наша работа представляет Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), которая демонстрирует значительные улучшения по сравнению с предыдущими передовыми методами в области спектральной и высокочастотной реконструкции, а также в устойчивости к данным, выходящим за пределы обучающего распределения. Это позволяет генерировать HiFi-аудио с использованием обширного набора данных объемом 36 000 часов аудио с частотой 44,1 кГц, контекстно-зависимого модуля, инструментария для измерения артефактов с участием человека (Human-In-The-Loop) и расширения модели до примерно 200 миллионов параметров. Демонстрации нашей работы доступны по адресу https://double-blind-eva-gan.cc.