Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя предсказание следующего токена считается многообещающим путем к искусственному общему интеллекту, оно испытывает затруднения в превосходстве в мультимодальных задачах, которые до сих пор контролируются моделями диффузии (например, Устойчивая Диффузия) и композиционными подходами (например, CLIP в сочетании с LLM). В данной статье мы представляем Emu3, новый набор передовых мультимодальных моделей, обученных исключительно предсказанием следующего токена. Путем токенизации изображений, текста и видео в дискретное пространство мы обучаем один трансформер с нуля на смеси мультимодальных последовательностей. Emu3 превосходит несколько хорошо установленных моделей, специфичных для задач, как в задачах генерации, так и в задачах восприятия, превзойдя флагманские модели, такие как SDXL и LLaVA-1.6, и при этом устраняя необходимость в диффузионных или композиционных архитектурах. Emu3 также способен генерировать видео высокой точности путем предсказания следующего токена в последовательности видео. Мы упрощаем сложные конструкции мультимодальных моделей, сосредотачиваясь на одной цели: токенах, разблокируя большой потенциал для масштабирования как во время обучения, так и во время вывода. Наши результаты демонстрируют, что предсказание следующего токена является многообещающим путем к созданию общего мультимодального интеллекта за пределами языка. Мы открываем ключевые техники и модели с открытым исходным кодом для поддержки дальнейших исследований в этом направлении.
В данной статье мы представляем MIO, новую базовую модель на основе мультимодальных токенов, способную понимать и генерировать речь, текст, изображения и видео в конечно-конечном авторегрессивном режиме. В то время как появление крупных языковых моделей (LLM) и мультимодальных крупных языковых моделей (MM-LLM) способствует развитию искусственного общего интеллекта благодаря их универсальным возможностям, им все еще не хватает истинного понимания и генерации от любого к любому. Недавно выпущенный GPT-4o продемонстрировал замечательный потенциал любого-к-любому LLM для сложных задач реального мира, обеспечивая омнидирекциональный ввод и вывод через изображения, речь и текст. Однако он закрытый и не поддерживает генерацию мультимодальных переплетенных последовательностей. Для заполнения этого пробела мы представляем MIO, который обучен на смеси дискретных токенов по четырем модальностям с использованием причинного мультимодального моделирования. MIO проходит четырехэтапный процесс обучения: (1) предварительное выравнивание, (2) предварительное обучение с переплетением, (3) предварительное обучение с улучшением речи и (4) всестороннюю обученную на разнообразных текстовых, визуальных и речевых задачах. Наши экспериментальные результаты показывают, что MIO демонстрирует конкурентоспособную, а в некоторых случаях даже превосходящую производительность по сравнению с предыдущими двухмодальными базовыми моделями, базовыми моделями любого-к-любому и даже модально-специфическими базовыми моделями. Более того, MIO демонстрирует передовые возможности, присущие его функции любого-к-любому, такие как переплетенная генерация видео-текста, цепочка визуального мышления, генерация визуальных руководств, редактирование инструкционных изображений и т. д.
Честность является фундаментальным принципом для выравнивания больших языковых моделей (LLM) с человеческими ценностями, требуя от этих моделей распознавать то, что они знают и что не знают, и быть способными верно выражать свои знания. Несмотря на многообещающие результаты, текущие LLM по-прежнему проявляют значительные нечестные поведенческие модели, такие как уверенное представление неверных ответов или неспособность выразить то, что они знают. Кроме того, исследования по честности LLM также сталкиваются с проблемами, включая различные определения честности, трудности в разграничении между известными и неизвестными знаниями, а также недостаток всеобъемлющего понимания связанных исследований. Для решения этих проблем мы предоставляем обзор по честности LLM, охватывающий его уточнение, подходы к оценке и стратегии улучшения. Более того, мы предлагаем идеи для будущих исследований, нацеленные на вдохновение дальнейшего исследования в этой важной области.
Масштабирование размера модели значительно затрудняет развертывание и вывод крупных языковых моделей (LLM). Из-за избыточности весов LLM последние исследования сосредоточены на снижении квантования только весов до крайне низких бит (даже до 2 бит). Это снижает требования к памяти, оптимизирует затраты на хранение и уменьшает потребности в памяти при выводе. Однако из-за ограничений числового представления традиционное скалярное квантование весов борется с достижением таких крайне низких бит. Недавние исследования по векторному квантованию (VQ) для LLM показали потенциал для квантования модели с крайне низким битовым числом путем сжатия векторов в индексы с использованием таблиц поиска. В данной статье мы представляем Векторное Пост-тренировочное Квантование (VPTQ) для крайне низкобитового квантования LLM. Мы используем оптимизацию второго порядка для формулирования проблемы VQ LLM и направляем проектирование нашего алгоритма квантования путем решения оптимизации. Мы дополнительно уточняем веса, используя Оптимизацию второго порядка, независимую от канала, для более детального VQ. Кроме того, разделяя проблему оптимизации, мы предлагаем краткий и эффективный алгоритм инициализации кодовой книги. Мы также расширяем VPTQ для поддержки квантования остатков и выбросов, что улучшает точность модели и дополнительно сжимает модель. Наши экспериментальные результаты показывают, что VPTQ снижает перплексию квантования модели на 0.01-0.34 на LLaMA-2, 0.38-0.68 на Mistral-7B, 4.41-7.34 на LLaMA-3 по сравнению с SOTA на 2 битах, с средним улучшением точности на 0.79-1.5% на LLaMA-2, 1% на Mistral-7B, 11-22% на LLaMA-3 для задач QA в среднем. Мы используем только 10.4-18.6% времени выполнения алгоритма квантования, что приводит к увеличению производительности вывода в 1.6-1.8 раза по сравнению с SOTA.
Анализ содержимого документов является ключевой областью исследований в компьютерном зрении. Несмотря на значительные достижения в методах, таких как OCR, обнаружение макета и распознавание формул, существующие решения с открытым исходным кодом испытывают трудности с обеспечением последовательного извлечения контента высокого качества из-за разнообразия типов документов и их содержания. Для решения этих проблем мы представляем MinerU, решение с открытым исходным кодом для точного извлечения содержимого документов. MinerU использует сложные модели PDF-Extract-Kit для эффективного извлечения контента из разнообразных документов и применяет тщательно настроенные правила предварительной и последующей обработки, чтобы обеспечить точность конечных результатов. Экспериментальные результаты показывают, что MinerU последовательно достигает высокой производительности на различных типах документов, значительно улучшая качество и последовательность извлечения контента. Проект с открытым исходным кодом MinerU доступен по адресу https://github.com/opendatalab/MinerU.
Мы представляем PhysGen, новый метод генерации видео изображений, который преобразует одно изображение и входное условие (например, сила и момент, приложенные к объекту на изображении) для создания реалистичного, физически правдоподобного и временно последовательного видео. Наш ключевой принцип заключается в интеграции модельно-основанного физического моделирования с процессом генерации видео на основе данных, обеспечивая правдоподобную динамику в пространстве изображений. В центре нашей системы находятся три основных компонента: (i) модуль понимания изображения, который эффективно улавливает геометрию, материалы и физические параметры изображения; (ii) модель симуляции динамики в пространстве изображений, которая использует физику твердого тела и выведенные параметры для моделирования реалистичного поведения; и (iii) модуль визуализации и улучшения на основе изображений, который использует генеративную диффузию видео для создания реалистичных видеозаписей с имитацией движения. Полученные видео реалистичны как с точки зрения физики, так и внешнего вида, и даже точно управляемы, демонстрируя превосходные результаты по сравнению с существующими работами по генерации видео изображений на основе данных через количественное сравнение и всестороннее пользовательское исследование. Видеозаписи, созданные с помощью PhysGen, могут использоваться для различных последующих приложений, таких как превращение изображения в реалистичную анимацию или предоставление возможности пользователям взаимодействовать с изображением и создавать различную динамику. Страница проекта: https://stevenlsw.github.io/physgen/
Методы оптимизации предпочтений обычно начинают обучение с хорошо обученной модели SFT в качестве эталонной модели. В RLHF и DPO в процессе оптимизации предпочтений используется регуляризационный член, который предотвращает слишком значительное отклонение модели политики от распределения эталонной модели, тем самым избегая генерации аномальных ответов. Если эталонная модель уже хорошо согласована с имеющимися данными или требует лишь незначительных коррекций, этот подход может привести к созданию хорошо согласованной модели. Однако, если эталонная модель не согласована с имеющимися данными и требует значительного отклонения от своего текущего состояния, регуляризационный член на самом деле может помешать согласованию модели. В данном исследовании мы предлагаем метод Modulated Intervention Preference Optimization (MIPO) для решения этой проблемы. MIPO модулирует степень вмешательства относительно эталонной модели в зависимости от того, насколько хорошо имеющиеся данные с ней согласованы. Если данные хорошо согласованы, вмешательство увеличивается для предотвращения значительного отклонения модели политики от эталонной модели. Напротив, если согласование плохое, вмешательство уменьшается для облегчения более интенсивного обучения. Мы сравниваем производительность MIPO и DPO с использованием Mistral-7B и Llama3-8B в Alpaca Eval 2.0 и MT-Bench. Экспериментальные результаты показывают, что MIPO последовательно превосходит DPO в различных сценариях оценки.
Эта статья представляет новый подход к использованию больших языковых моделей (Large Language Models, LLMs) для задач классификации, которые обычно решаются с использованием моделей машинного обучения (Machine Learning, ML). В отличие от моделей ML, которые сильно зависят от очистки данных и создания признаков, этот метод оптимизирует процесс с использованием LLMs. В статье предлагается новая концепция под названием "Языковое Модельное Обучение (Language Model Learning, LML)", основанная на новом методе под названием "Предсказание с Дополнением Данных (Data-Augmented Prediction, DAP)". Классификация выполняется LLMs с использованием метода, аналогичного тому, как люди вручную исследуют и понимают данные, принимая решения о классификации с использованием данных в качестве опоры. Обучающие данные резюмируются и оцениваются для определения признаков, которые больше всего влияют на классификацию каждой метки. В процессе DAP система использует резюме данных для автоматического создания запроса, который используется для извлечения соответствующих строк из набора данных. Классификация генерируется LLM с использованием резюме данных и соответствующих строк, обеспечивая удовлетворительную точность даже с комплексными данными. Использование резюме данных и аналогичных данных в DAP обеспечивает контекстно-ориентированное принятие решений. Предложенный метод использует фразу "Действовать как Модель Машинного Обучения, Объяснимая в Работе" в подсказке для улучшения интерпретируемости прогнозов, позволяя пользователям изучить логику за каждым прогнозом. В некоторых тестовых случаях система показала точность более 90%, доказывая эффективность системы и ее потенциал превзойти традиционные модели ML в различных сценариях. Код доступен по ссылке https://github.com/Pro-GenAI/LML-DAP
Долгосрочная память имеет важное значение для агентов, в которой прозорливость играет ключевую роль. Однако появление несущественной прозорливости и отсутствие общей прозорливости могут значительно подорвать эффективность прозорливости. Для решения этой проблемы в данной статье мы представляем Multi-Scale Insight Agent (MSI-Agent), воплощенного агента, разработанного для улучшения способности планирования и принятия решений LLMs путем эффективного обобщения и использования прозорливости на разных уровнях. MSI достигает этого через селектор опыта, генератор прозорливости и селектор прозорливости. Используя трехчастную конвейерную систему, MSI может генерировать задачно-специфичную и высокоуровневую прозорливость, хранить ее в базе данных, а затем использовать соответствующую прозорливость из нее для помощи в принятии решений. Наши эксперименты показывают, что MSI превосходит другую стратегию прозорливости при планировании GPT3.5. Более того, мы углубляемся в стратегии выбора исходного опыта и прозорливости, с целью предоставить LLM более полезную и актуальную прозорливость для лучшего принятия решений. Наши наблюдения также показывают, что MSI проявляет лучшую устойчивость при столкновении с сценариями с изменением домена.
Несмотря на недавние достижения в области крупных языковых моделей (LLM), их производительность в решении сложных задач рассуждений, требующих многошагового мышления и объединения различных навыков, все еще ограничена. Для решения этой проблемы мы предлагаем новую концепцию HDFlow для сложных рассуждений с использованием LLM, которая объединяет быстрое и медленное мышление в адаптивном режиме. Наш подход состоит из двух основных компонентов: 1) нового подхода к медленному, обдуманному рассуждению под названием Динамический Рабочий Процесс, который автоматически декомпозирует сложные задачи на более управляемые подзадачи и динамически разрабатывает рабочий процесс для сборки специализированных LLM или символьных инструментов рассуждения для решения подзадач; 2) Гибкое Мышление, общая концепция, которая динамически объединяет быстрое и медленное мышление на основе сложности задачи. Наконец, мы предлагаем простой в масштабировании метод для автоматического синтеза крупномасштабного набора данных из 27 тыс. сложных задач рассуждений для сложных рассуждений и метод настройки гибкого мышления, который обучает более маленькие LLM на этом наборе данных для внедрения стратегий гибкого мышления быстрого/медленного характера. Эксперименты на четырех наборах данных для проверки рассуждений показывают, что наше медленное мышление с динамическими рабочими процессами значительно превосходит Chain-of-Thought, а гибкое мышление достигает наивысшей точности, обеспечивая эффективный баланс между вычислительной эффективностью и производительностью. Тонкая настройка с использованием нашего подхода гибкого мышления также значительно увеличивает возможности сложных рассуждений у языковых моделей с открытым исходным кодом. Результаты демонстрируют потенциал медленного мышления, динамических рабочих процессов и гибкого мышления в расширении границ сложного решения проблем с LLM. Код и данные будут доступны по ссылке \url{https://github.com/wenlinyao/HDFlow.}