Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением (Reinforcement Learning, RL) математически формулирует процесс принятия решений с помощью процесса принятия решений Маркова (Markov Decision Process, MDP). С помощью MDP исследователи достигли значительных прорывов в различных областях, включая игры, робототехнику и языковые модели. В данной статье рассматривается новая возможность, обучение с подкреплением на естественном языке (Natural Language Reinforcement Learning, NLRL), путем расширения традиционного MDP до пространства представления на естественном языке. Конкретно, NLRL инновационно переопределяет принципы RL, включая цели задачи, политику, функцию ценности, уравнение Беллмана и итерацию политики, в их языковые аналоги. С учетом последних достижений в области больших языковых моделей (Large Language Models, LLM), NLRL может быть практически реализовано для достижения улучшения политики и функции ценности, аналогичных RL, путем чистого подсказывания или обучения на основе градиентов. Эксперименты на играх Maze, Breakthrough и Крестики-нолики демонстрируют эффективность, эффективность и интерпретируемость фреймворка NLRL среди различных сценариев использования. Наш код будет опубликован на https://github.com/waterhorse1/Natural-language-RL.
Существующие открытые мультимодальные большие языковые модели (MLLM) обычно проходят процесс обучения, включающий предварительное обучение и надзорную донастройку. Однако эти модели страдают от сдвигов распределения, которые ограничивают их мультимодальное рассуждение, особенно в производительности Chain-of-Thought (CoT). Для решения этой проблемы мы представляем процесс оптимизации предпочтений (PO) для улучшения мультимодальных рассуждений MLLM. Конкретно, (1) с точки зрения данных мы разрабатываем автоматизированный конвейер построения данных предпочтений для создания MMPR, качественного и масштабного мультимодального набора данных предпочтений для рассуждений, и (2) с точки зрения модели мы исследуем интеграцию PO с MLLM, разрабатывая простой, но эффективный метод, названный Смешанная оптимизация предпочтений (MPO), который повышает производительность мультимодального CoT. Наш подход демонстрирует улучшенную производительность на нескольких показателях, особенно в задачах мультимодального рассуждения. Заметно, что наша модель, InternVL2-8B-MPO, достигает точности 67,0 на MathVista, превосходя InternVL2-8B на 8,7 пункта и достигая производительности, сравнимой с 10 раз большей InternVL2-76B. Мы надеемся, что данное исследование может вдохновить на дальнейшие усовершенствования в области MLLM. Код, данные и модель будут общедоступны.
В настоящее время OpenAI o1 вызвал всплеск интереса к изучению крупных моделей рассуждений (Large Reasoning Models, LRM). Вдохновленный этим движением, Marco-o1 сосредотачивается не только на дисциплинах с четкими ответами, таких как математика, физика и программирование, которые хорошо подходят для обучения с подкреплением (Reinforcement Learning, RL), но также уделяет большее внимание решениям с открытым концом. Мы ставим перед собой вопрос: "Может ли модель o1 эффективно обобщать на более широкие области, где отсутствуют четкие стандарты и награды сложно количественно оценить?" Marco-o1 работает на основе тонкой настройки Chain-of-Thought (CoT), поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS), механизмов отражения и инновационных стратегий рассуждений, оптимизированных для решения сложных задач реального мира.
Мы представляем новый метод предварительного обучения крупномасштабных видео-кодировщиков. Основываясь на последних достижениях в авторегрессионном предварительном обучении моделей видео, мы расширяем эту структуру до мультимодальной среды, то есть, изображения и текста. В данной статье мы представляем AIMV2, семейство универсальных видео-кодировщиков, характеризующихся простым процессом предварительного обучения, масштабируемостью и выдающейся производительностью на широком спектре последующих задач. Это достигается путем сочетания видео-кодировщика с мультимодальным декодером, который авторегрессивно генерирует необработанные фрагменты изображений и текстовые токены. Наши кодировщики выдают не только высокие результаты в мультимодальной оценке, но также в видео-бенчмарках, таких как локализация, привязка и классификация. Заметим, что наш кодировщик AIMV2-3B достигает точности 89.5% на ImageNet-1k с замороженным стволом. Кроме того, AIMV2 последовательно превосходит современные контрастные модели (например, CLIP, SigLIP) в мультимодальном понимании изображений в различных средах.
Мы предлагаем Hymba, семейство небольших языковых моделей с гибридной параллельной архитектурой, объединяющей механизмы внимания трансформера с моделями пространства состояний (SSM) для повышения эффективности. Головы внимания обеспечивают точное воспроизведение, в то время как головы SSM обеспечивают эффективную суммаризацию контекста. Кроме того, мы вводим обучаемые мета-токены, которые добавляются к запросам, храня важную информацию и смягчая проблему "принуждения к вниманию", связанную с механизмами внимания. Эта модель дополнительно оптимизирована путем внедрения обмена ключевыми и значениями между слоями (KV) и частичного скользящего окна внимания, что приводит к компактному размеру кэша. В ходе разработки мы провели контролируемое исследование, сравнивая различные архитектуры в одинаковых условиях, и обнаружили значительные преимущества нашей предложенной архитектуры. Значительно, Hymba достигает передовых результатов для небольших языковых моделей: наша модель Hymba-1.5B-Base превосходит все общедоступные модели менее 2B по производительности и даже превосходит Llama-3.2-3B на 1,32% в средней точности, с уменьшением размера кэша в 11,67 раз и увеличением пропускной способности в 3,49 раза.
Научный прогресс зависит от способности исследователей синтезировать растущий объем литературы. Могут ли большие языковые модели (LM) помочь ученым в этой задаче? Мы представляем OpenScholar, специализированную модель с извлечением информации, которая отвечает на научные запросы, идентифицируя соответствующие отрывки из 45 миллионов научных статей с открытым доступом и синтезируя ответы с ссылками на цитирование. Для оценки OpenScholar мы разработали ScholarQABench, первый крупномасштабный многодоменный набор данных для поиска литературы, включающий 2 967 запросов, написанных экспертами, и 208 развернутых ответов в областях информатики, физики, нейронауки и биомедицины. На наборе данных ScholarQABench OpenScholar-8B превосходит GPT-4o на 5% и PaperQA2 на 7% по правильности, несмотря на то, что является более маленькой открытой моделью. В то время как GPT-4o галлюцинирует цитаты в 78-90% случаев, OpenScholar достигает точности цитирования на уровне человеческих экспертов. Хранилище данных, извлекатель и цикл вывода с обратной связью также улучшают стандартные языковые модели: например, OpenScholar-GPT4o повышает правильность GPT-4o на 12%. В ходе оценки экспертов предпочли ответы OpenScholar-8B и OpenScholar-GPT4o экспертно написанным в 51% и 70% случаев соответственно, по сравнению с 32% у GPT-4o. Мы открываем исходный код, модели, хранилище данных, данные и публичное демо.
Большие языковые модели (LLM) демонстрируют улучшенные возможности и надежность за счет более глубокого рассуждения, переходя от цепочки мыслей к решениям на уровне продукта, таким как OpenAI o1. Несмотря на различные усилия по улучшению рассуждения LLM, высококачественные данные для длительного цепочечного рассуждения и оптимизированные обучающие конвейеры до сих пор остаются недостаточно исследованными в задачах, связанных с визуально-языковым взаимодействием. В данной статье мы представляем Insight-V, раннее усилие по 1) масштабируемому созданию длинных и надежных данных для сложных мультимодальных задач и 2) эффективному обучающему конвейеру для улучшения возможностей рассуждения мультимодальных больших языковых моделей (MLLM). Конкретно, для создания длинных и структурированных данных для рассуждения без участия человека мы разрабатываем двухэтапный конвейер с пошаговой стратегией для генерации достаточно длинных и разнообразных путей рассуждения и метод оценки многогранности для обеспечения качества данных. Мы замечаем, что прямое надзорное обучение MLLM на таких длинных и сложных данных для рассуждения не приведет к идеальной способности рассуждения. Для решения этой проблемы мы разрабатываем мультиагентную систему, состоящую из агента рассуждения, специализированного на выполнении длительного цепочечного рассуждения, и агента резюмирования, обученного оценивать и подводить итоги результатов рассуждения. Мы также внедряем итеративный алгоритм DPO для улучшения стабильности и качества генерации агента рассуждения. Основываясь на популярной модели LLaVA-NeXT и нашей более сильной базовой MLLM, мы демонстрируем значительное улучшение производительности на сложных мультимодальных бенчмарках, требующих визуального рассуждения. Благодаря нашей мультиагентной системе, Insight-V также легко может поддерживать или улучшать производительность в задачах мультимодального восприятия.
Широко признано, что производительность моделей Transformer экспоненциально зависит от их количества параметров и вычислительной сложности. В то время как подходы, такие как Mixture of Experts (MoE), разделяют количество параметров и вычислительную сложность, они все еще сталкиваются с проблемами в выводе из-за высоких затрат на доступ к памяти. В данной работе представлен UltraMem, включающий в себя масштабируемый, ультра-разреженный слой памяти для преодоления этих ограничений. Наш подход значительно снижает задержку вывода, сохраняя при этом производительность модели. Мы также исследуем законы масштабирования этой новой архитектуры, демонстрируя, что она не только обладает благоприятными свойствами масштабирования, но и превосходит традиционные модели. В наших экспериментах мы обучаем сети с до 20 миллионами слотов памяти. Результаты показывают, что наш метод достигает современной скорости вывода и производительности модели в рамках заданного вычислительного бюджета.
Модели диффузии революционизировали область синтеза и редактирования контента. Недавние модели заменили традиционную архитектуру UNet на Диффузионный Трансформер (DiT) и использовали сопоставление потоков для улучшения обучения и сэмплирования. Однако они демонстрируют ограниченное разнообразие генерации. В данной работе мы используем это ограничение для выполнения последовательных редактирований изображений путем селективного внедрения признаков внимания. Основным вызовом является то, что, в отличие от моделей на основе UNet, DiT не имеет структуры грубого и тонкого синтеза, что делает неясным, в каких слоях выполнять внедрение. Поэтому мы предлагаем автоматический метод для выявления "важных слоев" в DiT, важных для формирования изображения, и демонстрируем, как эти слои облегчают ряд контролируемых стабильных редактирований, от нелинейных модификаций до добавления объектов, используя тот же механизм. Затем, чтобы обеспечить редактирование реальных изображений, мы представляем улучшенный метод инверсии изображения для моделей потока. Наконец, мы оцениваем наш подход через качественные и количественные сравнения, а также пользовательское исследование, и демонстрируем его эффективность в различных приложениях. Страница проекта доступна по адресу https://omriavrahami.com/stable-flow.
В данной статье мы представляем DINO-X, который является объединенной моделью зрения на объекты, разработанной IDEA Research с лучшей на сегодняшний день производительностью в области обнаружения объектов в открытом мире. DINO-X использует ту же архитектуру кодировщика-декодировщика на основе трансформера, что и Grounding DINO 1.5, чтобы стремиться к представлению объектов на уровне объекта для понимания объектов в открытом мире. Для упрощения обнаружения объектов с длинным хвостом DINO-X расширяет варианты ввода, чтобы поддерживать текстовую подсказку, визуальную подсказку и настраиваемую подсказку. С такими гибкими вариантами подсказок мы разработали универсальную объектную подсказку для поддержки бесподсказочного обнаружения объектов в открытом мире, что позволяет обнаруживать что угодно на изображении без необходимости предоставления пользователями какой-либо подсказки. Для улучшения основной способности модели к закреплению мы создали крупномасштабный набор данных с более чем 100 миллионами высококачественных образцов закрепления, известный как Grounding-100M, для улучшения производительности модели в обнаружении объектов с открытым словарем. Предварительное обучение на таком крупномасштабном наборе данных по закреплению приводит к основному представлению на уровне объекта, что позволяет DINO-X интегрировать несколько голов perception для одновременной поддержки нескольких задач восприятия и понимания объектов, включая обнаружение, сегментацию, оценку позы, подписывание объектов, объектно-ориентированный вопросно-ответный анализ и т. д. Экспериментальные результаты демонстрируют превосходную производительность DINO-X. В частности, модель DINO-X Pro достигает 56.0 AP, 59.8 AP и 52.4 AP на бенчмарках нулевого обнаружения объектов COCO, LVIS-minival и LVIS-val соответственно. Заметно, что она набирает 63.3 AP и 56.5 AP на редких классах бенчмарков LVIS-minival и LVIS-val, улучшая предыдущую производительность SOTA на 5.8 AP. Такой результат подчеркивает значительно улучшенную способность распознавания объектов с длинным хвостом.
Галлюцинации в больших языковых моделях - широко распространенная проблема, однако механизмы, определяющие, будут ли модели галлюцинировать, плохо понимаются, что ограничивает нашу способность решить эту проблему. Используя разреженные автокодировщики в качестве инструмента интерпретируемости, мы обнаруживаем, что ключевая часть этих механизмов - это распознавание сущностей, где модель определяет, является ли сущность той, о которой она может вспомнить факты. Разреженные автокодировщики выявляют значимые направления в пространстве представлений, которые определяют, распознает ли модель сущность, например, обнаруживая, что она не знает о спортсмене или фильме. Это указывает на то, что у моделей может быть самопонимание: внутренние представления о своих собственных возможностях. Эти направления имеют причинно-следственную связь: способны направлять модель отказаться от ответа на вопросы о известных сущностях или галлюцинировать атрибуты неизвестных сущностей, когда она в противном случае откажется. Мы демонстрируем, что несмотря на то, что разреженные автокодировщики обучены на базовой модели, эти направления оказывают причинное воздействие на поведение отказа чат-модели, что указывает на то, что донастройка чата переориентировала этот существующий механизм. Более того, мы предоставляем первоначальное исследование механистической роли этих направлений в модели, обнаруживая, что они нарушают внимание нижестоящих головок, которые обычно перемещают атрибуты сущностей к конечному токену.
Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в контролируемой генерации видео, что является важным для приложений, таких как автономное вождение. Однако существующие методы ограничены масштабируемостью и интеграцией условий управления, не отвечая потребностям в видео высокого разрешения и большой длины для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход на основе архитектуры DiT, решающий эти проблемы. Наш метод улучшает масштабируемость через сопоставление потоков и использует стратегию поэтапного обучения для управления сложными сценариями. Путем включения пространственно-временного условного кодирования MagicDriveDiT достигает точного контроля над пространственно-временными латентами. Обширные эксперименты показывают его превосходную производительность в генерации реалистичных видео уличной сцены с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и пространственно-временные управления, расширяя его потенциальные применения в различных задачах автономного вождения.
Существующие методы преобразования изображений в 3D с прямой передачей данных в основном основаны на моделях диффузии многовидовых 2D, которые не могут гарантировать 3D согласованность. Эти методы легко теряют стабильность при изменении направления обзора и в основном обрабатывают объектно-центрические исходные изображения. В данной статье мы предлагаем новую модель диффузии 3D одноэтапного действия, DiffusionGS, для создания объектов и сцен из одного вида. DiffusionGS напрямую выводит 3D облака точек Гаусса на каждом временном шаге для обеспечения согласованности обзора и позволяет модели надежно генерировать результаты при исходных видах в любом направлении, превосходя объектно-центрические входы. Кроме того, для улучшения возможностей и обобщающей способности DiffusionGS мы увеличиваем объем тренировочных данных 3D, разработав стратегию смешанного обучения сцен и объектов. Эксперименты показывают, что наш метод обладает лучшим качеством генерации (на 2,20 дБ выше в PSNR и на 23,25 ниже в FID) и более чем в 5 раз быстрее (~6 с на GPU A100) по сравнению с лучшими существующими методами. Пользовательское исследование и применения текста к 3D также раскрывают практическую ценность нашего метода. На странице нашего проекта по адресу https://caiyuanhao1998.github.io/project/DiffusionGS/ представлены видео и интерактивные результаты генерации.
Большие языковые модели (LLM) показывают низкую производительность на языках с ограниченными ресурсами из-за недостатка обучающих данных. Мы представляем метод эффективного сбора текстовых данных для языков с ограниченными ресурсами из всего корпуса Common Crawl. Наш подход, UnifiedCrawl, фильтрует и извлекает общий обход, используя минимальные вычислительные ресурсы, что приводит к созданию монолингвистических наборов данных значительно больших, чем ранее доступные источники. Мы демонстрируем, что использование этих данных для настройки мультиязычных LLM с помощью эффективных методов адаптеров (QLoRA) существенно повышает производительность на языках с ограниченными ресурсами, минимизируя использование VRAM. Наши эксперименты показывают значительное улучшение в перплексии языкового моделирования и увеличение результатов в задачах с небольшим количеством примеров. Наша работа и предоставленный исходный код предлагают доступный подход к улучшению LLM для языков с ограниченными ресурсами с использованием оборудования для потребителей. Наш исходный код доступен здесь: https://github.com/bethelmelesse/unifiedcrawl.
Недавние достижения в области крупных языковых моделей, особенно через подход Chain of Thought (CoT), продемонстрировали значительные улучшения в решении сложных задач. Однако существующие модели либо склонны жертвовать детальным рассуждениям в пользу краткости из-за предпочтений пользователей, либо требуют обширных и дорогостоящих обучающих данных для изучения сложной способности к рассуждениям, что ограничивает их потенциал в решении сложных задач. Для заполнения этого разрыва, следуя концепции масштабирования времени тестирования, мы предлагаем простой метод, поощряющий модели принять более терпеливый стиль рассуждений без необходимости внедрения новых знаний или навыков. Для применения подхода оптимизации предпочтений мы генерируем детальные процессы рассуждений как положительные примеры и простые ответы как отрицательные примеры, обучая таким образом модель отдавать предпочтение тщательности в своих ответах. Наши результаты демонстрируют увеличение производительности до 6,7% на GSM8k при обучении только на легком весе данных.