Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация естественных и содержательных ответов для взаимодействия с мультимодальными человеческими входами является фундаментальной способностью моделей больших видео-языков (LVLMs). В настоящее время открытые LVLMs демонстрируют многообещающую производительность в упрощенных сценариях, таких как ввод одного оборота и одного изображения, однако они не справляются с реальными сценариями разговоров, такими как выполнение инструкций в длинной истории контекста с многократными оборотами и изображениями. Существующие бенчмарки LVLMs в основном сосредоточены на вопросах с одним вариантом ответа или кратких ответах, которые недостаточно оценивают возможности LVLMs в приложениях реального взаимодействия человека с ИИ. Поэтому мы представляем MMDU, комплексный бенчмарк, и MMDU-45k, масштабный набор данных для настройки инструкций, разработанный для оценки и улучшения способностей LVLMs в многократных разговорах с многократными изображениями. Мы используем алгоритм кластеризации для поиска соответствующих изображений и текстовых описаний из открытой Википедии и создаем пары вопрос-ответ с помощью человеческих аннотаторов с участием модели GPT-4o. MMDU имеет максимум 18 тыс. токенов изображения+текста, 20 изображений и 27 оборотов, что как минимум в 5 раз длиннее предыдущих бенчмарков и представляет вызов для текущих LVLMs. Наш анализ 15 представительных LVLMs с использованием MMDU показывает, что открытые LVLMs отстают от закрытых аналогов из-за ограниченных данных настройки разговорных инструкций. Мы демонстрируем, что точная настройка открытых LVLMs на MMDU-45k значительно уменьшает этот разрыв, генерируя более длинные и точные разговоры и улучшая результаты на MMDU и существующих бенчмарках (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). Наши результаты открывают путь к устранению разрыва между текущими моделями LVLM и требованиями реальных приложений. Этот проект доступен по ссылке https://github.com/Liuziyu77/MMDU.
Мы представляем DataComp для языковых моделей (DCLM), платформу для контролируемых экспериментов с наборами данных с целью улучшения языковых моделей. В рамках DCLM мы предоставляем стандартизированный корпус из 240T токенов, извлеченных из Common Crawl, эффективные рецепты предварительного обучения на основе фреймворка OpenLM и широкий набор из 53 оценочных задач. Участники испытаний DCLM могут экспериментировать с стратегиями курирования данных, такими как удаление дубликатов, фильтрация и смешивание данных на масштабах моделей от 412M до 7B параметров. В качестве базовой модели для DCLM мы проводим обширные эксперименты и устанавливаем, что фильтрация на основе модели является ключом к созданию высококачественного набора данных. Полученный набор данных, DCLM-Baseline, позволяет обучить языковую модель с 7B параметрами с нуля до точности 64% на MMLU с 2.6T обучающими токенами при 5-кратном применении. По сравнению с MAP-Neo, предыдущим лучшим решением среди языковых моделей на открытых данных, DCLM-Baseline показывает улучшение на 6.6 процентных пункта на MMLU при использовании на 40% меньшего вычислительного ресурса. Наша базовая модель также сопоставима с Mistral-7B-v0.3 и Llama 3 8B на MMLU (63% и 66%) и показывает схожие результаты на среднем уровне 53 задач по пониманию естественного языка, при этом обучается с использованием в 6.6 раз меньшего вычислительного ресурса, чем Llama 3 8B. Наши результаты подчеркивают важность дизайна набора данных для обучения языковых моделей и предлагают отправную точку для дальнейших исследований по курированию данных.
Оптимизация прямых предпочтений (DPO) показала себя эффективным методом для выравнивания больших языковых моделей (LLM). Недавние работы пытались применить DPO к мультимодальным сценариям, но обнаружили, что достижение последовательного улучшения представляет собой сложную задачу. Через сравнительный эксперимент мы выявляем проблему безусловного предпочтения в мультимодальной оптимизации предпочтений, когда модель игнорирует условие изображения. Для решения этой проблемы мы предлагаем mDPO, мультимодальную целевую функцию DPO, которая предотвращает чрезмерное приоритизирование только языковых предпочтений путем оптимизации также предпочтений изображения. Более того, мы вводим якорь вознаграждения, который заставляет вознаграждение быть положительным для выбранных ответов, тем самым избегая снижения их вероятности - внутренней проблемы относительной оптимизации предпочтений. Эксперименты на двух мультимодальных LLM разного размера и трех широко используемых бенчмарках показывают, что mDPO эффективно решает проблему безусловного предпочтения в мультимодальной оптимизации предпочтений и значительно улучшает производительность модели, особенно в снижении галлюцинаций.
Большие языковые модели (LLM) способны обрабатывать длинные истории диалогов во время продолжительного взаимодействия с пользователями без дополнительных модулей памяти; однако их ответы часто игнорируют или неправильно вспоминают информацию из прошлого. В данной статье мы пересматриваем генерацию ответов с увеличением памяти в эпоху LLM. В то время как предыдущие работы сосредотачивались на избавлении от устаревших воспоминаний, мы утверждаем, что такие воспоминания могут предоставить контекстные подсказки, которые помогут системам диалога понять развитие прошлых событий и, следовательно, улучшить генерацию ответов. Мы представляем Theanine, фреймворк, который дополняет генерацию ответов LLM с помощью временных линий памяти - серий воспоминаний, демонстрирующих развитие и причинно-следственные связи соответствующих прошлых событий. Вместе с Theanine мы представляем TeaFarm, контерфактуально-ориентированный конвейер вопросно-ответной системы, решающий ограничения G-Eval в долгосрочных разговорах. Дополнительные видео наших методов и набор данных TeaBag для оценки TeaFarm доступны по ссылке https://theanine-693b0.web.app/.
Недавно трехмерные ресурсы, созданные путем реконструкции и генерации, достигли качества ручных ресурсов, подчеркивая их потенциал для замены. Однако этот потенциал в значительной степени не реализован из-за необходимости преобразования этих ресурсов в сетки для применения в трехмерной индустрии, а сетки, созданные с использованием текущих методов извлечения сеток, значительно уступают сеткам, созданным художниками (AMs), то есть сеткам, созданным человеческими художниками. Конкретно, текущие методы извлечения сеток основаны на плотных гранях и игнорируют геометрические особенности, что приводит к неэффективности, сложной послепроизводственной обработке и более низкому качеству представления. Для решения этих проблем мы представляем MeshAnything, модель, которая рассматривает извлечение сеток как проблему генерации, создавая AMs, выровненные с указанными формами. Преобразуя трехмерные ресурсы в любом трехмерном представлении в AMs, MeshAnything может быть интегрирован с различными методами производства трехмерных ресурсов, тем самым улучшая их применение в трехмерной индустрии. Архитектура MeshAnything включает в себя VQ-VAE и декодер, основанный только на трансформере, условием которого является форма. Сначала мы изучаем словарь сеток, используя VQ-VAE, затем обучаем декодер, основанный только на трансформере, на этом словаре для генерации сеток с условием формы авторегрессии. Наши обширные эксперименты показывают, что наш метод генерирует AMs с сотнями раз меньшим количеством граней, значительно улучшая эффективность хранения, визуализации и симуляции, при этом достигая точности, сравнимой с предыдущими методами.
Несмотря на недавнее наблюдение, что большие языковые модели (LLM) могут содержать значительные фактические знания, понимание механизмов их приобретения в процессе предварительного обучения остается ограниченным. Настоящая работа направлена на заполнение этой пробела путем изучения процесса приобретения фактических знаний LLM во время предварительного обучения. Полученные результаты раскрывают несколько важных идей о динамике приобретения фактических знаний во время предварительного обучения. Во-первых, противореча ожиданиям, мы наблюдаем, что предварительное обучение на большем объеме данных не приводит к значительному улучшению способности модели приобретать и сохранять фактические знания. Далее, существует степенная зависимость между шагами обучения и забыванием запоминания и обобщения фактических знаний, причем LLM, обученные на дублированных данных, проявляют более быстрое забывание. В-третьих, обучение LLM с более крупными размерами пакетов может улучшить устойчивость моделей к забыванию. В целом, наши наблюдения указывают на то, что приобретение фактических знаний в предварительном обучении LLM происходит путем постепенного увеличения вероятности фактических знаний, представленных в данных предварительного обучения на каждом шаге. Однако это увеличение ослабляется последующим забыванием. Исходя из этой интерпретации, мы демонстрируем, что можем предложить правдоподобные объяснения недавно наблюдаемым поведенческим особенностям LLM, таким как низкая производительность LLM на знаниях длинного хвоста и преимущества удаления дубликатов из корпуса предварительного обучения.
Недавние крупные языковые модели были усовершенствованы с возможностями зрения, что позволяет им понимать изображения, видео и взаимосвязанный контент зрения-языка. Однако методы обучения этих крупных мультимодальных моделей обычно рассматривают видео как заранее определенные клипы, что делает их менее эффективными и эффективными в обработке потоковых видеовходов. В данной статье мы предлагаем новую концепцию Learning-In-Video-Stream (LIVE), которая позволяет осуществлять временно согласованный, долгий контекст и реальное время разговора в непрерывном видеопотоке. Наша концепция LIVE включает в себя комплексные подходы к достижению видеопотокового диалога, включая: (1) целевой тренировочный объект, разработанный для выполнения языкового моделирования для непрерывных видеовходов, (2) схему генерации данных, которая преобразует офлайновые временные аннотации в формат потокового диалога, и (3) оптимизированный конвейер вывода для ускорения ответов модели в видеопотоках реального мира. С нашей концепцией LIVE мы создали модель VideoLLM-online на основе Llama-2/Llama-3 и продемонстрировали ее значительные преимущества в обработке потоковых видео. Например, в среднем наша модель может поддерживать потоковый диалог в видеоклипе продолжительностью 5 минут со скоростью более 10 кадров в секунду на GPU A100. Более того, она также демонстрирует передовые показатели на публичных офлайновых видео-бенчмарках, таких как распознавание, подписывание и прогнозирование. Код, модель, данные и демонстрация доступны по адресу https://showlab.github.io/videollm-online.
Развертывание больших моделей языков (LLM) часто затрудняется из-за обширных требований к памяти кеша ключ-значение (KV), особенно при увеличении длины контекста. Существующие подходы к уменьшению размера кеша KV включают либо донастройку модели для изучения стратегии сжатия, либо использование оценок внимания для сокращения длины последовательности. Мы анализируем распределения внимания в моделях на основе трансформеров только с декодером и наблюдаем, что образцы распределения внимания остаются последовательными на большинстве слоев. Удивительно, мы обнаруживаем четкую корреляцию между L_2 и оценками внимания для кешированных пар KV, где низкий L_2 встраивания ключа обычно приводит к высокой оценке внимания во время декодирования. Это открытие указывает на то, что влияние пары KV потенциально определяется самим встраиванием ключа до его запроса. Основываясь на этом наблюдении, мы сжимаем кеш KV на основе L_2 встраиваний ключей. Наши экспериментальные результаты показывают, что эта простая стратегия может уменьшить размер кеша KV на 50% при языковом моделировании и задачах поиска иголки в стоге и на 90% при задачах поиска ключа без потери точности.
Большие языковые модели (LLM) на основе декодерных трансформеров продемонстрировали превосходные способности в понимании текста по сравнению с моделями CLIP и серии T5. Однако парадигма использования существующих передовых LLM в моделях диффузии текста в изображение остается не исследованной. Мы обнаружили необычное явление: прямое использование большой языковой модели в качестве кодера подсказки значительно снижает способность следовать за подсказкой при генерации изображения. Мы выявили два основных препятствия за этой проблемой. Одно из них - несоответствие между обучением предсказания следующего токена в LLM и требованием к дискриминирующим признакам подсказки в моделях диффузии. Другое - врожденный позиционный предвзятый характер, внесенный архитектурой только декодера. Для решения этой проблемы мы предлагаем новую концепцию для полного использования возможностей LLM. Через тщательно разработанные рекомендации по использованию мы эффективно улучшаем способность представления текста для кодирования подсказки и устраняем его врожденный позиционный предвзятый характер. Это позволяет нам гибко интегрировать передовые LLM в модель генерации текста в изображение. Кроме того, мы также предоставляем эффективный способ объединения нескольких LLM в нашу концепцию. Учитывая отличную производительность и масштабируемые возможности, продемонстрированные архитектурой трансформера, мы далее разрабатываем LLM-Инфузионный Диффузионный Трансформер (LI-DiT) на основе концепции. Мы проводим обширные эксперименты для проверки LI-DiT на различных размерах моделей и данных. Благодаря врожденным способностям LLM и нашим инновационным концепциям, способность понимания подсказки LI-DiT легко превосходит модели с открытым исходным кодом, а также коммерческие модели с закрытым исходным кодом, включая Stable Diffusion 3, DALL-E 3 и Midjourney V6. Мощный LI-DiT-10B будет доступен после дальнейшей оптимизации и проверок безопасности.
Восприятие и понимание звуков, не являющихся речью, и невербальной речи существенно для принятия решений, которые помогают нам взаимодействовать с окружающей средой. В данной статье мы предлагаем GAMA, новую Общепринятую Большую Аудио-Языковую Модель (LALM) с Расширенным Пониманием Аудио и Сложными Размышлениями. Мы создаем GAMA, интегрируя LLM с несколькими типами аудио-представлений, включая характеристики из индивидуального Аудио Q-Формера, многослойного агрегатора, который агрегирует характеристики из нескольких слоев аудио-кодера. Мы донастраиваем GAMA на обширном аудио-языковом наборе данных, что дополняет его возможностями понимания аудио. Затем мы предлагаем CompA-R (Инструкционная Настройка для Сложного Аудио-Рассуждения), синтетически созданный набор данных для инструкционной настройки (IT) с инструкциями, требующими от модели выполнения сложных рассуждений над входным аудио. Мы настраиваем GAMA по инструкциям с помощью CompA-R, чтобы наделить его способностями к сложным рассуждениям, где мы также добавляем мягкий подсказывающий ввод с высокоуровневым семантическим доказательством, используя теги событий входного аудио. Наконец, мы также предлагаем CompA-R-test, набор данных для оценки, размеченный людьми, для оценки возможностей LALM в открытом аудио-вопросно-ответном формате, требующем сложных рассуждений. Через автоматизированные и экспертные оценки мы показываем, что GAMA превосходит все другие LALM в литературе по разнообразным задачам понимания аудио на 1%-84%. Кроме того, GAMA, настроенный по инструкциям CompA-R, доказывает свою превосходство в сложных рассуждениях и способности следовать инструкциям.
Мультимодальные переплетенные наборы данных, включающие свободные последовательности изображений и текста, являются ключевыми для обучения передовых крупных мультимодальных моделей (LMM). Несмотря на быстрое развитие открытых LMM, остается явный дефицит крупномасштабных, разнообразных открытых мультимодальных переплетенных наборов данных. В ответ на это мы представляем MINT-1T, самый обширный и разнообразный открытый мультимодальный переплетенный набор данных на сегодняшний день. MINT-1T включает в себя один триллион токенов текста и три миллиарда изображений, что в 10 раз превышает существующие открытые наборы данных. Кроме того, мы включаем ранее не использованные источники, такие как PDF-файлы и статьи ArXiv. Поскольку масштабирование мультимодальных переплетенных наборов данных требует значительных усилий в области инженерии, предоставление процесса курирования данных и выпуск набора данных приносит большую пользу сообществу. Наши эксперименты показывают, что LMM, обученные на MINT-1T, не уступают по производительности моделям, обученным на предыдущем ведущем наборе данных, OBELICS. Наши данные и код будут опубликованы на https://github.com/mlfoundations/MINT-1T.
Многомодальные модели больших языков (MLLM) продемонстрировали отличное понимание изображений и 3D-данных. Однако обе модальности имеют недостатки в полном улавливании внешнего вида и геометрии объектов. Тем временем нейронные поля радиантности (NeRF), которые кодируют информацию в весах простой многослойной перцептронной сети (MLP), стали все более распространенной модальностью, одновременно кодирующей геометрию и фотореалистичный внешний вид объектов. В данной статье исследуется возможность и эффективность внедрения NeRF в MLLM. Мы создаем LLaNA, первого универсального языкового помощника NeRF, способного выполнять новые задачи, такие как подписывание NeRF и вопросы и ответы. Заметно, что наш метод напрямую обрабатывает веса MLP NeRF для извлечения информации о представленных объектах без необходимости визуализации изображений или материализации 3D-структур данных. Более того, мы создаем набор данных NeRF с текстовыми аннотациями для различных задач языка NeRF без участия человека. На основе этого набора данных мы разрабатываем стандартную методику для оценки способности понимания NeRF нашим методом. Результаты показывают, что обработка весов NeRF проявляет себя благоприятно по сравнению с извлечением 2D или 3D представлений из NeRF.
Для обучения больших моделей видео-языка требуется обширный набор изображений и текстов высокого качества. Однако существующие наборы данных, собранные из сети, зачастую содержат шум и не имеют подробных описаний изображений. Для заполнения этого пробела мы представляем PixelProse - обширный набор данных из более чем 16 млн (миллионов) синтетически сгенерированных подписей, использующий передовые модели видео-языка для подробных и точных описаний. Для обеспечения целостности данных мы тщательно анализируем наш набор данных на наличие проблемного контента, включая материалы сексуального насилия над детьми (CSAM), личную идентифицируемую информацию (PII) и токсичность. Мы также предоставляем ценные метаданные, такие как наличие водяных знаков и оценки эстетики, что помогает дополнительно фильтровать набор данных. Мы надеемся, что PixelProse станет ценным ресурсом для будущих исследований в области видео-языка. PixelProse доступен по ссылке https://huggingface.co/datasets/tomg-group-umd/pixelprose
Обучение с подкреплением на основе обратной связи от человека (RLHF) является многообещающим решением для более тесного соответствия крупных языковых моделей (LLM) человеческим ценностям. Оптимизация предпочтений вне политики, где данные о предпочтениях получаются от других моделей, широко применяется из-за своей экономической эффективности и масштабируемости. Однако оптимизация предпочтений вне политики часто страдает от распределительного разрыва между политикой, используемой для сбора данных, и целевой политикой, что приводит к неоптимальной оптимизации. В данной статье мы предлагаем новую стратегию для смягчения этой проблемы путем моделирования обучения внутри политики с использованием данных о предпочтениях вне политики. Наш метод взвешенной оптимизации предпочтений (WPO) адаптирует данные вне политики, чтобы более точно напоминать данные внутри политики путем перевзвешивания пар предпочтений в соответствии с их вероятностью при текущей политике. Этот метод не только решает проблему распределительного разрыва, но и улучшает процесс оптимизации без дополнительных затрат. Мы проверяем наш метод на бенчмарках по следованию инструкциям, включая Alpaca Eval 2 и MT-bench. WPO не только превосходит прямую оптимизацию предпочтений (DPO) на 5.6% на Alpaca Eval 2, но также устанавливает заметную долю побед при управлении длиной против GPT-4-turbo в размере 48.6% на основе Llama-3-8B-Instruct, что делает его самой мощной моделью 8B в рейтинге. Мы опубликуем код и модели на https://github.com/wzhouad/WPO.
Существующая парадигма донастройки языковых моделей является хрупкой в сценариях редактирования знаний, где модель должна интегрировать новую информацию без обширной переобучения. Эта хрупкость часто приводит к переобучению, снижению производительности и генерации ненатурального языка. Для решения этой проблемы мы предлагаем метод Consistent In-Context Editing (ICE), новый подход, который использует способность модели к обучению в контексте для настройки на контекстное распределение, а не на однозначную цель. ICE представляет собой простую оптимизационную структуру, которая включает как цель, так и процедуру, улучшая устойчивость и эффективность методов настройки на основе градиентов. Мы предоставляем аналитические исследования ICE по четырем критическим аспектам редактирования знаний: точность, локальность, обобщение и языковое качество, показывая его преимущества. Экспериментальные результаты на четырех наборах данных подтверждают эффективность ICE и демонстрируют его потенциал для непрерывного редактирования, обеспечивая интеграцию обновленной информации при сохранении целостности модели.
Мировые модели моделируют будущие состояния мира в ответ на различные действия. Они облегчают создание интерактивного контента и обеспечивают основу для обоснованного долгосрочного рассуждения. Существующие базовые модели не полностью соответствуют возможностям общих мировых моделей: большие языковые модели (LLM) ограничены своей зависимостью от языковой модальности и их ограниченным пониманием физического мира, в то время как видеомодели лишены интерактивного управления действиями в симуляциях мира. В данной статье предпринимается шаг к созданию общей мировой модели путем представления Pandora, гибридной авторегрессионной-диффузионной модели, которая моделирует состояния мира путем генерации видео и позволяет управлять в реальном времени с помощью свободного текстового действия. Pandora достигает областной обобщаемости, согласованности видео и управляемости через предварительное масштабирование и настройку инструкций. Критически важно, что Pandora обходит затраты на обучение с нуля, интегрируя предварительно обученную LLM (7B) и предварительно обученную видеомодель, требуя только дополнительной легкой донастройки. Мы иллюстрируем обширные результаты работы Pandora в различных областях (в помещении/на открытом воздухе, природных/городских, человеческих/робототехнических, 2D/3D и т. д.). Результаты указывают на большой потенциал построения более сильных общих мировых моделей с обучением большего масштаба.
Недавние достижения в моделях видео-языка (VLM) подчеркивают необходимость оценки человеческих предпочтений в мультимодальных взаимодействиях реального мира. Для решения этой проблемы мы запустили WildVision-Arena (WV-Arena), онлайн-платформу, собирающую человеческие предпочтения для оценки VLM. Мы создали WV-Bench, отобрав 500 высококачественных образцов из 8 000 пользовательских представлений в WV-Arena. WV-Bench использует GPT-4 в качестве судьи для сравнения каждой VLM с Claude-3-Sonnet, достигая коэффициента корреляции Спирмена 0,94 с WV-Arena Elo. Это значительно превосходит другие бенчмарки, такие как MMVet, MMMU и MMStar. Наш анализ 20 тыс. взаимодействий в реальном мире раскрывает важные идеи о случаях неудач у лучших VLM. Например, мы обнаружили, что хотя GPT-4V превосходит многие другие модели, такие как Reka-Flash, Opus и Yi-VL-Plus в простых задачах визуального распознавания и рассуждения, он все равно сталкивается с проблемами восприятия тонких контекстуальных намеков, пространственного рассуждения, визуального воображения и экспертных знаний в области. Кроме того, текущие VLM показывают проблемы с галлюцинациями и безопасностью при умышленном провоцировании. Мы публикуем наши данные чата и обратной связи для дальнейшего продвижения исследований в области VLM.
Мы представляем L4GM, первую модель крупного восстановления в 4D, которая создает анимированные объекты из видео с одним видом -- за один проход прямого распространения, который занимает всего лишь одну секунду. Ключом к нашему успеху стал новый набор данных мультивидео, содержащий отобранные, отрендеренные анимированные объекты из Objaverse. Этот набор данных изображает 44 тыс. разнообразных объектов с 110 тыс. анимаций, отрендеренных в 48 точках зрения, что приводит к 12 млн видео с общим числом 300 млн кадров. Мы делаем нашу модель L4GM простой для масштабируемости и строим ее непосредственно на основе LGM, предварительно обученной модели крупного восстановления в 3D, которая выводит 3D гауссовы эллипсоиды из мультивидео входных изображений. L4GM выводит представление 3D гауссовского сплетения на каждый кадр из видеокадров, отобранных с низким fps, а затем увеличивает разрешение представления до более высокого fps для достижения временной плавности. Мы добавляем слои временного самовнимания к базовой модели LGM, чтобы помочь ей учиться согласованности во времени, и используем потери мультивидовой рендеринга на каждом временном шаге для обучения модели. Представление увеличивается до более высокой частоты кадров путем обучения модели интерполяции, которая создает промежуточные 3D гауссовские представления. Мы демонстрируем, что L4GM, обученная только на синтетических данных, обобщается очень хорошо на видео "в дикой природе", создавая высококачественные анимированные 3D ресурсы.
В реальном мире документы организованы в различных форматах и разнообразных модальностях. Традиционные конвейеры поиска требуют настроенных техник разбора документов и модулей извлечения контента для подготовки ввода для индексации. Этот процесс трудоемок, подвержен ошибкам и приводит к потере информации. В этой связи мы предлагаем встраивание скриншотов документов (Document Screenshot Embedding, DSE) - новую парадигму поиска, которая рассматривает скриншоты документов как унифицированный формат ввода, не требующий предварительной обработки извлечения контента и сохраняющий всю информацию в документе (например, текст, изображение и макет). DSE использует большую модель видео-языка для прямого кодирования скриншотов документов в плотные представления для поиска. Для оценки нашего метода мы сначала создаем набор данных Wiki-SS, содержащий 1,3 млн скриншотов веб-страниц Википедии в качестве корпуса для ответов на вопросы из набора данных Natural Questions. В такой среде поиска документов, насыщенных текстом, DSE показывает конкурентоспособную эффективность по сравнению с другими методами поиска текста, основанными на разборе. Например, DSE превосходит BM25 на 17 пунктов по точности поиска в верхних 1 результатах. Кроме того, в задаче поиска слайдов смешанной модальности DSE значительно превосходит методы поиска текста с помощью OCR более чем на 15 пунктов по nDCG@10. Эти эксперименты показывают, что DSE является эффективной парадигмой поиска документов для различных типов документов. Модельные точки, код и коллекция Wiki-SS будут опубликованы.
Бенчмарки для крупных мультимодальных языковых моделей (MLM) теперь используются для одновременной оценки общих возможностей моделей вместо оценки конкретной способности. В результате, когда разработчику необходимо определить, какие модели использовать для своего приложения, он оказывается подавленным количеством бенчмарков и остаётся неуверенным, результаты какого бенчмарка наиболее отражают их конкретное использование. В данной статье представлен Task-Me-Anything, генератор бенчмарков, который создаёт бенчмарк, адаптированный под нужды пользователя. Task-Me-Anything поддерживает расширяемую таксономию визуальных ресурсов и может программно создавать огромное количество экземпляров задач. Кроме того, он алгоритмически эффективно решает запросы пользователей относительно производительности MLM в рамках выделенного вычислительного бюджета. В нём содержится 113 тыс. изображений, 10 тыс. видео, 2 тыс. 3D объектов, более 365 категорий объектов, 655 атрибутов и 335 отношений. Он способен генерировать 750 млн пар вопрос-ответ по изображениям/видео, которые направлены на оценку восприятия MLM. Task-Me-Anything раскрывает важные идеи: открытые MLM показывают отличные результаты в распознавании объектов и атрибутов, но не хватает пространственного и временного понимания; каждая модель обладает уникальными сильными и слабыми сторонами; более крупные модели, как правило, показывают лучшие результаты, хотя существуют исключения; и GPT4o демонстрирует сложности в распознавании вращающихся/движущихся объектов и различении цветов.
Недавним фронтиром в компьютерном зрении стала задача генерации 3D-видео, которая заключается в создании изменяющегося со временем 3D-представления сцены. Для генерации динамических 3D-сцен текущие методы явно моделируют 3D-временную динамику, совместно оптимизируя согласованность как по времени, так и по видам сцены. В данной статье мы исследуем, необходимо ли явно обеспечивать многовидовую согласованность во времени, как это делают существующие подходы, или достаточно ли модели генерировать 3D-представления для каждого временного шага независимо. Мы предлагаем модель Vid3D, которая использует диффузию 2D-видео для генерации 3D-видео, сначала создавая 2D "зерно" временной динамики видео, а затем независимо генерируя 3D-представление для каждого временного шага в видеозерне. Мы оцениваем Vid3D по сравнению с двумя передовыми методами генерации 3D-видео и обнаруживаем, что Vid3D достигает сравнимых результатов, не явно моделируя 3D-временную динамику. Мы также анализируем, как качество Vid3D зависит от количества видов, генерируемых на каждый кадр. Хотя мы наблюдаем некоторое ухудшение при меньшем количестве видов, деградация производительности остается незначительной. Таким образом, наши результаты показывают, что знание 3D-времени может быть необязательным для генерации высококачественных динамических 3D-сцен, что потенциально позволяет использовать более простые генеративные алгоритмы для этой задачи.
Широко распространено мнение, что нейронная сеть может подогнаться под обучающий набор, содержащий как минимум столько же образцов, сколько у нее параметров, лежащее в основе понятий переобученных и недообученных моделей. Однако на практике мы обнаруживаем только те решения, к которым можно добраться с помощью нашей процедуры обучения, включая оптимизаторы и регуляризаторы, ограничивая гибкость. Более того, точная параметризация класса функций, встроенная в архитектуру, формирует поверхность потерь и влияет на минимумы, которые мы находим. В данной работе мы исследуем способность нейронных сетей подгоняться под данные на практике. Наши результаты указывают на то, что: (1) стандартные оптимизаторы находят минимумы, в которых модель может подогнаться только под обучающие наборы с значительно меньшим количеством образцов, чем у нее параметров; (2) сверточные сети более эффективны по параметрам, чем многослойные перцептроны и трансформеры, даже на случайно размеченных данных; (3) хотя стохастическое обучение считается имеющим регуляризующий эффект, SGD фактически находит минимумы, которые подходят для большего количества обучающих данных, чем градиентный спуск по полному пакету; (4) разница в способности подгоняться под правильно и неправильно размеченные образцы может быть предиктивной для обобщения; (5) активационные функции ReLU приводят к нахождению минимумов, которые подгоняются под больше данных, несмотря на то, что они разработаны для избежания затухания и взрыва градиентов в глубоких архитектурах.
Мы представляем новый мультимодальный набор данных предпочтений для творческих задач, включающий более 250 миллионов оценок людей по более чем 2,2 миллиона заголовков, собранных через краудсорсинговую оценку данных для еженедельного конкурса по заголовкам карикатур The New Yorker за последние восемь лет. Этот уникальный набор данных поддерживает разработку и оценку мультимодальных крупных языковых моделей и алгоритмов настройки на основе предпочтений для генерации юмористических заголовков. Мы предлагаем новые критерии для оценки качества модельно-сгенерированных заголовков, используя как GPT4, так и оценки людей для установления стратегий оценки на основе ранжирования. Наши экспериментальные результаты подчеркивают ограничения текущих методов настройки, таких как RLHF и DPO, при применении к творческим задачам. Более того, мы демонстрируем, что даже передовые модели, такие как GPT4 и Claude, в настоящее время уступают лучшим участникам среди людей в генерации юмористических заголовков. По завершении этого обширного сбора данных мы предоставляем весь набор данных предпочтений исследовательскому сообществу, способствуя дальнейшему развитию в области генерации и оценки юмора в ИИ.
Быстрый рост языковых моделей (LMs) расширил их использование в нескольких приложениях. Тем не менее, из-за ограничений размера модели, связанных с затратами или ограничениями владения, использование передовых (SOTA) LLMs не всегда является возможным. С появлением открытых, более компактных LMs становится возможным использовать их возможности в большем количестве приложений, однако выбор правильной LM может быть сложным. В данной работе проводится глубокий экспериментальный анализ семантической корректности результатов 10 более компактных, открытых LMs по трем аспектам: типам задач, областям применения и типам рассуждений, с использованием различных стилей подсказок. Мы демонстрируем, что наиболее эффективные модели и стили подсказок различаются в зависимости от конкретных требований. Наш анализ предоставляет сравнительную оценку LMs и стилей подсказок с использованием предложенной трехуровневой схемы аспектов для их стратегического выбора на основе сценария использования и других ограничений. Мы также показываем, что, если использовать их правильно, эти LMs могут конкурировать с, и иногда превосходить, передовые LLMs, такие как DeepSeek-v2, GPT-3.5-Turbo и GPT-4o.
Трансформеры с механизмом внимания стали стандартной архитектурой во многих областях глубокого обучения, в основном благодаря их способности моделировать дальние зависимости и обрабатывать входные последовательности переменной длины. Однако механизм внимания с квадратичной сложностью является значительным узким местом в архитектуре трансформера. Этот алгоритм однонаправлен только в декодере и сходится к статическому образцу в переопределенных моделях только декодера. Я решаю эту проблему, разрабатывая генеративную функцию в качестве замены внимания или активации. Он все еще обладает авторегрессивным характером, сравнивая каждый токен с предыдущим. В моем тестовом сценарии с использованием nanoGPT это приводит к меньшим потерям при более компактной модели. Потери дополнительно снижаются при включении среднего вектора контекста. Этот концепт замены внимания распространяется под лицензией GNU AGPL v3 по адресу https://gitlab.com/Bachstelze/causal_generation.
Многочисленные различные модели больших языковых моделей (Large Language Models, LLM) сталкиваются с общим вызовом контекстного анализа задач вопросно-ответной таблицы. Эти вызовы обусловлены (1) конечными окнами контекста для больших таблиц, (2) многоаспектными расхождениями среди образцов токенизации относительно границ ячеек и (3) различными ограничениями, вытекающими из конфиденциальности данных при использовании внешних моделей, таких как gpt-3.5-turbo. Мы предлагаем кооперативную игру под названием "HiddenTables" в качестве потенциального решения этого вызова. По сути, "HiddenTables" играется между кодогенерирующей LLM "Решателем" и "Оракулом", который оценивает способность агентов LLM решать задачи Table QA. Эта игра основана на естественных языковых схемах и, что важно, обеспечивает безопасность базовых данных. Мы предоставляем доказательные эксперименты на разнообразном наборе таблиц, которые демонстрируют коллективную неспособность LLM к обобщению и выполнению сложных запросов, обработке композиционных зависимостей и согласованию естественного языка с программными командами при предоставлении конкретных схем таблиц. В отличие от моделей на основе энкодеров, мы расширили границы "HiddenTables", чтобы не ограничиваться количеством строк, поэтому мы продемонстрировали улучшенную эффективность в токенах запроса и завершения. Наша инфраструктура породила новый набор данных "PyQTax", охватывающий 116 671 троек вопрос-таблица-ответ и предоставляющий дополнительные детальные разбивки и метки для различных таксономий вопросов. Таким образом, параллельно с нашими академическими вкладами в отношении недостатков LLM в задачах TableQA, "HiddenTables" является тактильным проявлением того, как LLM могут взаимодействовать с массивными наборами данных, обеспечивая безопасность данных и минимизируя затраты на генерацию.
Выбор высококачественных данных для предварительного обучения имеет решающее значение для формирования производительности задачи на уровне языковых моделей. Одной из основных проблем является определение оптимального подмножества, задача, обычно считаемая неразрешимой, что требует масштабируемых и эффективных эвристик. В данной работе мы предлагаем метод выбора данных, CoLoR-Filter (Фильтрация с условным снижением потерь), который использует эмпирический подход, вдохновленный байесовской статистикой, для разработки простого и вычислительно эффективного критерия выбора на основе относительных значений потерь двух вспомогательных моделей. Помимо моделирующего обоснования, мы эмпирически оцениваем CoLoR-Filter на двух задачах моделирования языка: (1) выбор данных из C4 для адаптации к домену оценки книг и (2) выбор данных из C4 для набора задач по многовариантному вопросно-ответному моделированию. Мы демонстрируем благоприятное масштабирование как при более агрессивном подвыборе, так и при использовании небольших вспомогательных моделей для выбора данных для крупных целевых моделей. В качестве одного из ключевых результатов, данные, выбранные с помощью CoLoR-Filter с использованием пары вспомогательных моделей с параметрами 150 млн, могут обучить целевую модель с параметрами 1,2 млрд так, чтобы она соответствовала модели с параметрами 1,2 млрд, обученной на 25 млрд случайно выбранных токенов с 25 раз меньшим объемом данных для книг и 11 раз меньшим объемом данных для последующих задач. Код: https://github.com/davidbrandfonbrener/color-filter-olmo Отфильтрованные данные: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
Генеративная 3D-живопись является одним из ведущих средств повышения производительности в управлении трехмерными ресурсами высокого разрешения и их переработке. С тех пор как модели текст-в-изображение стали доступны для вывода на потребительском оборудовании, производительность методов 3D-живописи последовательно улучшалась и в настоящее время приближается к плато. В основе большинства таких моделей лежит диффузия шума в латентном пространстве, что является по своей природе затратным по времени итеративным процессом. Недавно было разработано несколько техник для ускорения генерации и сокращения итераций выборки на порядки величины. Разработанные для генерации изображений в 2D, эти техники не поставляются с инструкциями по их применению в 3D. В данной статье мы устраняем этот недостаток, предлагая адаптацию модели Согласованности Латентного Пространства (LCM) для данной задачи. Мы анализируем сильные и слабые стороны предложенной модели и оцениваем ее количественно и качественно. Основываясь на анализе образцов набора данных Objaverse, наш метод 3D-живописи демонстрирует сильное преимущество во всех оценках. Исходный код доступен по адресу https://github.com/kongdai123/consistency2.
Использование человеческих предпочтений для управления поведением крупных языковых моделей (LLM) продемонстрировало значительный успех в последние годы. Тем не менее, выбор и разметка данных по-прежнему являются узким местом для этих систем, особенно в крупном масштабе. Таким образом, выбор наиболее информативных точек для получения обратной связи от людей может значительно снизить стоимость разметки предпочтений и способствовать дальнейшему развитию LLM. Байесовское активное обучение предоставляет обоснованную основу для решения этой проблемы и продемонстрировало замечательный успех в различных ситуациях. Однако предыдущие попытки применить его для моделирования предпочтений не оправдали таких ожиданий. В данной работе мы выявляем, что наивная оценка эпистемической неопределенности приводит к получению избыточных образцов. Мы решаем эту проблему, предлагая Байесовского Активного Обучающего для Моделирования Предпочтений (BAL-PM), новую стохастическую стратегию приобретения, которая не только нацелена на точки с высокой эпистемической неопределенностью согласно модели предпочтений, но также стремится максимизировать энтропию распределения полученных подсказок в пространстве признаков, охваченном используемой LLM. Значительно, наши эксперименты показывают, что BAL-PM требует на 33% до 68% меньше меток предпочтений в двух популярных наборах данных по человеческим предпочтениям и превосходит предыдущие стохастические байесовские стратегии приобретения.