Ежедневно отобранные исследовательские статьи по ИИ с переводами
Эта работа представляет Depth Anything V2. Не стремясь к изысканным техникам, мы нацелены на выявление ключевых результатов, чтобы проложить путь к созданию мощной модели оценки глубины по одному изображению. Отмечается, что по сравнению с V1, эта версия производит более точные и надежные прогнозы глубины благодаря трем ключевым практикам: 1) замене всех размеченных реальных изображений синтетическими изображениями, 2) увеличению мощности нашей учительской модели и 3) обучению студенческих моделей через мост большомасштабных псевдо-размеченных реальных изображений. По сравнению с последними моделями, построенными на Stable Diffusion, наши модели значительно более эффективны (более чем в 10 раз быстрее) и точнее. Мы предлагаем модели различных масштабов (от 25 млн до 1,3 млрд параметров) для поддержки разнообразных сценариев. Благодаря их сильной обобщающей способности, мы донастраиваем их с метрическими метками глубины для получения наших моделей метрической глубины. Помимо наших моделей, учитывая ограниченное разнообразие и частый шум в текущих тестовых наборах, мы создаем универсальный бенчмарк оценки с точными аннотациями и разнообразными сценами для облегчения будущих исследований.
Эта работа не представляет новый метод. Вместо этого мы представляем интересное открытие, которое ставит под сомнение необходимость индуктивного смещения - локальности в современных архитектурах компьютерного зрения. Конкретно, мы обнаружили, что обычные трансформеры могут работать, обрабатывая каждый отдельный пиксель как токен и достигая высоких результатов. Это существенно отличается от популярного дизайна в Vision Transformer, который сохраняет индуктивное смещение от ConvNets к локальным окрестностям (например, обрабатывая каждый патч размером 16x16 как токен). Мы в основном демонстрируем эффективность пикселей-как-токенов на трех хорошо изученных задачах в компьютерном зрении: обучение с учителем для классификации объектов, самообучение через маскированное авокодирование и генерация изображений с помощью моделей диффузии. Хотя прямая работа с отдельными пикселями менее вычислительно эффективна, мы считаем, что сообщество должно быть в курсе этого удивительного знания при разработке следующего поколения нейронных архитектур для компьютерного зрения.
Трансформеры революционизировали машинное обучение своей простой, но эффективной архитектурой. Предварительное обучение Трансформеров на огромных текстовых наборах данных из Интернета привело к непревзойденной обобщенности для задач понимания естественного языка (NLU). Однако такие языковые модели остаются хрупкими, когда сталкиваются с алгоритмическими формами рассуждений, где вычисления должны быть точными и надежными. Для преодоления этого ограничения мы предлагаем новый подход, который объединяет понимание языка Трансформера с надежностью нейронных алгоритмических рассудителей (NAR), основанных на графовых нейронных сетях (GNN). Такие NAR доказали свою эффективность как универсальные решатели для алгоритмических задач, когда они заданы в виде графа. Чтобы сделать их вложения доступными для Трансформера, мы предлагаем гибридную архитектуру с двухфазовой процедурой обучения, позволяющую токенам в языковой модели взаимодействовать с вложениями узлов из NAR. Мы оцениваем нашу полученную модель TransNAR на CLRS-Text, текстовой версии бенчмарка CLRS-30, и демонстрируем значительные улучшения по сравнению с моделями только на Трансформерах для алгоритмического рассуждения как внутри, так и вне распределения.
Большие заранее обученные политики на комбинации данных по видению и языку в масштабах Интернета и разнообразных демонстраций роботов имеют потенциал изменить способ обучения роботов новым навыкам: вместо обучения новых поведенческих моделей с нуля, мы можем донастраивать такие модели видение-язык-действие (VLA) для получения надежных, обобщаемых политик для визуомоторного управления. Тем не менее, широкое принятие VLA для робототехники оказалось сложным из-за того, что 1) существующие VLA в значительной степени закрыты и недоступны для публики, и 2) предыдущие работы не исследовали методы для эффективного донастройки VLA для новых задач, что является ключевым компонентом для принятия. Для решения этих проблем мы представляем OpenVLA, открытый VLA с 7 миллиардами параметров, обученный на разнообразной коллекции из 970 тысяч реальных демонстраций роботов. OpenVLA основан на языковой модели Llama 2, объединенной с визуальным кодировщиком, который объединяет заранее обученные функции из DINOv2 и SigLIP. В результате добавленного разнообразия данных и новых компонентов модели OpenVLA продемонстрировал отличные результаты для обобщенной манипуляции, превосходя закрытые модели, такие как RT-2-X (55 миллиардов), на 16,5% в абсолютном показателе успешности выполнения задач по 29 задачам и нескольким роботизированным воплощениям, с 7 раз меньшим количеством параметров. Мы также показываем, что мы можем эффективно донастраивать OpenVLA для новых настроек, с особенно сильными результатами обобщения в многозадачных средах, включающих несколько объектов и сильные языковые способности, и превосходим методы имитационного обучения "с нуля", такие как Diffusion Policy, на 20,4%. Мы также исследуем эффективность вычислений; как отдельный вклад, мы показываем, что OpenVLA может быть эффективно донастроен на потребительских GPU с использованием современных методов адаптации с низким рангом и обслуживаться эффективно через квантизацию без ущерба для успешности в последующих задачах. Наконец, мы выпускаем контрольные точки модели, блокноты для донастройки и нашу кодовую базу PyTorch с встроенной поддержкой обучения VLA в масштабе на наборах данных Open X-Embodiment.
Моделирование последовательностей с бесконечной длиной контекста эффективно является давней проблемой. Прошлые работы страдали либо от квадратичной вычислительной сложности, либо от ограниченной способности экстраполяции по длине. В данной работе мы представляем Samba, простую гибридную архитектуру, которая слоевым образом объединяет Mamba, селективную модель пространства состояний (SSM), с механизмом внимания со скользящим окном (SWA). Samba сжимает данную последовательность в рекуррентные скрытые состояния, сохраняя при этом способность точно воспроизводить воспоминания с помощью механизма внимания. Мы масштабируем Samba до 3.8 миллиарда параметров с 3.2 триллионами обучающих токенов и показываем, что Samba значительно превосходит современные модели на основе чистого внимания или SSM на широком спектре тестов. Обученный на последовательностях длиной 4K, Samba может быть эффективно экстраполирован до длины контекста 256K с идеальным воспроизведением памяти и улучшенными предсказаниями токенов до длины контекста 1M. Как модель последовательности линейного времени, Samba обладает пропускной способностью в 3.73 раза выше по сравнению с Трансформерами с групповым вниманием по запросам при обработке запросов пользователей длиной 128K и ускорением в 3.64 раза при генерации 64K токенов с бесконечным потоком. Образец реализации Samba доступен публично по ссылке https://github.com/microsoft/Samba.
Данный доклад представляет инновационные улучшения моделей диффузии путем интеграции новой многоуровневой сети и временно-зависимой слойной нормализации. Модели диффузии приобрели популярность благодаря их эффективности в генерации изображений высокой точности. В то время как традиционные подходы опираются на архитектуры сверточных U-Net, недавние конструкции на основе трансформеров продемонстрировали превосходную производительность и масштабируемость. Однако архитектуры трансформеров, токенизирующие входные данные (через "патчификацию"), сталкиваются с компромиссом между визуальной точностью и вычислительной сложностью из-за квадратичной природы операций самовнимания относительно длины токена. Большие размеры патчей обеспечивают эффективность вычисления внимания, но испытывают затруднения в захвате мелких визуальных деталей, что приводит к искажениям изображения. Для решения этой проблемы мы предлагаем дополнить модель диффузии многоуровневой сетью (DiMR), фреймворком, который улучшает признаки на разных разрешениях, постепенно повышая детализацию от низкого к высокому разрешению. Кроме того, мы вводим временно-зависимую слойную нормализацию (TD-LN), параметрически эффективный подход, который интегрирует временно-зависимые параметры в слойную нормализацию для внедрения информации о времени и достижения превосходной производительности. Эффективность нашего метода продемонстрирована на бенчмарке генерации изображений ImageNet с условиями классов, где варианты DiMR-XL превосходят предыдущие модели диффузии, устанавливая новые рекорды FID в 1,70 на ImageNet 256 x 256 и 2,89 на ImageNet 512 x 512. Страница проекта: https://qihao067.github.io/projects/DiMR
Большие языковые модели (LLM) продемонстрировали выдающиеся способности к рассуждениям, однако они остаются уязвимыми к ошибкам, особенно в задачах временного рассуждения, включающих сложную временную логику. Существующие исследования изучали производительность LLM во временном рассуждении, используя разнообразные наборы данных и бенчмарки. Однако эти исследования часто опираются на реальные данные, с которыми LLM могли столкнуться во время предварительного обучения, или используют техники анонимизации, которые могут ненамеренно вводить фактические несоответствия. В данной работе мы решаем эти ограничения, представляя новые синтетические наборы данных, специально разработанные для оценки способностей LLM во временных рассуждениях в различных сценариях. Разнообразие типов вопросов в этих наборах данных позволяет систематически исследовать влияние структуры проблемы, размера, типа вопроса, порядка фактов и других факторов на производительность LLM. Наши результаты предоставляют ценные идеи о сильных и слабых сторонах текущих LLM в задачах временного рассуждения. Для поощрения дальнейших исследований в этой области мы открываем доступ к наборам данных и оценочной среде, использованным в наших экспериментах: https://huggingface.co/datasets/baharef/ToT.
Диффузионные трансформеры (DiT) отличаются в выдаче изображений и видеогенерации, но сталкиваются с вычислительными проблемами из-за квадратичной сложности само-внимания. Мы предлагаем DiTFastAttn, новый метод сжатия после обучения для смягчения вычислительной узкой точки DiT. Мы выявляем три ключевые избыточности в вычислении внимания во время вывода DiT: 1. пространственная избыточность, где многие головы внимания сосредотачиваются на локальной информации; 2. временная избыточность, с высокой схожестью между выходами внимания соседних шагов; 3. условная избыточность, где условные и безусловные выводы проявляют значительную схожесть. Для решения этих избыточностей мы предлагаем три техники: 1. Внимание окна с остаточным кэшированием для сокращения пространственной избыточности; 2. Снижение временной схожести для использования сходства между шагами; 3. Устранение условной избыточности для пропуска избыточных вычислений во время условной генерации. Чтобы продемонстрировать эффективность DiTFastAttn, мы применяем его к DiT, PixArt-Sigma для задач генерации изображений и OpenSora для задач генерации видео. Результаты оценки показывают, что для генерации изображений наш метод сокращает до 88\% операций с плавающей запятой и достигает до 1.6-кратного ускорения при генерации высокого разрешения.
Люди рисуют для облегчения рассуждений: мы проводим вспомогательные линии при решении геометрических задач; отмечаем и обводим при рассуждениях на картах; мы используем эскизы, чтобы усилить наши идеи и разгрузить нашу ограниченную рабочую память. Однако такие действия отсутствуют в текущих мультимодальных языковых моделях (ЯМ). Существующие цепочки мыслей и парадигмы использования инструментов используют только текст как промежуточные шаги рассуждений. В данной работе мы представляем Sketchpad, фреймворк, который предоставляет мультимодальным ЯМ визуальный скетчпад и инструменты для рисования на скетчпаде. ЯМ проводит планирование и рассуждения в соответствии с визуальными артефактами, которые он нарисовал. В отличие от предыдущих работ, которые используют модели текста в изображение для того, чтобы позволить ЯМ рисовать, Sketchpad позволяет ЯМ рисовать линиями, прямоугольниками, отметками и т. д., что ближе к человеческому зарисовыванию и лучше облегчает рассуждения. Sketchpad также может использовать специализированные модели зрения во время процесса зарисовывания (например, рисовать ограничивающие рамки с моделями обнаружения объектов, рисовать маски сегментации), чтобы дополнительно улучшить визуальное восприятие и рассуждения. Мы экспериментируем с широким спектром математических задач (включая геометрию, функции, графики и шахматы) и сложных визуальных задач рассуждений. Sketchpad значительно улучшает производительность на всех задачах по сравнению с сильными базовыми моделями без зарисовывания, обеспечивая средний прирост в 12,7% на математических задачах и 8,6% на визуальных задачах. GPT-4o с Sketchpad устанавливает новый уровень качества на всех задачах, включая V*Bench (80,3%), BLINK пространственное рассуждение (83,9%) и визуальное соответствие (80,8%). Весь код и данные доступны на https://visualsketchpad.github.io/.
Мы исследуем пространство весов, охваченное большой коллекцией индивидуальных моделей диффузии. Мы заполняем это пространство, создавая набор данных из более чем 60 000 моделей, каждая из которых является базовой моделью, настроенной для вставки визуальной идентичности разных людей. Мы моделируем базовое многообразие этих весов как подпространство, которое мы называем весами2весами. Мы демонстрируем три немедленных применения этого пространства - выборку, редактирование и инверсию. Во-первых, поскольку каждая точка в пространстве соответствует идентичности, выбор набора весов из него приводит к модели, кодирующей новую идентичность. Затем мы находим линейные направления в этом пространстве, соответствующие семантическим изменениям идентичности (например, добавление бороды). Эти изменения сохраняются во внешнем виде в созданных образцах. Наконец, мы показываем, что инверсия одного изображения в это пространство восстанавливает реалистичную идентичность, даже если входное изображение не соответствует распределению (например, картина). Наши результаты показывают, что пространство весов настроенных моделей диффузии ведет себя как интерпретируемое латентное пространство идентичностей.
Мы представляем MuirBench, обширный бенчмарк, сосредоточенный на надежных мультимодальных LLM в области понимания нескольких изображений. MuirBench включает в себя 12 разнообразных мультимодальных задач (например, понимание сцены, упорядочение), включающих 10 категорий мультимодальных отношений (например, многозрительные, временные отношения). Состоящий из 11 264 изображений и 2 600 вопросов с выбором ответа, MuirBench создан попарно, где каждый стандартный экземпляр сопоставлен с вариантом, на который невозможно ответить, имеющим минимальные семантические различия, для надежной оценки. Оцененные на 20 недавних мультимодальных LLM, наши результаты показывают, что даже лучшие модели, такие как GPT-4o и Gemini Pro, испытывают трудности с решением MuirBench, достигая 68,0% и 49,3% точности. Мультимодальные LLM с открытым исходным кодом, обученные на одиночных изображениях, едва могут обобщиться на вопросы с несколькими изображениями, оставаясь ниже 33,3% точности. Эти результаты подчеркивают важность MuirBench в поощрении сообщества к разработке мультимодальных LLM, способных видеть за пределами одного изображения, предлагая потенциальные пути для будущих улучшений.
Высококачественные наборы данных предпочтений являются необходимыми для обучения моделей вознаграждения, которые могут эффективно направлять большие языковые модели (LLM) в создании высококачественных ответов, соответствующих человеческим предпочтениям. По мере усиления и улучшения LLM, такие наборы данных предпочтений с разрешительной лицензией, как Open Assistant, HH-RLHF и HelpSteer, должны быть обновлены для сохранения эффективности моделирования вознаграждения. Методы извлечения данных о предпочтениях из собственных LLM, таких как GPT-4, имеют ограничения на коммерческое использование, установленные поставщиками моделей. Для улучшения как сгенерированных ответов, так и качества разметки атрибутов, мы выпускаем HelpSteer2, набор данных предпочтений с разрешительной лицензией (CC-BY-4.0). Используя мощную внутреннюю базовую модель, обученную на HelpSteer2, мы можем достичь лучшего показателя в области Reward-Bench (92,0%), превзойдя текущие открытые и собственные модели, на момент 12 июня 2024 года. Следует отметить, что HelpSteer2 состоит всего из десяти тысяч пар ответов, на порядок меньше, чем существующие наборы данных предпочтений (например, HH-RLHF), что делает его очень эффективным для обучения моделей вознаграждения. Наши обширные эксперименты показывают, что модели вознаграждения, обученные с использованием HelpSteer2, эффективны в выравнивании LLM. В частности, мы предлагаем SteerLM 2.0, подход к выравниванию модели, который может эффективно использовать богатый многозначный показатель, предсказанный нашими моделями вознаграждения. HelpSteer2 доступен по адресу https://huggingface.co/datasets/nvidia/HelpSteer2, а код доступен по адресу https://github.com/NVIDIA/NeMo-Aligner.
Многомодальные крупные языковые модели (mLLM) обучаются на большом объеме текстовых и изображений данных. В то время как большинство mLLM обучаются только на данных в формате подписей, Alayrac и др. [2022] показали, что дополнительное обучение их на чередующихся последовательностях текста и изображений может привести к появлению возможностей контекстного обучения. Однако набор данных, который они использовали, M3W, не является общедоступным и доступен только на английском языке. Предпринимались попытки воспроизвести их результаты, но опубликованные наборы данных доступны только на английском языке. В отличие от этого, текущие многоязычные и многомодальные наборы данных либо состоят только из данных в формате подписей, либо имеют средний масштаб или полностью закрытые данные. Это ограничивает исследования mLLM для 7 000 других языков, используемых в мире. Поэтому мы представляем mOSCAR, насколько нам известно, первый крупномасштабный многоязычный и многомодальный документальный корпус, собранный из сети Интернет. Он охватывает 163 языка, 315 млн документов, 214 млрд токенов и 1,2 млрд изображений. Мы тщательно проводим ряд этапов фильтрации и оценки, чтобы убедиться, что mOSCAR достаточно безопасен, разнообразен и высокого качества. Мы дополнительно обучаем два типа многоязычной модели, чтобы продемонстрировать преимущества mOSCAR: (1) модель, обученная на подмножестве mOSCAR и данных о подписях, и (2) модель, обученная только на данных о подписях. Модель, дополнительно обученная на mOSCAR, показывает значительное улучшение производительности обучения с небольшим количеством данных на различных многоязычных задачах изображения-текст и бенчмарках, подтверждая предыдущие результаты для mLLM только на английском языке.
Информатика (CS) служит свидетельством сложностей человеческого интеллекта, глубоко способствуя развитию искусственного интеллекта и современного общества. Однако текущее сообщество крупных языковых моделей (LLM) слишком сосредоточено на показателях для анализа конкретных базовых навыков (например, математики и генерации кода), пренебрегая всесторонней оценки области информатики. Для устранения этого разрыва мы представляем CS-Bench, первый двуязычный (китайско-английский) бенчмарк, посвященный оценке производительности LLM в области информатики. CS-Bench включает около 5 тыс. тщательно подобранных тестовых образцов, охватывающих 26 подобластей в 4 ключевых областях информатики, включая различные формы задач и разделы знаний и рассуждений. Используя CS-Bench, мы проводим всестороннюю оценку более чем 30 основных LLM, раскрывая связь между производительностью в информатике и масштабами моделей. Мы также качественно анализируем причины неудач существующих LLM и выделяем направления для улучшений, включая дополнение знаний и информатику-специфическое рассуждение. Дополнительные эксперименты по перекрестной способности показывают высокую корреляцию между способностями LLM в информатике и их способностями в математике и программировании. Более того, экспертные LLM, специализированные на математике и программировании, также демонстрируют высокую производительность в нескольких подобластях информатики. В перспективе мы видим, что CS-Bench станет угловым камнем для применения LLM в области информатики и откроет новые пути в оценке разнообразных рассуждений LLM. Данные и код оценки CS-Bench доступны по ссылке https://github.com/csbench/csbench.
Существующие мультимодальные и многозадачные базовые модели, такие как 4M или UnifiedIO, показывают многообещающие результаты, но на практике их возможности "из коробки" принимать разнообразные входные данные и выполнять разнообразные задачи ограничены (как правило, довольно небольшим) количеством модальностей и задач, на которых они обучены. В данной статье мы расширяем их возможности, обучая одну модель на десятках высоко разнообразных модальностей и выполняя совместное обучение на масштабных мультимодальных наборах данных и текстовых корпусах. Это включает обучение на нескольких семантических и геометрических модальностях, карт признаков из недавних передовых моделей, таких как DINOv2 и ImageBind, псевдо-метках специализированных моделей, таких как SAM и 4DHumans, а также ряд новых модальностей, позволяющих использовать новые способы взаимодействия с моделью и управлять генерацией, например метаданные изображения или цветовые палитры. Ключевым шагом в этом процессе является выполнение дискретной токенизации на различных модальностях, будь то похожие на изображение, карты признаков нейронных сетей, векторы, структурированные данные, такие как сегментация экземпляров или позы человека, или данные, которые могут быть представлены в виде текста. Таким образом, мы расширяем возможности мультимодальных моделей "из коробки" и конкретно демонстрируем возможность обучения одной модели для решения как минимум в 3 раза большего количества задач/модальностей, чем существующие, и делаем это без потери производительности. Это позволяет более детализированные и управляемые возможности мультимодальной генерации и позволяет нам изучать дистилляцию моделей, обученных на разнообразных данных и целях, в единую модель. Мы успешно масштабируем обучение до модели с тремя миллиардами параметров, используя десятки модальностей и различные наборы данных. Полученные модели и код обучения доступны в открытом доступе на 4m.epfl.ch.
Недавние достижения в области генерации изображений позволили создавать высококачественные изображения на основе текстовых условий. Однако при работе с мультимодальными условиями, такими как текст в сочетании с внешними появлениями, существующие методы испытывают затруднения в эффективном балансировании нескольких условий, обычно проявляя предпочтение к одной модальности перед другими. Для решения этой проблемы мы представляем EMMA, новую модель генерации изображений, принимающую мультимодальные подсказки на основе передовой модели диффузии текста в изображение (T2I), ELLA. EMMA плавно интегрирует дополнительные модальности наряду с текстом для направления генерации изображений с помощью инновационного дизайна Мульти-модального Коннектора Особенностей, который эффективно интегрирует текстовую и дополнительную модальную информацию с использованием специального механизма внимания. Замораживая все параметры в исходной модели диффузии T2I и только корректируя некоторые дополнительные слои, мы обнаружили интересное открытие, что предварительно обученная модель диффузии T2I может скрыто принимать мультимодальные подсказки. Это интересное свойство облегчает простое адаптирование к различным существующим структурам, делая EMMA гибким и эффективным инструментом для создания персонализированных и контекстно-осознанных изображений и даже видео. Кроме того, мы представляем стратегию сборки изученных модулей EMMA для создания изображений, условных одновременно на несколько модальностей, что устраняет необходимость дополнительного обучения смешанным мультимодальным подсказкам. Обширные эксперименты демонстрируют эффективность EMMA в сохранении высокой достоверности и детализации сгенерированных изображений, показывая ее потенциал как надежное решение для продвинутых мультимодальных условных задач генерации изображений.
Мы предлагаем создать омни-модальный интеллект, способный понимать любую модальность и изучать универсальные представления. Конкретно, мы предлагаем масштабируемую парадигму предварительного обучения, названную Мульти-модальный Контекст (MiCo), которая позволяет увеличивать количество модальностей и объем данных, а также параметры модели в процессе предварительного обучения. С помощью MiCo предварительно обученные модели проявляют значительные возможности в мульти-модальном обучении, которые оцениваются на следующих задачах: i) бенчмарки восприятия одной модальности для 10 различных модальностей, ii) 25 задач понимания между модальностями, такие как поиск, вопросно-ответная система, подписывание, и iii) 18 мульти-модальных бенчмарков для больших языковых моделей. Наши модели устанавливают 37 новых рекордов по производительности наилучших практик. Мы надеемся, что наши исследования могут способствовать развитию омни-модального интеллекта. Код и модели доступны по ссылке https://github.com/invictus717/MiCo
Одним из преобладающих методов обучения мировых моделей является авторегрессионное предсказание в пространстве вывода следующего элемента последовательности. В обработке естественного языка (NLP) это принимает форму больших языковых моделей (LLM), предсказывающих следующий токен; в компьютерном зрении (CV) это принимает форму авторегрессионных моделей, предсказывающих следующий кадр/токен/пиксель. Однако этот подход отличается от когнитивных процессов человека по нескольким аспектам. Во-первых, человеческие предсказания о будущем активно влияют на внутренние когнитивные процессы. Во-вторых, люди естественно оценивают правдоподобие предсказаний относительно будущих состояний. Основываясь на этой способности, и, в-третьих, оценивая, когда предсказания достаточны, люди выделяют динамическое количество времени для предсказания. Этот адаптивный процесс аналогичен мышлению системы 2 в психологии. Все эти способности являются фундаментальными для успеха людей в высокоуровневом рассуждении и планировании. Поэтому, чтобы преодолеть ограничения традиционных авторегрессионных моделей, не обладающих этими человекоподобными способностями, мы представляем Мировые модели на основе энергии (EBWM). EBWM включает в себя обучение модели на основе энергии (EBM) для предсказания совместимости данного контекста и предсказанного будущего состояния. Таким образом, EBWM позволяет моделям достичь всех трех аспектов человеческого когнитивного процесса, описанных выше. Более того, мы разработали вариант традиционного авторегрессионного трансформера, адаптированный для моделей на основе энергии, названный Трансформер на основе энергии (EBT). Наши результаты показывают, что EBWM масштабируется лучше с данными и часами работы GPU, чем традиционные авторегрессионные трансформеры в CV, и что EBWM обещает перспективное раннее масштабирование в NLP. Следовательно, этот подход предлагает захватывающий путь к обучению будущих моделей, способных к мышлению системы 2 и интеллектуальному поиску по пространствам состояний.
Несмотря на прогресс в области больших языковых моделей (LLM), продемонстрированный моделями, такими как GPT-4 и Claude, LLM меньшего масштаба, такие как Llama и Mistral, часто испытывают затруднения с генерацией глубоких и последовательных диалогов. В данной статье представлена новаторская двухэтапная модель Coarse-to-Fine Actor для преодоления врожденных ограничений в разговорных и аналитических способностях LLM небольшого размера. Наш подход начинается с Coarse Actor на основе политики, используя технику, которую мы называем "Continuous Maximization". Coarse Actor устанавливает улучшенный, богатый знаниями пул, способный выравниваться с предпочтениями человека в анализе и рассуждениях. Через процесс RLHF он использует Continuous Maximization, стратегию, которая динамически и адаптивно расширяет предел длины вывода, позволяя генерировать более подробное и аналитическое содержимое. Затем Fine Actor улучшает это аналитическое содержимое, решая проблему генерации избыточной информации от Coarse Actor. Мы представляем подход "Knowledge Residue Merger", улучшая содержимое от Coarse Actor и объединяя его с существующей моделью Instruction для улучшения качества, правильности и сокращения избыточности. Мы применили наш метод к популярной модели Mistral, создав Mistral-C2F, который продемонстрировал выдающуюся производительность по 11 общим языковым задачам и задаче MT-Bench Dialogue, превосходя модели с аналогичным масштабом и даже более крупные модели с 13B и 30B параметрами. Наша модель значительно улучшила разговорные и аналитические рассуждения.
Мы представляем новую задачу и бенчмарк для оценки способности моделей генерации текста в изображение (T2I) создавать изображения, соответствующие здравому смыслу в реальной жизни, которую мы называем Commonsense-T2I. Учитывая два адверсивных текстовых стимула, содержащих идентичный набор действий с незначительными различиями, такие как "лампочка без электричества" против "лампочка с электричеством", мы оцениваем, способны ли модели T2I проводить визуальное здравомыслие, например, создавать изображения, соответствующие "лампочка не горит" против "лампочка горит" соответственно. Commonsense-T2I представляет собой адверсивное испытание, предоставляя парные текстовые стимулы вместе с ожидаемыми результатами. Набор данных тщательно подготовлен экспертами и аннотирован с тонкими метками, такими как тип здравого смысла и вероятность ожидаемых результатов, чтобы помочь анализировать поведение модели. Мы проводим оценку различных передовых моделей T2I (sota) и удивительно обнаруживаем, что существует большой разрыв между синтезом изображений и фотографиями реальной жизни - даже модель DALL-E 3 смогла достичь только 48,92% на Commonsense-T2I, а стабильная модель diffusion XL достигла лишь 24,92% точности. Наши эксперименты показывают, что обогащенные GPT стимулы не могут решить эту задачу, и мы включаем подробный анализ возможных причин такого дефицита. Мы стремимся, чтобы Commonsense-T2I служил высококачественным бенчмарком для проверки здравого смысла в T2I, способствуя прогрессу в генерации изображений реальной жизни.
Генерация видео представляет собой множество уникальных вызовов, выходящих за рамки генерации изображений. Временное измерение вносит значительные возможные изменения между кадрами, нарушая при этом согласованность и непрерывность. В данном исследовании мы переходим от оценки простых действий и утверждаем, что сгенерированные видео должны включать появление новых концепций и переходы между ними, как в реальных видео по мере их развития. Для оценки временной композициональности моделей генерации видео мы предлагаем TC-Bench, набор тщательно разработанных текстовых подсказок, соответствующих эталонным видео, и надежных метрик оценки. Подсказки формулируют начальное и конечное состояния сцен, эффективно уменьшая неоднозначности для развития кадра и упрощая оценку завершения перехода. Кроме того, собрав соответствующие подсказкам реальные видео, мы расширяем применимость TC-Bench от моделей, зависящих от текста, к моделям, зависящим от изображений, способным выполнять генеративную интерполяцию кадров. Мы также разрабатываем новые метрики для измерения полноты компонентных переходов в сгенерированных видео, которые демонстрируют значительно более высокие корреляции с оценками людей, чем существующие метрики. Наши всесторонние экспериментальные результаты показывают, что большинство видеогенераторов достигают менее 20% композиционных изменений, выделяя огромное пространство для будущего улучшения. Наш анализ указывает на то, что текущие модели генерации видео испытывают трудности с интерпретацией описаний композиционных изменений и синтезом различных компонентов на разных временных шагах.
Стандартная стратегия обучения моделей больших реконструкций (LRM) по одному виду следует полностью надзорному пути, используя масштабные наборы данных синтетических 3D-объектов или многовидовые захваты. Хотя эти ресурсы упрощают процедуру обучения, их сложно масштабировать за пределы существующих наборов данных, и они не обязательно представляют реальное распределение форм объектов. Для решения этих ограничений в данной статье мы представляем Real3D, первую систему LRM, которая может быть обучена с использованием однокадровых изображений реального мира. Real3D вводит новую рамку самообучения, которая может извлечь выгоду как из существующих синтетических данных, так и разнообразных однокадровых реальных изображений. Мы предлагаем две ненадзорные потери, которые позволяют нам контролировать LRM на уровне пикселей и семантики, даже для обучающих примеров без истинных 3D или новых видов. Для дальнейшего улучшения производительности и масштабирования изображений мы разрабатываем подход к автоматической курированию данных для сбора высококачественных примеров из изображений "на лету". Наши эксперименты показывают, что Real3D последовательно превосходит предыдущие работы в четырех различных настройках оценки, которые включают реальные и синтетические данные, а также формы как внутри домена, так и вне домена. Код и модель можно найти здесь: https://hwjiang1510.github.io/Real3D/
Данная работа посвящена оценке частоты галлюцинаций при контекстном обучении (ICL) с использованием Генеративного ИИ. В ICL условная генеративная модель (CGM) подается на вход набор данных и запрашивается для предсказания на основе этого набора данных. Байесовская интерпретация ICL предполагает, что CGM вычисляет апостериорное предиктивное распределение по неизвестной байесовской модели латентного параметра и данных. С этой точки зрения мы определяем галлюцинацию как сгенерированное предсказание с низкой вероятностью по истинному латентному параметру. Мы разрабатываем новый метод, который берет задачу ICL - CGM, набор данных и вопрос предсказания - и оценивает вероятность того, что CGM сгенерирует галлюцинацию. Наш метод требует только генерации запросов и ответов из модели и оценки логарифма вероятности ее ответа. Мы проводим эмпирическую оценку нашего метода на синтетических задачах регрессии и естественного языка ICL с использованием больших языковых моделей.
Авторегрессивный вывод трансформеров значительно выигрывает от кэширования ключей-значений (KV), но может привести к серьезным узким местам памяти по мере увеличения размера модели, размера пакета и длины последовательности на масштабе. Мы представляем концепцию многослойного совместного использования ключей-значений (MLKV), новый подход, расширяющий совместное использование KV на протяжении слоев трансформера для снижения использования памяти за пределами того, что было возможно с множественным запросом внимания (MQA) и групповым запросом внимания (GQA). Оценки на различных бенчмарках NLP и метриках вывода с использованием вариантов Pythia-160M с обучением показывают, что MLKV значительно снижает использование памяти с минимальной потерей производительности, уменьшая размер кэша KV в 6 раз по сравнению с MQA. Эти результаты подчеркивают потенциал MLKV для эффективного развертывания моделей трансформера в масштабе. Мы предоставляем код на https://github.com/zaydzuhri/pythia-mlkv
Быстрое развитие крупных языковых моделей (LLM) требует надежных и сложных бенчмарков. Таблицы лидеров, такие как Chatbot Arena, ранжируют LLM на основе того, насколько их ответы соответствуют предпочтениям людей. Однако многие задачи, такие как те, которые связаны с эмоциональным интеллектом, творческим письмом или убедительностью, являются чрезвычайно субъективными и часто лишены единогласного согласия среди людей. Судьи могут иметь несовместимые разногласия относительно того, что является лучшим ответом. Для решения проблемы ранжирования LLM по крайне субъективным задачам мы предлагаем новую методику бенчмаркинга - Совет языковой модели (LMC). LMC действует через демократический процесс для: 1) формулирования набора тестов с равным участием, 2) проведения теста среди членов совета и 3) оценки ответов как коллективное жюри. Мы создаем совет из 20 новейших LLM для выполнения открытой задачи по эмоциональному интеллекту: реагирование на межличностные дилеммы. Наши результаты показывают, что LMC производит ранжирование, которое более разделимо, устойчиво и менее предвзято, чем у любого отдельного судьи LLM, и более согласуется с таблицей лидеров, установленной людьми, по сравнению с другими бенчмарками.
Визуальное вопросно-ответное моделирование (VQA) является важной задачей в мультимодальном искусственном интеллекте и часто используется для проверки способности моделей видео-языкового восприятия понимать и рассуждать на основе знаний, представленных в визуальных и текстовых данных. Однако большинство существующих моделей VQA используют наборы данных, в основном сосредоточенные на английском и нескольких крупных мировых языках, с изображениями, обычно ориентированными на западную культуру. Несмотря на последние усилия по увеличению числа охваченных языков в наборах данных VQA, они все еще не обладают достаточным разнообразием в языках с ограниченными ресурсами. Более того, хотя эти наборы данных часто расширяют свой лингвистический охват с помощью перевода или других подходов, они обычно оставляют изображения неизменными, что приводит к узкому культурному представлению. Для решения этих ограничений мы создаем CVQA, новый культурно-разнообразный многоязычный набор данных для визуального вопросно-ответного моделирования, разработанный для охвата богатого набора языков и культур, где мы привлекаем носителей языка и культурных экспертов в процесс сбора данных. В результате CVQA включает культурно обусловленные изображения и вопросы из 28 стран на четырех континентах, охватывая 26 языков с 11 алфавитами, предоставляя общее количество вопросов в размере 9 тыс. Мы затем тестируем несколько мультимодальных моделей больших языковых объемов (MLLMs) на CVQA и показываем, что набор данных представляет собой вызов для современных передовых моделей. Этот тест может служить в качестве набора оценочных средств для оценки культурной способности и предвзятости мультимодальных моделей и, надеемся, стимулировать больше исследовательских усилий по увеличению культурного осознания и лингвистического разнообразия в этой области.
Мы представляем LRM-Zero, большую модель восстановления (LRM), обученную исключительно на синтезированных 3D данных, достигающую высококачественного восстановления 3D из разреженных видов. Основу LRM-Zero составляет наш процедурный 3D набор данных, Zeroverse, который автоматически синтезируется из простых примитивных форм с случайным текстурированием и дополнениями (например, полевыми высотами, булевыми различиями и каркасами). В отличие от предыдущих 3D наборов данных (например, Objaverse), которые часто захватываются или создаются людьми для приближения к реальным 3D данным, Zeroverse полностью игнорирует реалистичные глобальные семантические аспекты, но богат сложными геометрическими и текстурными деталями, которые локально схожи или даже более замысловаты, чем реальные объекты. Мы демонстрируем, что наша LRM-Zero, обученная с использованием нашего полностью синтезированного Zeroverse, может достичь высокого визуального качества при восстановлении реальных объектов, конкурентоспособного с моделями, обученными на Objaverse. Мы также анализируем несколько критических дизайнерских решений Zeroverse, которые способствуют способностям LRM-Zero и стабильности обучения. Наша работа показывает, что восстановление 3D, одна из основных задач в 3D зрении, потенциально может быть решена без семантики реальных объектов. Процедурный код синтеза Zeroverse и интерактивная визуализация доступны по ссылке: https://desaixie.github.io/lrm-zero/.
В общем разговоре модели генерации изображений на основе диффузионных процессов часто называют "галлюцинациями", образцами, которые никогда не могли возникнуть в обучающих данных. Но откуда берутся такие галлюцинации? В данной статье мы изучаем конкретный вид неудачного поведения в моделях диффузии, который мы называем интерполяцией моды. Конкретно, мы обнаружили, что модели диффузии плавно "интерполируют" между близкими режимами данных в обучающем наборе, чтобы генерировать образцы, полностью выходящие за пределы исходного распределения обучающих данных; этот феномен приводит к появлению в моделях диффузии артефактов, которые никогда не существовали в реальных данных (т.е. галлюцинации). Мы систематически изучаем причины и проявления этого явления. Через эксперименты с одномерными и двумерными гауссовскими распределениями мы показываем, как разрывный ландшафт потерь в декодере модели диффузии приводит к области, где любое плавное приближение вызовет такие галлюцинации. Через эксперименты на искусственных наборах данных с различными формами мы показываем, как галлюцинация приводит к генерации комбинаций форм, которые никогда не существовали. Наконец, мы показываем, что модели диффузии фактически знают, когда они выходят за пределы и галлюцинируют. Это отражается высокой дисперсией в траектории сгенерированного образца к последним нескольким обратным процессам выборки. Используя простую метрику для оценки этой дисперсии, мы можем устранить более 95% галлюцинаций на этапе генерации, сохраняя при этом 96% образцов в пределах поддержки. Мы завершаем наше исследование, показывая последствия таких галлюцинаций (и их устранения) на коллапс (и стабилизацию) рекурсивного обучения на синтетических данных с экспериментами на наборе данных MNIST и двумерных гауссовских данных. Мы выкладываем наш код на https://github.com/locuslab/diffusion-model-hallucination.
Сжатие изображений с ультранизкой битовой скоростью является сложной и требовательной темой. С развитием больших мультимодальных моделей (LMM), возник парадигма кросс-модального сжатия (CMC) изображений-текста-изображения. По сравнению с традиционными кодеками, это семантическое сжатие может уменьшить размер данных изображения до 0,1\% или даже меньше, что имеет большой потенциал для приложений. Однако CMC обладает определенными недостатками в согласованности с оригинальным изображением и восприятии качества. Для решения этой проблемы мы представляем CMC-Bench, бенчмарк совместной производительности моделей изображение-текст (I2T) и текст-изображение (T2I) для сжатия изображений. Этот бенчмарк охватывает 18 000 и 40 000 изображений соответственно для проверки 6 основных моделей I2T и 12 моделей T2I, включая 160 000 субъективных оценок предпочтений, аннотированных экспертами. На ультранизких битрейтах в данной статье доказывается, что комбинация некоторых моделей I2T и T2I превзошла самые передовые кодеки визуальных сигналов; в то же время подчеркивается, как LMM могут быть дополнительно оптимизированы для задачи сжатия. Мы призываем разработчиков LMM участвовать в этом тесте для содействия эволюции протоколов визуальных сигнальных кодеков.
В текстово-изображенческой генерации, основанной на объектах, недавние работы достигли превосходных результатов, обучая модель на синтетических наборах данных, содержащих множество пар изображений. Обученные на этих наборах данных, генеративные модели могут создавать изображения, соотнесенные с текстом, для конкретного объекта из произвольного тестового изображения в режиме нулевой настройки. Они даже превосходят методы, требующие дополнительной настройки на тестовых изображениях. Однако стоимость создания таких наборов данных является запредельной для большинства исследователей. Для создания одной обучающей пары текущие методы настраивают заранее обученную модель текст-изображение на изображении объекта для захвата мелких деталей, затем используют настроенную модель для создания изображений для того же объекта на основе творческих текстовых подсказок. Следовательно, создание крупномасштабного набора данных с миллионами объектов может потребовать сотен тысяч часов GPU. Для решения этой проблемы мы предлагаем Toffee, эффективный метод создания наборов данных для редактирования и генерации, основанных на объектах. Конкретно, наша конструкция набора данных не требует настройки на уровне объекта. После предварительного обучения двух генеративных моделей мы можем создавать бесконечное количество высококачественных образцов. Мы создаем первый крупномасштабный набор данных для редактирования и генерации изображений, основанный на объектах, который содержит 5 миллионов пар изображений, текстовых подсказок и масок. Наш набор данных в 5 раз превышает размер предыдущего крупнейшего набора данных, однако наши затраты на порядки ниже - десятки тысяч часов GPU. Для тестирования предложенного набора данных мы также предлагаем модель, способную как к редактированию, так и к генерации изображений, основанных на объектах. Просто обучив модель на нашем предложенном наборе данных, мы получаем конкурентоспособные результаты, демонстрируя эффективность предложенной структуры создания набора данных.