Ежедневно отобранные исследовательские статьи по ИИ с переводами
Анимация изображения персонажа, которая генерирует видеоролики высокого качества из исходного изображения и последовательности целевых поз, в последние годы продемонстрировала значительный прогресс. Однако большинство существующих методов применимы только к человеческим фигурам, что обычно плохо обобщается на антропоморфных персонажей, часто используемых в индустрии игр и развлечений. Наш анализ показывает, что эта ограниченность обусловлена недостаточным моделированием движения, которое не способно понять образец движения исходного видео, что приводит к жесткому навязыванию последовательности поз на целевого персонажа. В данной работе предлагается Animate-X, универсальная анимационная платформа на основе LDM для различных типов персонажей (коллективно названных X), включая антропоморфных персонажей. Для улучшения представления движения мы вводим индикатор позы, который улавливает всесторонний образец движения из исходного видео как неявным, так и явным образом. Первый способ использует визуальные характеристики CLIP исходного видео для извлечения его сути движения, такие как общий образец движения и временные связи между движениями, в то время как второй укрепляет обобщение LDM путем симуляции возможных входных данных заранее, которые могут возникнуть во время вывода. Более того, мы представляем новый бенчмарк анимированных антропоморфных персонажей (A^2Bench) для оценки производительности Animate-X на универсальных и широко применимых анимационных изображениях. Обширные эксперименты демонстрируют превосходство и эффективность Animate-X по сравнению с передовыми методами.
С быстрым развитием контента, созданного искусственным интеллектом, будущее интернета может быть затоплено синтетическими данными, что делает различение подлинных и достоверных мультимодальных данных все более сложным. Обнаружение синтетических данных привлекло широкое внимание, и производительность крупных мультимодальных моделей (LMM) в этой задаче привлекла значительный интерес. LMM могут предоставлять естественноязыковые объяснения для своих оценок подлинности, улучшая объяснимость обнаружения синтетического контента. Одновременно задача различения реальных и синтетических данных эффективно проверяет способности восприятия, знаний и рассуждений LMM. В ответ мы представляем LOKI, новый бенчмарк, разработанный для оценки способности LMM обнаруживать синтетические данные в различных модальностях. LOKI охватывает видео, изображения, 3D, текст и аудио, включая 18 тыс. тщательно отобранных вопросов по 26 подкатегориям с четкими уровнями сложности. Бенчмарк включает грубо-зернистые оценки и вопросы с выбором из нескольких вариантов ответов, а также задачи fein-гранулированного выбора аномалий и объяснения, позволяя провести всесторонний анализ LMM. Мы оценили 22 открытых LMM и 6 закрытых моделей на LOKI, выявив их потенциал в качестве обнаружителей синтетических данных и также выявив некоторые ограничения в развитии возможностей LMM. Более подробную информацию о LOKI можно найти на https://opendatalab.github.io/LOKI/
Переплетенное мультимодальное понимание и генерация, позволяющие моделям производить и интерпретировать как изображения, так и текст в произвольной последовательности, стали ключевой областью в мультимодальном обучении. Несмотря на значительные достижения, оценка этой способности остается недостаточной. Существующие бенчмарки страдают от ограничений в масштабе данных, области применения и глубины оценки, а текущие метрики оценки часто являются дорогостоящими или предвзятыми, лишены надежности для практического применения. Для решения этих проблем мы представляем MMIE, крупномасштабный знаниевый бенчмарк для оценки переплетенного мультимодального понимания и генерации в моделях больших видео-языковых моделей (LVLMs). MMIE включает в себя 20 тыс. тщательно подобранных мультимодальных запросов, охватывающих 3 категории, 12 областей и 102 подобласти, включая математику, программирование, физику, литературу, здравоохранение и искусство. Он поддерживает как переплетенные входы, так и выходы, предлагая смесь форматов вопросов с выбором из нескольких вариантов ответа и открытым ответом для оценки разнообразных компетенций. Более того, мы предлагаем надежную автоматизированную метрику оценки, используя модель оценки, настроенную на основе данных с аннотациями человека и систематические критерии оценки, направленные на уменьшение предвзятости и улучшение точности оценки. Обширные эксперименты демонстрируют эффективность нашего бенчмарка и метрик в обеспечении всесторонней оценки переплетенных LVLMs. Конкретно, мы оцениваем восемь LVLMs, показывая, что даже лучшие модели имеют значительный потенциал для улучшения, с большинством достигающих лишь умеренных результатов. Мы уверены, что MMIE стимулирует дальнейшие прогрессивные изменения в развитии переплетенных LVLMs. Мы публично выпустили наш бенчмарк и код на https://mmie-bench.github.io/.
Следование естественным инструкциям является ключевым для эффективного применения систем с Расширенной Генерацией с Поиском (RAG). Несмотря на недавние достижения в области Больших Языковых Моделей (LLM), исследования по оценке и улучшению соответствия инструкциям (IF) в рамках домена RAG остаются ограниченными. Для решения этой проблемы мы предлагаем VIF-RAG - первый автоматизированный, масштабируемый и верифицируемый синтетический конвейер для соответствия инструкциям в системах RAG. Мы начинаем с ручного создания минимального набора атомарных инструкций (<100) и разработки правил комбинирования для синтеза и верификации сложных инструкций для начального набора. Затем мы используем модели с учителем для переписывания инструкций, одновременно генерируя код для автоматизации верификации качества инструкций с помощью исполнителя на Python. Наконец, мы интегрируем эти инструкции с обширными выборками данных RAG и общего назначения, масштабируясь до высококачественного набора данных VIF-RAG-QA (>100k) через автоматизированные процессы. Для дальнейшего устранения пробелов в автооценке следования инструкциям для систем RAG мы представляем FollowRAG Benchmark, который включает около 3 тыс. тестовых образцов, охватывающих 22 категории общих ограничений инструкций и четыре набора данных для знаниевооруженных вопросно-ответных систем. Благодаря надежному дизайну конвейера FollowRAG может легко интегрироваться с различными бенчмарками RAG. Используя FollowRAG и восемь широко используемых бенчмарков для оценки следования инструкциям и основных способностей для LLM, мы демонстрируем, что VIF-RAG значительно улучшает производительность LLM в широком диапазоне общих ограничений инструкций, эффективно используя свои возможности в сценариях RAG. Дополнительный анализ предлагает практические идеи для достижения соответствия инструкциям в системах RAG. Наш код и наборы данных доступны по адресу https://FollowRAG.github.io.
Мы представляем MEGA-Bench, набор оценочных задач, который масштабирует мультимодальную оценку на более чем 500 задач реального мира, чтобы решить высокую гетерогенность повседневного использования конечными пользователями. Наша цель - оптимизировать набор высококачественных образцов данных, охватывающих широкий и разнообразный набор мультимодальных задач, обеспечивая при этом экономичную и точную оценку модели. В частности, мы собрали 505 реалистичных задач, охватывающих более 8 000 образцов от 16 экспертных аннотаторов, чтобы широко охватить пространство мультимодальных задач. Вместо объединения этих проблем в стандартные множественного выбора вопросы (как MMMU, MMBench и MMT-Bench), мы принимаем широкий спектр форматов вывода, таких как числа, фразы, код, \LaTeX, координаты, JSON, свободная форма и т. д. Для адаптации к этим форматам мы разработали более 40 метрик для оценки этих задач. В отличие от существующих эталонов, MEGA-Bench предлагает доклад о возможностях с тонкой настройкой по нескольким измерениям (например, приложение, тип ввода, формат вывода, уровень навыков), позволяя пользователям взаимодействовать и визуализировать возможности модели в глубину. Мы оцениваем широкий спектр передовых моделей видео-языка на MEGA-Bench, чтобы понять их возможности по этим измерениям.
Недавние достижения в области крупных языковых моделей (LLM) привели к значительным прорывам в математических способностях рассуждения. Однако существующие бенчмарки, такие как GSM8K или MATH, теперь решаются с высокой точностью (например, OpenAI o1 достигает 94.8% на наборе данных MATH), что указывает на их недостаточность для по-настоящему вызова этих моделей. Для устранения этого разрыва мы предлагаем всесторонний и сложный бенчмарк, специально разработанный для оценки математического рассуждения LLM на уровне олимпиады. В отличие от существующих бенчмарков, связанных с олимпиадами, наш набор данных сосредоточен исключительно на математике и включает в себя обширную коллекцию из 4428 проблем уровня соревнования с тщательной аннотацией человека. Эти проблемы тщательно категоризированы на более чем 33 поддомена и охватывают более 10 различных уровней сложности, обеспечивая всестороннюю оценку производительности модели в математическом рассуждении на уровне олимпиады. Кроме того, мы провели глубокий анализ на основе этого бенчмарка. Наши экспериментальные результаты показывают, что даже самые передовые модели, OpenAI o1-mini и OpenAI o1-preview, испытывают трудности с высоко сложными проблемами на уровне олимпиады, с точностью 60.54% и 52.55%, подчеркивая значительные вызовы в математическом рассуждении на уровне олимпиады.
Генеративные модели преобразуют случайный шум в изображения; их инверсия направлена на преобразование изображений обратно в структурированный шум для восстановления и редактирования. В данной статье рассматриваются две ключевые задачи: (i) инверсия и (ii) редактирование реального изображения с использованием стохастических эквивалентов моделей прямого потока (например, Flux). Хотя модели диффузии (DM) недавно доминировали в области генеративного моделирования изображений, их инверсия представляет вызовы верности и редактирования из-за нелинейностей в дрейфе и диффузии. Существующие передовые подходы к инверсии DM полагаются на обучение дополнительных параметров или оптимизацию скрытых переменных во время тестирования; оба подхода дороги на практике. Модели прямого потока (RF) предлагают многообещающую альтернативу моделям диффузии, однако их инверсия была недостаточно изучена. Мы предлагаем инверсию RF с использованием динамического оптимального управления, выведенного с помощью линейного квадратичного регулятора. Мы доказываем, что полученное векторное поле эквивалентно прямому стохастическому дифференциальному уравнению. Кроме того, мы расширяем нашу методику для разработки стохастического сэмплера для Flux. Наш метод инверсии позволяет добиться передовой производительности в инверсии и редактировании с нулевой точки, превосходя предыдущие работы в синтезе рисунка из штриха и семантическом редактировании изображений, с подтверждением предпочтения пользователей по результатам масштабных оценок.
Масштабное обучение мультимодельных моделей на данных, собранных из сети Интернет, продемонстрировало выдающуюся полезность в насыщении этих моделей необходимыми знаниями о мире для эффективного выполнения различных последующих задач. Однако одним из недостатков сбора данных из сети Интернет может быть потенциальное жертвование бенчмарками, на основе которых часто оцениваются способности этих моделей. Для защиты от загрязнения тестовых данных и действительного тестирования способностей этих базовых моделей мы предлагаем LiveXiv: масштабируемый развивающийся живой бенчмарк на основе научных статей ArXiv. LiveXiv получает доступ к манускриптам, специфичным для области, в любой момент времени и предлагает автоматически генерировать визуальные вопросно-ответные пары (VQA). Это делается без участия человека, используя мультимодальное содержимое в манускриптах, такие как графики, диаграммы и таблицы. Более того, мы представляем эффективный подход к оценке, который оценивает производительность всех моделей на развивающемся бенчмарке, используя оценки только подмножества моделей. Это значительно снижает общую стоимость оценки. Мы провели оценку нескольких открытых и собственных больших мультимодельных моделей (LMMs) на первой версии нашего бенчмарка, показывая его сложную природу и выявляя истинные способности моделей, избегая загрязнения. Наконец, в нашем стремлении к высокому качеству мы собрали и оценили вручную проверенное подмножество. Сравнив его общие результаты с нашими автоматическими аннотациями, мы обнаружили, что разброс производительности действительно минимален (<2.5%). Наш набор данных доступен онлайн на HuggingFace, а наш код будет доступен здесь.
Подход с использованием поискового усиления для генерации (RAG) является эффективной техникой, которая позволяет крупным языковым моделям (LLM) использовать внешние источники знаний для генерации. Однако текущие системы RAG основаны исключительно на тексте, что делает невозможным использование информации о визуальном представлении, такой как макет и изображения, которые играют ключевую роль в документах с множественными модальностями в реальном мире. В данной статье мы представляем VisRAG, который решает эту проблему путем создания конвейера RAG на основе модели визуально-языкового взаимодействия (VLM). В этом конвейере, вместо того чтобы сначала анализировать документ для получения текста, документ непосредственно встраивается с использованием VLM в качестве изображения, после чего происходит поиск для улучшения генерации VLM. По сравнению с традиционным текстовым RAG, VisRAG максимизирует сохранение и использование информации из исходных документов, устраняя потерю информации, внесенную в процессе анализа. Мы собрали как открытые, так и синтетические данные для обучения поисковика в VisRAG и исследовали различные методы генерации. Эксперименты показывают, что VisRAG превосходит традиционный RAG как на этапе поиска, так и на этапе генерации, достигая прироста производительности от 25 до 39\% по сравнению с традиционным конвейером RAG на основе текста. Дополнительный анализ показывает, что VisRAG эффективно использует обучающие данные и обладает сильной обобщающей способностью, что делает его многообещающим решением для RAG в документах с множественными модальностями. Наш код и данные доступны по ссылке https://github.com/openbmb/visrag.
В последние годы произошли значительные прорывы в генерации изображений в видео. Однако проблемы трехмерной согласованности и управляемости камеры сгенерированных кадров остаются нерешенными. Недавние исследования пытались внедрить управление камерой в процесс генерации, но их результаты часто ограничены простыми траекториями или не обладают способностью генерировать согласованные видео из различных траекторий камеры для одной и той же сцены. Для решения этих ограничений мы представляем Cavia, новую концепцию для генерации многокамерного видео с возможностью управления камерой, способную преобразовывать входное изображение в несколько пространственно-временно согласованных видео. Наша концепция расширяет модули пространственного и временного внимания до модулей интегрированного внимания к виду, улучшая как точку зрения, так и временную согласованность. Этот гибкий дизайн позволяет совместное обучение с разнообразными подготовленными источниками данных, включая статические видео на уровне сцены, синтетические динамические многокамерные видео на уровне объекта и динамические видео в реальном мире с монокулярной съемкой. На наш взгляд, Cavia является первым в своем роде, позволяющим пользователю точно указывать движение камеры при получении движения объекта. Обширные эксперименты показывают, что Cavia превосходит существующие методы как по геометрической согласованности, так и по качеству восприятия. Страница проекта: https://ir1d.github.io/Cavia/
LLM-модели обычно обучаются отвечать на вопросы пользователей или следовать инструкциям, аналогично тому, как это делают человеческие эксперты. Однако в стандартной модели выравнивания им не хватает базовой способности к явному мышлению перед ответом. Мышление важно для сложных вопросов, требующих рассуждений и планирования, — но может быть применено к любой задаче. Мы предлагаем метод обучения для оснащения существующих LLM-моделей такими способностями мышления для общего следования инструкциям без использования дополнительных данных от людей. Мы достигаем этого с помощью итеративной процедуры поиска и оптимизации, исследующей пространство возможных мыслительных генераций, позволяя модели научиться думать без прямого надзора. Для каждой инструкции кандидаты мыслей оцениваются с использованием модели-судьи для оценки только их ответов, а затем оптимизируются с помощью оптимизации предпочтений. Мы показываем, что эта процедура приводит к превосходной производительности на AlpacaEval и Arena-Hard, а также демонстрирует преимущества мышления в не-рассуждающих категориях, таких как маркетинг, здравоохранение и общие знания, помимо более традиционных задач рассуждения и решения проблем.
Понимание тонких временных динамик крайне важно для мультимодального понимания и генерации видео. Из-за отсутствия детализированных временных аннотаций существующие видео-бенчмарки в основном напоминают бенчмарки статических изображений и неспособны оценить модели на понимание времени. В данной статье мы представляем TemporalBench, новый бенчмарк, посвященный оценке тонкого понимания времени в видео. TemporalBench состоит из ~10K пар вопрос-ответ к видео, полученных из ~2K высококачественных человеческих аннотаций, описывающих временные динамики в видеороликах. Таким образом, наш бенчмарк предоставляет уникальную площадку для оценки различных способностей к пониманию и рассуждению о времени, таких как частота действий, величина движения, порядок событий и т. д. Более того, он позволяет проводить оценку на различных задачах, таких как ответы на вопросы к видео и создание подписей, понимание как коротких, так и длинных видео, а также различные модели, такие как мультимодальные модели встраивания видео и модели генерации текста. Результаты показывают, что передовые модели, такие как GPT-4o, достигают лишь 38.5% точности ответов на вопросы на TemporalBench, демонстрируя значительный разрыв (~30%) между людьми и ИИ в понимании времени. Кроме того, мы замечаем критическую проблему для множественного выбора в QA, где LLM могут обнаруживать тонкие изменения в отрицательных подписях и находить централизованное описание в качестве подсказки для своего предсказания, поэтому мы предлагаем Multiple Binary Accuracy (MBA) для исправления такого смещения. Мы надеемся, что TemporalBench сможет способствовать исследованиям по улучшению способностей моделей к временному рассуждению. Как набор данных, так и код оценки будут доступны.
Надзорное донастройка (SFT) имеет решающее значение для согласования больших языковых моделей (LLM) с инструкциями человека. Основная цель во время SFT заключается в выборе небольшого, но репрезентативного подмножества обучающих данных из большого пула, так чтобы донастройка с использованием этого подмножества достигала результатов, сравнимых или даже превосходящих те, что получаются при использовании всего набора данных. Однако большинство существующих техник выбора данных разработаны для небольших пулов данных, что не удовлетворяет требованиям сценариев реального мира для SFT. В данной статье мы воспроизвели несколько методов самооценки, не зависящих от внешней помощи модели, на двух миллионных масштабах наборов данных и обнаружили, что практически все методы испытывают трудности в значительном превосходстве случайного выбора при работе с такими масштабными пулами данных. Более того, наши сравнения показывают, что во время SFT разнообразие в выборе данных более важно, чем просто сосредоточение на данных высокого качества. Мы также проанализировали ограничения нескольких текущих подходов, объясняя, почему они плохо справляются с масштабными наборами данных и почему они не подходят для таких контекстов. Наконец, мы обнаружили, что фильтрация данных по длине токена предлагает стабильный и эффективный метод для улучшения результатов. Этот подход, особенно при обучении на длинных текстовых данных, оказывается чрезвычайно полезным для относительно слабых базовых моделей, таких как Llama3.
Недавние системы чат-ассистентов, основанные на крупных языковых моделях (КЯМ), интегрировали компоненты памяти для отслеживания истории чатов между пользователем и ассистентом, обеспечивая более точные и персонализированные ответы. Однако их возможности долгосрочной памяти в продолжительных взаимодействиях остаются недостаточно изученными. В данной статье представлен LongMemEval, комплексный бенчмарк, разработанный для оценки пяти основных способностей долгосрочной памяти чат-ассистентов: извлечение информации, многосессионное рассуждение, временное рассуждение, обновление знаний и воздержание. С 500 тщательно подобранными вопросами, встроенными в масштабируемые истории чатов между пользователем и ассистентом, LongMemEval представляет собой значительное испытание для существующих систем долгосрочной памяти, приводя к снижению точности на 30% у коммерческих чат-ассистентов и КЯМ с долгим контекстом при запоминании информации в продолжительных взаимодействиях. Затем мы представляем единый фреймворк, который разбивает дизайн долгосрочной памяти на четыре выбора дизайна на этапах индексации, извлечения и чтения. Основываясь на ключевых экспериментальных выводах, мы предлагаем несколько дизайнов памяти, включая декомпозицию сессии для оптимизации уровня значимости, расширение ключей с фактами для улучшения структуры индекса и расширение запроса с учетом времени для уточнения области поиска. Результаты экспериментов показывают, что эти оптимизации значительно улучшают как воспоминание памяти, так и ответы на вопросы на LongMemEval. В целом, наше исследование предоставляет ценные ресурсы и руководство для развития возможностей долгосрочной памяти на основе КЯМ чат-ассистентов, открывая путь к более персонализированному и надежному разговорному ИИ.
Появление больших моделей видео-языка (VLM) значительно продвинуло мультимодальное понимание, обеспечивая более сложную и точную интеграцию визуальной и текстовой информации в различных задачах, включая подписывание изображений и видео, визуальное ответ на вопросы и кросс-модальный поиск. Несмотря на превосходные возможности VLM, исследователям не хватает всеобъемлющего понимания их композициональности - способности понимать и создавать новые комбинации известных визуальных и текстовых компонентов. Предыдущие бенчмарки предоставляют лишь относительно грубую оценку композициональности с точки зрения объектов, отношений и атрибутов, игнорируя более глубокое рассуждение о взаимодействиях объектов, подсчете и сложных композициях. Однако композициональность является критической способностью, облегчающей последовательное рассуждение и понимание между модальностями для VLM. Для преодоления этого ограничения мы предлагаем MMCOMPOSITION, новый бенчмарк с аннотациями человека для всесторонней и точной оценки композициональности VLM. Наш предложенный бенчмарк служит дополнением к ранее проведенным работам. С помощью MMCOMPOSITION мы можем количественно оценить и исследовать композициональность основных VLM. Удивительно, что мы обнаруживаем, что композициональность GPT-4o уступает лучшей модели с открытым исходным кодом, и анализируем причины этого. Наш экспериментальный анализ выявляет ограничения VLM в тонком композиционном восприятии и рассуждениях, указывая на области для улучшения в дизайне и обучении VLM. Ресурсы доступны по ссылке: https://hanghuacs.github.io/MMComposition/
Большие языковые модели (LLM) продемонстрировали выдающуюся производительность в различных задачах благодаря обучению в контексте. Для сложных задач рассуждения, требующих пошагового мышления, использование метода Chain-of-Thought (CoT) привело к впечатляющим результатам, особенно при комбинировании с самоконсистентностью. Тем не менее, некоторые задачи остаются особенно сложными для LLM. Как альтернативы возникли Tree of Thoughts (ToT) и Graph of Thoughts (GoT), разбивающие сложную проблему на пути подзадач. В данной статье мы предлагаем Tree of Problems (ToP), более простую версию ToT, которая, как мы предполагаем, может лучше справляться с сложными задачами, разделяемыми на идентичные подзадачи. Наши эмпирические результаты показывают, что наш подход превосходит ToT и GoT, а также демонстрирует лучшую производительность по сравнению с CoT в задачах сложного рассуждения. Весь код для данной статьи доступен публично здесь: https://github.com/ArmelRandy/tree-of-problems.
Развертывание моделей языка с длинным контекстом (LLM) является важным, но ставит перед собой значительные вычислительные и памятные вызовы. Кэширование всех ключевых и значимых (KV) состояний по всем внимательным головам потребляет значительное количество памяти. Существующие методы обрезки кэша KV либо ущемляют возможности моделей LLM в длинном контексте, либо предлагают лишь ограниченное улучшение эффективности. В данной статье мы выявляем, что только часть внимательных головок, известных как Головы Восстановления, критически важны для обработки длинных контекстов и требуют полного внимания ко всем токенам. В отличие от этого, все остальные головы, которые в основном сосредотачиваются на недавних токенах и точках внимания, называемых Головами Потока, не требуют полного внимания. Основываясь на этом понимании, мы представляем DuoAttention, фреймворк, который применяет полный кэш KV только к головам восстановления, используя легкий, постоянной длины кэш KV для голов потока, что снижает как декодирование и предварительное заполнение памяти LLM, так и задержку без ущерба для его возможностей работы с длинным контекстом. DuoAttention использует легкий, оптимизационный алгоритм на синтетических данных для точного определения голов восстановления. Наш метод значительно уменьшает память вывода в длинном контексте до 2.55 раз для моделей MHA и 1.67 раз для моделей GQA, ускоряя декодирование до 2.18 раз и 1.50 раз, а также ускоряя предварительное заполнение до 1.73 раз и 1.63 раз для моделей MHA и GQA соответственно, с минимальной потерей точности по сравнению с полным вниманием. Особенно стоит отметить, что в сочетании с квантованием DuoAttention позволяет декодировать Llama-3-8B с длиной контекста 3.3 миллиона на одном графическом процессоре A100. Код предоставлен по ссылке https://github.com/mit-han-lab/duo-attention.
Гуманоидные роботы, способные к автономной работе в различных средах, давно являются целью для робототехников. Однако автономное управление гуманоидными роботами в основном ограничивалось одной конкретной сценой, в основном из-за сложности приобретения обобщенных навыков. Недавние достижения в 3D визуомоторных политиках, таких как 3D Политика Диффузии (DP3), показали перспективы в расширении этих возможностей на более сложные среды. Однако 3D визуомоторные политики часто зависят от калибровки камеры и сегментации облака точек, что создает проблемы для применения на мобильных роботах, таких как гуманоиды. В данной работе мы представляем Улучшенную 3D Политику Диффузии (iDP3), новую 3D визуомоторную политику, которая устраняет эти ограничения, используя эгоцентрические 3D визуальные представления. Мы демонстрируем, что iDP3 позволяет полноразмерному гуманоидному роботу автономно выполнять навыки в различных реальных сценариях, используя только данные, собранные в лаборатории. Видео доступны по ссылке: https://humanoid-manipulation.github.io
Большие языковые модели продемонстрировали впечатляющую производительность при интеграции с моделями зрения, даже позволяя понимание видео. Однако оценка этих видеомоделей представляет собой собственные уникальные вызовы, для решения которых было предложено несколько бенчмарков. В данной статье мы показываем, что наиболее используемые в настоящее время видео-языковые бенчмарки могут быть решены без необходимости значительного временного рассуждения. Мы выявили три основных проблемы в существующих наборах данных: (i) статическая информация из отдельных кадров часто достаточна для решения задач, (ii) текст вопросов и вариантов ответов слишком информативен, что позволяет моделям отвечать правильно без использования визуального ввода, (iii) только мировое знание может ответить на многие вопросы, делая бенчмарки тестом на воспроизведение знаний, а не на визуальное рассуждение. Кроме того, мы обнаружили, что бенчмарки с открытым вопросно-ответным форматом для понимания видео страдают от аналогичных проблем, а процесс автоматической оценки с использованием БМ является ненадежным, что делает его неприемлемой альтернативой. В качестве решения мы предлагаем TVBench, новый открытый бенчмарк для видео с множественным выбором вопросов и ответов, и демонстрируем через обширные оценки, что для его решения требуется высокий уровень временного понимания. Удивительно, что большинство последних передовых видео-языковых моделей производительности схожи с случайной производительностью на TVBench, превосходя этот базовый уровень только Gemini-Pro и Tarsier.
Мы используем новые инструменты механистической интерпретируемости, чтобы выяснить, соответствует ли внутренняя структура крупных языковых моделей (LLM) лингвистическим структурам, лежащим в основе языков, на которых они обучены. В частности, мы спрашиваем: (1) когда два языка используют одни и те же морфосинтаксические процессы, обрабатывают ли LLM их с использованием общей внутренней схемы? и (2) когда два языка требуют различных морфосинтаксических процессов, обрабатывают ли LLM их с использованием различной внутренней схемы? Используя английские и китайские мультиязычные и одноязычные модели, мы анализируем внутреннюю схему, участвующую в двух задачах. Мы обнаруживаем доказательства того, что модели используют одну и ту же схему для обработки одного и того же синтаксического процесса независимо от языка, в котором он происходит, и что это верно даже для одноязычных моделей, обученных полностью независимо. Более того, мы показываем, что мультиязычные модели используют языковые компоненты (головы внимания и прямые сети) при необходимости обработки лингвистических процессов (например, морфологической маркировки), которые существуют только в некоторых языках. В целом, наши результаты предоставляют новые идеи о том, как LLM балансируют между использованием общих структур и сохранением лингвистических различий при моделировании нескольких языков одновременно.
LayerNorm является ключевым компонентом в современных больших языковых моделях (LLM) для стабилизации обучения и обеспечения плавной оптимизации. Однако он вносит значительные вызовы в механистическую интерпретируемость, подавление выбросов, верное распространение сигнала, а также в вычислительную и коммуникационную сложность частного вывода. В данной работе исследуются желательные функции активации в декодерах LLM без нормализации. Вопреки традиционному предпочтению GELU в моделях на основе трансформера, наши эмпирические результаты демонстрируют {\em противоположную тенденцию} - ReLU значительно превосходит GELU в моделях без LayerNorm, что приводит к улучшению перплексии на {\bf 8.2\%}. Мы обнаружили ключевую проблему с GELU, где начальные слои испытывают энтропийное перегруз, что приводит к недоиспользованию репрезентативной способности внимательных головок. Это подчеркивает, что более плавные активации, такие как GELU, не подходят для архитектур без LayerNorm, в то время как геометрические свойства ReLU - специализация в пространстве ввода и селективность внутри класса - приводят к улучшению динамики обучения и лучшему сохранению информации в отсутствие LayerNorm. Это исследование предлагает ключевые идеи для оптимизации архитектур трансформера, где LayerNorm вносит значительные вызовы.
Мы представляем метод предварительного обучения моделей видение-язык-действие (VLA) без меток действий робота - Latent Action Pretraining for general Action models (LAPA), не требующий участия человека. Существующие модели видение-язык-действие обычно требуют меток действий, собранных человеческими операторами во время предварительного обучения, что существенно ограничивает источники данных и масштаб. В данной работе мы предлагаем метод обучения на видео масштаба интернета без меток действий робота. Сначала мы обучаем модель квантования действий, используя цель на основе VQ-VAE, чтобы изучить дискретные скрытые действия между кадрами изображения, затем предварительно обучаем скрытую модель VLA для предсказания этих скрытых действий из наблюдений и описаний задачи, и, наконец, донастраиваем VLA на небольших данных по манипулированию робота для отображения скрытых действий на действия робота. Экспериментальные результаты показывают, что наш метод значительно превосходит существующие техники обучения политик манипулирования роботов на видео масштаба больших данных. Более того, он превосходит современную модель VLA, обученную с метками действий робота, на задачах манипулирования в реальном мире, требующих языкового контекста, обобщения на невидимые объекты и семантического обобщения на невидимые инструкции. Обучение только на видео человеческого манипулирования также показывает положительный перенос, открывая потенциал использования данных масштаба веба для моделирования основ робототехники.