Ежедневно отобранные исследовательские статьи по ИИ с переводами
Быстрый прогресс в моделях видео-языкового взаимодействия (VLM) показал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, способных надежно применять шаги решения к похожим проблемам с незначительными изменениями, мы обнаружили, что передовые модели VLM, такие как GPT-4o, могут последовательно терпеть неудачу в таких сценариях, выявляя ограничения их математических рассуждений. В данной статье мы исследуем устойчивость математических рассуждений в моделях VLM и оценим, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения визуальных числовых значений или функциональных графиков. Хотя было разработано несколько видео-ориентированных математических бенчмарков для оценки способностей моделей VLM в решении проблем, эти бенчмарки содержат только статические наборы задач и не могут легко оценить устойчивость математических рассуждений. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для глубокой оценки моделей VLM. DynaMath включает 501 высококачественный мульти-тематический исходный вопрос, каждый из которых представлен в виде программы на Python. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность обобщения моделей VLM, оценивая их производительность при различных входных условиях исходного вопроса. Мы оценили 14 передовых моделей VLM с 5 010 сгенерированными конкретными вопросами. Наши результаты показывают, что точность модели в худшем случае, определенная как процент правильных ответов на исходные вопросы во всех 10 вариантах, значительно ниже средней точности. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений моделей VLM, а DynaMath предоставляет ценные идеи для разработки более надежных моделей для математических рассуждений.
Смесь экспертов (MoEs) играет важную роль в разработке более эффективных и эффективных больших языковых моделей (LLMs). Из-за огромных требований к ресурсам изучение алгоритмов MoE большого масштаба остается недоступным для многих исследователей. В данной работе разрабатывается LibMoE, комплексный и модульный фреймворк для упрощения исследований, обучения и оценки алгоритмов MoE. Основанный на трех основных принципах: (i) модульный дизайн, (ii) эффективное обучение; (iii) всесторонняя оценка, LibMoE делает MoE в LLMs более доступными для широкого круга исследователей путем стандартизации процессов обучения и оценки. Используя LibMoE, мы подробно оценили пять передовых алгоритмов MoE на трех различных LLMs и 11 наборах данных в условиях нулевой настройки. Результаты показывают, что несмотря на уникальные характеристики, все алгоритмы MoE показывают примерно одинаковую производительность при усреднении по широкому спектру задач. Благодаря модульному дизайну и обширной оценке, мы считаем, что LibMoE будет бесценным инструментом для исследователей, позволяющим сделать значительные шаги к следующему поколению MoE и LLMs. Страница проекта: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
Несмотря на популярность квантования больших языковых моделей (LLM) для ускорения вывода, остается значительная неопределенность относительно компромисса между точностью и производительностью, связанного с различными форматами квантования. Мы представляем обширное эмпирическое исследование квантованной точности, оценивая популярные форматы квантования (FP8, INT8, INT4) на академических бенчмарках и задачах реального мира, на всей семье моделей Llama-3.1. Кроме того, наше исследование исследует разницу в сгенерированном тексте квантованными моделями по сравнению с их неквантованными аналогами. Помимо бенчмарков, мы также представляем несколько улучшений квантования, которые позволили нам достичь результатов восстановления точности на уровне передовых технологий. Наше исследование, охватывающее более 500 000 отдельных оценок, приводит к нескольким ключевым выводам: (1) квантование весов и активаций FP8 (W8A8-FP) не вызывает потерь на всех масштабах моделей, (2) квантование весов и активаций INT8 (W8A8-INT), при правильной настройке, приводит к удивительно низкому снижению точности на уровне 1-3%, и (3) квантование только весов INT4 (W4A16-INT) конкурентоспособно с 8-битным целочисленным квантованием весов и активаций. Для решения вопроса о "лучшем" формате для конкретной среды развертывания мы проводим анализ производительности вывода с использованием популярного открытого фреймворка vLLM на различных архитектурах GPU. Мы обнаруживаем, что W4A16 предлагает лучшую стоимостную эффективность для синхронных развертываний и для асинхронного развертывания на средних GPU. В то же время форматы W8A8 превосходят в асинхронном развертывании "непрерывной пакетной обработки" средних и крупных моделей на высокопроизводительных GPU. Наши результаты предоставляют набор практических рекомендаций для развертывания квантованных LLM на различных масштабах и требованиях к производительности.
Автономные агенты становятся все более важными для взаимодействия с реальным миром. Агенты Android, в частности, недавно стали часто упоминаемым методом взаимодействия. Однако существующие исследования по обучению и оценке агентов Android не имеют систематических исследований как по открытым, так и по закрытым моделям. В данной работе мы предлагаем AndroidLab как систематическую платформу для агентов Android. Она включает в себя рабочее окружение с различными модальностями, пространство действий и воспроизводимый бенчмарк. Платформа поддерживает как большие языковые модели (LLM), так и мультимодальные модели (LMM) в одном пространстве действий. Бенчмарк AndroidLab включает предопределенные виртуальные устройства Android и 138 задач по девяти приложениям, построенным на этих устройствах. Используя среду AndroidLab, мы разрабатываем набор данных Android Instruction и обучаем шесть открытых моделей LLM и LMM, увеличивая средние показатели успешности с 4.59% до 21.50% для LLM и с 1.93% до 13.28% для LMM. AndroidLab является открытым и доступным публично по адресу https://github.com/THUDM/Android-Lab.
Большие языковые модели (LLM) показали выдающийся потенциал в качестве автономных агентов, особенно в веб-ориентированных задачах. Однако существующие веб-агенты LLM тесно связаны с дорогостоящими проприетарными API LLM, в то время как открытые LLM не обладают необходимыми способностями принятия решений. В данной статье представлен WebRL, фреймворк обучения с подкреплением с саморазвивающейся онлайн-курсом, разработанный для обучения высокопроизводительных веб-агентов с использованием открытых LLM. WebRL решает три основных проблемы при создании веб-агентов LLM, включая недостаток обучающих задач, разреженные сигналы обратной связи и дрейф в распределении стратегий в процессе онлайн-обучения. Конкретно, WebRL включает в себя 1) саморазвивающийся курс, который генерирует новые задачи из неудачных попыток, 2) устойчивую модель вознаграждения с контролем исхода (ORM) и 3) адаптивные стратегии обучения с подкреплением для обеспечения последовательных улучшений. Мы применяем WebRL для преобразования открытых моделей Llama-3.1 и GLM-4 в опытных веб-агентов. На WebArena-Lite WebRL повышает процент успешных попыток с 4,8% до 42,4% для Llama-3.1-8B и с 6,1% до 43% для GLM-4-9B. Эти открытые модели значительно превосходят производительность GPT-4-Turbo (17,6%) и GPT-4o (13,9%) и превосходят предыдущих передовых веб-агентов, обученных на открытых LLM (AutoWebGLM, 18,2%). Наши результаты демонстрируют эффективность WebRL в преодолении разрыва между открытыми и проприетарными веб-агентами на основе LLM, открывая путь к более доступным и мощным автономным системам взаимодействия веба.
Sora от OpenAI подчеркивает потенциал генерации видео для разработки мировых моделей, соблюдающих основные физические законы. Однако способность моделей генерации видео открывать такие законы исключительно на основе визуальных данных без человеческих априорных знаний может быть поставлена под сомнение. Мировая модель, которая учится истинному закону, должна давать прогнозы, устойчивые к нюансам, и правильно экстраполировать на невиденные сценарии. В данной работе мы оцениваем три ключевых сценария: внутри распределения, вне распределения и комбинаторную обобщаемость. Мы разработали 2D симуляционную платформу для движения объектов и столкновений, чтобы генерировать видео детерминированно, управляемые одним или несколькими законами классической механики. Это обеспечивает неограниченное количество данных для экспериментов крупного масштаба и позволяет количественно оценить, соблюдают ли сгенерированные видео физические законы. Мы обучили модели генерации видео на основе диффузии предсказывать движения объектов на основе начальных кадров. Наши эксперименты по масштабированию показывают идеальную обобщаемость в пределах распределения, измеримое поведение масштабирования для комбинаторной обобщаемости, но неудачу в сценариях вне распределения. Дополнительные эксперименты раскрывают два ключевых аспекта обобщающих механизмов этих моделей: (1) модели не могут абстрагировать общие физические правила и вместо этого проявляют поведение "на основе случая", т.е. имитируют ближайший обучающий пример; (2) при обобщении на новые случаи модели при обращении к обучающим данным придают приоритет различным факторам: цвет > размер > скорость > форма. Наше исследование предполагает, что только масштабирование недостаточно для того, чтобы модели генерации видео раскрывали основные физические законы, несмотря на его роль в общем успехе Sora. Посмотрите нашу страницу проекта по ссылке https://phyworld.github.io
Существующие системы агентов LLM обычно выбирают действия из фиксированного и заранее определенного набора на каждом шаге. Хотя этот подход эффективен в закрытых, узко специализированных средах, мы считаем, что он представляет две основные проблемы при развертывании агентов LLM в реальных сценариях: (1) выбор из фиксированного набора действий значительно ограничивает возможности планирования и действия агентов LLM, и (2) этот подход требует значительных усилий человека для перечисления и реализации всех возможных действий, что становится непрактичным в сложных средах с огромным количеством потенциальных действий. В данной работе мы предлагаем фреймворк агента LLM, который позволяет динамически создавать и комбинировать действия в режиме онлайн. В этом фреймворке агент взаимодействует с окружающей средой, генерируя и выполняя программы, написанные на языке общего назначения, на каждом шаге. Более того, сгенерированные действия накапливаются со временем для будущего повторного использования. Наши обширные эксперименты на бенчмарке GAIA показывают, что этот фреймворк предлагает значительно большую гибкость и превосходит предыдущие методы. Важно отметить, что он позволяет агенту LLM восстанавливаться в сценариях, где в заранее определенном наборе отсутствует соответствующее действие или когда существующие действия не справляются из-за непредвиденных крайних случаев. На момент написания данного текста мы занимаем первое место в общедоступном рейтинге GAIA. Наш код можно найти по ссылке: https://github.com/adobe-research/dynasaur.
Модели диффузии продемонстрировали отличные возможности в генерации текста в изображения. Их семантическое понимание (т.е. последующий запрос) также значительно улучшилось благодаря крупным языковым моделям (например, T5, Llama). Однако существующие модели не могут идеально обрабатывать длинные и сложные текстовые запросы, особенно когда текстовые запросы содержат различные объекты с многочисленными атрибутами и взаимосвязанными пространственными отношениями. Хотя было предложено много региональных методов запросов для моделей на основе UNet (SD1.5, SDXL), пока не было реализаций на основе недавней архитектуры Диффузионного Трансформера (DiT), таких как SD3 и FLUX. В данном отчете мы предлагаем и реализуем региональный запрос для FLUX.1 на основе манипуляции вниманием, что позволяет DiT обладать способностью к генерации изображений из текста с тонкой детализацией в обучении-без-тренировки. Код доступен по ссылке https://github.com/antonioo-c/Regional-Prompting-FLUX.
Текстурирование является ключевым этапом в рабочем процессе производства 3D-моделей, которое улучшает визуальное воздействие и разнообразие 3D-моделей. Несмотря на недавние достижения в генерации текстур из текста (T2T), существующие методы часто дают низкокачественные результаты, в основном из-за локальных разрывов, несогласованности между несколькими видами и их сильной зависимости от результатов UV-развертки. Для решения этих проблем мы предлагаем новую рамочную систему текстурирования 3D-моделей с генерацией и улучшением текстур под названием MVPaint, способную создавать текстуры высокого разрешения без швов, с акцентом на согласованность между несколькими видами. MVPaint в основном состоит из трех ключевых модулей. 1) Синхронная многовидовая генерация (SMG). Учитывая 3D-сетчатую модель, MVPaint сначала одновременно генерирует изображения нескольких видов с помощью модели SMG, что приводит к грубым результатам текстурирования с незакрашенными участками из-за отсутствия наблюдений. 2) Пространственное инпейнтинг 3D (S3I). Для обеспечения полного текстурирования 3D-модели мы вводим метод S3I, специально разработанный для эффективного текстурирования ранее невидимых областей. 3) Улучшение UV-развертки (UVR). Кроме того, MVPaint использует модуль UVR для улучшения качества текстуры в пространстве UV, который сначала выполняет суперразрешение в пространстве UV, а затем алгоритм сглаживания швов с учетом пространства для исправления пространственных разрывов в текстурировании, вызванных UV-разверткой. Более того, мы устанавливаем два бенчмарка оценки T2T: бенчмарк T2T Objaverse и бенчмарк T2T GSO, основанные на выбранных высококачественных 3D-сетках из набора данных Objaverse и всего набора данных GSO, соответственно. Обширные экспериментальные результаты показывают, что MVPaint превосходит существующие передовые методы. Особенно стоит отметить, что MVPaint способен создавать текстуры высокой точности с минимальными проблемами Януса и значительно улучшенной согласованностью между видами.
В данной статье мы представляем Hunyuan-Large, который в настоящее время является самой крупной открытой моделью на основе Transformer смешанной экспертности, обладающей общим числом 389 миллиардов параметров и 52 миллиарда активационных параметров, способной обрабатывать до 256 тыс. токенов. Мы проводим тщательную оценку превосходной производительности Hunyuan-Large на различных бенчмарках, включая понимание и генерацию языка, логическое рассуждение, математическое решение задач, программирование, долгосрочный контекст и агрегированные задачи, где он превосходит LLama3.1-70B и демонстрирует сопоставимую производительность по сравнению с значительно более крупной моделью LLama3.1-405B. Основные практики Hunyuan-Large включают масштабные синтетические данные, значительно превосходящие данные предыдущей литературы, стратегию маршрутизации смешанных экспертов, метод сжатия кэша ключ-значение и стратегию скорости обучения, специфичную для эксперта. Кроме того, мы также исследуем законы масштабирования и график скорости обучения моделей смешанных экспертов, предоставляя ценные идеи и рекомендации для будущего развития и оптимизации моделей. Код и контрольные точки Hunyuan-Large выпущены для облегчения будущих инноваций и применений. Коды: https://github.com/Tencent/Hunyuan-Large Модели: https://huggingface.co/tencent/Tencent-Hunyuan-Large
Масштабное развертывание больших языковых моделей (БЯМ) в различных приложениях, таких как чат-боты и виртуальные ассистенты, требует, чтобы БЯМ были культурно чувствительными к пользователю для обеспечения инклюзивности. Культура широко изучалась в психологии и антропологии, и наблюдается недавний подъем исследований по внедрению культурной инклюзивности в БЯМ, выходящий за рамки мультиязычности и основанный на результатам из психологии и антропологии. В данной статье мы рассматриваем усилия по внедрению культурного осознания в текстовые и мультимодальные БЯМ. Мы начинаем с определения культурного осознания в БЯМ, исходя из определений культуры из антропологии и психологии. Затем мы рассматриваем методики создания межкультурных наборов данных, стратегии культурной инклюзии в задачах на выходе и методики, использованные для оценки культурного осознания в БЯМ. Кроме того, мы обсуждаем этические аспекты культурного соответствия, роль взаимодействия человека с компьютером в содействии культурной инклюзии в БЯМ и роль культурного соответствия в развитии исследований в области социальных наук. Наконец, мы предоставляем указания для будущих исследований на основе выявленных нами пробелов в литературе.
Генерация видео высокого качества с сохранением временной согласованности может быть вычислительно затратной, особенно при длительных временных интервалах. Более новые Трансформеры Диффузии (DiTs), несмотря на значительный прогресс в этом контексте, лишь усугубляют такие проблемы, так как они зависят от более крупных моделей и более сложных механизмов внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео-трансформеров DiTs без обучения, названный Адаптивное Кэширование (AdaCache), который мотивирован тем, что "не все видео созданы равными образом": то есть некоторым видео требуется меньше шагов денойзинга для достижения приемлемого качества, чем другим. Основываясь на этом, мы не только кэшируем вычисления в процессе диффузии, но также разрабатываем график кэширования, адаптированный к каждому созданию видео, максимизируя компромисс между качеством и задержкой. Мы также вводим схему Регуляризации Движения (MoReg) для использования информации о видео в AdaCache, в основном управляя распределением вычислений на основе движения. В целом, наши вклады "подключи и используй" обеспечивают значительное ускорение вывода (например, до 4,7 раз на генерации видео Open-Sora 720p - 2 секунды) без ущерба качеству генерации, на различных базовых уровнях видео-трансформеров DiT.
Недавние достижения в генерации 2D изображений были чрезвычайно успешными. Однако генерация 3D и 4D остается сложной в реальных приложениях из-за отсутствия масштабных данных 4D и эффективного проектирования моделей. В данной статье мы предлагаем совместно исследовать общую генерацию 3D и 4D, используя движения камеры и объектов, часто наблюдаемые в повседневной жизни. Из-за отсутствия реальных данных 4D в сообществе, мы предлагаем сначала конвейер кураторства данных для получения поз камеры и силы движения объектов из видео. Основываясь на этом конвейере, мы представляем крупномасштабный реальный набор данных сцен 4D: CamVid-30K. Используя все данные 3D и 4D, мы разрабатываем нашу структуру, GenXD, которая позволяет нам создавать любую сцену 3D или 4D. Мы предлагаем мультивидово-временные модули, которые разделяют движения камеры и объектов, чтобы без проблем учиться на основе данных 3D и 4D. Кроме того, GenXD использует маскированные латентные условия для поддержки различных видов условий. GenXD может генерировать видео, следующие за траекторией камеры, а также последовательные 3D виды, которые могут быть преобразованы в 3D представления. Мы проводим обширные оценки на различных реальных и синтетических наборах данных, демонстрируя эффективность и универсальность GenXD по сравнению с предыдущими методами в генерации 3D и 4D.
Современное программное обеспечение для визуальных эффектов (VFX) позволяет опытным художникам создавать изображения практически чего угодно. Однако процесс создания остаётся трудоёмким, сложным и в значительной степени недоступным для обычных пользователей. В данной работе мы представляем AutoVFX, фреймворк, который автоматически создаёт реалистичные и динамичные видео с визуальными эффектами на основе одного видео и естественных языковых инструкций. Благодаря тщательной интеграции нейронного моделирования сцены, генерации кода на основе LLM и физического моделирования, AutoVFX способен обеспечить физически обоснованные, фотореалистичные эффекты редактирования, которые могут быть управляемы прямо с помощью естественных языковых инструкций. Мы проводим обширные эксперименты для подтверждения эффективности AutoVFX на разнообразном спектре видео и инструкций. Количественные и качественные результаты показывают, что AutoVFX значительно превосходит все конкурирующие методы по качеству генерации, соответствию инструкциям, гибкости редактирования и физической правдоподобности.
Разреженность активации обозначает наличие значительного количества слабо вкладывающихся элементов в выходах активации, которые могут быть устранены, что полезно для многих важных приложений, связанных с большими языковыми моделями (LLM). Хотя повышение разреженности активации в LLM заслуживает глубоких исследований, существующие работы не имеют комплексного и количественного исследования корреляции между разреженностью активации и потенциально влиятельными факторами. В данной статье мы представляем комплексное исследование количественных свойств масштабирования и влиятельных факторов разреженности активации в LLM только с декодером на основе трансформера. Конкретно, мы предлагаем PPL-p% разреженность, точную и ориентированную на производительность метрику разреженности активации, применимую к любой функции активации. Через обширные эксперименты мы обнаруживаем несколько важных явлений. Во-первых, различные функции активации демонстрируют сопоставимую производительность, но противоположные тенденции разреженности во время обучения. Соотношение активации (т.е. 1 - соотношение разреженности) развивается как сходящаяся увеличивающаяся степенная функция и убывающая логарифмическая степенная функция с количеством обучающих данных для LLM с активацией SiLU и ReLU соответственно. Это демонстрирует, что ReLU более эффективна как функция активации, чем SiLU, и может использовать больше обучающих данных для улучшения разреженности активации. Во-вторых, соотношение активации линейно увеличивается с отношением ширины к глубине ниже определенной узкой точки, указывая на потенциальное преимущество более глубокой архитектуры при фиксированном параметрическом масштабе. Наконец, при сходных отношениях ширины к глубине мы обнаруживаем, что предельное значение разреженности активации слабо изменяется с параметрическим масштабом, т.е. образцы активации в LLM нечувствительны к параметрическому масштабу. Эти эмпирические законы в отношении LLM с более высокой разреженностью активации имеют важные последствия для повышения эффективности и интерпретируемости LLM.
Прошедший год стал свидетелем значительного прогресса в области моделей языка на основе видео. Однако остается нерешенной проблема разработки объединенной модели для понимания как коротких, так и длинных видео. Большинство существующих видео LLM не способны обрабатывать видео продолжительностью в час, в то время как методы, предназначенные для длинных видео, часто оказываются неэффективными для коротких видео и изображений. В данной статье мы выделяем ключевую проблему в избыточном контенте в видео. Для решения этой проблемы мы предлагаем новую стратегию пулинга, которая одновременно обеспечивает сжатие токенов и агрегацию визуальных признаков, осведомленных о инструкциях. Наша модель называется PPLLaVA (Prompt-guided Pooling LLaVA). Конкретно, PPLLaVA состоит из трех основных компонентов: выравнивание визуальных подсказок на основе CLIP, которое извлекает визуальную информацию, соответствующую инструкциям пользователя, пулинг, направляемый подсказками, который сжимает визуальную последовательность до произвольных масштабов с использованием пулинга в стиле свертки, и расширение контекста клипа, предназначенное для длинных подсказок, типичных для визуального диалога. Более того, наш код также интегрирует самые передовые методы оптимизации прямых предпочтений (DPO) для видео и визуальное переплетение обучения. Обширные эксперименты подтвердили производительность нашей модели. Обладая высокой пропускной способностью и всего 1024 визуальными контекстами, PPLLaVA достигает лучших результатов на изображениях как видео LLM, обеспечивая при этом передовую производительность на различных видео-тестах, превосходя в задачах от генерации подписей до вопросов с множественным выбором и обрабатывая видео продолжительностью от секунд до часов. Код доступен по ссылке https://github.com/farewellthree/PPLLaVA.
При разработке больших языковых моделей (LLM) обучение с подкреплением на основе обратной связи от человека (RLHF) играет решающую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на дивергенцию Кульбака-Лейблера (KL) между текущей политикой и замороженной начальной политикой в качестве эталона, который добавляется в виде штрафа в алгоритмы оптимизации политики, такие как Проксимальная оптимизация политики (PPO). Хотя это ограничение предотвращает отклонение моделей слишком далеко от начальной точки, оно ограничивает исследование пространства вознаграждений, уменьшая способность модели обнаруживать более качественные решения. В результате оптимизация политики часто застревает в узкой области пространства параметров, что приводит к неоптимальному согласованию и производительности. В данной статье представлен метод SALSA (Soup-based Alignment Learning for Stronger Adaptation), новый подход, разработанный для преодоления этих ограничений путем создания более гибкой и лучше расположенной эталонной модели путем усреднения весового пространства двух независимых моделей с применением надзорного обучения с тонкой настройкой (SFT). Эта модельная смесь позволяет более значительное отклонение в дивергенции KL и исследование многообещающей области пространства решений без ущерба стабильности. Используя эту более надежную эталонную модель, SALSA способствует более глубокому исследованию, достижению более высоких вознаграждений и улучшению устойчивости модели, обобщению вне распределения и производительности. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным бенчмаркам (MT-Bench, Arena-Hard, UltraFeedback), где он последовательно превосходит PPO, способствуя более глубокому исследованию и достижению превосходного согласования в LLM.
Мы представляем Представления Изображения-Цели (IGOR), нацеленные на изучение объединенного, семантически последовательного пространства действий между человеком и различными роботами. Через это объединенное скрытое пространство действий IGOR обеспечивает передачу знаний среди данных о деятельности масштабных роботов и людей. Мы достигаем этого путем сжатия визуальных изменений между начальным изображением и его целевым состоянием в скрытые действия. IGOR позволяет нам генерировать метки скрытых действий для видеоданных масштаба Интернета. Это объединенное скрытое пространство действий обеспечивает обучение основных политик и моделей мира по широкому спектру задач, выполняемых как роботами, так и людьми. Мы демонстрируем, что: (1) IGOR изучает семантически последовательное пространство действий как для людей, так и для роботов, характеризуя различные возможные движения объектов, представляющих знание о физическом взаимодействии; (2) IGOR может "мигрировать" движения объекта из одного видео в другие видео, даже между людьми и роботами, совместно используя модель скрытых действий и модель мира; (3) IGOR может научиться выравнивать скрытые действия с естественным языком через модель основной политики и интегрировать скрытые действия с моделью политики низкого уровня для достижения эффективного управления роботом. Мы считаем, что IGOR открывает новые возможности для передачи знаний от человека к роботу и управления.
Понимание и смягчение потенциальных рисков, связанных с базовыми моделями (FMs), зависит от разработки эффективных методов интерпретируемости. Разреженные автокодировщики (SAEs) выступают как многообещающий инструмент для разъяснения представлений FM, однако они испытывают затруднения в захвате редких, но важных концепций в данных. Мы представляем Специализированные Разреженные Автокодировщики (SSAEs), разработанные для выявления этих ускользающих особенностей "темной материи", фокусируясь на конкретных поддоменах. Мы представляем практический рецепт для обучения SSAEs, демонстрируя эффективность плотного извлечения для выбора данных и преимущества наклоненной эмпирической минимизации риска в качестве цели обучения для улучшения восприятия концепции. Наша оценка SSAEs по стандартным метрикам, таким как последующая непонятность и L_0 разреженность, показывает, что они эффективно захватывают концепции хвостов поддоменов, превосходя возможности универсальных SAEs. Мы демонстрируем практическую полезность SSAEs в кейс-стади на наборе данных Bias in Bios, где SSAEs достигают увеличения точности классификации худшей группы на 12,5\%, когда применяются для удаления ложной информации о поле. SSAEs предоставляют мощную новую линзу для вглядывания во внутренние механизмы FMs в поддоменах.
Мы представляем Multi-expert Prompting, новаторское усовершенствование ExpertPrompting (Xu et al., 2023), разработанное для улучшения генерации большой языковой модели (LLM). Конкретно, оно направляет LLM на выполнение входной инструкции путем моделирования нескольких экспертов, агрегации их ответов и выбора лучшего из индивидуальных и агрегированных ответов. Этот процесс выполняется в рамках одной цепочки мыслей через наши семь тщательно разработанных подзадач, вытекающих из техники номинальной группы (Ven и Delbecq, 1974), хорошо установленной рамки принятия решений. Наши оценки показывают, что Multi-expert Prompting значительно превосходит ExpertPrompting и сравнимые базовые уровни в улучшении правдивости, фактичности, информативности и полезности ответов, снижая токсичность и вредность. Кроме того, он достигает передового уровня правдивости, превосходя лучший базовый уровень на 8,69% с ChatGPT. Multi-expert Prompting эффективен, объясним и высоко адаптивен к различным сценариям, устраняя необходимость в ручном создании подсказок.
В данной статье описывается эффективный алгоритм решения шумных линейных обратных задач с использованием предварительно обученных моделей диффузии. Расширяя парадигму неявных моделей диффузии для устранения шума (DDIM), мы предлагаем ограниченные неявные модели диффузии (CDIM), которые модифицируют обновления диффузии для накладывания ограничения на конечный вывод. Для обратных задач без шума CDIM точно удовлетворяет ограничениям; в случае наличия шума мы обобщаем CDIM для удовлетворения точного ограничения на распределение остаточного шума. Эксперименты по различным задачам и метрикам показывают высокую производительность CDIM, с аналогичным ускорением вывода по сравнению с неограниченными DDIM: в 10-50 раз быстрее, чем предыдущие условные методы диффузии. Мы демонстрируем универсальность нашего подхода на множестве задач, включая супер-разрешение, устранение шума, заполнение пропусков, размытие и восстановление трехмерных облаков точек.
Большие мультимодальные модели (LMM) недавно продемонстрировали значительный прогресс в понимании изображений с текстовым содержанием, однако они все еще испытывают трудности с комплексными, многостраничными документами, богатыми визуальным контентом. Традиционные методы, использующие парсеры документов для генерации с увеличением поиска, сталкиваются с ограничениями производительности и эффективности, в то время как прямая подача всех страниц на вход LMM приводит к неэффективности, особенно при работе с длинными документами. В данной работе мы представляем новую структуру под названием LoRA-Контекстуализация Адаптации Больших мультимодальных моделей (LoCAL), которая расширяет возможности любой LMM для поддержки понимания длинных документов. Мы показываем, что LMM могут эффективно выступать в качестве мультимодальных поисковиков, извлекая соответствующие страницы для ответа на вопросы пользователей на основе этих страниц. LoCAL реализован с помощью двух конкретных адаптеров LMM: один для извлечения страниц с доказательствами и другой для ответов на вопросы. Эмпирические результаты демонстрируют передовую производительность на общедоступных бенчмарках, подтверждая эффективность LoCAL.
Мы представляем Swan, семейство моделей встраивания, сосредоточенных вокруг арабского языка, охватывающих как маломасштабные, так и крупномасштабные сценарии использования. Swan включает два варианта: Swan-Small, основанный на ARBERTv2, и Swan-Large, построенный на ArMistral, предварительно обученной крупной арабской языковой модели. Для оценки этих моделей мы предлагаем ArabicMTEB, обширный набор тестов, оценивающий производительность встраивания текста на арабском языке в кросс-языковом, мультидиалектальном, мультидоменном и мультикультурном контекстах, охватывающий восемь разнообразных задач и 94 набора данных. Swan-Large достигает передовых результатов, превосходя Multilingual-E5-large в большинстве арабских задач, в то время как Swan-Small последовательно превосходит Multilingual-E5 base. Наши обширные оценки демонстрируют, что модели Swan обладают диалектной и культурной осведомленностью, превосходя в различных арабских областях и обеспечивая значительную экономическую эффективность. Эта работа значительно продвигает область моделирования арабского языка и предоставляет ценные ресурсы для будущих исследований и приложений в арабской обработке естественного языка. Наши модели и тестовый набор будут общедоступны для исследований.