Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы исследуем, насколько современные модели больших языков (LLM) могут заниматься исследованиями, являющимися ключевой способностью в обучении с подкреплением и принятии решений. Мы сосредотачиваемся на первоначальной производительности существующих LLM без вмешательства в обучение. Мы используем LLM в качестве агентов в простых средах многоруких бандитов, полностью определяя описание среды и историю взаимодействия в контексте, т.е. внутри подсказки LLM. Мы проводим эксперименты с GPT-3.5, GPT-4 и Llama2, используя различные дизайны подсказок, и обнаруживаем, что модели не надежно занимаются исследованиями без существенных вмешательств: i) Во всех наших экспериментах только одна конфигурация привела к удовлетворительному исследовательскому поведению: GPT-4 с цепочкой мыслей и внешне суммированной историей взаимодействия, представленной в виде достаточной статистики; ii) Все остальные конфигурации не привели к надежному исследовательскому поведению, включая те, у которых есть цепочка мыслей, но несуммированная история. Хотя эти результаты можно рассматривать положительно, они указывают на то, что внешняя суммаризация - что может быть невозможно в более сложных средах - важна для получения желаемого поведения от агентов LLM. Мы приходим к выводу, что для того чтобы дать возможность агентам, основанным на LLM, принимать решения в сложных средах, могут потребоваться нетривиальные алгоритмические вмешательства, такие как настройка или курирование набора данных.
Предварительно обученные большие языковые модели (LLM) в настоящее время являются передовыми в решении подавляющего большинства задач обработки естественного языка. В то время как многие прикладные приложения по-прежнему требуют настройки для достижения удовлетворительного уровня производительности, многие из них находятся в режиме низких данных, что затрудняет настройку. Для решения этой проблемы мы предлагаем LLM2LLM, целевую и итеративную стратегию аугментации данных, которая использует учительскую LLM для улучшения небольшого исходного набора данных путем добавления дополнительных данных, которые могут быть использованы для настройки на конкретную задачу. LLM2LLM (1) настраивает базовую студенческую LLM на исходных исходных данных, (2) оценивает и извлекает данные, на которых модель ошибается, и (3) использует учительскую LLM для генерации синтетических данных на основе этих неправильных данных, которые затем добавляются обратно в обучающие данные. Этот подход усиливает сигнал от неправильно предсказанных данных LLM во время обучения и вновь интегрирует их в набор данных для сосредоточения на более сложных примерах для LLM. Наши результаты показывают, что LLM2LLM значительно улучшает производительность LLM в режиме низких данных, превосходя как традиционную настройку, так и другие базовые методы аугментации данных. LLM2LLM снижает зависимость от трудоемкой кураторской работы с данными и открывает путь к более масштабным и производительным решениям LLM, позволяя нам решать задачи и области с ограниченными данными. Мы достигаем улучшений до 24,2% на наборе данных GSM8K, 32,6% на CaseHOLD, 32,0% на SNIPS, 52,6% на TREC и 39,8% на SST-2 по сравнению с обычной настройкой в режиме низких данных с использованием студенческой модели LLaMA2-7B.
Мы представляем InternVideo2, новую модель основы видео (ViFM), достигающую передовых показателей в распознавании действий, задачах видео-текста и видео-центрического диалога. Наш подход использует прогрессивную парадигму обучения, объединяющую различные фреймворки обучения без учителя или слабо-учителя через маскированную реконструкцию видео-токенов, кросс-модальное контрастное обучение и предсказание следующего токена. Различные этапы обучения направляют нашу модель на захват различных уровней структуры и семантической информации через различные предварительные задачи. На уровне данных мы придаем приоритет пространственно-временной согласованности путем семантического сегментирования видео и создания подписей видео-аудио-речи. Это улучшает согласование между видео и текстом. Мы масштабируем как данные, так и размер модели для нашего InternVideo2. Через обширные эксперименты мы подтверждаем наши концепции и демонстрируем передовые результаты на более чем 60 видео- и аудио-задачах. Особенно стоит отметить, что наша модель превосходит другие на различных бенчмарках по подписям, диалогу и пониманию длинных видео, подчеркивая ее способность рассуждать и понимать длинные временные контексты. Код и модели доступны на https://github.com/OpenGVLab/InternVideo2/.
В данном исследовании мы представляем методологию анимации человеческого изображения, используя 3D параметрическую модель человека в рамках латентной диффузионной структуры для улучшения выравнивания формы и управления движением в текущих генеративных техниках человека. Методология использует модель SMPL (Skinned Multi-Person Linear) в качестве 3D параметрической модели человека для установления унифицированного представления формы тела и позы. Это облегчает точный захват сложной геометрии человека и характеристик движения из исходных видео. Конкретно, мы интегрируем отрендеренные изображения глубины, нормальные карты и семантические карты, полученные из последовательностей SMPL, вместе с управлением движением на основе скелета, чтобы обогатить условия модели латентной диффузии всесторонними 3D формой и детальными атрибутами позы. Модуль многослойного слияния движения, интегрирующий механизмы самовнимания, используется для слияния формы и латентных представлений движения в пространственной области. Представляя 3D параметрическую модель человека в качестве управления движением, мы можем выполнять параметрическое выравнивание формы тела человека между исходным видео и видео-референсом. Экспериментальные оценки, проведенные на эталонных наборах данных, демонстрируют превосходную способность методологии генерировать высококачественные анимации человека, точно захватывающие как вариации позы, так и формы. Более того, наш подход также обладает превосходными возможностями обобщения на предложенном диком наборе данных. Страница проекта: https://fudan-generative-vision.github.io/champ.
Приложения в реальном мире часто требуют большой галереи 3D-объектов, которые соответствуют определенной теме. Несмотря на значительные достижения в общем создании 3D-контента из текста или изображения, синтезирование настраиваемых 3D-объектов, соответствующих общей теме входных 3D-образцов, остается открытой и сложной проблемой. В данной работе мы представляем ThemeStation, новый подход к генерации 3D-объектов с учетом темы. ThemeStation синтезирует настраиваемые 3D-объекты на основе нескольких заданных образцов с двумя целями: 1) единство для создания 3D-объектов, тематически соответствующих заданным образцам, и 2) разнообразие для генерации 3D-объектов с высокой степенью вариаций. Для этого мы разрабатываем двухэтапную структуру, которая сначала создает концептуальное изображение, а затем проходит этап моделирования 3D с учетом справочной информации. Мы предлагаем новую потерю двойного сжатия оценки (DSD), чтобы совместно использовать априорные знания как из входных образцов, так и из синтезированного концептуального изображения. Обширные эксперименты и пользовательские исследования подтверждают, что ThemeStation превосходит предыдущие работы в создании разнообразных 3D-моделей с учетом темы высокого качества. ThemeStation также позволяет различные приложения, такие как управляемая генерация 3D-объектов.
В данной статье мы предлагаем VidLA - подход к выравниванию видео и языка в масштабе. Существуют два основных ограничения предыдущих подходов к выравниванию видео и языка. Во-первых, они не учитывают как краткосрочные, так и долгосрочные временные зависимости и обычно используют сложные иерархические глубокие сетевые архитектуры, которые сложно интегрировать с существующими предварительно обученными моделями основы изображения-текста. Для эффективного преодоления этого ограничения мы предлагаем простую архитектуру сети и использование набора данныхных токенов, работающих на разных временных разрешениях иерархически, учитывая временную иерархическую природу видео. Применяя простую двухбашенную архитектуру, мы можем инициализировать нашу модель видео-языка с предварительно обученными моделями основы изображения-текста, тем самым улучшая конечную производительность. Во-вторых, существующие работы по выравниванию видео и языка испытывают трудности из-за отсутствия семантически выровненных обширных обучающих данных. Чтобы преодолеть это, мы используем недавние LLM для составления крупнейшего на сегодняшний день набора данных видео-языка с лучшим визуальным закреплением. Более того, в отличие от существующих наборов данных видео-текст, содержащих только короткие клипы, наш набор данных обогащен видеоклипами различной длительности, чтобы помочь нашим временным иерархическим данным токенам извлекать лучшие представления на различных временных масштабах. В целом, эмпирические результаты показывают, что наш предложенный подход превосходит существующие методы на нескольких бенчмарках поиска, особенно на более длинных видео, и конкурентоспособен на бенчмарках классификации.
Трансформеры широко используют сети внимания для смешивания последовательностей и MLP для смешивания каналов, играя ключевую роль в достижении прорывов в различных областях. Однако недавняя литература выделяет проблемы с сетями внимания, включая низкое индуктивное смещение и квадратичную сложность в отношении длины входной последовательности. Модели пространства состояний (SSM), такие как S4 и другие (Hippo, Глобальные свертки, жидкий S4, LRU, Mega и Mamba), появились для решения вышеуказанных проблем, чтобы помочь обрабатывать более длинные последовательности. Mamba, будучи самым передовым SSM, имеет проблему стабильности при масштабировании на большие сети для наборов данных компьютерного зрения. Мы предлагаем SiMBA, новую архитектуру, которая вводит Einstein FFT (EinFFT) для моделирования каналов с помощью специфических вычислений собственных значений и использует блок Mamba для моделирования последовательности. Обширные исследования производительности на изображениях и временных рядах демонстрируют, что SiMBA превосходит существующие SSM, сокращая разрыв в производительности с передовыми трансформерами. Значительно, SiMBA утверждает себя как новейший SSM на ImageNet и бенчмарках обучения передачи, таких как Stanford Car и Flower, а также бенчмарках обучения задач, а также на семи наборах данных временных рядов. Страница проекта доступна на этом веб-сайте ~https://github.com/badripatro/Simba.
Мы представляем метод DragAPart, который, имея изображение и набор перетаскиваний в качестве входных данных, может создать новое изображение того же объекта в новом состоянии, совместимом с действием перетаскиваний. В отличие от предыдущих работ, сосредоточенных на перемещении объектов, DragAPart предсказывает взаимодействия на уровне частей, такие как открытие и закрытие ящика. Мы изучаем эту проблему как замену для обучения общего модели движения, не ограниченного конкретной кинематической структурой или категорией объектов. Для этого мы начинаем с предварительно обученного генератора изображений и донастраиваем его на новом синтетическом наборе данных, Drag-a-Move, который мы представляем. В сочетании с новым кодированием для перетаскиваний и рандомизацией набора данных, новая модель хорошо обобщается на реальные изображения и различные категории. По сравнению с предыдущими генераторами, управляемыми движением, мы демонстрируем гораздо лучшее понимание движения на уровне частей.
Современные большие языковые модели (LLM) способны следовать длинным и сложным инструкциям, позволяющим выполнять разнообразные пользовательские задачи. Однако, несмотря на то, что модели информационного поиска (IR) используют LLM в качестве основы своих архитектур, почти все они все еще принимают только запросы в качестве входных данных, без инструкций. Для небольшого числа недавних моделей, которые принимают инструкции, неясно, как они их используют. Мы представляем наш набор данных FollowIR, который содержит строгий бенчмарк оценки инструкций, а также набор данных для помощи моделям IR научиться лучше следовать реальным инструкциям. FollowIR продолжает долгую историю конференций TREC: так как TREC предоставляет человеческим аннотаторам инструкции (также известные как повествования) для определения релевантности документов, модели IR также должны быть способны понимать и определять релевантность на основе этих подробных инструкций. Наш бенчмарк оценки начинается с трех тщательно оцененных коллекций TREC и изменяет инструкции аннотаторов, повторно аннотируя релевантные документы. Через этот процесс мы можем измерить, насколько хорошо модели IR следуют инструкциям, используя новую схему оценки попарно. Наши результаты показывают, что существующие модели поиска не умеют правильно использовать инструкции, используя их для базовых ключевых слов и испытывая трудности в понимании информации в длинной форме. Однако мы показываем, что модели IR могут научиться следовать сложным инструкциям: наша новая модель FollowIR-7B показывает значительные улучшения (более 13%) после донастройки на нашем наборе данных.
Дословная обратная связь представляет собой ценный репозиторий пользовательских опытов, мнений и требований, необходимых для разработки программного обеспечения. Эффективное и эффективное извлечение ценных идей из таких данных представляет собой сложную задачу. В данной статье представлен Allhands, инновационная аналитическая платформа, разработанная для анализа обратной связи в крупном масштабе через естественный языковой интерфейс, используя большие языковые модели (LLM). Allhands придерживается обычного рабочего процесса анализа обратной связи, начиная с классификации и моделирования тем обратной связи для их преобразования в структурно дополненный формат, интегрируя LLM для повышения точности, надежности, обобщения и удобства использования. Впоследствии используется агент LLM для интерпретации разнообразных вопросов пользователей на естественном языке по обратной связи, перевода их в код Python для выполнения и предоставления комплексных мультимодальных ответов, включая текст, код, таблицы и изображения. Мы оцениваем Allhands на трех различных наборах данных обратной связи. Эксперименты показывают, что Allhands достигает превосходной эффективности на всех этапах анализа, включая классификацию и моделирование тем, в конечном итоге предоставляя пользователям опыт "спроси меня что угодно" с полным, правильным и читаемым человеком ответом. На наш взгляд, Allhands является первой комплексной платформой анализа обратной связи, которая поддерживает разнообразные и настраиваемые требования для извлечения идей через естественный языковой интерфейс.
Недавние подходы к генерации 3D из текста производят впечатляющие результаты, но требуют трудоемкой оптимизации, занимающей до часа на один запрос. Амортизированные методы, такие как ATT3D, оптимизируют несколько запросов одновременно для улучшения эффективности, обеспечивая быструю синтез 3D из текста. Однако они не могут захватить детали геометрии и текстуры с высокой частотой и испытывают затруднения с масштабированием на большие наборы запросов, поэтому плохо обобщаются. Мы представляем LATTE3D, решающий эти ограничения для достижения быстрой, высококачественной генерации на значительно большем наборе запросов. Ключевыми элементами нашего метода являются 1) построение масштабируемой архитектуры и 2) использование 3D данных во время оптимизации через 3D-осознанные априорные распределения диффузии, регуляризацию формы и инициализацию модели для достижения устойчивости к разнообразным и сложным обучающим запросам. LATTE3D амортизирует как генерацию нейронных полей, так и текстурированной поверхности для создания высокодетализированных текстурированных сеток за один прямой проход. LATTE3D генерирует 3D объекты за 400 мс и может быть дополнительно улучшен быстрой оптимизацией на этапе тестирования.
Мы представляем новую парадигму в оптимизации компилятора, основанную на больших языковых моделях с обратной связью компилятора для оптимизации размера кода LLVM. Модель принимает неоптимизированный LLVM IR на входе и генерирует оптимизированный IR, лучшие проходы оптимизации и количество инструкций как неоптимизированного, так и оптимизированного IR. Затем мы компилируем входные данные с сгенерированными проходами оптимизации и оцениваем, является ли предсказанное количество инструкций правильным, сгенерированный IR компилируем и соответствует ли скомпилированный код. Мы предоставляем эту обратную связь обратно LLM и даем ему еще один шанс для оптимизации кода. Этот подход добавляет дополнительное улучшение на 0.53% по сравнению с -Oz к исходной модели. Несмотря на то, что добавление большего количества информации с обратной связью кажется интуитивным, простые методы выборки достигают гораздо более высокой производительности при наличии 10 или более образцов.