Ежедневно отобранные исследовательские статьи по ИИ с переводами
Диффузионные модели достигли значительных успехов в генерации изображений и видео. В данной работе мы демонстрируем, что диффузионные модели также способны генерировать высокопроизводительные параметры нейронных сетей. Наш подход прост: он использует автоэнкодер и стандартную латентную диффузионную модель. Автоэнкодер извлекает латентные представления подмножества обученных параметров сети. Затем диффузионная модель обучается синтезировать эти латентные представления параметров из случайного шума. После этого она генерирует новые представления, которые передаются через декодер автоэнкодера, и на выходе получаются готовые к использованию новые подмножества параметров сети. На различных архитектурах и наборах данных наш процесс диффузии стабильно генерирует модели, которые по производительности сопоставимы или превосходят обученные сети, при минимальных дополнительных затратах. Примечательно, что мы эмпирически обнаружили, что сгенерированные модели работают иначе по сравнению с обученными сетями. Наши результаты стимулируют дальнейшее исследование универсального использования диффузионных моделей.
Мы представляем Обобщённую Настройку по Инструкциям (Generalized Instruction Tuning, GLAN) — универсальный и масштабируемый метод настройки крупных языковых моделей (LLM) на выполнение инструкций. В отличие от предыдущих работ, которые полагаются на начальные примеры или существующие наборы данных для создания данных для настройки, GLAN исключительно использует заранее подготовленную таксономию человеческих знаний и способностей в качестве входных данных и генерирует крупномасштабные синтетические данные с инструкциями, охватывающие все дисциплины. В частности, вдохновляясь систематической структурой системы образования, мы создаём таксономию, разбивая человеческие знания и способности на различные области, подразделы и, в конечном итоге, отдельные дисциплины полуавтоматически с помощью LLM. Затем мы генерируем исчерпывающий список предметов для каждой дисциплины и разрабатываем учебный план, адаптированный для каждого предмета, снова используя LLM. Благодаря детализированным ключевым концепциям в каждом занятии учебного плана, мы можем генерировать разнообразные инструкции с широким охватом всего спектра человеческих знаний и навыков. Многочисленные эксперименты на крупных языковых моделях (например, Mistral) демонстрируют, что GLAN превосходит в нескольких аспектах: от математического мышления, программирования, академических экзаменов и логического рассуждения до общего следования инструкциям, без использования специфических обучающих данных для этих задач. Кроме того, GLAN позволяет легко адаптироваться, и новые области или навыки могут быть добавлены простым включением нового узла в нашу таксономию.
Большинство моделей для создания видеоподписей предназначены для обработки коротких видеоклипов длительностью в несколько секунд и вывода текста, описывающего базовые визуальные концепции (например, объекты, сцены, элементарные действия). Однако большинство реальных видео длятся минуты или часы и имеют сложную иерархическую структуру, охватывающую различные временные гранулярности. Мы предлагаем Video ReCap — рекурсивную модель для создания видеоподписей, которая способна обрабатывать видео входных данных с существенно разной длительностью (от 1 секунды до 2 часов) и выводить видеоподписи на нескольких уровнях иерархии. Рекурсивная архитектура, объединяющая видео и язык, использует синергию между различными уровнями иерархии видео и позволяет эффективно обрабатывать часовые видео. Мы применяем схему обучения с использованием учебного плана для изучения иерархической структуры видео, начиная с подписей на уровне клипов, описывающих элементарные действия, затем переходя к описаниям на уровне сегментов и завершая генерацией сводок для часовых видео. Кроме того, мы представляем набор данных Ego4D-HCap, расширяя Ego4D 8 267 вручную собранными сводками для длинных видео. Наша рекурсивная модель может гибко генерировать подписи на разных уровнях иерархии, а также быть полезной для других сложных задач понимания видео, таких как VideoQA на EgoSchema. Данные, код и модели доступны по адресу: https://sites.google.com/view/vidrecap.
Мы представляем VideoPrism — универсальный видеокодер, который решает разнообразные задачи понимания видео с использованием одной замороженной модели. VideoPrism предварительно обучается на гетерогенном корпусе, содержащем 36 миллионов пар видео-описаний высокого качества и 582 миллиона видеоклипов с зашумленным параллельным текстом (например, транскриптами ASR). Наш подход к предварительному обучению улучшает метод маскированного автоэнкодинга за счет глобально-локального дистилляции семантических видеовложений и схемы перестановки токенов, что позволяет VideoPrism сосредоточиться в первую очередь на видеомодальности, одновременно используя ценный текст, связанный с видео. Мы тщательно тестируем VideoPrism на четырех широких группах задач понимания видео — от ответов на вопросы по веб-видео до компьютерного зрения для науки — и достигаем наилучших результатов на 30 из 33 бенчмарков для понимания видео.
Для того чтобы ассистенты на основе больших языковых моделей (LLM) могли эффективно адаптироваться к изменяющимся информационным потребностям, необходимо обновлять их фактические знания путем продолжения обучения на новых данных. Стандартный подход для этого включает продолжение предварительного обучения на новых документах с последующей настройкой на инструкциях с использованием пар вопрос-ответ (QA). Однако мы обнаружили, что LLM, обученные по этому методу, испытывают трудности с ответами на вопросы, несмотря на минимизацию перплексии документов. Мы выяснили, что пары QA, как правило, более просты, тогда как документы сложнее, объединяя множество фактов в сложной манере. Поэтому мы предполагаем, что полезно знакомить LLM с парами QA до продолжения предварительного обучения на документах, чтобы процесс кодирования знаний из сложных документов учитывал, как эти знания извлекаются через вопросы. На основе этого мы предлагаем метод предварительной настройки на инструкциях (PIT), который выполняет настройку на вопросах перед обучением на документах. Это отличается от стандартной настройки на инструкциях, которая учится извлекать знания после обучения на документах. Многочисленные эксперименты и исследования показывают, что PIT значительно улучшает способность LLM усваивать знания из новых документов, превосходя стандартную настройку на инструкциях на 17,8%.
Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP) и продемонстрировали потенциал в различных сферах, однако их возможности в финансах остаются недостаточно изученными из-за отсутствия тщательных оценок и сложности финансовых задач. Это, наряду с быстрым развитием LLM, подчеркивает острую необходимость в систематическом бенчмарке для оценки их финансовых возможностей. В данной статье мы представляем FinBen — первый всесторонний открытый бенчмарк, специально разработанный для глубокой оценки способностей LLM в финансовой области. FinBen включает 35 наборов данных, охватывающих 23 финансовые задачи, организованные в три уровня сложности, вдохновленные теорией Кеттелла-Хорна-Кэрролла, чтобы оценить когнитивные способности LLM в индуктивном рассуждении, ассоциативной памяти, количественном анализе, кристаллизованном интеллекте и других аспектах. Наша оценка 15 репрезентативных LLM, включая GPT-4, ChatGPT и новейшую Gemini, выявила их сильные и слабые стороны в финансовой сфере. Результаты показывают, что GPT-4 лидирует в количественном анализе, извлечении данных, численном рассуждении и торговле акциями, в то время как Gemini выделяется в генерации и прогнозировании; однако обе модели испытывают трудности с комплексным извлечением данных и прогнозированием, что указывает на явную необходимость целенаправленных улучшений. Тюнинг на инструкциях улучшает производительность в простых задачах, но не способствует значительному улучшению сложного рассуждения и прогнозирования. FinBen стремится к непрерывной оценке LLM в финансах, способствуя развитию ИИ за счет регулярного обновления задач и моделей.
В данной статье мы предлагаем алгоритм, позволяющий совместно уточнять позу камеры и геометрию сцены, представленную в виде разложенного низкорангового тензора, используя только 2D-изображения в качестве обучающих данных. Сначала мы проводим пилотное исследование на основе одномерного сигнала и связываем полученные результаты с трехмерными сценариями, где наивная совместная оптимизация позы на основе воксельных NeRF может легко привести к субоптимальным решениям. Кроме того, на основе анализа частотного спектра мы предлагаем применять сверточные гауссовы фильтры к 2D и 3D полям излучения для поэтапного обучения от грубого к точному, что позволяет совместно оптимизировать позу камеры. Используя свойство разложения в низкоранговом тензоре, наш метод достигает эффекта, эквивалентного полному 3D-свертыванию, с минимальными вычислительными затратами. Для повышения устойчивости и стабильности совместной оптимизации мы также предлагаем методы сглаженного 2D-обучения, случайного масштабирования параметров ядра и маски потерь, ориентированной на границы. Многочисленные количественные и качественные оценки демонстрируют, что предложенный нами подход обеспечивает превосходную производительность в синтезе новых видов, а также быстрое сходимость при оптимизации.
В данной статье представлена нейронная архитектура MVDiffusion++ для реконструкции 3D-объектов, которая синтезирует плотные и высококачественные изображения объекта на основе одного или нескольких изображений без информации о положении камеры. MVDiffusion++ достигает превосходной гибкости и масштабируемости благодаря двум удивительно простым идеям: 1) «архитектура без использования поз», в которой стандартное самовнимание между 2D-латентными признаками изучает 3D-согласованность между произвольным количеством условных и генерируемых видов без явного использования информации о положении камеры; и 2) «стратегия выборочного отбрасывания видов», которая отбрасывает значительное количество выходных видов во время обучения, что уменьшает объем памяти, необходимый для обучения, и позволяет синтезировать плотные и высококачественные изображения на этапе тестирования. Для обучения используется набор данных Objaverse, а для оценки — Google Scanned Objects с использованием стандартных метрик синтеза новых видов и 3D-реконструкции, где MVDiffusion++ значительно превосходит современные методы. Также демонстрируется пример применения текста к 3D путем комбинирования MVDiffusion++ с генеративной моделью, преобразующей текст в изображение.
Ручное создание текстур для 3D-мешей является трудоемким процессом даже для опытных создателей визуального контента. Мы предлагаем быстрый подход для автоматического текстурирования входного 3D-меша на основе текстового запроса, предоставленного пользователем. Важно, что наш подход разделяет освещение и свойства поверхности/отражения в итоговой текстуре, что позволяет корректно переосвещать и визуализировать меш в любых условиях освещения. Мы представляем LightControlNet — новую текстово-изобразительную модель, основанную на архитектуре ControlNet, которая позволяет задавать желаемое освещение в виде управляющего изображения для модели. Наш текстово-текстурный конвейер создает текстуру в два этапа. На первом этапе с помощью LightControlNet генерируется разреженный набор визуально согласованных референсных видов меша. На втором этапе применяется оптимизация текстуры на основе метода Score Distillation Sampling (SDS), которая работает совместно с LightControlNet для повышения качества текстуры и разделения свойств поверхности и освещения. Наш конвейер значительно быстрее предыдущих методов текстово-текстурного преобразования, при этом создавая высококачественные и переосвещаемые текстуры.
Осязание является важной сенсорной модальностью для человека, однако оно еще не было интегрировано в мультимодальные генеративные языковые модели. Это частично связано с трудностями получения естественно-языковых меток для тактильных данных и сложностью согласования тактильных показаний с визуальными наблюдениями и языковыми описаниями. В качестве шага к преодолению этого разрыва данная работа представляет новый набор данных, состоящий из 44 тысяч пар "зрение-осязание", собранных в естественных условиях, с английскими языковыми метками, аннотированными людьми (10%), и текстовыми псевдо-метками, сгенерированными GPT-4V (90%). Мы используем этот набор данных для обучения тактильного кодера, согласованного с визуальным и языковым представлением, для классификации с открытым словарем, а также модели "осязание-зрение-язык" (TVL) для генерации текста с использованием обученного кодера. Результаты показывают, что благодаря включению осязания модель TVL улучшает согласование "осязание-зрение-язык" (+29% точности классификации) по сравнению с существующими моделями, обученными на любой паре этих модальностей. Хотя лишь небольшая часть набора данных была аннотирована людьми, модель TVL демонстрирует улучшенное понимание визуально-тактильных связей по сравнению с GPT-4V (+12%) и открытыми моделями "зрение-язык" (+32%) на новом бенчмарке для понимания "осязание-зрение". Код и данные: https://tactile-vlm.github.io.
Заметные достижения в области мультимодальных больших языковых моделей (MLLMs) не сделали их неуязвимыми для проблем, особенно в контексте обработки обманчивой информации в запросах, что приводит к генерации галлюцинированных ответов в таких условиях. Для количественной оценки этой уязвимости мы представляем MAD-Bench — тщательно разработанный бенчмарк, содержащий 850 тестовых примеров, разделенных на 6 категорий, таких как несуществующие объекты, количество объектов, пространственные отношения и визуальные путаницы. Мы проводим всесторонний анализ популярных MLLMs, включая GPT-4V, Gemini-Pro, а также открытые модели, такие как LLaVA-1.5 и CogVLM. Эмпирически мы наблюдаем значительные различия в производительности между GPT-4V и другими моделями; при этом ранее устойчивые модели, настроенные на инструкции, такие как LRV-Instruction и LLaVA-RLHF, неэффективны на этом новом бенчмарке. В то время как GPT-4V достигает точности 75,02% на MAD-Bench, точность любой другой модели в наших экспериментах варьируется от 5% до 35%. Мы также предлагаем решение, которое добавляет дополнительный абзац к обманчивым запросам, чтобы побудить модели задуматься перед ответом на вопрос. Удивительно, но этот простой метод может даже удвоить точность; однако абсолютные значения все еще слишком низки, чтобы быть удовлетворительными. Мы надеемся, что MAD-Bench станет ценным бенчмарком для стимулирования дальнейших исследований, направленных на повышение устойчивости моделей к обманчивым запросам.
В последние годы в области суммаризации новостей из одного документа достигнут значительный прогресс в плане достоверности, что обусловлено исследованиями в области оценки фактической согласованности или галлюцинаций. Мы задаемся вопросом, распространяются ли эти достижения на другие области суммаризации текста. Мы предлагаем новый эталонный метод оценки для тематической суммаризации диалогов, созданный с использованием языковых моделей (LLM) различного размера. Мы предоставляем бинарные аннотации на уровне предложений, созданные людьми, для оценки фактической согласованности этих суммаризаций, а также подробные объяснения для предложений, содержащих фактические ошибки. Наш анализ показывает, что существующие LLM генерируют значительное количество фактических ошибок в области диалогов, независимо от размера модели. С другой стороны, когда LLM, включая GPT-4, используются в качестве бинарных оценщиков фактической согласованности, их результаты оказываются неудовлетворительными, и они уступают современным специализированным метрикам оценки фактической достоверности. Наконец, мы провели анализ типов галлюцинаций с использованием разработанной таксономии ошибок. Мы обнаружили, что в суммаризациях, созданных моделями, присутствуют разнообразные ошибки и их распределения, и что метрики, не основанные на LLM, лучше справляются с выявлением всех типов ошибок, чем оценщики на основе LLM.
Диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям. Однако существующие модели по-прежнему сталкиваются с множеством трудностей при генерации композиций с несколькими объектами. В данной статье мы предлагаем новую структуру для генерации изображений по тексту, не требующую дополнительного обучения и легко адаптируемую, под названием RealCompo, которая призвана объединить преимущества моделей генерации изображений по тексту и по макету для повышения реалистичности и композиционности создаваемых изображений. Предложен интуитивно понятный и инновационный балансировщик, который динамически регулирует влияние двух моделей в процессе удаления шума, позволяя использовать любые модели в режиме plug-and-play без дополнительного обучения. Многочисленные эксперименты показывают, что наш RealCompo стабильно превосходит современные модели генерации изображений по тексту и по макету в задачах создания композиций с несколькими объектами, сохраняя при этом высокий уровень реалистичности и композиционности генерируемых изображений. Код доступен по адресу https://github.com/YangLing0818/RealCompo.