Ежедневно отобранные исследовательские статьи по ИИ с переводами
Предварительное обучение больших языковых моделей (LLM) на больших корпусах текстовых данных теперь является стандартной парадигмой. При использовании этих LLM для многих последующих приложений обычно дополнительно внедряют новые знания (например, актуальные новости или знания в частной области) в предварительно обученную модель либо через RAG-основанный подход, либо через донастройку. Однако оптимальная методология для модели, чтобы усвоить такие новые знания, остается открытым вопросом. В этой статье мы представляем Retrieval Augmented FineTuning (RAFT), метод обучения, который улучшает способность модели отвечать на вопросы в "открытой книге" внутри области применения. В RAFT, имея вопрос и набор извлеченных документов, мы обучаем модель игнорировать те документы, которые не помогают ответить на вопрос, которые мы называем дистракторными документами. RAFT достигает этого, цитируя дословно правильную последовательность из соответствующего документа, которая поможет ответить на вопрос. Это в сочетании с ответом в стиле цепочки мыслей RAFT помогает улучшить способность модели к рассуждению. В областно-специфичном RAG RAFT последовательно улучшает производительность модели на наборах данных PubMed, HotpotQA и Gorilla, представляя методику пост-обучения для улучшения предварительно обученных LLM в области RAG. Код и демонстрация RAFT доступны в открытом доступе на github.com/ShishirPatil/gorilla.
В научных исследованиях и их применении анализ научной литературы играет ключевую роль, поскольку позволяет исследователям строить на основе работ других. Однако быстрый рост научных знаний привел к огромному увеличению научных статей, что делает более глубокий анализ литературы все более сложным и времязатратным. Появление Больших Языковых Моделей (Large Language Models, LLMs) предложило новый способ решения этой проблемы. Известные своими сильными способностями в кратком изложении текстов, LLMs рассматриваются как потенциальный инструмент для улучшения анализа научной литературы. Однако у существующих LLMs есть свои ограничения. Научная литература часто включает в себя широкий спектр мультимодальных элементов, таких как молекулярная структура, таблицы и графики, которые сложно понять и проанализировать для ориентированных на текст LLMs. Эта проблема указывает на неотложную необходимость новых решений, способных полностью понимать и анализировать мультимодальный контент в научной литературе. Чтобы удовлетворить этот спрос, мы представляем Uni-SMART (Universal Science Multimodal Analysis and Research Transformer), инновационную модель, разработанную для глубокого понимания мультимодальной научной литературы. Через строгую количественную оценку в нескольких областях Uni-SMART демонстрирует превосходную производительность по сравнению с ведущими ориентированными на текст LLMs. Кроме того, наше исследование расширяется до практических применений, включая обнаружение нарушений патентов и тонкий анализ графиков. Эти приложения не только подчеркивают адаптивность Uni-SMART, но и его потенциал для революционизации взаимодействия с научной литературой.
Понимание видео большой продолжительности представляет существенное вызов в рамках компьютерного зрения, требующий модели, способной рассуждать над длинными мультимодальными последовательностями. Вдохновленные когнитивным процессом человека при понимании видео большой продолжительности, мы акцентируем внимание на интерактивном рассуждении и планировании, а не только на способности обрабатывать длинные визуальные входы. Мы представляем новую систему на основе агентов, VideoAgent, которая использует большую языковую модель в качестве центрального агента для итеративной идентификации и компиляции ключевой информации для ответа на вопрос, причем модели на основе видения и языка служат инструментами для перевода и извлечения визуальной информации. Оцененный на сложных наборах данных EgoSchema и NExT-QA, VideoAgent достигает нулевой точности 54,1% и 71,3% соответственно при нулевом обучении, используя в среднем всего 8,4 и 8,2 кадра. Эти результаты демонстрируют превосходную эффективность и эффективность нашего метода по сравнению с современными методами, подчеркивая потенциал агентных подходов в продвижении понимания видео большой продолжительности.
Выравнивание больших языковых моделей обычно выполняется поставщиками моделей для добавления или управления поведением, которое является общим или универсально понятным в различных сценариях использования и контекстах. В отличие от этого, в данной статье мы представляем подход и архитектуру, которые позволяют разработчикам приложений настраивать модель под свои конкретные ценности, социальные нормы, законы и другие регулирования, а также управлять потенциально противоречивыми требованиями в контексте. Мы описываем три основных компонента такой архитектуры Alignment Studio: Формировщики, Инструкторы и Аудиторы, которые взаимодействуют для управления поведением языковой модели. Мы иллюстрируем этот подход на примере выравнивания внутреннего чатбота предприятия компании с ее руководящими принципами ведения бизнеса.
В данной статье мы представляем улучшенный подход к спекулятивному декодированию, направленный на повышение эффективности обслуживания больших языковых моделей. Наш метод основан на преимуществах двух устоявшихся техник: классического подхода к спекулятивному декодированию с двумя моделями и более нового подхода с одной моделью, Medusa. Вдохновляясь Medusa, наш метод принимает стратегию с одной моделью для спекулятивного декодирования. Однако наш метод отличается тем, что использует одну легкую концепцию черновика с рекуррентным дизайном зависимостей, сутью похожую на небольшую модель черновика, используемую в классическом спекулятивном декодировании, но без сложностей полной архитектуры трансформера. И благодаря рекуррентной зависимости, мы можем использовать жадный поиск для быстрого фильтрования нежелательных кандидатов с помощью концепции черновика. Результатом является метод, который объединяет простоту дизайна с одной моделью и избегает необходимости создания структуры внимания дерева, зависящей от данных, только для вывода в Medusa. Мы эмпирически демонстрируем эффективность предложенного метода на нескольких популярных открытых языковых моделях, а также проводим всесторонний анализ компромиссов, связанных с принятием этого подхода.
Модели генерации аудио и музыки на основе диффузии обычно создают музыку, конструируя изображение звука (например, мел-спектрограмму) и затем преобразуя его в аудио с помощью модели восстановления фазы или вокодера. Типичные вокодеры, однако, производят монофоническое аудио с более низким разрешением (например, 16-24 кГц), что ограничивает их эффективность. Мы предлагаем MusicHiFi - эффективный стереофонический вокодер высокой верности. Наш метод использует каскад из трех генеративно-состязательных сетей (GAN), которые преобразуют низкоразрешенные мел-спектрограммы в аудио, повышают разрешение аудио путем расширения полосы пропускания и преобразуют в стереофоническое аудио. По сравнению с предыдущими работами, мы предлагаем 1) унифицированную архитектуру генератора и дискриминатора на основе GAN и процедуру обучения для каждого этапа нашего каскада, 2) новый быстрый модуль расширения полосы пропускания, совместимый с быстрым понижением разрешения, и 3) новый быстрый апмиксер монофонии в стерео, обеспечивающий сохранение монофонического контента в выходных данных. Мы оцениваем наш подход с помощью объективных и субъективных прослушиваний и обнаруживаем, что наш подход обеспечивает сравнимое или лучшее качество аудио, лучший контроль пространственной ориентации и значительно более быструю скорость вывода по сравнению с предыдущими работами. Примеры звучания доступны на https://MusicHiFi.github.io/web/.
Восстановление детальных 3D объектов из изображений с одного ракурса остается сложной задачей из-за ограниченной доступной информации. В данной статье мы представляем FDGaussian, новую двухэтапную структуру для восстановления 3D по одному изображению. Недавние методы обычно используют предварительно обученные 2D модели диффузии для генерации правдоподобных новых видов из входного изображения, однако они сталкиваются с проблемами либо несоответствиями между видами, либо отсутствием геометрической точности. Для преодоления этих препятствий мы предлагаем механизм ортогонального разложения плоскости для извлечения 3D геометрических особенностей из 2D входа, что позволяет генерировать согласованные мультивидовые изображения. Более того, мы дополнительно ускоряем передовую технологию Gaussian Splatting, включая эпиполярное внимание для слияния изображений с разных точек зрения. Мы демонстрируем, что FDGaussian генерирует изображения с высокой согласованностью между различными видами и восстанавливает качественные 3D объекты как качественно, так и количественно. Больше примеров можно найти на нашем веб-сайте https://qjfeng.net/FDGaussian/.
Предыдущие усилия в разработке легких моделей в основном сосредоточены на дизайнах на основе сверточных нейронных сетей (CNN) и трансформеров, но сталкиваются с постоянными вызовами. CNN, способные к локальному извлечению признаков, жертвуют разрешением, в то время как трансформеры обеспечивают глобальную охват, но увеличивают вычислительные требования до O(N^2). Этот постоянный компромисс между точностью и эффективностью остается значительным препятствием. Недавно модели пространства состояний (SSM), такие как Mamba, продемонстрировали выдающуюся производительность и конкурентоспособность в различных задачах, таких как языковое моделирование и компьютерное зрение, снижая при этом временную сложность глобального извлечения информации до O(N). Вдохновленные этим, в данной работе предлагается исследовать потенциал визуальных моделей пространства состояний в разработке легких моделей и представить новый эффективный вариант модели под названием EfficientVMamba. Конкретно, наш EfficientVMamba интегрирует подход выборочного сканирования на основе атрофии с помощью эффективного пропуска выборки, составляя строительные блоки, разработанные для использования как глобальных, так и локальных признаков. Кроме того, мы исследуем интеграцию между блоками SSM и свертками, а также представляем эффективный визуальный блок пространства состояний, объединенный с дополнительной ветвью свертки, что дополнительно повышает производительность модели. Экспериментальные результаты показывают, что EfficientVMamba снижает вычислительную сложность, сохраняя конкурентоспособные результаты в различных задачах компьютерного зрения. Например, наш EfficientVMamba-S с 1,3 миллиарда операций с плавающей запятой (FLOPs) улучшает Vim-Ti с 1,5 миллиарда FLOPs на 5,6% точности на наборе данных ImageNet. Код доступен по ссылке: https://github.com/TerryPei/EfficientVMamba.
Воодушевленные растущей доступностью предварительно обученных 2D моделей диффузии, генерация изображения в 3D с использованием метода выборочного дистилляционного сэмплирования (SDS) делает замечательные успехи. Большинство существующих методов объединяют подъем нового вида из 2D моделей диффузии, которые обычно принимают изображение-референс в качестве условия, применяя жесткий L2-надзор за изображением на референтном виде. Однако сильная привязанность к изображению склонна к искажению индуктивных знаний 2D модели диффузии, что часто приводит к плоскому или искаженному созданию 3D. В данной работе мы пересматриваем генерацию изображения в 3D с новой точки зрения и представляем Isotropic3D, конвейер генерации изображения в 3D, который принимает только встраивание изображения CLIP в качестве входных данных. Isotropic3D позволяет оптимизировать изотропно относительно азимутального угла, полагаясь исключительно на потерю SDS. Основа нашей структуры заключается в настройке двухступенчатой модели диффузии. Во-первых, мы настраиваем модель диффузии текста в 3D, заменяя ее текстовый энкодер на изображение, благодаря чему модель приобретает предварительные возможности изображения к изображению. Во-вторых, мы выполняем настройку с использованием нашего Явного Многовидового Внимания (EMA), который объединяет шумные многовидовые изображения с шумоизолированным референтным изображением в качестве явного условия. Встраивание CLIP отправляется в модель диффузии на протяжении всего процесса, в то время как референтные изображения отбрасываются после настройки. В результате, с помощью одного встраивания изображения CLIP, Isotropic3D способен генерировать многовидовые взаимно согласованные изображения и также 3D-модель с более симметричным и аккуратным содержанием, хорошо пропорционированной геометрией, богатой цветной текстурой и меньшим искажением по сравнению с существующими методами генерации изображения в 3D, сохраняя при этом сходство с референтным изображением в значительной степени. Страница проекта доступна по адресу https://isotropic3d.github.io/. Код и модели доступны по адресу https://github.com/pkunliu/Isotropic3D.
Хотя задачи генерации текста в 3D и изображения в 3D получили значительное внимание, одно важное, но мало исследованное поле между ними - это управляемая генерация текста в 3D, на которой мы в основном сосредотачиваемся в данной работе. Для решения этой задачи 1) мы представляем Multi-view ControlNet (MVControl), новую архитектуру нейронной сети, разработанную для улучшения существующих предварительно обученных моделей диффузии с множеством видов путем интеграции дополнительных входных условий, таких как края, глубина, нормаль и карты штрихов. Наше новшество заключается во введении модуля условий, который управляет базовой моделью диффузии, используя как локальные, так и глобальные вложения, которые вычисляются из изображений входных условий и позиций камеры. После обучения MVControl способен предложить руководство диффузией в 3D для генерации 3D на основе оптимизации. И, 2) мы предлагаем эффективный многоэтапный конвейер генерации 3D, который использует преимущества недавних крупных моделей реконструкции и алгоритма дистилляции оценок. Основываясь на нашей архитектуре MVControl, мы используем уникальный метод гибридного руководства диффузией для направления процесса оптимизации. В стремлении к эффективности мы используем 3D гауссианы в качестве нашего представления вместо широко используемых неявных представлений. Мы также открываем использование SuGaR, гибридного представления, которое связывает гауссианы с треугольными гранями сетки. Этот подход устраняет проблему плохой геометрии в 3D гауссианах и позволяет прямое моделирование мелкозернистой геометрии на сетке. Обширные эксперименты показывают, что наш метод достигает надежной обобщаемости и позволяет управляемо генерировать высококачественный 3D контент.
Оценка оптического потока высокой точности в реальном времени является ключевым компонентом в различных приложениях, включая локализацию и построение карт в робототехнике, отслеживание объектов и распознавание действий в компьютерном зрении. В то время как недавние методы оптического потока на основе обучения достигли высокой точности, они часто сопряжены с высокими вычислительными затратами. В данной статье мы предлагаем высокоэффективную архитектуру оптического потока, названную NeuFlow, которая учитывает как высокую точность, так и проблемы вычислительных затрат. Архитектура следует схеме от глобального к локальному. Используется глобальное сопоставление для оценки начального оптического потока на разрешении 1/16, захватывающего большое смещение, которое затем уточняется на разрешении 1/8 с помощью легких слоев CNN для повышения точности. Мы оцениваем наш подход на Jetson Orin Nano и RTX 2080, чтобы продемонстрировать улучшение эффективности на различных вычислительных платформах. Мы достигаем значительного ускорения в 10-80 раз по сравнению с несколькими современными методами, сохраняя сопоставимую точность. Наш подход достигает около 30 кадров в секунду на вычислительных платформах на краю, что представляет собой значительный прорыв в развертывании сложных задач компьютерного зрения, таких как SLAM, на маленьких роботах, например, дронах. Полный код обучения и оценки доступен по ссылке https://github.com/neufieldrobotics/NeuFlow.