Ежедневно отобранные исследовательские статьи по ИИ с переводами
Данный отчет представляет xGen-MM (также известный как BLIP-3), фреймворк для разработки крупных мультимодальных моделей (LMM). Фреймворк включает тщательно подготовленные наборы данных, рецепт обучения, архитектуры моделей и набор LMM. xGen-MM, сокращение от xGen-MultiModal, расширяет инициативу Salesforce xGen по базовым моделям искусственного интеллекта. Наши модели проходят строгую оценку по ряду задач, включая как одиночные, так и многокартинные тесты. Наша предварительно обученная базовая модель обладает сильными возможностями контекстного обучения, а модель, настроенная на инструкции, демонстрирует конкурентоспособную производительность среди LMM с аналогичными размерами моделей в открытом доступе. Кроме того, мы представляем модель, настроенную на безопасность с DPO, с целью смягчения вредных поведенческих моделей, таких как галлюцинации, и улучшения безопасности. Мы предоставляем наши модели, тщательно подготовленные масштабные наборы данных и нашу базу кода для донастройки в открытый доступ, чтобы облегчить дальнейшие достижения в исследованиях LMM. Связанные ресурсы будут доступны на нашей странице проекта выше.
В недавних исследованиях по генерации изображений и видео широко применяется авторегрессивная архитектура LLM из-за ее универсальности и потенциальной легкости интеграции в мультимодальные системы. Основное применение авторегрессивного обучения в генерации текста к генерации визуальных данных связано с дискретизацией - представлением непрерывных данных, таких как изображения и видео, в виде дискретных токенов. Распространенные методы дискретизации изображений и видео включают моделирование сырых значений пикселей, которые являются чрезмерно длинными, или векторное квантование, требующее сложного предварительного обучения. В данной работе мы предлагаем непосредственно моделировать изображения и видео как сжатые файлы, сохраненные на компьютерах с использованием канонических кодеков (например, JPEG, AVC/H.264). Используя стандартную архитектуру Llama без каких-либо специфических модификаций для зрительных данных, мы предварительно обучаем JPEG-LM с нуля для генерации изображений (и AVC-LM для генерации видео в качестве доказательства концепции), напрямую выводя сжатые байты файлов в форматах JPEG и AVC. Оценка генерации изображений показывает, что этот простой и прямолинейный подход эффективнее моделирования на основе пикселей и сложных базовых моделей векторного квантования (на которых наш метод дает снижение FID на 31%). Наш анализ показывает, что у JPEG-LM есть особое преимущество перед моделями векторного квантования в генерации элементов с длинным хвостом. В целом, мы показываем, что использование канонических кодеков может помочь снизить барьеры между генерацией текста и визуальной генерацией, облегчая будущие исследования мультимодальных LLM для языка/изображений/видео.
Исследователи вкладывают значительные усилия в разработку мощных универсальных агентов, где Фундаментальные Модели используются в качестве модулей в составе агентных систем (например, Цепочка Мыслей, Саморефлексия, Формирование Инструментов). Однако история машинного обучения учит нас тому, что решения, разработанные вручную, в конечном итоге заменяются обученными решениями. Мы формулируем новую область исследований, Автоматизированный Дизайн Агентных Систем (ADAS), цель которой заключается в автоматическом создании мощных дизайнов агентных систем, включая изобретение новых строительных блоков и/или их комбинирование новыми способами. Мы также демонстрируем, что существует неисследованный, но многообещающий подход в рамках ADAS, где агенты могут быть определены в коде, а новые агенты могут быть автоматически обнаружены мета-агентом, программированием все более совершенных агентов в коде. Учитывая, что языки программирования являются Тьюринг-полными, этот подход теоретически позволяет изучать любую возможную агентную систему: включая новые подсказки, использование инструментов, управляющие потоки и их комбинации. Мы представляем простой, но эффективный алгоритм под названием Поиск Мета-Агента, чтобы продемонстрировать эту идею, где мета-агент итеративно программировать интересные новые агенты на основе постоянно растущего архива предыдущих открытий. Через обширные эксперименты в различных областях, включая программирование, науку и математику, мы показываем, что наш алгоритм постепенно изобретает агентов с новыми дизайнами, которые значительно превосходят современные агенты, разработанные вручную. Важно отметить, что мы последовательно наблюдаем удивительный результат: агенты, изобретенные Поиском Мета-Агента, сохраняют превосходную производительность даже при переносе между областями и моделями, демонстрируя их устойчивость и общность. При условии безопасной разработки, наша работа иллюстрирует потенциал захватывающего нового направления исследований в направлении автоматического проектирования все более мощных агентных систем во благо человечества.
Сегментация хирургических видео является критической задачей в компьютерно-помогаемой хирургии и имеет важное значение для улучшения качества хирургических вмешательств и результатов для пациентов. Недавно было показано, что модель Segment Anything Model 2 (SAM2) демонстрирует превосходные достижения в области сегментации изображений и видео. Однако SAM2 сталкивается с проблемой эффективности из-за высоких вычислительных требований при обработке изображений высокого разрешения и сложной и длительной временной динамики в хирургических видео. Для решения этих проблем мы представляем модель Surgical SAM 2 (SurgSAM-2), продвинутую модель для использования SAM2 с механизмом Эффективной Обрезки Кадров (EFP), чтобы обеспечить сегментацию хирургических видео в реальном времени. Механизм EFP динамически управляет банком памяти, выборочно сохраняя только наиболее информативные кадры, снижая использование памяти и вычислительные затраты, сохраняя при этом высокую точность сегментации. Наши обширные эксперименты показывают, что SurgSAM-2 значительно улучшает как эффективность, так и точность сегментации по сравнению с базовым SAM2. Замечательно, SurgSAM-2 достигает в 3 раза большей частоты кадров в секунду по сравнению с SAM2, обеспечивая при этом передовые показатели после доводки с использованием данных с более низким разрешением. Эти достижения утверждают SurgSAM-2 как ведущую модель для анализа хирургических видео, делая сегментацию хирургических видео в реальном времени в условиях ограниченных ресурсов реальной возможностью.
Мы рассматриваем проблемы точной инверсии изображения и редактирования изображения с разделением в контексте моделей диффузии с небольшим числом шагов. Мы представляем технику итеративной инверсии на основе кодировщика. Сеть инверсии зависит от входного изображения и восстановленного изображения с предыдущего шага, что позволяет корректировать следующее восстановление в сторону входного изображения. Мы демонстрируем, что разделенное управление легко достигается в модели диффузии с небольшим числом шагов путем условия на (автоматически сгенерированный) подробный текстовый запрос. Для манипулирования инвертированным изображением мы замораживаем карты шума и изменяем один атрибут в текстовом запросе (либо вручную, либо через инструкции, управляемые LLM), что приводит к созданию нового изображения, похожего на входное изображение, с измененным только одним атрибутом. Это также позволяет контролировать силу редактирования и принимать инструктивный текстовый запрос. Наш подход облегчает реалистичное текстовое редактирование изображений в реальном времени, требуя всего 8 функциональных оценок (NFE) при инверсии (единовременные затраты) и 4 NFE на редактирование. Наш метод не только быстр, но также значительно превосходит техники редактирования многократного шага диффузии, использующиеся на данный момент.
Обучение больших языковых моделей (LLM) сопряжено с существенными затратами на данные, что стимулирует разработку методов обучения, эффективных с точки зрения использования данных, путем оптимизации порядка и выбора данных. Стратегии обучения, вдохновленные человеческим обучением, такие как обучение по курсам, предлагают возможности для эффективного обучения путем организации данных в соответствии с общими практиками человеческого обучения. Несмотря на доказательства того, что дообучение с применением обучения по курсам улучшает производительность LLM для задач понимания естественного языка, его эффективность обычно оценивается с использованием одной модели. В данной работе мы расширяем предыдущие исследования, оценивая как стратегии обучения на основе курсов, так и не на основе курсов, на нескольких LLM, используя человечески определенные и автоматизированные метки данных для ответов на медицинские вопросы. Наши результаты показывают умеренное влияние использования стратегий обучения, вдохновленных человеком, для дообучения LLM, с максимальным приростом точности на модель в 1,77% и на набор данных в 1,81%. Критически важно, что мы демонстрируем, что эффективность этих стратегий значительно варьируется в зависимости от различных комбинаций модель-набор данных, подчеркивая, что преимущества конкретной стратегии, вдохновленной человеком, для дообучения LLM не обобщаются. Кроме того, мы находим доказательства того, что обучение по курсам с использованием определенной сложности вопросов, определенной LLM, превосходит сложность, определенную человеком, что подчеркивает потенциал использования модельно-сгенерированных мер для оптимального проектирования учебного плана.
Алгоритмы обучения с подкреплением в автономном режиме обещают обеспечить методы обучения с подкреплением, основанные на данных, которые не требуют дорогостоящего или опасного исследования в реальном мире и получают выгоду от больших заранее собранных наборов данных. Это, в свою очередь, может способствовать применению в реальном мире, а также более стандартизированному подходу к исследованиям в области обучения с подкреплением. Более того, методы обучения с подкреплением в автономном режиме могут обеспечить эффективные инициализации для онлайн-настройки с целью преодоления проблем с исследованием. Однако оценка прогресса в области алгоритмов обучения с подкреплением в автономном режиме требует эффективных и сложных бенчмарков, которые отражают свойства задач из реального мира, предоставляют разнообразие уровней сложности задач и охватывают ряд проблем как в параметрах области (например, длина горизонта, разреженность вознаграждений), так и в параметрах данных (например, узкие данные демонстраций или широкие исследовательские данные). Несмотря на значительный прогресс в обучении с подкреплением в автономном режиме в последние годы, обусловленный более простыми бенчмарками, наиболее широко используемые наборы данных все более насыщаются по производительности и могут не отражать свойства реалистичных задач. Мы предлагаем новый бенчмарк для обучения с подкреплением в автономном режиме, который сосредотачивается на реалистичных симуляциях сред для робототехнического управления и передвижения, основанных на моделях реальных робототехнических систем и включающих различные источники данных, включая сценарные данные, данные, собранные человеческими телеоператорами в режиме игры, и другие источники данных. Наш предложенный бенчмарк охватывает области на основе состояний и изображений и поддерживает как оценку обучения с подкреплением в автономном режиме, так и онлайн-настройку, причем некоторые задачи специально разработаны для требования как предварительного обучения, так и настройки. Мы надеемся, что наш предложенный бенчмарк способствует дальнейшему прогрессу как в обучении с подкреплением в автономном режиме, так и в алгоритмах настройки. Веб-сайт с кодом, примерами, задачами и данными доступен по адресу https://sites.google.com/view/d5rl/