Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Chameleon, семейство моделей раннего слияния на основе токенов, способных понимать и генерировать изображения и текст в любой произвольной последовательности. Мы излагаем стабильный подход к обучению с самого начала, рецепт выравнивания и параметризацию архитектуры, адаптированные для раннего слияния на основе токенов в смешанной модальности. Модели оцениваются на широком спектре задач, включая визуальный вопросно-ответный анализ, подписывание изображений, генерацию текста, генерацию изображений и генерацию смешанных модальностей большой формы. Chameleon демонстрирует широкие и общие возможности, включая лучшую в своем классе производительность в задачах подписывания изображений, превосходит Llama-2 в задачах только с текстом, оставаясь конкурентоспособным с моделями, такими как Mixtral 8x7B и Gemini-Pro, и выполняет нетривиальную генерацию изображений, все в рамках одной модели. Он также соответствует или превосходит производительность гораздо более крупных моделей, включая Gemini Pro и GPT-4V, согласно оценкам людей на новой оценке генерации смешанных модальностей большой формы, где либо подсказка, либо выводы содержат смешанные последовательности изображений и текста. Chameleon является значительным шагом вперед в объединенном моделировании полных мультимодальных документов.
Метод адаптации низкого ранга (Low-Rank Adaptation, LoRA) является широко используемым методом эффективной настройки параметров для больших языковых моделей. LoRA экономит память, обучая только низкоранговые возмущения выбранным матрицам весов. В данной работе мы сравниваем производительность LoRA и полной настройки на двух целевых областях, программировании и математике. Мы рассматриваем как настройку по инструкциям (примерно 100 тыс. пар запрос-ответ), так и продолжение предварительного обучения (примерно 10 млрд структурированных токенов). Наши результаты показывают, что в большинстве случаев LoRA значительно уступает полной настройке. Тем не менее, LoRA обладает желательной формой регуляризации: он лучше сохраняет производительность базовой модели на задачах вне целевой области. Мы показываем, что LoRA обеспечивает более сильную регуляризацию по сравнению с общими техниками, такими как уменьшение весов и отсев; он также помогает сохранить более разнообразные генерации. Мы показываем, что полная настройка обучает возмущения с рангом, который в 10-100 раз превышает типичные конфигурации LoRA, что, возможно, объясняет некоторые из отмеченных разрывов. Мы заключаем работу, предлагая лучшие практики для настройки с использованием LoRA.
Прогресс в области трехмерной реконструкции позволил добиться высококачественного захвата трехмерных изображений, однако для создания трехмерной сцены требуется собрать сотни или тысячи изображений. Мы представляем CAT3D, метод создания трехмерных объектов путем моделирования процесса захвата в реальном мире с использованием многовидовой модели диффузии. Учитывая любое количество входных изображений и набор целевых новых точек обзора, наша модель генерирует высококачественные новые виды сцены. Эти созданные виды могут быть использованы в качестве входных данных для надежных техник трехмерной реконструкции для создания трехмерных представлений, которые могут быть отображены с любой точки зрения в реальном времени. CAT3D способен создавать целые трехмерные сцены всего за одну минуту и превосходит существующие методы создания трехмерных сцен на основе одного изображения или нескольких видов обзора. Для результатов и интерактивных демонстраций посетите нашу страницу проекта по адресу https://cat3d.github.io.
Большие языковые модели хорошо известны своей эффективностью в обучении с небольшим количеством примеров в контексте (ICL). Недавние достижения в области мультимодальных базовых моделей позволили создавать модели с беспрецедентно длинными окнами контекста, что открывает возможность исследовать их способность выполнять ICL с гораздо большим количеством демонстрационных примеров. В данной работе мы оцениваем производительность мультимодальных базовых моделей, масштабируясь от обучения с небольшим количеством примеров до обучения с большим количеством примеров в контексте. Мы проводим сравнительный анализ моделей GPT-4o и Gemini 1.5 Pro на 10 наборах данных, охватывающих несколько областей (естественные изображения, медицинские изображения, дистанционное зондирование и молекулярные изображения) и задач (многоклассовая, многоклассовая с несколькими метками и детализированная классификация). Мы наблюдаем, что обучение с большим количеством примеров в контексте, включая почти 2 000 мультимодальных демонстрационных примеров, приводит к существенным улучшениям по сравнению с обучением с небольшим количеством примеров (<100 примеров) на всех наборах данных. Кроме того, производительность модели Gemini 1.5 Pro продолжает улучшаться логарифмически до максимального количества протестированных примеров на многих наборах данных. Учитывая высокие затраты на вывод, связанные с длинными запросами, необходимыми для обучения с большим количеством примеров в контексте, мы также исследуем влияние пакетной обработки нескольких запросов в одном API-вызове. Мы показываем, что пакетная обработка до 50 запросов может привести к улучшению производительности в нулевом и многократном обучении с большим количеством примеров в контексте, с существенными выигрышами в настройке нулевого обучения на нескольких наборах данных, при этом значительно снижая стоимость и задержку на запрос. Наконец, мы измеряем эффективность данных ICL моделей, то есть скорость, с которой модели учатся на большем количестве демонстрационных примеров. Мы обнаруживаем, что хотя модели GPT-4o и Gemini 1.5 Pro достигают сходной производительности в настройке нулевого обучения на наборах данных, модель Gemini 1.5 Pro обладает более высокой эффективностью данных ICL, чем GPT-4o на большинстве наборов данных. Наши результаты подтверждают, что обучение с большим количеством примеров в контексте может позволить пользователям эффективно адаптировать мультимодальные базовые модели к новым приложениям и областям. Наш код доступен публично по адресу https://github.com/stanfordmlgroup/ManyICL.
Данный документ представляет Grounding DINO 1.5, набор передовых моделей открытого обнаружения объектов, разработанных IDEA Research с целью продвижения "Edge" в области обнаружения объектов в открытом множестве. Набор включает две модели: Grounding DINO 1.5 Pro, высокопроизводительную модель, разработанную для более сильной обобщающей способности в широком спектре сценариев, и Grounding DINO 1.5 Edge, эффективную модель, оптимизированную для более быстрой скорости, необходимой во многих приложениях, требующих развертывания на краю. Модель Grounding DINO 1.5 Pro улучшает своего предшественника путем масштабирования архитектуры модели, интеграции улучшенного визионного каркаса и расширения обучающего набора данных до более чем 20 миллионов изображений с аннотациями по обоснованию, что позволяет достичь более глубокого семантического понимания. Модель Grounding DINO 1.5 Edge, хотя и разработана с учетом эффективности с уменьшенными масштабами признаков, сохраняет надежные возможности обнаружения благодаря обучению на том же полномасштабном наборе данных. Эмпирические результаты демонстрируют эффективность Grounding DINO 1.5, при этом модель Grounding DINO 1.5 Pro достигает показателя 54.3 AP на бенчмарке обнаружения COCO и 55.7 AP на бенчмарке нулевой передачи LVIS-minival, устанавливая новые рекорды в области обнаружения объектов в открытом множестве. Более того, модель Grounding DINO 1.5 Edge, оптимизированная с помощью TensorRT, достигает скорости 75.2 FPS, при этом достигая показателя 36.2 AP на бенчмарке LVIS-minival нулевой передачи, что делает ее более подходящей для сценариев вычислений на краю. Примеры моделей и демонстрации с API будут доступны по адресу https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
В данной работе мы восстанавливаем основную 3D структуру не-геометрически согласованных сцен. Мы фокусируемся на анализе рукописных изображений из мультфильмов и аниме. Многие мультфильмы создаются художниками без использования 3D движка, что означает, что любое новое изображение сцены создается вручную. Рукописные изображения обычно верно передают мир, но лишь качественно, поскольку людям сложно нарисовать несколько перспектив объекта или сцены 3D последовательно. Тем не менее, люди легко могут воспринимать 3D сцены из несогласованных исходных данных! В данной работе мы исправляем 2D рисунковые несоответствия для восстановления правдоподобной 3D структуры таким образом, чтобы новые искаженные рисунки были согласованы между собой. Наша методика включает в себя удобное для пользователя аннотационное средство, оценку положения камеры и деформацию изображения для восстановления плотной структуры. Наш метод искривляет изображения, чтобы они соответствовали перспективной камерной модели, что позволяет использовать наши выровненные результаты в методах реконструкции нового вида для переживания мультфильмов с точек зрения, которые никогда ранее не были нарисованы. Наша страница проекта: https://toon3d.studio/.
Мы представляем Dual3D, новую рамку генерации текста в 3D, которая создает высококачественные 3D-объекты из текстов всего за 1 минуту. Ключевым компонентом является двухрежимная многовидовая модель латентной диффузии. Учитывая шумные многовидовые латенты, режим 2D может эффективно удалить шум с помощью единственной сети для денойзинга латент, в то время как режим 3D может создать нейронную поверхность три-плоскости для последовательного денойзинга на основе рендеринга. Большинство модулей для обоих режимов настроены из предварительно обученной модели латентной диффузии текста в изображение, чтобы избежать дорогой стоимости обучения с нуля. Для преодоления высокой стоимости рендеринга во время вывода, мы предлагаем стратегию переключения двухрежимного вывода, чтобы использовать всего 1/10 шагов денойзинга с режимом 3D, успешно создавая 3D-объект всего за 10 секунд без ущерба качеству. Текстура 3D-объекта может быть дополнительно улучшена нашим эффективным процессом улучшения текстуры за короткое время. Обширные эксперименты показывают, что наш метод обеспечивает передовое качество работы, существенно сокращая время генерации. Наша страница проекта доступна по адресу https://dual3d.github.io
Обучение в симуляции и передача изученной стратегии в реальный мир имеют потенциал для создания универсальных роботов. Основным вызовом этого подхода является преодоление разрывов между симуляцией и реальностью (sim-to-real). Предыдущие методы часто требуют заранее определенных знаний, специфичных для области. Мы утверждаем, что простым способом получения таких знаний является просьба к людям наблюдать и помогать в выполнении стратегии робота в реальном мире. Роботы могут затем учиться у людей для устранения различных разрывов между симуляцией и реальностью. Мы предлагаем TRANSIC, основанный на данных подход с привлечением человека, для обеспечения успешной передачи из симуляции в реальность. TRANSIC позволяет людям дополнять стратегии симуляции для комплексного преодоления различных немоделируемых разрывов между симуляцией и реальностью через вмешательство и онлайн-коррекцию. Остаточные стратегии могут быть выучены из коррекций людей и интегрированы с стратегиями симуляции для автономного выполнения. Мы показываем, что наш подход может достичь успешной передачи из симуляции в реальность в сложных задачах с манипуляциями, таких как сборка мебели. Через синергетическую интеграцию стратегий, выученных в симуляции и от людей, TRANSIC эффективен как комплексный подход к преодолению различных, часто совместно существующих разрывов между симуляцией и реальностью. Он обладает привлекательными свойствами, такими как масштабирование с усилиями человека. Видео и код доступны на https://transic-robot.github.io/