Ежедневно отобранные исследовательские статьи по ИИ с переводами
Поскольку большие языковые модели (Large Language Models, LLM) становятся все более продвинутыми, они опережают наши возможности точно оценить их качество. Не только поиск данных для адекватного исследования конкретных свойств модели представляет сложность, но и оценка правильности генерации моделью свободного текста сама по себе является вызовом. Для решения этой проблемы многие оценки теперь полагаются на использование самих LLM в качестве судей для оценки качества результатов других LLM. Оценки наиболее часто используют одну крупную модель, такую как GPT4. Хотя этот метод стал популярным, он затратен, доказано, что вносит интрамодельный перекос, и в данной работе мы обнаружили, что очень крупные модели часто излишни. Мы предлагаем вместо этого оценивать модели с использованием Панели оценщиков LLM (Panel of LLm evaluators, PoLL). В рамках трех различных настроек судей и на шести различных наборах данных мы обнаружили, что использование PoLL, состоящей из большего числа меньших моделей, превосходит одного крупного судью, проявляет меньше интрамодельного перекоса благодаря своему составу из разнородных семей моделей и делает это более чем в семь раз дешевле.
Спекулятивное декодирование продемонстрировало свою эффективность в ускорении вывода больших языковых моделей, сохраняя при этом согласованное распределение выборки. Однако традиционный подход обучения отдельной черновой модели для достижения удовлетворительной скорости принятия токенов может быть затратным. Извлекая вдохновение из раннего завершения, мы предлагаем новую собственную спекулятивную декодирующую структуру Kangaroo, которая использует фиксированную неглубокую подсеть в качестве собственной черновой модели, а оставшиеся слои служат в качестве более крупной целевой модели. Мы обучаем легкий и эффективный модуль адаптера поверх подсети, чтобы преодолеть разрыв между способностью представления подсети и полной модели. Следует отметить, что задержка вывода собственной черновой модели может больше не быть незначительной по сравнению с крупной моделью, что требует стратегий для увеличения скорости принятия токенов, минимизируя при этом шаги черновой модели. Для решения этой проблемы мы вводим дополнительный механизм раннего завершения для генерации черновых токенов. Конкретно, мы останавливаем последующее предсказание маленькой модели во время фазы чернового процесса, как только уровень уверенности для текущего токена опускается ниже определенного порога. Обширные эксперименты на Spec-Bench демонстрируют эффективность Kangaroo. При верификации одиночной последовательности Kangaroo достигает ускорения до 1,68 раза на Spec-Bench, превосходя Medusa-1 с 88,7\% меньшим количеством дополнительных параметров (67M по сравнению с 591M). Код для Kangaroo доступен по ссылке https://github.com/Equationliu/Kangaroo.
Высокий уровень качества в широком спектре медицинских приложений представляет существенные вызовы для искусственного интеллекта, требующие продвинутого рассуждения, доступа к актуальным медицинским знаниям и понимания сложных мультимодальных данных. Модели Gemini, обладающие сильными общими возможностями в мультимодальном и долгосрочном рассуждении, предлагают захватывающие возможности в медицине. Основываясь на этих ключевых сильных сторонах Gemini, мы представляем Med-Gemini, семейство высококвалифицированных мультимодальных моделей, специализированных в медицине с возможностью безупречного использования веб-поиска и эффективной настройки под новые модальности с помощью индивидуальных кодировщиков. Мы оцениваем Med-Gemini на 14 медицинских бенчмарках, устанавливая новые рекорды производительности (SoTA) на 10 из них и превосходим семейство моделей GPT-4 на каждом бенчмарке, где возможно прямое сравнение, часто с большим отрывом. На популярном медицинском бенчмарке MedQA (USMLE) наша лучшая модель Med-Gemini достигает производительности SoTA на уровне 91,1% точности, используя новую стратегию поиска, основанную на неопределенности. На 7 мультимодальных бенчмарках, включая NEJM Image Challenges и MMMU (здоровье и медицина), Med-Gemini улучшает результаты по сравнению с GPT-4V в среднем на 44,5%. Мы демонстрируем эффективность долгосрочных возможностей Med-Gemini через производительность SoTA на задаче поиска "иголки в стоге сена" из длинных деидентифицированных медицинских записей и ответов на вопросы в медицинских видео, превосходя предыдущие специализированные методы, использующие только контекстное обучение. Наконец, производительность Med-Gemini указывает на практическую ценность в реальном мире, превосходя человеческих экспертов в задачах, таких как резюмирование медицинского текста, наряду с демонстрациями многообещающего потенциала для мультимодального медицинского диалога, медицинских исследований и образования. В целом, наши результаты предлагают убедительные доказательства потенциала Med-Gemini, хотя дальнейшая строгая оценка будет критически важна перед внедрением в реальном мире в этой области, где безопасность играет важную роль.
Несмотря на прогресс в области больших языковых моделей (LLM) и больших мультимодальных моделей (LMM), их интеграция в агентов, обладающих языковой основой и человекоподобным телесным воплощением, остается неполной, что затрудняет выполнение сложных задач в реальных физических средах. Существующие интеграции часто имеют ограниченное открытое распространение, что затрудняет коллективный прогресс в этой области. Мы представляем LEGENT, открытую масштабируемую платформу для разработки агентов с телесным воплощением, использующих LLM и LMM. LEGENT предлагает двойной подход: богатую интерактивную 3D среду с агентами, способными общаться и действовать, совмещенную с простым в использовании интерфейсом, а также сложный конвейер генерации данных, использующий передовые алгоритмы для извлечения надзора из симулированных миров в масштабе. В наших экспериментах эмбриональная модель вид-язык-действие, обученная на данных, сгенерированных в LEGENT, превосходит GPT-4V в задачах с телесным взаимодействием, демонстрируя многообещающие обобщающие способности.
Графический дизайн важен для различных приложений, включая производство фильмов и разработку игр. Для создания сцены высокого качества дизайнерам обычно приходится тратить часы в программном обеспечении, таком как Blender, в котором им может потребоваться вставлять и повторять операции, такие как соединение материальных узлов, сотни раз. Более того, немного различные цели дизайна могут потребовать совершенно разных последовательностей, что затрудняет автоматизацию. В данной статье мы предлагаем систему, которая использует модели видение-язык (VLM), такие как GPT-4V, для интеллектуального поиска пространства действий дизайна для достижения ответа, который может удовлетворить намерения пользователя. Конкретно, мы разрабатываем генератор редактирования на основе зрения и оценщик состояния, чтобы работать вместе для нахождения правильной последовательности действий для достижения цели. Вдохновленные ролью визуального воображения в человеческом процессе дизайна, мы дополняем визуальные способности рассуждения VLM "воображаемыми" опорными изображениями из моделей генерации изображений, обеспечивая визуальное обоснование абстрактных описаний на языке. В данной статье мы предоставляем эмпирические данные, указывающие на то, что наша система способна создавать простые, но трудоемкие последовательности редактирования в Blender для задач, таких как редактирование процедурных материалов из текста и/или опорных изображений, а также настройка конфигураций освещения для визуализации продуктов в сложных сценах.
Помимо масштабирования базовых моделей с помощью большего объема данных или параметров, тонко настроенные адаптеры предоставляют альтернативный способ создания изображений высокой точности по индивидуальному заказу с сниженными затратами. Таким образом, адаптеры широко приняты сообществами с открытым исходным кодом, накопив базу данных из более чем 100 тыс. адаптеров, большинство из которых высоко настраиваемы, но имеют недостаточные описания. В данной статье исследуется проблема сопоставления запроса с набором соответствующих адаптеров, основанная на недавних исследованиях, выделяющих повышение производительности при компоновке адаптеров. Мы представляем Stylus, который эффективно выбирает и автоматически комбинирует задаче-специфические адаптеры на основе ключевых слов запроса. Stylus описывает трехэтапный подход, который сначала резюмирует адаптеры с улучшенными описаниями и векторными представлениями, извлекает соответствующие адаптеры, а затем дополнительно собирает адаптеры на основе ключевых слов запроса, проверяя их соответствие запросу. Для оценки Stylus мы разработали StylusDocs, подготовленный набор данных, включающий 75 тыс. адаптеров с предварительно вычисленными векторными представлениями адаптеров. В нашей оценке на популярных точках контроля Stable Diffusion Stylus достигает большей эффективности Парето CLIP-FID и вдвое предпочтительнее, как для людей, так и для мультимодельных моделей-оценщиков, по сравнению с базовой моделью. Более подробную информацию можно найти на stylus-diffusion.github.io.
Автономные роботизированные системы, способные изучать новые задачи по манипулированию, готовы изменить отрасли от производства до автоматизации обслуживания. Однако современные методы (например, VIP и R3M) по-прежнему сталкиваются с серьезными препятствиями, в частности, с разрывом в домене между роботизированными воплощениями и недостаточным количеством успешных выполнений задач в конкретных пространствах действий, что приводит к несогласованным и неоднозначным представлениям задач. Мы представляем Ag2Manip (Представления, независимые от агента для манипуляции), фреймворк, направленный на преодоление этих препятствий благодаря двум ключевым инновациям: новое агент-независимое визуальное представление, происходящее из видеороликов человеческого манипулирования, с деталями воплощений, скрытыми для повышения обобщаемости; и агент-независимое действие, абстрагирующее кинематику робота до универсального агентского прокси, акцентируя важные взаимодействия между конечным эффектором и объектом. Эмпирическая проверка Ag2Manip на симулированных бенчмарках, таких как FrankaKitchen, ManiSkill и PartManip, показывает увеличение производительности на 325%, достигнутое без доменно-специфических демонстраций. Абляционные исследования подчеркивают существенный вклад визуальных и действенных представлений в этот успех. Расширяя наши оценки на реальный мир, Ag2Manip значительно улучшает показатели успешности обучения имитации с 50% до 77.5%, демонстрируя его эффективность и обобщаемость как в симулированных, так и в физических средах.
Значительная роль одежды в человеческом облике подчеркивает важность цифровой одежды для создания цифрового человека. Недавние достижения в создании 3D-контента имеют решающее значение для создания цифрового человека. Тем не менее, генерация одежды на основе текстовых указаний все еще находится в зачаточном состоянии. Мы представляем фреймворк генерации 3D-одежды на основе текста, DressCode, который направлен на демократизацию дизайна для новичков и предлагает огромный потенциал в области модного дизайна, виртуальной примерки и создания цифрового человека. Для нашего фреймворка мы сначала представляем SewingGPT, архитектуру на основе GPT, интегрирующую кросс-внимание с текстово-условленным встраиванием для генерации выкроек с помощью текстовых указаний. Мы также настроили предварительно обученный Stable Diffusion для генерации текстур высокого качества на основе плиток PBR. Используя большую языковую модель, наш фреймворк генерирует одежду, дружественную к компьютерной графике, через взаимодействие на естественном языке. Наш метод также облегчает завершение выкроек и редактирование текстур, упрощая процесс для дизайнеров благодаря удобному взаимодействию с пользователем. Проведя всесторонние оценки и сравнения с другими передовыми методами, наш метод демонстрирует лучшее качество и соответствие входным запросам. Пользовательские исследования дополнительно подтверждают высококачественные результаты рендеринга, выделяя его практическую полезность и потенциал в производственных условиях.