Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мультимодальные базовые модели, такие как GPT-4o, в последнее время достигли значительного прогресса, однако остается неясным, насколько хорошо эти модели понимают визуальную информацию. В данной статье мы оцениваем производительность популярных мультимодальных базовых моделей (GPT-4o, o4-mini, Gemini 1.5 Pro и Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) на стандартных задачах компьютерного зрения (семантическая сегментация, обнаружение объектов, классификация изображений, предсказание глубины и нормалей поверхности) с использованием общепринятых наборов данных (например, COCO, ImageNet и их вариантов). Основные сложности при выполнении этой задачи заключаются в следующем: 1) большинство моделей обучены выдавать текстовые ответы и не могут напрямую выражать разнообразные домены, такие как сегменты или 3D-геометрия, и 2) многие ведущие модели являются проприетарными и доступны только на уровне API, то есть отсутствует доступ к их весам для адаптации. Мы решаем эти проблемы, преобразуя стандартные задачи компьютерного зрения в эквивалентные задачи, которые можно решать с помощью текстовых запросов и API, используя цепочки промптов для создания стандартизированной системы оценки. Мы наблюдаем, что 1) модели не приближаются к уровню современных специализированных моделей ни в одной из задач. Однако 2) они являются достойными универсальными решениями, что примечательно, учитывая, что они, вероятно, обучены в основном на задачах, связанных с изображениями и текстом. 3) Они справляются с семантическими задачами заметно лучше, чем с геометрическими. 4) Хотя техники цепочек промптов влияют на производительность, более качественные модели демонстрируют меньшую чувствительность к вариациям запросов. 5) GPT-4o показывает наилучшие результаты среди моделей, не использующих рассуждения, занимая первое место в 4 из 6 задач. 6) Модели с поддержкой рассуждений, например o3, показывают улучшения в геометрических задачах. 7) Предварительный анализ моделей с возможностью генерации изображений, таких как последняя версия GPT-4o, выявляет особенности, такие как галлюцинации и пространственные несоответствия.
Высокие вычислительные затраты диффузионных моделей на этапе вывода препятствуют их использованию в качестве быстрых эмуляторов физических процессов. В контексте генерации изображений и видео этот вычислительный недостаток был устранен путем генерации в латентном пространстве автоэнкодера вместо пространства пикселей. В данной работе мы исследуем, может ли аналогичная стратегия быть эффективно применена для эмуляции динамических систем и с какими затратами. Мы обнаруживаем, что точность эмуляции в латентном пространстве удивительно устойчива к широкому диапазону степеней сжатия (до 1000 раз). Мы также показываем, что диффузионные эмуляторы последовательно более точны, чем их негенеративные аналоги, и компенсируют неопределенность в своих предсказаниях за счет большего разнообразия. Наконец, мы рассматриваем практические аспекты проектирования, начиная с архитектур и заканчивая оптимизаторами, которые, как мы выяснили, имеют критическое значение для обучения эмуляторов в латентном пространстве.
Быстрое развитие крупных языковых моделей (LLM) усилило необходимость в системах оценки, которые выходят за рамки англоцентричных тестов и учитывают потребности лингвистически разнообразных регионов, таких как Индия. Мы представляем EKA-EVAL — унифицированную и готовую к использованию систему оценки, которая интегрирует более 35 тестов, включая 10 наборов данных, специфичных для индийских языков, охватывающих такие категории, как логическое мышление, математика, использование инструментов, понимание длинных контекстов и чтение. По сравнению с существующими инструментами оценки индийских языков, EKA-EVAL предлагает более широкий охват тестов, с встроенной поддержкой распределенного вывода, квантования и использования нескольких графических процессоров. Наше систематическое сравнение позиционирует EKA-EVAL как первую сквозную, расширяемую систему оценки, адаптированную как для глобальных, так и для индийских LLM, значительно снижая барьер для многоязычного тестирования. Фреймворк является открытым и доступен по адресу https://github.com/lingo-iitgn/eka-eval, а также является частью текущей инициативы EKA (https://eka.soket.ai), которая направлена на масштабирование до более чем 100 тестов и создание устойчивой многоязычной экосистемы оценки для LLM.
Оценка творческого письма, создаваемого крупными языковыми моделями (LLM), остается сложной задачей, поскольку открытые нарративы не имеют эталонных истин. В отсутствие эффективных автоматизированных методов оценки готовые (off-the-shelf, OTS) языковые модели используются в качестве судей с нулевым обучением (zero-shot), однако их надежность в данном контексте остается неясной. В поисках надежной оценки творческого письма мы представляем LitBench — первый стандартизированный бенчмарк и сопутствующий набор данных для проверки творческого письма, включающий тестовый набор из 2 480 сбалансированных, аннотированных человеком сравнений историй, взятых с Reddit, и обучающий корпус из 43 827 пар с метками предпочтений человека. Используя LitBench, мы (i) оцениваем судей-LLM с нулевым обучением, (ii) обучаем модели Брэдли-Терри и генеративные модели вознаграждения, а также (iii) проводим онлайн-исследование с участием людей для проверки ранжирования моделей вознаграждения на новых историях, сгенерированных LLM. Наш бенчмарк определяет Claude-3.7-Sonnet как наиболее эффективного готового судью, достигающего 73% согласия с предпочтениями человека; среди обученных моделей вознаграждения модели Брэдли-Терри и генеративные модели вознаграждения достигают точности 78%, превосходя всех готовых судей. Онлайн-исследование с участием людей дополнительно подтверждает, что наши обученные модели вознаграждения последовательно соответствуют предпочтениям человека в новых историях, сгенерированных LLM. Мы публикуем LitBench и модели вознаграждения по адресу https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, предоставляя проверенный ресурс для надежной автоматизированной оценки и оптимизации систем творческого письма.