Ежедневно отобранные исследовательские статьи по ИИ с переводами
Бенчмарки являются важными инструментами для отслеживания быстрого развития возможностей крупных языковых моделей (LLM). Однако бенчмарки не успевают за уровнем сложности: LLM в настоящее время достигают более 90\% точности на популярных бенчмарках, таких как MMLU, что ограничивает информированную оценку возможностей передовых LLM. В ответ на это мы представляем Humanity's Last Exam (HLE) - мультимодальный бенчмарк на передовой грани человеческих знаний, разработанный как окончательный закрытый академический бенчмарк такого рода с широким охватом предметов. HLE состоит из 3 000 вопросов по десяткам предметов, включая математику, гуманитарные науки и естественные науки. HLE разрабатывается глобально экспертами по предмету и состоит из вопросов с выбором ответа и кратким ответом, подходящих для автоматической оценки. У каждого вопроса есть известное решение, которое является однозначным и легко проверяемым, но не может быть быстро найдено в интернете. Современные LLM демонстрируют низкую точность и калибровку на HLE, подчеркивая значительный разрыв между текущими возможностями LLM и экспертным человеческим фронтиром в закрытых академических вопросах. Для информирования исследований и разработки политики на основе четкого понимания возможностей модели мы публично выпускаем HLE на https://lastexam.ai.
Эта статья представляет подход к обучению моделей RAG, подобных o1, которые извлекают и рассуждают над соответствующей информацией пошагово перед генерацией окончательного ответа. Традиционные методы RAG обычно выполняют один шаг извлечения перед процессом генерации, что ограничивает их эффективность в решении сложных запросов из-за неполных результатов извлечения. В отличие от этого, наш предложенный метод, CoRAG (Chain-of-Retrieval Augmented Generation), позволяет модели динамически переформулировать запрос на основе изменяющегося состояния. Для эффективного обучения CoRAG мы используем отборочное сэмплирование для автоматического создания промежуточных цепочек извлечения, тем самым дополняя существующие наборы данных RAG, которые предоставляют только правильный окончательный ответ. На этапе тестирования мы предлагаем различные стратегии декодирования для масштабирования вычислений модели во время тестирования путем контроля длины и количества сэмплированных цепочек извлечения. Экспериментальные результаты на нескольких бенчмарках подтверждают эффективность CoRAG, особенно в задачах вопросно-ответной системы с несколькими шагами, где мы наблюдаем более чем 10-процентное улучшение в оценке EM по сравнению с сильными базовыми моделями. На бенчмарке KILT CoRAG устанавливает новый рекорд производительности в широком спектре задач, требующих знаний. Кроме того, мы предлагаем комплексный анализ для понимания поведения масштабирования CoRAG, заложив основу для будущих исследований, направленных на разработку фактических и обоснованных моделей базовых знаний.
Критика важна для улучшения производительности больших языковых моделей (LLM), обеспечивая как самосовершенствование, так и конструктивную обратную связь для других путем выявления недостатков и предложения улучшений. Однако оценка возможностей критики LLM представляет собой значительное испытание из-за открытой природы задачи. В данной работе мы представляем новый бенчмарк, разработанный для оценки возможностей критики LLM. В отличие от существующих бенчмарков, которые обычно функционируют в открытом цикле, наш подход использует методику закрытого цикла, которая оценивает качество исправлений, сгенерированных из критик. Более того, бенчмарк включает функции, такие как самокритика, кросс-критика и итеративная критика, которые являются важными для различения способностей продвинутых моделей рассуждения от более классических. Мы реализуем этот бенчмарк, используя восемь сложных задач рассуждения. У нас есть несколько интересных результатов. Во-первых, несмотря на демонстрацию сопоставимой производительности в прямом порождении цепочки мыслей, классические LLM значительно отстают от продвинутой модели на основе рассуждений o1-mini во всех сценариях критики. Во-вторых, в настройках самокритики и итеративной критики классические LLM могут даже показывать худшую производительность по сравнению с их базовыми возможностями. Мы надеемся, что этот бенчмарк послужит ценным ресурсом для направления будущих усовершенствований. Код и данные доступны по ссылке https://github.com/tangzhy/RealCritic.
С быстрым развитием Многомодальных Больших Языковых Моделей (MLLM) и изменяющимися требованиями отрасли количество ежегодно создаваемых бенчмарков взлетело на сотни. Быстрый рост неизбежно привел к значительной избыточности среди бенчмарков. Поэтому крайне важно отойти на шаг назад, критически оценить текущее состояние избыточности и предложить целенаправленные принципы для создания эффективных бенчмарков MLLM. В данной статье мы сосредотачиваемся на избыточности с трех ключевых точек зрения: 1) Избыточность измерений возможностей бенчмарка, 2) Избыточность в количестве тестовых вопросов и 3) Избыточность между бенчмарками в конкретных областях. Через всесторонний анализ производительности сотен MLLM на более чем 20 бенчмарках мы стремимся количественно измерить уровень избыточности, присутствующей в существующих оценках MLLM, предоставить ценные идеи для направления будущего развития бенчмарков MLLM и предложить стратегии для эффективного устранения проблем избыточности.
Что если искусственный интеллект смог бы не только решать задачи, для которых он был обучен, но также научиться самостоятельно учиться решать новые задачи (т.е. мета-обучение)? В данном исследовании мы демонстрируем, что предварительно обученный трансформер, донастроенный с помощью обучения с подкреплением на протяжении нескольких эпизодов, развивает способность решать задачи, с которыми он никогда ранее не сталкивался - вновь возникающая способность, называемая Обучением с подкреплением в контексте (ICRL). Этот мощный мета-обучающийся не только превосходит в решении невидимых внутри распределения сред с замечательной эффективностью использования выборки, но также проявляет высокую производительность в средах вне распределения. Кроме того, мы показываем, что он обладает устойчивостью к качеству своих обучающих данных, плавно объединяет поведения из своего контекста и адаптируется к нестационарным средам. Эти поведения демонстрируют, что трансформер, обученный с помощью обучения с подкреплением, может итеративно улучшать свои собственные решения, что делает его отличным универсальным решателем проблем.
Мы предлагаем метод моделирования переосвещаемых трехмерных анимированных аватаров с использованием Гауссовых кодеков для полного тела, включающих детализацию лица и рук. Уникальная сложность переосвещения трехмерных аватаров заключается в больших деформациях, вызванных артикуляцией тела, и их влиянии на внешний вид из-за переноса света. Изменения в позе тела могут радикально изменить ориентацию поверхностей тела относительно источников света, что приводит как к локальным изменениям внешнего вида из-за изменений в локальных функциях переноса света, так и к нелокальным изменениям из-за заслонения между частями тела. Для решения этой проблемы мы декомпозируем перенос света на локальные и нелокальные эффекты. Локальные изменения внешнего вида моделируются с использованием обучаемых зональных гармоник для диффузного переноса излучения. В отличие от сферических гармоник, зональные гармоники эффективно поворачиваются при артикуляции. Это позволяет нам обучать диффузный перенос излучения в локальной координатной системе, что разделяет локальный перенос излучения от артикуляции тела. Для учета нелокальных изменений внешнего вида мы вводим сеть теней, которая предсказывает тени на основе предварительно вычисленной падающей инсоляции на базовой сетке. Это облегчает обучение нелокального затенения между частями тела. Наконец, мы используем подход отложенного затенения для моделирования спекулярного переноса излучения и более точного захвата отражений и мерцаний, таких как блики в глазах. Мы демонстрируем, что наш метод успешно моделирует как локальный, так и нелокальный перенос света, необходимый для переосвещаемых трехмерных аватаров с полным телом, обладая превосходной обобщающей способностью при новых условиях освещения и неизвестных позах.
Системы здравоохранения непрерывно генерируют огромные объемы электронных медицинских записей (EHR), обычно хранящихся в стандарте Fast Healthcare Interoperability Resources (FHIR). Несмотря на богатство информации в этих записях, их сложность и объем затрудняют пользователей в извлечении и интерпретации важных медицинских данных. Недавние достижения в области крупных языковых моделей (LLM) предлагают решение, позволяя осуществлять семантический вопросно-ответный анализ (QA) медицинских данных, что позволяет пользователям более эффективно взаимодействовать со своими медицинскими записями. Однако обеспечение конфиденциальности и соответствия требует использования LLM на краю и в частных средах. В данной статье предлагается новый подход к семантическому QA по EHR путем первоначальной идентификации наиболее релевантных ресурсов FHIR для запроса пользователя (Задача 1) и последующего ответа на запрос на основе этих ресурсов (Задача 2). Мы исследуем производительность LLM, настроенных на работу в частных средах, сравнивая их с базовыми моделями, такими как GPT-4 и GPT-4o. Наши результаты показывают, что настроенные LLM, в 250 раз меньшие по размеру, превосходят модели семейства GPT-4 на 0,55% по показателю F1 на Задаче 1 и на 42% по показателю Meteor Task на Задаче 2. Кроме того, мы рассматриваем продвинутые аспекты использования LLM, включая последовательное настройку, самооценку модели (некроцентрическую оценку) и влияние размера обучающих данных на производительность. Модели и наборы данных доступны здесь: https://huggingface.co/genloop
Недавние достижения в области крупных мультимодальных моделей (LMM) признали тонкую привязку как неотъемлемый фактор визуального понимания и диалога. Однако преимущества такого представления в LMM ограничены областью естественных изображений, и эти модели плохо справляются с дистанционным зондированием (RS). Отличительные видовые точки зрения, изменение масштаба и наличие мелких объектов на изображениях высокого разрешения RS представляют собой уникальное испытание в понимании уровня региона. Более того, развитие возможности ведения диалога с привязкой LMM в RS затруднено отсутствием детализированных, специфичных для RS, привязанных данных. Решая эти ограничения, мы предлагаем GeoPixel - первую полностью интегрированную высокоразрешающую RS-LMM, поддерживающую привязку на уровне пикселей. Эта возможность позволяет тонкое визуальное восприятие путем генерации чередующихся масок в разговоре. GeoPixel поддерживает разрешение до 4K HD в любом соотношении сторон, идеально подходит для анализа изображений высокой точности RS. Для поддержки генерации привязанного разговора (GCG) на изображениях RS мы составляем визуально привязанный набор данных GeoPixelD через полуавтоматизированный конвейер, который использует набор меток и пространственные априори, настроенные на данные RS, для методичного контроля процесса генерации данных. GeoPixel демонстрирует превосходную производительность в понимании на уровне пикселей, превосходя существующие LMM как в задачах сегментации одной цели, так и множественных целей. Наши методологические исследования абляции подтверждают эффективность каждого компонента в общей архитектуре. Наш код и данные будут общедоступно опубликованы.
Модели основанные на зрительном восприятии, в частности, семейство ViT, революционизировали понимание изображений, предоставляя богатые семантические особенности. Однако, несмотря на их успех в понимании 2D, их способности в понимании трехмерных пространственных отношений до сих пор остаются неясными. В данной работе мы оцениваем и улучшаем трехмерное восприятие моделей на основе ViT. Мы начинаем систематическую оценку их способности к изучению трехмерных эквивариантных особенностей, в частности, изучая согласованность семантических вложений при различных точках зрения. Наши результаты указывают на то, что улучшенная трехмерная эквивариантность приводит к лучшей производительности на различных задачах, включая оценку позы, отслеживание и семантическую передачу. Основываясь на этом выводе, мы предлагаем простую, но эффективную стратегию донастройки на основе трехмерных соответствий, которая значительно улучшает понимание трехмерных соответствий существующих моделей зрения. Замечательно, что даже донастройка на один объект всего за одну итерацию приводит к существенному увеличению производительности. Весь код и ресурсы будут общедоступны для поддержки дальнейших усовершенствований в моделях зрения, осведомленных о трехмерном пространстве. Наш код доступен по ссылке https://github.com/qq456cvb/3DCorrEnhance.
Технология виртуальной примерки (VTON) привлекла внимание благодаря своему потенциалу трансформировать онлайн-розницу, обеспечивая реалистичную визуализацию одежды на изображениях и видео. Однако большинство существующих методов испытывают трудности в достижении высококачественных результатов в задачах примерки на изображениях и видео, особенно в длинных видео-сценариях. В данной работе мы представляем CatV2TON, простой и эффективный метод виртуальной примерки на основе зрения (V2TON), который поддерживает как задачи примерки на изображениях, так и видео с использованием единой модели трансформера диффузии. Путем временного объединения входных данных о предмете одежды и человеке и обучения на смешанных наборах данных изображений и видео CatV2TON достигает надежного выполнения задач примерки как в статических, так и в динамических условиях. Для эффективной генерации длинных видео мы предлагаем стратегию вывода на основе перекрывающихся видеоклипов, которая использует последовательное руководство кадрами и адаптивную нормализацию клипов (AdaCN) для поддержания временной последовательности с уменьшенными требованиями к ресурсам. Мы также представляем ViViD-S, улучшенный набор данных для видео-примерки, достигнутый путем фильтрации обратных камерных кадров и применения сглаживания 3D-масок для улучшения временной последовательности. Комплексные эксперименты демонстрируют, что CatV2TON превосходит существующие методы как в задачах примерки на изображениях, так и видео, предлагая универсальное и надежное решение для реалистичной виртуальной примерки в различных сценариях.
В процессе захвата изображения часто возникают различные формы деградации, такие как шум, дымка и дождь. Эти деградации обычно возникают из-за врожденных ограничений камер или неблагоприятных окружающих условий. Для восстановления чистых изображений из деградированных версий было разработано множество специализированных методов восстановления, каждый из которых нацелен на определенный тип деградации. Недавно все-в-одном алгоритмы привлекли значительное внимание, обрабатывая различные типы деградации в рамках одной модели без необходимости заранее знать тип входной деградации. Однако эти методы работают исключительно в пространственной области и не затрагивают различные частотные изменения, присущие различным типам деградации. Для заполнения этого пробела мы предлагаем адаптивную все-в-одном сеть восстановления изображений на основе частотного анализа и модуляции. Наш подход мотивирован наблюдением, что различные типы деградации влияют на содержимое изображения в различных частотных поддиапазонах, что требует различных подходов к каждой задаче восстановления. Конкретно, мы сначала анализируем низкочастотную и высокочастотную информацию из входных признаков, управляемые адаптивно разделенными спектрами деградированного изображения. Полученные признаки затем модулируются двунаправленным оператором для облегчения взаимодействия между различными частотными компонентами. Наконец, модулированные признаки объединяются с исходным входом для пошагового направленного восстановления. С помощью этого подхода модель достигает адаптивной реконструкции, акцентируя информативные частотные поддиапазоны в зависимости от различных входных деградаций. Обширные эксперименты показывают, что предложенный метод достигает передового качества на различных задачах восстановления изображений, включая уменьшение шума, удаление дымки, удаление дождя, устранение размытия движения и улучшение изображений при недостаточной освещенности. Наш код доступен по ссылке https://github.com/c-yn/AdaIR.
Хотя методы восстановления изображений на основе обучения достигли значительного прогресса, они все еще сталкиваются с ограниченной обобщаемостью к реальным сценариям из-за существенного разрыва доменов, вызванного обучением на синтетических данных. Существующие методы решают эту проблему путем улучшения конвейеров синтеза данных, оценки ядер деградации, использования глубокого внутреннего обучения, а также выполнения адаптации домена и регуляризации. Предыдущие методы адаптации домена стремились устранить разрыв доменов, обучаясь на доменно-инвариантных знаниях либо в пространстве признаков, либо в пространстве пикселей. Однако эти техники часто испытывают трудности в расширении на задачи низкоуровневого зрения в рамках стабильной и компактной структуры. В данной статье мы показываем, что возможно выполнять адаптацию домена через пространство шума с использованием моделей диффузии. В частности, используя уникальное свойство того, как вспомогательные условные входы влияют на многошаговый процесс устранения шума, мы вывели содержательную функцию потерь диффузии, которая направляет модель восстановления в постепенном выравнивании как восстановленных синтетических, так и реальных выходов с целевым чистым распределением. Мы называем этот метод адаптацией через устранение шума. Для предотвращения укорачивания пути во время совместного обучения мы представляем важные стратегии, такие как слой перестановки каналов и контрастное обучение с перестановкой остатков в модели диффузии. Они неявно размывают границы между условными синтетическими и реальными данными и предотвращают зависимость модели от легко различимых признаков. Экспериментальные результаты на трех классических задачах восстановления изображений, а именно устранение шума, размытие и удаление дождя, демонстрируют эффективность предложенного метода.