Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обеспечение возможности LLM улучшать свои результаты за счет увеличения вычислительных ресурсов во время тестирования является критическим шагом к созданию в целом самоулучшающихся агентов, способных работать с открытым естественным языком. В данной статье мы изучаем масштабирование вычислений во время вывода в LLM с акцентом на ответ на вопрос: если LLM может использовать фиксированное, но значительное количество вычислительных ресурсов во время вывода, насколько он может улучшить свою производительность на сложном запросе? Ответ на этот вопрос имеет значение не только для достижимой производительности LLM, но также для будущего предварительного обучения LLM и того, как следует балансировать вычисления во время вывода и предварительного обучения. Несмотря на его важность, мало исследований предпринято для понимания масштабирования различных методов вывода во время тестирования. Более того, текущие работы в основном предоставляют отрицательные результаты для ряда из этих стратегий. В данной работе мы анализируем два основных механизма для масштабирования вычислений во время тестирования: (1) поиск по плотным моделям вознаграждения на основе процессов; и (2) обновление распределения модели по ответу адаптивно, учитывая запрос во время тестирования. Мы обнаруживаем, что в обоих случаях эффективность различных подходов к масштабированию вычислений во время тестирования критически изменяется в зависимости от сложности запроса. Это наблюдение мотивирует применение "вычислительно оптимальной" стратегии масштабирования, которая действует наиболее эффективно для адаптивного распределения вычислительных ресурсов во время тестирования для каждого запроса. Используя эту вычислительно оптимальную стратегию, мы можем улучшить эффективность масштабирования вычислений во время тестирования более чем в 4 раза по сравнению с базовым методом выбора лучшего из N. Кроме того, в рамках сопоставления FLOPs мы обнаруживаем, что на проблемах, где более маленькая базовая модель достигает относительно значительных успехов, вычисления во время тестирования могут использоваться для превзойти модель в 14 раз большего размера.
Способность обрабатывать несколько изображений является ключевой для крупных моделей видео-языка (LVLM), чтобы развить более полное и тонкое понимание сцены. Недавние многоизображенческие LVLM начали удовлетворять эту потребность. Однако их оценка не успевает за развитием. Для заполнения этого пробела мы представляем бенчмарк Мультимодального Многоизображенческого Понимания (MMIU), обширный набор оценок, разработанный для оценки LVLM в широком диапазоне многоизображенческих задач. MMIU охватывает 7 типов многоизображенческих отношений, 52 задачи, 77 тыс. изображений и 11 тыс. тщательно подобранных вопросов с выбором ответа, что делает его самым обширным бенчмарком такого рода. Наша оценка 24 популярных LVLM, включая как открытые, так и закрытые модели, показывает значительные вызовы в понимании многоизображений, особенно в задачах, связанных с пространственным пониманием. Даже самые передовые модели, такие как GPT-4o, достигают лишь 55,7% точности на MMIU. Через многофакторные аналитические эксперименты мы выявляем ключевые разрывы в производительности и ограничения, предоставляя ценные идеи для будущего улучшения моделей и данных. Мы стремимся к тому, чтобы MMIU продвигал границы исследований и разработки LVLM, приближаясь к созданию сложных мультимодальных многоизображенческих взаимодействий с пользователем.
Мы представляем LLaVA-OneVision, семейство открытых крупных мультимодальных моделей (LMM), разработанных на основе наших исследований в области данных, моделей и визуальных представлений в серии блогов LLaVA-NeXT. Наши экспериментальные результаты демонстрируют, что LLaVA-OneVision является первой одиночной моделью, способной одновременно расширять границы производительности открытых LMM в трех важных сценариях компьютерного зрения: сценариях одиночного изображения, множественных изображений и видео. Важно, что концепция LLaVA-OneVision позволяет эффективное обучение с передачей знаний между различными модальностями/сценариями, что приводит к появлению новых возможностей. В частности, сильное понимание видео и возможности межсценарного обучения демонстрируются через передачу задач от изображений к видео.
Мы представляем новый подход к созданию реалистичных 3D моделей с UV-отображениями через представление, названное "Объектные изображения". Этот подход включает геометрию поверхности, внешний вид и структуры патчей в изображение размером 64x64 пикселя, эффективно преобразуя сложные 3D формы в более управляемый 2D формат. Таким образом, мы решаем проблемы как геометрической, так и семантической нерегулярности, присущей полигональным сеткам. Этот метод позволяет использовать модели генерации изображений, такие как Диффузионные трансформеры, напрямую для генерации 3D форм. Оцененные на наборе данных ABO, наши созданные формы со структурами патчей достигают FID облака точек, сравнимого с недавними 3D генеративными моделями, естественно поддерживая генерацию материалов PBR.
В данной статье представлен MedTrinity-25M - обширный многомодальный набор данных по медицине, охватывающий более 25 миллионов изображений по 10 модальностям, с мультигранулярной аннотацией для более чем 65 заболеваний. Эти обогащенные аннотации включают как глобальную текстовую информацию, такую как тип заболевания/опухоли, модальность, регион-специфические описания и межрегиональные отношения, так и подробные локальные аннотации для областей интереса (ROI), включая ограничивающие рамки, маски сегментации. В отличие от существующего подхода, ограниченного наличием пар изображение-текст, мы разработали первый автоматизированный конвейер, который масштабирует многомодальные данные путем создания мультигранулярных визуальных и текстовых аннотаций (в виде троек изображение-ROI-описание) без необходимости парных текстовых описаний. Конкретно, данные из более чем 90 различных источников были собраны, предобработаны и основаны с использованием моделей экспертов в области домена для выявления ROI, связанных с аномальными областями. Затем мы создаем обширную базу знаний и стимулируем многомодальные крупномасштабные языковые модели для выполнения генерации с увеличенным поиском с использованием выявленных ROI в качестве руководства, что приводит к мультигранулярным текстовым описаниям. По сравнению с существующими наборами данных, MedTrinity-25M обеспечивает наиболее обогащенные аннотации, поддерживая широкий спектр многомодальных задач, таких как подписывание и генерация отчетов, а также задачи, связанные с зрением, такие как классификация и сегментация. Предварительное обучение на MedTrinity-25M позволяет нашей модели достичь передовой производительности на VQA-RAD и PathVQA, превзойдя как многомодальные крупномасштабные языковые модели, так и другие представительные подходы к передовой технологии. Этот набор данных также может быть использован для поддержки крупномасштабного предварительного обучения многомодальных медицинских моделей и способствовать развитию будущих базовых моделей в медицинской области.
Модели диффузии непрерывно продвигают границы генерации изображений новейшего уровня, однако процесс сложно контролировать с любым оттенком: практика доказывает, что текстовые подсказки недостаточны для точного описания стиля изображения или тонких структурных деталей (таких как лица). ControlNet и IPAdapter решают этот недостаток, условно настраивая процесс генерации на изображения вместо этого, но каждый отдельный экземпляр ограничен моделированием одного условного апостериорного распределения: для практических случаев использования, где требуется несколько различных апостериорных распределений в рамках одного и того же рабочего процесса, обучение и использование нескольких адаптеров затруднительно. Мы предлагаем IPAdapter-Instruct, который объединяет условное обучение на естественных изображениях с подсказками "Instruct" для переключения между интерпретациями для одного и того же условного изображения: перенос стиля, извлечение объекта, оба варианта или что-то другое? IPAdapterInstruct эффективно изучает несколько задач с минимальной потерей качества по сравнению с отдельными моделями для каждой задачи.
Существует растущая линия исследований по проверке корректности выводов языковых моделей. В то же время ЯМ используются для решения сложных запросов, требующих рассуждений. Мы представляем CoverBench - сложный бенчмарк, сосредоточенный на проверке выводов ЯМ в сложных сценариях рассуждений. Наборы данных, которые могут использоваться для этой цели, часто разрабатываются для других сложных задач рассуждений (например, QA), охватывающих конкретные случаи использования (например, финансовые таблицы), что требует преобразований, отрицательной выборки и выбора сложных примеров для создания такого бенчмарка. CoverBench обеспечивает разнообразную оценку сложной проверки утверждений в различных областях, типах рассуждений, относительно длинных входных данных, а также различных стандартизаций, таких как множественные представления для таблиц, где это возможно, и последовательную схему. Мы вручную проверяем данные на качество, чтобы обеспечить низкий уровень шума меток. Наконец, мы сообщаем о различных конкурентоспособных базовых результатов, чтобы показать, что CoverBench вызывает трудности и имеет значительный потенциал. Данные доступны по ссылке https://huggingface.co/datasets/google/coverbench.
Этот документ демонстрирует, как использовать генеративные модели, обученные для синтеза изображений, в качестве инструментов для визуального анализа данных. Наше открытие заключается в том, что поскольку современные генеративные модели учатся точному представлению своих обучающих данных, мы можем использовать их для обобщения данных путем поиска визуальных паттернов. Конкретно, мы показываем, что после донастройки условных моделей диффузии для синтеза изображений из определенного набора данных, мы можем использовать эти модели для определения меры типичности в этом наборе данных. Эта мера оценивает, насколько типичные визуальные элементы для различных меток данных, таких как географическое местоположение, временные метки, семантические метки или даже наличие заболевания. Этот подход анализа данных через синтез имеет два ключевых преимущества. Во-первых, он масштабируется намного лучше, чем традиционные подходы на основе сопоставления, поскольку не требует явного сравнения всех пар визуальных элементов. Во-вторых, в то время как большинство предыдущих работ по визуальному анализу данных сосредотачиваются на одном наборе данных, наш подход работает с разнообразными наборами данных по содержанию и масштабу, включая исторический набор данных по автомобилям, исторический набор данных по лицам, большой мировой набор данных уличных видов и еще более крупный набор данных сцен. Более того, наш подход позволяет переводить визуальные элементы между классовыми метками и анализировать последовательные изменения.
Видеоролики с синхронизацией губ по заданному аудио являются основой для различных приложений, включая создание виртуальных ведущих или исполнителей. В то время как недавние исследования исследуют высококачественную синхронизацию губ с использованием различных техник, их модели, ориентированные на задачу, либо требуют длительных видеороликов для обучения под конкретный клип, либо сохраняют видимые артефакты. В данной статье мы предлагаем объединенную и эффективную структуру ReSyncer, которая синхронизирует обобщенную аудиовизуальную информацию о лице. Ключевым моментом является пересмотр и переподключение генератора на основе стилей для эффективного принятия предсказанных 3D динамик лица с помощью принципиального трансформатора, внедренного в стиль. Простым переконфигурированием механизмов вставки информации в пространстве шума и стиля наша структура объединяет движение и внешний вид с единым обучением. Обширные эксперименты демонстрируют, что ReSyncer не только производит видеоролики с высоким качеством синхронизации губ в соответствии с аудио, но также поддерживает несколько привлекательных свойств, подходящих для создания виртуальных ведущих и исполнителей, включая быструю персонализированную донастройку, синхронизацию губ по видео, передачу стилей речи и даже обмен лицами. Ресурсы можно найти по адресу https://guanjz20.github.io/projects/ReSyncer.
Оценка является ключом к развитию крупных языковых моделей. В настоящее время оценки обычно используют парадигму оценки одним элементом для каждой атомарной цели тестирования, что затрудняет определение, обладает ли модель необходимыми возможностями или просто запоминает/угадывает ответы на конкретные вопросы. В этой связи мы предлагаем новую оценочную платформу под названием StructEval. Начиная с атомарной цели тестирования, StructEval углубляет и расширяет оценку, проводя структурированную оценку на различных когнитивных уровнях и ключевых концепциях, и поэтому предлагает всестороннюю, надежную и последовательную оценку для крупных языковых моделей. Эксперименты на трех широко используемых тестовых наборах данных показывают, что StructEval служит надежным инструментом для сопротивления риску загрязнения данных и снижения влияния потенциальных предвзятостей, обеспечивая более надежные и последовательные выводы относительно возможностей модели. Наша платформа также проливает свет на разработку будущих принципиальных и надежных протоколов оценки крупных языковых моделей.
Разрыв в возможностях между моделями крупного размера с открытым и закрытым исходным кодом (LLM) остается вызовом в задачах текста к SQL. В данной статье мы представляем подход с использованием синтетических данных, который объединяет данные, созданные более крупными и мощными моделями (сильные модели), с данными об информации об ошибках, сгенерированными менее мощными, не хорошо согласованными моделями (слабые модели). Этот метод не только улучшает обобщение области моделей текста к SQL, но и исследует потенциал надзора за данными об ошибках через обучение предпочтениям. Кроме того, мы используем подход с использованием синтетических данных для настройки инструкций на моделях LLM с открытым исходным кодом, что приводит к созданию модели SENSE, специализированной для текста к SQL. Эффективность SENSE продемонстрирована через передовые результаты на бенчмарках SPIDER и BIRD, сокращая разрыв в производительности между моделями с открытым исходным кодом и методами, вызванными моделями с закрытым исходным кодом.
Недавно модели на основе трансформеров продемонстрировали выдающуюся производительность в задачах аудиовизуальной сегментации (AVS). Однако их высокая вычислительная стоимость делает реальное время вывода нереальным. Анализируя карты внимания сети, мы выявляем две ключевые проблемы в моделях AVS: 1) диссипацию внимания, соответствующую излишне сосредоточенным весам внимания по Softmax в ограниченных кадрах, и 2) неэффективный, обременительный декодер трансформера, вызванный узкими образцами фокусировки на ранних этапах. В данной статье мы представляем AVESFormer, первый в реальном времени аудиовизуальный эффективный сегментационный трансформер, достигающий быстроты, эффективности и легкости одновременно. Наша модель использует эффективный генератор запросов для исправления поведения кросс-внимания. Кроме того, мы предлагаем декодер ELF для достижения большей эффективности путем облегчения сверток, подходящих для локальных особенностей, с целью снижения вычислительной нагрузки. Обширные эксперименты демонстрируют, что наш AVESFormer значительно улучшает производительность модели, достигая 79.9% на S4, 57.9% на MS3 и 31.2% на AVSS, превосходя предыдущие передовые технологии и достигая отличного компромисса между производительностью и скоростью. Код можно найти по ссылке https://github.com/MarkXCloud/AVESFormer.git.