Ежедневно отобранные исследовательские статьи по ИИ с переводами
Веб-автоматизация является значительной техникой, которая выполняет сложные веб-задачи путем автоматизации обычных веб-действий, повышая операционную эффективность и уменьшая необходимость в ручном вмешательстве. Традиционные методы, такие как обертки, страдают от ограниченной адаптивности и масштабируемости при столкновении с новым веб-сайтом. С другой стороны, генеративные агенты, усиленные большими языковыми моделями (LLM), проявляют плохую производительность и повторное использование в сценариях открытого мира. В данной работе мы представляем задачу генерации веб-сканера для вертикальных информационных веб-страниц и парадигму комбинирования LLM с веб-сканерами, что помогает сканерам более эффективно обрабатывать разнообразные и изменяющиеся веб-среды. Мы предлагаем AutoCrawler, двухэтапную структуру, которая использует иерархическую структуру HTML для пошагового понимания. Через операции сверху вниз и шаги назад AutoCrawler может учиться на ошибках и непрерывно обрезать HTML для лучшей генерации действий. Мы проводим комплексные эксперименты с несколькими LLM и демонстрируем эффективность нашей структуры. Ресурсы этой статьи можно найти по адресу https://github.com/EZ-hwh/AutoCrawler.
Мы представляем Groma, Мультимодельную Большую Языковую Модель (MLLM) с обоснованной и детализированной способностью к визуальному восприятию. Помимо голистического понимания изображений, Groma умело выполняет задачи на уровне регионов, такие как описание регионов и визуальное привязывание. Такие возможности основаны на механизме локализованной визуальной токенизации, где входное изображение разбивается на области интереса и последующим образом кодируется в региональные токены. Интегрируя региональные токены в инструкции пользователя и ответы модели, мы плавно позволяем Groma понимать указанные пользователем региональные входы и привязывать свой текстовый вывод к изображениям. Кроме того, для улучшения способности Groma к обоснованному чату, мы составляем набор данных с визуально обоснованными инструкциями, используя мощные техники GPT-4V и визуальные подсказки. По сравнению с MLLM, которые полагаются на языковую модель или внешний модуль для локализации, Groma последовательно демонстрирует превосходные результаты в стандартных бенчмарках по ссылочной и привязывающей задачам, подчеркивая преимущества внедрения локализации в токенизацию изображений. Страница проекта: https://groma-mllm.github.io/.
Визуальное вопросно-ответное моделирование на основе текста (VQA) сделало значительные успехи с развитием Мультимодальных Больших Языковых Моделей (MLLMs), однако открытые модели все еще уступают ведущим моделям, таким как GPT4V и Gemini, частично из-за недостатка обширных данных для настройки инструкций высокого качества. В этой связи мы представляем новый подход к созданию массивного набора данных для настройки инструкций высокого качества, Square-10M, который создан с использованием закрытых источников MLLMs. Процесс создания данных, названный Square, состоит из четырех этапов: Самопоставление вопросов, Ответы, Обоснование и Оценка. Наши эксперименты с Square-10M привели к трем ключевым результатам: 1) Наша модель, TextSquare, значительно превосходит открытые предыдущие лучшие модели MLLMs на основе текста и устанавливает новый стандарт на OCRBench (62.2%). Она даже превосходит модели верхнего уровня, такие как GPT4V и Gemini, в 6 из 10 тестов на основе текста. 2) Кроме того, мы демонстрируем критическую роль данных рассуждения VQA в предоставлении всесторонних контекстуальных идей для конкретных вопросов. Это не только повышает точность, но также значительно снижает галлюцинации. В частности, TextSquare набирает в среднем 75.1% по четырем общим наборам данных VQA и оценки галлюцинаций, превосходя предыдущие лучшие модели. 3) Особенно заметное явление, наблюдаемое при масштабировании наборов данных VQA на основе текста, показывает яркий паттерн: экспоненциальный рост объема данных для настройки инструкций прямо пропорционален улучшению производительности модели, что подтверждает необходимость масштаба набора данных и высокого качества Square-10M.
Реалистичное взаимодействие объектов является ключевым для создания захватывающих виртуальных переживаний, однако синтез реалистичной динамики 3D объектов в ответ на новые взаимодействия остается значительным вызовом. В отличие от безусловной или условной текстом генерации динамики, динамика, зависящая от действий, требует восприятия физических свойств материала объектов и опоры прогнозирования движения 3D на этих свойствах, таких как жесткость объекта. Однако оценка физических свойств материала является открытой проблемой из-за отсутствия данных о фактических свойствах материала, поскольку измерение этих свойств для реальных объектов является крайне сложным. Мы представляем PhysDreamer, физически основанный подход, который наделяет статические 3D объекты интерактивной динамикой, используя знания о динамике объектов приобретенные моделями генерации видео. Путем дистилляции этих знаний, PhysDreamer позволяет синтезировать реалистичные ответы объектов на новые взаимодействия, такие как внешние силы или манипуляции агентов. Мы демонстрируем наш подход на различных примерах упругих объектов и оцениваем реализм синтезированных взаимодействий с помощью пользовательского исследования. PhysDreamer делает шаг к более увлекательным и реалистичным виртуальным переживаниям, позволяя статическим 3D объектам динамически реагировать на интерактивные стимулы в физически правдоподобной манере. Посетите нашу страницу проекта по адресу https://physdreamer.github.io/.
Переписывание запросов, направленное на создание более эффективных запросов путем изменения структуры SQL-запроса без изменения результата запроса, является важной проблемой исследований. Для поддержания эквивалентности между переписанным запросом и оригинальным во время переписывания традиционные методы переписывания запросов всегда переписывают запросы в соответствии с определенными правилами переписывания. Однако остаются некоторые проблемы. Во-первых, существующие методы поиска оптимального выбора или последовательности правил переписывания все еще ограничены, и процесс всегда требует много ресурсов. Методы, включающие обнаружение новых правил переписывания, обычно требуют сложных доказательств структурной логики или обширного взаимодействия с пользователем. Во-вторых, текущие методы переписывания запросов обычно сильно полагаются на оценщики стоимости СУБД, которые часто не точны. В данной статье мы решаем эти проблемы, предлагая новый метод переписывания запросов под названием LLM-R2, используя большую языковую модель (LLM) для предложения возможных правил переписывания для системы переписывания базы данных. Для дальнейшего улучшения способности LLM к рекомендации правил переписывания мы обучаем контрастную модель по курсу для изучения представлений запроса и выбора эффективных демонстраций запроса для LLM. Экспериментальные результаты показали, что наш метод значительно улучшает эффективность выполнения запроса и превосходит базовые методы. Кроме того, наш метод обладает высокой устойчивостью на различных наборах данных.
3D Гауссово сглаживание недавно было принято как универсальный и эффективный метод для реконструкции сцен и синтеза нового вида благодаря своим высококачественным результатам и совместимости с аппаратным растеризацией. Несмотря на его преимущества, зависимость Гауссова сглаживания от высококачественной инициализации облака точек алгоритмами структуры из движения (SFM) является значительным ограничением, которое нужно преодолеть. В этом контексте мы исследуем различные стратегии инициализации для Гауссова сглаживания и изучаем, как объемные реконструкции из нейронных полярных излучений (NeRF) могут быть использованы для обхода зависимости от данных SFM. Наши результаты показывают, что случайная инициализация может работать намного лучше, если она тщательно разработана, и что, используя комбинацию улучшенных стратегий инициализации и дистилляции структуры из недорогих моделей NeRF, можно достичь эквивалентных результатов, а иногда даже превосходящих те, которые получаются при инициализации SFM.
Недавно было предложено несколько техник автоматического исправления программ (APR) на основе больших языковых моделей (LLM) для улучшения производительности исправления. В то время как эти техники в основном сосредотачиваются на исправлении однострочных или кусковых участков, они сталкиваются с существенными проблемами в применении в реальном мире из-за ограниченного объема задач по исправлению и дорогостоящей локализации неисправностей на уровне оператора. Однако более практичное автоматическое исправление на уровне функций, которое расширяет область задач по исправлению до исправления целых ошибочных функций и требует только экономичной локализации неисправностей на уровне функций, остается недостаточно исследованным. В данной статье мы проводим первое всестороннее исследование автоматического исправления на уровне функций на основе LLM, включая изучение эффекта механизма обучения с малым количеством примеров и вспомогательной информации, связанной с исправлением. Конкретно, мы используем шесть широко изученных LLM и создаем бенчмарк как в наборе данных Defects4J 1.2, так и 2.0. Наше исследование показывает, что LLM с обучением с нулевым количеством примеров уже являются мощными техниками автоматического исправления на уровне функций, в то время как применение механизма обучения с малым количеством примеров приводит к различной производительности исправления. Более того, мы обнаруживаем, что прямое применение вспомогательной информации, связанной с исправлением, к LLM значительно повышает производительность исправления на уровне функций. Вдохновленные нашими результатами, мы предлагаем технику автоматического исправления на уровне функций на основе LLM, названную SRepair, которая использует двойную структуру LLM для использования мощи вспомогательной информации, связанной с исправлением, для улучшения производительности исправления. Результаты оценки показывают, что SRepair может правильно исправить 300 ошибок в одной функции в наборе данных Defects4J, значительно превосходя все предыдущие техники APR как минимум на 85%, без необходимости дорогостоящей информации о локализации неисправностей на уровне оператора. Более того, SRepair успешно исправляет 32 ошибки в многих функциях в наборе данных Defects4J, что впервые достигается какой-либо техникой APR, насколько нам известно.