Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

HtmlRAG: HTML лучше, чем обычный текст, для моделирования извлеченных знаний в системах RAG
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

Nov 5

ByJiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen

Использование метода Генерации с извлечением информации (RAG) показало улучшение возможностей по работе с знаниями и смягчение проблемы галлюцинаций в языковых моделях с ограниченной памятью. Веб является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, используют поисковые системы в Интернете в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-исходники результатов, а затем извлекают обычный текст из HTML-исходников. Документы в виде обычного текста или их фрагменты подаются на вход языковым моделям с ограниченной памятью для улучшения генерации. Однако во время этого процесса RAG на основе обычного текста теряется значительная часть структурной и семантической информации, содержащейся в HTML, такой как заголовки и таблицы. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо обычного текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше подходит для моделирования знаний во внешних документах, и большинство языковых моделей обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительное содержимое, такое как теги, JavaScript и CSS-спецификации, которые добавляют дополнительные токены и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы сократить объем HTML, минимизируя потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе блокового дерева, который удаляет бесполезные блоки HTML и сохраняет только соответствующую часть HTML. Эксперименты на шести наборах данных для вопросно-ответных систем подтверждают превосходство использования HTML в системах RAG.

LLaMo: Ассистент по молекулярным графам на основе большой языковой модели
LLaMo: Large Language Model-based Molecular Graph Assistant

Oct 31

ByJinyoung Park, Minseong Bae, Dohwan Ko, Hyunwoo J. Kim

Большие языковые модели (LLM) продемонстрировали выдающиеся обобщающие и способности к следованию инструкциям с настройкой инструкций. Прогресс в области LLM и настройки инструкций привел к разработке больших моделей видео-языкового восприятия (LVLM). Однако компетентность LLM и настройки инструкций меньше исследована в молекулярной области. Поэтому мы предлагаем LLaMo: молекулярный графический ассистент на основе большой языковой модели, обученной end-to-end. Для устранения разрыва между языковыми и графическими модальностями мы представляем многоуровневый графический проектор, который преобразует графические представления в графические токены, абстрагируя выходные представления каждого слоя GNN и мотивные представления с механизмом кросс-внимания. Мы также вводим машинно-сгенерированные данные инструкций молекулярных графов для настройки инструкций большой молекулярной графической языковой модели для понимания молекул и языка общего назначения. Наши обширные эксперименты показывают, что LLaMo демонстрирует лучшую производительность на различных задачах, таких как генерация описания молекул, предсказание свойств и предсказание имен IUPAC. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.

Управление языковыми и диффузионными моделями путем передачи активаций.
Controlling Language and Diffusion Models by Transporting Activations

Oct 30

ByPau Rodriguez, Arno Blaas, Michal Klein, Luca Zappella, Nicholas Apostoloff, Marco Cuturi, Xavier Suau

Увеличение возможностей крупных генеративных моделей и их все более широкое применение вызвали опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние работы предложили контролировать генерацию модели путем управления активациями модели для эффективного индукции или предотвращения появления концепций или поведения в сгенерированном выводе. В данной статье мы представляем Activation Transport (AcT), общую концепцию управления активациями, основанную на теории оптимального транспорта, которая обобщает многие предыдущие работы по управлению активациями. AcT не зависит от модальности и обеспечивает тонкое управление поведением модели с незначительной вычислительной нагрузкой, минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в крупных языковых моделях (LLM) и моделях диффузии текста в изображение (T2I). Для LLM мы показываем, что AcT может эффективно смягчать токсичность, индуцировать произвольные концепции и увеличивать их достоверность. В T2I мы показываем, как AcT обеспечивает тонкое управление стилем и отрицанием концепций.

DeeR-VLA: Динамическое вывод мультимодальных больших языковых моделей для эффективного выполнения роботом.
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

Nov 4

ByYang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang

Модели на основе машинного обучения с механизмом внимания продемонстрировали выдающиеся способности к пониманию и рассуждениям с использованием сложных языковых и визуальных данных. Эти достижения подтолкнули идею создания универсального робота-специалиста MLLM, способного понимать сложные человеческие инструкции и выполнять различные задачи воплощенного действия. Однако разработка MLLM для реальных роботов представляет собой сложную задачу из-за ограниченных вычислительных и памятных возможностей, доступных на робототехнических платформах. В отличие от этого, вывод MLLM включает в себя хранение миллиардов параметров и выполнение огромных вычислений, что накладывает значительные аппаратные требования. В нашей статье мы предлагаем Динамическую Систему Преждевременного Выхода для Модели Видение-Язык-Действие (DeeR-VLA, или просто DeeR), которая автоматически регулирует размер активированной MLLM в зависимости от каждой конкретной ситуации. Подход использует многовыходовую архитектуру в MLLM, что позволяет модели завершить обработку, как только для конкретной ситуации активирован правильный размер модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разрабатываем новые алгоритмы, которые устанавливают критерии досрочного завершения для DeeR, зависящие от заранее определенных требований, таких как средние вычислительные затраты (т.е. энергопотребление), а также пиковое потребление вычислительных ресурсов (т.е. задержка) и использование памяти GPU. Эти улучшения гарантируют, что DeeR эффективно функционирует при различных ограничениях ресурсов, сохраняя конкурентоспособную производительность. На бенчмарке по манипуляции роботом CALVIN DeeR демонстрирует значительное снижение вычислительных затрат MLLM на 5,2-6,5 раз и использования памяти GPU MLLM на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны на https://github.com/yueyang130/DeeR-VLA.

Адаптивная токенизация изображений переменной длины с помощью рекуррентного выделения.
Adaptive Length Image Tokenization via Recurrent Allocation

Nov 4

ByShivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman

В текущих системах компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержащейся информации. Это в отличие от человеческого интеллекта - и даже от крупных языковых моделей - которые выделяют различные объемы представлений на основе энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщик-декодировщик рекурсивно обрабатывает токены двумерных изображений, уплотняя их в одномерные латентные токены на протяжении нескольких итераций рекуррентных прокруток. Каждая итерация улучшает двумерные токены, обновляет существующие одномерные латентные токены и адаптивно увеличивает объем представления путем добавления новых токенов. Это позволяет сжимать изображения в переменное количество токенов, варьирующееся от 32 до 256. Мы проверяем наш токенизатор с помощью потерь при восстановлении и метрик FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям задач на следующем этапе. Рекуррентная обработка токенов с увеличением объема представления на каждой итерации показывает признаки специализации токенов, раскрывая потенциал для обнаружения объектов / частей.

Эффективное выравнивание для LLMs
Sample-Efficient Alignment for LLMs

Nov 3

ByZichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin

Мы изучаем методы эффективного выравнивания больших языковых моделей (LLM) с предпочтениями человека при наличии ограниченной обратной связи в реальном времени. Сначала мы формулируем проблему выравнивания LLM в рамках контекстуальных дуэльных бандитов. Эта формулировка, включающая недавние парадигмы, такие как онлайн RLHF и онлайн DPO, неотъемлемо стремится к алгоритмам, эффективным по образцам, которые включают онлайн активное исследование. Основываясь на идеях теории бандитов, мы представляем унифицированный алгоритм на основе выборки Томпсона и выделяем его применение в двух различных сценариях выравнивания LLM. Практический агент, который эффективно реализует этот алгоритм, названный SEA (Sample-Efficient Alignment), эмпирически проверен через обширные эксперименты на трех масштабах моделей (1B, 2.8B, 6.9B) и тремя алгоритмами обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокоэффективного выравнивания с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы предоставляем реализацию SEA вместе с эффективной кодовой базой, разработанной для онлайн выравнивания LLM, с целью ускорения будущих исследований в этой области.

DreamPolish: Сжатие оценки домена с прогрессивной генерацией геометрии
DreamPolish: Domain Score Distillation With Progressive Geometry Generation

Nov 3

ByYean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi

Мы представляем DreamPolish, модель генерации текста в 3D, которая отличается в создании изысканной геометрии и текстур высокого качества. На этапе построения геометрии наш подход использует несколько нейронных представлений для улучшения стабильности процесса синтеза. Вместо полного полагания на диффузионный априори, зависящий от вида, в новых выборочных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для отделки деталей геометрии, зависящий от точек зрения с различными углами обзора. Мы предлагаем добавить этап отделки поверхности с небольшим количеством обучающих шагов, который может эффективно улучшить артефакты, обусловленные ограниченным руководством предыдущих этапов, и создавать 3D-объекты с более желательной геометрией. Основная тема генерации текстуры с использованием предварительно обученных моделей текст-изображение заключается в поиске подходящей области в обширном латентном распределении этих моделей, содержащей фотореалистичные и последовательные рендеринги. На этапе генерации текстуры мы вводим новую цель дистилляции оценки, а именно дистилляцию оценки области (DSD), чтобы направлять нейронные представления к такой области. Мы черпаем вдохновение из руководства без классификатора (CFG) в задачах генерации изображений, зависящих от текста, и показываем, что CFG и руководство вариационным распределением представляют различные аспекты в руководстве градиентами и являются обеими неотъемлемыми областями для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель способна создавать 3D-объекты с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие передовые методы.

GarVerseLOD: Высококачественная трехмерная реконструкция одежды из одного изображения в естественной среде с использованием набора данных с уровнями деталей
GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details

Nov 5

ByZhongjin Luo, Haolin Liu, Chenghong Li, Wanghao Du, Zirong Jin, Wanhu Sun, Yinyu Nie, Weikai Chen, Xiaoguang Han

Нейронные неявные функции принесли впечатляющие прорывы в современное состояние искусства цифровой дигитализации одетого человека по множеству или даже одному изображению. Однако, несмотря на прогресс, текущие методы все еще испытывают трудности с обобщением на невидимые изображения с сложными деформациями одежды и позами тела. В данной работе мы представляем GarVerseLOD, новый набор данных и фреймворк, который открывает путь к достижению беспрецедентной устойчивости в высококачественной трехмерной реконструкции одежды из одного неконтролируемого изображения. Вдохновленные недавними успехами крупных генеративных моделей, мы считаем, что одним из ключей к решению проблемы обобщения является количество и качество трехмерных данных об одежде. Для этой цели GarVerseLOD собирает 6 000 моделей одежды высокого качества с тонкими деталями геометрии, созданных вручную профессиональными художниками. Помимо масштаба обучающих данных, мы замечаем, что наличие разделенных гранулярностей геометрии может сыграть важную роль в увеличении способности к обобщению и точности вывода обученной модели. Мы поэтому создаем GarVerseLOD как иерархический набор данных с уровнями деталей (LOD), охватывающий от детализированной стилизованной формы до позы-смешанной одежды с деталями, выровненными по пикселям. Это позволяет нам сделать эту высоко недоопределенную проблему управляемой путем факторизации вывода на более простые задачи, каждая из которых сужена с помощью более маленького пространства поиска. Для обеспечения хорошего обобщения GarVerseLOD на изображения в естественной среде мы предлагаем новую парадигму разметки на основе условных моделей диффузии для генерации обширных парных изображений для каждой модели одежды с высоким фотореализмом. Мы оцениваем наш метод на огромном количестве изображений в естественной среде. Экспериментальные результаты демонстрируют, что GarVerseLOD способен генерировать отдельные элементы одежды с значительно лучшим качеством, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/

Оптимальные для вывода VLM требуют только одного визуального токена, но более крупные модели.
Inference Optimal VLMs Need Only One Visual Token but Larger Models

Nov 5

ByKevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter

Модели языка зрения (VLM) продемонстрировали высокие возможности в различных задачах визуального понимания и рассуждений. Однако их применение в реальном мире часто ограничено высокой задержкой во время вывода из-за значительных вычислительных затрат, необходимых для обработки большого количества входных токенов (преимущественно изображения) LLM. Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, последнее стало объектом изучения многих недавних работ по сжатию токенов. Однако неясно, какой оптимальный компромисс, поскольку оба фактора прямо влияют на производительность VLM. Сначала мы характеризуем этот оптимальный компромисс между количеством визуальных токенов и параметрами LLM, установив законы масштабирования, отражающие изменения производительности с учетом этих двух факторов. Наши результаты показывают удивительную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLM, т.е. минимальная ошибка на любом фиксированном вычислительном ресурсе вывода, достигается при использовании самого большого LLM, который укладывается в бюджет вывода, минимизируя количество визуальных токенов - часто до одного токена. В то время как литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты показывают, что оптимальный режим вывода с точки зрения вычислительных затрат требует работы даже при более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы предпринимаем первые шаги к созданию подходов, адаптированных для настроек с высоким сжатием токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.

Zebra-Llama: Контекстно-ориентированная большая языковая модель для демократизации знаний о редких заболеваниях
Zebra-Llama: A Context-Aware Large Language Model for Democratizing Rare Disease Knowledge

Nov 4

ByKarthik Soman, Andrew Langdon, Catalina Villouta, Chinmay Agrawal, Lashaw Salta, Braian Peetoom, Gianmarco Bellucci, Orion J Buske

Редкие заболевания представляют уникальные вызовы в здравоохранении, часто сталкивающиеся с задержкой диагностики и фрагментированными информационными ландшафтами. Дефицит надежных знаний по этим состояниям представляет собой особый вызов для больших языковых моделей (LLM) в поддержке клинического управления и предоставлении точной информации о пациентах, подчеркивая необходимость сосредоточенного обучения на этих "зебра" случаях. Мы представляем Zebra-Llama, специализированную контекстно-ориентированную языковую модель с высокой точностью возможности Retrieval Augmented Generation (RAG), сосредоточенную на синдроме Элерса-Данлоса (EDS) как нашем кейс-исследовании. EDS, затрагивающий 1 из 5 000 человек, иллюстрирует сложности редких заболеваний своими разнообразными симптомами, множеством подтипов и развивающимися диагностическими критериями. Путем реализации новой методологии тонкой настройки, ориентированной на контекст и обученной на вопросах, происходящих из медицинской литературы, опыта пациентов и клинических ресурсов, вместе с экспертно отобранными ответами, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обоими моделями, показав значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенный в качестве ресурса с открытым исходным кодом, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает рамки для разработки специализированных ИИ-решений для других редких состояний. Эта работа представляет собой важный шаг к демократизации экспертных знаний в управлении редкими заболеваниями, потенциально изменяя способ, которым провайдеры здравоохранения и пациенты ориентируются в сложном ландшафте редких заболеваний.

Корреляция производительности обнаружения объектов с визуальной выразительностью и оценкой глубины.
Correlation of Object Detection Performance with Visual Saliency and Depth Estimation

Nov 5

ByMatthias Bartolo, Dylan Seychell

Поскольку техники обнаружения объектов продолжают развиваться, понимание их взаимосвязи с дополнительными визуальными задачами становится важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя фундаментальными визуальными задачами: предсказанием глубины и предсказанием визуальной выразительности. Через комплексные эксперименты с использованием передовых моделей (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC мы обнаружили, что визуальная выразительность показывает последовательно более сильные корреляции с точностью обнаружения объектов (mArho до 0,459 на Pascal VOC) по сравнению с предсказанием глубины (mArho до 0,283). Наш анализ выявляет значительные вариации в этих корреляциях по категориям объектов, причем более крупные объекты показывают значения корреляции в три раза выше, чем более мелкие объекты. Эти результаты подтверждают, что включение признаков визуальной выразительности в архитектуры обнаружения объектов может быть более полезным, чем информация о глубине, особенно для определенных категорий объектов. Наблюдаемые категорий-специфические вариации также предоставляют информацию для целевой инженерии признаков и улучшений дизайна наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.