Ежедневно отобранные исследовательские статьи по ИИ с переводами
Использование метода Генерации с извлечением информации (RAG) показало улучшение возможностей по работе с знаниями и смягчение проблемы галлюцинаций в языковых моделях с ограниченной памятью. Веб является основным источником внешних знаний, используемых в системах RAG, и многие коммерческие системы, такие как ChatGPT и Perplexity, используют поисковые системы в Интернете в качестве основных систем извлечения. Обычно такие системы RAG извлекают результаты поиска, загружают HTML-исходники результатов, а затем извлекают обычный текст из HTML-исходников. Документы в виде обычного текста или их фрагменты подаются на вход языковым моделям с ограниченной памятью для улучшения генерации. Однако во время этого процесса RAG на основе обычного текста теряется значительная часть структурной и семантической информации, содержащейся в HTML, такой как заголовки и таблицы. Для решения этой проблемы мы предлагаем HtmlRAG, который использует HTML вместо обычного текста в качестве формата извлеченных знаний в RAG. Мы считаем, что HTML лучше подходит для моделирования знаний во внешних документах, и большинство языковых моделей обладают надежными возможностями понимания HTML. Однако использование HTML представляет новые вызовы. HTML содержит дополнительное содержимое, такое как теги, JavaScript и CSS-спецификации, которые добавляют дополнительные токены и шум в систему RAG. Для решения этой проблемы мы предлагаем стратегии очистки, сжатия и обрезки HTML, чтобы сократить объем HTML, минимизируя потерю информации. В частности, мы разработали двухэтапный метод обрезки на основе блокового дерева, который удаляет бесполезные блоки HTML и сохраняет только соответствующую часть HTML. Эксперименты на шести наборах данных для вопросно-ответных систем подтверждают превосходство использования HTML в системах RAG.
Большие языковые модели (LLM) продемонстрировали выдающиеся обобщающие и способности к следованию инструкциям с настройкой инструкций. Прогресс в области LLM и настройки инструкций привел к разработке больших моделей видео-языкового восприятия (LVLM). Однако компетентность LLM и настройки инструкций меньше исследована в молекулярной области. Поэтому мы предлагаем LLaMo: молекулярный графический ассистент на основе большой языковой модели, обученной end-to-end. Для устранения разрыва между языковыми и графическими модальностями мы представляем многоуровневый графический проектор, который преобразует графические представления в графические токены, абстрагируя выходные представления каждого слоя GNN и мотивные представления с механизмом кросс-внимания. Мы также вводим машинно-сгенерированные данные инструкций молекулярных графов для настройки инструкций большой молекулярной графической языковой модели для понимания молекул и языка общего назначения. Наши обширные эксперименты показывают, что LLaMo демонстрирует лучшую производительность на различных задачах, таких как генерация описания молекул, предсказание свойств и предсказание имен IUPAC. Код LLaMo доступен по адресу https://github.com/mlvlab/LLaMo.
Увеличение возможностей крупных генеративных моделей и их все более широкое применение вызвали опасения относительно их надежности, безопасности и потенциального злоупотребления. Для решения этих проблем недавние работы предложили контролировать генерацию модели путем управления активациями модели для эффективного индукции или предотвращения появления концепций или поведения в сгенерированном выводе. В данной статье мы представляем Activation Transport (AcT), общую концепцию управления активациями, основанную на теории оптимального транспорта, которая обобщает многие предыдущие работы по управлению активациями. AcT не зависит от модальности и обеспечивает тонкое управление поведением модели с незначительной вычислительной нагрузкой, минимально влияя на способности модели. Мы экспериментально демонстрируем эффективность и универсальность нашего подхода, решая ключевые проблемы в крупных языковых моделях (LLM) и моделях диффузии текста в изображение (T2I). Для LLM мы показываем, что AcT может эффективно смягчать токсичность, индуцировать произвольные концепции и увеличивать их достоверность. В T2I мы показываем, как AcT обеспечивает тонкое управление стилем и отрицанием концепций.
В текущих системах компьютерного зрения обычно присваивают изображениям представления фиксированной длины, независимо от содержащейся информации. Это в отличие от человеческого интеллекта - и даже от крупных языковых моделей - которые выделяют различные объемы представлений на основе энтропии, контекста и знакомства. Вдохновленные этим, мы предлагаем подход к обучению представлений токенов переменной длины для двумерных изображений. Наша архитектура кодировщик-декодировщик рекурсивно обрабатывает токены двумерных изображений, уплотняя их в одномерные латентные токены на протяжении нескольких итераций рекуррентных прокруток. Каждая итерация улучшает двумерные токены, обновляет существующие одномерные латентные токены и адаптивно увеличивает объем представления путем добавления новых токенов. Это позволяет сжимать изображения в переменное количество токенов, варьирующееся от 32 до 256. Мы проверяем наш токенизатор с помощью потерь при восстановлении и метрик FID, демонстрируя, что количество токенов соответствует энтропии изображения, знакомству и требованиям задач на следующем этапе. Рекуррентная обработка токенов с увеличением объема представления на каждой итерации показывает признаки специализации токенов, раскрывая потенциал для обнаружения объектов / частей.
Модели на основе машинного обучения с механизмом внимания продемонстрировали выдающиеся способности к пониманию и рассуждениям с использованием сложных языковых и визуальных данных. Эти достижения подтолкнули идею создания универсального робота-специалиста MLLM, способного понимать сложные человеческие инструкции и выполнять различные задачи воплощенного действия. Однако разработка MLLM для реальных роботов представляет собой сложную задачу из-за ограниченных вычислительных и памятных возможностей, доступных на робототехнических платформах. В отличие от этого, вывод MLLM включает в себя хранение миллиардов параметров и выполнение огромных вычислений, что накладывает значительные аппаратные требования. В нашей статье мы предлагаем Динамическую Систему Преждевременного Выхода для Модели Видение-Язык-Действие (DeeR-VLA, или просто DeeR), которая автоматически регулирует размер активированной MLLM в зависимости от каждой конкретной ситуации. Подход использует многовыходовую архитектуру в MLLM, что позволяет модели завершить обработку, как только для конкретной ситуации активирован правильный размер модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разрабатываем новые алгоритмы, которые устанавливают критерии досрочного завершения для DeeR, зависящие от заранее определенных требований, таких как средние вычислительные затраты (т.е. энергопотребление), а также пиковое потребление вычислительных ресурсов (т.е. задержка) и использование памяти GPU. Эти улучшения гарантируют, что DeeR эффективно функционирует при различных ограничениях ресурсов, сохраняя конкурентоспособную производительность. На бенчмарке по манипуляции роботом CALVIN DeeR демонстрирует значительное снижение вычислительных затрат MLLM на 5,2-6,5 раз и использования памяти GPU MLLM на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны на https://github.com/yueyang130/DeeR-VLA.
Мы изучаем методы эффективного выравнивания больших языковых моделей (LLM) с предпочтениями человека при наличии ограниченной обратной связи в реальном времени. Сначала мы формулируем проблему выравнивания LLM в рамках контекстуальных дуэльных бандитов. Эта формулировка, включающая недавние парадигмы, такие как онлайн RLHF и онлайн DPO, неотъемлемо стремится к алгоритмам, эффективным по образцам, которые включают онлайн активное исследование. Основываясь на идеях теории бандитов, мы представляем унифицированный алгоритм на основе выборки Томпсона и выделяем его применение в двух различных сценариях выравнивания LLM. Практический агент, который эффективно реализует этот алгоритм, названный SEA (Sample-Efficient Alignment), эмпирически проверен через обширные эксперименты на трех масштабах моделей (1B, 2.8B, 6.9B) и тремя алгоритмами обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокоэффективного выравнивания с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы предоставляем реализацию SEA вместе с эффективной кодовой базой, разработанной для онлайн выравнивания LLM, с целью ускорения будущих исследований в этой области.
Мы представляем DreamPolish, модель генерации текста в 3D, которая отличается в создании изысканной геометрии и текстур высокого качества. На этапе построения геометрии наш подход использует несколько нейронных представлений для улучшения стабильности процесса синтеза. Вместо полного полагания на диффузионный априори, зависящий от вида, в новых выборочных видах, что часто приводит к нежелательным артефактам на геометрической поверхности, мы включаем дополнительный оценщик нормалей для отделки деталей геометрии, зависящий от точек зрения с различными углами обзора. Мы предлагаем добавить этап отделки поверхности с небольшим количеством обучающих шагов, который может эффективно улучшить артефакты, обусловленные ограниченным руководством предыдущих этапов, и создавать 3D-объекты с более желательной геометрией. Основная тема генерации текстуры с использованием предварительно обученных моделей текст-изображение заключается в поиске подходящей области в обширном латентном распределении этих моделей, содержащей фотореалистичные и последовательные рендеринги. На этапе генерации текстуры мы вводим новую цель дистилляции оценки, а именно дистилляцию оценки области (DSD), чтобы направлять нейронные представления к такой области. Мы черпаем вдохновение из руководства без классификатора (CFG) в задачах генерации изображений, зависящих от текста, и показываем, что CFG и руководство вариационным распределением представляют различные аспекты в руководстве градиентами и являются обеими неотъемлемыми областями для улучшения качества текстуры. Обширные эксперименты показывают, что наша предложенная модель способна создавать 3D-объекты с отполированными поверхностями и фотореалистичными текстурами, превосходя существующие передовые методы.
Нейронные неявные функции принесли впечатляющие прорывы в современное состояние искусства цифровой дигитализации одетого человека по множеству или даже одному изображению. Однако, несмотря на прогресс, текущие методы все еще испытывают трудности с обобщением на невидимые изображения с сложными деформациями одежды и позами тела. В данной работе мы представляем GarVerseLOD, новый набор данных и фреймворк, который открывает путь к достижению беспрецедентной устойчивости в высококачественной трехмерной реконструкции одежды из одного неконтролируемого изображения. Вдохновленные недавними успехами крупных генеративных моделей, мы считаем, что одним из ключей к решению проблемы обобщения является количество и качество трехмерных данных об одежде. Для этой цели GarVerseLOD собирает 6 000 моделей одежды высокого качества с тонкими деталями геометрии, созданных вручную профессиональными художниками. Помимо масштаба обучающих данных, мы замечаем, что наличие разделенных гранулярностей геометрии может сыграть важную роль в увеличении способности к обобщению и точности вывода обученной модели. Мы поэтому создаем GarVerseLOD как иерархический набор данных с уровнями деталей (LOD), охватывающий от детализированной стилизованной формы до позы-смешанной одежды с деталями, выровненными по пикселям. Это позволяет нам сделать эту высоко недоопределенную проблему управляемой путем факторизации вывода на более простые задачи, каждая из которых сужена с помощью более маленького пространства поиска. Для обеспечения хорошего обобщения GarVerseLOD на изображения в естественной среде мы предлагаем новую парадигму разметки на основе условных моделей диффузии для генерации обширных парных изображений для каждой модели одежды с высоким фотореализмом. Мы оцениваем наш метод на огромном количестве изображений в естественной среде. Экспериментальные результаты демонстрируют, что GarVerseLOD способен генерировать отдельные элементы одежды с значительно лучшим качеством, чем предыдущие подходы. Страница проекта: https://garverselod.github.io/
Модели языка зрения (VLM) продемонстрировали высокие возможности в различных задачах визуального понимания и рассуждений. Однако их применение в реальном мире часто ограничено высокой задержкой во время вывода из-за значительных вычислительных затрат, необходимых для обработки большого количества входных токенов (преимущественно изображения) LLM. Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, последнее стало объектом изучения многих недавних работ по сжатию токенов. Однако неясно, какой оптимальный компромисс, поскольку оба фактора прямо влияют на производительность VLM. Сначала мы характеризуем этот оптимальный компромисс между количеством визуальных токенов и параметрами LLM, установив законы масштабирования, отражающие изменения производительности с учетом этих двух факторов. Наши результаты показывают удивительную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLM, т.е. минимальная ошибка на любом фиксированном вычислительном ресурсе вывода, достигается при использовании самого большого LLM, который укладывается в бюджет вывода, минимизируя количество визуальных токенов - часто до одного токена. В то время как литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты показывают, что оптимальный режим вывода с точки зрения вычислительных затрат требует работы даже при более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы предпринимаем первые шаги к созданию подходов, адаптированных для настроек с высоким сжатием токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.
Редкие заболевания представляют уникальные вызовы в здравоохранении, часто сталкивающиеся с задержкой диагностики и фрагментированными информационными ландшафтами. Дефицит надежных знаний по этим состояниям представляет собой особый вызов для больших языковых моделей (LLM) в поддержке клинического управления и предоставлении точной информации о пациентах, подчеркивая необходимость сосредоточенного обучения на этих "зебра" случаях. Мы представляем Zebra-Llama, специализированную контекстно-ориентированную языковую модель с высокой точностью возможности Retrieval Augmented Generation (RAG), сосредоточенную на синдроме Элерса-Данлоса (EDS) как нашем кейс-исследовании. EDS, затрагивающий 1 из 5 000 человек, иллюстрирует сложности редких заболеваний своими разнообразными симптомами, множеством подтипов и развивающимися диагностическими критериями. Путем реализации новой методологии тонкой настройки, ориентированной на контекст и обученной на вопросах, происходящих из медицинской литературы, опыта пациентов и клинических ресурсов, вместе с экспертно отобранными ответами, Zebra-Llama демонстрирует беспрецедентные возможности в обработке запросов, связанных с EDS. На тестовом наборе реальных вопросов, собранных от пациентов с EDS и клиницистов, медицинские эксперты оценили ответы, сгенерированные обоими моделями, показав значительные улучшения Zebra-Llama по сравнению с базовой моделью (Llama 3.1-8B-Instruct) в полноте (77,5% против 70,1%), точности (83,0% против 78,8%), ясности (74,7% против 72,0%) и надежности цитирования (70,6% против 52,3%). Выпущенный в качестве ресурса с открытым исходным кодом, Zebra-Llama не только предоставляет более доступную и надежную информацию об EDS, но и устанавливает рамки для разработки специализированных ИИ-решений для других редких состояний. Эта работа представляет собой важный шаг к демократизации экспертных знаний в управлении редкими заболеваниями, потенциально изменяя способ, которым провайдеры здравоохранения и пациенты ориентируются в сложном ландшафте редких заболеваний.
Поскольку техники обнаружения объектов продолжают развиваться, понимание их взаимосвязи с дополнительными визуальными задачами становится важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя фундаментальными визуальными задачами: предсказанием глубины и предсказанием визуальной выразительности. Через комплексные эксперименты с использованием передовых моделей (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC мы обнаружили, что визуальная выразительность показывает последовательно более сильные корреляции с точностью обнаружения объектов (mArho до 0,459 на Pascal VOC) по сравнению с предсказанием глубины (mArho до 0,283). Наш анализ выявляет значительные вариации в этих корреляциях по категориям объектов, причем более крупные объекты показывают значения корреляции в три раза выше, чем более мелкие объекты. Эти результаты подтверждают, что включение признаков визуальной выразительности в архитектуры обнаружения объектов может быть более полезным, чем информация о глубине, особенно для определенных категорий объектов. Наблюдаемые категорий-специфические вариации также предоставляют информацию для целевой инженерии признаков и улучшений дизайна наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.