Ежедневно отобранные исследовательские статьи по ИИ с переводами
Предварительное обучение языковых моделей предполагает обучение на обширных корпусах текстов, где качество данных играет ключевую роль. В данной работе мы стремимся напрямую оценить вклад данных в процессе предварительного обучения и выбрать данные для обучения эффективным способом. В частности, мы вдохновляемся недавними исследованиями, которые показывают, что эффективность сжатия (т.е. нормализованная ошибка) различных моделей на определённых текстах сильно коррелирует с их производительностью на последующих задачах, если домен текста соответствует целевому бенчмарку (Huang et al., 2024). Опираясь на это наблюдение, мы выдвигаем гипотезу, что данные, на которых ошибки модели предсказывают её способности на последующих задачах, также эффективно способствуют обучению. Чтобы использовать это понимание, мы представляем метод выбора данных на основе их предсказательной силы (PreSelect) — лёгкий и эффективный метод выбора данных, который требует обучения и использования только быстрого классификатора на основе fastText. В ходе всесторонних экспериментов с моделями на 1 млрд и 3 млрд параметров мы демонстрируем, что модели, обученные на 30 млрд токенов, отобранных с помощью PreSelect, превосходят по производительности базовую модель, обученную на 300 млрд токенов, достигая 10-кратного сокращения вычислительных затрат. Более того, PreSelect значительно превосходит другие конкурентоспособные методы выбора данных, такие как DCLM и FineWeb-Edu, на уровне моделей с 3 млрд параметров, обученных на 100 млрд токенов. Мы открываем исходный код нашего обученного классификатора для выбора данных вместе с отобранными наборами данных по адресу https://github.com/hkust-nlp/PreSelect.
Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в решении сложных задач на рассуждение благодаря таким механизмам, как Chain-of-Thought (CoT) prompting, который делает акцент на подробном, пошаговом рассуждении. Однако люди обычно используют более эффективную стратегию: создание кратких промежуточных мыслей, фиксирующих только ключевую информацию. В данной работе мы предлагаем Chain of Draft (CoD) — новую парадигму, вдохновлённую когнитивными процессами человека, в рамках которой LLM генерируют минималистичные, но информативные промежуточные результаты рассуждений при решении задач. Снижая избыточность и фокусируясь на ключевых инсайтах, CoD достигает или превосходит точность CoT, используя всего 7,6% токенов, что значительно сокращает затраты и задержки при выполнении различных задач на рассуждение.
Разработка решений для сложных инженерных задач играет ключевую роль в производственной деятельности человека. Однако предыдущие исследования в области генерации, дополненной поиском (RAG), недостаточно охватывали задачи, связанные с проектированием сложных инженерных решений. Чтобы восполнить этот пробел, мы представляем новый бенчмарк, SolutionBench, для оценки способности системы генерировать полные и реализуемые решения для инженерных задач с множеством сложных ограничений. Для дальнейшего продвижения в проектировании сложных инженерных решений мы предлагаем новую систему, SolutionRAG, которая использует механизм древовидного исследования и бинарного мышления для генерации надежных решений. Результаты масштабных экспериментов демонстрируют, что SolutionRAG достигает наилучших показателей (SOTA) на SolutionBench, подчеркивая её потенциал для повышения автоматизации и надежности проектирования сложных инженерных решений в реальных приложениях.
Мы рассматриваем задачу генерации кода на основе многошаговой обратной связи по выполнению. Существующие методы либо генерируют код без учета обратной связи, либо используют сложное иерархическое обучение с подкреплением для оптимизации многошаговых наград. Мы предлагаем простой, но масштабируемый подход, muCode, который решает задачу многошаговой генерации кода, используя только одношаговые награды. Наше ключевое наблюдение заключается в том, что генерация кода представляет собой одношаговый восстанавливаемый марковский процесс принятия решений (MDP), где правильный код может быть восстановлен из любого промежуточного состояния кода за один шаг. muCode итеративно обучает как генератор, предоставляющий решения по коду с учетом многошаговой обратной связи по выполнению, так и верификатор, оценивающий вновь сгенерированный код. Экспериментальные оценки показывают, что наш подход достигает значительных улучшений по сравнению с современными базовыми методами. Мы предоставляем анализ выбора моделей наград и политики, а также демонстрируем эффективность muCode в использовании обратной связи по выполнению. Наш код доступен по адресу https://github.com/portal-cornell/muCode.
Последние модели генерации изображений по тексту (T2I) достигли впечатляющих результатов, обучаясь на наборах данных масштаба миллиардов, следуя парадигме «чем больше, тем лучше», которая ставит количество данных выше их качества. Мы оспариваем эту устоявшуюся парадигму, демонстрируя, что стратегическое расширение небольших, тщательно отобранных наборов данных может сравниться или превзойти модели, обученные на огромных коллекциях, собранных из интернета. Используя только ImageNet, дополненный продуманными текстовыми и визуальными аугментациями, мы достигаем улучшения на +2 балла по сравнению с SD-XL на GenEval и на +5 на DPGBench, при этом используя лишь 1/10 параметров и 1/1000 обучающих изображений. Наши результаты показывают, что стратегическое расширение данных, а не огромные наборы данных, может предложить более устойчивый путь развития для генерации изображений по тексту.
Крупные языковые модели (LLM) достигли уровня, сопоставимого с человеческим, в решении разнообразных задач, однако их способность выполнять строгие математические вычисления остается открытой проблемой. В данной работе мы исследуем фундаментальную, но вычислительно сложную задачу: определение неотрицательности заданного многомерного полинома. Эта задача, тесно связанная с семнадцатой проблемой Гильберта, играет ключевую роль в глобальной оптимизации полиномов и имеет приложения в различных областях. Сначала мы представляем SoS-1K — тщательно отобранный набор данных, содержащий около 1000 полиномов, а также экспертно разработанные инструкции для рассуждений, основанные на пяти постепенно усложняющихся критериях. Оценивая несколько современных LLM, мы обнаруживаем, что без структурированного руководства все модели показывают результат лишь немного выше базового уровня случайного угадывания в 50%. Однако высококачественные инструкции для рассуждений значительно повышают точность, увеличивая производительность до 81%. Более того, наша модель SoS-7B, дообученная на SoS-1K всего за 4 часа, превосходит по точности 671B DeepSeek-V3 и GPT-4o-mini, при этом требуя лишь 1,8% и 5% от времени вычислений, необходимого для этих моделей, соответственно. Наши результаты подчеркивают потенциал LLM для расширения границ математических рассуждений и решения NP-трудных задач.
Понимание информации из визуально насыщенных документов остается серьезной проблемой для традиционных методов Retrieval-Augmented Generation (RAG). Существующие бенчмарки в основном сосредоточены на вопросах и ответах на основе изображений (QA), упуская из виду фундаментальные задачи эффективного поиска, понимания и рассуждений в плотных визуальных документах. Чтобы устранить этот пробел, мы представляем ViDoSeek — новый набор данных, предназначенный для оценки производительности RAG на визуально насыщенных документах, требующих сложных рассуждений. На его основе мы выявляем ключевые ограничения современных подходов RAG: (i) чисто визуальные методы поиска не могут эффективно интегрировать текстовые и визуальные признаки, и (ii) предыдущие подходы часто выделяют недостаточно токенов для рассуждений, что ограничивает их эффективность. Для решения этих задач мы предлагаем ViDoRAG — новый мультиагентный фреймворк RAG, адаптированный для сложных рассуждений в визуальных документах. ViDoRAG использует гибридную стратегию на основе Гауссовской смеси моделей (GMM) для эффективной обработки мультимодального поиска. Чтобы дополнительно раскрыть способности модели к рассуждениям, мы вводим итеративный рабочий процесс агента, включающий исследование, суммирование и рефлексию, предоставляя основу для изучения масштабирования на этапе тестирования в областях RAG. Масштабные эксперименты на ViDoSeek подтверждают эффективность и обобщаемость нашего подхода. В частности, ViDoRAG превосходит существующие методы более чем на 10% на конкурентном бенчмарке ViDoSeek.
Обучение с подкреплением демонстрирует впечатляющие результаты в достижении человеческого или даже сверхчеловеческого уровня в различных проблемных областях, однако успехи в области точного манипулирования роботами остаются ограниченными. В данной работе исследуются ключевые проблемы применения обучения с подкреплением для решения набора задач по манипулированию с интенсивным контактом на антропоморфном роботе. Мы представляем новые методы для преодоления выявленных проблем с эмпирической проверкой. Наши основные вклады включают автоматизированный модуль настройки "реальность-симуляция", который приближает симулированную среду к реальному миру, обобщенную схему проектирования вознаграждений, упрощающую разработку вознаграждений для задач манипулирования с длительным горизонтом и интенсивным контактом, процесс разделения и объединения, повышающий эффективность использования данных для сложных задач исследования при сохранении производительности в условиях "симуляция-реальность", а также смесь разреженных и плотных представлений объектов для преодоления разрыва в восприятии между симуляцией и реальностью. Мы демонстрируем перспективные результаты на трех задачах точного манипулирования антропоморфным роботом, включая исследования по каждому из предложенных методов. Наша работа представляет успешный подход к обучению точному манипулированию антропоморфным роботом с использованием обучения с подкреплением в условиях "симуляция-реальность", достигая устойчивого обобщения и высокой производительности без необходимости демонстраций человеком.
Современные модели автоматического распознавания речи (ASR), такие как Whisper от OpenAI, основаны на глубоких архитектурах типа "кодировщик-декодировщик", причем кодировщики являются критическим узким местом для эффективного развертывания из-за высокой вычислительной сложности. Мы представляем LiteASR — схему низкорангового сжатия для кодировщиков ASR, которая значительно снижает затраты на вывод, сохраняя при этом точность транскрипции. Наш подход использует сильные низкоранговые свойства, наблюдаемые в промежуточных активациях: применяя метод главных компонент (PCA) с небольшим калибровочным набором данных, мы аппроксимируем линейные преобразования цепочкой низкоранговых матричных умножений и дополнительно оптимизируем механизм самовнимания для работы в уменьшенной размерности. Результаты оценки показывают, что наш метод может сжать размер кодировщика Whisper large-v3 более чем на 50%, достигая размера Whisper medium с более высокой точностью транскрипции, тем самым устанавливая новый Парето-оптимальный баланс между эффективностью и производительностью. Код LiteASR доступен по адресу https://github.com/efeslab/LiteASR.
Генерация, дополненная поиском (RAG), расширяет возможности крупных языковых моделей (LLM) за счет использования внешних источников данных для повышения фактической точности и охвата предметной области. Современные RAG-конвейеры опираются на крупные хранилища данных, что создает системные проблемы в развертываниях, чувствительных к задержкам, особенно при ограниченной доступной памяти GPU. Для решения этих проблем мы предлагаем TeleRAG — эффективную систему вывода, которая снижает задержки RAG при минимальных требованиях к памяти GPU. Ключевым нововведением TeleRAG является опережающий поиск — механизм предварительной выборки, который предугадывает необходимые данные и передает их с CPU на GPU параллельно с генерацией LLM. Используя модульность RAG-конвейеров, алгоритм поиска по инвертированному файловому индексу (IVF) и сходства между запросами, TeleRAG оптимально совмещает перемещение данных и вычисления. Экспериментальные результаты показывают, что TeleRAG снижает задержку сквозного вывода RAG в среднем до 1,72 раза по сравнению с современными системами, обеспечивая более быстрые и энергоэффективные развертывания продвинутых RAG-приложений.
Визуальные базовые модели (VFMs) становятся все более популярными благодаря их передовой производительности. Однако интерпретируемость остается критически важной для ответственных приложений. В этом контексте самопоясняемые модели (SEM) направлены на предоставление интерпретируемых классификаторов, которые разлагают предсказания на взвешенную сумму интерпретируемых концепций. Несмотря на их перспективность, недавние исследования показали, что такие объяснения часто недостаточно достоверны. В данной работе мы объединяем VFMs с новой прототипической архитектурой и специализированными целевыми функциями обучения. Обучая только легковесный верхний слой (примерно 1 млн параметров) поверх замороженных VFMs, наш подход (ProtoFM) предлагает эффективное и интерпретируемое решение. Оценки показывают, что наш подход достигает конкурентоспособной производительности в классификации, превосходя существующие модели по ряду метрик интерпретируемости, основанных на литературе. Код доступен по адресу https://github.com/hturbe/proto-fm.
Системы генерации с использованием извлечения информации (Retrieval Augmented Generation, RAG) остаются уязвимыми к галлюцинациям в ответах, несмотря на использование внешних источников знаний. Мы представляем LettuceDetect — фреймворк, который устраняет два ключевых ограничения существующих методов обнаружения галлюцинаций: (1) ограничения контекстного окна традиционных методов на основе кодировщиков и (2) вычислительную неэффективность подходов, основанных на больших языковых моделях (LLM). Используя расширенные возможности контекста ModernBERT (до 8 тысяч токенов) и обучение на наборе данных RAGTruth, наш подход превосходит все предыдущие модели на основе кодировщиков и большинство моделей, основанных на промптах, при этом будучи примерно в 30 раз меньше лучших моделей. LettuceDetect представляет собой модель классификации токенов, которая обрабатывает тройки контекст-вопрос-ответ, что позволяет выявлять неподтвержденные утверждения на уровне токенов. Оценки на корпусе RAGTruth демонстрируют показатель F1 в 79,22% для обнаружения на уровне примеров, что на 14,8% лучше, чем у Luna — предыдущей передовой архитектуры на основе кодировщиков. Кроме того, система способна обрабатывать от 30 до 60 примеров в секунду на одном GPU, что делает её более практичной для реальных приложений RAG.
Растущая сложность и количество параметров в сверточных нейронных сетях (CNN) и трансформерах создают проблемы с точки зрения вычислительной эффективности и требований к ресурсам. Обрезка была признана эффективной стратегией для решения этих проблем путем удаления избыточных элементов, таких как нейроны, каналы или соединения, что повышает вычислительную эффективность без значительного ущерба для производительности. Данная работа основывается на фундаментальных исследованиях метода Optimal Brain Damage (OBD), развивая методологию оценки важности параметров с использованием матрицы Гессе. В отличие от предыдущих подходов, которые полагаются на аппроксимации, мы представляем Optimal Brain Apoptosis (OBA) — новый метод обрезки, который напрямую вычисляет произведение Гессе-вектор для каждого параметра. Разлагая матрицу Гессе по слоям сети и определяя условия, при которых межслойные подматрицы Гессе не равны нулю, мы предлагаем высокоэффективную технику для вычисления разложения Тейлора второго порядка параметров. Этот подход позволяет проводить более точную обрезку, особенно в контексте CNN и трансформеров, что подтверждается нашими экспериментами с моделями VGG19, ResNet32, ResNet50 и ViT-B/16 на наборах данных CIFAR10, CIFAR100 и Imagenet. Наш код доступен по адресу https://github.com/NEU-REAL/OBA.
Ловкое захватывание остается фундаментальной, но сложной задачей в робототехнике. Универсальный робот должен быть способен захватывать разнообразные объекты в произвольных сценариях. Однако существующие исследования обычно полагаются на специфические допущения, такие как настройки с одним объектом или ограниченные среды, что приводит к ограниченной обобщаемости. Наше решение — DexGraspVLA, иерархическая структура, которая использует предварительно обученную модель Vision-Language в качестве высокоуровневого планировщика задач и обучает политику на основе диффузии в качестве низкоуровневого контроллера действий. Ключевая идея заключается в итеративном преобразовании разнообразных языковых и визуальных входных данных в инвариантные к домену представления, где обучение с подражанием может быть эффективно применено благодаря смягчению сдвига домена. Таким образом, это обеспечивает устойчивую обобщаемость в широком диапазоне реальных сценариев. Примечательно, что наш метод достигает успешности более 90% в условиях тысяч комбинаций невидимых объектов, освещения и фона в среде с «нулевым обучением». Эмпирический анализ дополнительно подтверждает согласованность внутреннего поведения модели при изменении окружающей среды, тем самым подтверждая наш дизайн и объясняя его обобщающую производительность. Мы надеемся, что наша работа станет шагом вперед в достижении универсального ловкого захватывания. Наш демо-пример и код можно найти по адресу https://dexgraspvla.github.io/.
Применение больших языковых моделей (LLM) для оказания помощи в психологическом консультировании является перспективным и значимым подходом, обусловленным существенным разрывом между потребностями пациентов и доступностью психиатрической поддержки. Однако современные LLM сталкиваются с трудностями в обеспечении стабильно эффективных ответов на высказывания клиентов, что во многом связано с отсутствием надзора на основе высококачественных данных реальных психотерапевтических сессий, доступ к которым обычно ограничен из-за соображений конфиденциальности клиентов. Кроме того, качество ответов терапевтов в доступных сессиях может значительно варьироваться в зависимости от их профессиональной подготовки и опыта. Оценка качества ответов терапевтов остается открытой проблемой. В данной работе мы решаем эти задачи, сначала предлагая набор профессиональных и всеобъемлющих принципов для оценки ответов терапевтов на высказывания клиентов. Используя эти принципы, мы создаем набор данных предпочтений PsychoCounsel-Preference, который содержит 36 тысяч высококачественных пар сравнений предпочтений. Этот набор данных соответствует предпочтениям профессиональных психотерапевтов, предоставляя надежную основу для оценки и улучшения LLM в психологическом консультировании. Эксперименты по моделированию вознаграждения и обучению на основе предпочтений демонстрируют, что PsychoCounsel-Preference является отличным ресурсом для LLM, чтобы приобрести необходимые навыки для ответов клиентам в ходе консультации. Наша наиболее согласованная модель, PsychoCounsel-Llama3-8B, достигает впечатляющего уровня успешности в 87% по сравнению с GPT-4o. Мы публикуем PsychoCounsel-Preference, PsychoCounsel-Llama3-8B и модель вознаграждения PsychoCounsel Llama3-8B-Reward для содействия исследованиям в области психологического консультирования с использованием LLM по адресу: https://hf.co/Psychotherapy-LLM.
Человеческая деятельность регулируется нормами. При совершении действий в реальном мире люди не только следуют нормам, но и учитывают компромиссы между различными нормами. Однако машины часто обучаются без явного контроля за пониманием и рассуждением о нормах, особенно когда нормы основаны на физическом и социальном контексте. Для улучшения и оценки способности к нормативному рассуждению у моделей, работающих с визуальными и языковыми данными (VLMs), мы представляем EgoNormia |epsilon|, состоящий из 1,853 эгоцентричных видео человеческих взаимодействий, каждое из которых содержит два связанных вопроса, оценивающих как предсказание, так и обоснование нормативных действий. Нормативные действия охватывают семь категорий: безопасность, приватность, проксемика, вежливость, сотрудничество, координация/проактивность и коммуникация/понятность. Для создания этого набора данных в масштабе мы предлагаем новый подход, включающий выборку видео, автоматическую генерацию ответов, фильтрацию и проверку людьми. Наша работа демонстрирует, что современные модели VLMs не обладают устойчивым пониманием норм, достигая максимум 45% на EgoNormia (по сравнению с человеческим эталоном в 92%). Анализ производительности по каждому измерению подчеркивает значительные риски в области безопасности, приватности, а также недостаток способности к сотрудничеству и коммуникации при применении к реальным агентам. Мы также показываем, что с помощью метода генерации на основе поиска возможно использовать EgoNormia для улучшения нормативного рассуждения в VLMs.
Несмотря на значительный прогресс в генерации изображений на основе диффузии, задачи, связанные с генерацией на основе объекта и редактированием по инструкциям, остаются сложными. Существующие методы обычно рассматривают их отдельно, сталкиваясь с ограниченным количеством высококачественных данных и плохой обобщаемостью. Однако обе задачи требуют учета сложных визуальных вариаций при сохранении согласованности между входными и выходными данными. Поэтому мы предлагаем MIGE — унифицированную структуру, которая стандартизирует представление задач с использованием мультимодальных инструкций. Она рассматривает генерацию на основе объекта как создание на чистом холсте, а редактирование по инструкциям — как модификацию существующего изображения, устанавливая общую формулировку "вход-выход". MIGE представляет новый мультимодальный кодировщик, который отображает свободные мультимодальные инструкции в единое визуально-языковое пространство, интегрируя визуальные и семантические признаки через механизм слияния признаков. Эта унификация позволяет совместное обучение для обеих задач, предоставляя два ключевых преимущества: (1) Улучшение за счет кросс-задачности: Используя общие визуальные и семантические представления, совместное обучение повышает соответствие инструкциям и визуальную согласованность как в генерации на основе объекта, так и в редактировании по инструкциям. (2) Обобщаемость: Обучение в унифицированном формате способствует переносу знаний между задачами, позволяя MIGE обобщать на новые композиционные задачи, включая редактирование на основе объекта по инструкциям. Эксперименты показывают, что MIGE превосходит в генерации на основе объекта и редактировании по инструкциям, устанавливая новый стандарт в новой задаче редактирования на основе объекта по инструкциям. Код и модель доступны по адресу: https://github.com/Eureka-Maggie/MIGE.
Современные мультимодальные большие языковые модели (MLLMs) достигли значительного прогресса в понимании видео. Однако их производительность на видео, содержащих действия людей, по-прежнему ограничена из-за недостатка качественных данных. Для решения этой проблемы мы представляем двухэтапный процесс аннотирования данных. Сначала мы разрабатываем стратегии для сбора видео с четко выраженными действиями людей из Интернета. Затем видео аннотируются в стандартизированном формате описания, который использует атрибуты человека для идентификации индивидуумов и хронологически детализирует их действия и взаимодействия. С помощью этого процесса мы создали два набора данных: HAICTrain и HAICBench. HAICTrain включает 126 тысяч пар видео-описание, сгенерированных моделью Gemini-Pro и проверенных для целей обучения. В то же время HAICBench содержит 500 вручную аннотированных пар видео-описание и 1400 пар вопрос-ответ для всесторонней оценки понимания действий человека. Экспериментальные результаты показывают, что обучение на HAICTrain не только значительно улучшает способности к пониманию действий человека на 4 тестовых наборах, но также может улучшить результаты генерации видео из текста. Оба набора данных, HAICTrain и HAICBench, доступны по адресу https://huggingface.co/datasets/KuaishouHAIC/HAIC.