Ежедневно отобранные исследовательские статьи по ИИ с переводами
Оптимизация во время вывода масштабирует вычисления для получения осознанных шагов рассуждения, обеспечивая эффективную производительность. В то время как предыдущие стратегии, основанные на поиске, решают проблему близорукости авторегрессивной генерации, обширное пространство поиска приводит к избыточному исследованию и недостаточному использованию. Для достижения эффективного баланса и получения оптимального шага мы формулируем стратегию декодирования как выборку с предвидением, используя смоделированные будущие шаги для получения глобально оптимальной оценки шага. На основе этого мы предлагаем новую стратегию декодирования, названную phi-Decoding. Для обеспечения точной и выразительной оценки ценности шага phi-Decoding аппроксимирует два распределения через предвидение и кластеризацию. Выборка из совместного распределения позволяет выбирать оптимальные шаги для использования. Для поддержки адаптивного распределения вычислений мы предлагаем стратегии обрезки по ширине и глубине, представляя легковесное решение для достижения эффективности вывода. Многочисленные эксперименты на семи бенчмарках показывают, что phi-Decoding превосходит сильные базовые подходы как по производительности, так и по эффективности. Дополнительный анализ демонстрирует его обобщаемость для различных языковых моделей и масштабируемость в широком диапазоне вычислительных ресурсов. Код будет опубликован на https://github.com/xufangzhi/phi-Decoding, а открытый пакет PyPI появится в ближайшее время.
Несмотря на недавние успехи контрастивных моделей, работающих с изображениями и текстом, таких как CLIP и SigLIP, эти модели часто испытывают трудности с задачами, ориентированными на визуальное восприятие, которые требуют высокоточной интерпретации изображений, например, подсчет объектов, оценка глубины и распознавание объектов с высокой детализацией. Эти модели, выполняя выравнивание по языку, склонны отдавать приоритет высокоуровневой семантике в ущерб визуальному пониманию, что ослабляет их способность интерпретировать изображения. С другой стороны, модели, ориентированные на визуальное восприятие, отлично справляются с обработкой визуальной информации, но испытывают трудности с пониманием языка, что ограничивает их гибкость в задачах, управляемых языком. В данной работе мы представляем TULIP — открытую замену существующим моделям, подобным CLIP. Наш метод использует генеративное расширение данных, улучшенное контрастивное обучение "изображение-изображение" и "текст-текст", а также регуляризацию через реконструкцию изображений и текста для изучения детализированных визуальных признаков при сохранении глобального семантического выравнивания. Наш подход, масштабируемый до более чем 1 миллиарда параметров, превосходит существующие передовые модели (SOTA) на множестве бенчмарков, устанавливая новый рекорд zero-shot производительности на ImageNet-1K, демонстрируя до 2-кратное улучшение по сравнению с SigLIP на RxRx1 в линейном зондировании для классификации с малым количеством примеров, а также улучшая модели, работающие с визуальными и языковыми данными, достигая более чем 3-кратного увеличения показателей по сравнению с SigLIP на MMVP. Наш код и контрольные точки доступны по адресу https://tulip-berkeley.github.io.
Треугольные сетки играют ключевую роль в 3D-приложениях для эффективного манипулирования и визуализации. Хотя авторегрессивные методы генерируют структурированные сетки, предсказывая дискретные токены вершин, они часто ограничены небольшим количеством граней и неполнотой сеток. Для решения этих проблем мы предлагаем DeepMesh — фреймворк, который оптимизирует генерацию сеток за счет двух ключевых инноваций: (1) эффективной стратегии предварительного обучения, включающей новый алгоритм токенизации, а также улучшений в обработке и подготовке данных, и (2) внедрения обучения с подкреплением (RL) в генерацию 3D-сеток для достижения соответствия человеческим предпочтениям с помощью оптимизации прямых предпочтений (DPO). Мы разработали стандарт оценки, сочетающий человеческую экспертизу с 3D-метриками, для сбора пар предпочтений для DPO, что обеспечивает как визуальную привлекательность, так и геометрическую точность. На основе облаков точек и изображений DeepMesh генерирует сетки с детализированной структурой и точной топологией, превосходя современные методы как по точности, так и по качеству. Страница проекта: https://zhaorw02.github.io/DeepMesh/
Фундаментальные модели, обученные на огромных объемах данных, продемонстрировали выдающиеся способности к рассуждению и генерации в областях текста, изображений, аудио и видео. Наша цель в Roblox — создать такую фундаментальную модель для 3D-интеллекта, которая сможет поддерживать разработчиков в создании всех аспектов опыта Roblox: от генерации 3D-объектов и сцен до риггинга персонажей для анимации и создания программных скриптов, описывающих поведение объектов. Мы обсуждаем три ключевых требования к проектированию такой 3D-фундаментальной модели и представляем наш первый шаг на пути к её созданию. Мы предполагаем, что 3D-геометрические формы будут основным типом данных, и описываем наше решение для 3D-токенизатора форм. Мы показываем, как наша схема токенизации может быть использована в приложениях для генерации текста в форму, формы в текст и текста в сцену. Мы демонстрируем, как эти приложения могут взаимодействовать с существующими большими языковыми моделями (LLM) для анализа сцен и рассуждений. В заключение мы обсуждаем наш путь к созданию полностью унифицированной фундаментальной модели для 3D-интеллекта.
Создание Обобщённого Графа Знаний (ОГЗ), включающего граф знаний, граф событий и граф здравого смысла, является основополагающим для различных задач обработки естественного языка. Современные исследования обычно строят эти типы графов отдельно, упуская целостные инсайты и потенциальное объединение, которое могло бы быть полезным с точки зрения вычислительных ресурсов и использования. Однако ключевой проблемой в разработке унифицированной структуры для ОГЗ являются препятствия, возникающие из-за различий, специфичных для задач. В данном исследовании мы предлагаем унифицированную структуру для построения обобщённых графов знаний, чтобы решить эту проблему. Сначала мы собираем данные из 15 подзадач в 29 наборах данных, охватывающих три типа графов, классифицируя их на внутривыборочные, контрзадачные и данные вне распределения (OOD). Затем мы предлагаем трёхэтапную структуру тонкой настройки с использованием учебного плана, последовательно внедряя знания из трёх типов графов в крупные языковые модели. Многочисленные эксперименты показывают, что наша предложенная модель улучшает построение всех трёх типов графов на внутридоменных, OOD и контрзадачных данных.
Временное качество является критически важным аспектом генерации видео, так как оно обеспечивает согласованное движение и реалистичную динамику между кадрами. Однако достижение высокой временной согласованности и разнообразия остается сложной задачей. В данной работе мы впервые исследуем временное аугментирование в генерации видео и представляем FluxFlow для начального исследования — стратегию, разработанную для улучшения временного качества. Работая на уровне данных, FluxFlow применяет контролируемые временные возмущения без необходимости модификации архитектуры. Многочисленные эксперименты на бенчмарках UCF-101 и VBench демонстрируют, что FluxFlow значительно улучшает временную согласованность и разнообразие в различных моделях генерации видео, включая U-Net, DiT и архитектуры на основе авторегрессии, сохраняя при этом пространственную точность. Эти результаты подчеркивают потенциал временного аугментирования как простого, но эффективного подхода для повышения качества генерации видео.
Крупные языковые модели (LLMs) продемонстрировали перспективные возможности в решении задач математического рассуждения, используя данные цепочки мыслей (Chain-of-Thought, CoT) как ключевой компонент для генерации ответов. Современные подходы обычно генерируют CoT и ответы непосредственно для заданной задачи, что в некоторой степени отличается от стратегий решения задач, применяемых людьми. Люди часто решают задачи, вспоминая аналогичные случаи и используя их решения для рассуждений о текущей задаче. Вдохновленные этим когнитивным процессом, мы предлагаем MetaLadder — новый фреймворк, который явно побуждает LLMs вспоминать и анализировать мета-задачи, то есть задачи, структурно или семантически аналогичные текущей, вместе с их CoT-решениями, прежде чем приступать к решению целевой задачи. Кроме того, мы вводим механизм переформулирования задачи, чтобы улучшить понимание модели целевой задачи путем повторной генерации исходного вопроса, что дополнительно повышает точность рассуждений. Таким образом, модель может достичь переноса рассуждений с аналогичных задач, имитируя человеческую способность "учиться на примерах" и обобщать. Масштабные эксперименты на математических бенчмарках показывают, что наш MetaLadder значительно повышает точность решения задач LLMs, значительно превосходя стандартные методы на основе CoT (увеличение точности на 10,3%) и другие подходы. Наш код и данные доступны по адресу https://github.com/LHL3341/MetaLadder.
Визуальное мышление занимает центральное место в человеческом познании, позволяя людям интерпретировать и абстрактно понимать окружающую среду. Хотя современные мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие результаты в задачах, связанных с языком и взаимодействием языка и зрения, существующие бенчмарки в основном измеряют навыки распознавания и недостаточно оценивают истинные способности к визуальному мышлению. Чтобы устранить этот критический пробел, мы представляем VERIFY — бенчмарк, специально разработанный для изоляции и строгой оценки визуальных способностей современных MLLMs. VERIFY требует от моделей рассуждать преимущественно на основе визуальной информации, предоставляя минимальный текстовый контекст, чтобы снизить зависимость от предметных знаний и языковых предубеждений. Каждая задача сопровождается аннотированным человеком путем рассуждений, что делает VERIFY первым бенчмарком, предоставляющим глубокую оценку процессов принятия решений моделями. Кроме того, мы предлагаем новые метрики, которые оценивают достоверность визуального мышления, выходя за рамки простой точности, и выделяют критические дисбалансы в текущих моделях рассуждений. Наше всестороннее тестирование ведущих MLLMs выявляет значительные ограничения, подчеркивая необходимость сбалансированного и целостного подхода как к восприятию, так и к мышлению. Для дополнительной информации и тестирования посетите нашу страницу проекта (https://verify-eqh.pages.dev/).
Быстрое развитие генеративных технологий стало обоюдоострым мечом. С одной стороны, они предлагают мощные инструменты, повышающие удобство, с другой — вызывают серьезные социальные опасения. Современные методы обнаружения синтетических изображений, выступая в роли защитников, часто не обладают интерпретируемостью на уровне артефактов и чрезмерно сосредоточены на обнаружении манипуляций с изображениями, а текущие наборы данных обычно страдают от устаревших генераторов и отсутствия детализированных аннотаций. В данной работе мы представляем SynthScars — высококачественный и разнообразный набор данных, состоящий из 12 236 полностью синтетических изображений с аннотациями, выполненными экспертами. Он включает 4 различных типа контента изображений, 3 категории артефактов и детализированные аннотации, охватывающие пиксельную сегментацию, подробные текстовые объяснения и метки категорий артефактов. Кроме того, мы предлагаем LEGION (LEarning to Ground and explain for Synthetic Image detectiON) — мультимодальную структуру анализа подделок изображений на основе крупной языковой модели (MLLM), которая интегрирует обнаружение артефактов, сегментацию и объяснение. Опираясь на эту возможность, мы также исследуем LEGION в роли контроллера, интегрируя его в конвейеры улучшения изображений для создания более качественных и реалистичных изображений. Многочисленные эксперименты показывают, что LEGION превосходит существующие методы на нескольких тестовых наборах, особенно опережая второго лучшего традиционного эксперта на SynthScars на 3,31% по mIoU и на 7,75% по F1-оценке. Более того, улучшенные изображения, созданные под его руководством, демонстрируют более сильное соответствие предпочтениям человека. Код, модель и набор данных будут опубликованы.
Диффузионные модели продемонстрировали выдающиеся результаты в синтезе изображений, однако они требуют значительных вычислительных и ресурсов памяти для обучения, тонкой настройки и вывода. Хотя современные методы квантования успешно минимизировали использование памяти для вывода, обучение и тонкая настройка этих квантованных моделей по-прежнему требуют большого объема памяти, возможно, из-за необходимости деквантования для точного вычисления градиентов и/или обратного распространения для градиентных алгоритмов. Тем не менее, эффективная по памяти тонкая настройка особенно важна для таких приложений, как персонализация, которые часто должны выполняться на устройствах с ограниченными ресурсами, таких как мобильные телефоны, с использованием приватных данных. В данной работе мы решаем эту задачу, квантуя диффузионную модель с персонализацией через Textual Inversion и используя оптимизацию нулевого порядка для токенов персонализации без деквантования, что исключает необходимость хранения градиентов и активаций для обратного распространения, которое потребляет значительный объем памяти. Поскольку оценка градиента с использованием оптимизации нулевого порядка является довольно шумной для одного или нескольких изображений в персонализации, мы предлагаем снизить уровень шума в оценке градиента, проецируя его на подпространство, построенное на основе истории прошлых токенов, названное Subspace Gradient. Кроме того, мы исследовали влияние текстового представления на генерацию изображений, что привело к предложенному нами методу выборки временных шагов, названному Partial Uniform Timestep Sampling, для выборки с эффективными шагами диффузии. Наш метод демонстрирует сопоставимую производительность с предыдущими методами по показателям согласованности изображений и текста для персонализации Stable Diffusion, используя только прямые проходы, при этом сокращая потребление памяти при обучении до 8.2 раз.
Современные исследования парадигмы "Разложить-Затем-Проверить" для оценки фактической достоверности длинных текстов обычно рассматривают процессы декомпозиции и верификации изолированно, упуская их взаимодействие и возможное несоответствие. Мы обнаруживаем, что существующие стратегии декомпозиции, как правило, представляющие собой ручные демонстрации, плохо согласуются с последующими верификаторами с точки зрения атомарности — новой метрики, количественно оценивающей плотность информации, — что приводит к субоптимальным результатам верификации. Мы формулируем задачу поиска оптимальной стратегии декомпозиции для оптимальной верификации как задачу двухуровневой оптимизации. Для приближенного решения этой сильно NP-трудной задачи мы предлагаем динамическую декомпозицию — фреймворк обучения с подкреплением, который использует обратную связь от верификатора для обучения стратегии динамического разложения утверждений до предпочитаемой верификатором атомарности. Экспериментальные результаты показывают, что динамическая декомпозиция превосходит существующие стратегии декомпозиции, повышая уверенность в верификации на 0.07 и точность на 0.12 (по шкале от 0 до 1) в среднем для различных верификаторов, наборов данных и атомарностей входных утверждений.
Разработка ИИ-агентов для автономного взаимодействия с графическими пользовательскими интерфейсами представляет собой сложную и долгосрочную задачу. Недавние достижения в области законов масштабирования данных вдохновили нас на обучение агентов для работы с компьютером с использованием масштабированного набора инструкций, однако применение поведенческого клонирования для обучения агентов по-прежнему требует огромного количества высококачественных траекторий. Для удовлетворения потребности в масштабируемости мы разработали STEVE — конвейер пошаговой верификации для обучения агентов, взаимодействующих с компьютером. Сначала мы создаем обширный набор инструкций для таких агентов и собираем данные о траекториях с использованием некоторых субоптимальных агентов. GPT-4o используется для проверки корректности каждого шага в траекториях на основе скриншотов до и после выполнения действия, присваивая каждому шагу бинарную метку. Наконец, мы применяем оптимизацию по Канеману и Тверски для улучшения агента на основе бинарных пошаговых меток. Многочисленные эксперименты показывают, что наш агент превосходит подходы с контролируемым тонким настройкой, используя как положительные, так и отрицательные действия в рамках траектории. Кроме того, STEVE позволяет нам обучить 7B визуально-языковую модель в качестве агента для работы с компьютером, достигая лидирующих результатов в сложной среде живого рабочего стола WinAgentArena с высокой эффективностью и сниженными затратами. Код и данные: https://github.com/FanbinLu/STEVE.
Агенты на основе больших языковых моделей (LLM) должны выполнять многоходовые взаимодействия в реальных задачах. Однако существующие многоходовые алгоритмы обучения с подкреплением (RL) для оптимизации агентов LLM не способны эффективно распределять кредит за действия на протяжении нескольких шагов, одновременно используя обобщающие способности LLM, и остается неясным, как разработать такие алгоритмы. Для изучения этой проблемы мы сначала представляем новый бенчмарк, ColBench, в котором агент LLM взаимодействует с человеком-коллегой на протяжении нескольких шагов для решения реалистичных задач в бэкенд-программировании и фронтенд-дизайне. На основе этого бенчмарка мы предлагаем новый алгоритм RL, SWEET-RL (RL с пошаговой оценкой на основе обучающей информации), который использует тщательно разработанную целевую функцию для обучения модели критика с доступом к дополнительной информации, доступной во время обучения. Критик предоставляет пошаговые награды для улучшения модели политики. Наши эксперименты показывают, что SWEET-RL достигает абсолютного улучшения на 6% в показателях успеха и выигрыша на ColBench по сравнению с другими современными многоходовыми алгоритмами RL, позволяя модели Llama-3.1-8B соответствовать или превосходить производительность GPT4-o в реалистичных задачах совместного создания контента.
Последние достижения в предварительном обучении языковых моделей (LLM) характеризуются постоянно расширяющимися окнами контекста для обработки более длинных последовательностей. Однако наше пилотное исследование показывает, что модели, предварительно обученные с более короткими окнами контекста, стабильно превосходят свои аналоги с длинным контекстом при фиксированном бюджете токенов. Это открытие побуждает нас изучить оптимальную стратегию планирования окна контекста, чтобы лучше сбалансировать способность к обработке длинного контекста с эффективностью предварительного обучения. С этой целью мы предлагаем SkyLadder — простой, но эффективный подход, который реализует переход от короткого к длинному окну контекста. SkyLadder сохраняет высокую производительность на стандартных бенчмарках, одновременно соответствуя или превосходя базовые результаты на задачах с длинным контекстом. В ходе обширных экспериментов мы предварительно обучаем модели с 1 миллиардом параметров (до 32K контекста) и модели с 3 миллиардами параметров (8K контекста) на 100 миллиардах токенов, демонстрируя, что SkyLadder обеспечивает стабильный прирост до 3,7% на общих бенчмарках, одновременно достигая до 22% более высокой скорости обучения по сравнению с базовыми подходами. Код доступен по адресу https://github.com/sail-sg/SkyLadder.
Мы представляем MusicInfuser — подход для создания высококачественных танцевальных видео, синхронизированных с заданной музыкальной композицией. Вместо разработки и обучения новой мультимодальной аудио-видео модели мы демонстрируем, как существующие модели диффузии видео можно адаптировать для согласования с музыкальными входными данными, вводя легковесное кросс-внимание между музыкой и видео, а также низкоранговый адаптер. В отличие от предыдущих работ, требующих данных о захвате движений, наш подход выполняет тонкую настройку исключительно на танцевальных видео. MusicInfuser обеспечивает высококачественную генерацию видео, управляемую музыкой, сохраняя при этом гибкость и генеративные возможности базовых моделей. Мы предлагаем оценочную структуру с использованием Video-LLM для анализа нескольких аспектов качества генерации танцев. Страница проекта и код доступны по адресу https://susunghong.github.io/MusicInfuser.
Реконструкция 3D-сцен с разложением на компоненты, включающая полные формы и детализированные текстуры всех объектов, представляет значительный интерес для последующих приложений, но остается сложной задачей, особенно при использовании разреженных видов в качестве входных данных. Современные подходы включают семантическую или геометрическую регуляризацию для решения этой проблемы, однако они демонстрируют значительное ухудшение качества в недостаточно ограниченных областях и не способны восстанавливать затененные регионы. Мы утверждаем, что ключом к решению этой задачи является восполнение недостающей информации для таких областей. С этой целью мы предлагаем метод DP-Recon, который использует диффузионные априорные знания в форме Score Distillation Sampling (SDS) для оптимизации нейронного представления каждого отдельного объекта при новых ракурсах. Это обеспечивает дополнительную информацию для недостаточно ограниченных областей, однако прямое включение диффузионных априоров может вызывать конфликты между реконструкцией и генеративным руководством. Поэтому мы дополнительно вводим подход, основанный на видимости, для динамической корректировки весов потерь SDS на уровне пикселей. Вместе эти компоненты улучшают восстановление как геометрии, так и внешнего вида, оставаясь при этом верными входным изображениям. Многочисленные эксперименты на данных Replica и ScanNet++ демонстрируют, что наш метод значительно превосходит современные подходы. В частности, он обеспечивает лучшее восстановление объектов при 10 видах, чем базовые методы при 100 видах. Наш метод позволяет выполнять бесшовное текстовое редактирование геометрии и внешнего вида через оптимизацию SDS и создает разложенные на компоненты меши объектов с детализированными UV-картами, поддерживающими фотореалистичное редактирование визуальных эффектов (VFX). Страница проекта доступна по адресу https://dp-recon.github.io/.
Последние достижения в области крупных мультимодальных моделей (LMM) в основном сосредоточены на оффлайн-анализе видео. В то же время, анализ потокового видео представляет значительные трудности для современных моделей из-за его временной чувствительности, омни-модальности и интерактивных характеристик. В данной работе мы стремимся расширить понимание потокового видео с новой перспективы и предлагаем новую задачу под названием "Визуальная обратная связь по инструкциям", в рамках которой модели должны быть способны воспринимать визуальное содержимое и извлекать из него инструкции. Например, когда пользователи машут руками агентам, агенты должны распознать жест и начать диалог с приветственной информацией. Таким образом, следование инструкциям в визуальной модальности значительно улучшает взаимодействие между пользователем и агентом. Для содействия исследованиям мы определяем семь ключевых подзадач, тесно связанных с визуальной модальностью, и собираем набор данных ViSpeak-Instruct для обучения и ViSpeak-Bench для оценки. Кроме того, мы предлагаем модель ViSpeak, которая представляет собой передовую LMM для анализа потокового видео, демонстрирующую производительность на уровне GPT-4o в различных тестах на понимание потокового видео. После тонкой настройки на нашем наборе данных ViSpeak-Instruct, модель ViSpeak оснащается базовой способностью к визуальной обратной связи по инструкциям, что служит надежной основой для будущих исследований.
Автоматизированное проектирование признаков играет ключевую роль в повышении производительности прогностических моделей для задач табличного обучения. Традиционные методы автоматизированного проектирования признаков ограничены своей зависимостью от предопределенных преобразований в рамках фиксированных, вручную разработанных пространств поиска, часто игнорируя предметную область. Последние достижения с использованием больших языковых моделей (LLM) позволили интегрировать знания предметной области в процесс проектирования признаков. Однако существующие подходы на основе LLM используют прямое задание запросов или полагаются исключительно на оценки валидации для выбора признаков, не учитывая инсайты из предыдущих экспериментов по обнаружению признаков или не устанавливая осмысленной связи между генерацией признаков и производительностью, основанной на данных. Для решения этих проблем мы предлагаем LLM-FE, новую структуру, которая сочетает эволюционный поиск с знаниями предметной области и способностями к рассуждению LLM для автоматического обнаружения эффективных признаков для задач табличного обучения. LLM-FE формулирует проектирование признаков как задачу поиска программ, где LLM предлагают новые программы преобразования признаков итеративно, а обратная связь, основанная на данных, направляет процесс поиска. Наши результаты демонстрируют, что LLM-FE стабильно превосходит современные базовые методы, значительно улучшая производительность моделей табличного прогнозирования на различных наборах данных для классификации и регрессии.
Генерация говорящих портретов на основе одного изображения с управлением аудио играет ключевую роль в виртуальной реальности, создании цифровых людей и кинопроизводстве. Существующие подходы обычно делятся на методы, основанные на ключевых точках, и методы, основанные на изображениях. Методы, использующие ключевые точки, эффективно сохраняют идентичность персонажа, но испытывают трудности с захватом мелких деталей лица из-за ограниченного количества фиксированных точек в 3D Morphable Model. Кроме того, традиционные генеративные сети сталкиваются с проблемами в установлении причинно-следственной связи между аудио и ключевыми точками на ограниченных наборах данных, что приводит к низкому разнообразию поз. В отличие от этого, подходы, основанные на изображениях, создают высококачественные портреты с разнообразными деталями с использованием диффузионных сетей, но страдают от искажения идентичности и высоких вычислительных затрат. В данной работе мы предлагаем KDTalker — первую структуру, объединяющую неконтролируемые неявные 3D ключевые точки с пространственно-временной диффузионной моделью. Используя неконтролируемые неявные 3D ключевые точки, KDTalker адаптирует плотность информации о лице, позволяя диффузионному процессу моделировать разнообразные позы головы и гибко захватывать мелкие детали лица. Специально разработанный пространственно-временной механизм внимания обеспечивает точную синхронизацию губ, создавая временно согласованные, высококачественные анимации, одновременно повышая вычислительную эффективность. Экспериментальные результаты показывают, что KDTalker достигает передовых показателей в точности синхронизации губ, разнообразии поз головы и эффективности выполнения. Наш код доступен по адресу https://github.com/chaolongy/KDTalker.
Мы представляем ELTEX (Efficient LLM Token Extraction) — предметно-ориентированную платформу для генерации высококачественных синтетических обучающих данных в специализированных областях. Хотя крупные языковые модели (LLM) демонстрируют впечатляющие общие возможности, их производительность в специализированных областях, таких как кибербезопасность, остается ограниченной из-за недостатка предметно-ориентированных обучающих данных. ELTEX решает эту проблему, систематически интегрируя извлечение явных предметных индикаторов с динамическим промптингом для сохранения критически важных знаний предметной области на протяжении всего процесса генерации. Мы демонстрируем эффективность ELTEX в контексте обнаружения кибератак, связанных с блокчейном, где мы дообучаем модель Gemma-2B, используя различные комбинации реальных и сгенерированных ELTEX данных. Наши результаты показывают, что модель, улучшенная с помощью ELTEX, достигает производительности, сопоставимой с GPT-4, как по стандартным метрикам классификации, так и по калибровке неопределенности, при этом требуя значительно меньше вычислительных ресурсов. Мы публикуем тщательно отобранный синтетический набор данных текстов из социальных сетей для обнаружения кибератак в блокчейне. Наша работа демонстрирует, что предметно-ориентированная генерация синтетических данных может эффективно сократить разрыв в производительности между ресурсоэффективными моделями и более крупными архитектурами в специализированных областях.
Последние достижения в области больших языковых моделей (LLM) продемонстрировали улучшенные способности к рассуждению, эволюционировав от метода Chain-of-Thought (CoT) до более продвинутых, ориентированных на продукт решений, таких как OpenAI o1. В ходе нашей повторной реализации этой модели мы заметили, что в многомодальных задачах, требующих визуального ввода (например, задачи по геометрии), многомодальные LLM (MLLM) испытывают трудности с сохранением внимания к визуальной информации. Другими словами, MLLM страдают от постепенного снижения внимания к визуальной информации по мере развития рассуждений, что приводит к чрезмерной зависимости от текстовых выводов. Чтобы исследовать это, мы исключаем визуальные входные данные в процессе длинных цепочек рассуждений. Конкретно, мы прерываем процесс рассуждения на середине, а затем завершаем его без исходного изображения. Мы наблюдаем снижение точности всего на ~2% на тестовом подмножестве MathVista test-hard, что указывает на доминирование текстовых выводов модели в последующем процессе рассуждений. Вдохновленные этим, мы предлагаем стратегию Take-along Visual Conditioning (TVC), которая переносит визуальный ввод на ключевые этапы рассуждений и сжимает избыточные визуальные токены с помощью динамического прореживания. Этот подход помогает модели сохранять внимание к визуальным компонентам на протяжении всего процесса рассуждений. Наш метод демонстрирует наилучшие результаты в среднем на пяти бенчмарках математических рассуждений (+3,4% по сравнению с предыдущим SOTA), подтверждая эффективность TVC в улучшении многомодальных систем рассуждений.
Научное решение задач предполагает синтез информации с применением экспертных знаний. Мы представляем CURIE — эталонный тест для оценки понимания длинных контекстов, рассуждений и извлечения информации в научной сфере, который измеряет потенциал крупных языковых моделей (LLM) в решении научных задач и помощи ученым в реалистичных рабочих процессах. Этот тест включает десять сложных заданий, состоящих из 580 пар задач и решений, отобранных экспертами в шести дисциплинах: материаловедение, физика конденсированных сред, квантовые вычисления, геопространственный анализ, биоразнообразие и белки, охватывая как экспериментальные, так и теоретические рабочие процессы в науке. Мы оцениваем ряд закрытых и открытых LLM на задачах CURIE, которые требуют экспертных знаний в предметной области, понимания длинных контекстов и многошаговых рассуждений. Хотя Gemini Flash 2.0 и Claude-3 демонстрируют стабильно высокое понимание в различных областях, популярные GPT-4o и Command-R+ показывают крайне низкие результаты в задачах, связанных с секвенированием белков. При лучшем результате в 32% все модели имеют значительный потенциал для улучшения. Мы надеемся, что выводы, полученные из CURIE, смогут направить будущее развитие LLM в науке. Код и данные для оценки доступны по адресу: https://github.com/google/curie.
В сложных многопользовательских средах достижение эффективного обучения и желаемого поведения представляет собой значительную проблему для систем многопользовательского обучения с подкреплением (Multi-Agent Reinforcement Learning, MARL). В данной работе исследуется потенциал сочетания MARL с вмешательствами, опосредованными крупными языковыми моделями (Large Language Models, LLM), для направления агентов к более желаемому поведению. В частности, мы изучаем, как LLM могут быть использованы для интерпретации и облегчения вмешательств, которые формируют траектории обучения множества агентов. Мы провели эксперименты с двумя типами вмешательств, называемых контроллерами: контроллер на основе естественного языка (Natural Language, NL) и контроллер на основе правил (Rule-Based, RB). NL-контроллер, который использует LLM для имитации человекообразных вмешательств, показал более сильное влияние по сравнению с RB-контроллером. Наши результаты указывают на то, что агенты особенно выигрывают от ранних вмешательств, что приводит к более эффективному обучению и повышению производительности. Оба типа вмешательств превосходят базовый уровень без вмешательств, подчеркивая потенциал опосредованного LLM руководства для ускорения обучения и повышения производительности MARL в сложных средах.