Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя современные модели генерации изображений из текста достигли значительных прорывов в создании визуально привлекательных изображений, их способность генерировать точные и гибкие типографические элементы, особенно для нелатинских алфавитов, остается ограниченной. Чтобы устранить эти ограничения, мы исходим из наивного предположения, что понимание текста является лишь достаточным, но не необходимым условием для его визуализации. На основе этого мы представляем RepText, который призван расширить возможности предварительно обученных монолингвальных моделей генерации изображений из текста, позволяя им точно визуализировать, или, точнее, воспроизводить, многоязычный визуальный текст в указанных пользователем шрифтах, без необходимости его реального понимания. В частности, мы используем настройки из ControlNet и дополнительно интегрируем языково-независимые глифы и позиции визуализированного текста, чтобы обеспечить генерацию гармоничного визуального текста, позволяя пользователям настраивать содержание текста, шрифт и позицию в соответствии с их потребностями. Для повышения точности используется перцептивная потеря текста наряду с диффузионной потерей. Кроме того, для стабилизации процесса визуализации на этапе вывода мы напрямую инициализируем шумные латентные глифы вместо случайной инициализации и применяем маски областей, чтобы ограничить инъекцию признаков только областью текста, избегая искажения фона. Мы провели обширные эксперименты, чтобы подтвердить эффективность нашего RepText по сравнению с существующими работами. Наш подход превосходит существующие открытые методы и достигает сопоставимых результатов с нативными многоязычными закрытыми моделями. Для большей справедливости мы также подробно обсуждаем его ограничения в конце.
Глобальные поставщики медицинских услуг изучают возможность использования больших языковых моделей (LLM) для предоставления медицинских рекомендаций населению. LLM сейчас демонстрируют почти идеальные результаты на экзаменах для получения медицинской лицензии, но это не обязательно означает точную работу в реальных условиях. Мы проверили, могут ли LLM помочь людям в выявлении основных заболеваний и выборе дальнейших действий (диспозиции) в десяти медицинских сценариях в рамках контролируемого исследования с участием 1 298 участников. Участники были случайным образом распределены на группы, получавшие помощь от LLM (GPT-4o, Llama 3, Command R+) или от источника по их выбору (контрольная группа). При самостоятельном тестировании LLM успешно справлялись с сценариями, правильно определяя заболевания в 94,9% случаев и диспозицию в 56,3% случаев в среднем. Однако участники, использовавшие те же LLM, выявили соответствующие заболевания менее чем в 34,5% случаев и диспозицию менее чем в 44,2% случаев, что не лучше, чем в контрольной группе. Мы выделяем взаимодействие с пользователями как ключевую проблему при внедрении LLM для медицинских рекомендаций. Стандартные тесты на медицинские знания и симуляции взаимодействия с пациентами не предсказывают ошибок, обнаруженных нами с участием людей. В дальнейшем мы рекомендуем систематическое тестирование с участием пользователей для оценки интерактивных возможностей перед публичным внедрением в сфере здравоохранения.
С быстрым ростом крупных языковых моделей (LLM) автоматизация работы с телефонами претерпела значительные изменения. В данной статье систематически рассматриваются агенты графического интерфейса телефона, управляемые LLM, с акцентом на их эволюцию от сценарной автоматизации до интеллектуальных адаптивных систем. Сначала мы контекстуализируем ключевые проблемы: (i) ограниченная универсальность, (ii) высокая стоимость обслуживания и (iii) слабое понимание намерений, и показываем, как LLM решают эти проблемы благодаря продвинутому пониманию языка, мультимодальному восприятию и надежному принятию решений. Затем мы предлагаем таксономию, охватывающую основные архитектуры агентов (одиночный агент, мультиагентный, план-затем-действие), подходы к моделированию (инженерия промптов, обучение на основе данных) и ключевые наборы данных и бенчмарки. Кроме того, мы подробно рассматриваем архитектуры, специфичные для задач, тонкую настройку с учителем и стратегии обучения с подкреплением, которые связывают намерения пользователя с операциями графического интерфейса. Наконец, мы обсуждаем открытые проблемы, такие как разнообразие данных, эффективность развертывания на устройстве, адаптация с учетом пользователя и вопросы безопасности, предлагая перспективные взгляды на эту быстро развивающуюся область. Предоставляя структурированный обзор и выявляя актуальные пробелы в исследованиях, эта статья служит авторитетным справочником для исследователей и практиков, стремящихся использовать LLM для создания масштабируемых и удобных агентов графического интерфейса телефона.
Крупные языковые модели (LLM) продемонстрировали впечатляющую способность генерировать контекстуально связные ответы, однако их фиксированные окна контекста создают фундаментальные проблемы для поддержания согласованности в продолжительных многосессионных диалогах. Мы представляем Mem0, масштабируемую архитектуру, ориентированную на память, которая решает эту проблему за счет динамического извлечения, консолидации и извлечения ключевой информации из текущих бесед. На основе этого подхода мы предлагаем улучшенный вариант, использующий графовые представления памяти для захвата сложных реляционных структур между элементами диалога. В ходе всесторонних оценок на бенчмарке LOCOMO мы систематически сравниваем наши подходы с шестью категориями базовых методов: (i) устоявшиеся системы с расширенной памятью, (ii) генерация с расширением поиска (RAG) с различными размерами фрагментов и значениями k, (iii) подход с полным контекстом, обрабатывающий всю историю беседы, (iv) открытое решение для памяти, (v) проприетарная модель системы и (vi) специализированная платформа управления памятью. Эмпирические результаты показывают, что наши методы стабильно превосходят все существующие системы памяти по четырем категориям вопросов: одношаговые, временные, многошаговые и открытые. В частности, Mem0 достигает 26% относительного улучшения по метрике LLM-as-a-Judge по сравнению с OpenAI, а Mem0 с графовой памятью демонстрирует примерно на 2% более высокий общий балл, чем базовая конфигурация. Помимо повышения точности, мы также значительно снижаем вычислительные затраты по сравнению с методом полного контекста. В частности, Mem0 достигает 91% снижения p95 задержки и экономит более 90% затрат на токены, предлагая убедительный баланс между продвинутыми возможностями рассуждения и практическими ограничениями развертывания. Наши результаты подчеркивают критическую роль структурированных, устойчивых механизмов памяти для долгосрочной согласованности диалогов, прокладывая путь к более надежным и эффективным ИИ-агентам на основе LLM.
Оценка пошаговой надежности рассуждений больших языковых моделей (LLM), таких как Chain-of-Thought, остается сложной задачей из-за трудностей и затрат, связанных с получением высококачественного пошагового контроля. В данной статье мы представляем Self-Play Critic (SPC) — новый подход, в котором модель-критик развивает способность оценивать шаги рассуждений через игры с противодействием в формате самопротивоборства, устраняя необходимость в ручной аннотации на уровне шагов. SPC включает тонкую настройку двух копий базовой модели для выполнения двух ролей: "хитрого генератора", который намеренно создает ошибочные шаги, сложные для обнаружения, и "критика", который анализирует правильность шагов рассуждений. Эти две модели участвуют в игре с противодействием, где генератор стремится обмануть критика, а модель-критик пытается выявить ошибки генератора. Используя обучение с подкреплением на основе результатов игры, модели итеративно улучшаются; победитель каждого противостояния получает положительное вознаграждение, а проигравший — отрицательное, что стимулирует непрерывное саморазвитие. Эксперименты на трех наборах данных для оценки процессов рассуждений (ProcessBench, PRM800K, DeltaBench) демонстрируют, что SPC постепенно улучшает свои способности к обнаружению ошибок (например, точность увеличивается с 70,8% до 77,7% на ProcessBench) и превосходит сильные базовые модели, включая дистиллированную модель R1. Более того, применение SPC для управления поиском на этапе тестирования различных LLM значительно улучшает их математические рассуждения на наборах данных MATH500 и AIME2024, превосходя современные модели вознаграждения за процесс.
Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности, особенно в последних достижениях в области рассуждений, таких как o1 и o3, расширяя границы искусственного интеллекта. Несмотря на эти впечатляющие успехи в математике и программировании, способности LLM к рассуждениям в областях, требующих криптографической экспертизы, остаются недостаточно изученными. В данной статье мы представляем CipherBank — всеобъемлющий бенчмарк, разработанный для оценки способностей LLM к рассуждениям в задачах криптографического дешифрования. CipherBank включает 2 358 тщательно составленных задач, охватывающих 262 уникальных открытых текста в 5 областях и 14 поддоменах, с акцентом на сценарии, связанные с конфиденциальностью и реальными ситуациями, требующими шифрования. С криптографической точки зрения, CipherBank включает 3 основные категории методов шифрования, охватывающих 9 различных алгоритмов, от классических шифров до пользовательских криптографических техник. Мы оцениваем современные LLM на CipherBank, такие как GPT-4o, DeepSeek-V3, а также передовые модели, ориентированные на рассуждения, такие как o1 и DeepSeek-R1. Наши результаты выявляют значительные пробелы в способностях к рассуждениям не только между универсальными чат-LLM и моделями, ориентированными на рассуждения, но и в производительности текущих моделей, ориентированных на рассуждения, при выполнении классических задач криптографического дешифрования, что подчеркивает трудности, с которыми сталкиваются эти модели при понимании и манипулировании зашифрованными данными. Благодаря детальному анализу и исследованию ошибок мы предоставляем несколько ключевых наблюдений, которые проливают свет на ограничения и потенциальные области улучшения для LLM в криптографических рассуждениях. Эти результаты подчеркивают необходимость постоянного совершенствования способностей LLM к рассуждениям.
Последние достижения в области крупномасштабных визуально-языковых моделей (LVLM) значительно улучшили их способность интегрировать визуальную и лингвистическую информацию, приблизившись к человеческому уровню в таких задачах, как распознавание объектов, создание описаний и ответы на вопросы по изображениям. Однако современные тесты обычно сосредоточены на оценке знаний в конкретных областях, часто упуская из виду ключевую способность рассуждать о фундаментальных математических элементах и визуальных концепциях. Мы выявили пробел в оценке задач начального уровня по математике, которые требуют явной визуальной зависимости — способности моделей различать, интегрировать и рассуждать на основе нескольких изображений, используя при этом здравый смысл. Эти навыки имеют решающее значение для продвижения к более широким возможностям искусственного общего интеллекта (AGI). Чтобы устранить этот пробел, мы представляем VCBENCH — комплексный тест для мультимодального математического рассуждения с явной визуальной зависимостью. VCBENCH включает 1720 задач, охватывающих шесть когнитивных областей, и содержит 6697 изображений (в среднем 3.9 на вопрос), что обеспечивает необходимость рассуждений на основе нескольких изображений. Мы оценили 26 современных LVLM на VCBENCH, выявив значительные различия в производительности: даже лучшие модели не смогли превысить 50% точности. Наши результаты подчеркивают сохраняющиеся трудности в интеграции визуальных и математических аспектов и предлагают направления для дальнейшего развития LVLM.
Слои понижения дискретизации являются ключевыми строительными блоками в архитектурах сверточных нейронных сетей (CNN), которые помогают увеличить рецептивное поле для изучения высокоуровневых признаков и уменьшить объем памяти/вычислений в модели. В данной работе мы исследуем обобщение равномерного слоя понижения дискретизации для группово-эквивариантных архитектур, например, G-CNN. А именно, мы стремимся понизить дискретизацию сигналов (карт признаков) на общих конечных группах с использованием антиалиасинга. Это включает следующее: (a) Для заданной конечной группы и скорости понижения дискретизации мы представляем алгоритм для формирования подходящего выбора подгруппы. (b) Для заданной группы и подгруппы мы исследуем понятие ограниченности по полосе частот и предлагаем, как выполнить антиалиасинг. Примечательно, что наш метод обобщает понятие понижения дискретизации, основанное на классической теории дискретизации. Когда сигнал находится на циклической группе, т.е. периодический, наш метод восстанавливает стандартное понижение дискретизации с использованием идеального фильтра нижних частот, за которым следует операция субдискретизации. Наконец, мы провели эксперименты на задачах классификации изображений, демонстрируя, что предложенная операция понижения дискретизации повышает точность, лучше сохраняет эквивариантность и уменьшает размер модели при включении в G-эквивариантные сети.
Интеграция возможностей работы с длинным контекстом и визуального понимания открывает беспрецедентный потенциал для моделей Vision Language Models (VLMs). Однако квадратичная сложность внимания на этапе предварительного заполнения остается значительным препятствием для практического применения. Чтобы преодолеть это ограничение, мы представляем MMInference (Multimodality Million tokens Inference) — метод динамического разреженного внимания, который ускоряет этап предварительного заполнения для многомодальных входных данных с длинным контекстом. Во-первых, наш анализ показывает, что временная и пространственная локальность видеовходов приводит к уникальному разреженному паттерну — Grid-паттерну. Одновременно VLMs демонстрируют заметно разные распределения разреженности для различных модальностей. Мы предлагаем метод на основе перестановок, который использует уникальный Grid-паттерн и решает проблемы границ модальностей. С помощью оффлайн-поиска оптимальных разреженных паттернов для каждого внимания MMInference динамически строит распределение разреженности на основе входных данных. Мы также предоставляем оптимизированные GPU-ядра для эффективных разреженных вычислений. Важно отметить, что MMInference легко интегрируется в существующие VLM-конвейеры без необходимости модификации моделей или дообучения. Эксперименты на многомодальных бенчмарках, включая Video QA, Captioning, VisionNIAH и Mixed-Modality NIAH, с использованием современных VLMs с длинным контекстом (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL), показывают, что MMInference ускоряет этап предварительного заполнения до 8.3 раз при 1 миллионе токенов, сохраняя точность. Наш код доступен по ссылке: https://aka.ms/MMInference.
Существующие модели визуально-языкового-действия (VLA) показали многообещающие результаты в сценариях с нулевым обучением, демонстрируя впечатляющие способности к выполнению задач и рассуждениям. Однако значительная проблема возникает из-за ограничений визуального кодирования, что может приводить к сбоям при выполнении задач, таких как захват объектов. Кроме того, эти модели обычно страдают от высоких вычислительных затрат из-за их больших размеров, часто превышающих 7 миллиардов параметров. Хотя эти модели преуспевают в рассуждениях и планировании задач, значительные вычислительные затраты делают их непрактичными для использования в реальных роботизированных средах, где скорость и эффективность имеют первостепенное значение. Чтобы устранить ограничения существующих моделей VLA, мы предлагаем NORA — модель с 3 миллиардами параметров, разработанную для снижения вычислительных затрат при сохранении высокой производительности в задачах. NORA использует мультимодальную модель Qwen-2.5-VL-3B в качестве основы, используя её превосходное визуально-семантическое понимание для улучшения визуального рассуждения и привязки действий. Кроме того, наша модель обучается на 970 тысячах реальных демонстраций роботов и оснащена токенизатором FAST+ для эффективного генерации последовательностей действий. Экспериментальные результаты показывают, что NORA превосходит существующие крупномасштабные модели VLA, достигая лучшей производительности в задачах при значительно сниженных вычислительных затратах, что делает её более практичным решением для автономной работы роботов в реальном времени.
Генерация песен сосредоточена на создании управляемых высококачественных композиций на основе различных запросов. Однако существующие методы испытывают трудности с генерацией вокала и аккомпанемента с управлением на основе запросов и правильным согласованием. Кроме того, они недостаточно поддерживают различные задачи. Для решения этих проблем мы представляем VersBand — многофункциональную систему генерации песен, предназначенную для синтеза высококачественных, согласованных композиций с управлением на основе запросов. VersBand включает следующие основные модели: 1) VocalBand, разделенная модель, использующая метод flow-matching для генерации стилей пения, высоты тона и мел-спектрограмм, что позволяет быстро создавать высококачественный вокал с контролем стиля. 2) AccompBand, трансформерная модель на основе потоков, включает Band-MOE, выбирая подходящие эксперты для повышения качества, согласования и управления. Эта модель позволяет генерировать управляемые, высококачественные аккомпанементы, согласованные с вокалом. 3) Две модели генерации, LyricBand для текста и MelodyBand для мелодий, вносят вклад в комплексную систему многофункциональной генерации песен, обеспечивая широкий контроль на основе множества запросов. Результаты экспериментов показывают, что VersBand превосходит базовые модели в различных задачах генерации песен по объективным и субъективным метрикам. Аудиообразцы доступны по адресу https://VersBand.github.io.
Решение математических геометрических задач (GPS) часто требует эффективной интеграции мультимодальной информации и проверяемой логической согласованности. Несмотря на быстрое развитие крупных языковых моделей в области общего решения задач, вопросы, связанные как с методологией, так и с эталонными тестами, остаются нерешенными, особенно учитывая тот факт, что существующие синтетические эталоны GPS часто не являются самопроверяемыми и содержат шум и противоречивую информацию из-за иллюзий, создаваемых языковыми моделями. В данной статье мы предлагаем масштабируемый механизм генерации данных под названием TrustGeoGen, который включает формальную проверку для создания принципиального эталона, что, по нашему мнению, закладывает основу для дальнейшего развития методов GPS. Этот механизм синтезирует геометрические данные с помощью четырех ключевых инноваций: 1) мультимодально согласованная генерация диаграмм, текстовых описаний и пошаговых решений; 2) формальная проверка, обеспечивающая соответствие рассуждений правилам; 3) механизм бутстрэппинга, позволяющий повышать сложность за счет рекурсивной генерации состояний; и 4) разработанные нами алгоритмы серии GeoExplore, которые одновременно создают варианты с несколькими решениями и следы саморефлексивного возврата. Благодаря формальной логической проверке, TrustGeoGen создает набор данных GeoTrust-200K с гарантированной целостностью модальностей, а также тестовый набор GeoTrust-test. Эксперименты показывают, что современные модели достигают точности всего 49,17\% на GeoTrust-test, что демонстрирует строгость его оценки. Важно отметить, что модели, обученные на GeoTrust, демонстрируют обобщение на данных вне распределения (OOD) на GeoQA, значительно снижая количество логических несоответствий по сравнению с псевдоразметкой, созданной OpenAI-o1. Наш код доступен по адресу https://github.com/Alpha-Innovator/TrustGeoGen.
Недавние исследования предположили, что обучение в контексте (In-Context Learning, ICL) функционирует в двух режимах: извлечение задачи (вспоминание изученных паттернов из предварительного обучения) и обучение задаче (обучение на демонстрациях во время вывода). Однако разделение этих двух режимов остается сложной задачей. Мы представляем ICL CIPHERS — класс реформулировок задач, основанных на подстановочных шифрах, заимствованных из классической криптографии. В этом подходе подмножество токенов во входных данных в контексте заменяется другими (нерелевантными) токенами, делая английские предложения менее понятными для человеческого глаза. Однако по замыслу существует скрытый, фиксированный паттерн этой замены, делающий её обратимой. Этот биективный (обратимый) шифр гарантирует, что задача остается четко определенной в некотором абстрактном смысле, несмотря на преобразования. Интересный вопрос заключается в том, могут ли крупные языковые модели (LLM) решать ICL CIPHERS с биективным отображением, что требует расшифровки скрытого шифра. Мы показываем, что LLM лучше справляются с ICL CIPHERS с биективными отображениями, чем с небиективными (необратимыми) базовыми вариантами, что предоставляет новый подход к количественной оценке «обучения» в ICL. Хотя этот разрыв невелик, он последовательно наблюдается на четырех наборах данных и шести моделях. Наконец, мы исследуем внутренние представления LLM и находим доказательства их способности декодировать зашифрованные входные данные.
Растущий спрос на специализированные архитектуры (Domain-Specific Architecture, DSA) стимулировал развитие гибкой методологии разработки аппаратного обеспечения (Agile Hardware Development Methodology, AHDM). Языки описания аппаратуры (Hardware Construction Language, HCL), такие как Chisel, предлагают функции высокоуровневой абстракции, что делает их идеальными для AHDM на основе HCL. Хотя крупные языковые модели (Large Language Models, LLMs) преуспевают в задачах генерации кода, они всё ещё сталкиваются с трудностями при генерации кода на Chisel, особенно в отношении корректности синтаксиса и вариативности проектирования. Недавние модели рассуждений значительно улучшили возможности генерации кода благодаря методам масштабирования на этапе тестирования. Однако мы обнаружили, что модели рассуждений без адаптации к предметной области не могут принести существенной пользы для задач генерации кода на Chisel. В данной статье представлен ChiseLLM — решение, включающее обработку и преобразование данных, синтез трассировки рассуждений с использованием подсказок и обучение моделей с адаптацией к предметной области. Мы создали высококачественные наборы данных из публичных ресурсов кода на уровне регистровых передач (RTL) и направили модель на использование структурированных шаблонов мышления с помощью методов улучшения подсказок. Эксперименты показали, что наши модели ChiseLLM-7B и ChiseLLM-32B улучшили корректность синтаксиса на 18,85% и 26,32% соответственно по сравнению с базовыми моделями, а также повысили способность к вариативному проектированию на 47,58% в сравнении с базовыми моделями рассуждений. Наши наборы данных и модели доступны публично, предоставляя высокопроизводительные и экономически эффективные решения для AHDM на основе HCL, а также устанавливая эффективный базис для будущих исследований. Репозиторий на GitHub: https://github.com/observerw/ChiseLLM.