Ежедневно отобранные исследовательские статьи по ИИ с переводами
По мере стремительного развития крупных языковых моделей (LLM) предоставление точной обратной связи и масштабируемого контроля за их выводами становится актуальной и критически важной задачей. Использование LLM в качестве моделей-критиков для достижения автоматизированного надзора является перспективным решением. В данной работе мы сосредоточены на изучении и улучшении способности LLM к математической критике. Современные LLM-критики предоставляют слишком поверхностные и неглубокие замечания на каждом шаге, что приводит к низкой точности суждений и затрудняет предоставление достаточной обратной связи для исправления ошибок генератором LLM. Для решения этой проблемы мы предлагаем новую и эффективную двухэтапную структуру для разработки LLM-критиков, способных тщательно анализировать каждый шаг математических решений. На первом этапе мы используем модель Qwen2.5-72B-Instruct для генерации 4,5 тысяч развернутых критических замечаний в качестве исходных данных для контролируемого тонкого обучения. Каждое исходное замечание включает в себя детальный пошаговый анализ, который охватывает многоплановую проверку, а также углубленную критику первоначальных замечаний для каждого шага рассуждения. Затем мы применяем обучение с подкреплением на тонко настроенной модели, используя либо существующие данные, размеченные человеком из набора PRM800K, либо наши автоматически аннотированные данные, полученные с помощью оценки корректности на основе метода Монте-Карло, чтобы дополнительно стимулировать её критическую способность. Разработанная нами модель-критик, основанная на Qwen2.5-7B-Instruct, не только значительно превосходит существующие LLM-критики (включая модели того же размера DeepSeek-R1-distill и GPT-4o) на различных тестах по выявлению ошибок, но и более эффективно помогает генератору LLM исправлять ошибочные шаги благодаря более детальной обратной связи.
Интерактивное генеративное видео (IGV) стало ключевой технологией в ответ на растущий спрос на высококачественный интерактивный видеоконтент в различных областях. В данной статье мы определяем IGV как технологию, которая сочетает генеративные возможности для создания разнообразного высококачественного видеоконтента с интерактивными функциями, позволяющими вовлечение пользователей через управляющие сигналы и оперативную обратную связь. Мы исследуем текущее состояние приложений IGV, сосредоточившись на трех основных областях: 1) игровая индустрия, где IGV обеспечивает бесконечное исследование виртуальных миров; 2) воплощенный искусственный интеллект, где IGV выступает в качестве физически осведомленного синтезатора среды для обучения агентов в условиях мультимодального взаимодействия с динамически изменяющимися сценами; и 3) автономное вождение, где IGV предоставляет возможности замкнутого цикла моделирования для критически важных тестов и проверки безопасности. Для направления будущего развития мы предлагаем всеобъемлющую структуру, которая разбивает идеальную систему IGV на пять основных модулей: Генерация, Управление, Память, Динамика и Интеллект. Кроме того, мы систематически анализируем технические вызовы и будущие направления в реализации каждого компонента для идеальной системы IGV, такие как достижение генерации в реальном времени, обеспечение управления в открытой области, поддержание долгосрочной согласованности, моделирование точной физики и интеграция причинно-следственных рассуждений. Мы считаем, что этот систематический анализ будет способствовать будущим исследованиям и разработкам в области IGV, в конечном итоге продвигая технологию к более сложным и практическим применениям.
Последние достижения в области больших языковых моделей продемонстрировали, как цепочка рассуждений (Chain-of-Thought, CoT) и обучение с подкреплением (Reinforcement Learning, RL) могут улучшить производительность. Однако применение таких стратегий рассуждений в области визуальной генерации остается в значительной степени неисследованным. В данной работе мы представляем T2I-R1, новую модель генерации изображений по тексту, усиленную рассуждениями, которая использует RL с двухуровневым процессом CoT. В частности, мы выделяем два уровня CoT, которые могут быть использованы для улучшения различных этапов генерации: (1) семантический уровень CoT для высокоуровневого планирования запроса и (2) токеновый уровень CoT для низкоуровневой обработки пикселей при поэтапной генерации. Для лучшей координации этих двух уровней CoT мы представляем BiCoT-GRPO с ансамблем наград за генерацию, который оптимизирует оба уровня CoT в рамках одного шага обучения. Применяя наши стратегии рассуждений к базовой модели Janus-Pro, мы достигаем превосходной производительности с улучшением на 13% на T2I-CompBench и на 19% на бенчмарке WISE, даже превосходя современную модель FLUX.1. Код доступен по адресу: https://github.com/CaraJ7/T2I-R1.
Многие методы улучшения агентов на основе больших языковых моделей (LLM) для задач последовательного принятия решений зависят от специфической для задачи инженерии знаний — например, настройки промптов, тщательно подобранных примеров в контексте или кастомизированных пространств наблюдений и действий. При использовании этих подходов производительность агента улучшается с увеличением качества или объема вложенной инженерии знаний. Вместо этого мы исследуем, как агенты LLM могут автоматически улучшать свою производительность, обучаясь в контексте на основе своих собственных успешных опытов на схожих задачах. Вместо опоры на специфическую для задачи инженерию знаний мы сосредотачиваемся на создании и уточнении базы данных самоcгенерированных примеров. Мы демонстрируем, что даже простое накопление успешных траекторий на обучающих задачах повышает производительность на тестах для трех бенчмарков: ALFWorld (с 73% до 89%), Wordcraft (с 55% до 64%) и InterCode-SQL (с 75% до 79%) — что соответствует производительности, которую изначальный агент достигает, если ему разрешено две-три попытки на задачу. Затем мы вводим два расширения: (1) выбор на уровне базы данных через обучение на основе популяции для идентификации высокопроизводительных коллекций примеров и (2) выбор на уровне экземпляров, который сохраняет отдельные траектории на основе их эмпирической полезности как примеров в контексте. Эти расширения дополнительно повышают производительность, достигая 91% на ALFWorld — что соответствует более сложным подходам, использующим специфические для задачи компоненты и промпты. Наши результаты показывают, что автоматическое построение базы данных траекторий предлагает убедительную альтернативу трудоемкой инженерии знаний.
Синхронизация губ, задача, заключающаяся в согласовании движений губ в существующем видео с новым аудиовходом, обычно рассматривается как более простая разновидность анимации лица, управляемой звуком. Однако, помимо общих проблем, характерных для генерации говорящих голов (например, временной согласованности), синхронизация губ сталкивается с новыми значительными трудностями, такими как утечка выражений из исходного видео и лицевые окклюзии, которые могут серьезно повлиять на реальные приложения, такие как автоматическое дубляж, но часто игнорируются в существующих работах. Для устранения этих недостатков мы представляем KeySync, двухэтапную структуру, которая успешно решает проблему временной согласованности, а также включает решения для утечки и окклюзий с использованием тщательно разработанной стратегии маскирования. Мы показываем, что KeySync достигает передовых результатов в реконструкции губ и кросс-синхронизации, улучшая визуальное качество и снижая утечку выражений согласно LipLeak, нашей новой метрике утечки. Кроме того, мы демонстрируем эффективность нашего нового подхода к маскированию в обработке окклюзий и подтверждаем наши архитектурные решения с помощью нескольких абляционных исследований. Код и веса модели доступны по адресу https://antonibigata.github.io/KeySync.
Моральные истории являются проверенным временем средством передачи ценностей, однако современные методы обработки естественного языка (NLP) не располагают крупным структурированным корпусом, который сочетает связные повествования с явными этическими уроками. Мы устраняем этот пробел с помощью TF1-EN-3M — первого открытого набора данных, содержащего три миллиона англоязычных басен, сгенерированных исключительно моделями, настроенными на выполнение инструкций, с параметрами не более 8 миллиардов. Каждая история следует шестиэлементному шаблону (персонаж -> черта характера -> обстановка -> конфликт -> разрешение -> мораль), созданному с помощью комбинаторного механизма подсказок, который гарантирует соответствие жанру и охватывает широкий тематический спектр. Гибридный процесс оценки сочетает (i) критику на основе GPT, которая оценивает грамматику, креативность, ясность морали и соблюдение шаблона, с (ii) метриками разнообразия и удобочитаемости, не требующими эталонных данных. Среди десяти кандидатов с открытыми весами вариант Llama-3 с 8 миллиардами параметров демонстрирует наилучший баланс качества и скорости, генерируя высокооцененные басни на одной потребительской видеокарте (<24 ГБ видеопамяти) при стоимости примерно 13,5 центов за 1000 басен. Мы публикуем набор данных, код генерации, скрипты оценки и полные метаданные под разрешительной лицензией, что обеспечивает точную воспроизводимость и сравнение затрат. TF1-EN-3M открывает новые возможности для исследований в области следования инструкциям, нарративного интеллекта, согласования ценностей и создания дружественных для детей образовательных ИИ, демонстрируя, что масштабное моральное повествование больше не требует использования проприетарных гигантских моделей.
Крупные языковые модели (LLM) произвели революцию в разработке программного обеспечения, однако их применение в физических инженерных областях остается недостаточно изученным. В данной статье оцениваются возможности LLM в проектировании высокомощных ракет с использованием RocketBench — эталонного теста, связывающего LLM с высокоточными симуляциями ракет. Мы тестируем модели на двух задачах возрастающей сложности: оптимизация целевой высоты и задачи точной посадки. Наши результаты показывают, что, хотя современные LLM демонстрируют глубокие базовые знания в инженерии, они испытывают трудности с итеративным улучшением своих проектов на основе результатов симуляций и в конечном итоге достигают плато ниже уровня человеческой производительности. Однако при усилении с помощью обучения с подкреплением (RL) модель с 7 миллиардами параметров превосходит как современные базовые модели, так и экспертов-людей. Это исследование демонстрирует, что LLM, обученные с RL, могут служить эффективными инструментами для сложной инженерной оптимизации, потенциально преобразуя инженерные области за пределами разработки программного обеспечения.
Недавно модели рассуждений с длинными цепочками мыслей (Long-CoT) продемонстрировали высокую производительность на сложных задачах, требующих рассуждений, однако часто сопровождаются значительными вычислительными затратами, что делает эффективность критически важной. Наш эмпирический анализ показывает, что польза от использования Long-CoT варьируется в зависимости от задачи: в то время как для некоторых задач требуется детальное рассуждение, для других оно не дает улучшений или даже снижает точность. Это мотивирует разработку адаптивных стратегий рассуждений, которые подстраивают глубину рассуждений под входные данные. Однако предыдущие работы в основном сосредоточены на сокращении избыточности в длинных цепочках рассуждений, ограничивая исследование более эффективных стратегий за пределами парадигмы Long-CoT. Для решения этой проблемы мы предлагаем новый двухэтапный фреймворк для адаптивных и эффективных рассуждений. Во-первых, мы создаем гибридную модель рассуждений, объединяя модели с длинными и короткими цепочками мыслей (CoT), чтобы обеспечить разнообразие стилей рассуждений. Во-вторых, мы применяем двухуровневое обучение с предпочтениями, чтобы направлять модель на выбор подходящих стилей рассуждений (на уровне группы) и предпочтение кратких и корректных рассуждений внутри каждой группы стилей (на уровне экземпляра). Эксперименты показывают, что наш метод значительно снижает вычислительные затраты по сравнению с другими базовыми подходами, сохраняя при этом производительность. В частности, на пяти математических наборах данных средняя длина рассуждений сокращается более чем на 50%, что подчеркивает потенциал адаптивных стратегий для оптимизации эффективности рассуждений в больших языковых моделях. Наш код скоро будет доступен по адресу https://github.com/StarDewXXX/AdaR1.
Интерфейсы сценариев позволяют пользователям автоматизировать задачи и настраивать рабочие процессы программного обеспечения, но создание сценариев традиционно требует навыков программирования и знакомства с конкретными API, что создает барьеры для многих пользователей. Хотя крупные языковые модели (LLM) могут генерировать код на основе запросов на естественном языке, генерация кода в реальном времени сильно ограничена из-за непроверенного кода, рисков безопасности, увеличенного времени отклика и более высоких вычислительных затрат. Чтобы преодолеть этот разрыв, мы предлагаем оффлайн-симуляционную структуру для создания специализированного набора навыков для программного обеспечения — коллекции проверенных сценариев, используя LLM и общедоступные руководства по написанию сценариев. Наша структура состоит из двух компонентов: (1) создание задач с использованием нисходящего руководства по функциональности и восходящего исследования синергии API для генерации полезных задач; и (2) генерация навыков с испытаниями, уточнением и проверкой сценариев на основе обратной связи от выполнения. Для эффективного навигации по обширному ландшафту API мы вводим модель предсказания связей на основе графовых нейронных сетей (GNN), чтобы уловить синергию API, что позволяет генерировать навыки, включающие недостаточно используемые API, и расширять разнообразие набора навыков. Эксперименты с Adobe Illustrator демонстрируют, что наша структура значительно повышает успешность автоматизации, сокращает время отклика и экономит затраты на токены в реальном времени по сравнению с традиционной генерацией кода. Это первая попытка использовать интерфейсы сценариев программного обеспечения в качестве тестовой площадки для систем на основе LLM, подчеркивая преимущества использования обратной связи от выполнения в контролируемой среде и предлагая ценные инсайты по согласованию возможностей ИИ с потребностями пользователей в специализированных программных областях.
Представьте, что вы находитесь в многолюдном месте, где люди говорят на другом языке, и у вас есть наушники, которые преобразуют звуковое пространство в ваш родной язык, сохраняя при этом пространственные характеристики для всех говорящих. Мы представляем концепцию пространственного перевода речи — новое направление для наушников, которые переводят речь окружающих людей, сохраняя направление и уникальные голосовые характеристики каждого говорящего в бинауральном выводе. Для достижения этого мы решаем несколько технических задач, включая слепое разделение источников звука, локализацию, экспрессивный перевод в реальном времени и бинауральное воспроизведение, чтобы сохранить направление говорящих в переведённом аудио, обеспечивая при этом выполнение в реальном времени на процессоре Apple M2. Наше оценочное тестирование с использованием прототипа бинауральных наушников показывает, что, в отличие от существующих моделей, которые терпят неудачу при наличии помех, мы достигаем показателя BLEU до 22.01 при переводе между языками, несмотря на сильные помехи от других говорящих в окружении. Пользовательские исследования дополнительно подтверждают эффективность системы в пространственном воспроизведении переведённой речи в ранее неизученных реальных реверберирующих средах. В более широком контексте, эта работа представляет собой первый шаг к интеграции пространственного восприятия в перевод речи.
Аугментация данных играет ключевую роль в медицинской визуализации для повышения точности классификации, обнаружения поражений и сегментации органов в условиях ограниченного объема данных. Однако остаются две значительные проблемы. Во-первых, заметный разрыв между доменами естественных фотографий и медицинских изображений может искажать важные признаки заболеваний. Во-вторых, исследования по аугментации в медицинской визуализации фрагментированы и ограничены отдельными задачами или архитектурами, что оставляет преимущества современных стратегий, основанных на смешивании, неясными. Для решения этих проблем мы предлагаем унифицированную систему оценки с шестью методами аугментации, основанными на смешивании, интегрированными с архитектурами на основе сверточных сетей и трансформеров, на наборах данных МРТ опухолей мозга и изображений глазного дна при заболеваниях глаз. Наш вклад трехчастный. (1) Мы представляем MediAug — всеобъемлющий и воспроизводимый бенчмарк для продвинутой аугментации данных в медицинской визуализации. (2) Мы систематически оцениваем MixUp, YOCO, CropMix, CutMix, AugMix и SnapMix с архитектурами ResNet-50 и ViT-B. (3) Мы демонстрируем в ходе обширных экспериментов, что MixUp обеспечивает наибольшее улучшение в задаче классификации опухолей мозга для ResNet-50 с точностью 79,19%, а SnapMix — для ViT-B с точностью 99,44%, и что YOCO дает наибольшее улучшение в задаче классификации заболеваний глаз для ResNet-50 с точностью 91,60%, а CutMix — для ViT-B с точностью 97,94%. Код будет доступен по адресу https://github.com/AIGeeksGroup/MediAug.
Визуальные сенсоры приобретают все большее значение в интеллектуальных транспортных системах (ITS) для мониторинга, управления и оптимизации трафика, поскольку количество сетевых камер продолжает расти. Однако ручное отслеживание и сопоставление объектов между несколькими неперекрывающимися камерами представляют значительные трудности в городских сценариях масштаба мегаполиса. Эти трудности включают обработку разнообразных атрибутов транспортных средств, окклюзии, вариации освещения, тени и различия в разрешении видео. Для решения этих проблем мы предлагаем эффективную и экономичную платформу на основе глубокого обучения для многокамерного отслеживания множества объектов (MO-MCT). Предлагаемая платформа использует Mask R-CNN для обнаружения объектов и применяет метод подавления немаксимумов (NMS) для выбора целевых объектов из перекрывающихся обнаружений. Для повторной идентификации используется трансферное обучение, что позволяет ассоциировать и генерировать треки транспортных средств между несколькими камерами. Кроме того, мы применяем подходящие функции потерь и метрики расстояния для обработки проблем, связанных с окклюзиями, освещением и тенями. Модуль окончательной идентификации решения выполняет извлечение признаков с использованием ResNet-152 в сочетании с отслеживанием транспортных средств на основе Deep SORT. Предлагаемая платформа оценивается на наборе данных 5-го конкурса AI City Challenge (Трек 3), включающем 46 видеопотоков с камер. Из этих 46 потоков 40 используются для обучения и валидации модели, а оставшиеся шесть — для тестирования модели. Предлагаемая платформа демонстрирует конкурентоспособные результаты с показателем IDF1 0,8289, а также точностью и полнотой 0,9026 и 0,8527 соответственно, что подтверждает ее эффективность в надежном и точном отслеживании транспортных средств.