Ежедневно отобранные исследовательские статьи по ИИ с переводами
Метод Chain-of-Thought (CoT) prompting продемонстрировал улучшение производительности больших языковых моделей (LLM) в различных задачах. При таком подходе LLM, по-видимому, генерируют шаги рассуждений, похожие на человеческие, перед тем как дать ответ (так называемое CoT-рассуждение), что часто создает впечатление, будто модели участвуют в осознанных процессах логического вывода. Однако некоторые предварительные данные указывают на то, что CoT-рассуждения могут быть более поверхностными, чем кажется, что побуждает нас к дальнейшему исследованию. В данной работе мы изучаем CoT-рассуждения через призму распределения данных и исследуем, отражает ли CoT-рассуждение структурированную индуктивную предвзятость, усвоенную из данных в рамках распределения, что позволяет модели условно генерировать пути рассуждений, приближенные к тем, что наблюдались во время обучения. Таким образом, его эффективность принципиально ограничена степенью расхождения распределений между обучающими данными и тестовыми запросами. С этой точки зрения мы анализируем CoT-рассуждения по трем измерениям: задача, длина и формат. Для исследования каждого измерения мы разрабатываем DataAlchemy — изолированную и контролируемую среду для обучения LLM с нуля и систематического тестирования их в различных условиях распределения. Наши результаты показывают, что CoT-рассуждение является хрупкой иллюзией, которая исчезает, когда его выходят за пределы обучающих распределений. Эта работа предлагает более глубокое понимание того, почему и когда CoT-рассуждения терпят неудачу, подчеркивая продолжающуюся проблему достижения подлинного и обобщаемого рассуждения.
Последние исследования сосредоточены на создании автономных агентов, способных выполнять сложные задачи на компьютере с использованием графического пользовательского интерфейса (GUI), что имеет потенциал для революции в области взаимодействия человека и компьютера. Несмотря на обнадеживающие результаты, существующие подходы в основном ориентированы на краткосрочные взаимодействия и полагаются на проверку только конечных результатов, что ограничивает их масштабируемость в реальных GUI-приложениях, требующих декомпозиции и выполнения задач на длительном горизонте. В данной работе мы представляем VeriGUI — новый верифицируемый набор данных для длинных цепочек GUI, предназначенный для разработки и оценки универсальных GUI-агентов, работающих в реалистичных компьютерных средах. Наш набор данных акцентирует внимание на двух ключевых аспектах: (1) сложность длинных цепочек, где задачи разбиваются на последовательность взаимосвязанных подзадач, охватывающих сотни шагов, причем каждая подзадача может служить допустимой отправной точкой; и (2) верифицируемость на уровне подзадач, что позволяет использовать разнообразные стратегии исследования внутри каждой подзадачи, обеспечивая при этом проверяемость и согласованность целей на уровне подзадач. Набор данных включает траектории выполнения GUI-задач как на десктопных, так и на веб-платформах, аннотированные экспертами. Эксперименты с использованием различных агентов и базовых моделей на VeriGUI выявили значительные пробелы в производительности при обработке задач на длительном горизонте, подчеркивая необходимость более надежных возможностей планирования и принятия решений у GUI-агентов.
Выдающиеся возможности агентов на основе крупных языковых моделей (LLM) позволили создавать сложные системы для решения многошаговых задач, однако их растущие затраты угрожают масштабируемости и доступности. В данной работе представлено первое систематическое исследование компромисса между эффективностью и производительностью в современных агентских системах, что отвечает критической потребности в экономически эффективных решениях без ущерба для производительности. Мы исследуем три ключевых вопроса: (1) Какой уровень сложности изначально требуется для агентских задач? (2) Когда дополнительные модули начинают приносить убывающую отдачу? (3) Насколько можно повысить эффективность за счет проектирования оптимизированных агентских фреймворков? Проведя эмпирический анализ на базе бенчмарка GAIA, мы оцениваем влияние выбора базовой LLM, дизайна агентских фреймворков и стратегий масштабирования на этапе тестирования. Используя метрику cost-of-pass, мы количественно измеряем компромисс между эффективностью и производительностью в этих аспектах. Наши результаты легли в основу разработки Efficient Agents — нового агентского фреймворка, обладающего оптимальной сложностью, соответствующей требованиям задач. Efficient Agents сохраняет 96,7% производительности OWL, одного из ведущих открытых агентских фреймворков, при этом снижая операционные затраты с 0,398 до 0,228, что приводит к улучшению показателя cost-of-pass на 28,4%. Наша работа предоставляет практические рекомендации для проектирования эффективных и высокопроизводительных агентских систем, способствуя повышению доступности и устойчивости решений на основе искусственного интеллекта.
Мы представляем Agent Lightning — гибкую и расширяемую платформу, которая позволяет проводить обучение крупных языковых моделей (LLM) с использованием методов обучения с подкреплением (Reinforcement Learning, RL) для любых ИИ-агентов. В отличие от существующих подходов, которые тесно связывают RL-обучение с конкретным агентом или используют конкатенацию последовательностей с маскированием, Agent Lightning обеспечивает полное разделение между выполнением агента и его обучением. Это позволяет легко интегрировать платформу с уже существующими агентами, разработанными различными способами (например, с использованием фреймворков LangChain, OpenAI Agents SDK, AutoGen или созданных с нуля), практически без изменений кода. Формулируя выполнение агента как марковский процесс принятия решений, мы определяем унифицированный интерфейс данных и предлагаем иерархический RL-алгоритм LightningRL, который включает модуль распределения заслуг, позволяющий декомпозировать траектории, сгенерированные ЛЮБЫМИ агентами, в обучающие переходы. Это позволяет RL справляться со сложной логикой взаимодействия, такой как сценарии с несколькими агентами и динамические рабочие процессы. В рамках системного дизайна мы вводим архитектуру разделения обучения и агента (Training-Agent Disaggregation) и интегрируем фреймворки наблюдаемости агентов в их среду выполнения, предоставляя стандартизированный интерфейс для тонкой настройки агентов. Эксперименты на задачах text-to-SQL, генерации с использованием поиска и использования математических инструментов демонстрируют стабильные и непрерывные улучшения, подчеркивая потенциал платформы для обучения и развертывания агентов в реальных условиях.
Исследования по применению обучения с подкреплением (Reinforcement Learning, RL) к большим языковым моделям (Large Language Models, LLMs) в основном были сосредоточены на задачах, решаемых за один шаг, таких как математические рассуждения или генерация кода за один проход. Хотя эти задачи можно рассматривать как многошаговые марковские процессы принятия решений (MDP) на уровне токенов, такой подход соответствует вырожденному случаю многошагового взаимодействия, где среда не предоставляет обратной связи. Это контрастирует со многими реальными областями, такими как разработка программного обеспечения (Software Engineering, SWE), которые требуют насыщенного многошагового взаимодействия с состоятельной средой, реагирующей на каждое действие нетривиальным наблюдением. Чтобы преодолеть этот разрыв, мы демонстрируем успешное применение RL в этом общем режиме. Используя модифицированный алгоритм Decoupled Advantage Policy Optimization (DAPO), мы обучаем агента на основе модели Qwen2.5-72B-Instruct для решения реальных задач разработки программного обеспечения. Наш подход повышает успешность агента на бенчмарке SWE-bench Verified с 20% (базовая модель с тонкой настройкой на отклонение) до 39%, без использования каких-либо моделей-учителей. На бенчмарке SWE-rebench наш агент соответствует или превосходит ведущие модели с открытыми весами, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, используя идентичную инфраструктуру, предлагая жизнеспособный путь к созданию более способных автономных агентов для сложных реальных задач на основе открытых моделей.
Перепрофилирование крупных моделей обработки визуальной информации и текста (LVLMs) в агентов для работы с компьютером (CUAs) привело к значительным прорывам, в основном благодаря данным, размеченным человеком. Однако такие модели часто испытывают трудности с новым и специализированным программным обеспечением, особенно в сценариях, где отсутствуют аннотации, созданные человеком. Для решения этой проблемы мы предлагаем SEAgent — агентскую саморазвивающуюся структуру, которая позволяет CUAs автономно эволюционировать через взаимодействие с незнакомым программным обеспечением. В частности, SEAgent наделяет агентов для работы с компьютером способностью самостоятельно осваивать новые программные среды посредством обучения на опыте, где агенты исследуют новое ПО, учатся через итеративные пробы и ошибки и постепенно решают автоматически генерируемые задачи, организованные от простых к сложным. Для достижения этой цели мы разработали Модель Состояния Мира для пошаговой оценки траекторий, а также Генератор Учебного Плана, который создает всё более разнообразные и сложные задачи. Политика агента обновляется через обучение на опыте, включающее в себя адверсарное подражание неудачным действиям и Оптимизацию Относительной Политики Группы (GRPO) для успешных действий. Кроме того, мы внедряем стратегию обучения от специалиста к универсалу, которая интегрирует индивидуальные опытные знания от специализированных агентов, способствуя развитию более сильного универсального CUA, способного к непрерывной автономной эволюции. Этот унифицированный агент в конечном итоге демонстрирует производительность, превосходящую ансамбли индивидуальных специализированных агентов в их специализированном ПО. Мы подтверждаем эффективность SEAgent в пяти новых программных средах в рамках OS-World. Наш подход обеспечивает значительное улучшение успешности на 23,2%, с 11,3% до 34,5%, по сравнению с конкурентоспособным открытым CUA, таким как UI-TARS.
Интерактивные мультимодальные агенты должны преобразовывать необработанные визуальные наблюдения в последовательные действия, обусловленные языком — способность, которой современные модели обработки визуальной и языковой информации (VLMs) всё ещё не обладают. В принципе, более ранние подходы на основе обучения с подкреплением (RL) могли бы наделить VLMs такими навыками, но они редко проверяли, обобщаются ли изученные поведения за пределы их обучающих симуляторов, и зависели либо от хрупкой настройки гиперпараметров, либо от сред с плотными наградами и низкой вариативностью состояний. Мы представляем Vision-Language Decoupled Actor-Critic (VL-DAC) — лёгкий, свободный от гиперпараметров алгоритм RL. VL-DAC применяет обновления PPO к токенам действий, обучая функцию ценности только на уровне шагов среды: такая организация, насколько нам известно, ранее не исследовалась для крупных VLMs или LLMs. Это простое разделение устраняет нестабильные весовые коэффициенты и обеспечивает более быструю и надёжную сходимость. Обучение одной VLM с помощью VL-DAC в одном недорогом симуляторе за раз (MiniWorld, Gym-Cards, ALFWorld или WebShop) уже даёт политики, которые широко обобщаются: +50\% относительно BALROG (агентское управление в играх), +5\% относительно самой сложной части VSI-Bench (пространственное планирование) и +2\% на VisualWebBench (веб-навигация), при этом не ухудшая точность общего понимания изображений. Эти результаты впервые демонстрируют, что простой алгоритм RL может обучать VLMs полностью в дешёвых синтетических мирах, обеспечивая измеримые улучшения на реальных тестах для агентского управления, пространственного мышления и веб-навигации.
Социальный интеллект стал критически важной способностью для крупных языковых моделей (LLM), позволяя им эффективно участвовать в реальных социальных задачах, таких как адаптация, убеждение, сотрудничество и переговоры. Обучение с подкреплением (RL) естественным образом подходит для тренировки социально интеллектуальных агентов, поскольку позволяет моделям изучать сложные стратегии напрямую через социальные взаимодействия. Однако социальные взаимодействия обладают двумя ключевыми характеристиками, которые создают барьеры для RL-обучения: (1) частичная наблюдаемость, при которой высказывания имеют косвенные и отсроченные эффекты, что усложняет распределение заслуг, и (2) многомерность, при которой поведение, такое как установление взаимопонимания или поиск знаний, косвенно способствует достижению цели. Эти характеристики делают RL на основе марковских процессов принятия решений (MDP) с одномерными наградами на уровне эпизода неэффективным и нестабильным. Для решения этих проблем мы предлагаем Sotopia-RL, новый фреймворк, который преобразует грубые награды на уровне эпизода в многомерные награды на уровне высказываний. Распределение заслуг на уровне высказываний смягчает проблему частичной наблюдаемости, приписывая результаты отдельным высказываниям, а многомерные награды охватывают всю сложность социальных взаимодействий и снижают риск "взлома наград". Эксперименты в Sotopia, открытой среде для социального обучения, показывают, что Sotopia-RL достигает наивысших показателей завершения социальных целей (7.17 на Sotopia-hard и 8.31 на Sotopia-full), значительно превосходя существующие подходы. Абляционные исследования подтверждают необходимость как распределения заслуг на уровне высказываний, так и многомерного дизайна наград для RL-обучения. Наша реализация доступна публично по адресу: https://github.com/sotopia-lab/sotopia-rl.
Токсичность лекарственных препаратов остается серьезной проблемой в фармацевтической разработке. Современные модели машинного обучения улучшили прогнозирование токсичности in silico, но их зависимость от аннотированных данных и недостаток интерпретируемости ограничивают их применимость. Это ограничивает их способность учитывать орган-специфичные токсичности, обусловленные сложными биологическими механизмами. Крупные языковые модели (LLM) предлагают перспективную альтернативу благодаря пошаговому рассуждению и интеграции текстовых данных, однако предыдущие подходы не учитывали биологический контекст и прозрачность обоснования. Для решения этой проблемы мы предлагаем CoTox — новый фреймворк, который интегрирует LLM с цепочкой рассуждений (CoT) для прогнозирования множественных токсичностей. CoTox объединяет данные о химической структуре, биологические пути и термины генной онтологии (GO) для генерации интерпретируемых прогнозов токсичности через пошаговое рассуждение. Используя GPT-4o, мы показываем, что CoTox превосходит как традиционные модели машинного обучения, так и модели глубокого обучения. Мы также исследуем его производительность на различных LLM, чтобы определить, где CoTox наиболее эффективен. Кроме того, мы обнаруживаем, что представление химических структур с помощью IUPAC-названий, которые легче воспринимаются LLM, чем SMILES, улучшает способность модели к рассуждению и повышает точность прогнозирования. Чтобы продемонстрировать практическую полезность в разработке лекарств, мы моделируем обработку соответствующих типов клеток препаратом и включаем полученный биологический контекст в фреймворк CoTox. Этот подход позволяет CoTox генерировать прогнозы токсичности, согласованные с физиологическими реакциями, как показано в кейс-стади. Этот результат подчеркивает потенциал LLM-фреймворков для улучшения интерпретируемости и поддержки оценки безопасности лекарств на ранних этапах. Код и промпты, использованные в этой работе, доступны по адресу https://github.com/dmis-lab/CoTox.
Мультимодальные крупномасштабные модели значительно продвинули развитие веб-агентов, обеспечивая восприятие и взаимодействие с цифровыми средами, аналогичное человеческому познанию. В данной статье мы утверждаем, что веб-агенты должны сначала приобрести достаточные знания для эффективного участия в когнитивном рассуждении. Поэтому мы разделяем способности веб-агента на два ключевых этапа: изучение содержания знаний и когнитивные процессы. Для формализации этого мы предлагаем фреймворк Web-CogKnowledge, классифицирующий знания как Фактические, Концептуальные и Процедурные. В этом фреймворке изучение содержания знаний соответствует процессам Запоминания и Понимания агента, которые опираются на первые два типа знаний, представляющих "что" обучения. Напротив, когнитивные процессы соответствуют Исследованию, основанному на Процедурных знаниях, определяющих "как" рассуждения и действия. Для облегчения приобретения знаний мы создаем Web-CogDataset — структурированный ресурс, собранный из 14 реальных веб-сайтов, предназначенный для систематического усвоения ключевых знаний, необходимых веб-агенту. Этот набор данных служит концептуальной основой агента — "существительными", на которых строится понимание, — а также базой для обучения тому, как рассуждать и действовать. Опираясь на эту основу, мы реализуем эти процессы через новый фреймворк Chain-of-Thought (CoT) рассуждений, основанный на знаниях, разрабатывая и обучая наш предложенный агент Web-CogReasoner. Обширные эксперименты демонстрируют его значительное превосходство над существующими моделями, особенно в обобщении на неизвестные задачи, где структурированные знания играют решающую роль. Для обеспечения строгой оценки мы представляем Web-CogBench — комплексный набор тестов, предназначенный для оценки и сравнения производительности агентов в рамках выделенных областей знаний и когнитивных способностей. Наш код и данные доступны по адресу https://github.com/Gnonymous/Web-CogReasoner.
Преобразование дизайнов веб-страниц в код (design-to-code) играет важную роль в разработке пользовательских интерфейсов (UI) для фронтенд-разработчиков, устраняя разрыв между визуальным дизайном и функциональной реализацией. Хотя современные мультимодальные большие языковые модели (MLLMs) продемонстрировали значительный потенциал в задачах design-to-code, они часто не могут точно сохранить макет при генерации кода. Вдохновившись концепцией цепочки рассуждений (Chain-of-Thought, CoT) в человеческом познании, мы предлагаем LaTCoder — новый подход, который улучшает сохранение макета веб-страницы при генерации кода с использованием Layout-as-Thought (LaT). В частности, мы сначала вводим простой, но эффективный алгоритм для разделения дизайна веб-страницы на блоки изображений. Затем мы используем подход на основе CoT для генерации кода для каждого блока с помощью MLLMs. Наконец, применяем две стратегии сборки — абсолютное позиционирование и метод на основе MLLM — с последующим динамическим выбором для определения оптимального результата. Мы оцениваем эффективность LaTCoder, используя несколько базовых MLLMs (DeepSeek-VL2, Gemini и GPT-4o), как на публичном бенчмарке, так и на новом, более сложном бенчмарке (CC-HARD), который включает сложные макеты. Результаты экспериментов по автоматическим метрикам демонстрируют значительные улучшения. В частности, показатели TreeBLEU увеличились на 66,67%, а MAE снизился на 38% при использовании DeepSeek-VL2 по сравнению с прямым запросом. Более того, результаты оценки предпочтений пользователей показывают, что аннотаторы отдают предпочтение веб-страницам, сгенерированным LaTCoder, в более чем 60% случаев, что подтверждает эффективность нашего метода.
Оценка моделей генерации изображений по тексту требует соответствия человеческому восприятию, однако существующие метрики, ориентированные на человека, ограничены недостаточным охватом данных, неоптимальным извлечением признаков и неэффективными функциями потерь. Для решения этих проблем мы представляем Human Preference Score v3 (HPSv3). (1) Мы публикуем HPDv3 — первый широкоспектральный набор данных о человеческих предпочтениях, включающий 1,08 миллиона пар текст-изображение и 1,17 миллиона аннотированных попарных сравнений, полученных от современных генеративных моделей и изображений реального мира различного качества. (2) Мы представляем модель предпочтений на основе VLM, обученную с использованием функции потерь, учитывающей неопределенность, для детального ранжирования. Кроме того, мы предлагаем метод Chain-of-Human-Preference (CoHP) — итеративный метод улучшения изображений, который повышает качество без дополнительных данных, используя HPSv3 для выбора лучшего изображения на каждом шаге. Многочисленные эксперименты демонстрируют, что HPSv3 служит надежной метрикой для широкоспектральной оценки изображений, а CoHP предлагает эффективный и ориентированный на человека подход к улучшению качества генерации изображений. Код и набор данных доступны на странице HPSv3.
В данной статье мы представляем новую структуру для генерации видео в 4D, которая создает высококачественное динамическое 3D-содержание на основе одиночных видеовходов. Прямое моделирование 4D-диффузии является крайне сложной задачей из-за дорогостоящего построения данных и высокой размерности совместного представления 3D-формы, внешнего вида и движения. Мы решаем эти проблемы, вводя Direct 4DMesh-to-GS Variation Field VAE, который напрямую кодирует канонические гауссовы сплаты (GS) и их временные вариации из данных 3D-анимации без подгонки для каждого экземпляра, а также сжимает высокоразмерные анимации в компактное латентное пространство. На основе этого эффективного представления мы обучаем модель диффузии Gaussian Variation Field с временно-осознанным Diffusion Transformer, обусловленным входными видео и каноническими GS. Обучаясь на тщательно отобранных анимируемых 3D-объектах из набора данных Objaverse, наша модель демонстрирует превосходное качество генерации по сравнению с существующими методами. Она также показывает замечательную обобщаемость для видеовходов из реального мира, несмотря на обучение исключительно на синтетических данных, прокладывая путь для создания высококачественного анимированного 3D-контента. Страница проекта: https://gvfdiffusion.github.io/.
Технология виртуальной примерки видео (Video Virtual Try-On, VVT) привлекает значительный академический интерес благодаря своим перспективным применениям в электронной коммерции, рекламе и развлечениях. Однако большинство существующих сквозных методов сильно зависят от ограниченных парных наборов данных, ориентированных на одежду, и не способны эффективно использовать априорные знания современных визуальных моделей и входных данных на этапе тестирования. Это затрудняет точное сохранение деталей одежды и поддержание временной согласованности в неограниченных сценариях. Для решения этих проблем мы предлагаем DreamVVT — тщательно разработанную двухэтапную структуру, основанную на диффузионных трансформерах (DiTs), которая изначально способна использовать разнообразные непарные данные, ориентированные на человека, для повышения адаптируемости в реальных условиях. Чтобы дополнительно использовать априорные знания предобученных моделей и входных данных на этапе тестирования, на первом этапе мы выбираем репрезентативные кадры из входного видео и применяем модель многофреймовой примерки, интегрированную с визуально-языковой моделью (VLM), для синтеза высококачественных и семантически согласованных изображений примерки ключевых кадров. Эти изображения служат дополнительным руководством по внешнему виду для последующей генерации видео. На втором этапе из входного контента извлекаются карты скелета вместе с детализированными описаниями движения и внешнего вида, которые вместе с изображениями примерки ключевых кадров подаются в предобученную модель генерации видео, усиленную адаптерами LoRA. Это обеспечивает долгосрочную временную согласованность для неизвестных областей и позволяет создавать высокоправдоподобные динамические движения. Многочисленные количественные и качественные эксперименты демонстрируют, что DreamVVT превосходит существующие методы в сохранении деталей одежды и временной стабильности в реальных сценариях. Наш проект доступен по адресу: https://virtu-lab.github.io/
Конференции по искусственному интеллекту (ИИ) играют ключевую роль в продвижении исследований, обмене знаниями и укреплении научного сообщества. Однако их стремительное расширение делает централизованную модель проведения конференций всё менее устойчивой. В данной статье представлен анализ, основанный на данных, который выявляет структурный кризис, угрожающий фундаментальным целям научной коммуникации, равенства и благополучия сообщества. Мы выделяем четыре ключевые области напряжения: (1) научную, где количество публикаций на одного автора за последнее десятилетие более чем удвоилось, превысив 4,5 статьи в год; (2) экологическую, где углеродный след одной конференции превышает ежедневные выбросы города, в котором она проводится; (3) психологическую, где 71% онлайн-дискуссий в сообществе отражает негативные настроения, а 35% упоминают проблемы психического здоровья; и (4) логистическую, где посещаемость ведущих конференций, таких как NeurIPS 2024, начинает превышать вместимость площадок. Эти проблемы указывают на систему, которая не соответствует своей основной миссии. В ответ мы предлагаем модель Сообщественно-Федеративной Конференции (Community-Federated Conference, CFC), которая разделяет рецензирование, презентации и сетевые взаимодействия на глобально координируемые, но локально организуемые компоненты, предлагая более устойчивый, инклюзивный и устойчивый путь для развития исследований в области ИИ.
Крупные языковые модели (LLMs) позволяют выполнять задачи с длинным контекстом, но сталкиваются с проблемами эффективности из-за растущего кэша ключей и значений (KV). Мы предлагаем LeanK, метод на основе обучения, который обрезает неважные каналы кэша ключей (K), используя статическую разреженность каналов. С помощью нового двухэтапного процесса обучения LeanK изучает статические маски на уровне каналов, которые могут удовлетворять заданному коэффициенту разреженности и требованиям аппаратного выравнивания. LeanK сокращает использование памяти GPU и ускоряет декодирование без потери точности. Эксперименты демонстрируют сокращение памяти кэша K до 70% и памяти кэша V на 16%-18%. Пользовательское ядро декодирования обеспечивает ускорение вычислений внимания в 1,3 раза. Мы также предоставляем анализ распределения важности каналов модели и голов внимания в процессе вывода с длинным контекстом. Наш код доступен по адресу https://aka.ms/LeanK.
Крупные языковые модели (LLM) демонстрируют значительное снижение производительности при обработке длинных контекстов из-за проактивной интерференции, когда нерелевантная информация в начальных частях контекста нарушает рассуждения и воспроизведение памяти. В то время как большинство исследований сосредоточено на внешних системах памяти для расширения возможностей LLM, мы предлагаем дополнительный подход: оснащение LLM инструментами активного управления контекстом (ACM) для целенаправленного формирования их внутренней рабочей памяти. Мы представляем Sculptor — фреймворк, который предоставляет LLM три категории инструментов: (1) фрагментация контекста, (2) суммирование, скрытие и восстановление, а также (3) интеллектуальный поиск. Наш подход позволяет LLM активно управлять своим вниманием и рабочей памятью, аналогично тому, как люди избирательно фокусируются на релевантной информации, отфильтровывая отвлекающие факторы. Экспериментальная оценка на информационно-разреженных бенчмарках — PI-LLM (проактивная интерференция) и NeedleBench Multi-Needle Reasoning — демонстрирует, что Sculptor значительно улучшает производительность даже без специального обучения, используя врожденные способности LLM к обобщению вызова инструментов. Благодаря внедрению активного управления контекстом Sculptor не только смягчает проактивную интерференцию, но и обеспечивает когнитивную основу для более надежного рассуждения в разнообразных задачах с длинным контекстом, подчеркивая, что явные стратегии контроля контекста, а не просто увеличение окна токенов, являются ключом к устойчивости в масштабе.
Автоформализация направлена на перевод математических утверждений, выраженных на естественном языке, в формальный язык. Хотя крупные языковые модели (LLM) ускорили прогресс в этой области, существующие методы по-прежнему страдают от низкой точности. Мы выделяем два ключевых навыка для эффективной автоформализации: глубокое владение знаниями в области формального языка и способность к рассуждению, включающую понимание задач на естественном языке и их точное сопоставление с формальными выражениями. Без первого навыка модель не может идентифицировать правильные формальные объекты; без второго она испытывает трудности с интерпретацией реальных контекстов и их точным отображением в формальные выражения. Для устранения этих пробелов мы представляем ThinkingF — конвейер синтеза данных и обучения, который улучшает оба навыка. Сначала мы создаем два набора данных: один путем дистилляции и отбора крупномасштабных примеров, богатых формальными знаниями, а другой — путем генерации траекторий рассуждений от неформального к формальному, руководствуясь шаблонами, разработанными экспертами. Затем мы применяем SFT и RLVR с этими наборами данных для дальнейшего объединения и уточнения двух навыков. Полученные модели на 7B и 32B параметров демонстрируют как глубокие знания в области формального языка, так и сильные способности к рассуждению от неформального к формальному. Примечательно, что модель StepFun-Formalizer-32B достигает рекордных показателей BEq@1: 40,5% на FormalMATH-Lite и 26,7% на ProverBench, превосходя все предыдущие универсальные и специализированные модели.
Крупные языковые модели позволяют агентам автономно выполнять задачи в открытых веб-средах. Однако по мере эволюции скрытых угроз в сети веб-агенты сталкиваются с проблемой балансировки выполнения задач и возникающих рисков в ходе длительных операций. Хотя эта проблема является критически важной, текущие исследования ограничиваются оптимизацией с одной целью или сценариями с одним шагом, не обладая возможностью совместной оптимизации безопасности и полезности в веб-средах. Для устранения этого пробела мы предлагаем HarmonyGuard, многозадачный фреймворк, который использует улучшение политик и оптимизацию целей для совместного повышения как полезности, так и безопасности. HarmonyGuard характеризуется архитектурой с несколькими агентами, обладающей двумя основными возможностями: (1) Адаптивное улучшение политик: мы вводим в HarmonyGuard Агента политик, который автоматически извлекает и поддерживает структурированные политики безопасности из неструктурированных внешних документов, одновременно непрерывно обновляя политики в ответ на развивающиеся угрозы. (2) Двухцелевая оптимизация: на основе двойных целей безопасности и полезности, Агент полезности, интегрированный в HarmonyGuard, выполняет марковское рассуждение в реальном времени для оценки целей и использует метакогнитивные способности для их оптимизации. Обширные оценки на нескольких тестовых наборах показывают, что HarmonyGuard улучшает соблюдение политик до 38% и завершение задач до 20% по сравнению с существующими базовыми методами, достигая более 90% соблюдения политик во всех задачах. Наш проект доступен здесь: https://github.com/YurunChen/HarmonyGuard.
Современные подходы к созданию крупных аудио-языковых моделей (LALMs) часто опираются на закрытые источники данных или проприетарные модели, что ограничивает их обобщаемость и доступность. В данной статье представлена MiDashengLM — новая открытая аудио-языковая модель, разработанная для эффективного и всестороннего понимания аудио с использованием общих аудио-описаний на основе нашего нового набора данных для обучения ACAVCaps. MiDashengLM полностью полагается на общедоступные наборы данных для предварительного обучения и контролируемой тонкой настройки (SFT), обеспечивая полную прозрачность и воспроизводимость. В основе MiDashengLM лежит Dasheng — открытый аудио-кодировщик, специально разработанный для эффективной обработки разнообразной аудиоинформации. В отличие от предыдущих работ, в основном сосредоточенных на выравнивании аудио и текста на основе автоматического распознавания речи (ASR), наша стратегия ориентирована на общие аудио-описания, объединяя информацию о речи, звуках и музыке в одно текстовое представление, что позволяет получить целостное текстовое описание сложных аудиосцен. Наконец, MiDashengLM обеспечивает ускорение до 4 раз по времени до первого токена (TTFT) и до 20 раз более высокую пропускную способность по сравнению с аналогичными моделями. Контрольные точки доступны онлайн по адресам https://huggingface.co/mispeech/midashenglm-7b и https://github.com/xiaomi-research/dasheng-lm.
Сегментация экземпляров играет ключевую роль в биомедицинской визуализации для точного различения отдельных объектов, таких как клетки, которые часто перекрываются и варьируются по размеру. Недавние методы, основанные на запросах, где объектные запросы направляют процесс сегментации, продемонстрировали высокую производительность. Хотя U-Net долгое время оставался основной архитектурой для сегментации медицинских изображений, её потенциал в подходах, основанных на запросах, остаётся в значительной степени неисследованным. В данной работе мы представляем IAUNet — новую архитектуру U-Net, основанную на запросах. Основной дизайн включает полную архитектуру U-Net, улучшенную за счёт нового лёгкого свёрточного пиксельного декодера, что делает модель более эффективной и сокращает количество параметров. Кроме того, мы предлагаем трансформерный декодер, который уточняет объектно-специфичные признаки на нескольких масштабах. Наконец, мы представляем набор данных 2025 Revvity Full Cell Segmentation Dataset — уникальный ресурс с детальными аннотациями перекрывающихся цитоплазм клеток в изображениях в ярком поле, устанавливающий новый эталон для биомедицинской сегментации экземпляров. Эксперименты на нескольких публичных наборах данных и на наших собственных показывают, что IAUNet превосходит большинство современных полностью свёрточных, трансформерных и основанных на запросах моделей, а также моделей, специализированных на сегментации клеток, устанавливая сильный базовый уровень для задач сегментации экземпляров клеток. Код доступен по адресу https://github.com/SlavkoPrytula/IAUNet.
Распознавание именованных сущностей (NER) является основополагающим для извлечения структурированной информации из более чем 80% медицинских данных, которые содержатся в неструктурированных клинических записях и биомедицинской литературе. Несмотря на недавние достижения в области крупных языковых моделей, достижение наилучших результатов для различных типов сущностей при сохранении вычислительной эффективности остается значительной проблемой. Мы представляем OpenMed NER — набор открытых, адаптированных для предметной области трансформерных моделей, которые сочетают легковесное предварительное обучение с адаптацией к домену (DAPT) с параметрически эффективной адаптацией низкого ранга (LoRA). Наш подход включает экономически эффективное DAPT на корпусе из 350 тысяч текстов, собранных из этически полученных, общедоступных исследовательских репозиториев и анонимизированных клинических записей (PubMed, arXiv и MIMIC-III), с использованием архитектур DeBERTa-v3, PubMedBERT и BioELECTRA. За этим следует тонкая настройка для конкретной задачи с использованием LoRA, которая обновляет менее 1,5% параметров модели. Мы оцениваем наши модели на 12 установленных биомедицинских бенчмарках NER, охватывающих химические вещества, заболевания, гены и виды. OpenMed NER достигает новых наилучших показателей микро-F1 на 10 из этих 12 наборов данных, с существенным улучшением для различных типов сущностей. Наши модели продвигают состояние искусства на фундаментальных бенчмарках по заболеваниям и химическим веществам (например, BC5CDR-Disease, +2,70 п.п.), при этом демонстрируя еще большее улучшение на более специализированных корпусах генов и клинических клеточных линий — более чем на 5,3 и 9,7 процентных пунктов соответственно. Эта работа демонстрирует, что стратегически адаптированные открытые модели могут превзойти закрытые решения. Такая производительность достигается с замечательной эффективностью: обучение завершается менее чем за 12 часов на одной видеокарте с низким углеродным следом (< 1,2 кг CO2e), создавая открытые контрольные точки с разрешительными лицензиями, предназначенные для помощи специалистам в соблюдении новых норм защиты данных и регулирования ИИ, таких как Закон ЕС об ИИ.
Гарантии безопасности на этапе компиляции в Rust делают его идеальным выбором для критически важных систем, что создает спрос на перевод устаревших кодовых баз с C на Rust. Хотя для этой задачи появились различные подходы, они сталкиваются с неизбежными компромиссами: решения на основе правил испытывают трудности с обеспечением безопасности и идиоматичности кода, а решения на основе LLM (языковых моделей) часто не могут генерировать семантически эквивалентный код на Rust из-за сильной зависимости модулей во всей кодовой базе. Недавние исследования показали, что оба подхода ограничены небольшими программами. В данной статье мы предлагаем EvoC2Rust — автоматизированную платформу для преобразования целых проектов на C в эквивалентные проекты на Rust. EvoC2Rust использует стратегию перевода с использованием скелета для перевода на уровне проекта. Процесс состоит из трех эволюционных этапов: 1) сначала проект на C разбивается на функциональные модули, применяется LLM с улучшенным сопоставлением признаков для преобразования определений и макросов, а также генерируются проверенные на типы заглушки функций, которые формируют компилируемый скелет на Rust; 2) затем функции переводятся постепенно, заменяя соответствующие заглушки; 3) наконец, ошибки компиляции устраняются путем интеграции LLM и статического анализа. Благодаря эволюционному усилению, EvoC2Rust сочетает преимущества как решений на основе правил, так и на основе LLM. Наша оценка на открытых тестовых наборах и шести промышленных проектах демонстрирует превосходную производительность EvoC2Rust в переводе проектов с C на Rust. В среднем, он достигает улучшений на 17,24% и 14,32% в точности синтаксиса и семантики по сравнению с подходами на основе LLM, а также на 96,79% более высокий уровень безопасности кода по сравнению с инструментами на основе правил. На уровне модулей EvoC2Rust достигает 92,25% успешной компиляции и 89,53% прохождения тестов на промышленных проектах, даже для сложных кодовых баз и длинных функций.
Мы представляем DPoser-X, диффузионную модель-априори для 3D-поз всего тела человека. Создание универсального и надежного априори для поз всего тела остается сложной задачей из-за присущей сложности сочлененных поз человека и недостатка высококачественных наборов данных для поз всего тела. Чтобы устранить эти ограничения, мы представляем диффузионную модель как априори для поз (DPoser) и расширяем ее до DPoser-X для выразительного моделирования поз всего тела. Наш подход объединяет различные задачи, связанные с позами, как обратные задачи, решая их с помощью вариационного диффузионного сэмплирования. Для повышения производительности в прикладных задачах мы вводим новый метод усеченного планирования временных шагов, специально разработанный для характеристик данных о позах. Мы также предлагаем механизм маскированного обучения, который эффективно объединяет наборы данных для всего тела и отдельных частей, позволяя нашей модели улавливать взаимозависимости между частями тела, избегая при этом переобучения на конкретных действиях. Многочисленные эксперименты демонстрируют надежность и универсальность DPoser-X на множестве тестов для моделирования поз тела, рук, лица и всего тела. Наша модель стабильно превосходит современные аналоги, устанавливая новый стандарт для априорного моделирования поз всего тела человека.
Обучение с подкреплением с верифицируемой наградой (RLVR) значительно улучшило способности крупных языковых моделей (LLM) к сложным рассуждениям. Однако этот подход сталкивается с трудностями в преодолении внутренних ограничений базовой LLM из-за своей по сути он-политичной стратегии, сочетающейся с огромным пространством действий и редкими наградами в LLM. Критически важно, что RLVR может привести к коллапсу границ возможностей, сужая спектр решаемых LLM задач. Для решения этой проблемы мы предлагаем RL-PLUS — новый гибридный подход к оптимизации политик для LLM, который сочетает внутреннее использование возможностей модели с внешними данными для достижения более сильных способностей к рассуждениям и преодоления ограничений базовых моделей. RL-PLUS интегрирует два ключевых компонента: множественное важностное сэмплирование для устранения несоответствия распределений внешних данных и функцию преимущества на основе исследования, которая направляет модель к высокоценным, неизученным путям рассуждений. Мы предоставляем как теоретический анализ, так и обширные эксперименты, демонстрирующие превосходство и универсальность нашего подхода. По сравнению с существующими методами RLVR, RL-PLUS достигает: 1) наилучших результатов на шести бенчмарках математических рассуждений; 2) превосходной производительности на шести задачах рассуждений вне распределения; 3) стабильного и значительного улучшения в различных семействах моделей, с относительным улучшением до 69,2%. Кроме того, анализ кривых Pass@k показывает, что RL-PLUS эффективно решает проблему коллапса границ возможностей.
Визуальное заземление направлено на идентификацию объектов или областей в сцене на основе естественно-языковых описаний, что крайне важно для пространственно осознанного восприятия в автономном вождении. Однако существующие задачи визуального заземления обычно зависят от ограничивающих рамок, которые часто не способны уловить детализированные аспекты. Не все воксели внутри ограничивающей рамки заняты, что приводит к неточным представлениям объектов. Для решения этой проблемы мы представляем бенчмарк для 3D-заземления занятости в сложных уличных сценах. Основанный на наборе данных nuScenes, он интегрирует естественный язык с аннотациями занятости на уровне вокселей, предлагая более точное восприятие объектов по сравнению с традиционной задачей заземления. Кроме того, мы предлагаем GroundingOcc, сквозную модель, разработанную для 3D-заземления занятости через мультимодальное обучение. Она объединяет визуальные, текстовые и точечные облачные признаки для предсказания местоположения объектов и информации о занятости от грубого к детальному. В частности, GroundingOcc включает мультимодальный кодировщик для извлечения признаков, голову занятости для предсказаний на уровне вокселей и голову заземления для уточнения локализации. Дополнительно, модуль 2D-заземления и модуль оценки глубины улучшают геометрическое понимание, тем самым повышая производительность модели. Многочисленные эксперименты на бенчмарке демонстрируют, что наш метод превосходит существующие базовые подходы в 3D-заземлении занятости. Набор данных доступен по адресу https://github.com/RONINGOD/GroundingOcc.
Оценка фактической точности в длинных текстах проверяет способность моделей генерировать точные и всесторонние ответы на короткие запросы. Существующие эталонные наборы данных часто не проходят проверку людьми, что может приводить к проблемам с качеством. Чтобы устранить этот недостаток, мы представляем FACTORY — масштабный набор запросов, проверенных людьми. Разработанный с использованием подхода "модель в цикле" и доработанный людьми, FACTORY включает сложные запросы, которые ориентированы на поиск фактов, имеют однозначные ответы и являются ясными. Мы провели оценку с участием людей для 6 современных языковых моделей, используя FACTORY и существующие наборы данных. Наши результаты показывают, что FACTORY является сложным эталоном: примерно 40% утверждений в ответах современных моделей не соответствуют фактам, по сравнению с 10% для других наборов данных. Наш анализ выявляет преимущества FACTORY перед предыдущими эталонами, подчеркивая его надежность и необходимость для моделей рассуждать на основе редких и малоизвестных фактов.
Анализ первопричин (Root Cause Analysis, RCA) в мобильных сетях остается сложной задачей из-за необходимости интерпретируемости, экспертных знаний в предметной области и причинно-следственного рассуждения. В данной работе мы предлагаем легковесный фреймворк, который использует большие языковые модели (Large Language Models, LLMs) для RCA. Для этого мы представляем TeleLogs — тщательно отобранный набор данных с аннотированными задачами по устранению неполадок, предназначенный для оценки возможностей RCA. Наша оценка показывает, что существующие открытые LLM для рассуждений испытывают трудности с этими задачами, что подчеркивает необходимость адаптации к предметной области. Чтобы решить эту проблему, мы предлагаем двухэтапную методику обучения, которая сочетает контролируемую тонкую настройку с обучением с подкреплением для повышения точности и качества рассуждений LLM. Предложенный подход тонко настраивает серию моделей RCA для интеграции знаний предметной области и генерации структурированных, многошаговых диагностических объяснений, улучшая как интерпретируемость, так и эффективность. Масштабные эксперименты с моделями различных размеров демонстрируют значительное улучшение производительности по сравнению с современными моделями для рассуждений и без них, включая сильную обобщаемость на рандомизированные варианты тестов. Эти результаты показывают перспективность адаптированных к предметной области LLM с улучшенными возможностями рассуждений для практического и объяснимого RCA в операционной и управленческой деятельности сетей.
Автономное вождение требует точного понимания сцены, включая геометрию дороги, участников движения и их семантические взаимосвязи. В сценариях генерации онлайн HD-карт растровые представления хорошо подходят для моделей компьютерного зрения, но недостаточно точны в геометрическом плане, тогда как графовые представления сохраняют структурные детали, но становятся нестабильными без точных карт. Чтобы использовать комплементарные преимущества обоих подходов, мы предлагаем DiffSemanticFusion — фреймворк для мультимодального прогнозирования траекторий и планирования. Наш подход основывается на семантическом растрово-объединенном BEV-пространстве, улучшенном модулем диффузии карт, который повышает стабильность и выразительность онлайн HD-карт. Мы проверяем наш фреймворк на двух задачах: прогнозировании траекторий и сквозном автономном вождении, ориентированном на планирование. Эксперименты на реальных бенчмарках автономного вождения, nuScenes и NAVSIM, демонстрируют улучшение производительности по сравнению с несколькими современными методами. Для задачи прогнозирования на nuScenes мы интегрируем DiffSemanticFusion с QCNet, информированным онлайн HD-картами, достигая улучшения производительности на 5,1%. Для сквозного автономного вождения в NAVSIM DiffSemanticFusion достигает современных результатов с увеличением производительности на 15% в сценариях NavHard. Кроме того, обширные исследования абляции и чувствительности показывают, что наш модуль диффузии карт может быть легко интегрирован в другие векторные подходы для повышения производительности. Все материалы доступны по адресу https://github.com/SunZhigang7/DiffSemanticFusion.
Генерация 3D-моделей из текста (Text-to-3D, T23D) произвела революцию в создании цифрового контента, однако до сих пор ограничивается методом проб и ошибок, который приводит к непредсказуемым результатам. Хотя визуальное проектирование подсказок (prompt engineering) значительно продвинулось в области генерации изображений из текста, его применение для создания 3D-моделей сталкивается с уникальными вызовами, такими как необходимость оценки согласованности между несколькими видами и понимания пространственной структуры. Мы представляем Sel3DCraft — систему визуального проектирования подсказок для T23D, которая превращает неструктурированный поиск в управляемый визуальный процесс. Наш подход включает три ключевых инновации: двухветвевую структуру, объединяющую поиск и генерацию для исследования разнообразных кандидатов; гибридный метод оценки по нескольким видам, который использует мультимодальные языковые модели (MLLMs) с инновационными метриками высокого уровня для оценки 3D-моделей с согласованностью, близкой к экспертной; и набор инструментов визуальной аналитики на основе подсказок, который позволяет интуитивно выявлять и устранять дефекты. Многочисленные тесты и пользовательские исследования показывают, что Sel3DCraft превосходит другие системы T23D в поддержке творческого процесса для дизайнеров.
Обучение с подкреплением с верифицируемыми наградами (RLVR) улучшает способности крупных языковых моделей (LLM) следовать инструкциям, но страдает от неэффективности обучения из-за недостаточной оценки сложности. Более того, RLVR склонно к избыточной оптимизации, когда LLM используют упрощенные способы верификации, не согласуясь с фактическим намерением пользовательских инструкций. Мы представляем Instruction Following Decorator (IFDecorator) — фреймворк, который интегрирует обучение RLVR в надежный и ресурсоэффективный процесс. Он состоит из трех компонентов: (1) кооперативно-адверсариального механизма обмена данными, который совместно развивает инструкции и гибридные верификации, генерируя постепенно усложняющиеся пары "инструкция-верификация"; (2) IntentCheck — модуля, обеспечивающего соответствие намерениям; и (3) "ловушек" — диагностического механизма, который выявляет манипуляции с наградами через инструкции-ловушки, активирующие и фиксирующие поведение, связанное с использованием упрощенных подходов. Наша модель Qwen2.5-32B-Instruct-IFDecorator достигает точности 87,43% на IFEval, превосходя более крупные проприетарные модели, такие как GPT-4o. Кроме того, мы демонстрируем значительные улучшения на FollowBench, сохраняя общие способности модели. Наши "ловушки" показывают существенное снижение уровня манипуляций с наградами. Мы опубликуем модели, код и данные для будущих исследований.
Хотя достижения в области способностей к рассуждению у крупных языковых моделей (LLM) значительно улучшили их производительность в решении математических задач, задач по программированию и общих головоломок, их эффективность в точном следовании инструкциям остается нестабильной, особенно в случае более сложных указаний. Наше исследование выявляет "ленивое рассуждение" на этапе мышления как основной фактор, способствующий плохому следованию инструкциям. Для устранения этой проблемы мы предлагаем комплексную структуру, предназначенную для обеспечения строгих процессов рассуждения, включающих предварительный просмотр и самопроверку, что необходимо для соблюдения строгих ограничений инструкций. В частности, мы сначала генерируем инструкции со сложными ограничениями и применяем процесс фильтрации для получения валидных запросов, что приводит к созданию трех различных наборов данных запросов, классифицированных как сложные, простые и проходные. Затем мы используем метод отбраковки на проходных запросах для создания небольшого, но высококачественного набора данных, что позволяет инициализировать модель с "холодного старта" и облегчает ее адаптацию к эффективным шаблонам рассуждения. Впоследствии мы применяем стратегию контролируемого тонкого настройки с сохранением энтропии (Entropy-SFT) в сочетании с пошаговым адаптивным обучением с подкреплением на основе энтропии (TEA-RL), направляемым плотными наградами на основе правил. Этот подход побуждает модель трансформировать свой механизм рассуждения, в конечном итоге развивая обобщаемые способности к рассуждению, включающие предварительный просмотр и самопроверку. Многочисленные эксперименты, проведенные на тестовых наборах для проверки следования инструкциям, демонстрируют значительное улучшение производительности на различных масштабах моделей. В частности, наша модель Light-IF-32B превосходит как более крупные открытые модели, такие как DeepSeek-R1, так и закрытые модели, такие как Doubao-1.6.
3D-обнаружение аномалий (AD) продемонстрировало значительный потенциал в выявлении дефектов высокоточных промышленных изделий. Однако существующие методы обычно обучаются для конкретных классов и не способны адаптироваться к новым появляющимся классам. В данном исследовании мы предложили фреймворк непрерывного обучения под названием Continual 3D Anomaly Detection (C3D-AD), который не только позволяет изучать обобщенные представления для многоклассовых облаков точек, но и справляется с новыми классами, появляющимися со временем. В частности, в модуле извлечения признаков для эффективного извлечения обобщенных локальных признаков из разнообразных типов изделий различных задач вводится слой Kernel Attention с Random Feature Layer (KAL), который нормализует пространство признаков. Затем для корректного и непрерывного восстановления данных предлагается механизм Kernel Attention с Learnable Advisor (KAA), который изучает информацию из новых категорий, одновременно отбрасывая избыточную старую информацию как в кодировщике, так и в декодере. Наконец, для сохранения согласованности представлений между задачами предлагается модуль Reconstruction with Parameter Perturbation (RPP), в котором разработана функция потерь для повторного воспроизведения представлений, что гарантирует запоминание моделью информации о предыдущих категориях и возвращение адаптивных к категориям представлений. Эксперименты на трех публичных наборах данных подтверждают эффективность предложенного метода, достигая средних показателей 66,4%, 83,1% и 63,4% AUROC на Real3D-AD, Anomaly-ShapeNet и MulSen-AD соответственно.
В данной статье рассматриваются подходы к систематическому управлению, оценке и количественному измерению смещений на протяжении всего жизненного цикла моделей машинного обучения — от начальной разработки и валидации до постоянного мониторинга в производственной среде и внедрения защитных механизмов. Основываясь на нашей фундаментальной работе по тестовому набору для оценки и анализа смещений (BEATS) для крупных языковых моделей (LLM), авторы выделяют распространенные пробелы, связанные с вопросами смещений и справедливости в LLM, и обсуждают структуру управления данными и ИИ для решения проблем смещений, этики, справедливости и достоверности в LLM. Предлагаемый подход к управлению данными и ИИ подходит для практического применения в реальных условиях, обеспечивая строгое тестирование LLM перед их внедрением в производство, способствуя непрерывной оценке в реальном времени и активному управлению генерируемыми LLM ответами. Внедряя управление данными и ИИ на всех этапах разработки ИИ, организации могут значительно повысить безопасность и ответственность своих систем генеративного ИИ, эффективно снижая риски дискриминации и защищаясь от потенциального ущерба репутации или бренду. В конечном итоге, через эту статью мы стремимся внести вклад в развитие создания и внедрения социально ответственных и этически ориентированных приложений, основанных на генеративном искусственном интеллекте.
Музыкальные записи часто страдают от проблем с качеством звука, таких как чрезмерная реверберация, искажения, клиппинг, тональный дисбаланс и сужение стереоизображения, особенно если они создаются в непрофессиональных условиях без специализированного оборудования или опыта. Эти проблемы обычно исправляются с помощью отдельных специализированных инструментов и ручной настройки. В данной статье мы представляем SonicMaster — первую унифицированную генеративную модель для восстановления и мастеринга музыки, которая решает широкий спектр аудиоартефактов с текстовым управлением. SonicMaster адаптируется к инструкциям на естественном языке для применения целевых улучшений или может работать в автоматическом режиме для общего восстановления. Для обучения этой модели мы создали набор данных SonicMaster, содержащий большое количество пар деградированных и высококачественных треков, смоделированных с использованием девятнадцати функций деградации, относящихся к пяти группам улучшений: эквализация, динамика, реверберация, амплитуда и стерео. Наш подход использует парадигму генеративного обучения с согласованием потоков для изучения аудиопреобразования, которое отображает деградированные входные данные в их очищенные, мастерингованные версии, руководствуясь текстовыми подсказками. Объективные метрики качества звука демонстрируют, что SonicMaster значительно улучшает качество звука во всех категориях артефактов. Кроме того, субъективные тесты на прослушивание подтверждают, что слушатели предпочитают улучшенные выходные данные SonicMaster по сравнению с исходной деградированной аудиозаписью, что подчеркивает эффективность нашего унифицированного подхода.
Модели диффузии для генерации изображений по тексту продемонстрировали впечатляющие способности в создании художественного контента, обучаясь на миллиардах изображений, включая популярные произведения искусства. Однако фундаментальный вопрос о том, как эти модели внутренне представляют концепции, такие как содержание и стиль в картинах, остается неисследованным. Традиционная компьютерная зрение предполагает, что содержание и стиль ортогональны, но модели диффузии не получают явного указания на это различие в процессе обучения. В данной работе мы исследуем, как трансформерные модели генерации изображений по тексту кодируют концепции содержания и стиля при создании художественных произведений. Мы используем тепловые карты кросс-внимания для атрибуции пикселей в сгенерированных изображениях к конкретным токенам запроса, что позволяет нам выделить области изображения, на которые влияют токены, описывающие содержание, и токены, описывающие стиль. Наши результаты показывают, что модели диффузии демонстрируют различную степень разделения содержания и стиля в зависимости от конкретного художественного запроса и запрашиваемого стиля. Во многих случаях токены содержания в основном влияют на области, связанные с объектами, а токены стиля воздействуют на фон и текстуры, что указывает на возникающее понимание различия между содержанием и стилем. Эти наблюдения способствуют нашему пониманию того, как крупномасштабные генеративные модели внутренне представляют сложные художественные концепции без явного контроля. Мы делимся кодом и набором данных, а также исследовательским инструментом для визуализации карт внимания на https://github.com/umilISLab/artistic-prompt-interpretation.