Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем простое, но теоретически обоснованное улучшение метода Настройки с Учителем (Supervised Fine-Tuning, SFT) для крупных языковых моделей (Large Language Model, LLM), устраняющее ограниченную обобщающую способность по сравнению с обучением с подкреплением (Reinforcement Learning, RL). С помощью математического анализа мы показываем, что градиенты стандартного SFT неявно кодируют проблематичную структуру вознаграждения, которая может существенно ограничивать обобщающие возможности модели. Для устранения этого недостатка мы предлагаем метод Динамической Настройки (Dynamic Fine-Tuning, DFT), стабилизирующий обновления градиентов для каждого токена путем динамического масштабирования целевой функции с учетом вероятности данного токена. Примечательно, что это изменение в одну строку кода значительно превосходит стандартный SFT на множестве сложных тестовых наборов и базовых моделей, демонстрируя существенно улучшенную обобщающую способность. Кроме того, наш подход показывает конкурентоспособные результаты в условиях оффлайн RL, предлагая эффективную и более простую альтернативу. Данная работа объединяет теоретические инсайты и практические решения, значительно повышая производительность SFT. Код будет доступен по адресу https://github.com/yongliang-wu/DFT.
Саморазвивающиеся большие языковые модели (LLM) предлагают масштабируемый путь к сверхинтеллекту за счет автономного создания, уточнения и обучения на основе собственного опыта. Однако существующие методы обучения таких моделей по-прежнему в значительной степени зависят от огромного количества задач и меток, созданных человеком, обычно посредством тонкой настройки или обучения с подкреплением, что создает фундаментальное ограничение для развития ИИ-систем в направлении возможностей, превосходящих человеческий интеллект. Чтобы преодолеть это ограничение, мы представляем R-Zero — полностью автономную структуру, которая генерирует свои собственные обучающие данные с нуля. Начиная с одной базовой LLM, R-Zero инициализирует две независимые модели с различными ролями: «Вызов» и «Решатель». Эти модели оптимизируются отдельно и совместно развиваются через взаимодействие: «Вызов» вознаграждается за предложение задач на границе возможностей «Решателя», а «Решатель» вознаграждается за решение все более сложных задач, поставленных «Вызовом». Этот процесс создает целенаправленную, самоулучшающуюся учебную программу без каких-либо заранее существующих задач и меток. Эмпирически R-Zero значительно улучшает способность к рассуждению в различных базовых LLM, например, повышая показатели Qwen3-4B-Base на +6,49 в тестах на математическое рассуждение и на +7,54 в тестах на общее рассуждение.
Мы представляем Genie Envisioner (GE) — унифицированную платформу для фундаментального моделирования мира в задачах роботизированного манипулирования, которая объединяет обучение политик, оценку и симуляцию в рамках единой видео-генеративной структуры. В основе GE-Base лежит крупномасштабная видео-диффузионная модель, обусловленная инструкциями, которая фиксирует пространственные, временные и семантические динамики реальных взаимодействий роботов в структурированном латентном пространстве. На основе этого фундамента GE-Act преобразует латентные представления в исполняемые траектории действий с помощью легковесного декодера, основанного на методе согласования потоков, что позволяет проводить точный и обобщаемый вывод политик для различных воплощений с минимальным контролем. Для поддержки масштабируемой оценки и обучения GE-Sim выступает в роли нейронного симулятора, обусловленного действиями, генерирующего высококачественные сценарии для разработки замкнутых политик. Платформа также оснащена EWMBench — стандартизированным набором тестов, измеряющих визуальную точность, физическую согласованность и соответствие инструкций действиям. В совокупности эти компоненты делают Genie Envisioner масштабируемой и практичной основой для создания универсального воплощенного интеллекта, управляемого инструкциями. Весь код, модели и тестовые наборы будут опубликованы в открытом доступе.
Хотя модели, объединяющие зрение и язык (Vision Language Models, VLMs), демонстрируют мощные перцептивные способности и впечатляющее визуальное мышление, они испытывают трудности с вниманием к деталям и точным планированием действий в сложных, динамичных средах, что приводит к неудовлетворительной производительности. Реальные задачи обычно требуют сложных взаимодействий, продвинутого пространственного мышления, долгосрочного планирования и непрерывного уточнения стратегии, что зачастую подразумевает понимание физических законов целевого сценария. Однако оценка этих способностей в реальных условиях часто оказывается чрезмерно затратной. Чтобы устранить этот разрыв, мы представляем DeepPHY — новый эталонный фреймворк, предназначенный для систематической оценки понимания и рассуждений VLMs о фундаментальных физических принципах через серию сложных симулированных сред. DeepPHY интегрирует множество сред для физического мышления различного уровня сложности и включает детализированные метрики оценки. Наши результаты показывают, что даже передовые VLMs испытывают трудности с преобразованием описательных знаний о физике в точное, прогнозируемое управление.
Несмотря на быстрый прогресс в области генерации 3D-контента, оценка качества созданных 3D-активов остается сложной задачей. Существующие методы в основном опираются на метрики, основанные на изображениях, и работают исключительно на уровне объекта, что ограничивает их способность учитывать пространственную согласованность, аутентичность материалов и высококачественные локальные детали. 1) Для решения этих проблем мы представляем Hi3DEval — иерархическую систему оценки, адаптированную для 3D-генеративного контента. Она сочетает оценку как на уровне объекта, так и на уровне его частей, что позволяет проводить комплексный анализ по нескольким измерениям, а также детализированную оценку качества. Кроме того, мы расширяем оценку текстур за пределы эстетического вида, явно оценивая реалистичность материалов, уделяя внимание таким атрибутам, как альбедо, насыщенность и металличность. 2) Для поддержки этой системы мы создаем Hi3DBench — масштабный набор данных, включающий разнообразные 3D-активы и высококачественные аннотации, а также надежный многозадачный конвейер аннотирования. Мы также предлагаем автоматизированную систему оценки, основанную на гибридных 3D-представлениях. В частности, мы используем видео-представления для оценки на уровне объекта и материалов, чтобы улучшить моделирование пространственно-временной согласованности, а также применяем предобученные 3D-признаки для анализа на уровне частей. Многочисленные эксперименты показывают, что наш подход превосходит существующие метрики, основанные на изображениях, в моделировании 3D-характеристик и достигает лучшего соответствия человеческим предпочтениям, предлагая масштабируемую альтернативу ручной оценке. Страница проекта доступна по адресу https://zyh482.github.io/Hi3DEval/.
Системы генерации с использованием извлечения информации (Retrieval-Augmented Generation, RAG) на основе мультимодальных больших языковых моделей (Multimodal Large Language Models, MLLMs) демонстрируют значительный потенциал для сложного понимания документов, однако их развитие серьезно ограничивается недостаточной оценкой. Современные бенчмарки часто фокусируются на отдельных аспектах систем RAG и используют синтетические данные с неполными эталонными метками и доказательствами, что не отражает реальные проблемы и узкие места. Чтобы преодолеть эти ограничения, мы представляем Double-Bench: новую крупномасштабную, многоязычную и мультимодальную систему оценки, способную проводить детальный анализ каждого компонента в системах RAG для документов. Она включает 3 276 документов (72 880 страниц) и 5 168 одно- и многошаговых запросов на 6 языках и для 4 типов документов с поддержкой динамического обновления для предотвращения проблем с контаминацией данных. Запросы основаны на тщательно просканированных страницах с доказательствами и проверены экспертами для обеспечения максимального качества и полноты. Наши комплексные эксперименты с 9 современными моделями векторного представления, 4 MLLM и 4 end-to-end фреймворками RAG для документов показывают, что разрыв между текстовыми и визуальными моделями векторного представления сокращается, что подчеркивает необходимость создания более мощных моделей для извлечения документов. Наши результаты также выявляют проблему излишней уверенности в современных фреймворках RAG, которые склонны предоставлять ответы даже без поддержки доказательств. Мы надеемся, что наш полностью открытый Double-Bench станет строгой основой для будущих исследований в области продвинутых систем RAG для документов. Мы планируем регулярно обновлять корпус данных и выпускать новые бенчмарки на ежегодной основе.
Благополучие охватывает психические, физические и социальные аспекты, которые имеют ключевое значение для личностного роста и принятия обоснованных жизненных решений. По мере того как люди всё чаще обращаются к крупным языковым моделям (LLM) для понимания благополучия, возникает важный вопрос: способны ли LLM генерировать объяснения, которые не только точны, но и адаптированы для разнообразной аудитории? Высококачественные объяснения требуют как фактической точности, так и способности соответствовать ожиданиям пользователей с разным уровнем знаний. В данной работе мы создаем масштабный набор данных, включающий 43 880 объяснений 2 194 концепций благополучия, сгенерированных десятью различными LLM. Мы представляем принципиально ориентированную оценочную структуру LLM-as-a-judge, использующую двойных судей для оценки качества объяснений. Кроме того, мы показываем, что тонкая настройка открытой LLM с использованием контролируемой тонкой настройки (SFT) и оптимизации прямых предпочтений (DPO) может значительно повысить качество генерируемых объяснений. Наши результаты демонстрируют: (1) предложенные LLM-судьи хорошо согласуются с человеческими оценками; (2) качество объяснений существенно варьируется в зависимости от моделей, аудиторий и категорий; (3) модели, настроенные с использованием DPO и SFT, превосходят более крупные аналоги, что подтверждает эффективность обучения на основе предпочтений для специализированных задач объяснения.
В последнее время крупные модели рассуждений (Large Reasoning Models, LRMs) постепенно становятся объектом активных исследований благодаря их выдающейся производительности в решении сложных задач. Среди них модель DeepSeek R1 привлекла значительное внимание благодаря своей исключительной производительности и открытому исходному коду, что способствует развитию исследований в области LRM стиля R1. В отличие от традиционных крупных языковых моделей (Large Language Models, LLMs), эти модели улучшают способности к логическому выводу и принятию решений в процессе рассуждений за счет внедрения механизмов, таких как длинные цепочки рассуждений (chain-of-thought) и саморефлексия, реализуемые через обучение с подкреплением. Однако с широким применением этих моделей постепенно возникла проблема избыточного мышления. В частности, при генерации ответов эти модели часто строят чрезмерно длинные цепочки рассуждений с избыточными или повторяющимися шагами, что снижает эффективность рассуждений и может повлиять на точность конечного ответа. В связи с этим были предложены различные методы эффективного рассуждения, направленные на сокращение длины цепочек рассуждений без ущерба для производительности модели и ее способности к рассуждению. Систематически рассматривая текущие достижения в области методов эффективного рассуждения, мы классифицируем существующие работы на два основных направления, основываясь на оптимизации отдельных моделей и их совместной работе: (1) Эффективное рассуждение с использованием одной модели, которое сосредоточено на повышении эффективности рассуждений отдельных моделей; и (2) Эффективное рассуждение с использованием совместной работы моделей, которое исследует оптимизацию цепочек рассуждений через взаимодействие нескольких моделей. Кроме того, мы поддерживаем публичный репозиторий на GitHub, где отслеживаются последние достижения в области методов эффективного рассуждения.
В данной статье представлена многофункциональная система синтеза речи, которая объединяет клонирование голоса и синтез речи с управлением эмоциями в рамках единой архитектуры. Цель данной работы заключается в решении давних проблем, связанных с достижением высоко выразительного, управляемого и естественного синтеза речи, который точно сохраняет идентичность говорящего в различных языковых и эмоциональных контекстах. Наш подход включает эффективный механизм разделения характеристик говорящего и эмоций с использованием внутрибатчевого контрастивного обучения, что позволяет независимо управлять идентичностью говорящего и эмоциональным стилем, а также метод интеграции вращающихся эмоциональных эмбеддингов для плавного управления эмоциями. Для поддержки комплексного обучения и оценки мы создали CSEMOTIONS — высококачественный эмоциональный речевой набор данных, содержащий 10 часов мандаринской речи от шести профессиональных дикторов в семи эмоциональных категориях. Многочисленные эксперименты демонстрируют, что наша система Marco-Voice достигает значительных улучшений как по объективным, так и по субъективным метрикам. Проведенные всесторонние оценки и анализ показывают, что MarcoVoice демонстрирует конкурентоспособные результаты с точки зрения четкости речи и эмоциональной насыщенности, что представляет собой существенный прогресс в области выразительного нейронного синтеза речи.
Автономные агенты, управляющие компьютерами через графические пользовательские интерфейсы (GUI), часто сталкиваются с проблемами эффективности и надежности при выполнении сложных задач с длительным горизонтом. Хотя добавление планировщиков к таким агентам может улучшить декомпозицию задач, они остаются ограниченными из-за присущих манипуляциям через GUI недостатков, что приводит к хрупкости и неэффективности. В данной работе мы представляем более устойчивую и гибкую парадигму: предоставление агентам возможности использовать программирование как расширенное действие. Мы представляем CoAct-1, новую мультиагентную систему, которая синергетически сочетает управление через GUI с прямым программным выполнением. CoAct-1 включает Оркестратора, который динамически делегирует подзадачи либо традиционному GUI-оператору, либо специализированному агенту-программисту, способному писать и выполнять скрипты на Python или Bash. Такой гибридный подход позволяет агенту обходить неэффективные последовательности действий через GUI для задач, таких как управление файлами и обработка данных, при этом сохраняя возможность визуального взаимодействия, когда это необходимо. Мы оцениваем нашу систему на сложном бенчмарке OSWorld, где CoAct-1 достигает нового рекордного уровня успешности в 60,76%, значительно превосходя предыдущие методы. Кроме того, наш подход существенно повышает эффективность, сокращая среднее количество шагов для выполнения задачи до 10,15 по сравнению с 15 у ведущих GUI-агентов. Наши результаты демонстрируют, что интеграция программирования как основного действия открывает более мощный, эффективный и масштабируемый путь к обобщенной автоматизации работы с компьютером.
Крупные мультимодальные модели (LMMs) демонстрируют значительный прогресс, показывая впечатляющие способности в решении сложных мультимодальных задач с исключительной производительностью. Недавние исследования подчеркивают склонность крупных языковых моделей пассивно принимать некорректные входные данные, что часто приводит к бесполезным рассуждениям на основе неверных запросов. Однако ключевой вопрос о том, могут ли LMMs активно обнаруживать и анализировать ошибочные входные данные, остается неисследованным. Для устранения этого пробела мы представляем фреймворк оценки способности к проверке входных данных (ISEval), который включает семь категорий ошибочных предпосылок и три метрики оценки. Наше масштабное тестирование десяти передовых LMMs выявило ключевые результаты. Большинство моделей испытывают трудности с активным обнаружением ошибочных текстовых предпосылок без подсказок, что свидетельствует о сильной зависимости от явных указаний для идентификации ошибок в предпосылках. Тип ошибки влияет на производительность: модели хорошо справляются с выявлением логических ошибок, но испытывают трудности с поверхностными лингвистическими ошибками и некоторыми условными недостатками. Доверие к модальностям варьируется: Gemini 2.5 pro и Claude Sonnet 4 балансируют визуальную и текстовую информацию, в то время как aya-vision-8b чрезмерно полагается на текст в случае конфликтов. Эти выводы подчеркивают острую необходимость улучшения активной проверки валидности входных данных в LMMs и предлагают новые подходы к решению этой проблемы. Код доступен по адресу https://github.com/MLGroupJLU/LMM_ISEval.
Эффективная поддержка клиентов требует не только точного решения проблем, но и структурированного и эмпатичного общения, соответствующего профессиональным стандартам. Однако существующие наборы диалогов часто не содержат стратегических рекомендаций, а данные из реальных служб поддержки сложно получить и аннотировать. Для решения этой проблемы мы представляем задачу "Диалог поддержки клиентов" (Customer Support Conversation, CSC), направленную на обучение агентов службы поддержки отвечать с использованием четко определенных стратегий. Мы предлагаем структурированную CSC-модель, основанную на рекомендациях COPC, определяющую пять этапов диалога и двенадцать стратегий для обеспечения высококачественного взаимодействия. На основе этого мы создаем CSConv — оценочный набор данных, состоящий из 1855 реальных диалогов между клиентами и агентами, переписанных с использованием языковых моделей (LLM) для отражения осознанного применения стратегий и соответствующим образом аннотированных. Кроме того, мы разрабатываем подход, основанный на ролевых играх, который моделирует стратегически насыщенные диалоги с использованием ролей, управляемых LLM и соответствующих CSC-модели, что приводит к созданию обучающего набора данных RoleCS. Эксперименты показывают, что тонкая настройка мощных LLM на данных RoleCS значительно улучшает их способность генерировать высококачественные ответы, соответствующие стратегиям, на данных CSConv. Человеческая оценка также подтверждает улучшения в разрешении проблем. Весь код и данные будут доступны публично по адресу https://github.com/aliyun/qwen-dianjin.
Сегментация объектов на видео (Video Object Segmentation, VOS) направлена на выделение заданных целевых объектов на протяжении всего видеоряда. Хотя современные методы демонстрируют впечатляющие результаты (например, более 90% по метрике J&F) на существующих наборах данных, таких как DAVIS и YouTube-VOS, эти наборы данных в основном содержат заметные, доминирующие и изолированные объекты, что ограничивает их применимость к реальным сценариям. Для продвижения VOS в сторону более реалистичных условий был представлен набор данных coMplex video Object SEgmentation (MOSEv1), призванный способствовать исследованиям в области сегментации объектов в сложных сценах. Опираясь на достоинства и ограничения MOSEv1, мы представляем MOSEv2 — значительно более сложный набор данных, разработанный для дальнейшего развития методов VOS в условиях, приближенных к реальным. MOSEv2 включает 5 024 видео и более 701 976 высококачественных масок для 10 074 объектов, охватывающих 200 категорий. По сравнению с предшественником, MOSEv2 предлагает значительно большую сложность сцен, включая более частые случаи исчезновения и повторного появления объектов, сильные перекрытия и скопления, меньшие размеры объектов, а также новые вызовы, такие как неблагоприятные погодные условия (например, дождь, снег, туман), сцены с низкой освещенностью (например, ночное время, подводные съемки), многокадровые последовательности, замаскированные объекты, нефизические цели (например, тени, отражения), сценарии, требующие внешних знаний, и т.д. Мы провели тестирование 20 репрезентативных методов VOS в 5 различных условиях и наблюдали устойчивое снижение производительности. Например, SAM2 снизился с 76,4% на MOSEv1 до всего лишь 50,9% на MOSEv2. Мы также оценили 9 методов отслеживания объектов на видео и обнаружили аналогичное снижение, что подтверждает, что MOSEv2 представляет сложности для различных задач. Эти результаты подчеркивают, что, несмотря на высокую точность на существующих наборах данных, современные методы VOS по-прежнему испытывают трудности в условиях реальной сложности. MOSEv2 доступен по адресу https://MOSE.video.
Крупные языковые модели (LLMs) продемонстрировали впечатляющие способности к рассуждению при решении широкого спектра сложных задач. Однако улучшение этих возможностей посредством пост-обучения остается ресурсоемким, особенно в плане данных и вычислительных затрат. Хотя недавние усилия были направлены на повышение эффективности использования данных за счет избирательного их отбора, существующие методы часто опираются на эвристические или специфичные для задачи стратегии, что ограничивает их масштабируемость. В данной работе мы представляем InfiAlign, масштабируемую и эффективную по данным структуру пост-обучения, которая интегрирует контролируемую тонкую настройку (SFT) с оптимизацией прямых предпочтений (DPO) для согласования LLM с целью улучшения их способностей к рассуждению. В основе InfiAlign лежит надежный конвейер отбора данных, который автоматически формирует высококачественные данные для согласования из открытых наборов данных для рассуждений, используя многомерные метрики качества. Этот конвейер обеспечивает значительное повышение производительности при резком сокращении требований к данным и остается расширяемым для новых источников данных. При применении к модели Qwen2.5-Math-7B-Base наша модель SFT демонстрирует производительность, сопоставимую с DeepSeek-R1-Distill-Qwen-7B, используя лишь около 12% обучающих данных, и показывает сильную обобщаемость на разнообразных задачах рассуждения. Дополнительные улучшения достигаются за счет применения DPO, с особенно заметным прогрессом в задачах математического рассуждения. Модель демонстрирует среднее улучшение на 3,89% на тестах AIME 24/25. Наши результаты подчеркивают эффективность сочетания принципиального отбора данных с полномасштабным пост-обучением, предлагая практическое решение для согласования крупных моделей рассуждения в масштабируемой и эффективной по данным манере. Чекпоинты модели доступны по адресу https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
Реалистичная генерация отдельных волос имеет решающее значение для таких приложений, как компьютерная графика и виртуальная реальность. Хотя диффузионные модели могут создавать прически на основе текста или изображений, эти входные данные недостаточно точны и удобны для пользователя. Вместо этого мы предлагаем первую модель генерации волос на основе эскизов, которая обеспечивает более точный контроль, оставаясь при этом удобной для пользователя. Наша структура решает ключевые задачи, такие как моделирование сложных взаимодействий волос и разнообразных паттернов эскизов, с помощью двух основных инноваций: обучаемой стратегии повышения детализации волос, которая кодирует 3D-волосы в многомасштабные латентные пространства, и многомасштабного адаптивного механизма кондиционирования с использованием трансформера с диффузионными головками для обеспечения согласованности на разных уровнях детализации. Эксперименты на нескольких эталонных наборах данных показывают, что наш метод превосходит существующие подходы по реалистичности и точности. Качественные результаты дополнительно подтверждают его эффективность. Код будет опубликован на [GitHub](https://github.com/fighting-Zhang/StrandDesigner).
Диффузионное сжатие изображений продемонстрировало впечатляющие результаты с точки зрения восприятия. Однако оно страдает от двух существенных недостатков: (1) чрезмерная задержка декодирования из-за многошаговой выборки и (2) низкая точность, вызванная избыточной зависимостью от генеративных априорных данных. Для решения этих проблем мы предлагаем SODEC — новую модель одношагового диффузионного сжатия изображений. Мы утверждаем, что в сжатии изображений достаточно информативный латентный код делает многошаговое уточнение излишним. Основываясь на этом наблюдении, мы используем предварительно обученную модель на основе VAE для создания латентных кодов с богатой информацией и заменяем итеративный процесс удаления шума одношаговым декодированием. Одновременно, для повышения точности, мы вводим модуль управления точностью, который способствует получению выходных данных, близких к исходному изображению. Кроме того, мы разрабатываем стратегию обучения с постепенным снижением скорости передачи данных, что позволяет эффективно обучать модель при крайне низких битрейтах. Многочисленные эксперименты показывают, что SODEC значительно превосходит существующие методы, достигая превосходного соотношения скорости, искажений и восприятия. Более того, по сравнению с предыдущими диффузионными моделями сжатия, SODEC увеличивает скорость декодирования более чем в 20 раз. Код доступен по адресу: https://github.com/zhengchen1999/SODEC.
Модели языкового мышления с расширенными возможностями рассуждения (R-LLMs) значительно продвинулись в выполнении сложных задач, связанных с рассуждениями, но часто сталкиваются с проблемами фактической точности, генерируя значительно больше галлюцинаций по сравнению с их аналогами, не ориентированными на рассуждения, в тестах на длинную форму фактической точности. Однако применение онлайн-обучения с подкреплением (RL), ключевого компонента в последних достижениях R-LLMs, к задачам длинной формы фактической точности сталкивается с рядом уникальных проблем из-за отсутствия надежных методов проверки. Предыдущие работы использовали автоматизированные системы оценки фактической точности, такие как FActScore, для создания данных предпочтений в условиях офлайн RL, однако мы обнаружили, что прямое использование таких методов в качестве вознаграждения в онлайн RL приводит к "взлому вознаграждения" различными способами, например, к генерации менее детализированных или релевантных ответов. Мы предлагаем новую функцию вознаграждения, которая одновременно учитывает фактическую точность, уровень детализации ответа и релевантность ответа, и применяем онлайн RL для обучения высококачественному фактическому рассуждению. Оцененная на шести тестах длинной формы фактической точности, наша модель фактического рассуждения демонстрирует среднее снижение уровня галлюцинаций на 23,1 процентных пункта, увеличение уровня детализации ответа на 23% и отсутствие ухудшения общей полезности ответов.
Сегментация по референсным выражениям (Reference Expression Segmentation, RES) направлена на выделение областей изображения, заданных референсными выражениями, и приобрела популярность с развитием мультимодальных больших моделей (Multimodal Large Models, MLLMs). Хотя MLLMs демонстрируют высокие результаты в семантическом понимании, их парадигма генерации токенов испытывает трудности с плотным прогнозированием на уровне пикселей. Существующие методы RES либо сочетают MLLMs с ресурсоемкой моделью Segment Anything Model (SAM), содержащей 632 миллиона параметров, либо используют облегченные подходы без SAM, жертвуя точностью. Чтобы решить проблему компромисса между производительностью и затратами, мы предлагаем MLLMSeg — новый фреймворк, который полностью использует визуальные детали, закодированные в визуальном энкодере MLLM, без введения дополнительного визуального энкодера. Кроме того, мы предлагаем модуль слияния признаков с усилением деталей и семантической согласованностью (Detail-Enhanced and Semantic-Consistent Feature Fusion, DSFF), который интегрирует визуальные признаки, связанные с деталями, с семантическими признаками, выводимыми языковой моделью (Large Language Model, LLM) MLLM. Наконец, мы разработали легковесный декодер масок с всего 34 миллионами параметров, который оптимально использует пространственные детали из визуального энкодера и семантические признаки из LLM для точного прогнозирования масок. Эксперименты показывают, что наш метод превосходит как SAM-ориентированные, так и SAM-независимые подходы, достигая лучшего баланса между производительностью и затратами. Код доступен по адресу https://github.com/jcwang0602/MLLMSeg.
Существующие модели, объединяющие зрительное восприятие и язык (VLMs), будь то универсальные или специализированные, остаются ограниченными масштабом своих параметров, обладают недостаточно надежными возможностями самокоррекции и демонстрируют низкую производительность в задачах, связанных с длинными визуальными контекстами и сложными рассуждениями, что приводит к неоптимальным результатам в задачах, основанных на документах. Для решения этой проблемы мы предлагаем MACT — фреймворк многоагентного сотрудничества с масштабированием на этапе тестирования, адаптированный для визуального понимания документов и визуального ответа на вопросы (VQA). Он включает четыре отдельных агента малого масштаба, а именно агентов планирования, выполнения, оценки и ответа, с четко определенными ролями и эффективным взаимодействием. Примечательно, что агент оценки исключительно проверяет правильность и перенаправляет к предыдущим агентам для внесения исправлений, превосходя традиционные стратегии коррекции. Для дальнейшего расширения границ возможностей фреймворка мы предлагаем смешанное моделирование вознаграждений, которое балансирует способности отдельных агентов и глобальное сотрудничество, а также гибридное масштабирование на этапе тестирования для каждого агента, которое настраивает различные стратегии масштабирования в зависимости от их функций. Оцененный на тестовых наборах данных, охватывающих как задачи, основанные на документах, так и не связанные с ними, наш MACT демонстрирует превосходную производительность при меньшем масштабе параметров, не жертвуя способностями к общим и математическим задачам. Особенно он выделяется в тестовых наборах данных, связанных с длинными визуальными контекстами и сложными рассуждениями. Три варианта MACT стабильно занимают три верхние позиции по средним показателям, лидируя в 13 из 15 тестовых наборов данных. Код будет доступен по адресу: https://github.com/YU-deep/MACT.git.
Производительность крупных языковых моделей (LLM) значительно зависит от контекстуального положения информации во входных данных. Чтобы исследовать механизм, лежащий в основе этого позиционного смещения, наши обширные эксперименты выявили устойчивое явление, которое мы назвали "бассейном внимания": при представлении последовательности структурированных элементов (например, извлеченных документов или примеров few-shot) модели систематически уделяют больше внимания элементам в начале и конце последовательности, игнорируя те, что находятся в середине. Важно отметить, что наш анализ также показывает, что выделение большего внимания критической информации является ключевым фактором для повышения производительности модели. На основе этих наблюдений мы представляем Attention-Driven Reranking (AttnRank) — двухэтапный фреймворк, который (i) оценивает внутренние предпочтения модели в отношении позиционного внимания с использованием небольшого калибровочного набора и (ii) переупорядочивает извлеченные документы или примеры few-shot, чтобы выровнять наиболее значимый контент с этими позициями высокого внимания. AttnRank является модель-агностичным, не требующим обучения и готовым к использованию методом с минимальными вычислительными затратами. Эксперименты на задачах многошагового QA и few-shot обучения в контексте демонстрируют, что AttnRank обеспечивает значительные улучшения для 10 крупных языковых моделей различных архитектур и масштабов, без изменения параметров модели или процедур обучения.
В данной статье представлен комплексный эталон для оценки того, как крупные языковые модели (LLM) реагируют на лингвистические шибболеты — тонкие языковые маркеры, которые могут непреднамеренно раскрывать демографические атрибуты, такие как пол, социальный класс или региональная принадлежность. С помощью тщательно разработанных симуляций интервью, включающих 100 проверенных пар вопросов и ответов, мы демонстрируем, как LLM систематически наказывают определенные языковые паттерны, в частности, использование смягчающих выражений, несмотря на эквивалентное качество содержания. Наш эталон создает контролируемые лингвистические вариации, которые изолируют конкретные явления при сохранении семантической эквивалентности, что позволяет точно измерять демографическую предвзятость в автоматизированных системах оценки. Мы проверяем наш подход по нескольким лингвистическим измерениям, показывая, что ответы с использованием смягчающих выражений получают в среднем на 25,6% более низкие оценки, и демонстрируем эффективность эталона в выявлении специфических для модели предубеждений. Эта работа закладывает основу для обнаружения и измерения лингвистической дискриминации в системах ИИ, что имеет широкое применение для обеспечения справедливости в контекстах автоматизированного принятия решений.
Мультимодальное связывание сущностей играет ключевую роль в широком спектре приложений. Недавние достижения в методах, основанных на крупных языковых моделях, стали доминирующей парадигмой для этой задачи, эффективно используя как текстовые, так и визуальные модальности для повышения производительности. Несмотря на их успех, эти методы всё ещё сталкиваются с двумя проблемами: излишним использованием данных изображений в определённых сценариях и зависимостью только от однократного извлечения визуальных признаков, что может снижать их эффективность и точность. Для решения этих проблем мы предлагаем новую LLM-основанную структуру для задачи мультимодального связывания сущностей, называемую Intra- and Inter-modal Collaborative Reflections (Внутри- и межмодальные совместные размышления). Эта структура делает акцент на использовании текстовой информации для выполнения задачи. Когда текста недостаточно для связывания правильной сущности через внутри- и межмодальные оценки, она применяет многораундовую итеративную стратегию, которая интегрирует ключевые визуальные подсказки из различных аспектов изображения для поддержки рассуждений и повышения точности сопоставления. Экстенсивные эксперименты на трёх широко используемых публичных наборах данных демонстрируют, что наша структура стабильно превосходит современные методы в этой задаче, достигая улучшений на 3,2%, 5,1% и 1,6% соответственно. Наш код доступен по адресу https://github.com/ziyan-xiaoyu/I2CR/.
Согласованность и равномерность являются фундаментальными принципами в области контрастного обучения. В рекомендательных системах предыдущие исследования установили, что оптимизация функции потерь Bayesian Personalized Ranking (BPR) способствует достижению целей согласованности и равномерности. В частности, согласованность направлена на сближение представлений взаимодействующих пользователей и элементов, тогда как равномерность требует равномерного распределения вложений пользователей и элементов на единичной гиперсфере. Данное исследование вновь рассматривает свойства согласованности и равномерности в контексте мультимодальных рекомендательных систем, выявляя склонность существующих моделей к приоритизации равномерности в ущерб согласованности. Наша гипотеза оспаривает традиционное предположение о равноправном отношении к элементам через функцию потерь равномерности, предлагая более тонкий подход, в котором элементы с похожими мультимодальными атрибутами сходятся к близким представлениям на гиперсферическом многообразии. В частности, мы используем внутреннее сходство мультимодальных данных элементов для калибровки их распределения равномерности, тем самым вызывая более выраженную силу отталкивания между различными сущностями в пространстве вложений. Теоретический анализ проясняет взаимосвязь между этой калиброванной функцией потерь равномерности и традиционной функцией равномерности. Кроме того, для улучшения слияния мультимодальных признаков мы вводим метод сферических кривых Безье, предназначенный для интеграции произвольного числа модальностей при условии, что результирующие объединенные признаки остаются ограниченными тем же гиперсферическим многообразием. Эмпирические оценки, проведенные на пяти реальных наборах данных, подтверждают превосходство нашего подхода над конкурирующими базовыми методами. Мы также показываем, что предложенные методы могут достичь увеличения производительности NDCG@20 до 5,4% за счет интеграции признаков, извлеченных с помощью MLLM. Исходный код доступен по адресу: https://github.com/enoche/CM3.
Редактирование личной идентифицируемой информации (PII) из неструктурированного текста имеет критическое значение для обеспечения конфиденциальности данных в регулируемых областях. Хотя ранние подходы основывались на правилах и моделях распознавания именованных сущностей (NER), специфичных для конкретных доменов, эти методы не способны обобщать данные в различных форматах и контекстах. Последние достижения в области больших языковых моделей (LLM) предлагают перспективную альтернативу, однако влияние архитектурных решений и стратегий обучения на эффективность редактирования остается недостаточно изученным. LLM продемонстрировали высокую производительность в задачах, требующих контекстного понимания языка, включая редактирование PII в свободном тексте. Предыдущие исследования показывают, что при соответствующей адаптации LLM могут стать эффективными инструментами для контекстного обеспечения конфиденциальности. Тем не менее, последствия архитектурных и обучающих решений для редактирования PII остаются недостаточно исследованными. В данной работе мы представляем всесторонний анализ LLM как систем для редактирования PII с сохранением конфиденциальности. Мы оцениваем различные архитектуры LLM и стратегии обучения на предмет их эффективности в редактировании PII. Наш анализ измеряет производительность редактирования, сохранение семантики и утечку PII, а также сравнивает эти результаты с задержкой и вычислительными затратами. Результаты предоставляют практические рекомендации по настройке LLM-редакторов, которые являются точными, эффективными и учитывающими конфиденциальность. Для обеспечения воспроизводимости и практического внедрения мы выпускаем PRvL — открытый набор тонко настроенных моделей и инструментов оценки для универсального редактирования PII. PRvL полностью построен на открытых LLM и поддерживает несколько режимов вывода для гибкости и соответствия требованиям. Он разработан для легкой адаптации к различным доменам и полной функциональности в безопасных, самостоятельно управляемых средах. Это позволяет владельцам данных выполнять редактирование без необходимости полагаться на сторонние сервисы или раскрывать конфиденциальную информацию за пределами собственной инфраструктуры.
Системы одновременного перевода речи (SimulST) обрабатывают аудиопоток в реальном времени, одновременно выводя переведённый текст или речь. Такие системы сталкиваются с серьёзной задачей балансировки между качеством перевода и задержкой. Мы предлагаем стратегию для оптимизации этого компромисса: ожидать большего объёма входных данных только в том случае, если это приносит полезную информацию. На основе этой стратегии мы представляем Regularized Entropy INformation Adaptation (REINA) — новый метод обучения адаптивной политики с использованием существующей модели перевода, не предназначенной для потоковой обработки. REINA выводится из принципов теории информации, и мы демонстрируем, что он помогает улучшить известную границу Парето в компромиссе между задержкой и качеством по сравнению с предыдущими работами. Используя REINA, мы обучаем модель SimulST для перевода с французского, испанского и немецкого языков на английский и обратно. Обучаясь только на открытых или синтетически сгенерированных данных, мы достигаем современных (SOTA) результатов для потоковых моделей сопоставимого размера. Мы также вводим метрику эффективности потоковой обработки, количественно показывая, что REINA улучшает компромисс между задержкой и качеством на величину до 21% по сравнению с предыдущими подходами, нормализованными относительно базовых показателей BLEU для не потоковых моделей.
Появление моделей логического рассуждения и их интеграция в практические AI-чатботы привели к прорывам в решении сложных математических задач, глубокого поиска и извлечения ответов на вопросы, требующих многоэтапного мыслительного процесса. Однако полное понимание того, почему эти модели чаще галлюцинируют по сравнению с универсальными языковыми моделями, остается недостаточным. В данном исследовании мы систематически изучаем ошибки логического рассуждения современных языковых моделей в задачах многошагового ответа на вопросы. Мы представляем новую, детализированную систему классификации ошибок, которая анализирует сбои по трем ключевым аспектам: разнообразие и уникальность задействованных исходных документов ("шаги"), полнота охвата релевантной информации ("охват") и когнитивная неэффективность ("переосмысление"). Благодаря тщательной аннотации, подкрепленной дополнительными автоматизированными метриками, наше исследование выявляет сложные паттерны ошибок, часто скрытые в оценках, ориентированных на точность. Такой аналитический подход дает более глубокое понимание когнитивных ограничений современных моделей и предлагает практические рекомендации для повышения точности, прозрачности и устойчивости логического рассуждения в будущих разработках языковых моделей.
Робастный анализ главных компонент (RPCA) разлагает матрицу наблюдений на низкоранговый фоновый компонент и разреженный компонент объектов. Эта возможность позволила применять его в задачах, начиная от восстановления изображений до сегментации. Однако традиционные модели RPCA страдают от вычислительной нагрузки, вызванной матричными операциями, зависимости от тщательно настроенных гиперпараметров и жестких априорных предположений, которые ограничивают адаптивность в динамических сценариях. Для решения этих ограничений мы предлагаем RPCANet++, фреймворк для сегментации разреженных объектов, который объединяет интерпретируемость RPCA с эффективными глубокими архитектурами. Наш подход разворачивает ослабленную модель RPCA в структурированную сеть, состоящую из модуля аппроксимации фона (BAM), модуля извлечения объектов (OEM) и модуля восстановления изображений (IRM). Для снижения потерь при передаче между этапами в BAM мы вводим модуль с расширенной памятью (MAM) для улучшения сохранения фоновых признаков, в то время как модуль глубокого контрастного априори (DCPM) использует подсказки значимости для ускорения извлечения объектов. Многочисленные эксперименты на различных наборах данных демонстрируют, что RPCANet++ достигает наилучших результатов в различных сценариях визуализации. Мы дополнительно улучшаем интерпретируемость с помощью визуальных и численных измерений низкоранговости и разреженности. Сочетая теоретические преимущества RPCA с эффективностью глубоких сетей, наш подход устанавливает новый базис для надежной и интерпретируемой сегментации разреженных объектов. Код доступен на нашей странице проекта: https://fengyiwu98.github.io/rpcanetx.
Мультимодальные языковые модели (MLMs) демонстрируют потенциал для поддержки клинических решений и диагностического анализа, открывая перспективы для полностью автоматизированной интерпретации медицинских изображений. Однако клиницисты крайне избирательны в использовании инструментов искусственного интеллекта; модель, которая допускает ошибки в, казалось бы, простых задачах восприятия, таких как определение ориентации изображения или выявление наличия контрастного усиления на КТ-снимках, вряд ли будет принята для клинических задач. Мы представляем Medblink — эталонный тест, разработанный для оценки таких перцептивных способностей моделей. Medblink охватывает восемь клинически значимых задач, охватывающих различные методы визуализации и анатомические области, и включает 1 429 вопросов с множественным выбором на основе 1 605 изображений. Мы оценили 19 современных MLMs, включая модели общего назначения (GPT4o, Claude 3.5 Sonnet) и специализированные (Med Flamingo, LLaVA Med, RadFM). В то время как аннотаторы-люди достигают точности 96,4%, лучшая модель демонстрирует точность лишь 65%. Эти результаты показывают, что современные MLMs часто не справляются с рутинными проверками восприятия, что указывает на необходимость усиления их визуальной основы для поддержки клинического внедрения. Данные доступны на странице нашего проекта.