Ежедневно отобранные исследовательские статьи по ИИ с переводами
Задача геолокализации изображений заключается в определении местоположения на Земле, где был сделан снимок, с использованием визуальных подсказок. Существующие подходы, основанные на больших визуально-языковых моделях (LVLM), используют знание о мире, цепочечные рассуждения и агентские возможности, но упускают из виду распространенную стратегию, применяемую людьми — использование карт. В данной работе мы сначала наделяем модель способностью "Думать с картой" и формулируем это как цикл "агент-в-карте". Мы разрабатываем для этого двухэтапную схему оптимизации, включающую агентское обучение с подкреплением (RL) с последующим параллельным масштабированием на этапе тестирования (TTS). RL усиливает агентские возможности модели для повышения эффективности выборки, а параллельное TTS позволяет модели исследовать несколько кандидатных путей перед принятием окончательного решения, что крайне важно для геолокализации. Для оценки нашего метода на актуальных и реальных изображениях мы также представляем MAPBench — комплексный эталонный набор для обучения и оценки геолокализации, полностью состоящий из изображений из реального мира. Результаты экспериментов показывают, что наш метод превосходит существующие модели с открытым и закрытым исходным кодом по большинству метрик, в частности, улучшая показатель Acc@500m с 8,0% до 22,1% по сравнению с Gemini-3-Pro в режиме с привязкой к Google Поиску/Картам.
Автоформализация, которая переводит математику на естественном языке в формальные утверждения для обеспечения машинного рассуждения, сталкивается с фундаментальными трудностями в реальных условиях из-за мультимодальной природы физического мира, где физика требует вывода скрытых ограничений (например, массы или энергии) из визуальных элементов. Для решения этой проблемы мы предлагаем MMFormalizer, который расширяет автоформализацию за пределы текста за счет интеграции адаптивного заземления с сущностями из реальных математических и физических областей. MMFormalizer рекурсивно строит формальные предложения из перцептивно заземленных примитивов посредством рекурсивного заземления и композиции аксиом, при этом адаптивное рекурсивное завершение гарантирует, что каждая абстракция поддерживается визуальными свидетельствами и закреплена в размерном или аксиоматическом обосновании. Мы оцениваем MMFormalizer на новом эталоне PhyX-AF, включающем 115 отобранных образцов из MathVerse, PhyX, Синтетической геометрии и Аналитической геометрии, охватывающих разнообразные мультимодальные задачи автоформализации. Результаты показывают, что передовые модели, такие как GPT-5 и Gemini-3-Pro, достигают наивысшей точности компиляции и семантической точности, причем GPT-5 превосходит в физических рассуждениях, в то время как геометрия остается наиболее сложной областью. В целом, MMFormalizer предоставляет масштабируемую основу для унифицированной мультимодальной автоформализации, связывая восприятие и формальное рассуждение. Насколько нам известно, это первый мультимодальный метод автоформализации, способный работать с классической механикой (производной от гамильтониана), а также с теорией относительности, квантовой механикой и термодинамикой. Более подробная информация доступна на странице нашего проекта: MMFormalizer.github.io.
Представлен фотореалистичный и управляемый фреймворк для 3D-карикатуризации лиц. Мы начинаем с техники преувеличения поверхности на основе внутренней гауссовой кривизны, которая в сочетании с текстурой часто приводит к излишне сглаженному рендерингу. Для решения этой проблемы мы обращаемся к методу 3D Gaussian Splatting (3DGS), который недавно продемонстрировал способность создавать реалистичные аватары со свободной точкой обзора. Получив многовидовую последовательность, мы извлекаем FLAME-меш, решаем уравнение Пуассона с весами, зависящими от кривизны, и получаем его преувеличенную форму. Однако прямое деформирование гауссианов дает неудовлетворительные результаты, что требует синтеза псевдо-референтных карикатурных изображений путем деформации каждого кадра в его преувеличенное 2D-представление с использованием локальных аффинных преобразований. Затем мы разрабатываем схему обучения, чередующую контроль по реальным и синтезированным данным, что позволяет одной коллекции гауссианов представлять как естественные, так и преувеличенные аватары. Данная схема повышает точность, поддерживает локальное редактирование и обеспечивает плавный контроль над степенью карикатурности. Для достижения деформаций в реальном времени вводится эффективная интерполяция между исходной и преувеличенной поверхностями. Мы дополнительно анализируем и показываем, что отклонение от точных аналитических решений является ограниченным. Количественные и качественные оценки демонстрируют превосходство наших результатов над предыдущими работами, обеспечивая создание фотореалистичных аватаров-карикатур с управляемой геометрией.
Крупные языковые модели (LLM) часто не могут освоить эффективное длинное цепочечное рассуждение (Long CoT) путем имитации человека или LLM, не использующих Long CoT. Для понимания этого феномена мы предполагаем, что эффективные и доступные для обучения траектории Long CoT обладают стабильной молекулоподобной структурой в едином представлении, которая формируется тремя типами взаимодействий: глубинное рассуждение (ковалентноподобное), саморефлексия (водородно-связноподобное) и самоисследование (ван-дер-ваальсоподобное). Анализ дистиллированных траекторий показывает, что эти структуры возникают в результате тонкой настройки на Long CoT, а не имитации ключевых слов. Мы вводим концепцию эффективных семантических изомеров и показываем, что только связи, способствующие быстрой сходимости энтропии, поддерживают стабильное обучение Long CoT, в то время как структурная конкуренция нарушает процесс обучения. Опираясь на эти выводы, мы представляем Mole-Syn — метод графа переноса распределения, который направляет синтез эффективных структур Long CoT, повышая производительность и стабильность обучения с подкреплением на различных тестовых наборах.
В данном отчете представлены серии моделей Qwen3-VL-Embedding и Qwen3-VL-Reranker — новейшие расширения семейства Qwen, построенные на базовой модели Qwen3-VL. Вместе они формируют сквозной конвейер для высокоточной мультимодальной поисковой системы, проецируя различные модальности, включая текст, изображения, изображения документов и видео, в единое пространство представлений. Модель Qwen3-VL-Embedding использует многоэтапную парадигму обучения, переходя от масштабного контрастивного предварительного обучения к дистилляции модели переранжирования, для генерации семантически насыщенных высокоразмерных векторов. Она поддерживает матрёшечное представление обучающих данных, обеспечивая гибкость размерностей эмбеддингов, и обрабатывает входные последовательности длиной до 32 тысяч токенов. В дополнение к этому, Qwen3-VL-Reranker выполняет тонкую оценку релевантности для пар запрос-документ с использованием кросс-энкодера с механизмами перекрёстного внимания. Обе серии моделей наследуют мультиязычные возможности Qwen3-VL, поддерживая более 30 языков, и выпускаются в размерах 2 и 8 миллиардов параметров для удовлетворения разнообразных требований к развертыванию. Эмпирические оценки демонстрируют, что серия Qwen3-VL-Embedding достигает передовых результатов в различных бенчмарках оценки мультимодальных эмбеддингов. В частности, модель Qwen3-VL-Embedding-8B набирает общий балл 77,8 на MMEB-V2, занимая первое место среди всех моделей (по состоянию на 8 января 2025 года). В отчете описываются архитектура, методология обучения и практические возможности серии, демонстрируя их эффективность в различных задачах мультимодального поиска, включая поиск по изображениям и текстам, визуальный вопросно-ответный поиск и сопоставление видео с текстом.
Обучение с подкреплением (RL) стало ключевой методикой для повышения эффективности агентов глубокого поиска на основе больших языковых моделей (LLM). Однако существующие подходы в основном опираются на бинарные вознаграждения по результату, которые не отражают полноту и фактическую обоснованность процесса рассуждений агентов и часто приводят к нежелательному поведению, такому как использование кратчайших путей и галлюцинации. Для устранения этих ограничений мы предлагаем Citation-aware Rubric Rewards (CaRR) — детализированную систему вознаграждений для агентов глубокого поиска, которая делает акцент на полноте рассуждений, фактическом обосновании и связности доказательств. CaRR декомпозирует сложные вопросы на проверяемые одношаговые рубрики и требует от агентов удовлетворения этим рубрикам путем явного выявления скрытых сущностей, их поддержки корректными цитированиями и построения полных цепочек доказательств, связанных с прогнозируемым ответом. Мы также представляем Citation-aware Group Relative Policy Optimization (C-GRPO), который объединяет CaRR и вознаграждения по результату для обучения надежных агентов глубокого поиска. Эксперименты показывают, что C-GRPO последовательно превосходит стандартные базовые методы RL, основанные на результате, в различных тестах глубокого поиска. Наш анализ также подтверждает, что C-GRPO эффективно препятствует использованию кратчайших путей, способствует всесторонним, обоснованным доказательствами рассуждениям и демонстрирует сильную обобщающую способность для открытых задач глубокого исследования. Наш код и данные доступны по адресу https://github.com/THUDM/CaRR.
Крупные языковые модели (LLM) предполагается обучать для работы в качестве агентов в различных реальных средах, но этот процесс требует наличия богатых и разнообразных песочниц для взаимодействия с инструментами. Однако доступ к реальным системам часто ограничен; симулированные LLM среды склонны к галлюцинациям и противоречиям; а создаваемые вручную песочницы сложно масштабировать. В данной статье мы предлагаем EnvScaler — автоматизированную платформу для создания масштабируемых сред взаимодействия с инструментами посредством программного синтеза. EnvScaler состоит из двух компонентов. Во-первых, SkelBuilder строит разнообразные каркасы сред через тематический анализ, логическое моделирование и оценку качества. Затем ScenGenerator генерирует множественные сценарии задач и функции валидации траекторий на основе правил для каждой среды. С помощью EnvScaler мы синтезировали 191 среду и около 7 тысяч сценариев, применив их для контролируемого тонкого обучения (SFT) и обучения с подкреплением (RL) для моделей серии Qwen3. Результаты на трех тестовых наборах данных показывают, что EnvScaler значительно улучшает способность LLM решать задачи в сложных средах, включающих многоходовые взаимодействия с несколькими инструментами. Мы публикуем наш код и данные по адресу https://github.com/RUC-NLPIR/EnvScaler.
Последние достижения в области больших языковых моделей (LLMs) позволяют создавать агентные системы, обученные с подкреплением (RL) на траекториях многошагового взаимодействия, однако практическое развертывание ограничивается быстро растущими текстовыми историями, которые увеличивают токенные бюджеты и объем используемой памяти. Мы представляем AgentOCR — фреймворк, который использует превосходную информационную плотность визуальных токенов, представляя накопленную историю наблюдений и действий в виде компактного визуализированного изображения. Для обеспечения масштабируемости многошаговых сценариев AgentOCR предлагает сегментное оптическое кэширование. Разлагая историю на хэшируемые сегменты и поддерживая визуальный кэш, этот механизм устраняет избыточное повторное рендеринг. Помимо фиксированного рендеринга, AgentOCR вводит агентное самосжатие, при котором агент активно генерирует коэффициент сжатия и обучается с учетом сжатия в функции вознаграждения для адаптивного баланса между успешностью задачи и токенной эффективностью. Мы провели обширные эксперименты на сложных агентных бенчмарках ALFWorld и поисковых QA. Примечательно, что результаты показывают, что AgentOCR сохраняет более 95% производительности текстового агента при существенном сокращении потребления токенов (>50%), обеспечивая стабильную эффективность по токенам и памяти. Наш дальнейший анализ подтверждает 20-кратное ускорение рендеринга благодаря сегментному оптическому кэшированию и эффективное стратегическое балансирование самосжатия.
Автономные агенты машинного обучения произвели революцию в научных открытиях, однако они по-прежнему ограничены парадигмой «Генерация-Выполнение-Обратная связь». Предыдущие подходы страдают от серьезного «узкого места выполнения», поскольку оценка гипотез строго зависит от дорогостоящего физического выполнения. Чтобы обойти эти физические ограничения, мы интернализуем априорные знания о выполнении, заменяя затратные проверки во время выполнения мгновенным прогностическим рассуждением, черпая вдохновение из Мировых Моделей. В данной работе мы формализуем задачу Предпочтения Решений, ориентированного на данные, и создаем комплексный корпус из 18 438 парных сравнений. Мы демонстрируем, что большие языковые модели проявляют значительные прогностические способности, когда им предоставляется Верифицированный отчет об анализе данных, достигая точности 61,5% и надежной калибровки уверенности. Наконец, мы реализуем эту концепцию в агенте FOREAGENT, который использует цикл «Предсказать-Затем-Проверить», достигая 6-кратного ускорения сходимости и превосходя базовые методы, основанные на выполнении, на +6%. Наш код и набор данных скоро будут общедоступны по адресу https://github.com/zjunlp/predict-before-execute.
Последние достижения в области генерации видео в основном связаны с диффузионными моделями и моделями flow-matching, которые обеспечивают высокое качество результатов, но остаются вычислительно сложными и трудно масштабируемыми. В данной работе мы представляем VideoAR — первую крупномасштабную визуальную авторегрессионную (VAR) модель для генерации видео, сочетающую многоуровневое предсказание следующего кадра с авторегрессионным моделированием. VideoAR разделяет пространственные и временные зависимости за счёт интеграции внутрикадрового VAR-моделирования с каузальным предсказанием следующего кадра, поддерживаемого 3D многоуровневым токенизатором, эффективно кодирующим пространственно-временную динамику. Для повышения долговременной согласованности мы предлагаем методы Multi-scale Temporal RoPE, Cross-Frame Error Correction и Random Frame Mask, которые совместно снижают распространение ошибок и стабилизируют временную когерентность. Наш многоэтапный конвейер предварительного обучения прогрессивно выравнивает пространственное и временное обучение при увеличении разрешения и длительности. Экспериментально VideoAR устанавливает новые рекорды среди авторегрессионных моделей, улучшая FVD на UCF-101 с 99.5 до 88.6 при сокращении шагов вывода более чем в 10 раз и достигая показателя VBench 81.74, что сравнимо с диффузионными моделями на порядок большего размера. Эти результаты демонстрируют, что VideoAR сокращает разрыв в производительности между авторегрессионной и диффузионной парадигмами, предлагая масштабируемую, эффективную и временно согласованную основу для будущих исследований в области генерации видео.
Настройка по предпочтениям выравнивает предобученные языковые модели в соответствии с человеческими оценками качества, полезности или безопасности за счет оптимизации на основе явных сигналов предпочтений, а не только правдоподобия. Предыдущие исследования показали, что настройка по предпочтениям ухудшает производительность и снижает полезность моделей при оценке за пределами обучающей области. Однако степень, в которой стратегии адаптации смягчают этот междоменный сдвиг, оставалась неисследованной. Мы решаем эту проблему, проводя всестороннее и систематическое исследование обобщающей способности выравнивания при междоменном сдвиге. Мы сравниваем пять популярных целей выравнивания и различные стратегии адаптации от исходной к целевой области, включая контролируемую дообучение и псевдоразметку в целевом домене, на задачах суммаризации и полезности ответов на вопросы. Наши результаты выявляют систематические различия в обобщающей способности различных целей выравнивания при междоменном сдвиге. Мы показываем, что стратегии адаптации на основе псевдоразметки могут существенно снизить деградацию, вызванную междоменным сдвигом.
По мере того как большие языковые модели (LLM) все шире применяются в реальных условиях, одной лишь корректности ответов становится недостаточно. Надежное развертывание требует сохранения достоверных убеждений при контекстуальных возмущениях. Существующие методы оценки в основном опираются на точечные показатели уверенности, такие как самосогласованность (Self-Consistency), которые могут маскировать хрупкость убеждений. Мы показываем, что даже факты, получаемые с идеальной самосогласованностью, могут быстро разрушаться под слабым контекстуальным воздействием. Для устранения этого пробела мы предлагаем структурную меру устойчивости убеждений — согласованность с соседями (Neighbor-Consistency Belief, NCB), которая оценивает когерентность ответов в концептуальной окрестности. Для проверки эффективности NCB мы вводим новый протокол когнитивного стресс-тестирования, исследующий стабильность выходных данных при контекстуальных помехах. Эксперименты с различными LLM демонстрируют, что данные с высоким NCB проявляют относительно более высокую устойчивость к вмешательству. Наконец, мы представляем структуро-ориентированное обучение (Structure-Aware Training, SAT), которое оптимизирует инвариантную к контексту структуру убеждений и снижает хрупкость знаний в «длинном хвосте» примерно на 30%. Код будет доступен по адресу https://github.com/zjunlp/belief.
Последние достижения в области генерации видео позволили создать «мировые модели», способные симулировать потенциальные варианты будущего для робототехники и планирования. Однако точная спецификация целей для этих моделей остается сложной задачей: текстовые инструкции часто слишком абстрактны, чтобы передать физические нюансы, а целевые изображения зачастую невозможно задать для динамических задач. Для решения этой проблемы мы представляем Goal Force — новую концепцию, которая позволяет пользователям определять цели с помощью явных векторов силы и промежуточной динамики, отражая то, как человек концептуализирует физические задачи. Мы обучаем модель генерации видео на специально подготовленном наборе синтетических каузальных примитивов — таких как упругие столкновения и падающие кости домино, — обучая ее распространять силы во времени и пространстве. Несмотря на обучение на данных простой физики, наша модель демонстрирует впечатляющую способность к zero-shot обобщению на сложные реальные сценарии, включая манипуляции инструментами и каузальные цепочки множества объектов. Наши результаты позволяют предположить, что, основав генерацию видео на фундаментальных физических взаимодействиях, модели могут выступать в роли неявных нейросетевых симуляторов физики, обеспечивая точное, учитывающее физику планирование без reliance на внешние движки. Все наборы данных, код, веса моделей и интерактивные видео-демонстрации доступны на странице нашего проекта.
Крупные языковые модели претерпели стремительную эволюцию, став ключевой технологией для интеллектуализации финансовых операций. Однако существующие бенчмарки часто ограничены такими недостатками, как опора на синтетические или общецелевые выборки и фокус на единичных офлайн-статичных сценариях. Как следствие, они не соответствуют требованиям к аутентичности и оперативности в финансовых сервисах, что приводит к значительному разрыву между результатами бенчмарков и реальной эффективностью. Для решения этой проблемы мы представляем BizFinBench.v2 — первый масштабный оценочный бенчмарк, основанный на реальных бизнес-данных фондовых рынков Китая и США с интеграцией онлайн-оценки. Мы провели кластерный анализ реальных пользовательских запросов с финансовых платформ, сформировав восемь базовых задач и две онлайн-задачи в четырёх ключевых бизнес-сценариях, что в сумме составило 29 578 экспертных вопросо-ответных пар. Результаты экспериментов показывают, что ChatGPT-5 демонстрирует выдающуюся точность в 61,5% по основным задачам, хотя сохраняется значительный разрыв с финансовыми экспертами; в онлайн-задачах DeepSeek-R1 превосходит все другие коммерческие LLM. Анализ ошибок дополнительно выявляет конкретные пробелы в возможностях существующих моделей в контексте практических финансовых операций. BizFinBench.v2 преодолевает ограничения текущих бенчмарков, обеспечивая бизнес-ориентированную декомпозицию финансовых способностей LLM и создавая точную основу для оценки эффективности массового внедрения языковых моделей в финансовой сфере. Данные и код доступны по адресу https://github.com/HiThink-Research/BizFinBench.v2.
Монокулярное оценивание глубины ставит целью восстановление информации о глубине трёхмерных сцен из двумерных изображений. В последних работах достигнут значительный прогресс, однако зависимость от крупномасштабных наборов данных и сложных декодеров ограничивает их эффективность и способность к обобщению. В данной статье мы предлагаем облегчённую и ориентированную на данные структуру для zero-shot монокулярного оценивания глубины. Сначала мы используем DINOv3 в качестве визуального энкодера для получения качественных плотных признаков. Во-вторых, чтобы устранить присущие DPT недостатки сложной структуры, мы разрабатываем Simple Depth Transformer (SDT) — компактный трансформерный декодер. По сравнению с DPT, он использует одноконтурный процесс слияния признаков и апсемплинга для снижения вычислительных затрат на кросс-масштабное слияние признаков, достигая более высокой точности при сокращении количества параметров примерно на 85–89%. Кроме того, мы предлагаем стратегию фильтрации на основе качества для отсева вредоносных примеров, что позволяет уменьшить размер набора данных при одновременном повышении общего качества обучения. Многочисленные эксперименты на пяти тестовых наборах демонстрируют, что наша структура превосходит DPT по точности. Данная работа подчёркивает важность баланса между проектированием модели и качеством данных для достижения эффективного и обобщаемого zero-shot оценивания глубины. Код: https://github.com/AIGeeksGroup/AnyDepth. Сайт: https://aigeeksgroup.github.io/AnyDepth.
Крупные языковые модели (LLM) нашли широкое применение в различных областях финансов. Поскольку их обучающие данные в значительной степени получены из созданных человеком текстовых корпусов, LLM могут унаследовать ряд человеческих предубеждений. Поведенческие предубеждения способны приводить к нестабильности и неопределённости при принятии решений, особенно при обработке финансовой информации. Однако существующие исследования предубеждений LLM в основном сосредоточены на прямом опросе или упрощённых универсальных условиях, с ограниченным учётом сложных реальных финансовых сред и задач обнаружения многоязычной финансовой дезинформации (\mfmd), характеризующихся высоким риском и контекстуальной зависимостью. В данной работе мы предлагаем \mfmdscen, комплексный бенчмарк для оценки поведенческих предубеждений LLM в задачах \mfmd в различных экономических сценариях. Совместно с финансовыми экспертами мы построили три типа сложных финансовых сценариев: (i) основанные на роли и личности, (ii) основанные на роли и регионе, и (iii) ролевые сценарии, включающие этническую принадлежность и религиозные убеждения. Мы также разработали многоязычный набор данных о финансовой дезинформации, охватывающий английский, китайский, греческий и бенгальский языки. Интегрируя эти сценарии с дезинформационными утверждениями, \mfmdscen позволяет провести систематическую оценку 22 основных LLM. Наши результаты показывают, что выраженные поведенческие предубеждения сохраняются как в коммерческих, так и в открытых моделях. Проект будет доступен по адресу https://github.com/lzw108/FMD.
Поисковые агенты на основе больших языковых моделей (LLM) показали свою перспективность для решения задач, требующих обширных знаний, благодаря интеграции возможностей информационного поиска. Существующие работы в основном сосредоточены на оптимизации парадигм рассуждений поисковых агентов, однако качество промежуточных поисковых запросов в процессе рассуждения остается без внимания. В результате генерируемые запросы часто оказываются неточными, что приводит к неожиданным результатам поиска и, в конечном счете, ограничивает общую эффективность поисковых агентов. Для решения этой проблемы мы представляем SmartSearch — фреймворк, построенный на двух ключевых механизмах: (1) Поощрения за процесс, которые обеспечивают детализированный контроль качества каждого промежуточного поискового запроса посредством Двухуровневой Оценки Результативности. (2) Уточнение запросов, которое способствует оптимизации генерации запросов за счет выборочного улучшения низкокачественных поисковых запросов и перегенерации последующих циклов поиска на основе этих уточнений. Чтобы позволить поисковому агенту постепенно интериоризировать способность улучшать качество запросов под руководством поощрений за процесс, мы разработали трехэтапную структуру обучения по учебному плану. Данная структура направляет агента через прогрессию от имитации к согласованию и, наконец, к обобщению. Результаты экспериментов показывают, что SmartSearch стабильно превосходит существующие базовые методы, а дополнительные количественные анализы дополнительно подтверждают его значительный выигрыш как в эффективности поиска, так и в качестве запросов. Код доступен по адресу https://github.com/MYVAE/SmartSearch.
Данная работа представляет Orient Anything V2 — усовершенствованную базовую модель для унифицированного понимания трехмерной ориентации и вращения объектов по одиночным или парным изображениям. Развивая подход Orient Anything V1, который определял ориентацию через единственную уникальную лицевую грань, версия V2 расширяет эти возможности для работы с объектами, обладающими различной вращательной симметрией, и для прямой оценки относительных поворотов. Эти улучшения стали возможными благодаря четырем ключевым инновациям: 1) Масштабируемые 3D-ассеты, синтезированные генеративными моделями, что обеспечивает широкий охват категорий и сбалансированное распределение данных; 2) Эффективная система аннотирования с моделью в контуре, которая надежно идентифицирует от 0 до N допустимых лицевых граней для каждого объекта; 3) Симметрий-осознающая цель обучения с подгонкой периодического распределения, которая захватывает все правдоподобные ориентации лицевой стороны, эффективно моделируя вращательную симметрию объекта; 4) Многокадровая архитектура, которая напрямую предсказывает относительные вращения объекта. Многочисленные эксперименты показывают, что Orient Anything V2 достигает наилучших результатов в условиях zero-shot для задач оценки ориентации, оценки 6DoF-позы и распознавания симметрии объектов на 11 широко используемых бенчмарках. Модель демонстрирует сильную способность к обобщению, существенно расширяя применимость оценки ориентации в различных downstream-задачах.
Смесь экспертов (MoE) стала популярной парадигмой для масштабирования больших языковых моделей (LLM). Эффективный по параметрам тонкий настрой (PEFT), такой как LoRA, широко применяется для адаптации предварительно обученных MoE LLM к последующим задачам. Однако существующие подходы назначают всем экспертам одинаковые ранги LoRA, игнорируя внутреннюю функциональную специализацию в MoE LLM. Такое равномерное распределение приводит к несоответствию ресурсов: эксперты, релевантные задаче, получают недостаточно параметров, тогда как менее релевантные — избыточные. Мы предлагаем фреймворк Dynamic Rank LoRA (DR-LoRA), который динамически увеличивает ранги LoRA экспертов в процессе тонкой настройки на основе специфических требований задачи. DR-LoRA использует механизм оценки значимости экспертов, интегрирующий частоту маршрутизации экспертов и важность ранга LoRA для количественной оценки потребности каждого эксперта в дополнительной емкости. Эксперты с более высокими показателями значимости получают приоритет для расширения ранга, что позволяет автоматически формировать гетерогенное распределение рангов, адаптированное к целевой задаче. Эксперименты на нескольких наборах данных показывают, что DR-LoRA стабильно превосходит стандартный LoRA и стратегии статического распределения при одинаковом бюджете параметров, достигая превосходной производительности на задачах за счет более эффективного использования параметров.
Большие языковые модели с поисковым усилением (LLM) демонстрируют превосходство в решении задач, требующих обширных знаний, за счет интеграции внешнего поиска. Однако они часто демонстрируют чрезмерный поиск — необоснованно активируют поисковый инструмент даже тогда, когда это не улучшает качество ответа, что приводит к вычислительной неэффективности и галлюцинациям из-за включения нерелевантного контекста. В данной работе мы проводим систематическую оценку чрезмерного поиска по множеству параметров, включая типы запросов, категории моделей, условия поиска и многотуровые диалоги. Наши результаты показывают: (i) поиск в целом повышает точность ответов на отвечаемые запросы, но ухудшает способность к воздержанию от ответа на неотвечаемые; (ii) чрезмерный поиск более выражен у моделей, ориентированных на сложные рассуждения, и в системах для углубленного исследования, усугубляется при наличии шума в результатах поиска и накапливается в ходе многотуровых бесед; и (iii) состав извлеченных свидетельств имеет критическое значение, поскольку наличие негативных свидетельств улучшает способность к воздержанию от ответа. Для количественной оценки чрезмерного поиска мы вводим метрику «Токены на единицу корректности» (Tokens Per Correctness, TPC), которая отражает компромисс между производительностью и затратами для LLM с поисковым усилением. Наконец, мы исследуем подходы к смягчению проблемы на уровнях как запроса, так и поиска и публикуем набор данных OverSearchQA для стимулирования дальнейших исследований в области эффективных LLM с поисковым усилением.
Многоагентные системы (MAS) стали мощной парадигмой для создания высокопроизводительных интеллектуальных приложений. В этих системах маршрутизатор, отвечающий за определение того, какие экспертные агенты должны обрабатывать конкретный запрос, играет ключевую роль в общей производительности. Существующие стратегии маршрутизации обычно делятся на две категории: маршрутизация производительности, которая балансирует задержку и стоимость между моделями разного размера, и маршрутизация задач, которая назначает запросы узкоспециализированным экспертам для повышения точности. В реальных корпоративных приложениях маршрутизация задач является более предпочтительной; однако большинство существующих подходов полагаются на статические однозначные решения, которые влекут два основных ограничения: (i) сложность бесшовной интеграции новых агентов по мере расширения бизнес-доменов и (ii) конфликты маршрутизации, вызванные перекрывающимися возможностями агентов, что в конечном итоге снижает точность и надежность. Для решения этих проблем мы предлагаем TCAndon-Router (TCAR): адаптивный маршрутизатор с логическим выводом для многoагентного взаимодействия. В отличие от традиционных маршрутизаторов, TCAR поддерживает динамическое подключение агентов и сначала генерирует цепочку рассуждений на естественном языке перед прогнозированием набора кандидатов-агентов, способных обработать запрос. Кроме того, мы разработали конвейер совместного выполнения, в котором выбранные агенты независимо формируют ответы, которые затем агрегируются и улучшаются выделенным Агентом-Редактором в единый высококачественный ответ. Эксперименты на публичных наборах данных и реальных корпоративных данных демонстрируют, что TCAR значительно повышает точность маршрутизации, снижает количество конфликтов маршрутизации и сохраняет надежность в неоднозначных сценариях. Мы опубликовали TCAR по адресу https://huggingface.co/tencent/TCAndon-Router для поддержки будущих исследований в области объяснимой и коллаборативной многoагентной маршрутизации.
Крупные языковые модели (LLM) все чаще используются в качестве интеллектуальных агентов, способных к рассуждению, планированию и взаимодействию с окружающей средой. Для эффективного масштабирования в сценариях с длительным горизонтом планирования ключевой способностью таких агентов является механизм памяти, который может сохранять, организовывать и извлекать прошлый опыт для поддержки принятия решений. Однако большинство существующих подходов организуют и хранят память линейным образом и полагаются на простые методы поиска на основе сходства. Даже при введении структурированной памяти существующие методы часто не способны явно фиксировать логические связи между опытом или элементами памяти. Более того, доступ к памяти в значительной степени оторван от построенной структуры и по-прежнему зависит от поверхностного семантического поиска, что мешает агентам логически рассуждать о долгосрочных зависимостях. В данной работе мы предлагаем CompassMem — ориентированную на события архитектуру памяти, вдохновленную Теорией Сегментации Событий. CompassMem организует память в виде Графа Событий, инкрементально сегментируя опыт на события и связывая их через явные логические отношения. Этот граф служит логической картой, позволяя агентам осуществлять структурированную и целенаправленную навигацию по памяти, выходящую за рамки поверхностного поиска, и постепенно собирать ценные воспоминания для поддержки долгосрочных рассуждений. Эксперименты на наборах данных LoCoMo и NarrativeQA демонстрируют, что CompassMem стабильно улучшает как производительность поиска, так и качество рассуждений в различных базовых моделях.
По мере того как генеративные модели становятся повсеместными, возникает острая необходимость в тонком контроле над процессом генерации. Однако, несмотря на распространение методов контролируемой генерации — от промптинга до тонкой настройки, — фундаментальный вопрос остается без ответа: поддаются ли эти модели контролю в принципе? В данной работе мы предлагаем теоретическую основу для формального ответа на этот вопрос. Рассматривая взаимодействие человека и модели как процесс управления, мы предлагаем новый алгоритм для оценки управляемых множеств моделей в диалоговом контексте. Важно отметить, что мы предоставляем строгие гарантии на ошибку оценки как функцию сложности выборки: мы выводим вероятностно-приближенно корректные границы для оценок управляемого множества, которые свободны от распределения, не используют никаких предположений, за исключением ограниченности выхода, и работают для любой нелинейной системы управления типа «черного ящика» (то есть для любой генеративной модели). Мы эмпирически демонстрируем теоретическую основу на различных задачах управления диалоговыми процессами, как для языковых моделей, так и для генерации текст-в-изображение. Наши результаты показывают, что управляемость моделей удивительно хрупка и сильно зависит от экспериментальных условий. Это подчеркивает необходимость строгого анализа управляемости, смещая фокус с простых попыток управления к первоначальному пониманию его фундаментальных пределов.
Согласование искусственного интеллекта (ИИ) включает нормативную проблему определения того, как должны действовать системы ИИ, и техническую проблему обеспечения соответствия систем ИИ этим спецификациям. До настоящего времени в вопросах согласования ИИ в целом упускался из виду важный источник знаний и практики для решения этих проблем: право. В данной статье мы стремимся заполнить этот пробел, исследуя, как правовые нормы, принципы и методы могут быть использованы для решения проблем согласования и для проектирования систем ИИ, которые функционируют безопасно и этично. Эта формирующаяся область — *правовое согласование* — фокусируется на трех направлениях исследований: (1) проектирование систем ИИ для соблюдения содержания правовых норм, разработанных легитимными институтами и процессами, (2) адаптация методов юридического толкования для руководства процессом рассуждений и принятия решений системами ИИ и (3) использование правовых концепций в качестве структурного образца для преодоления проблем надежности, доверия и кооперации в системах ИИ. Эти исследовательские направления порождают новые концептуальные, эмпирические и институциональные вопросы, которые включают определение конкретного набора законов, которым должны следовать определенные системы ИИ, создание методик оценки их правового соответствия в реальных условиях и разработку управленческих структур для поддержки реализации правового согласования на практике. Решение этих вопросов требует экспертизы в области права, информатики и других дисциплин, предоставляя этим сообществам возможность сотрудничать в создании ИИ для общего блага.
Последние достижения в области обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) для логических рассуждений больших языковых моделей (LLM) сталкиваются с устойчивой проблемой: коллапсом исследования. Семантическая однородность случайных прогонов часто загоняет модели в узкие, переоптимизированные поведенческие шаблоны. Хотя существующие методы используют энтропию политики для стимулирования исследования, они имеют фундаментальные ограничения. Глобальная энтропийная регуляризация подвержена взлому вознаграждений, что может приводить к бессмысленной многословности, тогда как локальные токен-селективные обновления плохо справляются с сильным индуктивным смещением предобученных моделей. Для решения этой проблемы мы предлагаем Оптимизацию Латентной Политики через Итеративный Информационный Бутылочное Горлышко (IIB-LPO) — новый подход, который смещает фокус исследования со статистического возмущения токенных распределений на топологическое ветвление траекторий рассуждений. IIB-LPO инициирует латентное ветвление в состояниях с высокой энтропией для диверсификации путей рассуждения и использует принцип Информационного Бутылочного Горлышка как в роли фильтра траекторий, так и в качестве механизма самовознаграждения, обеспечивая сжатое и содержательное исследование. Эмпирические результаты, полученные на четырех тестовых наборах для математических рассуждений, демонстрируют, что IIB-LPO достигает наилучших результатов, превосходя предыдущие методы с отрывом до 5.3% по точности и до 7.4% по метрикам разнообразия.
Последние прорывы в области больших языковых моделей (LLM) позиционируют их как перспективную парадигму для создания агентов, где долгосрочное планирование и принятие решений становятся ключевыми универсальными способностями для адаптации к различным сценариям и задачам. Стратегии в реальном времени (RTS) служат идеальным полигоном для оценки этих двух способностей, поскольку их игровой процесс требует как стратегического планирования на макроуровне, так и тактической адаптации и выполнения действий на микроуровне. Существующие среды на основе RTS-игр либо обладают относительно высокими вычислительными требованиями, либо не поддерживают текстовые наблюдения, что ограничивало их использование для оценки LLM. Мотивированные этим, мы представляем TowerMind — новую среду, основанную на поджанре RTS "защита башни" (tower defense, TD). TowerMind сохраняет ключевые преимущества RTS-игр для оценки LLM, отличаясь при этом низкими вычислительными требованиями и многомодальным пространством наблюдений, включая пиксельные, текстовые и структурированные представления игрового состояния. Кроме того, TowerMind поддерживает оценку галлюцинаций модели и предоставляет высокую степень настраиваемости. Мы разработали пять тестовых уровней для оценки нескольких широко используемых LLM в условиях различного многомодального ввода. Результаты выявляют четкий разрыв в производительности между LLM и человеком-экспертом как по способностям, так и по склонности к галлюцинациям. Эксперименты также подчеркивают ключевые ограничения в поведении LLM, такие как недостаточная проверка планов, отсутствие мультифинальности в принятии решений и неэффективное использование действий. Мы также оценили два классических алгоритма обучения с подкреплением: Ape-X DQN и PPO. Благодаря облегченному и многомодальному дизайну, TowerMind дополняет существующий ландшафт сред на основе RTS и представляет новый эталон для области ИИ-агентов. Исходный код общедоступен на GitHub (https://github.com/tb6147877/TowerMind).
Оценка качества лицевых изображений (FIQA) играет ключевую роль в обеспечении надежности систем распознавания лиц. Современные подходы в основном используют только представления из конечных слоев, в то время как методы, не требующие обучения, нуждаются в множественных прямых проходах или обратном распространении ошибки. Мы предлагаем ViTNT-FIQA — метод без обучения, который измеряет стабильность эволюции эмбеддингов патчей в промежуточных блоках Vision Transformer (ViT). Мы показываем, что изображения лиц высокого качества демонстрируют стабильные траектории уточнения признаков между блоками, тогда как деградированные изображения проявляют хаотичные преобразования. Наш метод вычисляет евклидовы расстояния между L2-нормированными эмбеддингами патчей из последовательных блоков трансформера и агрегирует их в оценки качества на уровне изображения. Мы эмпирически подтверждаем эту корреляцию на синтетическом наборе данных с контролируемыми уровнями деградации и метками качества. В отличие от существующих методов, не требующих обучения, ViTNT-FIQA требует всего одного прямого прохода без обратного распространения или модификаций архитектуры. В результате всесторонней оценки на восьми бенчмарках (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C) мы демонстрируем, что ViTNT-FIQA достигает конкурентоспособной производительности с современными методами, сохраняя при этом вычислительную эффективность и возможность немедленного применения к любой предварительно обученной ViT-модели для распознавания лиц.
Мы предлагаем фреймворк, который снижает затраты на логические операции во время вывода, преобразуя эпизодические критические замечания в извлекаемые рекомендации с помощью файловой системы памяти и инструментальных вызовов, управляемых агентом. Мы оцениваем этот метод на Rubric Feedback Bench — новом наборе данных для обучения на основе рубрик. Эксперименты показывают, что наши расширенные большие языковые модели быстро достигают производительности конвейеров тестовой оптимизации при значительном снижении вычислительных затрат на вывод.
Многомодальное автодополнение в реальном времени является ключевой функцией для цифровых ассистентов, чат-ботов, инструментов дизайна и медицинских консультаций, где пользовательский ввод опирается на общий визуальный контекст. Мы представляем задачу многомодального автодополнения (MAC), которая предсказывает последующие символы в живых чатах, используя частично введенный текст и визуальные подсказки. В отличие от традиционного текстового автодополнения (TAC), MAC основывает предсказания на многомодальном контексте для более точного учета намерений пользователя. Для реализации этой задачи мы адаптировали MMDialog и ImageChat для создания эталонных наборов данных. Мы оцениваем ведущие визуально-языковые модели (VLM) в сравнении с сильными текстовыми базовыми моделями, выявляя компромиссы между точностью и эффективностью. Предлагается Router-Suggest — роутер-фреймворк, который динамически выбирает между текстовыми моделями и VLM на основе контекста диалога, а также его облегченная версия для сред с ограниченными ресурсами. Router-Suggest обеспечивает ускорение от 2,3 до 10 раз по сравнению с наиболее производительной VLM. Пользовательское исследование показывает, что VLM значительно превосходят текстовые модели по удовлетворенности пользователей, особенно в сокращении усилий на ввод и улучшении качества дополнений в многотурновых беседах. Эти результаты подчеркивают необходимость учета многомодального контекста в автодополнении для создания более интеллектуальных и ориентированных на пользователя ассистентов.
В Африке сосредоточено более трети языков мира, однако она остается недостаточно представленной в исследованиях искусственного интеллекта. Мы представляем Afri-MCQA — первый многокультурный бенчмарк вопросов и ответов, охватывающий 7,5 тысяч пар вопросов и ответов на 15 африканских языках из 12 стран. Бенчмарк предоставляет параллельные пары вопросов и ответов на английском и африканских языках в текстовой и речевой модальностях, полностью созданные носителями языков. Тестирование больших языковых моделей (БЯМ) на Afri-MCQA показывает, что модели с открытыми весами демонстрируют низкие результаты across оцененным культурам, с почти нулевой точностью при открытых вопросах с визуальным контекстом (VQA) при запросах на родном языке или через речь. Для оценки языковой компетенции мы включили контрольные эксперименты, призванные оценить именно этот аспект отдельно от культурных знаний, и наблюдаем значительный разрыв в производительности между родными языками и английским как для текста, так и для речи. Эти результаты подчеркивают необходимость речеориентированных подходов, предобучения с учетом культурных особенностей и межъязыкового культурного переноса. Для поддержки более инклюзивной разработки многомодального ИИ для африканских языков мы публикуем наш Afri-MCQA по академической лицензии или CC BY-NC 4.0 на HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
Кондиционирование персонажа можно рассматривать как поведенческий априор для больших языковых моделей (LLM), и часто предполагается, что оно монотонно повышает экспертизу и безопасность. Однако его влияние на принятие клинических решений в условиях высоких рисков остается малоизученным. Мы систематически оцениваем управление на основе персон в клинических LLM, исследуя, как профессиональные роли (например, врач приемного отделения, медсестра) и стили взаимодействия (уверенный vs. осторожный) влияют на поведение моделей при выполнении различных медицинских задач. Мы оцениваем производительность на задачах клинического триажа и безопасности пациентов с помощью многомерных оценок, учитывающих точность, калибровку и риск-ориентированное поведение. Мы выявляем систематические, контекстно-зависимые и немонотонные эффекты: медицинские персоны улучшают производительность в задачах критической помощи, обеспечивая прирост точности и калибровки до ∼+20%, но ухудшают результаты в условиях первичной медико-санитарной помощи на сопоставимые величины. Стиль взаимодействия модулирует склонность к риску и чувствительность, но сильно зависит от модели. Хотя агрегированные рейтинги LLM-судей в safety-критичных случаях отдают предпочтение медицинским персонам перед немедицинскими, мы обнаружили, что врачи-люди демонстрируют умеренное согласие по соблюдению норм безопасности (средний κ Коэна = 0,43), но указывают на низкую уверенность в 95,9% своих ответов относительно качества рассуждений. Наша работа показывает, что персоны функционируют как поведенческие априоры, создающие контекстно-зависимые компромиссы, а не гарантии безопасности или экспертизы. Код доступен по адресу https://github.com/rsinghlab/Persona\_Paradox.