Ежедневно отобранные исследовательские статьи по ИИ с переводами
Эволюция больших языковых моделей (LLM) в автономные агенты расширила сферу применения ИИ для программирования — от генерации локального кода до решения сложных задач на уровне репозитория с выполнением кода. Однако современные бенчмарки в основном оценивают логику кода в статических контекстах, игнорируя динамические требования полного цикла разработки, характерные для реальных инженерных задач, особенно в бэкенд-разработке, где необходимы тщательная настройка окружения и развертывание сервисов. Для устранения этого пробела мы представляем ABC-Bench — бенчмарк, специально разработанный для оценки агентного бэкенд-программирования в рамках реалистичного исполняемого рабочего процесса. С помощью масштабируемого автоматизированного пайплайна мы отобрали 224 практические задачи, охватывающие 8 языков программирования и 19 фреймворков из открытых репозиториев. В отличие от предыдущих оценок, ABC-Bench требует от агентов управления всем жизненным циклом разработки — от изучения репозитория до запуска контейнеризированных сервисов и прохождения внешних сквозных API-тестов. Наши расширенные испытания показывают, что даже передовые модели демонстрируют низкую надежность при выполнении таких комплексных задач, что указывает на значительный разрыв между текущими возможностями моделей и требованиями практической бэкенд-разработки. Наш код доступен по адресу https://github.com/OpenMOSS/ABC-Bench.
Крупные языковые модели часто эффективнее решают сложные задачи рассуждений с помощью метода "цепочки мыслей" (CoT), однако ценой длинных низкопропускных последовательностей токенов. В отличие от этого, люди часто рассуждают "мягко", поддерживая распределение вероятностей над правдоподобными следующими шагами. Мотивируясь этим, мы предлагаем метод "мультиплексного мышления" — стохастический механизм мягкого рассуждения, который на каждом шаге мышления выбирает K кандидатных токенов и агрегирует их эмбеддинги в единый непрерывный мультиплексный токен. Это сохраняет априорное распределение эмбеддингов словаря и динамику выборки стандартной дискретной генерации, одновременно создавая управляемое распределение вероятностей над мультиплексными сценариями. Как следствие, мультиплексные траектории можно напрямую оптимизировать с помощью обучения с подкреплением (RL) на основе стратегии. Важно, что мультиплексное мышление самоадаптивно: когда модель уверена, мультиплексный токен почти дискретен и ведет себя как стандартный CoT; когда она не уверена, он компактно представляет несколько правдоподобных следующих шагов без увеличения длины последовательности. На сложных benchmarks математических рассуждений мультиплексное мышление стабильно превосходит сильные базовые методы дискретного CoT и RL от Pass@1 до Pass@1024, при этом генерируя более короткие последовательности. Код и контрольные точки доступны по адресу https://github.com/GMLR-Penn/Multiplex-Thinking.
Фундаментальные модели сегментации с поддержкой промптов, такие как SAM3, продемонстрировали высокие способности к обобщению благодаря интерактивным и концептуальным промптам. Однако их прямое применение для сегментации медицинских изображений остается ограниченным из-за значительного доменного сдвига, отсутствия привилегированных пространственных подсказок и необходимости анализа сложных анатомических и объемных структур. В данной работе мы представляем Medical SAM3 — фундаментальную модель для универсальной сегментации медицинских изображений на основе промптов, полученную путем полного дообучения SAM3 на крупномасштабных гетерогенных наборах данных 2D и 3D медицинской визуализации с парными масками сегментации и текстовыми промптами. В результате системного анализа базовой версии SAM3 мы наблюдаем, что ее производительность существенно снижается на медицинских данных, а кажущаяся конкурентоспособность в значительной степени зависит от строгих геометрических априорных предположений, таких как ограничивающие рамки, полученные из эталонных данных. Эти выводы обосновывают необходимость полной адаптации модели, выходящей за рамки лишь инженерии промптов. Путем дообучения параметров модели SAM3 на 33 наборах данных, охватывающих 10 модальностей медицинской визуализации, Medical SAM3 приобретает устойчивые доменно-специфичные представления, сохраняя гибкость работы по промптам. Многочисленные эксперименты на различных органах, модальностях визуализации и размерностях демонстрируют последовательное и значительное улучшение производительности, особенно в сложных сценариях, характеризующихся семантической неоднозначностью, сложной морфологией и учетом протяженного 3D-контекста. Наши результаты устанавливают Medical SAM3 в качестве универсальной, управляемой текстом фундаментальной модели сегментации для медицинской визуализации и подчеркивают важность целостной адаптации модели для достижения надежной сегментации по промптам в условиях значительного доменного сдвига. Код и модель будут доступны по адресу https://github.com/AIM-Research-Lab/Medical-SAM3.
Точная оценка уверенности модели крайне важна для развертывания больших языковых моделей (LLM) в ответственных фактологических областях. Хотя повсеместно используется генерация с усилением выборкой (RAG) для повышения обоснованности ответов, калибровка уверенности в условиях RAG остается малоизученной. Мы проводим систематическое исследование на четырех наборах данных, которое показывает, что LLM демонстрируют низкую калибровку из-за зашумленных извлеченных контекстов. В частности, противоречивые или нерелевантные свидетельства склонны завышать ложную уверенность модели, приводя к сильной переуверенности. Для решения этой проблемы мы предлагаем *Правила NAACL* (Noise-AwAre Confidence CaLibration Rules), чтобы заложить принципиальную основу для устранения переуверенности в условиях шума. Мы также разрабатываем NAACL, шум-осознающий фреймворк калибровки, который синтезирует разметку на основе примерно 2 тысяч примеров из HotpotQA, руководствуясь этими правилами. Выполняя контролируемое тонкое обучение (SFT) на этих данных, NAACL наделяет модели внутренней осведомленностью о шуме без опоры на более сильные модели-учителя. Эмпирические результаты показывают, что NAACL дает значительный прирост, улучшая показатели ECE на 10.9% внутри домена и на 8.0% вне домена. Преодолевая разрыв между шумом при выборке и вербальной калибровкой, NAACL прокладывает путь к созданию как точных, так и эпистемически надежных LLM.
Крупные языковые модели способны воспроизводить различные персоналии, но обычно действуют в рамках идентичности полезного Ассистента, сформированной в процессе пост-обучения. Мы исследуем структуру пространства персоналий моделей путем извлечения направлений активации, соответствующих разнообразным архетипам персонажей. В нескольких различных моделях мы обнаружили, что ведущим компонентом этого пространства является «Ось Ассистента», которая отражает степень, в которой модель функционирует в своем стандартном режиме Ассистента. Сдвиг в сторону направления Ассистента усиливает полезное и безопасное поведение; сдвиг в противоположную сторону увеличивает склонность модели идентифицировать себя с другими сущностями. Более того, сильный сдвиг в противоположном направлении часто порождает мистический, театральный стиль речи. Мы обнаружили, что эта ось присутствует и в предобученных моделях, где она в основном активирует полезные человеческие архетипы (консультанты, коучи) и подавляет духовные. Измерение отклонений вдоль Оси Ассистента позволяет прогнозировать «дрейф персоналии» — феномен, при котором модели соскальзывают к демонстрации вредного или странного поведения, нетипичного для их обычной персоналии. Мы выяснили, что дрейф персоналии часто обусловлен диалогами, требующими мета-рефлексии о процессах модели или содержащими эмоционально уязвимых пользователей. Мы демонстрируем, что ограничение активаций фиксированной областью вдоль Оси Ассистента позволяет стабилизировать поведение модели в таких сценариях — включая противостояние адверсарным взломам на основе персоналий. Наши результаты свидетельствуют, что пост-обучение направляет модели в определенную область пространства персоналий, но лишь слабо фиксирует их в ней, что обосновывает необходимость разработки стратегий обучения и управления, которые прочнее закрепляют модели в рамках целостной персоналии.
Управление большими языковыми моделями (LLM) с помощью интервенций на уровне активаций стало легковесной альтернативой тонкой настройке для решения задач согласования и персонализации. Недавние работы по двунаправленной оптимизации предпочтений (BiPO) показали, что плотные векторы управления можно обучать непосредственно на данных о предпочтениях по аналогии с методом прямой оптимизации предпочтений (DPO), что позволяет контролировать правдивость, склонность к галлюцинациям и безопасное поведение. Однако плотные векторы управления часто объединяют несколько латентных факторов из-за многозначности нейронов, что ограничивает их эффективность и стабильность в задачах тонкого контроля, таких как культурная адаптация, где необходимо различать тесно связанные ценности и модели поведения (например, среди ближневосточных культур). В данной статье мы предлагаем «Еще одну политику оптимизации» (YaPO) — метод без опорной модели, который обучает разреженные векторы управления в латентном пространстве разреженного автоэнкодера (SAE). Оптимизируя разреженные коды, YaPO создает развязанные, интерпретируемые и эффективные направления управления. Экспериментально мы демонстрируем, что YaPO сходится быстрее, достигает более высокой производительности и обладает улучшенной стабильностью обучения по сравнению с базовыми методами на основе плотных векторов. Помимо культурной адаптации, YaPO обобщается на широкий спектр задач согласования, включая контроль галлюцинаций, стремление к богатству, взлом защит (jailbreak) и стремление к власти. Важно, что YaPO сохраняет общие знания без измеримой деградации на benchmark MMLU. В целом наши результаты показывают, что YaPO предлагает универсальный рецепт для эффективного, стабильного и тонкого согласования LLM с широкими возможностями применения в области управляемости и адаптации к доменам. Связанный код и данные находятся в открытом доступе: https://github.com/MBZUAI-Paris/YaPO.
Метод обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) высокоэффективен для улучшения логических рассуждений больших языковых моделей (LLM), однако недавние данные показывают, что модели, такие как Qwen 2.5, демонстрируют значительный прогресс даже при использовании ложных или некорректных вознаграждений. Мы исследуем этот феномен и выявляем «Парадокс Перплексии»: ложный RLVR запускает расхождение, при котором перплексия токенов ответа снижается, в то время как связность на стороне промта ухудшается, что указывает на то, что модель обходит логические рассуждения в пользу запоминания. С помощью Path Patching, Logit Lens, анализа JSD и нейронных дифференциальных уравнений мы обнаруживаем скрытую схему «Якорь-Адаптер», которая обеспечивает этот обходной путь. Мы локализуем Функциональный Якорь в средних слоях (L18-20), который запускает извлечение запомненных решений, за которым следуют Структурные Адаптеры в последующих слоях (L21+), которые преобразуют представления для обработки сигнала обходного пути. Наконец, мы демонстрируем, что масштабирование определенных ключей MLP в рамках этой схемы позволяет осуществлять двунаправленное причинное управление — искусственное усиление или подавление производительности, обусловленной контаминацией данных. Наши результаты предоставляют механистическое руководство по выявлению и устранению контаминации данных в моделях, дообученных с помощью RLVR. Код доступен по адресу https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
Анимация изображений персонажей приобретает значительную важность в различных областях, что обусловлено спросом на надежный и гибкий рендеринг множества объектов. Хотя существующие методы преуспевают в анимации одного человека, они сталкиваются с трудностями при обработке произвольного количества субъектов, разнообразных типов персонажей и пространственного несовпадения между эталонным изображением и управляющими позами. Мы объясняем эти ограничения чрезмерно жесткой пространственной привязкой, требующей строгого пиксельного соответствия между позой и эталоном, и неспособностью последовательно перепривязывать движение к целевым субъектам. Для решения этих задач мы предлагаем CoDance — новую структуру Unbind-Rebind, которая позволяет анимировать произвольное количество субъектов, их типы и пространственные конфигурации на основе единственной, потенциально невыровненной последовательности поз. В частности, модуль Unbind использует новый кодировщик сдвига поз, чтобы разорвать жесткую пространственную привязку между позой и эталоном за счет введения стохастических возмущений как в сами позы, так и в их латентные признаки, тем самым заставляя модель изучать позиционно-независимое представление движения. Для обеспечения точного управления и ассоциации с субъектами мы затем разрабатываем модуль Rebind, использующий семантические ориентиры из текстовых промптов и пространственные ориентиры из масок субъектов, чтобы направить изученное движение к целевым персонажам. Кроме того, для облегчения всесторонней оценки мы представляем новый многопользовательский бенчмарк CoDanceBench. Многочисленные эксперименты на CoDanceBench и существующих наборах данных показывают, что CoDance достигает состояния передовых методов (SOTA), демонстрируя выдающуюся обобщающую способность для разнообразных субъектов и пространственных компоновок. Код и веса модели будут открыты.
Оценка того, действительно ли мультимодальные большие языковые модели понимают объемные научные работы, остается сложной задачей: метрики, ориентированные только на ответ, и синтетические тесты «Иголка в стоге сена» часто поощряют совпадение ответов, не требуя причинно-следственных, связанных с доказательствами цепочек рассуждений в документе. Мы предлагаем парадигму «Рыба в океане» (FITO), которая требует от моделей построения явных кросс-модальных цепочек доказательств в рамках исходных научных документов. Для реализации FITO мы создали SIN-Data — научный интреливированный корпус, сохраняющий исходное чередование текста и рисунков. На его основе мы построили SIN-Bench с четырьмя прогрессивными задачами: обнаружение доказательств (SIN-Find), проверка гипотез (SIN-Verify), обоснованный вопросно-ответный режим (SIN-QA) и синтез, привязанный к доказательствам (SIN-Summary). Мы также вводим принцип «Нет доказательств — нет балла», оценивая предсказания только при их привязке к проверяемым якорям и диагностируя качество доказательств через соответствие, релевантность и логику. Эксперименты на восьми MLLM показывают, что обоснованность является основным узким местом: Gemini-3-pro демонстрирует наилучший средний общий балл (0.573), в то время как GPT-5 достигает наивысшей точности ответов в SIN-QA (0.767), но показывает худшие результаты по общим баллам, зависящим от доказательств, что выявляет разрыв между правильностью и проверяемой обоснованностью.
PubMed-OCR — это корпус научных статей, ориентированный на задачи оптического распознавания символов (OCR), созданный на основе PDF-документов из репозитория PubMed Central Open Access. Каждое изображение страницы аннотировано с помощью Google Cloud Vision и представлено в компактной JSON-схеме с ограничивающими рамками на уровне слов, строк и абзацев. Корпус охватывает 209,5 тыс. статей (1,5 млн страниц; ~1,3 млрд слов) и поддерживает моделирование с учётом структуры документа, вопросы и ответы с привязкой к координатам, а также оценку OCR-зависимых конвейеров. Мы анализируем характеристики корпуса (например, охват журналов и обнаруженные особенности разметки) и обсуждаем ограничения, включая зависимость от единого движка OCR и эвристического восстановления строк. Мы публикуем данные и схему для содействия последующим исследованиям и приветствуем их расширение.
Для обучения роботов сложным манипуляционным задачам в настоящее время широко применяется дообучение предварительно обученной визуально-языковой-действенной модели (VLA) на специфичных для задачи данных. Однако, поскольку этот подход обновляет существующие представления, он непригоден для длительной эксплуатации в реальном мире, где роботы должны постоянно адаптироваться к новым задачам и средам, сохраняя при этом уже приобретенные знания. Существующие методы непрерывного обучения в робототехнике обычно требуют хранения предыдущих данных (эталонов), испытывают трудности с длинными последовательностями задач или полагаются на идентификаторы задач для развертывания. Чтобы устранить эти ограничения, мы предлагаем CLARE — универсальную, параметрически эффективную структуру для непрерывного обучения VLA без эталонов. CLARE вводит легковесные модульные адаптеры в выбранные прямосвязные слои и автономно расширяет модель только там, где это необходимо при изучении новой задачи, руководствуясь сходством признаков на уровне слоев. При развертывании механизм маршрутизации на основе автоэнкодера динамически активирует наиболее релевантные адаптеры без необходимости в метках задач. В ходе обширных экспериментов на бенчмарке LIBERO мы показываем, что CLARE достигает высокой производительности на новых задачах без катастрофического забывания предыдущих, значительно превосходя даже методы, основанные на эталонах. Код и данные доступны по адресу https://tum-lsy.github.io/clare.