Ежедневно отобранные исследовательские статьи по ИИ с переводами
Производительность крупных языковых моделей (LLMs) в значительной степени определяется контекстной информацией, предоставляемой в процессе вывода. В данном обзоре представлена Контекстная инженерия — формальная дисциплина, выходящая за рамки простого проектирования запросов и охватывающая систематическую оптимизацию информационной нагрузки для LLMs. Мы предлагаем всеобъемлющую таксономию, разбивающую Контекстную инженерию на её базовые компоненты и сложные реализации, интегрирующие их в интеллектуальные системы. Сначала мы рассматриваем базовые компоненты: извлечение и генерация контекста, обработка контекста и управление контекстом. Затем мы исследуем, как эти компоненты архитектурно интегрируются для создания сложных системных реализаций: генерация, усиленная извлечением (RAG), системы памяти и инструментально-интегрированное рассуждение, а также мультиагентные системы. На основе систематического анализа более 1300 научных статей наш обзор не только устанавливает техническую дорожную карту для данной области, но и выявляет критический пробел в исследованиях: существует фундаментальная асимметрия между возможностями моделей. Хотя современные модели, усиленные передовой контекстной инженерией, демонстрируют впечатляющее мастерство в понимании сложных контекстов, они проявляют заметные ограничения в генерации столь же сложных, длинных выходных данных. Устранение этого пробела является ключевым приоритетом для будущих исследований. В конечном итоге, данный обзор предоставляет унифицированную основу как для исследователей, так и для инженеров, продвигающих контекстно-ориентированный искусственный интеллект.
Последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), позволили повысить производительность за счет увеличения количества визуальных токенов, которые часто значительно длиннее текстовых токенов. Однако мы наблюдаем, что в большинстве реальных сценариев не требуется такого большого количества визуальных токенов. Хотя производительность значительно снижается в небольшом подмножестве задач, связанных с оптическим распознаванием символов (OCR), модели по-прежнему точно работают в большинстве других общих задач визуального вопросно-ответного взаимодействия (VQA) при использовании всего 1/4 разрешения. Поэтому мы предлагаем динамически обрабатывать различные образцы с разными разрешениями и представляем новую парадигму сжатия визуальных токенов, а именно VisionThink. Она начинается с уменьшенного изображения и интеллектуально определяет, достаточно ли этого для решения задачи. В противном случае модель может выдать специальный токен для запроса изображения с более высоким разрешением. В отличие от существующих методов Efficient VLM, которые сжимают токены с использованием фиксированных коэффициентов обрезки или пороговых значений, VisionThink автономно решает, сжимать ли токены в каждом конкретном случае. В результате она демонстрирует мощные возможности детального визуального понимания в задачах, связанных с OCR, и одновременно экономит значительное количество визуальных токенов в более простых задачах. Мы применяем обучение с подкреплением (RL) и предлагаем стратегию LLM-as-Judge для успешного применения RL к общим задачам VQA. Кроме того, мы тщательно разрабатываем функцию вознаграждения и механизм штрафов для достижения стабильного и разумного соотношения вызовов изменения размера изображения. Многочисленные эксперименты демонстрируют превосходство, эффективность и результативность нашего метода. Наш код доступен по адресу https://github.com/dvlab-research/VisionThink.
Мы представляем pi^3 — прямую нейронную сеть, которая предлагает новый подход к реконструкции визуальной геометрии, устраняя зависимость от традиционного фиксированного опорного вида. Предыдущие методы часто привязывают свои реконструкции к заданной точке обзора, что является индуктивным смещением, способным приводить к нестабильности и ошибкам, если опорный вид неоптимален. В отличие от них, pi^3 использует полностью перестановочно-эквивариантную архитектуру для предсказания аффинно-инвариантных позиций камер и масштабно-инвариантных локальных карт точек без каких-либо опорных систем. Такая конструкция делает нашу модель изначально устойчивой к порядку входных данных и высоко масштабируемой. Эти преимущества позволяют нашему простому и свободному от смещений подходу достигать передовых результатов в широком спектре задач, включая оценку позиций камер, монохромную/видео оценку глубины и реконструкцию плотных карт точек. Код и модели доступны публично.
Обобщение по длине, способность решать задачи с более длинными последовательностями, чем те, что наблюдались в процессе обучения, представляет собой ключевую проблему для крупных языковых моделей (LLM), основанных на архитектуре Transformer. Хотя существующие исследования в основном сосредоточены на подходах, основанных на данных, для арифметических операций и задач символьной манипуляции, такие подходы, как правило, являются узкоспециализированными и демонстрируют ограниченную общую производительность. В поисках более универсального решения данная работа рассматривает более широкий класс вычислимых задач, то есть задач, которые могут быть решены алгоритмами и, следовательно, машиной Тьюринга. С этой точки зрения в статье предлагается метод обучения с имитацией машины Тьюринга (Turing MAchine Imitation Learning, TAIL) для улучшения способности LLM к обобщению по длине. TAIL синтезирует данные, имитирующие процесс выполнения машины Тьюринга с помощью компьютерных программ, линейно расширяя шаги рассуждения до атомарных состояний, чтобы уменьшить эффект "обучения на коротких путях", и использует механизм явного извлечения данных для снижения сложности динамического и дальнодействующего доступа к данным в элементарных операциях. Для проверки надежности и универсальности TAIL был создан сложный синтетический набор данных, охватывающий 8 классов алгоритмов и 18 задач. Без дополнительных усложнений TAIL значительно улучшает способность к обобщению по длине, а также производительность модели Qwen2.5-7B на различных задачах, используя только синтетические данные, превосходя предыдущие методы и DeepSeek-R1. Результаты экспериментов показывают, что ключевые концепции машины Тьюринга, а не стили мышления, являются необходимыми для TAIL для обобщения по длине, благодаря чему модель демонстрирует поведение чтения и записи, согласующееся со свойствами машины Тьюринга в своих слоях внимания. Данная работа открывает перспективное направление для будущих исследований в области обучения рассуждению LLM на основе синтетических данных.
Управляемое создание подписей имеет ключевое значение для точного мультимодального согласования и выполнения инструкций, однако существующие модели часто не обладают детализированным контролем и надежными протоколами оценки. Для устранения этого пробела мы представляем проект AnyCap — комплексное решение, охватывающее модель, набор данных и оценку. Мы представляем AnyCapModel (ACM), легковесную модульную платформу, которая повышает управляемость существующих базовых моделей для создания подписей в любых модальностях без необходимости их переобучения. ACM повторно использует оригинальные подписи базовых моделей, одновременно интегрируя пользовательские инструкции и особенности модальностей для генерации улучшенных подписей. Для решения проблемы недостатка данных в управляемом мультимодальном создании подписей мы создали AnyCapDataset (ACD), охватывающий три модальности, 28 типов пользовательских инструкций и 300 тыс. высококачественных записей. Мы также предлагаем AnyCapEval — новый эталонный тест, который обеспечивает более надежные метрики оценки управляемого создания подписей за счет разделения точности содержания и стилистической достоверности. ACM значительно улучшает качество подписей для разнообразных базовых моделей в рамках AnyCapEval. В частности, ACM-8B повышает показатели содержания GPT-4o на 45% и стилистические показатели на 12%, а также демонстрирует существенные улучшения на широко используемых тестах, таких как MIA-Bench и VidCapBench.
В данной работе рассматривается задача синтеза высококачественных изображений человека с использованием видеозаписей с ограниченного числа ракурсов в качестве входных данных. Предыдущие методы решали проблему недостаточного количества наблюдений с помощью 4D диффузионных моделей, генерирующих видео с новых точек зрения. Однако видео, созданные этими моделями, часто страдают от недостатка пространственно-временной согласованности, что снижает качество синтеза изображений. В данной работе мы предлагаем новый метод скользящего итеративного шумоподавления для улучшения пространственно-временной согласованности 4D диффузионной модели. В частности, мы определяем скрытую сетку, в которой каждый скрытый вектор кодирует изображение, положение камеры и позу человека для определенного ракурса и момента времени, затем попеременно подавляем шум в скрытой сетке вдоль пространственных и временных измерений с использованием скользящего окна и, наконец, декодируем видео для целевых ракурсов из соответствующих очищенных скрытых векторов. Благодаря итеративному скольжению информация эффективно распространяется по скрытой сетке, что позволяет диффузионной модели охватывать широкую область восприятия и, таким образом, улучшать 4D согласованность выходных данных, сохраняя при этом приемлемое потребление памяти GPU. Эксперименты на наборах данных DNA-Rendering и ActorsHQ демонстрируют, что наш метод способен синтезировать высококачественные и согласованные видео с новых ракурсов и значительно превосходит существующие подходы. Интерактивные демонстрации и видео результаты доступны на странице проекта: https://diffuman4d.github.io/.
Создание выразительных лицевых анимаций из статических изображений является сложной задачей. Предыдущие методы, основанные на явных геометрических приоритетах (например, лицевых ориентирах или 3DMM), часто страдают от артефактов при кросс-реэнэктменте и с трудом улавливают тонкие эмоции. Кроме того, существующие подходы не поддерживают анимацию нескольких персонажей, так как управляющие признаки от разных индивидов часто мешают друг другу, усложняя задачу. Для решения этих проблем мы предлагаем FantasyPortrait, основанный на диффузионных трансформерах фреймворк, способный генерировать высококачественные и эмоционально насыщенные анимации как для одиночных, так и для многоперсонажных сценариев. Наш метод включает стратегию обучения с усилением выражений, которая использует неявные представления для захвата динамики лица, не зависящей от идентичности, что улучшает способность модели воспроизводить тонкие эмоции. Для управления несколькими персонажами мы разработали механизм маскированного кросс-внимания, который обеспечивает независимое, но скоординированное генерирование выражений, эффективно предотвращая взаимное влияние признаков. Для продвижения исследований в этой области мы предлагаем набор данных Multi-Expr и ExprBench, специально разработанные наборы данных и бенчмарки для обучения и оценки многоперсонажных портретных анимаций. Многочисленные эксперименты демонстрируют, что FantasyPortrait значительно превосходит современные методы как по количественным метрикам, так и по качественным оценкам, особенно выделяясь в сложных контекстах кросс-реэнэктмента и многоперсонажных сценариев. Наша страница проекта доступна по адресу https://fantasy-amap.github.io/fantasy-portrait/.
Пространственное мышление в трехмерном пространстве является ключевым аспектом человеческого познания и незаменимым для задач, связанных с взаимодействием с окружающей средой, таких как навигация и манипулирование объектами. Однако современные модели, объединяющие зрение и язык (VLMs), часто испытывают трудности с задачами, которые кажутся простыми, например, с предсказанием того, как будет выглядеть сцена после эгоцентрического движения: они воспринимают двумерные изображения, но не имеют внутренней модели трехмерной динамики. В связи с этим мы предлагаем MindJourney — фреймворк для масштабирования на этапе тестирования, который наделяет VLM этой недостающей способностью, связывая ее с управляемой моделью мира, основанной на диффузии видео. VLM итеративно создает краткую траекторию камеры, в то время как модель мира синтезирует соответствующее изображение на каждом шаге. Затем VLM анализирует собранные в ходе интерактивного исследования данные, полученные из нескольких точек зрения. Без какого-либо дообучения наш MindJourney демонстрирует средний прирост производительности более чем на 8% на репрезентативном бенчмарке пространственного мышления SAT, что показывает, что сочетание VLMs с моделями мира для масштабирования на этапе тестирования предлагает простой и универсальный путь к надежному трехмерному мышлению. В то же время наш метод также превосходит VLMs, обученные с использованием обучения с подкреплением на этапе тестирования, что демонстрирует потенциал нашего подхода, использующего модели мира для масштабирования на этапе тестирования.
Мы представляем AbGen — первый бенчмарк, разработанный для оценки способностей крупных языковых моделей (LLM) в проектировании экспериментов с исключением (ablation studies) для научных исследований. AbGen состоит из 1500 примеров, аннотированных экспертами и извлеченных из 807 статей по обработке естественного языка (NLP). В этом бенчмарке LLM ставят задачу генерировать детализированные планы экспериментов с исключением для указанного модуля или процесса на основе предоставленного исследовательского контекста. Наша оценка ведущих LLM, таких как DeepSeek-R1-0528 и o4-mini, выявила значительный разрыв в производительности между этими моделями и экспертами-людьми с точки зрения важности, достоверности и обоснованности предлагаемых планов экспериментов. Кроме того, мы показываем, что существующие автоматизированные методы оценки ненадежны для нашей задачи, так как демонстрируют значительные расхождения по сравнению с оценкой экспертов. Для более глубокого изучения этого вопроса мы разработали AbGen-Eval — мета-бенчмарк, предназначенный для оценки надежности широко используемых автоматизированных систем оценки при измерении производительности LLM в нашей задаче. Мы исследуем различные системы LLM-as-Judge на AbGen-Eval, предоставляя ценные инсайты для будущих исследований в области разработки более эффективных и надежных систем оценки на основе LLM для сложных научных задач.
Разреженные автоэнкодеры (Sparse Autoencoders, SAE) стали мощным инструментом для интерпретации внутренних представлений больших языковых моделей (Large Language Models, LLM), однако они часто не способны улавливать специфические для домена признаки, которые не преобладают в их обучающих корпусах. В данной работе представлен подход, основанный на остаточном обучении, который устраняет эту "слепоту" к признакам без необходимости полного переобучения. Мы предлагаем обучать вторичный SAE специально для моделирования ошибки реконструкции предварительно обученного SAE на текстах, специфичных для домена, что позволяет эффективно захватывать признаки, упущенные основной моделью. Суммируя выходы обеих моделей на этапе вывода, мы демонстрируем значительное улучшение как кросс-энтропии LLM, так и метрик объяснённой дисперсии в нескольких специализированных доменах. Наши эксперименты показывают, что этот метод эффективно интегрирует новые знания о домене в существующие SAE, сохраняя при этом их производительность на общих задачах. Такой подход позволяет исследователям избирательно повышать интерпретируемость SAE для конкретных интересующих доменов, открывая новые возможности для целенаправленной механистической интерпретируемости LLM.
Языковые модели (ЯМ) сложно адаптировать к новым распределениям данных с помощью простого дообучения. Это связано с жесткостью их субсловных токенизаторов, которые обычно остаются неизменными в процессе адаптации. Такая негибкость часто приводит к неэффективной токенизации, вызывая избыточное фрагментирование данных из распределений, не представленных в обучающей выборке, неизвестных языков или систем письма. В данной работе мы разрабатываем байтовые ЯМ с обучаемыми токенизаторами, чтобы сделать токенизацию адаптивной. Наши модели включают подмодуль, который обучается предсказывать границы между последовательностями байтов входных данных, кодируя их в сегменты переменной длины. Существующие методы, не использующие токенизаторы, обучают этот предиктор границ с помощью вспомогательной функции потерь, которая обеспечивает фиксированный уровень сжатия на всем корпусе данных, что вводит новый вид жесткости. Мы предлагаем FLEXITOKENS — упрощенную целевую функцию обучения, которая обеспечивает значительно большую гибкость в процессе адаптации. Оценивая результаты на множестве многоязычных тестов, морфологически разнообразных задачах и различных доменах, мы демонстрируем, что FLEXITOKENS последовательно снижает избыточное фрагментирование токенов и достигает улучшения производительности на задачах до 10% по сравнению с субсловными и другими градиентными токенизаторами. Код и данные для наших экспериментов будут доступны по адресу https://github.com/owos/flexitokens.
Интерполяция видеокадров (Video Frame Interpolation, VFI) направлена на предсказание промежуточного кадра I_n (мы используем n для обозначения времени в видео, чтобы избежать перегрузки обозначений с временным шагом t в диффузионных моделях) на основе двух последовательных соседних кадров I_0 и I_1. Современные подходы применяют диффузионные модели (как основанные на изображениях, так и на видео) для решения этой задачи и демонстрируют высокую производительность. Однако диффузионные модели, основанные на изображениях, не способны извлекать временную информацию и относительно неэффективны по сравнению с методами, не использующими диффузию. Диффузионные модели, основанные на видео, могут извлекать временную информацию, но они слишком громоздки с точки зрения масштаба обучения, размера модели и времени вывода. Чтобы смягчить эти проблемы, мы предлагаем Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI) — эффективную диффузионную модель, основанную на видео. Благодаря извлечению богатой временной информации из видеовходов с помощью предложенных нами 3D-вейвлетного гейтинга и временно-ориентированного автокодера, наш метод достигает улучшения на 20% по метрике FID на наиболее сложных наборах данных по сравнению с современными SOTA-моделями, основанными на изображениях. При этом, благодаря наличию богатой временной информации, наш метод демонстрирует высокую производительность, имея в 3 раза меньше параметров. Такое сокращение параметров приводит к ускорению в 2,3 раза. Благодаря включению оптического потока в качестве ориентира, наш метод требует в 9000 раз меньше данных для обучения и имеет более чем в 20 раз меньше параметров по сравнению с диффузионными моделями, основанными на видео. Код и результаты доступны на странице проекта: https://zonglinl.github.io/tlbvfi_page.
Представляем Voxtral Mini и Voxtral Small — две мультимодальные модели для аудиочата. Voxtral обучена понимать как устную речь, так и текстовые документы, демонстрируя передовые результаты на различных аудиобенчмарках, сохраняя при этом высокие способности в работе с текстом. Voxtral Small превосходит ряд проприетарных моделей, оставаясь достаточно компактной для локального запуска. Контекстное окно размером 32K позволяет модели обрабатывать аудиофайлы длительностью до 40 минут и поддерживать длительные многоходовые диалоги. Мы также представляем три бенчмарка для оценки моделей понимания речи на знание и эрудицию. Обе модели Voxtral выпущены под лицензией Apache 2.0.
Недавние достижения в области мультимодальных больших языковых моделей (MLLMs) открыли мощные возможности для кросс-модального рассуждения, но также вызвали новые проблемы безопасности, особенно при столкновении с враждебными мультимодальными входными данными. Для повышения безопасности MLLM во время вывода мы представляем модульную и адаптивную технологию вмешательства на этапе вывода, AutoSteer, не требующую тонкой настройки базовой модели. AutoSteer включает три ключевых компонента: (1) новый показатель осведомленности о безопасности (Safety Awareness Score, SAS), который автоматически идентифицирует наиболее значимые для безопасности различия между внутренними слоями модели; (2) адаптивный зонд безопасности, обученный оценивать вероятность токсичных выходных данных на основе промежуточных представлений; и (3) легковесный модуль Refusal Head, который избирательно вмешивается для регулирования генерации при обнаружении рисков безопасности. Эксперименты на моделях LLaVA-OV и Chameleon на различных критически важных для безопасности тестах демонстрируют, что AutoSteer значительно снижает уровень успешности атак (Attack Success Rate, ASR) для текстовых, визуальных и кросс-модальных угроз, сохраняя при этом общие способности модели. Эти результаты позиционируют AutoSteer как практичный, интерпретируемый и эффективный фреймворк для более безопасного развертывания мультимодальных систем искусственного интеллекта.
Мы представляем Einstein Fields — нейронное представление, разработанное для сжатия вычислительно интенсивных четырехмерных численных релятивистских симуляций в компактные веса неявных нейронных сетей. Моделируя метрику, которая является ключевым тензорным полем общей теории относительности, Einstein Fields позволяют выводить физические величины с помощью автоматического дифференцирования. Однако, в отличие от традиционных нейронных полей (например, полей знаковых расстояний, занятости или излучения), Einstein Fields представляют собой Нейронные Тензорные Поля, ключевое отличие которых заключается в том, что при кодировании геометрии пространства-времени общей теории относительности в нейронные представления, динамика возникает естественным образом как побочный продукт. Einstein Fields демонстрируют впечатляющий потенциал, включая непрерывное моделирование 4D пространства-времени, независимость от сетки, эффективность хранения, точность производных и простоту использования. Мы решаем эти задачи на нескольких канонических тестовых примерах общей теории относительности и выпускаем библиотеку с открытым исходным кодом на основе JAX, прокладывая путь к более масштабируемым и выразительным подходам в численной релятивистике. Код доступен по адресу https://github.com/AndreiB137/EinFields.