Ежедневно отобранные исследовательские статьи по ИИ с переводами
Распознавание арабских документов (OCR) остается сложной задачей из-за курсивного письма, разнообразия шрифтов, диакритических знаков и ориентации текста справа налево. Хотя современные мультимодальные языковые модели (MLLM) значительно продвинулись в понимании документов для языков с большими ресурсами, их производительность на арабском языке остается ограниченной. В данной работе мы представляем Baseer, языково-визуальную модель, специально дообученную для OCR арабских документов. Используя масштабный набор данных, сочетающий синтетические и реальные документы, Baseer обучается с помощью стратегии дообучения только декодера, что позволяет адаптировать предварительно обученную MLLM, сохраняя общие визуальные характеристики. Мы также представляем Misraj-DocOCR, высококачественный, проверенный экспертами эталонный набор данных, предназначенный для строгой оценки систем OCR для арабского языка. Наши эксперименты показывают, что Baseer значительно превосходит существующие открытые и коммерческие решения, достигая WER 0.25 и устанавливая новый эталон в области OCR арабских документов. Наши результаты подчеркивают преимущества адаптации универсальных MLLM для конкретных задач и устанавливают прочную основу для высокоточного OCR на морфологически богатых языках, таких как арабский.
Растущий разрыв между экспоненциальным масштабированием вычислительных ресурсов и ограниченным ростом высококачественных текстовых данных теперь сдерживает традиционные подходы к масштабированию больших языковых моделей (LLM). Для решения этой проблемы мы представляем Reinforcement Learning on Pre-Training data (RLPT) — новую парадигму масштабирования на этапе обучения, направленную на оптимизацию LLM. В отличие от предыдущих подходов, которые масштабируют обучение преимущественно через обучение с учителем, RLPT позволяет политике автономно исследовать значимые траектории для обучения на данных предварительной подготовки и улучшать свои способности с помощью обучения с подкреплением (RL). В то время как существующие стратегии RL, такие как обучение с подкреплением на основе обратной связи от человека (RLHF) и обучение с подкреплением с проверяемыми наградами (RLVR), полагаются на аннотации человека для построения наград, RLPT устраняет эту зависимость, извлекая сигналы наград непосредственно из данных предварительной подготовки. В частности, он использует цель рассуждения о следующем сегменте, вознаграждая политику за точное предсказание последующих текстовых сегментов на основе предшествующего контекста. Такая формулировка позволяет масштабировать RL на данных предварительной подготовки, стимулируя исследование более богатых траекторий в более широких контекстах и тем самым способствуя развитию более обобщаемых навыков рассуждения. Многочисленные эксперименты на бенчмарках общего назначения и математического рассуждения для нескольких моделей подтверждают эффективность RLPT. Например, при применении к Qwen3-4B-Base RLPT обеспечивает абсолютные улучшения на 3.0, 5.1, 8.1, 6.0, 6.6 и 5.3 на MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 и AIME25 соответственно. Результаты также демонстрируют благоприятное поведение масштабирования, указывая на значительный потенциал для дальнейших улучшений при увеличении вычислительных ресурсов. Кроме того, RLPT предоставляет прочную основу, расширяя границы рассуждения LLM и повышая производительность RLVR.
Визуомоторные политики, основанные на обучении с подражанием, широко используются в манипуляционных задачах роботов, где для точного управления обычно применяются как визуальные наблюдения, так и проприоцептивные состояния. Однако в данном исследовании мы обнаруживаем, что такая распространённая практика делает политику чрезмерно зависимой от входных данных проприоцептивного состояния, что приводит к переобучению на тренировочных траекториях и ухудшает пространственную обобщаемость. В противовес этому мы предлагаем политику без состояния (State-free Policy), которая исключает входные данные проприоцептивного состояния и предсказывает действия, основываясь только на визуальных наблюдениях. Эта политика строится в пространстве относительных действий конечного эффектора и должна обеспечивать полный охват визуальных наблюдений, релевантных задаче, что в данном случае достигается за счёт использования двух широкоугольных камер на запястье. Экспериментальные результаты демонстрируют, что политика без состояния достигает значительно более сильной пространственной обобщаемости по сравнению с политикой, использующей состояние: в реальных задачах, таких как захват и перемещение объектов, сложное складывание одежды и комплексные манипуляции с использованием всего тела, охватывающих различные конфигурации роботов, средний показатель успешности улучшается с 0\% до 85\% в обобщении по высоте и с 6\% до 64\% в горизонтальном обобщении. Кроме того, такая политика также демонстрирует преимущества в эффективности использования данных и адаптации к различным конфигурациям роботов, что повышает её практическую применимость для реального внедрения.
Мультимодальные крупные языковые модели (MLLMs) стремительно развиваются и представляют собой передовой рубеж в области искусственного интеллекта. Однако их эффективность в обучении и выводе стала ключевым ограничением, препятствующим их более широкому распространению и масштабируемости. Для решения этих проблем мы представляем MiniCPM-V 4.5 — модель с 8 миллиардами параметров, разработанную для высокой эффективности и производительности. Мы внедрили три ключевых улучшения в архитектуру модели, стратегию работы с данными и метод обучения: унифицированную архитектуру 3D-Resampler для компактного кодирования изображений и видео, унифицированную парадигму обучения для работы с документами и распознавания текста без сложной обработки данных, а также гибридную стратегию обучения с подкреплением для эффективного выполнения задач как в коротких, так и в длинных режимах рассуждений. Результаты комплексных экспериментов в рамках оценки OpenCompass показывают, что MiniCPM-V 4.5 превосходит широко используемые проприетарные модели, такие как GPT-4o-latest, и значительно более крупные открытые модели, такие как Qwen2.5-VL 72B. Примечательно, что высокая производительность достигается с выдающейся эффективностью. Например, на широко применяемом бенчмарке VideoMME MiniCPM-V 4.5 демонстрирует наилучшие результаты среди моделей с размером менее 30 миллиардов параметров, используя всего 46,7% затрат памяти на GPU и 8,7% времени вывода по сравнению с Qwen2.5-VL 7B.
Понимание и анализ целых программных репозиториев является ключевой способностью для интеллектуальных инструментов разработки программного обеспечения. Хотя существующие бенчмарки, такие как CoSQA и CodeQA, продвинули эту область, они в основном сосредоточены на небольших, самодостаточных фрагментах кода. Такие подходы не учитывают сложность реальных репозиториев, где эффективное понимание и анализ часто требуют работы с несколькими файлами, понимания архитектуры программного обеспечения и учета долгосрочных зависимостей в коде. В этой статье мы представляем SWE-QA, бенчмарк для ответов на вопросы на уровне репозитория, предназначенный для содействия исследованиям в области автоматизированных систем ответов на вопросы в реалистичных условиях работы с кодом. SWE-QA включает 576 высококачественных пар вопросов и ответов, охватывающих различные категории, такие как понимание намерений, анализ между файлами и многошаговый анализ зависимостей. Для создания SWE-QA мы сначала собрали 77 100 GitHub-иssues из 11 популярных репозиториев. На основе анализа естественных вопросов разработчиков, извлеченных из этих issues, мы разработали двухуровневую таксономию вопросов на уровне репозитория и создали набор начальных вопросов для каждой категории. Для каждой категории мы вручную отбирали и проверяли вопросы, а также собирали соответствующие ответы. В качестве прототипного приложения мы также разработали SWE-QA-Agent, агентскую платформу, в которой агенты на основе крупных языковых моделей (LLM) анализируют и действуют для автоматического поиска ответов. Мы оцениваем шесть современных LLM на SWE-QA с использованием различных стратегий контекстного расширения. Результаты экспериментов подчеркивают потенциал LLM, особенно нашей платформы SWE-QA-Agent, в решении задач ответов на вопросы на уровне репозитория, а также выявляют открытые проблемы и указывают направления для будущих исследований.
Визуально-пространственное мышление (Visual Spatial Reasoning, VSR) является ключевой когнитивной способностью человека и важным требованием для развития воплощённого интеллекта и автономных систем. Несмотря на недавние успехи в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), достижение человеческого уровня VSR остаётся крайне сложной задачей из-за сложности представления и рассуждений в трёхмерном пространстве. В данной статье мы представляем систематическое исследование VSR в VLMs, включающее обзор существующих методологий, охватывающих входные модальности, архитектуры моделей, стратегии обучения и механизмы рассуждений. Кроме того, мы классифицируем пространственный интеллект на три уровня способностей: базовое восприятие, пространственное понимание и пространственное планирование, а также создаём SIBench — эталонный тест пространственного интеллекта, включающий около 20 открытых наборов данных для 23 задач. Эксперименты с современными VLMs выявляют значительный разрыв между восприятием и рассуждением: модели демонстрируют компетентность в базовых задачах восприятия, но стабильно показывают низкие результаты в задачах понимания и планирования, особенно в численной оценке, многовидовом рассуждении, временной динамике и пространственном воображении. Эти результаты подчёркивают существенные вызовы, которые остаются на пути к достижению пространственного интеллекта, одновременно предоставляя как систематическую дорожную карту, так и всеобъемлющий эталон для стимулирования будущих исследований в этой области. Связанные ресурсы данного исследования доступны по адресу https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
Последние достижения в области обучения с подкреплением для базовых моделей, такие как Group Relative Policy Optimization (GRPO), значительно улучшили производительность базовых моделей на задачах логического вывода. В частности, функция преимущества играет ключевую роль в GRPO для ранжирования важности траекторий. Однако существующие исследования сталкиваются с проблемами реверсии преимущества и зеркального отражения преимущества, что затрудняет разумное распределение преимуществ между различными образцами запросов. В данной работе мы предлагаем простую, но эффективную стратегию GRPO — Mixed Advantage Policy Optimization (MAPO). Мы показываем, что траектории проявляются с разной степенью уверенности, и вводим отклонение процента преимущества для образцов с высокоуверенными траекториями. Кроме того, мы динамически перевзвешиваем функцию преимущества для образцов с различной уверенностью траекторий, тем самым адаптивно настраивая функцию преимущества с учетом специфических характеристик каждого образца. Сравнение с современными методами, а также исследования влияния различных вариантов функции преимущества, подтверждают эффективность нашего подхода.
Прямое преобразование 3D-гауссовых сплатов (3DGS) стало высокоэффективным решением для синтеза новых видов. Существующие методы в основном опираются на парадигму предсказания гауссовых распределений, выровненных по пикселям, где каждый 2D-пиксель отображается на 3D-гауссово распределение. Мы переосмысливаем эту широко используемую формулировку и выявляем несколько присущих ей ограничений: она делает реконструированные 3D-модели сильно зависимыми от количества входных видов, приводит к смещенным распределениям плотности и вносит ошибки выравнивания, особенно когда исходные виды содержат окклюзии или низкую текстуру. Для решения этих проблем мы представляем VolSplat — новую парадигму прямого преобразования для многовидовых данных, которая заменяет выравнивание по пикселям на выравнивание по вокселям. Прямое предсказание гауссовых распределений из предсказанной 3D-воксельной сетки устраняет зависимость от ненадежного 2D-сопоставления признаков, обеспечивая устойчивую согласованность между видами. Кроме того, она позволяет адаптивно управлять плотностью гауссовых распределений на основе сложности 3D-сцены, что приводит к более точным гауссовым облакам точек, улучшенной геометрической согласованности и повышению качества рендеринга новых видов. Эксперименты на широко используемых наборах данных, включая RealEstate10K и ScanNet, демонстрируют, что VolSplat достигает наилучших результатов, создавая более правдоподобные и согласованные между видами гауссовы реконструкции. Помимо превосходных результатов, наш подход устанавливает более масштабируемую основу для прямого 3D-реконструирования с более плотными и устойчивыми представлениями, открывая путь для дальнейших исследований в более широких сообществах. Видео, код и обученные модели доступны на странице проекта: https://lhmd.top/volsplat.
Крупные модели рассуждений (LRMs) тратят значительные вычислительные ресурсы на длинные цепочки рассуждений (CoT) во время тестирования, однако то, что *характеризует* эффективный CoT, остается неясным. Хотя предыдущие работы сообщают о преимуществах удлинения CoT и увеличения пересмотра (возвращения к предыдущим шагам) с помощью добавленных *wait*-токенов, недавние исследования показывают, что более короткие рассуждения могут превосходить длинные цепочки. Поэтому мы проводим систематическую оценку на десяти LRM в задачах математического и научного рассуждения. Вопреки нарративу "чем длиннее, тем лучше", мы обнаруживаем, что как наивное удлинение CoT, так и увеличение пересмотра связаны с *снижением* точности. По мере того как CoT разворачивается шаг за шагом, метрики на уровне токенов могут смешивать многословность с качеством процесса. Мы вводим графовое представление CoT для извлечения структуры и идентифицируем единственную статистику — *Долю Неудачных Шагов (FSF)*, долю шагов в заброшенных ветвях, — которая последовательно превосходит длину и коэффициент пересмотра в предсказании правильности результатов для различных моделей. Чтобы исследовать причинно-следственные связи, мы разрабатываем два вмешательства. Во-первых, мы ранжируем кандидатов CoT по каждой метрике во время тестирования, где FSF дает наибольший прирост pass@1; во-вторых, мы редактируем CoT, удаляя неудачные ветви, что значительно повышает точность, указывая на то, что неудачные ветви искажают последующие рассуждения. В совокупности эти результаты характеризуют эффективные CoT как те, которые *ошибаются реже*, и поддерживают *структурно-осознанное* масштабирование во время тестирования вместо бездумного генерации длинных CoT.
Способность создавать виртуальные среды имеет решающее значение для приложений, начиная от игр и заканчивая физическими областями ИИ, такими как робототехника, автономное вождение и промышленный ИИ. Современные методы 3D-реконструкции, основанные на обучении, зависят от наличия захваченных данных реального мира с нескольких ракурсов, которые не всегда доступны. Недавние достижения в области моделей диффузии видео продемонстрировали впечатляющие способности к генерации, однако их двумерная природа ограничивает применение в симуляциях, где роботу необходимо перемещаться и взаимодействовать с окружающей средой. В данной работе мы предлагаем фреймворк самообучения, который направлен на извлечение неявных 3D-знаний из моделей диффузии видео и их преобразование в явное представление 3D Gaussian Splatting (3DGS), устраняя необходимость в данных для обучения с нескольких ракурсов. В частности, мы дополняем стандартный RGB-декодер 3DGS-декодером, который обучается на основе выходных данных RGB-декодера. В этом подходе 3DGS-декодер может быть обучен исключительно на синтетических данных, сгенерированных моделями диффузии видео. На этапе вывода наша модель способна синтезировать 3D-сцены либо из текстового запроса, либо из одного изображения для рендеринга в реальном времени. Наш фреймворк также расширяется до генерации динамических 3D-сцен на основе монохромного входного видео. Экспериментальные результаты показывают, что наш фреймворк достигает наилучших показателей в генерации статических и динамических 3D-сцен.
Унифицированные мультимодальные модели недавно привлекли значительное внимание благодаря их выдающимся способностям в совместном понимании и генерации разнообразного контента. Однако по мере того, как контексты интегрируют всё большее количество переплетённых мультимодальных токенов, итеративные процессы диффузионного шумоподавления и авторегрессивного декодирования накладывают значительные вычислительные затраты. Для решения этой проблемы мы предлагаем Hyper-Bagel — унифицированную фреймворк-ускорение, предназначенную для одновременного ускорения как задач мультимодального понимания, так и генерации. Наш подход использует стратегию «разделяй и властвуй», применяя спекулятивное декодирование для предсказания следующего токена и многоэтапный процесс дистилляции для диффузионного шумоподавления. Фреймворк обеспечивает существенное повышение производительности, достигая более чем двукратного ускорения в задачах мультимодального понимания. Для генеративных задач наша результирующая безпотерянная 6-NFE модель демонстрирует 16,67-кратное ускорение в генерации текста в изображение и 22-кратное ускорение в редактировании изображений, сохраняя при этом высокое качество выходных данных оригинальной модели. Мы также разработали высокоэффективную 1-NFE модель, которая позволяет осуществлять почти интерактивное редактирование и генерацию в реальном времени. Благодаря сочетанию передовой адверсарной дистилляции с обучением на основе обратной связи от пользователей, эта модель достигает максимальной экономической эффективности и отзывчивости, делая сложные мультимодальные взаимодействия плавными и мгновенными.
Использование непрерывных, а не дискретных токенов на этапе рассуждений с цепочкой мыслей (Chain-of-Thought, CoT) в больших языковых моделях (LLM) привлекло внимание в последнее время, основываясь на интуиции, что непрерывная смесь дискретных токенов может моделировать суперпозицию нескольких путей рассуждения одновременно. Теоретические результаты формально доказали, что непрерывные токены обладают значительно большей выразительностью и могут решать определённые задачи более эффективно. Однако практическое использование непрерывных токенов ограничивается серьёзными трудностями в обучении: предыдущие работы либо используют непрерывные токены только на этапе вывода в предварительно обученной модели с дискретными токенами, либо должны дистиллировать непрерывную CoT из эталонных дискретных CoT, сталкиваясь с вычислительными затратами, которые ограничивают CoT очень малым количеством токенов. Это первая работа, представляющая масштабируемый метод обучения непрерывных CoT с использованием обучения с подкреплением (RL), без дистилляции из эталонных дискретных CoT. Мы используем "мягкие" токены: смеси токенов вместе с шумом на входных эмбеддингах для обеспечения исследования в RL. Вычислительные накладные расходы минимальны, что позволяет нам обучать непрерывные CoT с сотнями токенов. На бенчмарках математических рассуждений с моделями Llama и Qwen до 8B, обучение с непрерывными CoT соответствует дискретным токенам CoT по метрике pass@1 и превосходит их по pass@32, демонстрируя большее разнообразие CoT. В систематических сравнениях наилучшие результаты достигаются при обучении с непрерывными токенами CoT и последующем использовании дискретных токенов для вывода, что означает возможность развёртывания "мягких" моделей стандартным способом. Наконец, мы показываем, что обучение непрерывных CoT с RL лучше сохраняет предсказания базовой модели на задачах вне домена, обеспечивая более мягкое воздействие на базовую модель.
Недавно метод 3D Gaussian Splatting (3DGS) появился как мощная альтернатива подходам на основе NeRF, обеспечивая синтез новых видов в реальном времени с высоким качеством за счет использования явных, оптимизируемых 3D гауссов. Однако 3DGS страдает от значительных затрат памяти из-за зависимости от параметров для каждого гаусса, используемых для моделирования зависящих от вида эффектов и анизотропных форм. Хотя в последних работах предлагается сжатие 3DGS с помощью нейронных полей, эти методы плохо справляются с захватом высокочастотных пространственных вариаций свойств гауссов, что приводит к ухудшению восстановления мелких деталей. Мы представляем Hybrid Radiance Fields (HyRF) — новое представление сцены, объединяющее преимущества явных гауссов и нейронных полей. HyRF разлагает сцену на (1) компактный набор явных гауссов, хранящих только ключевые высокочастотные параметры, и (2) сеточные нейронные поля, предсказывающие оставшиеся свойства. Для повышения выразительной способности мы вводим архитектуру разделенных нейронных полей, отдельно моделирующих геометрию (масштаб, прозрачность, вращение) и зависящий от вида цвет. Кроме того, мы предлагаем гибридную схему рендеринга, которая комбинирует гауссово размытие с фоном, предсказанным нейронным полем, устраняя ограничения в представлении удаленных частей сцены. Эксперименты показывают, что HyRF достигает наивысшего качества рендеринга, сокращая размер модели более чем в 20 раз по сравнению с 3DGS, сохраняя при этом производительность в реальном времени. Наша страница проекта доступна по адресу https://wzpscott.github.io/hyrf/.
Диалекты представляют собой значимую составляющую человеческой культуры и встречаются во всех регионах мира. В Германии более 40% населения говорит на региональных диалектах (Adler и Hansen, 2022). Однако, несмотря на культурную важность, люди, говорящие на диалектах, часто сталкиваются с негативными социальными стереотипами. Мы исследуем, отражаются ли такие стереотипы в крупных языковых моделях (LLM). Мы опираемся на социолингвистическую литературу о восприятии диалектов, чтобы проанализировать черты, обычно ассоциируемые с носителями диалектов. На основе этих черт мы оцениваем предвзятость в наименовании диалектов и предвзятость в использовании диалектов, выраженную LLM в двух задачах: задаче на ассоциации и задаче на принятие решений. Для оценки предвзятости в использовании диалектов моделью мы создаем новый оценочный корпус, который сопоставляет предложения из семи региональных немецких диалектов (например, алеманнского и баварского) с их стандартными немецкими аналогами. Мы обнаруживаем, что: (1) в задаче на ассоциации все протестированные LLM демонстрируют значительную предвзятость в наименовании и использовании диалектов против носителей немецких диалектов, что выражается в негативных ассоциациях с прилагательными; (2) все модели воспроизводят эти предубеждения в наименовании и использовании диалектов в своих решениях; и (3) в отличие от предыдущих работ, показывающих минимальную предвзятость при явном упоминании демографических характеристик, мы обнаруживаем, что явное указание на лингвистическую демографию — носителей немецких диалектов — усиливает предвзятость больше, чем неявные сигналы, такие как использование диалектов.
Условное генеративное моделирование направлено на изучение условного распределения данных по выборкам, содержащим пары данных и условий. Для этого методы, основанные на диффузии и потоках, достигли впечатляющих результатов. Эти методы используют обученную (потоковую) модель для преобразования начального стандартного гауссовского шума, игнорирующего условие, в условное распределение данных. Таким образом, модель должна одновременно изучать как перенос массы, так и инъекцию условий. Чтобы снизить требования к модели, мы предлагаем метод Condition-Aware Reparameterization for Flow Matching (CAR-Flow) — легковесный, обученный сдвиг, который учитывает условия для исходного, целевого или обоих распределений. Перемещая эти распределения, CAR-Flow сокращает вероятностный путь, который должна изучить модель, что на практике приводит к ускорению обучения. На низкоразмерных синтетических данных мы визуализируем и количественно оцениваем эффекты CAR. На высокоразмерных данных натуральных изображений (ImageNet-256) оснащение модели SiT-XL/2 методом CAR-Flow снижает FID с 2.07 до 1.68, при этом добавляя менее 0.6% дополнительных параметров.
Недостаток данных остается одним из наиболее ограничивающих факторов для прогресса в робототехнике. Однако объем доступных данных в этой области растет экспоненциально, создавая новые возможности для масштабного использования данных. Надежное прогнозирование временного завершения задач может помочь автоматически аннотировать и систематизировать эти данные в больших масштабах. Недавно был предложен подход Generative Value Learning (GVL), который использует знания, заложенные в моделях "визуальный язык" (VLMs), для прогнозирования прогресса задач на основе визуальных наблюдений. На основе GVL мы предлагаем OpenGVL — всеобъемлющий бенчмарк для оценки прогресса задач в разнообразных сложных манипуляционных задачах, включающих как роботизированные, так и человеческие воплощения. Мы оцениваем возможности общедоступных открытых базовых моделей, показывая, что семейства открытых моделей значительно уступают закрытым аналогам, достигая лишь примерно 70% их производительности в задачах прогнозирования временного прогресса. Кроме того, мы демонстрируем, как OpenGVL может служить практическим инструментом для автоматизированной систематизации и фильтрации данных, обеспечивая эффективную оценку качества крупномасштабных наборов данных в робототехнике. Мы публикуем бенчмарк вместе с полным кодом на github.com/budzianowski/opengvl{OpenGVL}.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) значительно улучшили возможности понимания видео, открывая новые перспективы для практического применения. Однако современные видеобенчмарки в основном сосредоточены на сценах в помещении или краткосрочных активностях на открытом воздухе, оставляя проблемы, связанные с длительными путешествиями, практически неисследованными. Освоение протяженных геопространственно-временных траекторий имеет критическое значение для MLLMs следующего поколения, лежа в основе таких реальных задач, как планирование и навигация для воплощенных ИИ-агентов. Чтобы заполнить этот пробел, мы представляем VIR-Bench — новый бенчмарк, состоящий из 200 видеозаписей путешествий, который формулирует реконструкцию маршрута как сложную задачу, предназначенную для оценки и продвижения геопространственно-временного интеллекта MLLMs. Результаты экспериментов показывают, что современные MLLMs, включая проприетарные модели, с трудом достигают высоких оценок, что подчеркивает сложность обработки видео, охватывающих значительные пространственные и временные масштабы. Кроме того, мы проводим углубленное исследование, в котором разрабатываем прототип агента для планирования путешествий, использующего полученные из VIR-Bench данные. Значительно улучшенные рекомендации маршрутов, предоставляемые агентом, подтверждают, что наш протокол оценки не только эффективно тестирует модели, но и приводит к конкретным улучшениям в пользовательских приложениях.
Реконструкция точных поверхностей с использованием полей излучения достигла значительного прогресса в последние годы. Однако преобладающие подходы, в основном основанные на гауссовом сплайнинге, всё чаще сталкиваются с ограничениями, связанными с репрезентационными узкими местами. В данной работе мы представляем GeoSVR, явную воксельную структуру, которая исследует и расширяет недостаточно изученный потенциал разреженных вокселей для достижения точной, детализированной и полной реконструкции поверхностей. В качестве преимуществ, разреженные воксели способствуют сохранению полноты покрытия и геометрической ясности, хотя при этом возникают и соответствующие сложности, связанные с отсутствием ограничений сцены и локальностью в уточнении поверхностей. Для обеспечения корректной сходимости сцены мы сначала предлагаем ограничение глубины на основе воксельной неопределенности, которое максимизирует эффект монокулярных подсказок глубины, одновременно представляя воксельно-ориентированную неопределенность для предотвращения ухудшения качества, что позволяет эффективно и надежно накладывать ограничения на сцену, сохраняя при этом высокую геометрическую точность. Затем разработана регуляризация поверхности на основе разреженных вокселей, которая улучшает геометрическую согласованность для мелких вокселей и способствует формированию четких и точных поверхностей на основе вокселей. Многочисленные эксперименты демонстрируют превосходство нашего подхода по сравнению с существующими методами в различных сложных сценариях, выделяясь в геометрической точности, сохранении деталей и полноте реконструкции при сохранении высокой эффективности. Код доступен по адресу https://github.com/Fictionarry/GeoSVR.
Системы одновременного перевода речи в текст (SimulST) должны находить баланс между качеством перевода и задержкой — временным промежутком между речевым входом и переведённым выходом. Хотя оценка качества хорошо разработана, точное измерение задержки остаётся сложной задачей. Существующие метрики часто дают противоречивые или вводящие в заблуждение результаты, особенно в широко используемом режиме коротких форм, где речь искусственно предварительно сегментирована. В данной статье мы представляем первый всесторонний анализ метрик задержки SimulST для различных языковых пар, систем и режимов как коротких, так и длинных форм. Мы выявляем структурное смещение в текущих метриках, связанное с сегментацией, которое подрывает справедливые и значимые сравнения. Для решения этой проблемы мы вводим YAAL (Yet Another Average Lagging), усовершенствованную метрику задержки, которая обеспечивает более точные оценки в режиме коротких форм. Мы расширяем YAAL до LongYAAL для несегментированного аудио и предлагаем SoftSegmenter, новый инструмент повторной сегментации, основанный на выравнивании на уровне слов. Наши эксперименты показывают, что YAAL и LongYAAL превосходят популярные метрики задержки, а SoftSegmenter улучшает качество выравнивания при оценке длинных форм, что вместе позволяет проводить более надёжную оценку систем SimulST.
В данной статье представлен CommonForms, крупномасштабный набор данных для обнаружения полей форм. Задача обнаружения полей форм формулируется как задача обнаружения объектов: по изображению страницы необходимо предсказать местоположение и тип (Текстовое поле, Кнопка выбора, Подпись) полей формы. Набор данных создан путем фильтрации Common Crawl для поиска PDF-документов, содержащих заполняемые элементы. Начиная с 8 миллионов документов, процесс фильтрации позволил получить финальный набор данных, состоящий из примерно 55 тысяч документов, содержащих более 450 тысяч страниц. Анализ показывает, что набор данных включает разнообразное сочетание языков и доменов; одна треть страниц не на английском языке, а среди 14 классифицированных доменов ни один не составляет более 25% набора данных. Кроме того, в статье представлено семейство детекторов полей форм, FFDNet-Small и FFDNet-Large, которые достигают очень высокой средней точности на тестовом наборе CommonForms. Обучение каждой модели обошлось менее чем в 500 долларов. Результаты абляционных исследований показывают, что высокое разрешение входных данных критически важно для качественного обнаружения полей форм, а процесс очистки данных повышает их эффективность по сравнению с использованием всех PDF-документов с заполняемыми полями из Common Crawl. Качественный анализ демонстрирует, что эти модели превосходят популярное коммерческое решение для подготовки форм в PDF-ридерах. В отличие от наиболее популярных коммерческих решений, FFDNet способен предсказывать не только текстовые поля и поля для подписи, но и флажки. Насколько нам известно, это первый крупномасштабный набор данных, выпущенный для задачи обнаружения полей форм, а также первые открытые модели. Набор данных, модели и код будут доступны по адресу https://github.com/jbarrow/commonforms.
Мультиспектральные изображения играют ключевую роль в различных приложениях дистанционного зондирования, включая классификацию землепользования, мониторинг окружающей среды и городское планирование. Эти изображения широко используются, поскольку их дополнительные спектральные каналы тесно связаны с физическими материалами на поверхности, такими как лёд, вода и растительность. Это позволяет проводить более точную идентификацию, а их общедоступность благодаря миссиям, таким как Sentinel-2 и Landsat, только увеличивает их ценность. В настоящее время автоматический анализ таких данных в основном осуществляется с помощью моделей машинного обучения, специально обученных для работы с мультиспектральными данными, что требует значительных затрат на обучение и поддержку. Кроме того, хотя такие дополнительные данные предоставляют много возможностей для дистанционного зондирования, их нельзя использовать с мощными универсальными мультимодальными моделями, которые способны решать множество визуальных задач, но не могут интерпретировать специализированные мультиспектральные сигналы. Для решения этой проблемы мы предлагаем подход, не требующий обучения, который вводит новые мультиспектральные данные в режиме исключительно Zero-Shot в качестве входных данных для универсальных мультимодальных моделей, обученных только на RGB-данных. Наш подход использует понимание мультимодальными моделями визуального пространства и предлагает адаптировать входные данные к этому пространству, а также внедрять специализированную информацию в виде инструкций в модель. Мы демонстрируем эту идею на модели Gemini2.5 и наблюдаем значительное улучшение производительности в режиме Zero-Shot на популярных бенчмарках дистанционного зондирования для классификации земного покрова и землепользования, а также показываем лёгкую адаптируемость Gemini2.5 к новым входным данным. Эти результаты подчеркивают потенциал для специалистов в области геопространственных данных, работающих с нестандартными специализированными данными, легко использовать мощные мультимодальные модели, такие как Gemini2.5, для ускорения своей работы, извлекая выгоду из их богатых возможностей рассуждения и контекстуального анализа, основанных на специализированных данных сенсоров.
Политики роботизированного манипулирования часто не справляются с обобщением, поскольку им необходимо одновременно обучаться тому, куда направлять внимание, какие действия выполнять и как их осуществлять. Мы утверждаем, что высокоуровневое рассуждение о том, где и что делать, можно переложить на модели, работающие с визуальными и языковыми данными (VLMs), оставив политикам специализацию на том, как действовать. Мы представляем PEEK (Policy-agnostic Extraction of Essential Keypoints), который дообучает VLMs для предсказания унифицированного промежуточного представления на основе точек: 1. траектории конечного эффектора, указывающие, какие действия выполнять, и 2. маски, релевантные задаче, указывающие, на чем сосредоточиться. Эти аннотации напрямую накладываются на наблюдения робота, делая представление независимым от политики и переносимым между архитектурами. Для обеспечения масштабируемого обучения мы вводим автоматизированный конвейер аннотирования, генерирующий размеченные данные на основе более чем 20 наборов данных для роботов, охватывающих 9 различных реализаций. В реальных оценках PEEK стабильно улучшает обобщение с нулевым обучением, включая 41.4-кратное улучшение в реальном мире для 3D-политики, обученной только в симуляции, и 2-3.5-кратный прирост как для крупных VLAs, так и для небольших политик манипулирования. Позволяя VLMs поглощать семантическую и визуальную сложность, PEEK снабжает политики манипулирования минимальными подсказками, которые им необходимы — где, что и как. Сайт: https://peek-robot.github.io/.
Мы представляем RadEval — унифицированную открытую платформу для оценки радиологических текстов. RadEval объединяет широкий спектр метрик, начиная с классических мер перекрытия n-грамм (BLEU, ROUGE) и контекстных показателей (BERTScore), заканчивая клинически ориентированными оценками (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) и продвинутыми методами на основе крупных языковых моделей (GREEN). Мы улучшаем и стандартизируем реализации, расширяем GREEN для поддержки множества методов визуализации с использованием более легковесной модели и предобучаем специализированный радиологический энкодер, демонстрирующий высокую производительность в задачах нулевого сценария поиска. Также мы публикуем богато аннотированный экспертный набор данных с более чем 450 клинически значимыми метками ошибок и показываем, как различные метрики коррелируют с оценками радиологов. Наконец, RadEval предоставляет инструменты для статистического тестирования и оценки базовых моделей на нескольких общедоступных наборах данных, способствуя воспроизводимости и надежному бенчмаркингу в генерации радиологических отчетов.
Мы представляем DRISHTIKON — первый в своём роде мультимодальный и многоязычный бенчмарк, посвящённый исключительно индийской культуре и предназначенный для оценки культурного понимания генеративных систем искусственного интеллекта. В отличие от существующих бенчмарков с общим или глобальным охватом, DRISHTIKON предлагает глубокое и детализированное покрытие разнообразных регионов Индии, охватывая 15 языков, все штаты и союзные территории, а также включая более 64 000 согласованных пар текст-изображение. Набор данных охватывает богатые культурные темы, включая фестивали, одежду, кухню, виды искусства, историческое наследие и многое другое. Мы оцениваем широкий спектр моделей, работающих с визуальными и текстовыми данными (VLMs), включая открытые малые и крупные модели, проприетарные системы, специализированные модели для рассуждений и модели, ориентированные на индийские языки, в условиях zero-shot и chain-of-thought. Наши результаты выявляют ключевые ограничения современных моделей в способности рассуждать на основе культурно обусловленных мультимодальных данных, особенно для малоресурсных языков и менее документированных традиций. DRISHTIKON заполняет важный пробел в исследованиях инклюзивного ИИ, предлагая надёжную платформу для развития культурно осведомлённых и мультимодально компетентных языковых технологий.