Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Bielik v3 — серию параметрически эффективных генеративных текстовых моделей (1,5 млрд и 4,5 млрд параметров), оптимизированных для обработки польского языка. Эти модели демонстрируют, что меньшие, но хорошо оптимизированные архитектуры могут достигать производительности, сопоставимой с гораздо более крупными аналогами, при этом требуя значительно меньше вычислительных ресурсов. Наш подход включает несколько ключевых инноваций: специализированный токенизатор для польского языка (APT4), который значительно повышает эффективность токенизации, взвешенную функцию потерь на основе кросс-энтропии для инструкций (Weighted Instruction Cross-Entropy Loss), чтобы сбалансировать обучение для различных типов инструкций, и адаптивную скорость обучения (Adaptive Learning Rate), которая динамически корректируется в зависимости от прогресса обучения. Обучаясь на тщательно отобранном корпусе из 292 миллиардов токенов, охватывающем 303 миллиона документов, эти модели демонстрируют выдающиеся результаты на множестве тестов, включая Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench и Polish Medical Leaderboard. Модель с 4,5 млрд параметров достигает результатов, конкурентоспособных с моделями в 2–3 раза большего размера, а модель с 1,5 млрд параметров показывает высокую производительность, несмотря на крайне компактный профиль. Эти достижения устанавливают новые стандарты для параметрически эффективного моделирования языка в менее представленных языках, делая высококачественный ИИ для польского языка более доступным для приложений с ограниченными ресурсами.
Представляем Bielik 11B v2 — современную языковую модель, оптимизированную для обработки польского текста. Построенная на архитектуре Mistral 7B v0.2 и масштабированная до 11 миллиардов параметров с использованием глубинного масштабирования, эта модель демонстрирует выдающуюся производительность на польских языковых тестах, сохраняя при этом сильные кросс-лингвистические способности. Мы внедрили два ключевых технических новшества: взвешенную функцию потерь на основе кросс-энтропии инструкций, которая оптимизирует обучение для различных типов инструкций, присваивая веса обучающим примерам на основе их качества, и адаптивную скорость обучения, которая динамически корректируется в зависимости от длины контекста. Всесторонняя оценка на множестве тестов показывает, что Bielik 11B v2 превосходит многие более крупные модели, включая те, которые имеют в 2–6 раз больше параметров, и значительно опережает другие специализированные модели для польского языка в задачах, начиная от лингвистического понимания до сложных рассуждений. Эффективность использования параметров модели и обширные возможности квантования позволяют развертывать её на различных аппаратных конфигурациях, что способствует развитию возможностей ИИ для польского языка и устанавливает новые стандарты для ресурсоэффективного языкового моделирования в менее представленных языках.
Универсальный робот должен эффективно выполнять задачи в различных средах. Однако большинство существующих подходов в значительной степени полагаются на масштабирование данных с аннотированными действиями для улучшения своих возможностей. В результате они часто ограничены одной физической спецификацией и испытывают трудности с изучением переносимых знаний между различными воплощениями и средами. Чтобы преодолеть эти ограничения, мы предлагаем UniVLA — новый фреймворк для обучения кросс-воплощенческим политикам, объединяющим зрение, язык и действия (VLA). Наше ключевое нововведение заключается в извлечении ориентированных на задачу представлений действий из видео с помощью модели латентных действий. Это позволяет нам использовать обширные данные из широкого спектра воплощений и перспектив. Чтобы минимизировать влияние динамики, не связанной с задачей, мы интегрируем языковые инструкции и создаем модель латентных действий в пространстве признаков DINO. Универсальная политика, обученная на видео интернет-масштаба, может быть развернута на различных роботах через эффективное декодирование латентных действий. Мы достигаем передовых результатов на множестве тестов по манипуляции и навигации, а также в реальных развертываниях на роботах. UniVLA демонстрирует превосходную производительность по сравнению с OpenVLA, используя менее 1/20 вычислительных ресурсов для предварительного обучения и 1/10 данных для дообучения. Постоянное улучшение производительности наблюдается при включении в процесс обучения разнородных данных, включая даже видео с участием людей. Результаты подчеркивают потенциал UniVLA для обеспечения масштабируемого и эффективного обучения политик роботов.
Оценка эффективности дизайна пользовательского интерфейса (UI) выходит за рамки эстетики и включает влияние на поведение пользователей, что является ключевым принципом концепции Убедительного Дизайна. A/B-тестирование остается основным методом для определения вариантов UI, которые повышают вовлеченность пользователей, однако этот подход требует значительных затрат времени и ресурсов. Хотя современные Vision-Language Models (VLMs) способны автоматически анализировать UI, существующие подходы сосредоточены на изолированных атрибутах дизайна, а не на сравнительной убедительности — ключевом факторе оптимизации взаимодействия с пользователем. Для решения этой проблемы мы представляем WiserUI-Bench, эталонный набор данных для задачи Сравнительной Оценки Убедительности Дизайна UI, включающий 300 пар изображений реальных интерфейсов с результатами A/B-тестов и экспертными обоснованиями. Кроме того, мы предлагаем G-FOCUS, новую стратегию логического вывода, которая улучшает оценку убедительности на основе VLMs, снижая позиционное смещение и повышая точность оценки. Экспериментальные результаты показывают, что G-FOCUS превосходит существующие стратегии вывода по согласованности и точности в сравнительной оценке UI. Наша работа способствует развитию VLM-ориентированной оценки убедительности UI, предлагая подход, дополняющий A/B-тестирование, и стимулирует прогресс в масштабируемом моделировании предпочтений пользователей и оптимизации дизайна. Код и данные будут опубликованы в открытом доступе.
Последние разработки в области больших языковых моделей (LLM) сместились от масштабирования на этапе предварительного обучения к масштабированию на этапах пост-обучения и тестирования. В рамках этих разработок возникла ключевая унифицированная парадигма: обучение на основе вознаграждений, где сигналы вознаграждения выступают в качестве ориентиров для управления поведением LLM. Эта парадигма лежит в основе широкого спектра популярных методов, таких как обучение с подкреплением (в RLHF, DPO и GRPO), декодирование с учетом вознаграждения и пост-обработка. Важно отметить, что эта парадигма позволяет перейти от пассивного обучения на статических данных к активному обучению на основе динамической обратной связи. Это наделяет LLM согласованными предпочтениями и глубокими способностями к рассуждению. В данном обзоре мы представляем всесторонний обзор парадигмы обучения на основе вознаграждений. Мы классифицируем и анализируем стратегии в рамках этой парадигмы на этапах обучения, вывода и пост-вывода. Далее мы обсуждаем бенчмарки для моделей вознаграждения и основные приложения. Наконец, мы выделяем вызовы и будущие направления. Мы поддерживаем коллекцию статей по адресу https://github.com/bobxwu/learning-from-rewards-llm-papers.
По мере того как крупные языковые модели (LLM) становятся широко доступными, детальное понимание их знаний в конкретных областях становится необходимым для успешного применения в реальном мире. Это особенно важно в сфере общественного здравоохранения, где невозможность извлечения актуальной, точной и современной информации может существенно повлиять на жителей Великобритании. Однако в настоящее время мало что известно о знаниях LLM в отношении информации о государственном здравоохранении Великобритании. Для решения этой проблемы в данной статье представлен новый эталонный тест PubHealthBench, содержащий более 8000 вопросов для оценки способности LLM отвечать на вопросы с множественным выбором (MCQA) и давать свободные ответы на запросы, связанные с общественным здравоохранением, созданный с использованием автоматизированного процесса. Мы также публикуем новый набор данных, включающий извлеченные документы руководств по общественному здравоохранению правительства Великобритании, которые использовались в качестве исходного текста для PubHealthBench. Оценивая 24 LLM на основе PubHealthBench, мы обнаружили, что последние частные LLM (GPT-4.5, GPT-4.1 и o1) обладают высоким уровнем знаний, достигая более 90% в тесте MCQA, и превосходят людей, использующих поверхностный поиск в интернете. Однако в тесте с свободными ответами наблюдаются более низкие результаты, причем ни одна модель не набрала более 75%. Таким образом, хотя есть обнадеживающие признаки того, что современные LLM становятся все более точным источником информации в области общественного здравоохранения, дополнительные меры предосторожности или инструменты могут все еще быть необходимы при предоставлении свободных ответов на темы, связанные с общественным здравоохранением.
Модель GPT-4o от OpenAI, интегрирующая многомодальные входные и выходные данные в рамках авторегрессивной архитектуры, продемонстрировала беспрецедентную производительность в генерации изображений. В данной работе мы исследуем её потенциальное влияние на сообщество, занимающееся восстановлением изображений. Мы представляем первую систематическую оценку GPT-4o в разнообразных задачах восстановления. Наши эксперименты показывают, что, хотя результаты восстановления GPT-4o визуально привлекательны, они часто страдают от недостатка структурной точности на уровне пикселей по сравнению с эталонными изображениями. Типичные проблемы включают изменения пропорций изображений, смещения позиций и количества объектов, а также изменения точки зрения. Для решения этих проблем, используя задачи удаления тумана, устранения дождя и улучшения качества изображений при низкой освещённости в качестве репрезентативных примеров, мы показываем, что выходные данные GPT-4o могут служить мощными визуальными априорными данными, значительно улучшая производительность существующих сетей для удаления тумана. Это предлагает практические рекомендации и базовую структуру для облегчения интеграции GPT-4o в будущие конвейеры восстановления изображений. Мы надеемся, что исследование восстановления изображений с помощью GPT-4o ускорит инновации в более широкой области генерации изображений. Для поддержки дальнейших исследований мы опубликуем восстановленные GPT-4o изображения из более чем 10 широко используемых наборов данных для восстановления изображений.
Жесткая регистрация облаков точек является фундаментальной задачей в трехмерном компьютерном зрении. В случае многовидового подхода мы стремимся найти набор 6D поз для выравнивания множества объектов. Методы, основанные на попарной регистрации, полагаются на последующий алгоритм синхронизации, что делает их плохо масштабируемыми с увеличением числа видов. Генеративные подходы преодолевают это ограничение, но основаны на моделях гауссовых смесей и используют алгоритм максимизации ожидания (EM). Следовательно, они не подходят для обработки больших преобразований. Более того, большинство существующих методов не справляются с высокими уровнями деградации. В данной статье мы представляем POLAR (POint cloud LAtent Registration) — метод многовидовой регистрации, способный эффективно работать с большим количеством видов, оставаясь устойчивым к высоким уровням деградации и большим начальным углам. Для достижения этого мы переносим задачу регистрации в латентное пространство предобученного автокодировщика, разрабатываем функцию потерь, учитывающую деградации, и создаем эффективную стратегию многозапусковой оптимизации. Наш предложенный метод значительно превосходит современные подходы на синтетических и реальных данных. POLAR доступен на github.com/pypolar/polar или в виде отдельного пакета, который можно установить с помощью pip install polaregistration.