Ежедневно отобранные исследовательские статьи по ИИ с переводами
Подобно студентам, сталкивающимся с трудными экзаменационными вопросами, крупные языковые модели иногда угадывают, когда не уверены, выдавая правдоподобные, но неверные утверждения вместо того, чтобы признать неопределенность. Такие "галлюцинации" сохраняются даже в современных системах и подрывают доверие. Мы утверждаем, что языковые модели галлюцинируют, потому что процедуры обучения и оценки поощряют угадывание, а не признание неопределенности, и анализируем статистические причины галлюцинаций в современном процессе обучения. Галлюцинации не должны быть загадочными — они возникают просто как ошибки в бинарной классификации. Если неверные утверждения нельзя отличить от фактов, то галлюцинации в предобученных языковых моделях будут возникать под естественным статистическим давлением. Мы также утверждаем, что галлюцинации сохраняются из-за того, как оцениваются большинство тестов — языковые модели оптимизируются для успешной сдачи экзаменов, и угадывание в условиях неопределенности улучшает результаты тестов. Эта "эпидемия" наказания за неопределенные ответы может быть устранена только с помощью социотехнического подхода: изменения оценки существующих тестов, которые не соответствуют целям, но доминируют в рейтингах, вместо введения дополнительных оценок галлюцинаций. Такое изменение может направить область в сторону более надежных ИИ-систем.
Авторегрессионные языковые модели, предсказывающие следующий токен, обладают мощными возможностями, но сталкиваются с существенными трудностями при практическом внедрении из-за высоких вычислительных затрат и требований к памяти, особенно на этапе декодирования. Мы представляем Set Block Decoding (SBD) — простую и гибкую парадигму, которая ускоряет генерацию, интегрируя стандартное предсказание следующего токена (NTP) и предсказание маскированных токенов (MATP) в рамках единой архитектуры. SBD позволяет модели параллельно выбирать несколько, не обязательно последовательных, будущих токенов, что является ключевым отличием от предыдущих методов ускорения. Эта гибкость позволяет использовать продвинутые решатели из литературы по дискретной диффузии, обеспечивая значительное ускорение без потери точности. SBD не требует изменений архитектуры или дополнительных гиперпараметров обучения, сохраняет совместимость с точным кэшированием ключей и значений (KV-caching) и может быть реализована путем тонкой настройки существующих моделей предсказания следующего токена. На примере тонкой настройки моделей Llama-3.1 8B и Qwen-3 8B мы демонстрируем, что SBD позволяет сократить количество прямых проходов, необходимых для генерации, в 3–5 раз, сохраняя при этом ту же производительность, что и эквивалентное обучение NTP.
Крупные языковые модели (LLM) преуспевают в синтезе программ, однако их способность создавать символические графические программы (SGP), которые преобразуются в точное визуальное содержание, остается недостаточно изученной. Мы исследуем символическое графическое программирование, где цель заключается в генерации SGP из описания на естественном языке. Эта задача также служит инструментом для понимания того, как LLM воспринимают визуальный мир, путем побуждения их генерировать изображения, созданные из SGP. Среди различных SGP наша работа сосредоточена на масштабируемой векторной графике (SVG). Мы начинаем с изучения того, насколько LLM способны генерировать SGP. Для этого мы представляем SGP-GenBench — комплексный бенчмарк, охватывающий точность объектов, точность сцен и композиционность (связывание атрибутов, пространственные отношения, числовые навыки). На SGP-GenBench мы обнаруживаем, что передовые проприетарные модели значительно превосходят модели с открытым исходным кодом, а производительность хорошо коррелирует с общими способностями к программированию. Вдохновленные этим разрывом, мы стремимся улучшить способность LLM генерировать SGP. Мы предлагаем подход с обучением с подкреплением (RL) и проверяемыми наградами, где ворота проверки формата обеспечивают возможность рендеринга SVG, а кросс-модальная награда согласовывает текст и отрендеренное изображение с помощью мощных визуальных кодировщиков (например, SigLIP для текста и изображения и DINO для изображения и изображения). Примененный к Qwen-2.5-7B, наш метод значительно улучшает качество и семантику генерации SVG, достигая производительности на уровне передовых систем. Мы также анализируем динамику обучения, показывая, что RL способствует (i) более детальному разложению объектов на управляемые примитивы и (ii) контекстуальным деталям, улучшающим согласованность сцены. Наши результаты демонстрируют, что символическое графическое программирование предлагает точный и интерпретируемый взгляд на кросс-модальное заземление.
Оценка освещения сцены по одному изображению или видео остается давней задачей в области компьютерного зрения и графики. Подходы, основанные на обучении, ограничены недостатком эталонных HDR-карт окружения, которые дорого получать и которые обладают ограниченным разнообразием. Хотя современные генеративные модели предлагают сильные априорные данные для синтеза изображений, оценка освещения остается сложной задачей из-за ее зависимости от косвенных визуальных подсказок, необходимости вывода глобального (нелокального) контекста и восстановления результатов с высоким динамическим диапазоном. Мы предлагаем LuxDiT — новый подход, основанный на данных, который дообучает трансформер для диффузии видео для генерации HDR-карт окружения, зависящих от визуального ввода. Обучаясь на большом синтетическом наборе данных с разнообразными условиями освещения, наша модель учится выводить освещение из косвенных визуальных подсказок и эффективно обобщает на реальные сцены. Для улучшения семантического соответствия между входными данными и предсказанной картой окружения мы вводим стратегию дообучения с низкоранговой адаптацией, используя собранный набор данных HDR-панорам. Наш метод обеспечивает точные предсказания освещения с реалистичными угловыми высокочастотными деталями, превосходя существующие передовые методы как в количественных, так и в качественных оценках.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали впечатляющие возможности в различных задачах, связанных с обработкой визуальной и текстовой информации. Однако их способности к рассуждению в мультимодальной области символической музыки остаются в значительной степени неисследованными. Мы представляем WildScore — первый в своем роде бенчмарк для анализа и рассуждений в области символической музыки, основанный на реальных данных, который предназначен для оценки способности MLLMs интерпретировать реальные музыкальные партитуры и отвечать на сложные музыковедческие вопросы. Каждый пример в WildScore взят из подлинных музыкальных произведений и сопровождается аутентичными вопросами и обсуждениями, созданными пользователями, что позволяет уловить тонкости практического анализа музыки. Для обеспечения систематической оценки мы предлагаем систематическую таксономию, включающую как высокоуровневые, так и детализированные музыковедческие онтологии. Кроме того, мы формулируем сложные музыкальные рассуждения в виде задач с множественным выбором, что позволяет проводить контролируемую и масштабируемую оценку понимания MLLMs символической музыки. Эмпирическое тестирование современных MLLMs на WildScore выявило интересные закономерности в их визуально-символическом рассуждении, раскрывая как перспективные направления, так и сохраняющиеся проблемы для MLLMs в области анализа и рассуждений о символической музыке. Мы публикуем набор данных и код.
В последнее время исследования все больше сосредотачиваются на разработке 3D-моделей мира, которые симулируют сложные сценарии реального мира. Модели мира нашли широкое применение в различных областях, включая воплощенный ИИ, автономное вождение, развлечения и другие. Более реалистичная симуляция с точной физикой эффективно сокращает разрыв между симуляцией и реальностью и позволяет удобно собирать богатую информацию о реальном мире. В то время как традиционное ручное моделирование позволило создавать виртуальные 3D-сцены, современные подходы используют передовые алгоритмы машинного обучения для генерации 3D-мира, причем последние достижения сосредоточены на генеративных методах, которые могут создавать виртуальные миры на основе пользовательских инструкций. Данная работа исследует это направление, предлагая LatticeWorld — простую, но эффективную структуру для генерации 3D-мира, которая упрощает производственный процесс создания 3D-сред. LatticeWorld использует легковесные языковые модели (LLaMA-2-7B) вместе с промышленным движком рендеринга (например, Unreal Engine 5) для создания динамической среды. Наша структура принимает текстовые описания и визуальные инструкции в качестве мультимодальных входных данных и создает масштабные интерактивные 3D-миры с динамическими агентами, включая конкурентоспособное взаимодействие между агентами, высокоточную физическую симуляцию и рендеринг в реальном времени. Мы проводим всесторонние эксперименты для оценки LatticeWorld, демонстрируя, что он достигает превосходной точности в генерации компоновки сцены и визуальной достоверности. Более того, LatticeWorld обеспечивает более чем 90-кратное увеличение эффективности промышленного производства при сохранении высокого творческого качества по сравнению с традиционными методами ручного производства. Наше демонстрационное видео доступно по ссылке: https://youtu.be/8VWZXpERR18.
Мы представляем WinT3R, модель прямого распространения для реконструкции, способную выполнять онлайн-предсказание точных поз камер и создавать высококачественные карты точек. Предыдущие методы сталкиваются с компромиссом между качеством реконструкции и производительностью в реальном времени. Чтобы решить эту проблему, мы сначала вводим механизм скользящего окна, который обеспечивает достаточный обмен информацией между кадрами в пределах окна, тем самым улучшая качество геометрических предсказаний без значительных вычислительных затрат. Кроме того, мы используем компактное представление камер и поддерживаем глобальный пул токенов камер, что повышает надежность оценки поз камер без ущерба для эффективности. Эти решения позволяют WinT3R достичь передовых результатов с точки зрения качества онлайн-реконструкции, оценки поз камер и скорости реконструкции, что подтверждается обширными экспериментами на различных наборах данных. Код и модель доступны по адресу https://github.com/LiZizun/WinT3R.
Прогресс во многих предметных областях достигается за счет многократных пересмотров предыдущих попыток решения. Обучение агентов, которые могут надежно самосовершенствоваться в таких последовательностях во время выполнения, является естественной целью для обучения с подкреплением (RL). Однако наивный подход предполагает фиксированную максимальную глубину итераций, что может быть как затратным, так и произвольным. Мы представляем Exploratory Iteration (ExIt) — семейство методов автокуррикулума RL, которые напрямую используют рекуррентную структуру задач самосовершенствования для обучения языковых моделей (LLM) выполнению многошагового самосовершенствования во время выполнения, при этом обучаясь только на наиболее информативных одношаговых итерациях. ExIt расширяет пространство задач, выборочно выбирая наиболее информативные промежуточные частичные истории, встречающиеся в ходе эпизода, для продолжения итераций, рассматривая эти начальные точки как новые экземпляры задач самосовершенствования для обучения политики самосовершенствования. ExIt может дополнительно сочетаться с явными механизмами исследования для поддержания большего разнообразия задач. В нескольких областях, включая соревновательную математику, многошаговое использование инструментов и инженерию машинного обучения, мы демонстрируем, что стратегии ExIt, начиная с одного или множества экземпляров задач, могут создавать политики, демонстрирующие сильное самосовершенствование во время выполнения на удерживаемых экземплярах задач, а также способность итерировать в сторону повышения производительности в рамках бюджета шагов, выходящего за среднюю глубину итераций, встречающуюся во время обучения.
Современные эталонные тесты для крупных языковых моделей (LLM) в основном сосредоточены на метриках производительности, часто упуская из виду тонкие поведенческие характеристики, которые их отличают. В данной статье представлена новая концепция «Поведенческого отпечатка», разработанная для выхода за рамки традиционной оценки путем создания многогранного профиля внутренних когнитивных и интерактивных стилей модели. Используя тщательно подобранный набор диагностических запросов и инновационный автоматизированный процесс оценки, в котором мощная LLM выступает в роли беспристрастного судьи, мы анализируем восемнадцать моделей различных уровней возможностей. Наши результаты выявляют критическое расхождение в ландшафте LLM: хотя ключевые способности, такие как абстрактное и причинно-следственное мышление, сходятся у ведущих моделей, поведение, связанное с согласованностью, такое как угодливость и семантическая устойчивость, значительно варьируется. Мы также документируем кластеризацию кросс-модельных стандартных персонажей (ISTJ/ESTJ), которая, вероятно, отражает общие стимулы согласованности. В совокупности это свидетельствует о том, что интерактивная природа модели не является эмерджентным свойством её масштаба или вычислительной мощности, а прямым следствием специфических и сильно варьирующихся стратегий согласованности разработчиков. Наш подход предоставляет воспроизводимую и масштабируемую методологию для выявления этих глубоких поведенческих различий. Проект: https://github.com/JarvisPei/Behavioral-Fingerprinting
Эффективность крупных языковых моделей (LLM) обычно оценивается с помощью тестов, таких как MMLU, ARC-C или HellaSwag, где вопросы представлены в их исходной формулировке, то есть в фиксированном, стандартизированном формате. Однако в реальных приложениях возникает лингвистическая вариативность, что требует от моделей сохранения эффективности при различных переформулировках одного и того же вопроса или запроса. В данном исследовании мы систематически оцениваем устойчивость LLM к перефразированным тестовым вопросам и исследуем, обеспечивают ли оценки на основе тестов надежную меру возможностей моделей. Мы систематически генерируем различные перефразировки всех вопросов из шести различных популярных тестов и измеряем изменения в эффективности 34 современных LLM разного размера и уровня эффективности. Наши результаты показывают, что, хотя рейтинги LLM остаются относительно стабильными при перефразированных входных данных, абсолютные показатели эффективности изменяются и значительно снижаются. Это свидетельствует о том, что LLM испытывают трудности с лингвистической вариативностью, что вызывает опасения относительно их способности к обобщению и методологий оценки. Более того, наблюдаемое снижение производительности ставит под сомнение надежность оценок на основе тестов, указывая на то, что высокие баллы в тестах могут не полностью отражать устойчивость модели к вариациям входных данных в реальных условиях. Мы обсуждаем последствия этих выводов для методологий оценки LLM, подчеркивая необходимость в тестах, учитывающих устойчивость, которые лучше отражают сценарии практического применения.
Диагностические ошибки в радиологии — ошибки пропуска, невнимательная слепота и сбои в коммуникации — остаются распространёнными в клинической практике. Эти проблемы часто возникают из-за пропущенных локальных аномалий, ограниченного глобального контекста и вариативности языка в отчетах. Эти сложности усиливаются в 3D-визуализации, где клиницисты должны анализировать сотни срезов на одно сканирование. Для их решения требуются системы с точным локальным обнаружением, глобальным анализом на уровне объема и семантически согласованным формированием отчетов на естественном языке. Однако существующие 3D модели, объединяющие зрение и язык, не способны одновременно удовлетворить все три требования, испытывая недостаток в локально-глобальном понимании для пространственного анализа и сталкиваясь с вариативностью и шумом необработанных радиологических отчетов. Мы представляем MedVista3D — многоуровневую семантически обогащенную модель предварительного обучения для анализа 3D КТ, объединяющую зрение и язык. Для совместного обнаружения заболеваний и целостной интерпретации MedVista3D выполняет локальное и глобальное согласование изображений и текста для обучения тонким представлениям в контексте полного объема. Для устранения вариативности отчетов мы применяем переформулирование с помощью языковых моделей и вводим Банк семантического соответствия радиологии для семантически осознанного согласования. MedVista3D демонстрирует наилучшие результаты в задачах классификации заболеваний без предварительного обучения, поиска отчетов и ответов на медицинские визуальные вопросы, а также успешно переносится на задачи сегментации органов и прогнозирования исхода. Код и наборы данных будут опубликованы.
Мы представляем U-Arm — недорогую и быстро адаптируемую систему телеуправления по принципу "лидер-ведомый", предназначенную для взаимодействия с большинством коммерчески доступных роботизированных манипуляторов. Наша система поддерживает телеуправление через три структурно различных 3D-печатных манипулятора-лидера, которые используют единую логику управления, обеспечивая бесшовную совместимость с различными конфигурациями коммерческих роботов. По сравнению с предыдущими открытыми интерфейсами "лидер-ведомый", мы оптимизировали как механическую конструкцию, так и выбор сервоприводов, достигнув стоимости материалов (BOM) всего в \$50,5 для 6-степенного манипулятора-лидера и \$56,8 для 7-степенной версии. Для повышения удобства использования мы устраняем распространённую проблему управления избыточными степенями свободы за счёт механических и управляющих оптимизаций. Экспериментальные результаты показывают, что U-Arm обеспечивает на 39% более высокую эффективность сбора данных и сопоставимые показатели успешности выполнения задач в различных сценариях манипуляции по сравнению с Joycon, другим недорогим интерфейсом телеуправления. Мы открыли исходные коды всех CAD-моделей для трёх конфигураций, а также предоставили поддержку симуляции для проверки рабочих процессов телеуправления. Мы также опубликовали данные о реальных манипуляциях, собранные с помощью U-Arm. Сайт проекта доступен по адресу: https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm.