Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de visión-lenguaje existentes (VLMs) en su mayoría dependen de codificadores de visión para extraer características visuales seguidas de grandes modelos de lenguaje (LLMs) para tareas de visión-lenguaje. Sin embargo, los codificadores de visión imponen un fuerte sesgo inductivo en la abstracción de la representación visual, por ejemplo, la resolución, la relación de aspecto y los supuestos semánticos, lo cual podría obstaculizar la flexibilidad y eficiencia de los VLMs. Entrenar VLMs puros que acepten entradas de visión y lenguaje de forma continua, es decir, sin codificadores de visión, sigue siendo un desafío y rara vez explorado. Observaciones empíricas revelan que el entrenamiento directo sin codificadores resulta en una convergencia lenta y grandes brechas de rendimiento. En este trabajo, cerramos la brecha entre los modelos basados en codificadores y los modelos libres de codificadores, y presentamos una receta de entrenamiento simple pero efectiva hacia VLMs puros. Específicamente, desvelamos los aspectos clave del entrenamiento de VLMs libres de codificadores de manera eficiente a través de experimentos exhaustivos: (1) Uniendo la representación visión-lenguaje dentro de un decodificador unificado; (2) Mejorando la capacidad de reconocimiento visual mediante supervisión adicional. Con estas estrategias, lanzamos EVE, un modelo de visión-lenguaje libre de codificadores que puede ser entrenado y utilizado de manera eficiente. Notablemente, utilizando únicamente 35M de datos accesibles públicamente, EVE puede rivalizar de manera impresionante con los VLMs basados en codificadores de capacidades similares en múltiples benchmarks de visión-lenguaje. Supera significativamente al contraparte Fuyu-8B con procedimientos de entrenamiento misteriosos y datos de entrenamiento no revelados. Creemos que EVE proporciona una ruta transparente y eficiente para desarrollar una arquitectura pura de solo decodificador a través de modalidades. Nuestro código y modelos están disponibles públicamente en: https://github.com/baaivision/EVE.
Este informe presenta FunAudioLLM, una familia de modelos diseñada para mejorar las interacciones de voz naturales entre humanos y grandes modelos de lenguaje (LLMs). En su núcleo se encuentran dos modelos innovadores: SenseVoice, que se encarga del reconocimiento de voz multilingüe, reconocimiento de emociones y detección de eventos de audio; y CosyVoice, que facilita la generación de voz natural con control sobre múltiples idiomas, timbre, estilo de habla e identidad del hablante. SenseVoice-Small ofrece un ASR excepcionalmente de baja latencia para 5 idiomas, y SenseVoice-Large admite un ASR de alta precisión para más de 50 idiomas, mientras que CosyVoice sobresale en la generación de voz multilingüe, aprendizaje en contexto sin datos previos, clonación de voz entre idiomas y capacidades de seguimiento de instrucciones. Los modelos relacionados con SenseVoice y CosyVoice se han hecho de código abierto en Modelscope y Huggingface, junto con los códigos correspondientes de entrenamiento, inferencia y ajuste fino publicados en GitHub. Al integrar estos modelos con LLMs, FunAudioLLM permite aplicaciones como la traducción de voz a voz, chat de voz emocional, podcasts interactivos y narración expresiva de audiolibros, ampliando así los límites de la tecnología de interacción por voz. Las demostraciones están disponibles en https://fun-audio-llm.github.io, y el código se puede acceder en https://github.com/FunAudioLLM.
La autoatención funciona bien en contextos largos pero tiene una complejidad cuadrática. Las capas RNN existentes tienen complejidad lineal, pero su rendimiento en contextos largos está limitado por la capacidad expresiva de su estado oculto. Proponemos una nueva clase de capas de modelado de secuencias con complejidad lineal y un estado oculto expresivo. La idea clave es hacer que el estado oculto sea un modelo de aprendizaje automático en sí mismo, y la regla de actualización un paso de aprendizaje auto-supervisado. Dado que el estado oculto se actualiza mediante el entrenamiento incluso en secuencias de prueba, nuestras capas se llaman capas de Entrenamiento en Tiempo de Prueba (TTT). Consideramos dos instanciaciones: TTT-Lineal y TTT-MLP, cuyo estado oculto es un modelo lineal y un MLP de dos capas respectivamente. Evaluamos nuestras instanciaciones en una escala de 125M a 1.3B parámetros, comparando con un Transformer sólido y Mamba, una RNN moderna. Tanto TTT-Lineal como TTT-MLP igualan o superan los resultados base. Al igual que Transformer, pueden seguir reduciendo la perplejidad condicionando más tokens, mientras que Mamba no puede hacerlo después de 16k contextos. Con la optimización preliminar de sistemas, TTT-Lineal ya es más rápido que Transformer en 8k contextos y coincide con Mamba en tiempo de reloj. TTT-MLP todavía enfrenta desafíos en la memoria de E/S, pero muestra un mayor potencial en contextos largos, apuntando en una dirección prometedora para futuras investigaciones.
Los avances en la inteligencia artificial generativa han ampliado las posibles aplicaciones de los Modelos de Lenguaje Extensos (MLE) en el desarrollo de agentes autónomos. Lograr una verdadera autonomía requiere acumular y actualizar el conocimiento adquirido a través de interacciones con el entorno y utilizarlo de manera efectiva. Los enfoques actuales basados en MLE aprovechan experiencias pasadas utilizando un historial completo de observaciones, resumen o mejora de recuperación. Sin embargo, estas representaciones de memoria no estructuradas no facilitan el razonamiento y la planificación necesarios para la toma de decisiones complejas. En nuestro estudio, presentamos AriGraph, un método novedoso en el cual el agente construye un grafo de memoria que integra memorias semánticas y episódicas mientras explora el entorno. Esta estructura de grafo facilita la recuperación asociativa eficiente de conceptos interconectados, relevantes para el estado actual y los objetivos del agente, sirviendo así como un modelo ambiental efectivo que mejora las capacidades exploratorias y de planificación del agente. Demostramos que nuestro agente Ariadne LLE, equipado con esta arquitectura de memoria propuesta mejorada con planificación y toma de decisiones, maneja eficazmente tareas complejas de manera directa en el entorno TextWorld. Nuestro enfoque supera notablemente a métodos establecidos como historial completo, resumen y Generación con Recuperación Mejorada en diversas tareas, incluida el desafío de cocina de la competencia First TextWorld Problems y tareas novedosas como limpieza de casas y búsqueda de tesoros en rompecabezas.
La reciente aparición de Modelos de Lenguaje de Visión Médica a Gran Escala (Med-LVLMs) ha mejorado el diagnóstico médico. Sin embargo, los Med-LVLMs actuales a menudo encuentran problemas de precisión factual, generando respuestas que no se alinean con los hechos médicos establecidos. La Generación con Recuperación Aumentada (RAG), que utiliza conocimiento externo, puede mejorar la precisión factual de estos modelos pero introduce dos desafíos principales. En primer lugar, los contextos recuperados limitados podrían no cubrir toda la información necesaria, mientras que una recuperación excesiva puede introducir referencias irrelevantes e inexactas, interfiriendo con la generación del modelo. En segundo lugar, en casos donde el modelo responde correctamente originalmente, aplicar RAG puede llevar a una dependencia excesiva en los contextos recuperados, resultando en respuestas incorrectas. Para abordar estos problemas, proponemos RULE, que consta de dos componentes. En primer lugar, presentamos una estrategia probadamente efectiva para controlar el riesgo de factualidad a través de la selección calibrada del número de contextos recuperados. En segundo lugar, basándonos en muestras donde la dependencia excesiva en los contextos recuperados llevó a errores, creamos un conjunto de datos de preferencias para ajustar finamente el modelo, equilibrando su dependencia en el conocimiento inherente y los contextos recuperados para la generación. Demostramos la efectividad de RULE en tres conjuntos de datos de preguntas y respuestas médicas, logrando una mejora promedio del 20.8% en precisión factual. Publicamos nuestro banco de pruebas y código en https://github.com/richard-peng-xia/RULE.
Dada la ubicuidad de los gráficos como herramienta de análisis de datos, visualización y toma de decisiones en diversas industrias y ciencias, ha surgido un creciente interés en desarrollar modelos base pre-entrenados, así como modelos ajustados a instrucciones de propósito general para la comprensión y razonamiento de gráficos. Sin embargo, los métodos existentes presentan inconvenientes cruciales en dos ejes críticos que afectan el rendimiento de los modelos de representación de gráficos: están entrenados en datos generados a partir de las tablas de datos subyacentes de los gráficos, ignorando las tendencias visuales y patrones en las imágenes de los gráficos, y utilizan modelos de base visión-lenguaje débilmente alineados para el entrenamiento específico de dominio, limitando su generalización al encontrarse con gráficos en la naturaleza. Abordamos estos inconvenientes importantes e introducimos ChartGemma, un modelo novedoso de comprensión y razonamiento de gráficos desarrollado sobre PaliGemma. En lugar de depender de tablas de datos subyacentes, ChartGemma se entrena en datos de ajuste de instrucciones generados directamente a partir de imágenes de gráficos, capturando así tanto las tendencias de alto nivel como la información visual de bajo nivel de un conjunto diverso de gráficos. Nuestro enfoque simple logra resultados de vanguardia en 5 benchmarks que abarcan la sumarización de gráficos, la respuesta a preguntas y la verificación de hechos, y nuestros estudios cualitativos detallados en gráficos del mundo real muestran que ChartGemma genera resúmenes más realistas y factualmente correctos en comparación con sus contemporáneos. Publicamos el código, los puntos de control del modelo, el conjunto de datos y las demos en https://github.com/vis-nlp/ChartGemma.
Los humanos comparten una amplia variedad de imágenes relacionadas con sus experiencias personales dentro de conversaciones a través de herramientas de mensajería instantánea. Sin embargo, los trabajos existentes se centran en (1) el comportamiento de compartir imágenes en sesiones individuales, lo que conduce a una interacción social limitada a largo plazo, y (2) una falta de comportamiento personalizado de compartir imágenes. En este trabajo, presentamos Stark, un conjunto de datos de conversación multi-modal a gran escala a largo plazo que abarca una amplia gama de personalidades sociales en un formato multi-modal, intervalos de tiempo e imágenes. Para construir Stark automáticamente, proponemos un novedoso marco de contextualización multi-modal, Mcu, que genera un diálogo multi-modal a largo plazo destilado de ChatGPT y nuestro alineador de imágenes Propósito-y-Ejecución propuesto. Utilizando nuestro conjunto de datos Stark, entrenamos un modelo de conversación multi-modal, Ultron 7B, que demuestra una impresionante capacidad de imaginación visual. Además, demostramos la efectividad de nuestro conjunto de datos en evaluación humana. Ponemos nuestro código fuente y conjunto de datos a disposición del público.
Los modelos de lenguaje grandes (LLMs) han logrado un progreso impresionante en la resolución de problemas matemáticos simples, sin embargo, todavía enfrentan dificultades con tareas matemáticas más desafiantes y complejas. En este documento, presentamos una serie de LLMs que emplean la Descomposición del pensamiento con asistencia de código y autorrevisión para el razonamiento matemático, denominados DotaMath. Los modelos DotaMath abordan tareas matemáticas complejas descomponiéndolas en subtareas lógicas más simples, aprovechando el código para resolver estas subtareas, obteniendo retroalimentación detallada del intérprete de código, y participando en autorreflexión y corrección. Al anotar diversas trayectorias de uso de herramientas interactivas y emplear la evolución de consultas en los conjuntos de datos GSM8K y MATH, generamos un conjunto de datos de ajuste fino de instrucciones llamado DotaMathQA con 574K pares de consultas-respuestas. Entrenamos una serie de LLMs base utilizando aprendizaje por imitación en DotaMathQA, lo que resulta en modelos DotaMath que logran un rendimiento notable en comparación con LLMs de código abierto en diversos benchmarks dentro y fuera del dominio. Destacadamente, DotaMath-deepseek-7B muestra un rendimiento excepcional del 64.8% en el competitivo conjunto de datos MATH y del 86.7% en GSM8K. Además, DotaMath-deepseek-7B mantiene una fuerte competitividad en una serie de benchmarks dentro y fuera del dominio (Prom. 80.1%). Mirando hacia el futuro, anticipamos que el paradigma DotaMath abrirá nuevos caminos para abordar problemas matemáticos intrincados. Nuestro código está disponible públicamente en https://github.com/ChengpengLi1003/DotaMath.
Este documento presenta LLM-jp, un proyecto interorganizacional para la investigación y desarrollo de modelos de lenguaje grandes en japonés (LLMs). LLM-jp tiene como objetivo desarrollar LLMs japoneses de código abierto y potentes, y hasta la fecha de esta escritura, más de 1,500 participantes de la academia e industria están colaborando con este propósito. Este documento expone el contexto de la creación de LLM-jp, resúmenes de sus actividades e informes técnicos sobre los LLMs desarrollados por LLM-jp. Para conocer las últimas actividades, visite https://llm-jp.nii.ac.jp/en/.
Beneficiándose de los avances en los grandes modelos de lenguaje y el alineamiento multimodal, los métodos existentes de comprensión de video multimodal han logrado un rendimiento destacado en escenarios offline. Sin embargo, los flujos de video en línea, como una de las formas de medios más comunes en el mundo real, han recibido escasa atención. En comparación con los videos offline, la naturaleza 'dinámica' de los flujos de video en línea plantea desafíos para la aplicación directa de los modelos existentes e introduce nuevos problemas, como el almacenamiento de información extremadamente a largo plazo, la interacción entre el contenido visual continuo y las preguntas de usuario 'asincrónicas'. Por lo tanto, en este documento presentamos Flash-VStream, un modelo de video-lenguaje que simula el mecanismo de memoria humano. Nuestro modelo es capaz de procesar flujos de video extremadamente largos en tiempo real y responder a consultas de usuarios simultáneamente. En comparación con los modelos existentes, Flash-VStream logra reducciones significativas en la latencia de inferencia y el consumo de VRAM, lo cual está íntimamente relacionado con la comprensión de video en streaming en línea. Además, dado que los benchmarks existentes de comprensión de video se concentran predominantemente en escenarios offline, proponemos VStream-QA, un nuevo benchmark de preguntas y respuestas diseñado específicamente para la comprensión de video en streaming en línea. Las comparaciones con los métodos existentes populares en el benchmark propuesto demuestran la superioridad de nuestro método para este entorno desafiante. Para verificar la generalizabilidad de nuestro enfoque, lo evaluamos además en benchmarks existentes de comprensión de video y logramos un rendimiento de vanguardia también en escenarios offline. Todo el código, modelos y conjuntos de datos están disponibles en https://invinciblewyq.github.io/vstream-page/
Los protocolos de supervisión escalables tienen como objetivo permitir a los humanos supervisar con precisión una IA superhumana. En este documento estudiamos el debate, donde dos IA compiten para convencer a un juez; la consultoría, donde una sola IA intenta convencer a un juez que hace preguntas; y comparamos con una línea base de pregunta-respuesta directa, donde el juez responde directamente sin la IA. Utilizamos grandes modelos de lenguaje (LLMs) tanto como agentes de IA como sustitutos de jueces humanos, considerando que los modelos de jueces son más débiles que los modelos de agentes. Realizamos pruebas en una amplia gama de asimetrías entre jueces y agentes, ampliando trabajos anteriores en una única tarea extractiva de pregunta-respuesta con asimetría de información, para incluir también asimetrías en matemáticas, codificación, lógica y razonamiento multimodal. Descubrimos que el debate supera a la consultoría en todas las tareas cuando al consultor se le asigna aleatoriamente argumentar a favor de la respuesta correcta/incorrecta. Al comparar el debate con la respuesta directa a preguntas, los resultados dependen del tipo de tarea: en tareas extractivas de pregunta-respuesta con asimetría de información, el debate supera a la respuesta directa a preguntas, pero en otras tareas sin asimetría de información, los resultados son mixtos. Trabajos anteriores asignaron respuestas a favor de las cuales debatir a los debatientes/consultores. Cuando les permitimos elegir qué respuesta argumentar, descubrimos que los jueces son convencidos menos frecuentemente por la respuesta incorrecta en el debate que en la consultoría. Además, observamos que modelos de debatientes más sólidos aumentan la precisión de los jueces, aunque de manera más modesta que en estudios anteriores.
Se sabe que los LLM son vulnerables a ataques de jailbreak, incluso después de la alineación de seguridad. Una observación importante es que, si bien diferentes tipos de ataques de jailbreak pueden generar consultas significativamente diferentes, en su mayoría resultan en respuestas similares que se basan en el mismo conocimiento perjudicial (por ejemplo, pasos detallados para fabricar una bomba). Por lo tanto, conjeturamos que desaprender directamente el conocimiento perjudicial en el LLM puede ser una forma más efectiva de defenderse contra los ataques de jailbreak que los enfoques basados en el ajuste fino supervisado (SFT) convencionales. Nuestros extensos experimentos confirmaron nuestra perspicacia y sugirieron una sorprendente generalización de nuestro enfoque basado en el desaprendizaje: utilizando solo 20 preguntas perjudiciales sin procesos de jailbreak durante el entrenamiento, nuestra solución redujo la Tasa de Éxito del Ataque (ASR) en Vicuna-7B en preguntas perjudiciales fuera de distribución (OOD) envueltas con varios complejos procesos de jailbreak del 82.6% al 7.7%. Esto supera significativamente a Llama2-7B-Chat, que está ajustado fino en aproximadamente 0.1M muestras de alineación de seguridad pero aún tiene un ASR del 21.9% incluso con la ayuda de un proceso de seguridad adicional. Un análisis adicional revela que la capacidad de generalización de nuestra solución proviene de la relación intrínseca entre las respuestas perjudiciales a través de las preguntas perjudiciales (por ejemplo, patrones de respuesta, pasos y acciones compartidos, y similitud entre sus representaciones aprendidas en el LLM). Nuestro código está disponible en https://github.com/thu-coai/SafeUnlearning.
Los modelos de base multimodal que pueden procesar de manera holística texto junto con imágenes, video, audio y otras modalidades sensoriales se utilizan cada vez más en una variedad de aplicaciones del mundo real. Sin embargo, resulta desafiante caracterizar y estudiar el progreso en los modelos de base multimodal, dada la variedad de posibles decisiones de modelado, tareas y dominios. En este documento, presentamos la Evaluación Holística de Modelos Multimodales (EHMM) para evaluar sistemáticamente las capacidades de los modelos de base multimodal a través de un conjunto de 3 dimensiones: habilidades básicas, flujo de información y casos de uso del mundo real. Las habilidades multimodales básicas son las capacidades internas necesarias para resolver problemas, como el aprendizaje de interacciones entre modalidades, alineación detallada, razonamiento de múltiples pasos y la capacidad de manejar conocimiento externo. El flujo de información estudia cómo cambia el contenido multimodal durante una tarea a través de consultas, traducción, edición y fusión. Los casos de uso abarcan desafíos específicos de dominio introducidos en aplicaciones multimedia del mundo real, computación afectiva, ciencias naturales, atención médica e interacción humano-computadora. A través de experimentos exhaustivos en las 30 tareas en EHMM, (1) identificamos dimensiones clave de conjuntos de datos (por ejemplo, habilidades básicas, flujos de información y casos de uso) que plantean desafíos a los modelos actuales, y (2) destilamos tendencias de rendimiento con respecto a cómo diferentes dimensiones de modelado (por ejemplo, escala, datos de pre-entrenamiento, alineación multimodal, pre-entrenamiento y objetivos de ajuste de instrucciones) influyen en el rendimiento. Nuestras conclusiones sobre interacciones multimodales desafiantes, casos de uso y tareas que requieren razonamiento y conocimiento externo, los beneficios de la escala de datos y modelos, y los impactos del ajuste de instrucciones ofrecen ideas accionables para trabajos futuros en modelos de base multimodal.
Los campos de radiación neuronal (NeRFs) han recibido una atención significativa debido a su capacidad de renderizar vistas novedosas de alta calidad, lo que ha impulsado la investigación para abordar varios casos del mundo real. Un desafío crítico es el desenfoque por movimiento de cámara causado por el movimiento de la cámara durante el tiempo de exposición, lo cual impide una reconstrucción precisa de escenas en 3D. En este estudio, proponemos el esparcimiento gaussiano continuo consciente del movimiento rígido (CRiM-GS) para reconstruir una escena en 3D precisa a partir de imágenes borrosas con velocidad de renderizado en tiempo real. Considerando el proceso de desenfoque real de movimiento de cámara, que consta de patrones de movimiento complejos, predecimos el movimiento continuo de la cámara basándonos en ecuaciones diferenciales ordinarias neuronales (ODEs). Específicamente, aprovechamos las transformaciones de cuerpo rígido para modelar el movimiento de la cámara con una regularización adecuada, preservando la forma y el tamaño del objeto. Además, introducimos una transformación 3D deformable continua en el campo SE(3) para adaptar la transformación de cuerpo rígido a problemas del mundo real asegurando un mayor grado de libertad. Al volver a examinar la teoría fundamental de la cámara y emplear técnicas avanzadas de entrenamiento de redes neuronales, logramos modelar con precisión trayectorias continuas de cámara. Realizamos experimentos extensos, demostrando un rendimiento de vanguardia tanto cuantitativa como cualitativamente en conjuntos de datos de referencia.
Los Modelos de Lenguaje Visual (VLMs) están avanzando rápidamente en su capacidad para responder preguntas de búsqueda de información. Dado que estos modelos se despliegan ampliamente en aplicaciones de consumo, podrían dar lugar a nuevos riesgos de privacidad debido a las capacidades emergentes para identificar personas en fotos, geolocalizar imágenes, etc. Como demostramos, de manera algo sorprendente, los actuales VLMs de código abierto y propietarios son localizadores de imágenes muy capaces, lo que convierte a la geolocalización generalizada con VLMs en un riesgo de privacidad inmediato, en lugar de ser simplemente una preocupación teórica futura. Como primer paso para abordar este desafío, desarrollamos un nuevo punto de referencia, GPTGeoChat, para probar la capacidad de los VLMs para moderar diálogos de geolocalización con usuarios. Recopilamos un conjunto de 1,000 conversaciones de geolocalización de imágenes entre anotadores internos y GPT-4v, que están anotadas con la granularidad de la información de ubicación revelada en cada turno. Utilizando este nuevo conjunto de datos, evaluamos la capacidad de varios VLMs para moderar las conversaciones de geolocalización de GPT-4v al determinar cuándo se ha revelado demasiada información de ubicación. Descubrimos que los modelos personalizados ajustados funcionan al mismo nivel que los modelos basados en API cuando se identifica información de ubicación filtrada a nivel de país o ciudad; sin embargo, parece ser necesario el ajuste fino en datos supervisados para moderar con precisión granularidades más finas, como el nombre de un restaurante o edificio.